OpenAIがGPT-5と『統合モデル』の詳細を公開

3,691 文字

ついにGPT-4.5とGPT-5に関する最新情報が入ってきましたので、見ていきましょう。サム・アルトマンがXに投稿を行い、GPT-4.5と5に関するロードマップを共有しています。
まず彼が指摘したのは、現在のモデル選択の体験が非常に良くないということです。私はプロアカウントを持っていますが、どれだけ多くの選択肢があるか見てください。GPT-4o、スケジュールタスク付きのGPT-4o、o1、o3 mini、o3 mini High、o1 Pro mode、その他のモデル、GPT-4o Min、GPT-4レガシーモデル、それに一時的なチャットトグルまであります。本当に使いづらい体験です。
さらにSoraのための別製品、operatorのための別製品があり、まだ終わりではありません。ウェブ検索のオン/オフボタン、ディープリサーチのオン/オフボタンも別々にあります。なぜこれが必要なのでしょうか？ディープリサーチボタンが、選択したモデルによってどう影響を受けるのか？これらは全く意味をなしていません。非常に混乱する仕様で、彼らはこれを簡素化しようとしています。私もそれを聞いて大変嬉しく思います。
少なくとも私にとって理想的な体験は、プロンプトに基づいて何をすべきかを理解する単一の統合ボックスです。これは、私が非常に強気に見ているマルチモデルの未来にも通じるものです。大規模モデルが未来を支配すると考えるにせよ、多くの小規模モデルが支配すると考えるにせよ、多くのモデルが存在することになります。一般ユーザーがプロンプトごとに特定の用途に合わせてどのモデルを選ぶべきか知っているという考えは馬鹿げています。
私が望むのはモデルルーターです。最も基本的な例を挙げると、クエリがあり、クエリに基づいてどのモデルにルーティングするかを知っている学習済みルーターがあり、そして使用する異なるLLMがあります。これは明らかにドメインA、ドメインB、ドメインCと書くべきですが、まあいいでしょう。
オープンソースの世界では、Not Diamondのような製品があります。私はNot Diamondの小規模な投資家なので、そのことは開示しておきます。Not Diamondでは、プロンプトを送信すると、内部で開発されたモデルを使用して、どのオープンソースモデルにプロンプトをルーティングするかを決定します。価格、速度、品質などを最適化でき、独自の最適化指標を定義することもできます。
OpenAIに話を戻すと、このドロップダウンの代わりに非常にシンプルなインターフェースがあり、質問をする際にウェブからのライブデータが必要かどうかを判断できるようになることを想像してください。研究プロジェクトを依頼したり、複雑な主題について質問したりする場合は、ディープリサーチを使用し、ウェブ上でタスクを実行するよう依頼する場合は、operatorを使用します。
Soraについても同じことが言えます。これらは全て、プロンプトの意図を理解するだけで解決できます。サム・アルトマンの投稿に戻ると、「AIがあなたのために上手く機能することを望んでいます。私たちのモデルと製品提供が複雑になりすぎていることを認識しています。私たちもモデルピッカーを嫌っており、魔法のような統合された知能に戻りたいと考えています」と述べています。彼らがそうしてくれるのは素晴らしいことでしょう。
さて、GPT-4.5についての最新情報です。これは内部でOrionと呼んでいたモデルです。次のモデルがOrionと呼ばれているという噂は正しかったわけです。「私たちは内部でOrionと呼んでいたGPT-4.5を、思考の連鎖を持たない最後のモデルとしてリリースします」非常に興味深いですね。GPT-4.5が思考を持たない最後のモデルになるということで、ここで一つの時代が終わることになります。
GPT-3.5は世界を変え、GPT-4は大きな飛躍でした。GPT-4.5が思考なしの最後のモデルとなり、その後の最優先目標は、全てのツールを使用できるシステムを作ることによって、Oシリーズのモデルとシリーズのモデルを統合することです。
このチャンネルの友人で、Forward Futureニュースレターの寄稿者でもあるChubbyは（ちなみにまだForward Futureをチェックしていない方は、ぜひチェックしてください）、数週間前にサム・アルトマンに今後の計画について、特にこれらの異なるモデルを統合する計画があるかどうかを尋ねました。答えは「はい」で、今回さらに詳しい情報が出てきました。
彼らはOシリーズのモデルとGPTシリーズのモデルを統合する予定です。これは良いことです。なぜなら、モデルは再びプロンプトに基づいて、拡張思考が必要かどうかを判断できるべきだからです。これらのことは全て、ユーザーが理解すべきことではありません。
ウェブ検索、画像生成、ビジョン、音声（そういえば高度な音声、音声モードについても触れていませんでした）、これら全てのものを一つにまとめる必要があります。つまり、これらの異なるツールを1つの単一のモデルで使用できるようにする（少なくともユーザーにはそう見える）べきです。長時間の思考が必要な場合はそれを判断し、幅広いタスクに一般的に役立つものであるべきです。
GPT-5の最新情報については、ChatGPTとAPIの両方で、o3を含む多くの技術を統合したシステムとしてGPT-5をリリースする予定とのことです。これは非常に興味深いですね。Oファミリーの命名規則を廃止して、GPT-5がこの全てを包含するものとなり、GPTの命名規則に焦点を当てているようです。o3は単独のモデルとしては提供されなくなります。非常に興味深いですね。
無料ユーザーは、有料ではない分、より多くの価値を得ることになります。ChatGPTの無料層では、標準の知能設定で、乱用の閾値に従いながら、GPT-5への無制限のチャットアクセスが可能になります。
ここで解説すべきことがいくつかあります。標準の知能設定について、やはりこのような設定は不要だと思います。単純に、与えられたタスクに必要な知能を教えてくれればいいのです。APIの場合は明らかにもっと多くのカスタマイズが必要ですが、特に無料ユーザーが決定したり、知る必要があったりするのはなぜでしょうか。
ただし、乱用の閾値については、何を意味するのかはっきりしません。利用規約に反する方法で使用しようとする場合なのか、それとも無料ユーザーがレート制限に挑戦しようとしている場合なのか、実際には何を意味するのか分かりません。
さて、Plusサブスクライバーが得られるものを見ていきましょう。Plusサブスクライバーは、より高いレベルの知能でGPT-5を実行できるようになり、Proユーザー、つまりProサブスクライバーは、さらに高いレベルの知能でGPT-5を実行できるようになります。これらのモデルは、音声、キャンバス、検索、ディープリサーチなどを組み込むことになります。
これは、Appleのラップトップを購入する時のようなものだと考えることができます。Appleのラップトップを購入すると、標準的なハードウェアセットが得られますが、より高速なチップ速度とより多くのメモリのために追加料金を支払うことができます。ここでもそれと同じような感じです。無料では標準的な機能セット、Plusでは増加した知能、そしてProではさらに多くの知能が得られます。また、より高いティアプランではレート制限も大幅に高くなると予想されます。
彼が「モデルは音声、キャンバス、検索、ディープリサーチなどを組み込む」と言っているのは、本当に素晴らしいことです。そうあるべきなのです。
さて、再びチャンネルの友人Chubbyが「GPT-4.5のETAは？」とサム・アルトマンに尋ねました。彼は「数週間から数ヶ月」と答えましたが、これは基本的に答えになっていません。
そして、現在の利用状況についてもう一つ更新がありました。OpenAIからの2つの更新です。o1とo3 miniがChatGPTでファイルと画像のアップロードをサポートするようになりました。これは非常に重要です。これらの思考モデルがファイルと画像にアクセスできるようになり、ビジョンを持つようになったことは、大きな制限要因でした。
そしてPlusユーザーのo3 mini Highの制限を7倍に引き上げ、1日50回まで可能になりました。本当に素晴らしい更新です。彼らは継続的により多くの知能と、より大きなレート制限を提供してくれています。これらの更新を見られて大変嬉しく思います。ウェブ、モバイル、デスクトップにわたる統一された体験は、アプリ体験にとって非常に重要になるでしょう。
このビデオを楽しんでいただけたなら、いいねとチャンネル登録をご検討ください。次回の動画でお会いしましょう。