GPT-o4が登場 – OpenAIが復活!

6,984 文字

GPT-o4 is HERE - OpenAI is BACK!
Join My Newsletter for Regular AI Updates 👇🏼 Links 🔗👉🏻 Subscribe: 👉🏻 Twitter: https:/...

OpenAIが2つの新しいモデル、o3とo4 miniをリリースしました。これらは信じられないほど最先端のモデルですが、最も素晴らしい点、そして私の意見では新しいスケーリング則と言えるかもしれないのは、これらがツール使用に完全にアクセスできることです。
o3とo4 miniだけでなく、OpenAIからの「もう一つ」のサプライズもありました。彼らは新しいプロジェクトを発表しましたが、これは素晴らしいものに見えます。その詳細は最後にお伝えします。
こちらはOpenAI o3とo4 miniを紹介するブログ記事です。o4モデルが登場するのは今回が初めてですが、これはo3の完全版であり、ベンチマークに対するパフォーマンスは驚異的です。OpenAIによると、これらは「これまでにリリースした最も賢いモデルであり、好奇心旺盛なユーザーから高度な研究者まで、ChatGPTの能力に大きな変化をもたらすもの」とのことです。
ライブストリームでいくつかのクリップをお見せしますが、ブログ記事と通じて強調されていたのは、これらのモデルがエージェント的なツール利用能力を持っているということです。それが重要なポイントです。これらのモデルの生の知性は確かに向上していますが、ツールを効果的に利用できるという事実が、ここでの重要な要素なのです。
以前のOファミリーモデルのリリースを思い出すと、それらは最初からツール使用機能を持っていませんでした。今回のモデルは最初からツール使用機能を持っているだけでなく、実際に非常に上手く使いこなすのです。さらに、OpenAIによると、これらは彼らがリリースした中で、本当に新しいアイデアを生み出す能力を持った最初のモデルとのことです。
新しいアイデアを生み出すことは、私のチャンネルをご覧になった方ならご存知のように、知性爆発を起こすための前提条件です。それは、これらのモデルが研究を行い、自分自身を反復的に無限に改善するために必要なものです。なお、これらのモデルはマルチモーダルで、テキスト、画像、音声などの異なるモダリティを入力でき、また複数のモダリティで出力することもできます。
興味深いことに、そしてOpenAIの命名法に完全に沿って、実際にはo3がo4 miniよりも優れたモデルです。o4は私の推測ではベストモデルになるでしょうが、現時点ではo3とo4 miniがあります。
話はこれくらいにして、ベンチマークに入る前に、ライブストリームからデモをお見せしましょう。これが本当に印象的なのは、反復的なツール使用が見られることです。これは単に一つのツールを使って結果を出力するだけではありません。タスクを達成するために様々なツールを試しているのです。これを見ると、Manifoldに非常に似ています。これらは本当にエージェント的なモデルなのです。
「o3ができることをいくつかお見せします。科学の例から始めましょう。これは物理学のポスターになります。o3に考える時間を与えるために、思考を始めさせます。入力するのは、2015年、つまり10年前に私がやったある物理学のインターンシップのポスターです。このポスターやプロジェクトは、陽子アイソベクトルスカラー電荷という量を推定するものでした。これは標準模型を超える素粒子物理学の量で、短距離相互作用がどれほど強いかを教えてくれます。
ご覧のように、モデルのo3はズームインして、ここでブラウジングしているようです。少し見やすくするためにズームアウトしましょう。基本的にこの結果を見つけて最近の文献と比較するという質問をしたのですが、適切な量を探しているようです。ただし、ちょっとした仕掛けがあります。実は結果はポスターには載っていないのです。それはまだ結果が出ていなかったからです。最終論文にはありますが、このポスターにはありません。私は基本的にo3に残りのプロジェクトをやってもらおうとしているわけです。」
「OpenAIで同じトリックを使っていますね」
「そうですね、確かに」
「良いですね。探していたプロットを見つけました。このプロットの傾きを見つけ、特定の物理的クォーク質量まで外挿し、その量を取得して、その値を正規化するために別の量を適用する必要があることを理解すべきです。これをすべきだということをすでに理解しているようですが、もう少し時間をかけて画像を探索しています。
いいですね、最近の結果についてウェブを検索しようとしています。このタスクを完了するのにどれくらい時間がかかると思いますか?」
「かなり長い時間でしょうね。ポスターが何を意味していたのかを思い出すだけでも長い時間がかかりました。また、最初にこの質問をしたとき、結果がそこになかったことさえ気づいていませんでした。それを教えてくれたのは良かったです。プロジェクトに自分を再び馴染ませるだけでも数日かかり、文献を調査するのにさらに数日かかるでしょう。数秒で少なくとも10の異なる論文を読んだに違いありません。それは大きな時間の節約です。
素晴らしいです。私の結果をまとめてくれましたが、これらの数字は正確に見えます。外挿によって推定されたこの正規化されていない値があり、特定の定数をかけると再正規化されると理解しています。そうすると、私の論文では約1.2くらいになったと思いますが、それに近いものになると言っています。そして実際の文献と比較しています。いくつかの異なる推定値があり、かなり近いように見えます。
それでは、何と言っているか見てみましょう。私の裸の値が高く見えるのは、再正規化が必要だからだと言っています。その通りです。その係数をかけると、最先端の結果とより一致する何かが得られます。素晴らしいです。しかし、私の精度は最先端のものほど良くないと言っています。それは大丈夫です。インターンシップでしたから。」
「悪くないですね」
「その通り、満足しています」
「不確実性が最近の結果よりも少し大きいかもしれない妥当な推定値のようですね。素晴らしいです。つまり、分野は進歩しているということで、素晴らしいことです」
どれほど素晴らしいでしょうか。これらはo3に与えられた複雑なタスクです。ライブストリームでグレッグ・ブロックマンは、これはまだ単なる次のトークン予測に過ぎないと言っています。彼らは本当に、まだ壁にぶつかっていないと信じているのです。彼らは特に、2種類のスケーリングを行っていると述べています。事前トレーニングと、強化学習による事後トレーニングです。そして私の意見では、ツールを使用する能力は本当に別のスケーリング則と言えるでしょう。
いくつかのベンチマークをお見せしましょう。o3とo4 miniがあり、これらは世界で最も難しいベンチマークです。
AMY 2024競争数学:o1は74%、o3 miniは87%、ツールなしのo3は91%、ツールなしのo4 miniは93%。o4 miniはo3よりも高速で安価な代替品となるはずです。この時点で多くの選択肢があります。はい、非常に混乱していますね。実際、これらのモデルがどのように生まれているかについての理論があり、後でそれをお話しします。
AMY 2025数学:o1は79%、o3 miniは86%、ツールなしのo3は88%、ツールなしのo4 miniは92%。ツールを与えるとパフォーマンスが格段に向上するため、「ツールなし」と特に言及していることに注意してください。
コードフォースをご覧ください。ターミナルを使用したo3は2700、ターミナルを使用したo4 miniも2700です。これにより、この2つのモデルは、このコード競技の世界ランキングでトップ200に入ります。トップ200です。
GPQA Diamond(PhD レベルの科学的質問):o1とo3 miniからの素晴らしい向上が見られます。クレイジーな向上とは言えませんが、確かに非常に良い向上です。
人類最後の試験:こちらは大幅な向上です。o3 miniは13%、ツールなしのo3は20%、Pythonとブラウジングツールを使用したo3は25%、ツールなしのo4 miniは14%、Pythonとブラウジングツールを使用したo4 miniは17%、そして当然、Deep Researchはまだ1位です。Deep Researchとこれらの他のモデルの違いは何でしょうか?それは単に追加のエージェント的なスキャフォールディングとより多くのツール使用だと思います。
ツール使用とエージェント的なスキャフォールディングについて、どれほど興奮しているかを強調したいです。これは私が長い間話してきたことです。私の動画を見た方なら、私がエージェントに強気であることをご存知でしょう。
マルチモーダルベンチマーク:
MMU大学レベルの視覚的問題解決:o3はo1より5ポイント高く、o4 miniは4ポイント高いです。
Math Vista:o3は87%、o4 miniは84%。
Charive Reasoning:o3は75%で、o1の55%から大幅なジャンプ、o4 miniは72%。
Sui Lancerをご覧ください。Sui Lancerはベンチマークで、これらのモデルは実際の世界のソフトウェアエンジニアリングタスクを達成し、それらからお金を稼ぐ任務を与えられます。o1高収益は28,500ドル、o3 mini高は17,000ドル、o3高は65,000ドル、o4 mini高は56,000ドルです。目の前で裁定取引の機会が起きています。
SWE bench検証:o1は48%、o3 miniは49%、o3は69%、o4 miniは68%。SWE benchで非常に良いジャンプが見られます。これらのモデルがコーディングにおいてはるかに優れていることがわかります。これは、OpenAIが共有したもう一つのことをお見せする際に非常に重要になります。
ADERポリグロットテスト(コード編集の正確性):ホールおよびディフは、o3 mini高やo4 mini高よりも大幅に高いです。指示の遵守とエージェント的ツール使用:o3は他のモデルよりもはるかに優れています。
これらのモデルがどこから来ているのかについて、私の理論を共有させてください。このチャンネルで話してきたことの一つは、これらの思考モデルがどのように生まれるかということです。彼らは非常に優れたベースモデルを取り、検証可能な報酬による強化学習を適用して、思考行動を引き出します。では、これらのモデルのベースモデルは何でしょうか?
サム・アルトマンがつい数週間前に言ったように、彼らは実際にGPT-5が当初考えていたよりもはるかに良くなることを発見しました。私が思うに起きていることは、彼らはGPT-5の異なるチェックポイントを取り、それらをこれらの思考モデルのベースモデルとして使用し、強化学習を適用しているのです。彼らはGPT-5の訓練を続け、チェックポイントで一時停止してベンチマークを実行するたびに、それらが継続的に向上することに驚いているのです。スケーリング則は抑制されていません。
それが私が考えていることです。彼らはGPT-5を持ち、それを訓練し続け、焼き上げさせています。モデルが進化するにつれて異なるチェックポイントをo3、o3 mini、o4、o4 miniモデルに使用しているのです。
次に、特に今週のOpenAIにとって大きな焦点となっているのはコストです。GPT-4.1モデルはGPT-4.0や他の同様のモデルよりもはるかに安価で高速でした。そして今、o3とo4 miniで見ているのは、それらもまた安価で効率的で高速だということです。
こちらをご覧ください。X軸は推定推論コスト、Y軸はツールなしのAMY 2025です。ご覧のように、o4 miniモデルはあらゆる面でずっと優れており、比較可能な前世代モデルとわずかに高価なだけです。しかし、これを見てください。ツールなしでGPQAをパスする推定推論コストです。再び、同等かそれ以下のコストでパフォーマンスが格段に向上していることがわかります。
彼らは本当に非常にコスト効率の良いモデルを提供することに力を入れています。それは非常に賢い戦略です。企業や開発者がどのAIモデルでツールを構築するかを決定する際、彼らはコストを重要な信号として見るからです。しかし、OpenAIに依存することには問題があります。この動画の最後にある「もう一つのこと」をお見せする際に、再びその点について話します。
o3とo1の性能コスト比較を見てみましょう。こちらが推論コストで、これがo1のlow、medium、highです。そしてこちらがo3のlowで、実際にはパフォーマンスは良くありません。非常に近いですが、それほど良くはありません。しかし、o3 mediumははるかに優れていて安価です。そして、o3 highははるかに優れていて安価です。同様に、GPQAもはるかに優れていて、全体的に安価です。
では、その最後の1つは何でしょうか?彼らはCodeex CLIをリリースしました。これは基本的に、あなたのコンソールで、あなたのコンピュータ上でローカルに動作するOpenAIによるエージェント的なコーディングです。明らかにクラウドベースのモデルによって動作していますが、それでもこれはOpenAIがリリースするオープンソースプロジェクトであり、Claude Codeの直接的な競合相手です。実際にはClaude Codeとほぼ同一です。
Codeex CLIはあなたのコンピュータからファイルを読み取り、あなたのコンピュータにファイルを書き込むことができます。そのため、マルチモーダル推論、すべてのツール使用、思考のすべてのメリットを得られるだけでなく、今ではコーディング環境とコードベースを提供できるようになりました。非常に素晴らしく、エキサイティングですね。
しかし、ここでプラットフォームリスクについて話しましょう。あなたが開発者で、プロジェクトにどのモデルを使用するか決定するとします。OpenAIを選択すると、OpenAIがあなたが構築したものを構築するリスクがあります。これはプラットフォームリスクと呼ばれています。
ここに完璧な例があります。AIコーディングツールを構築している場合、突然OpenAIがCodeex CLIであなたの方向に進出します。これは確かに主流のAIコーディングツールからはかけ離れており、彼らが「リファレンスプロジェクト」と呼ぶものですが、私はシリコンバレーで長年過ごしてきてこのような話を何度も聞いています。
あなたが上に構築する企業は、顧客が何を構築しているかを見て、十分な利益と十分な市場があれば、単にそれを構築します。基本的に新しいプロジェクトを構築し、全く新しい市場を開拓し、新しい収益源を開くために、1人、2人、あるいは5人の開発者を犠牲にするデメリットはほとんどありません。非常に注意して、単一のモデルプロバイダーからの多様化を図ってください。それが私がオープンソースの大きな支持者である理由でもあります。
Claude Codeと同様に、Codeex CLIに完全自動モードを与え、基本的に自由に(彼らは安全にと言っています)実行させ、コマンドをコンピュータで実行し、あなたが頼んだものを構築することができます。もちろん私も試してみるつもりです。本当に素晴らしそうです。
彼らはまた、Codeex CLIとOpenAIモデルを使用したプロジェクトをサポートするために100万ドルのイニシアチブを立ち上げています。「25,000ドル単位のAPIクレジット形式の助成金の申請を評価し、受け入れます。提案はこちらから提出できます。」何か素晴らしいものを構築したら、クレジットを求めてみてください。
誰がこれらすべてを使用できるのでしょうか?ProとTeamユーザーは、本日からモデルセレクタでo3、o4 mini、o4 mini highが表示され、o1、o3 mini、o3 mini highに取って代わります。EnterpriseとEDUユーザーは1週間以内にアクセスできるようになり、無料ユーザーはコンポーザーで「Think」を選択してからクエリを送信することで、o4 miniを試すことができます。すべてのプランのレート制限は、前のモデルセットから変更されていません。
私は絶対にこれをテストしてみるつもりです。現在AIモデルの最高水準であり、特にコーディングモデルの最高水準であるGemini 2.5 Proと比較してみたいです。試してみて、あなたの考えを聞かせてください。下にコメントをドロップしてください。プラットフォームリスクとOpenAI上に構築することについてのあなたの考えを知りたいです。この動画が気に入ったら、いいねとチャンネル登録を検討してください。次回の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました