O3からAGIへの誇大宣伝パイプライン

4,572 文字

OpenAIは人工知能AGIを提供しようとしているのか。この議論は金曜の午後、サム・アルトマンがOpenAIのO3推論モデルのリリースが近いと発表したことから始まった。彼は「O3ミニをテストしてくれた外部の安全性研究者の皆様に感謝します。バージョンが確定し、2週間ほどでリリースする予定でリリースプロセスを開始しています。また、APIとChatGPTを同時にリリースすべきというフィードバックも承りました」と投稿した。
誇大宣伝のサイクルは直ちに始まった。サンティ・ジェネス・シャッツは「O3が来る。AGIに備えよ」と書いた。実際、この種の議論があまりに多かったため、アルトマンは期待値を適正化するために返信欄で長い議論に参加することになった。マッケイ・リグリーが「O3ミニの能力がO1プロと比べてどの程度なのか教えていただけますか」と尋ねると、アルトマンは「ほとんどの点でO1プロより劣るが、高速」と答えた。テルスボブが「残念。O1プロよりもスマートなモデルが欲しい。支払う用意あり」と書くと、アルトマンは「O3はずっとスマート。今そちらに注力していて、O3プロも」と答え、マインドブロー絵文字を添えた。
アクセス権に関して、新モデルは少なくともOpenAIプロの契約者、つまり月額200ドルを支払っているユーザーが利用できる。週末を経て、サム・アルトマンはTwitterに戻り「Twitterの誇大宣伝が再び制御不能になっています。来月AGIをデプロイすることはありませんし、まだ開発もしていません。皆様に素晴らしいものをお届けしますが、期待値を100分の1に抑えてください」と投稿した。
もちろん、OpenAIが12月末にO3を初めてプレビューした際、それはAGIに少し似たような最初のモデルだった。AGIベンチマークのARCで75%のスコアを記録した最初のモデルで、現時点でAGIスタイルのパフォーマンスを測る最良の物差しかもしれない。しかし、そのテストはフルモデルで行われ、信じられないほどの計算量を使用した。ARCGIテストは公式ランキングのための推論に10,000ドルの予算を許容している。非公式にOpenAIは100,000ドル以上の推論を使用して実行し、はるかに高いパフォーマンスを示したが、そのレベルの計算量は一般に提供することは不可能だ。そのため、私たちはずっと小さく、結果的にパワーの劣るものを手に入れることになる。
とはいえ、このモデルが独自のパラダイムシフトをもたらさないというわけではない。例えばチュビーは、O3が重要な理由を次のように説明している：「フルO1よりも優れた推論モデルを手に入れ、中程度の計算量で費用はその一部で済みます。O3ミニはO1ミニよりもわずかに安価ですが、CodeForcesではフルO1を100 ELO以上上回ります。これは、より多くのアプリケーションとユーザーにとってより優れた推論が可能になることを意味します。より広い応用は、より多くの洞察とブレークスルーにつながります。だからO3ミニは重要なのです。」
JNY AIの創設者ヘンリー・マウは具体的に述べた。「もしO3ミニが十分に安価なら、日常的なコーディング作業で4.0やSonnet 3.5に取って代わる可能性があります。」アプリ開発者のブレイクCは「O1プロはコードの修正を依頼すると5分かかることもありますが、ほとんどの場合Sonnetの2〜3倍優れています。もしO3ミニがSonnetの2倍で同じ速度なら、それは驚異的です」と書いた。TDMは、これはより性能の高いモデルのリリースというよりも、OpenAIの推論モデルをよりコスト効率の良いものにするための一歩だと示唆した。「O3ミニは基本的に高速化されたO1です。彼らがこれをリリースする主な理由は、O1のコストを十分に下げられず、規模を維持しながら損失を出さないようにすることができないためだと思います。もう一つの理由は、APIデベロッパーがSonnetの代わりにO3ミニをより多く使用し始めることです。より高速でスマートになりますから。」
サム・アルトマンの発言から判断すると、これは消費者向けのAGIとは思えない。しかし、OpenAIが非常に大きな何かに近づいているという他の兆候もある。アクシオスは週末、サム・アルトマンが来週トランプホワイトハウスにブリーフィングを行うよう招待されたと報じた。記事によると「トップ企業（おそらくOpenAI）が数週間以内に、複雑な人間のタスクを実行できる博士レベルのスーパーエージェントを解き放つ画期的な発表を行う」とのことだ。OpenAIの関係者は「最近の進歩に興奮し、同時に不安も感じている」と述べた。
興味深いことに、OpenAIがエージェントをローンチするという公の噂は実際にはなかったが、多くの人にとって、この分野で同社が後れを取っているように見えた。しかし、それも長くは続かないかもしれない。例えば、ティボール・ブラホーはOpenAIのコードにエージェントへの参照を見つけた。彼は「ChatGPT macOSデスクトップアプリに、デスクトップランチャーのショートカットを定義してOperatorを切り替えたり強制終了したりするための隠しオプションがあることを確認しました。Operatorは、OpenAIの今後の汎用エージェントの名前です」とツイートした。情報筋によると、Operatorの予定ローンチ月は1月だという。
チュビーもまた、OpenAIのウェブサイトにすでに、OperatorのパフォーマンスをAnthropicのコンピュータ使用モードやGoogleのMarinerエージェントと比較するページがあると指摘した。「リリースは差し迫っているようです。リークされたグラフィックのベンチマーク（本物かどうかは不明）では、Anthropicのモデルから大幅な進歩を示し、Googleの専用ウェブブラウジングエージェントからわずかな改善を示しています。」
とはいえ、OpenAIがコンピュータ使用モードを完璧にしたとは思えない。例えば、リークされたテストでは、エージェントがクラウドサービスアカウントに登録し、仮想マシンを起動できる確率は60%に過ぎなかった。
このような誇大宣伝に対して、Cognizantのオートメーション部門長のクマール・アンギは、これらのエージェントができることへの期待を抑えようとした。「これはASIやAGIをもたらすものではありません。これらはリアルタイムのエージェントで、狭い範囲では独自に有用で、他の場合は高価ですが、あくまでもエージェントです。つまり、モデルを呼び出し、モデルがAGIとASIを提供する必要がありますが、それは近い将来にはできません。O1の27倍安価なDeepSeek R1でさえも。」
ところで、OpenAIのこれらのリリース噂が想像力を駆り立てる一方で、中国のライバル研究所が週末に最新モデルで注目を集めた。DeepSeekがR1推論モデルのフルバージョンをリリースした。DeepSeekについては何度か話題に上げたことを覚えているかもしれない。経済学者のタイラー・コーエンは、トランプがバイデンのチップ輸出政策について異なる考え方をすべき理由としてこれを例に挙げた。
リリースされた内容に関して、このモデルはほとんどのベンチマークでO1と同等のパフォーマンスを示す。特にプログラミングタスクに焦点を当てたSBench-verifiedでは、R1は現在商用利用可能なオープンソースモデルとして完全に利用可能で、O1の5%未満のコストでAPIを通じて出力を提供できる。趣味のユーザーも自宅でモデルを実行でき、何人かがMac miniのクラスタで動作することを実証している。
R1のフルリリースに伴い、基盤モデルの上に推論能力を開発するポストトレーニングプロセスを説明する技術論文も公開された。DeepSeekは、比較的シンプルな強化学習プロセスに到達する前に、複数の形式のポストトレーニングを試したと述べている。
Conjecture AIのリサーチエンジニア、マックス・ウィンガは「RLステージ前に微調整を行わなかったことが私には驚きです。R1はAlpha Zeroのように、トレーニング中に独力で推論を学習します。彼らは、モデルが高度な推論テクニックを学習する瞬間、つまり『アハ』モメントを観察しています。私たちは単なるツールではなく、エイリアンマインドと遊んでいるのです」と投稿した。
AIアントレプレナーのエルビス・アラビアは「DeepSeek R1の論文は宝石です。LLMの推論能力は異なる方法で学習できることが明確です。強化学習を正しく、スケールを持って適用すれば、本当にパワフルで興味深いスケーリングと創発的な特性につながる可能性があります」と書いている。
これらすべてが、一部の人々に将来の可能性について考えさせている。例えば、AI for Successアカウントは「数年以内に中国がAGIを作り、すべてをオープンソース化するでしょう。DeepSeek R1はOpenAI O1と比べて96%安価で、ほぼO1と同等の性能です。2025年は狂気の年になるでしょう。それが感じられます」とツイートした。
実際、中国での急速な開発は、AI政策に重大な影響を持つ。バイデン政権は最新の輸出規制を発表する際、国際競争力が重要な問題であることを明確にした。政策声明は、特にグローバルサウスにおいて、米国のモデルが世界的に支配的であることを確実にするという明確な目標を設定した。
ジョージメイソン大学の研究フェロー、ディーン・W・ボールは「DeepSeek R1から得られる政策的示唆：1. 中国の研究所は、米国モデルと同様のベンチマークパフォーマンスに到達する点で、おそらく引き続き急速な追随者となるでしょう。2. DeepSeekの蒸留モデル（R1の小型バージョン）の印象的なパフォーマンスは、非常に有能な推論器が広く普及し続け、トップダウンの管理体制（米国の拡散規則を含む）の目から遠く離れたローカルハードウェアで実行可能であることを意味します。3. オープンモデルは米国にとって戦略的価値を持ち続けるでしょう。より多くのフロンティアオープンモデルを世界に提供する方法を見出す必要があります。現在、私たちはMetaにのみ依存していますが、素晴らしいとはいえ1社だけです。なぜOpenAIとAnthropicは古いモデルをオープンソース化しないのでしょうか？どんな害があるのでしょうか？」と投稿した。
人々の関心は主に加速を感じることにある。Perplexity CEOのアラヴァン・シュリニヴァスは「推論がこれほど急速にコモディティ化されるのを見るのは驚きです。年末までに、おそらく年半ばまでにO3レベルのオープンソースモデルが登場すると十分に予想できます」と書いている。
さて、1月も深まってきましたが、本日のAIデイリーブリーフはここまでとさせていただきます。また次回まで、ごきげんよう。