o3は思うほど賢くない

2,807 文字

OpenAI's o3 might sound like the genius AI of dreams, but it's not as smart as it seems. Despite impressive benchmarks l...

想像してみてください。人類の最も難しいパズルを、あなたが朝のコーヒーを飲み終わる前に解決できるほど賢いAIを。そして、おそらくあなたや、あなたの上司、さらにはあなたの家系図全体を合わせたよりも賢いAIを。ええ、想像するだけにしておきましょう。なぜならo3は、YouTuberやXのユーザーたちが人工汎用知能(AGI)の聖杯だと騒いでいるにもかかわらず、AGIにはほど遠いからです。OpenAIによると、o3は標準的な計算条件下で超難関のArc AGIベンチマークで前例のない75.7%のスコアを記録し、高計算版では87.5%に達しました。
しかし心配は無用です。o3はあなたのためのものではありません。この計算上の輝かしい成果は、厳密に技術エリートと巨大企業のために用意されたものであり、彼らは恐らく世界支配を企てているのでしょう。1タスクあたり1,000ドル、カジュアルなタスクでも6,000ドル以上かかるo3は、AIのロールスロイスです。予算に優しいオプションを期待していた方には、低計算タスクでもタスクあたり20ドルかかり、ほとんどのユーザーにとってアクセス不可能なものとなっています。
これだけの金額を払っても、o3はそれほど賢くありません。その価格設定は、知性や有用性に見合っておらず、実際の問題解決能力よりも計算オーバーヘッドに多くの支払いを要求しています。そしてこれは最初の警告フラグに過ぎません。このビデオが終わる頃には、o3が宣伝されているほど賢くない理由、その最大の欠点、そしてOpenAIがそれらをどのように修正できるかを正確に理解することができるでしょう。
OpenAIのZシリーズモデルの最新モデルであるo3は、論理的思考と数学的精度を必要とするタスクに取り組むために、推論の連鎖に対する強化学習を活用します。まるで研究室の狂気の科学者のように、最も困難な問題に対して、詳細な思考の連鎖に従う何十もの解決策を生み出します。しかし、あなたと同じように、o3は自分自身を信用していません。正しい推論のデータセットで訓練された検証機能があり、これらの解決策の論理的一貫性と正確性を評価します。
改良された内部審議メカニズム（つまり、独り言を言うことの fancy な言い方）のおかげで、o3は話す前に考える能力が向上しました。o3は頭に浮かんだ最初の答えを吐き出すのではなく、自分が恥をかかないことを90%確信するまで、ダブルチェックし、立ち戻り、基本的に改良された方法で自分自身と議論します。この改善は、より大きなドメイン固有のデータセットでの特殊なトレーニングと、拡張されたパラメータを持つ多段階の微調整によるものです。長期のトレーニングサイクルにより多くの計算能力を活用し、ついにミスを止めるまで繰り返し叱られながら、RHFからの強化学習を統合しています。
一部の人々はArc AGIを人工汎用知能の解決と同一視していますが、このベンチマークの背後にいる専門家は、これがAGIのための確実なテストではなく、これに合格することがAGIの達成を意味するものではないと強調しています。Arc AGIは抽象化と推論を必要とする特定の視覚パズルの解決に焦点を当てていますが、期待される一般的な問題解決能力やタスクの広範さは包含していません。
o3は紙の上では天才のように見えるかもしれませんが、Arc のような特別にトレーニングされたテストでのみ輝きます。これは、その知性が非常に状況依存的であり、より広い実世界の問題解決には転化しないことを意味します。高度なアーキテクチャにもかかわらず、単純な質問や、トレーニング外の論理的問題を投げかけると、水から出された魚のようにバタバタします。
要求する追加コストと計算能力は完全に馬鹿げています。ピザを配達するためにフェラーリを運転するようなもので、派手で高価で、小さな仕事には完全にオーバースペックです。タスクあたり1,000ドルから6,000ドルもするo3は、少なくともコーヒーを持ってきてくれるか、世界の飢餓問題を解決すべきですが、代わりに2+2を答えるために55,000トークンを処理しながら大量の汗をかいているだけで、それでもまだ間違える可能性があります。
一方、より小さく単純なモデルは、同じタスクをコストの1%で喜んで実行し、サーバーを溶かすこともありません。ここでのキーは比例関係です。ドルあたりの真の知性とは何か、そして比例的な利益をもたらさないものに何千ドルも費やす必要があるでしょうか。したがって、o3は効率性に関するものではなく、賢く見せかけながら、どれだけ多くのトークンを燃やすことができるかを誇示することに関するものです。
しかし、知性は努力ではなく、結果に関するものです。そしてもしその結果が6桁の請求書と共に来るなら、おそらくo3との関係を解消し、あなたの財布に敵対的ではないモデルを見つける時かもしれません。これが次のパートにつながります。
o3は単なるツールではありません。最も裕福な企業だけが高価な計算カクテルを飲むことができる、排他的なVIPラウンジなのです。一方、私たち残りの者は、テクノロジーの貧民のように古いモデルを握りしめながら、ガラス越しに覗き込むしかありません。なぜなら、公平なアクセスはo3のビジネスモデルの一部ではないからです。
そしてそれこそが、OpenAIが月額200ドルのサブスクリプションプランを立ち上げた理由です。彼らはまもなく、寛大にも月額2,000ドルのサブスクリプションを導入する予定です。最先端ツールへの公平なアクセスを重視する人にとって、o3はテクノロジーエリートと一般ユーザーの間の格差を広げる一歩となっています。
私たちが言えることは、o3は特定の分野で卓越しているということです。その優位性は主に、よく構造化された客観的な問題空間に限定されており、特定のタスクのためのAIエージェントの作成に特に適しています。そしてそれこそが、サム・アルトマンが「ハッピー2025」と投稿した理由であり、2025年がAIエージェントの年になることを示唆しています。
しかしその前に、OpenAIは計算の問題を解決する必要があります。大規模モデルトレーニングのスループットを向上させるためにGPUメーカーと協力してカスタム構成を開発することで、よりコスト効率の良いスケーリングを実現できます。GroやCerebrasのようなスタートアップは、より良く、より速く、より安価なチップで格差を埋めようと必死に革新を続けています。
今のところ、答えは排他性に偏っているように見えます。あなたはどう思いますか？私たちは全ての人のための未来を構築しているのでしょうか、それとも単なるテクノロジーエリートのためだけの未来でしょうか？