
6,539 文字

OpenAIは数日前、o3という新しいモデルをリリースしました。多くの専門家は、これがついにAGI(人工汎用知能)を達成したと主張しています。AGIは常にAI分野における聖杯とされてきました。これは、コンピュータが平均的な人間の知能を超えた状態を指します。推定によると、o3のIQは157ポイントに相当し、これは人口の上位0.75パーセンタイルに位置します。比較のために言えば、アインシュタインのIQは160と言われており、平均的な人のIQは85から115ポイントの範囲です。これはかなり重要な出来事だと言えます。
新しいAIモデルがリリースされると、研究者たちはその能力を判断するために多くのベンチマークと評価を行います。これは学生と同じようなものです。学校で地理や数学の授業があり、各クラスでテストや評価があって、教師は基本的にあなたが他の人と比べてどのレベルにいるかを判断します。
AIモデルも同じで、さまざまなベンチマークがありますが、全てのベンチマークの最終ボスはArc AGIです。これは他のベンチマークとは2つの点で異なります。まず、名前が示すように、AIモデルが人工汎用知能を達成したかどうかを測定することが目的です。そして、このベンチマークで合格または成功するためには、AIモデルが新しいスキルセットを習得できなければならないという点で異なります。参考までに、平均的な人はArc AGIベンチマークで85%のスコアを獲得し、o3以前に見た最高のモデルは55%でした。つまり30%の差があったのです。o3は正式に87.5%のスコアを記録しましたが、これが最も驚くべき部分ではありません。
まず、このグラフを解読してみましょう。多くの情報が含まれています。ご覧のように、異なる色で表される2種類のモデルがテストされています。赤色はo1、つまりo3の前身である古いモデルを表しています。各モデルにはミニバージョンやライトバージョン、フルバージョンがあることがわかります。グラフを見ると、o1は約8%のスコアで、最高でも32%でした。このモデルは2024年9月、わずか3ヶ月前にリリースされました。o3の最軽量バージョンでも75.7%のスコアを記録し、フルバージョンは87.5%に達しています。
GPTとo1モデルラインの違いについて理解してみましょう。この時点で、ChatGPT、Claude、Gemini、その他のLLMを使ったことがあると思います。そして気づいたと思いますが、エンターキーを押した瞬間に即座に答えを出し始めます。思いついたことをすぐに吐き出すのです。これは非常に印象的ですが、o1とo3モデルが異なる点は、思考の連鎖(Chain of Thought)と呼ばれる新しい技術を使用していることです。
基本的に、これは答えを吐き出す前に、一歩一歩応答を確認する時間を取るということです。数学の問題で答え合わせをするようなものです。注目すべき違いは、これには時間がかかるということです。7秒かかるかもしれませんし、2分半かかるかもしれません。将来的には、これらのモデルは洗練された質問に答えるのに数週間、あるいは数ヶ月かかる可能性さえあります。
例えば、新薬を合成したり、何千ページもの都市インフラを見直して修正を加えたりする作業は、実際に計算して消化するのに数週間かかる可能性があります。これが、o1とo3モデルがChatGPTと根本的に異なる点です。
Arc AGIテストの作成者にTwitterで「AIモデルがいつこのテストを解決すると予想しますか?」と質問した人がいました。彼の回答はこうでした。「完全な解決は今後8年以内ではない。70%の解決は8年以内、おそらく4、5年以内に期待できる」。この投稿は2022年12月1日、つまりほぼ正確に2年前のものです。これは70%解決の時期を2026年から2027年と見込んでいたことになります。今は2024年12月であることを忘れないでください。これは、この分野全体がいかに急速に進歩しているかを示しています。
私の注目を引いたもう一つのツイートは、Arc AI賞の会長が、o1モデルが87%のスコアを達成できたことに驚いただけでなく、プロンプトの単純さに本当に衝撃を受けたと述べていたことです。ご覧のように、この問題を解くためのプロンプトは「入力グリッドを出力グリッドにマッピングする共通のルールを見つけよ」というだけでした。AIを使ったことがある人なら、プロンプトには多くの場合、長いエッセイのようなものがあり、これらのプロンプトを作り上げることには芸術性があることをご存じでしょう。しかし、「この問題を解け」というような単純で直接的な文章が効果を発揮したことが判明し、これも非常に驚くべきことです。
Arc AGI以外にも、OpenAIは他の多くの評価結果も共有しています。例えば、ソフトウェアエンジニアリングのベンチマークでは、o3は71%のスコアを記録し、o1は48.9%でした。さらに興味深いのは、競技プログラミングのプラットフォームであるCodeForcesで、o3が2727点を記録したことです。これはo1の1891点からの飛躍であるだけでなく、このスコアはプラットフォーム上で175番目に優秀なプレイヤーに相当します。
これは、特定のタスクにおいて、このレベルのコーディングができる人間が世界中で200人未満しかいないことを意味します。別の言い方をすると、o3は全コーダーの上位99.95パーセンタイルに位置することになります。現在、国際グランドマスターカテゴリーにランクされており、次のステップは権威ある伝説のグランドマスターです。将来のリリースでそれに匹敵することは間違いないでしょう。
他のベンチマークには、競争的な数学のベンチマークであるAM2024があります。ここで興味深いのは、o3がPHDレベルの科学質問で1問しか間違えなかったことです。GP QA DiamondではO3が87.7%を記録し、o1の78%から素晴らしい飛躍を見せました。
しかし、最も驚くべき結果は最後に取っておきました。Frontier Mathは、最も難しい数学の問題で構成されるベンチマークです。コンテキストとして、平均的な人はこれらの問題の0%しか解くことができません。それだけでなく、これらの問題の一部を最も優秀な数学者に与えても、1問解くのに何時間も、あるいは何日もかかる可能性があります。
フィールズ賞受賞者(フィールズ賞は数学のノーベル賞と考えられており、最高の栄誉です)のティモシー・ゴワーズはこう述べています。「私が見た問題は、全て私の専門分野ではなく、どう解けばいいのか全く見当もつかないものでした」
o3モデル以前は、最先端のAIでさえわずか2%の正解率でしたが、o3は25.2%という驚異的な数字を叩き出しました。これがいかに凄まじいことか強調しきれません。世界トップクラスの数学者の一人であるテリー・タオの別のツイートでは、「これらは極めて難しい問題で、少なくとも数年間はAIには抵抗するだろう」と述べています。数式を見れば一目瞭然です。
そして、最も興味深い側面の一つである経済性について触れてみましょう。o3は87%のスコアを記録し、このデータセットの解決に16時間を費やしたと記憶していますが、興味深いのは、OpenAIがタスクごとに数千ドルを費やし、テスト全体でOpenAIは60万ドルを費やしたと聞いています。
誰かが簡単な分析を実行したツイートを見つけました。o1モデルは32%のスコアを記録し、これを計算するのに3ドルかかったことがわかります。o3のライトバージョンは20ドルで76%を達成し、3,200ドルで9%の改善を達成できました。指数関数的により多くのお金を使って、わずかな結果の改善を得ているのです。
この傾向は減少すると完全に予想しており、ムーアの法則と同様に、計算コストは下がっていくでしょう。3,200ドルはすぐに320ドルになり、さらにゼロが一つ減って、近い将来には3ドルになるでしょう。また、これはOpenAIが月額22,000ドルのプランを検討していたという噂にも信憑性を与えています。先週、彼らは月額200ドルのo1プロプランを発表しましたが、明らかに月額2,000ドルは全く異なるレベルの話です。
これは、OpenAIが2,000ドルで個人をターゲットにしているのではなく、企業を狙っているということを示しています。より具体的には、これは人的労働力への最初の攻撃を示唆していると思います。企業が東ヨーロッパやインドの契約社員の雇用に月4,000から8,000ドルを費やしているのに対し、これはo3をそれらの労働者の代替として位置付けているように見えます。しかし、時が教えてくれるでしょう。
一つ明らかで確実なのは、AIの進歩が指数関数的に加速し続けるということです。o1は3ヶ月前にリリースされたことを忘れないでください。このチャートにあるように、GPT-2と3はほとんど影響を与えず、GPT-4は改善を続け、o1は本当に画期的なイノベーションでした。それによって、私たちが今o3で目撃している大きな飛躍が可能になったのです。
こちらは、Arc AGIスコアの年間推移を示す別のチャートです。5年前は0点でしたが、突然85%を超えています。今後数年以内に100%が達成されることは明らかです。
進歩に関して、OpenAIの従業員のツイートがあります。「今日、私たちはo3を発表しました。この軌道が続くと信じるあらゆる理由があります」
では、この会話の議論を呼ぶ部分に入りましょう。皮肉なことに、Arc AGI賞の創設者を含む多くの専門家が、これが真のAGIであるという主張を否定しています。彼らのウェブサイトから直接引用すると、「Arc AGIは重要なベンチマークとして機能しますが、Arc AGIはAGIのための絶対的なテストではないことに注意することが重要です」と述べています。
さらに、新バージョンのArc AGI 2で基準を引き上げると述べています。これはo3にとっても極めて挑戦的なものになるでしょう。Arc賞財団は、AGIへの道のりで最も難しい未解決の問題に研究者の注意を集中させるため、新しいベンチマークの作成を続けていくとしています。
これは私にとって少し苛立たしいことです。なぜなら、これはゴールポストを動かすことの定義だからです。彼らはこれがAGIのベンチマークだと言い、AIモデルが実際にそれを解決に近づくと、新しいベンチマークを作り出し、それを高く設定し続けるのです。そして、彼らはそれについてオープンです。AGIが最終的に達成されるまで、これを続けると言っています。
しかし、これは「AGIとは本当は何なのか?」という疑問を投げかけます。AGIという用語は私にとって少し馬鹿げています。なぜなら、これらの指標のどれも本当の意味での汎用知能をテストしていないからです。これらのテストは全て、言語、コーディング、数学、エンジニアリング、つまりSTEM分野をテストしているのです。しかし、これが本当に汎用知能のベンチマークなら、なぜ音楽的知能をテストしないのでしょうか?なぜメロディを作ることやテンポを再現すること、ロゴをデザインすること、美的に魅力的な写真を作ることがテストの一部ではないのでしょうか?これらも同じように知能の一部です。
実際に起こっているのは、私たちが定量的なテストに偏っており、それらを測定できるという制約があるということです。例えばレブロン・ジェームスを例に取ってみましょう。彼は明らかにバスケットボールに関して高次の知能を持っています。ある種の空間的知能があり、コート上の全員の位置を常に把握しているように見えます。以前の試合を思い出せる驚くべき記憶力もあります。相手を欺くために体をどう動かすかという運動知能、タイミングや戦略、計画に関する時間的知能も持っています。
しかし、レブロン・ジェームスがIQテストで90点を取ったとしたら、彼を愚かだと呼びますか?それは明らかに、彼が他の分野で知的でないことを証明するものではありません。IQや一般的な知能は、非常に特定のタイプの知能に偏っているように見えます。それを私たちは「汎用」と呼んでいるのです。これが問題だと思います。私たちはこれらのモデルの創造的な側面や創造的な直感にもっとオープンであるべきです。
そうですね、良い写真とは何か、ロゴが素晴らしいのか、ひどいのかを判断するのは難しいです。それはとても主観的です。しかし、最終的に私は、専門家がAGIかどうかを判断できるなら、おそらくそれはAGIだというヒューリスティックを使用しています。
例えば、歴代トップ5のラッパーを挙げるとき、誰もネリーやルーダクリスをトップ5に入れるとは言いません。そんなのは即座に却下されます。会話やディスカッションが長く続くなら、そこにはデフォルトで価値があります。私たちがジェイ・Zやナスがトップ5に入るかどうかをまだ議論しているなら、おそらく彼らはそうなのでしょう。
私にとってAGIは、その定義が不完全でぼんやりしていたとしても、私たちは明らかに人工知能の領域に近づいています。
では、これは何を意味するのでしょうか?将来について少し推測してみましょう。いくつかの視点を取り上げたいと思います。数ヶ月前に読んだサム・アルトマンの言葉の一つが本当に印象に残っています。彼は「AGIが達成されたとき、それは来て過ぎ去り、誰も本当に気にしないだろう」と言いました。その言葉について長く考えれば考えるほど、私は同意するようになりました。
現在、AGIは動物園の檻の中に史上最も賢い人を閉じ込めているようなものです。テストを与えれば解き、私たちは拍手喝采し、日常に戻ります。世界が根本的にあまり変化したように感じられない理由は、その人が経済的な影響を与えるための実世界へのアクセスを持っていないからです。
例えば、イーロン・マスクを部屋に閉じ込め、インターネットもテレビも通信機器もない状態にしたとします。ロケット工学について何か質問を叫べば、彼は答えてくれるでしょう。私たちは彼の知性に感嘆することはできます。しかし、結局のところ彼には力がなく、できることはあまりありません。
私がAIを考えるときの最適な方法は、私が作成したこのマトリックスで説明できます。y軸は知能を、x軸はこれらのエージェントの能力と自律性を表しています。左下の象限には、ChatGPT、Gemini、Claudeなどのリアルライクモデル(LLM)があります。その上の象限には、o1やo3、そして今後登場するような、より高度な推論モデルがあります。
しかし、x軸はそれらのモデルがアクションを実行する能力を表しています。右下の象限は、おそらくタスクです。実際、ChatGPTの新機能「タスク」がリークされており、これはおそらく近々リリースされるでしょう。その上の象限は、おそらく完全なワークフローです。個々のタスクを実行する代わりに、それらを組み合わせて完全なワークフローを実行できます。
私の考えでは、その上のレベルは管理、つまり単一のエージェントが、これらのワークフローとタスクを実行する他のエージェントや人々を管理し、本質的にAIによって運営される組織全体を可能にする能力です。
見たところ、2025年は間違いなくAIエージェントの年になるでしょう。OpenAIや他のフロンティアラボが2025年に、マウスとキーボードを操作してタスクを実行したり、クラウド上で自律的に実行したりできるエージェント対応モデルをリリースすると思います。いずれにせよ、私たちは凄まじい旅の途中にいます。
コメント欄で皆さんの考えを聞かせてください。それでは、また次回まで。
コメント