OpenAIのo3とAGIの「ギザギザな境界線」について

10,169 文字

OpenAI's o3 and the "JAGGED FRONTIER" of AGI....

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

昨年、誰かが「AGIがあるかどうか議論している時点で、それはAGIが存在している証拠だ」と言いました。新しいo3モデルについて、AGIなのかそうでないのか、人々の意見を見ていきましょう。また、Sam Altmanが今冬にリリースすると示唆していたOrionモデルを覚えていますか？
Sam Altmanは「中西部の故郷に帰ってきて嬉しい。夜空が本当に美しい。冬の星座が昇ってくるのが楽しみだ。素晴らしい」とツイートしました。多くの人が、これは今冬にOrionモデルがリリースされることを示唆していると考えていました。o3が今発表されましたが、これは技術的に冬の時期です。これがOrionなのでしょうか？実はそうではありません。詳しくは後ほど説明しますが、まずは本題に入りましょう。
私がo3のリリースについて「これはAGIだ」と言及した動画では、コメント欄でも多くの議論がありました。ある人は賛成、ある人は反対。あるユーザーは「AGIである私から言わせてもらうと、これはAGIではありません」と述べ、プロセスから学習していないことを指摘しました。これは重要な指摘で、後ほど詳しく説明します。
重要なのは、AGIかどうかについて明確な合意が得られていないということです。私は「現在のAIは平均的な人間より賢いのか」というアンケートを投稿しました。o3モデルは平均的な人間より賢いのでしょうか？ここで言う「賢い」とは、アシスタントに期待する基本的な日常業務、文章作成、基本的な数学、計画立案、トラブルシューティング、問題解決など、一般的な仕事に必要なスキルのことを指します。ロケット科学や工学ではなく、一般的なオフィスワークのレベルです。
人々の意見を見ていきましょう。Adam D’Angelo（Poの創設者でQuoraの共同創設者、OpenAIの取締役）は「o3の結果が公開されているのに、市場がまだAGIを織り込んでいないのは驚くべきことだ」と述べています。これに対しElon Muskは「市場は先を見ているようで実は後ろを見ている。AIは最終的にお金を無意味にするだろう」と返信し、その後二人は今後の訴訟について言及し合いましたが、それは別の動画で取り上げます。
François Chollet（Arc AGIの作者）は、多くの人が大規模言語モデルの単なる暗記を超えた、本当の一般知能をテストするベンチマークとして注目している人物です。彼らは素晴らしい仕事をしており、現在のArc AGI 1.0は長い間テストに耐えてきました。そして今や、暗記や事前学習と、AIの一般化能力を区別するためのより優れた2.0バージョンを構築しています。
これがAGIの「G」、つまり「一般」の部分です。技術的には、私たちはすでに人工超知能（ASI）を持っています。ただし、それは狭い領域に限定されています。囲碁やチェスで人間を打ち負かすような超人的な能力です。私たちが持っていないのは一般知能、あるいは今議論し始めているような人間レベルの一般知能です。
彼のツイートをスクロールすると、Arc AGIでの様々なモデルのパフォーマンスを示す指数関数的なチャートが表示されています。o1、o3、推論モデルが上向きに伸びているのが分かります。Françoisは「棒人間が足りない。チャートに追加してください」と言及しています。これは「Wait But Why」の有名な人類の進歩に関するミームを参照しています。
技術と能力の指数関数的な爆発を示すこのチャートで、基部に立っている時は普通に感じるかもしれませんが、全体を見ると決して普通ではありません。誰かがオーバーレイを作成しましたが、不気味なほど似ていませんか？
しかし、多くの人が指摘しているように、Françoisは「新しいモデルは非常に印象的で、AGIへの道のりで大きなマイルストーンを示していますが、これはAGIではないと思います」と述べています。コメント欄では「この人がAGIではないと言うならそうだ」とか「あの人がAGIだと言うならそうだ」という意見がありましたが、重要なのは、私たちにはAGIのテストがなく、統一された定義もないということです。つまり、同じことを話していても、それぞれが違うことを指している可能性があるのです。
一人の人がそうだと言ったからといって、それが正しいとは限りません。彼はAIの進歩を追跡するための最高のベンチマークの一つを持っており、誰もが認識し、信頼しています。素晴らしいテストと優れたアプローチを持ち、人々はそのベンチマークを真剣に受け止めています。
彼らは現在、o3にとって非常に challenging になるArc AGI 2.0を作成しています。あるモデルがそれを簡単にクリアしたら、Arc AGI 3、Arc AGI 4を作ればいいのです。ここで重要なのは、AGIかそうでないかという対立構造を作るのではなく、AGIのより良い定義を持つことです。そうすれば、私たちが本当にそこに到達したかどうかを具体的に判断できます。
François Cholletに関して言えば、「これはAGIではない」と言って、Arc AGI 2、3、4、5を作り続けるべきです。それは公共の利益になります。AGIの進歩を追跡し、人々の興味を引き付けています。モデルが得意なこと、不得意なこと、人間より優れている部分、そうでない部分を徐々に理解し始めているので、この取り組みをできるだけ長く続けるべきです。
しかし、驚くべきことに多くの人が見逃している重要な点があります。Ethan Mick（AIの分野で素晴らしい研究者、教授）は、AIに適用される「ギザギザな境界線」の概念を最初に提唱した人物です。センタウロスやサイボーグについても同様ですが、それは別の動画のテーマです。
このギザギザな境界線の考え方は、AIの能力、進歩、そしてAGIに到達したかどうかを理解する上で非常に重要です。まず、この滑らかな曲線を見てください。これは私たちが同じ難易度のタスクと考えるものです。
例えば、幼稚園児は積み木を積んだり、靴紐を結んだりといった、その年齢でできる同じレベルの難易度のタスクができます。高校生なら、エッセイを書いたり、幾何学や微積分を学んだり、基礎的な化学や物理を学んだりします。これらは私たちが同じ難易度と認識するタスクです。
PhD取得者ならもっと高度なタスクができますが、一つのことができれば他のこともできると期待されます。自転車のチェーンを直せる人なら、壁に棚を取り付けることもできるだろうと考えます。これは良くない例かもしれませんが、要点は、私たちの認識では同じ難易度のタスクだということです。
しかし、AIは現在、そのような形では機能しません。むしろ、このブルーまたはパープルの線のように、ギザギザしています。ブラックホールのイベントホライズンに近づく際の振る舞いをシミュレートするコードを書けと頼むと、「もちろん」とすぐにできます。しかし「イチゴの中にはいくつの”R”があるか」と聞くと、「それは知り得ない」と答えます。
これがギザギザな境界線の考え方です。人間にとって極めて困難なことをAIは完全に習得し、逆に人間にとって非常に簡単なことをAIは日常的に失敗します。これは、AIとその能力についての議論で多くの人が見逃している点だと思います。
例えば、これが平均的な人間の様々なことを行う能力の曲線だとしましょう。ここに数学能力、ここに言語関連の能力、これが視覚的推論、そしてここにコードや論理ベースの問題解決能力があります。私たちは平均的な人がこれらすべての分野である一定のレベルにいることを期待します。
もちろん、人によって能力は異なりますが、平均的な人間の能力曲線はこのようなものです。そして、他にも無数の具体的なことがあります。しかし、AIが登場すると、数学では驚異的で、言語も得意、ここでは特定のことに失敗し、視覚は不得意、コードは驚異的というような具合です。
問題は、多くの人がこの会話で見逃していることです。よく見られるのは、大規模言語モデルが苦手なことを見つけ、「子供でもできることをこのモデルは完全に失敗している。だから人間ほど賢くない」と指摘することです。
人間の能力とAIの能力を比較した時、一般的にAIの能力が低く、計算や記憶は優れているものの、全体的に人間より劣っているなら、「平均して人間の方が賢い」と簡単に結論付けることができます。また、すべてのタスクで人間より優れているなら、「明らかに人間より賢い」と誰もが言うでしょう。
しかし、実際にはそのような形にはならないかもしれません。本当の疑問は、イチゴの”R”を数えられず、非常に基本的なトリック問題に完全に引っかかるけれど、それ以外はどうなのかということです。
がんを解決し、ラマヌジャン予想（数学での大きな課題とされるもの）を解き、無制限のクリーンエネルギーを実現するなど、最高の科学者やエンジニアを超える超人的な能力を持っているとします。しかし、イチゴの”R”の数を聞くと「分からない、それは知り得ない、私たちの能力を超えている」と失敗します。
このような場合でも、人間レベルの能力を下回るギザギザな部分があるからという理由で、「人間ほど賢くない」と言い続けるのでしょうか？つまり、AIの能力がこのようで、これが人間の能力なら「明らかに人間ほど賢くない」と言い、能力がこのようなら「明らかに人間より賢い、もう議論の余地はない」と言うでしょう。
しかし、それは決してそのような形にはならないでしょう。以前は、ほとんどの能力が人間より劣っていて、猫の見分けや翻訳など、一部の能力だけが人間と同等かそれ以上でした。それは5-10年前の状況です。
しかし今や、ほとんどの分野で人間よりもずっと優れているにもかかわらず、常にある集団がこれらの例を指摘して、AIが「バカだ」と主張します。「このアリは4本足だから、この動画生成モデルは役に立たない」「イチゴの文字数を数えられないから、この大規模言語モデルは役に立たない」「この画像の人物は6本指だから、このAI画像生成モデルは役に立たない」と言います。
一方で、AI生成画像がアート・コンペティションで権威ある賞を受賞しました。これは2022年か2023年の初期に、AI生成だと告げずに提出されたものです。つまり、すでに賞を獲得しているのです。
GoogleのSora V2のような他のモデルには、物理学や3D構造、高度な精神モデルについての暗黙の理解があります。動画を生成するには、光や影、反射がどのように機能するかを理解する必要があります。動画に鏡がある場合、何かの反射が必要で、それは3Dでその物体がどのように見えるかを理解している必要があります。
つまり、単なる2D表面を生成しているのではなく、潜在空間に3Dオブジェクトがすべての側面からどのように見えるかを予測する精神モデルを持っているのです。01モデルは、PhD取得の物理学者が1年かけて書いたコードを、20分程度で少しのプロンプトの調整で複製しました。
しかし、ビー玉についてのトリック問題を聞くと、ビー玉がどこにあるのか、どう振る舞うべきかを理解できず、「このモデルは役に立たない」と言われます。私の質問は、これらの曲線はどれほど狂気的になるのか、超知能や一般知能と呼ぶにふさわしくないと判断するような小さな失敗があったとしても、人間の能力をどれほど超えればいいのかということです。
言い換えれば、もしあらゆる種類のがんを治療できるけれど、「cancer」を逆から綴れないとしたら、それは賢いのでしょうか、それともバカなのでしょうか。
Ethan Mickには大きな感謝を捧げたいと思います。私の知る限り、この概念を考案したのは彼です。少なくとも、私がこの概念を初めて理解したのは彼からでした。このギザギザな境界線の考え方は、AGIについて議論する際に常に念頭に置いておくべき重要な概念です。
AIの能力が特定の分野で明らかに人間を超え、他の分野では遥かに劣っている場合、平均的に、あるいは一般的に人間より優れていると判断するのはいつなのか。一般知能を持っていると判断するのはいつなのか。
私が言いたいのは、多くの人が、人間レベルを下回るすべての小さな痕跡、小さな失敗が消えるのを待っているということです。些細なミスを指摘できなくなった時、それが人工一般知能だと。しかし、このギザギザな部分、つまり人間を超える部分をどれだけ大きくする必要があるのかを考慮する必要があります。
Ethan Mickの最近のArc AGIの議論とo1、o3モデルが表すものに関するコメントを見てみましょう。「Arc AGIのベンチマーク議論は、テストタイムコンピュートが本物であるという事実を覆い隠している。o1、01、Gemini 2での実験に基づくと、これらは前触れであり、o3はさらに優れている可能性が高い」と述べています。
これも多くの人が見逃している大きなポイントです。数週間前、The Informationを始め、多くの主要メディアが「AIのスケーリングは壁にぶつかった」「研究者全員がAIの進歩は停止すると同意している」といった記事を、まるで調整されたかのように一斉に発表し始めました。
多くの人がそれらの主張に懐疑的でした。本当に遅くなると思いますか？そして、その後o1、o3が登場しました。それでもまだ理解していない人々がいます。Wall Street Journalは「AIの次の大きな飛躍は遅れており、非常にコストがかかる」と報じています。
しかし、これは現実と矛盾しているように見えます。OpenAIのAI研究者Jason Weyは「o3は非常に高性能だ。さらに重要なのは、o1からo3までの進歩がわずか3ヶ月だったことで、これは推論のための計算リソースを拡大する新しいパラダイムにおける進歩の速さを示している。1-2年ごとに新しいモデルを作る事前学習パラダイムよりもはるかに速い」と述べています。
これまでの経緯を追っていない人のために説明すると、新しいブレークスルーは「テストタイムコンピュート」という考え方です。モデルに質問を投げかけ、答えを考え、解決策を練るためにより多くのリソースを使うという考えです。
これは「テストタイムコンピュート」あるいは「思考の連鎖」と呼ばれています。これらのモデルが登場する前、ユーザーはモデルに「ステップバイステップで考えてから答えてください」と言うと、モデルはすべてを考え抜いてから最終的な答えを出すことに気付きました。その結果は良好で、推論能力が向上する傾向にありました。
このアプローチを成功に導いた考え方は、それらの「思考の連鎖」を別のウィンドウに隠すか、少なくとも配置するというものでした。モデルは下書きのような形で答えについて考え、その思考と推論に基づいて答えを出します。
もちろん、考えるたびに言葉やトークンが生成され、それにはお金がかかります。各トークンの生成にはコストがかかります。このブレークスルーは「より多くのリソースと時間、つまりより多くのお金をかけて考えさせたらどうか」というものでした。
実際、o3モデルがArc AGIで示した88%の精度は、非常に長い時間実行させ、57億トークンを使用することを許可した時のものでした。私の記憶が正しければ、私たちがその程度長く実行させようとすると、小売価格で30万ドル以上かかるはずです。
これが、Arc AGIが常に計算リソースの使用制限を設けていた理由であり、今後はコストメトリクスや効率性メトリクスのような指標を結果に加えることを検討している理由です。これは重要な性能指標の一つだからです。
モデルが答えを出すのに何百万ドルもかかるとすれば、それは非常に正確かもしれませんが、そのような多額の費用をかけることは現実的ではありません。おそらく制限が設けられ、効率性の指標が追跡されることになるでしょう。例えば、コンペティションではタスクあたり約10セントを計算リソースの上限として設定することを目指しています。
これがJason Weyが言及していることです。思考の連鎖を使用して推論の計算リソースを拡大するという新しいパラダイムです。質問をして考える時間を与えます。これが推論であり、計算リソースはそのために使用するハードウェアリソースです。
モデルの学習により多くのお金をかけること、つまり指数関数的により多くのデータと処理能力が必要な巨大なモデルを構築することは、確かに少し遅くなっているかもしれません。しかし、ここで私たちが目にしているのは、まったく異なるパラダイムやアプローチでスケーリングを始めているということです。
それがテストタイムコンピュートです。より良い推論を生成するために思考の連鎖を使用するという新しいアプローチです。これはEthan Mickも指摘していることです。Arc AGI賞の議論、本当にAGIを打ち負かしたのかという議論は、テストタイムコンピュートが本物であり、まったく新しいスケーリングの道筋であるという事実を覆い隠しています。
The Informationは「OpenAIが新しいスケーリング法の最初のテストで聴衆を魅了」と報じ、興味深いことにJason Weyについても言及しています。「Weyは、OpenAIがまだ次の大規模な事前学習モデルであるOrionを使用していないことも考慮しているかもしれない。Orionは来年初めに04（あるいはOpenAIが次の推論モデルを何と呼ぶにせよ）のベースモデルとして機能する可能性がある」と述べています。
これが04と呼ばれることはないでしょう。なぜなら、それは理にかなっており、OpenAIはモデルに理にかなった名前を付けないからです。予想するなら、おそらく「LOL」と名付け、Lの代わりに1を使い、oは小文字にするといった、同じように無作為な名前になるでしょう。
一方、o3モデルはプログラマー、コーダーの99.95%より優れており、Epic AIとフロンティア数学でも同様です。これはAIの高度な数学的推論を評価するために開発されたベンチマークです。人間レベルの難しい数学問題が不足し始めているのです。これらのAIモデルに対して極めて困難な問題を考案するのに苦労しています。
フィールズ賞受賞者のTerence Taoは「これらは極めて困難な問題だ」と述べ、「AIがこれらに対抗できるようになるまで数年はかかるだろう」と言います。これが私たちの期待できる最高の状況です。つまり、AIモデルが数年間は解決できないような困難な問題を作ることです。
サンプル問題を見てみましょう。アルタンの原始根予想をテストするものです。これには数論、素数の密度、素数を法とする整数の位数、アランスの予想、包除原理などの分野が含まれています。解決に必要な技術には、素数定理、密度定理、一般化リーマン仮説、漸近密度、包除原理などがあります。
これが難しすぐる場合は、低難度のものもあります。有限体、H-Weyl bound、有限体演算、Pythonの実装について知る必要があります。「この方程式上の非ゼロ点はいくつあるか」というものです。ここには私が理解できる言葉もありますが…
多くの現行モデルはこのテストで苦戦しています。Gemini 1.5 Pro、Claude 3.5 Sonnet、01 Preview、01 Mini、GPT-4、Grok 2は、すべて2%未満の精度で、一部はゼロに近いものもあります。以前の最先端モデルは2%でした。
o3は最初から25.2%です。これはAIME 2024（米国数学オリンピックの予選）のレベルです。世界最高の数学の頭脳が集まるIMO（国際数学オリンピック）ではありませんが、o1レベルだと思います。o3は96.7%を達成し、1問だけ間違えたと言われています。100%を達成した人間もいますが、重要なのは、私たちが最高峰の人材に課すこの数学テストがすでに飽和状態になっているということです。
ようやく、フロンティア数学という超複雑な次世代の数学問題を考案し、「よし、これなら数年はAIモデルを抑えられる。1-2%しか正解できない」と思っていたら、o3が登場して25%の精度を達成しました。
ちなみに、これはo3の高計算リソース（30万ドルのテスト実行）でも解けなかった問題の例です。3つの例が与えられ、この問題を解くよう求められます。答えは何だと思いますか？
このような質問に非常に感心しています。これがArc AGIベンチマークを高く評価する理由です。彼らは本当に良い仕事をしています。また、興味深いのは、どの問題も同じような基本的なトリックや解法を使いまわすことができないということです。
この問題を解いても、同じような解法が使える問題は出てきません。一見すると圧倒的に見えるかもしれませんが、少し時間をかけて見ると、ほとんどビデオゲームのように見えます。この小さなブロックがここに伸び、そこに移動します。このオレンジのブロックがここに伸び、そこに移動します。
突き出た部分は移動先を示しているようで、何かを掴んで引っ張っているかのようです。つまり、この水色はここに、このブルーはここに、オレンジはここに移動するということです。o3はこれを解くことができませんでしたが、ここで重要なことがあります。
詳しく調べる必要がありますが、私の理解が正しければ、これがモデルに与えられるものです。視覚を使って理解しているわけではなく、これが問題です。入力と出力があり、これらの行列があります。おそらく、これらの数字が何を意味するかのコードがあり、7は水色、6は濃紫といった具合です。
興味本位で、これらのテスト問題のスクリーンショットを2つ撮り、「これら2つのサンプル問題に基づいて、これらの形がどのように変換されていると思いますか」と聞いてみました。これは私たちが使用しているChatGPT 01 Proモデルです。同じことを完全なパズルで試してみて、視覚的にはより良く処理できるかどうか確認してみましょう。
モデルは「そうではありません。形は境界ボックスに合わせて四角くなっています」と答えました。これを示したのは、これが単純なArc AGIタスクの例だからです。3つの学習ペアがあり、4つの色が行列の14、6、7、8で表現されています。これがAIモデルがこれらの問題を見る方法です。
私は01 Proモデルのビジョン、これらの問題を理解する能力をテストしましたが、うまくいきませんでした。これは予想通りです。ビジョンはまだ言語ほど優れていません。そのため、このようなJSON形式を使用して学習し、出力を得ているのです。
しかし、ここでの大きなポイントは、これをAGIと呼ぶかどうかに関係なく（具体的な定義がないため）、Arc AGIの人々は暗記から一般知能を区別するためのより困難なテストを考案し続けるべきだということです。必ずしもAGIを宣言する必要はなく、ベンチマークを改善し続け、テストを続け、この進歩を追跡し続ける必要があります。
Arc AGIの創設者たちの誰も、これが無意味だとは言っていません。全員がこれは大きな飛躍だと認めています。しかし、あなたが私に同意するかどうかに関係なく、少なくともここで何か本当に驚くべきことが起きていること、スケーリングは遅くなっていないこと、実際には新しいアプローチで、モデルを改善し、スケールアップする新しい方法を手に入れたということに同意できないでしょうか。
また、この改善が続き、これらのモデルがコーディング、数学、文章作成、そしてあらゆるベンチマークで向上し続け、私たちは新しいものを作り続けなければならず、それらも克服し続けると仮定してください。しかし、最終的にはこのような単純なことができません。
これは非常に複雑ではありません。視覚的に一度見れば、理解できるはずです。しかし、私の質問は、もしそれが人間が近づけないような数学、コーディング、そして他の多くの科学分野で超人的なことをしているのに、イチゴの”R”の数を数えられなかったり、このパズルを解けなかったりしたら、それはAGIではない、超知能ではないということを意味するのでしょうか。
多くの科学の最前線で超人的な能力を持っているにもかかわらず、このような一つのこと、これのような大多数の人間ができることができないからといって、他のすべてを無視してよいのでしょうか。コメント欄で皆さんの意見を聞かせてください。
私の名前はWesrthで、また会いましょう。