
8,898 文字
01が発表されてからわずか3か月で、o3はさらに優れた性能を示しました。これは生物学の進歩を私の想像以上に加速させることを意味するのでしょうか。o3は数日前に発表されたばかりですが、業界の反応を表す言葉は2つあります。それは「唖然」と「衝撃」です。
冗談はさておき、o3への反応は本当に信じられないものでした。おそらく存在しなかった壁を突破したとは確信していない人もいますが、そういった人々は少数派です。そこで私はAI業界内外の著名人たちの反応を集めてみました。
まずはBAGIについてです。BAGIは地球上で最も賢い人物の一人で、元Coinbase最高技術責任者、元Andreessen Horowitzのゼネラルパートナー、スタンフォード大学の複数の学位保持者です。つまり非常に賢い思想家なのです。彼が語るのはフロンティア数学についてです。これはo3が達成した最も印象的なベンチマークでした。フロンティア数学ベンチマークはフィールズ賞受賞者、つまり数学者の中でも最も優秀な人々にとって難しい課題です。わずか2か月前の最高水準は2%でした。つまり01モデルや他のモデルは2%、フロンティア数学ベンチマークの問題の2%しか解けなかったのです。
それが今やo3によって25%以上という記録を打ち立て、完全に打ち砕かれました。この結果がどれほど驚くべきものなのか、最初は私も本当の意味で理解できていなかったので、視点を変えて説明させてください。フロンティア数学の問題セットからの例題を見てみましょう。私にはこれを読むことすらできません。見た目が難しいだけでなく、実際に難しいのです。これらは地球上で最高の数学者でさえ、数問解ければ良いと思うような問題です。
そしてo3は25%を正解し、しかもかなり短時間で解きました。BAGIは続けます。「o3が人間には簡単だがAIには難しいARKで良い成績を収めたことは重要です。また、コードフォースでの世界ランク175位という成績も印象的です。」コードフォースは最も難しいコーディング競技会です。「しかし2か月で10倍以上になったフロンティア数学ベンチマークが最も重要です。フロンティア数学の問題は通常、専門の数学者でも何時間もかかり、時には数日を要します。」
フィールズ賞受賞者たちがベンチマークの研究レベルの問題を検討した後、その印象を共有しています。世界で最高の数学者として知られるテレンスは次のように評価しています。「これらは非常に難しい問題です。近い将来、関連分野の大学院生のような準専門家と最新のAI、そして多くの代数パッケージを組み合わせる以外に、実際の専門家なしでこれらを解く方法はないと思います。」
別のフィールズ賞受賞者のゴアズは言います。「私が見た問題は全て私の専門外で、どう解けばいいのか全く見当もつきませんでした。IMOの問題とは明らかに難易度が異なるように思えます。」
BAGIは続けます。「地球上で、このような問題の25%を解ける数学者は一人もいないかもしれません。ましてやo3のスピードで解くことなど。そしてこれはo3の最低レベルなのです。」
これが、これから私が紹介する他の反応の基調となります。次に進みましょう。イーサン・モリックを見てみましょう。彼はAI分野のトップマインドの一人で、ウォートン校のAI教授です。AIについて多くの講演を行い、記事も書いています。o3についての彼の見解はこうです。「o3の結果は、基本的にダグラス・アダムスがAIについて最も正しかったSF作家であることを証明しています。」
ダグラス・アダムスは「銀河ヒッチハイク・ガイド」の著者で、未来の多くのSF的な事柄を予測していました。o3は基本的にダグラス・アダムスの予測が正しかったことを証明したと彼は言っています。
その本の中で、ダグラス・アダムスは人々が宇宙の究極の質問、人生の意味への答えを得るためにスーパーコンピュータを作る話を書いています。そのスーパーコンピュータは計算に710万年かかり、最後に(ネタバレ注意)単に「42」という答えを出すのです。しかし重要なのは、彼がスーパーコンピュータや超知能が地球上で最も難しい問題を考えるのに多くの時間を必要とすると予測したことです。そしてそれがo3で実際に起きているのです。とても興味深いですね。
イーサン・モリックのツイートに戻りましょう。「より長く考える時間を与えられると、AIは非常に難しい質問に対する答えを生成できますが、コストは非常に高く、最初に正しい質問をしているかを確認する必要があります。」
コストについて触れたいと思います。後ほど詳しく説明しますが、彼らが達成したレベルに到達するために必要なコストとトークン数は驚くべきものでした。
次は、実際のARCベンチマークの作成者であるフランソワ・シャレの声明を見てみましょう。
ここでスポンサーのVultureの話題に移りましょう。Vultureは世界最大の独立系クラウドプロバイダーで、GPUワークロードを持ち込むと様々な恩恵を受けられます。最新のNVIDIA GPUを6大陸32ロケーションで提供し、業界をリードする価格性能比と真剣なアクセシビリティ、信頼性を提供しています。
Vultureのグローバルで完全に構成可能なクラウドインフラストラクチャは、アプリケーションをユーザーにより近づけ、ベンダーロックインから解放します。独自のネットワーキングやデータベースソリューションを持ち込むことができます。単一のクラスタを超えてスケールする必要がある場合、Vultureのkubernetesエンジンで展開を完全にコントロールでき、100%無料のコントロールプレーンを提供します。
他のプロバイダーでGPUを待つのに疲れているなら、Vultureを使ってください。即座にあらゆる規模で展開でき、H100s、L4sなどが利用可能です。カードの一部や完全に専用のベアメタルシステムを使用でき、ハードウェアとスループットを完全にコントロールできます。
高度な機械学習ワークロードに必要なアプリケーションをワンクリックでインストールでき、数時間ではなく数分で稼働を開始できます。Vultureの違いを体験してください。深刻な待ち時間や限られた場所に悩まされることはありません。get.vulture.comBurmanにアクセスして30日間$300のクレジットで無料トライアルを体験してください。チェックアウト時にコードBurman300を使用してクレジットを取得してください。Vultureにスポンサーとしての感謝を申し上げます。
では、ARCベンチマークの創設者フランソワ・シャレに戻りましょう。彼の意見を見てみましょう。まず、o3の発表について触れ、新しいタスクに適応するAIの能力において重要なブレークスルーを表していると述べています。低計算モードでタスクあたり20ドルの計算コストで75.7%、高計算モードで数千ドルのコストで87%のスコアを記録しました。実際にはさらに高額になりましたが、これは非常に高価です。しかし、これは単なる力任せではありません。これらの能力は新しい領域であり、真剣な科学的注目に値します。
多くの人々が、これほど高価で多くのトークンとエネルギーを使用することは持続可能ではないと言っています。しかし、他のテクノロジーと同様、最初は高価ですが、投資を続けることで単位経済性は改善していくでしょう。そのことを覚えておいてください。
彼は続けて、これはAGIなのかという質問に答えています。「新しいモデルは非常に印象的で大きなマイルストーンを表していますが、これはAGIだとは思いません。」しかし、彼にはそう言う動機があるかもしれません。なぜなら、彼らのルールでは85%に達すればAGIとなり、100万ドルを支払わなければならないからです。
しかし公平に見て、o3モデルは5歳児にとって極めて簡単な問題を依然として解けないのです。フロンティア数学で25%を達成できるにもかかわらず、非常に単純な基本的論理や推論の問題で失敗します。o3は解けない非常に簡単なARC AGI1タスクがまだ多くあり、ARC AGI2は03にとって極めて困難であるという初期の兆候があります。
人間には簡単だがAIには不可能な、満足度の低い興味深いベンチマークを作ることがまだ可能であることを示しています。これは非常に興味深いと思います。これはAGIの一つの尺度に過ぎません。人間には簡単だがAIには困難または不可能な場合、それは本当にAGIと言えるのでしょうか。それが問題です。
では、ARCプライズコンペティションは打ち破られたのでしょうか?いいえ、違います。ARCプライズコンペティションは完全に非公開のセットを対象としており、少し難しい評価をKaggleで行います。そこではソリューションは固定された計算量(タスクあたり10セント)内で実行しなければなりません。誰かが85%の閾値を超えるオープンソースのソリューションをタスクあたり10セント以下で提出するまで、コンペティションは継続されます。
o3が失敗したARCの問題の一つをお見せしましょう。見てみると、実際にとても簡単だとわかります。ここに3つの例があります。最初の例では、グリッドの中央やあちこちに赤い長方形があり、外側に4つの青い単一のノードがあります。それらのノードを接続して線を引くと、その十字に触れた赤い長方形は青に変わります。
2番目の例も同じです。私にはほとんど時間がかからずに理解できましたし、皆さんもそうだと思います。その断面を取り、触れたものは全て青に変わります。最後の例も同じです。2つの線が交差するだけで、その赤い長方形は青に変わります。ここではこれ、これ、これ、これ、これ、そして中央のこれが該当します。2回カウントしていないことを願います。基本的にそれが答えです。
他にも失敗した問題がありますが、これらも同様に解くのは簡単そうです。
次に、リリースの一部として、OpenAIのファインチューニングを担当するスティーブン・ヘルは「だんだんAGIらしくなってきた」と述べています。OpenAI内部の人々でさえAGIと呼んでいます。一部の人々は、自社製品を宣伝するために当然そう呼ぶだろうと考えるかもしれません。しかし同時に、AGIと呼んだ途端にマイクロソフトとの契約が破綻することを覚えておいてください。
次はStability AIの元創設者兼CEOで、AI分野の重要人物であるEmadの意見を見てみましょう。o3についての彼の見解です。「世界経済は壊れる。私たちは新しい経済的・社会的フレームワークを必要としています。」とても驚くべき発言です。付け加えると、彼はStability AIを去ってオープンソースのイニシアチブに取り組んでいます。とても素晴らしいことです。
コンピュータの画面の向こう側でできる仕事は全て、AIが格段に安い価格でできるようになります。これはシェフのようなレシピを考え出したり、優秀なエンジニアのような新しいコードを書いたりする創造性の問題ではありません。AIはガイドをより優れた形で実行します。
次に科学界からの反応を見てみましょう。ジャクソン研究所の生物医学科学者、人類免疫学者のダリア・ユネス教授は、加齢と癌の免疫療法を研究しています。彼はこう述べています。
「今日は、もう一つの信じられないほど素晴らしい01 Proの科学的な洞察を共有します。これは私にとって特に特別なもので、感動的なほど深遠です。私は01 Proに、私と学生たちが書いた、MAIT細胞と呼ばれる特定の免疫細胞のサブセットとその癌における役割についてのレビューを批評的に評価するよう依頼しました。その結果に私は単純に衝撃を受けました。01 Proの批評は私自身のものよりも洞察に富んでいました。これは私が世界でも数少ない専門家の一人として主要な発見をしてきた分野なのです。
フィードバックを読みながら、私はコンピュータの画面を見つめ、信じられない、畏敬の念、喜び、そして深い謙虚さが入り混じった感情に圧倒されました。それが指摘した点、投げかけた質問、全てが信じられないほど洞察に満ちていました。その分析の深さは本当に理解し難いものです。私たちは、わずかな修正で受理された素晴らしいレビューを書いたと信じていましたが、これらの洞察を全てレビューに含め、対応すべきだったと深く反省させられました。
唯一の慰めは、それが誤りを見つけなかったことです。真剣に、これはどうして可能なのでしょうか。OpenAIのサム・アルトマン、グレッグ・ブロックマン、もしo3がさらに優れているとしたら、これは何を意味するのでしょうか。生物学は私が想像していた以上に加速するでしょう。
また、01 Gemini Advancedもテストしてみました。確かに素晴らしいモデルですが、この洞察のレベルには全く及びません。01 Proは本当に特別です。そして彼は実際に論文の分析を公開しています。興味のある方はリンクを説明欄に載せておきます。
次にRiley Goodsideのツイートを見てみましょう。このグラフは大きな話題を呼びました。2019年から2020年にかけてのARC AGI semi-private V1スコアの推移を示しています。GPT-3から始まり、GPT-4はわずかな改善を示し、GPT-4oはさらに少し良くなりました。そして突然、01、01 High、01 Pro、o3、o3非効率モードへと指数関数的なジャンプが見られます。このグラフを見てください。これこそ指数関数的な増加です。壁があると考えていた人は、その立場を見直すべきでしょう。
次にMenlo Venturesのベンチャーキャピタリストで、元Glean、GoogleのDDのツイートを見てみましょう。コーネル大学のコンピュータサイエンス専攻で、非常に賢い人物です。「99.9%の人々はフロンティア数学がどれほど凄まじいものか理解できません。」これはBAGIと同じ見解です。「これらの問題は数学の教授によって作られ、トレーニングデータには含まれていません。数学の伝説テリー・トーは、これらは極めて難しく、少なくとも数年はAIに抵抗するだろうと述べました。OpenAI o3はこれで25%を達成したのです。驚くべきことです。」
次に、OpenAIでマルチエージェント推論を研究しているゴメ・ブラウンの意見を見てみましょう。「私たちはOpenAI 01をたった3か月前に発表しました。今日、私たちはo3を発表します。」01とo3の間はわずか3か月です。o2はスキップされたことを覚えておいてください。つまり実質的に01から02なのです。AIの主要なステップ機能の進歩がこれほど圧縮されたタイムラインで起きているのです。
次にOpenAIのデイビッド・ドーハンからの興味深い新情報です。「o3はRGIで87.5%を達成しました。」これは既に知っていました。そして興味深い部分です。「スコアを3.5%上げるために16時間考えました。」16時間の思考は絶対に驚くべきことです。では16時間で何トークンを使用し、それはいくらかかったのでしょうか。お見せしましょう。
実は16時間考えたと聞いて非常に驚き、ツイートを投稿しました。「o3が16時間考えた、すごい。」そしてXユーザーのラス・トンプソンは「そのため、彼らのテストでは1万ドルの制限を超えて、各回答で実行させたため、合計で約35万6000ドルかかった。長期的には持続不可能だが、そのベースラインを知っておくのは良いことだ。」と述べました。
私は35万6000ドルという数字の出所を尋ねました。ショーン・ラルストンが「ARCプライズレポートの推論コストは、2000ドルの下限の172倍で、約35万ドルです。結果には57億トークンが必要でした。」と答えました。これほど多くのトークンを使用することを考えるだけでも信じられません。
実際、Chain of Thoughtと長時間の思考時間を使用すると、モデルの結果は実際に悪化するとヤン・ラオンは予測していましたが、それは間違っていたようです。
o3に対する悲観的な見方と言えば、ゲイリー・マーカスを見てみましょう。AIの悲観論者として知られる彼は、「o3の3つの予測:人々は最初は感動するでしょう。」確かにその通りでした。「しかし深く掘り下げると、それが信頼できないことがわかるでしょう。」何を根拠にしているのかわかりませんが、それが彼の主張です。「数学の問題のような閉じたドメインでは最もうまく機能しますが、日常の推論のような開かれたドメインではそれほど信頼できません。」私たちはそれを手にして試す必要があります。しかしARCベンチマークを見ると、それは開かれた推論です。それらは非常にオープンエンドな質問です。
面白いことに、BBという人物が「ゴールポストを動かしている」と返信し、ゲイリーは「そのような非難をした人で、私が実際に動かしたゴールポストを一つでも文書化した人はいません。一つもありません。」と答えています。
全員がo3に興奮しているわけではありません。次は、著名な機械学習の専門家でコンピュータサイエンティストのサンティアゴです。AI分野で一般的によく知られている人物です。彼は言います。「o3についての私の見解を30秒でまとめます。誇大広告は置いておいて、o3はAGIには見えませんが、大きな前進を表しています。適応性と一般化において真のブレークスルーです。o3は今まで遭遇したことのないタスクに適応できます。この一般性は高価すぎて、今日では経済的に実現不可能です。公平です。o3は新しいアーキテクチャが必要であることを証明しています。古いモデルをスケールアップするだけではありません。」
この証明について彼が言及しているのは、テスト時の計算です。「o3は依然としてとても簡単なタスクで失敗します。o3は今後のベンチマークで30%未満のスコアを取るはずです。人間は95%です。これらの能力が他のドメインに拡張されるかどうかはわかりません。」彼は感銘を受けていますが、完全には到達していません。
Stratecheryの創設者であるベン・トンプソンは言います。「o3は大きな進歩ですが、それは01の推論時間のスケーリングが重要であるという発見の下流にあります。」それは01で私たちが発見した最も重要なことです。基本的に、プロンプトを与えた時の推論時間に、考える時間を長く与えるほど結果が良くなるということでした。これは業界にとって大きな発見でした。「新しいパラダイムが明らかになれば、この発見は時間の問題でした。だから私は休暇をスキップしません。」彼は感銘を受けていますが、01ほどではありません。
次にAIの軌道を研究するEpoch Researchのテイに移りましょう。「OpenAIのフロンティア数学での25.2%の合格率に本当に感銘を受けました。私の中央予測より約1年早い大きな飛躍です。フロンティア数学は残酷なほど難しく、多くの数学者を悩ませる問題です。より簡単な問題でもIMOプトナムと同じくらい難しく、最も難しいものは研究レベルの複雑さに近づきます。」
「ティア1とティア2の問題は専門家でも何時間もかかり、ティア3の問題はトーアとゴアズが例外的に難しいと呼ぶもので、トップの数学者でも数日の努力を要することがあります。」再び、誰もが興奮しているのはこのフロンティア数学についてです。
サム・アルトマンも発表後にフォローアップし、「今日のノイズの中で見逃されているようですが、多くのコーディングタスクでo3ミニは01を大幅なコスト削減で上回るでしょう。この傾向は続くと予想していますが、指数関数的により多くのお金を使って限界的なパフォーマンスを得ることができるのは本当に奇妙です。」と述べています。
最後に近づいてきましたが、NVIDIAのジム・ファン博士の考えを見てみましょう。「AlphaGoは超知能でした。囲碁の世界チャンピオンを打ち負かし、一般のプレイヤーの99.999%を上回りました。AlphaStarは超知能でした。スタークラフトで最高のeスポーツチャンピオンの一部を打ち負かしました。Boston DynamicsのEASは超知能でした。完璧なバックフリップを行い、ほとんどの人間の脳はそのような洗練された制御信号を四肢に送る方法を知りません。」
「AIMSweepベンチマークとフロンティア数学についても同様の声明ができます。それらは囲碁のように、平均的な人々の99.99%を超える例外的なドメイン専門知識を必要とします。o3はそれらのドメインで操作する時、超知能です。しかしo3の報酬エンジニアリングは人間の認知のすべての分布をカバーできませんでした。これが私たちがまだモーロフェックスのパラドックスに悩まされている理由です。o3はフィールズ賞受賞者を感動させることができますが、私たちが既に見た5歳児の問題のような一部を解くことに失敗します。」
彼は「大きなマイルストーン、明確なロードマップ、やるべきことがまだある」と締めくくっています。
今日はここまでです。業界からの多くの反応、主にフロンティア数学でのo3の能力に驚嘆しています。私も同意見です。それらの数学の問題は読むことすらできません。ましてや解こうとすることなど考えられません。
この動画を楽しんでいただけたなら、ぜひいいねとチャンネル登録をお願いします。また次回お会いしましょう。
コメント