
8,888 文字
やあみんな、非常に重要な動画だ。申し訳ないが空港の真ん中にいて風邪を引いているんだけど、とても重要なことが起きたのでこの動画を撮らなければならなかった。いつもそうだけど、人工知能の重要な発表、特にOpenAIの発表は私が飛行機に乗っているときに来る。これからサンフランシスコからマドリッドまで11時間のフライトがあるんだけど、今年最も重要な発表の一つが行われ、これは将来に向けて多くのことを変える可能性がある。早速詳しく見ていこう。
皆さんご存知の通り、OpenAIは約3ヶ月前に推論モデルの最初のバージョンであるo1をリリースした。o1プレビューとo1ミニ、小さいバージョンだ。これらのモデルの主な特徴は、GPTモデルのパラダイムとは異なり、推論できる、つまり推論時間を費やすことができる。ボタンを押すと、モデルはトークンを生成し、トークンを生成し、トークンを生成し、内部で考えて、その計算時間をより正確な回答に変換しようとする。
モデルは「考えている」と言えるだろう。これがGPTモデルとのパラダイムの違いで、GPTモデルではボタンを押すと即座にトークンを生成して回答を始める。このモデル1が登場した時、これは非常に重要だと言った。なぜなら、新しいスケーリング則を示していたからだ。ディープラーニングにおけるスケーリング則は、最近まで、モデルを訓練する際により多くの計算とデータを投入すれば、より良い結果が得られる、つまり訓練段階でより良い結果が得られるということを指していた。
しかし、これらの推論モデルの登場により、推論の部分で新しいスケーリング則が開かれた。訓練ではなく、モデルが回答を考えるためにより多くの計算時間を費やすことで、より良い結果が得られるようになった。それがo1モデルが体現していたものだ。9月にOpenAIがリリースしたo1モデルは、2週間前までその最終版にアクセスできなかったが、私が試した限りではかなり良いモデルだった。
特に月額200ドルのサブスクリプションでアクセスできるProモデルは非常に高価だが、実際に人間のパフォーマンスから少し離れ始めているような結果を示すモデルだと私は感じ始めていた。これまで他の人工知能が解決できなかった問題を解決してくれることもあった。
そして何が起きたかというと、OpenAIは2週間後の今、o3をリリースした。o2ではなくo3だ。彼らが言うように、o2企業との商標の問題があったためバージョン2をスキップした。これはかなり面白い。OpenAIのモデルの命名法がさらにカオス的になり、数値の順序がまだ何かを示していたのに、今ではo1からo3にジャンプする。
しかし、名前のジャンプは本当に正当化されると思う。なぜなら、3ヶ月で見られたパフォーマンスの飛躍は驚異的だからだ。今日OpenAIが発表したことは、本当に人工知能の一つのマイルストーンだ。これは、OpenAIの12日間の一連の発表の最後の発表として行われ、このような動画で新しいo3モデルの様々なベンチマークでの結果を紹介している。人工知能の能力がどのように進歩しているかをテストするために設計された一連のテストだ。そして、最初の結果を見ると、非常に興味深いものがある。
ここにo1プレビュー、o1、そして新しいo3モデルのSW bench verifiedベンチマークでの比較がある。今年ずっと言ってきたように、これは新しいモデルの参照ベンチマークの一つになるだろう。多くの動画で見てきたように、このベンチマークは、ソフトウェアエンジニアが直面する可能性のある実際のタスクのセットに対して、プログラミングツールなどにアクセスできる状態で人工知能がどの程度の能力を持っているかを測定するものだ。
2024年3月の年初には、チャンネルでも話題にしたDevinのような人工知能がこのようなタスクの17%を解決できた。この数字は数ヶ月で17%から20%、30%、o1プレビューで41.3%、o1で48.9%と上昇し、その後Claude Sonnetが51%で上回り、推論モデルではないモデルがこのベンチマークで上回ったことは少し屈辱的だった。
しかし今、o3が登場し、71.7%という結果でこの記録を粉砕した。つまり、ソフトウェアエンジニアリングの分野での実際のプロフェッショナルなタスクの70%を、人工知能o3は現在解決できる。これは非常に重要なデータだ。年初は13%だったことを思い出してほしい。
しかし、隣のグラフを見ると、これはプログラミングコンペティションでのEloで測定された推論モデルのパフォーマンスだ。CodeForceの非常に複雑なプログラミングの決定で、9月のo1プレビューは既に印象的で1258のEloを達成し、2週間前のo1最終版は1891に達した。そして今、o3はo1プレビューの数字を2倍以上の2727 Eloにした。
これは既に確認済みで、このモデルを世界のプログラマーランキングで175位に位置づけている。つまり、このモデルがリリースされて利用可能になると、パフォーマンスで世界175位のプログラマーを手に入れることができる。これは狂気の沙汰だ。
これは今年ずっと警告してきたことだ。プログラミングは自己検証可能な合成データを生成できる問題や分野の一つだ。これがそれを証明している。しかし、プログラミングだけでなく、今年は自己検証可能な合成データを生成できる別の領域でも強調してきた。問題の半分強、56%を解決できていたのが、o1で83.3%に上昇し、o3で96.7%に達した。
ほぼ問題セット全体を解決している。これは2024年末から2025年にかけてよく耳にする概念になるだろう。ベンチマークの飽和だ。私たちにとっては複雑でも、人工知能にとってはそれほど複雑ではない試験が出始めており、飽和し始めている。モデルが改善しているかどうかがわからないような限界に達している。96%というと、ほぼ完璧に近づいているからだ。
GP qa Diamondベンチマークでも同様のことが起きている。これは博士レベルの質問で、o1プレビューとo1は78%前後だったが、o3は87.7%に上昇し、再びこのベンチマークの飽和に近づいている。
そして、ベンチマークが飽和し始め、人工知能にとってそれほど複雑ではない問題を提案し始めるとき、何をすべきか。より複雑な問題を作る必要がある。その意味で、最近、このFrontier mathのような新しい、より複雑なベンチマークが登場し始めた。新しい方法で人工知能を評価するベンチマークを提示している。
まず、インターネット上に公開されていない数学の問題を使用することで、人工知能が訓練段階でそれらを暗記してしまうリスクがない。そして、非常に非常に難しい問題だ。前例のない難しさと言われている。各問題は専門の数学者が何時間もかかるような問題で、GPT-4やGeminiのような現在の最先端の人工知能システムでもこれらの問題の2%未満しか解決できない。
このFrontier mathベンチマークは、昨日までは現在のシステムで2%しか解決できなかった。これは非常に少ない数字だが、システムを改善し続けるための余地があるという意味で良いニュースだった。しかし、o3が登場し、OpenAIは今、この新しいモデルが2%から25%に上昇したことを発表した。問題の4分の1を解決できるようになった。これは驚異的だ。
まだ更に印象的な結果を見ることになるが、私にとってはこれが発表された中で最も重要なことかもしれない。なぜなら、これは人工知能、新しい推論モデルが、ほとんどの人間の専門家が自動的に解決できないような高度な技術的、科学的な問題を実際に解決できることを確認する扉を開いているからだ。
フィールズ賞を受賞した著名な数学者Timothy Gowersの言葉によれば、これらの問題の一つでも正しく解決することは、現在の水準を超えることになる。しかし、o3はこのベンチマークの問題の4分の1を解決したことを忘れないでほしい。
そしてこれが既に印象的だったのに、今年の私のクリスマスの願い事の一つが叶った。配信の途中で、今年このARK AIという賞を主催していたフランソワ・ショレが設計したパズルのような問題を組織していた、この人物が参加するように招待された。これは複数の動画で取り上げてきた問題で、人工知能の進歩に関する非常に重要なことを示すために設計されたものだ。
人工知能を使って超複雑な数学の問題を解決することはできるが、このような単純な問題を提示すると…色のグリッドがあり、いくつかの例を示して「このような入力パターンに対してこのような出力パターンを生成する」というもの。ここで何が起きたかというと、これらの小さな空白を青い四角で埋めた。
ここでも別の例で同じことを行い、青い四角で埋める。もし今この新しい例を与えられたら、正しい答えを出せるだろうか。そうすると、ここで四角を塗るという、かなり単純なものだ。人生で一度は経験したことのある典型的な知能テストだ。
このARC AGIベンチマークは、まさにこれを評価するために何年も前から存在している。このベンチマークの興味深い点は、提示される各テストの背後にある論理が異なることだ。この場合、色付きの四角があり、花が咲くように花びらが現れる。
これでパターンを検出し、前に見た問題とは全く異なる方法でこの問題を解決する。次の問題に進むと、全く異なる論理を持つ問題になる。これは非常に興味深い。なぜなら、人工知能が問題について訓練され、それらの問題をとてもよく解決できるだけでなく、新しい文脈や新しいタイプの問題に適応する能力があるかどうかを評価するからだ。
訓練中に見たものとは異なる方法で推論する際の創造性があるかどうか、これまで人工知能でそれほど発達していなかった一般化能力を評価する。ここに表示されている他のベンチマークの青い線、数学、言語、言語能力などで人工知能が時間とともに改善してきたにもかかわらず、このARC AGIベンチマークが発表されて最初の数年間、進歩は非常に小さかった。
このベンチマークの5年間の存在期間中、進歩の線はほとんど進展がなかった。今年、100万ドルの賞金をかけたこのコンペティションを開催したことで、多くの人々が参加し、異なる技術や異なるトリックを使って解決策を見つけようとした。その結果、ARC AGIのテストの50%を解決するまでレベルが大きく上昇した。これは非常に重要な飛躍だった。
しかし、この50%はまだ、人間が特に困難を感じることなく達成できるARC AGIベンチマークのパフォーマンスレベルには遠く及ばなかった。一日午後に座ってこのベンチマークに取り組めば、簡単に85%の問題を解決できる閾値に達することができる。人工知能はこの閾値に近づくことさえできていなかった。
しかし、みなさん、今日、今年見た中で最も驚くべきことが起きた。このコンペティションとベンチマークの創設者の一人を招待し、新しいo3モデルが87.5%に達したことが発表された。ついに、このとても複雑なARC AGIベンチマークで、人工知能が超人間的、あるいは人間のレベルに到達したと言えるための閾値を超えたのだ。
このベンチマークの名前「ARC AGI」は混乱を招く可能性があり、人工知能がこのベンチマークを超えたとき、AGI(汎用人工知能)に近づいているのかどうかについて、多くの人々が議論してきた。実際にはそうではないのだが、フランソワ・ショレがこのベンチマークについて語るアプローチが私は非常に気に入っている。
人工知能がこれを超えたからといって、AGIができたということではない。しかし、人工知能がこのテストに合格できないのであれば、まだAGIだとは言えないということも確かだ。これは人工知能が勝利を宣言する前に解決しなければならない未解決のタスクだった。2024年12月20日、ついに人工知能がこの閾値を超えたと言えるようになった。
ここでもう一度、赤い線で示されているo1シリーズと新しいo3シリーズを比較してみよう。この飛躍は私には驚異的に思える。o1シリーズには、小さな小型モデル、プレビューモデル、そして思考時間の少ない順から多い順に3つの設定がリストされている。人工知能が最終的な判断を下す前にどれだけ考える時間を与えるかだ。
o1モデルは、より多くの計算時間を与えると、lowモデルからhighモデルまで、25%から32%へと改善を示した。これは素晴らしかった。しかし、今や新しいo3シリーズは、最も計算時間の少ないものでも驚異的な75.7%からスタートする。下に計算時間が各タスクごとにグラフ化されているのが見える。これについてもすぐに話すが、最も計算時間を使用するバージョンで、この驚異的な87.5%に達している。
現時点で私たちが目にしているのは結果だけだが、信じてほしい。これらの結果は非常に重要な実証的証拠だ。これまでに比較したすべてのベンチマークは、人工知能がこれほど効果的に解決できなかったという特徴を共有している。そして、オーバーフィッティングの影響を受けていない。なぜなら、評価された結果はインターネット上に公開されていないからだ。
これは、人工知能が超人間的なパフォーマンスを発揮できることを示すために必要な証拠だ。テストタイム推論という新しいパラダイム、つまりモデルを改善するために思考時間を交換できるということが実際に機能することを示している。これは驚くべきことだ。
訓練段階でのスケーリング則において収穫逓減が見られる段階、つまりより多くのお金を投入してもモデルがそれほど改善しない段階で、突如として新しい能力が解放された。複雑な問題を与え、モデルにより多くの思考時間を与えることで、より多くの計算時間を費やすほど、モデルがその問題をより効果的に解決できるようになったのだ。
では、どれだけの計算時間を費やす必要があるのか。ここで事態は少し恐ろしいものとなる。ARC AGIのウェブサイトで共有されているこの同じグラフを見ると、下のグラフ、タスクあたりのコストを示すグラフに数字が記載されている。これがより興味深いものとなる。
下のスケールは対数スケールだ。つまり、バーが進むごとに1桁ずつ増加する。ここではタスクあたり数ドルの範囲にある。AGIデータセットは約400のタスクで評価されることを考えると、ここでは10ドル、100ドル、1000ドルという範囲だ。
o3モデルは低計算時間で、タスクあたり17-20ドルの範囲にある。先ほど見た問題の各問題に2ドルかかる。その数字に400を掛けると、ARC AGIで76%を達成するための総コストが出る。
しかし、右側に移動して、同じモデルだがはるかに長い時間考えさせるバージョン、88%を達成したものは、タスクあたり約1700ドルのスケールにある。これは彼らが言うように、172倍の計算量だ。同じモデルだが、170倍長く考えさせている。
これは狂気の沙汰だ。人々が計算したところ、このコストでARC AGI全体を評価すると、OpenAIには100万ドル以上、170万ドルかかったことになる。つまり、OpenAIはこのコンペティションの賞金よりも多くのお金をモデルの評価に費やしたことになる。
この数字は威圧的に感じられるかもしれない。これらのモデルが総当たり的に大量の計算を使用して解決しているため、非常に無駄が多いと考えるかもしれない。しかし、もしこれが総当たりだったら、これは解決されていないはずだ。ARC AGIの問題は総当たりだけでは解決できない。
重要なのは、GPT-3やGPT-4のリリースから今日までに起きたことを振り返ることだ。一度リリースされたこれらのモデルは非常に最適化が不十分だったが、数ヶ月が経過するにつれてコストは桁違いに下がっていった。今日のGPT-4のコストは、リリース時の価格よりもはるかに安い。
今リリースされたこのモデルも、再び非常に最適化が不十分で、このコストを大幅に削減するための余地が多くある。1年後、2年後、3年後を想像してみよう。o3がこの技術の上限だと考え、これ以上の改善がないと仮定しても、年月が経過すれば、今日見ているこの同じ能力、プログラミングにおける超人間的な能力、数学でも博士レベルの最高の専門家と同等の能力を、非常に手頃な価格で手に入れることができるだろう。
例えば、プログラマーのチームに指定した通りの完全なツールを作ってもらうために数ドルを使うことができる。それが今、私たちの手の届くところにある。そして、さらにo3ミニがある。これはより小規模で、したがってより最適化されたバージョンで、2025年1月からOpenAIが私たちの手元に届けてくれる予定だ。つまり、約1ヶ月後には、この新しいo3ミニで遊ぶことができる。
low、medium、highの3つの異なる計算レベルを設定でき、モデルの思考時間を少なくしたり多くしたりして、より良いまたはより悪い回答を得ることができる。このグラフを見ると、o1ミニと比較して、low設定の場合のパフォーマンスは同等だが、はるかに高速であることがわかる。つまり、はるかに高速なミニモデルを手に入れることができる。
能力の観点から見ると、o1ミニとo3ミニを中程度の能力で比較すると、78.2%、つまり15%の改善が見られ、さらには83.6%まで達成できる。ただし、応答時間は長くなる。このモデルがクリスマス後にリリースされ、その後いずれはo3モデルにアクセスできるようになる予定だ。
これらすべてを踏まえて、大きな質問に答えたい。カルロス、このモデルはAGI、つまり汎用人工知能なのか?私はまだそうではないと思う。この回答には多くのニュアンスがあり、より長い動画で説明できるだろう。
なぜなら、AGIはモデル内の純粋な知性だけでなく、この知性が私たちの社会の生産的なタスクに実際の価値や影響を与えるための多くのツールや方法を構築する必要があるからだ。しかし、私たちは非常に近づいていると思う。
このo3モデルは、私にとって初めてAGI時代の前夜を示している。私たちは実証的に、モデルが推論時間で改善できること、より多くの計算を費やすことで改善できることを証明した。これは非常に重要だ。
考慮すべき別の変数は、o1プレビューが9月にリリースされたということだ。モデルが安全性管理のための再調整フェーズ、いわゆるredamを約3-4ヶ月前に経ていたと仮定すると、o1とo3の間の改善、実際にはo2だったはずの改善は、約6-8ヶ月の間に行われたことになる。
6-8ヶ月でこの程度の改善を達成できたということは、1-2年後には、このモデルの2-3回の反復がさらに行われる可能性があることを示している。つまり、今日見ているこれらの能力は引き続き改善され、人工知能は改善し続けるだろう。これが見出しだ。
そして、私たちは平均的な人間のレベルだけでなく、プロフェッショナルな人間のレベル、そして場合によっては超人間的なレベルの領域に入り始めている。本当に、このモデルは現在の状態でも、コストを最適化しなくても、科学的レベル、技術的レベルで実際の価値を持ち始める可能性があると思う。
これが今日、私に最も魅力的な時代を生きているという感覚を与えたのだ。これが起こることを何年も前から予告してきた。私は2024年にこの進歩の道筋が前進し続けるという証拠を待っていた。そしてOpenAIがそれを見つけた。
空港にいることを活かして、見てください、空港の真ん中で飛行機を背景に撮影しているんですが、今起きていることのアナロジーを作ってみましょう。GPTモデルで人類はエンジンを発見したようなものだ。動力付き車両を作ることができ、そのエンジンを機械に応用して物を動かし、車両を動かす。それは素晴らしく、より速いエンジン、より効率的なエンジンを作り続けた。それは素晴らしいニュースだった。
しかし、ある時点で誰かが考えた。このエンジンを飛行機に搭載したらどうだろう?機械が加速するだけでなく、高度を上げ始め、飛行できるようになったらどうだろう?o1で既に、私たちは人間のパフォーマンス、私たち全員が達成できるパフォーマンスを超え始めていることに気づいた。
そして今、o3でこれが加速し、この飛行機は離陸し、高度を上げ始めている。私たちがいる場所から離れていく高度だ。そして、私たち全員の手に非常に強力なツールを置いている。
この新しいパラダイムに非常に注意を払う必要がある。OpenAIがこの技術をどのように進化させていくのか、他の競合他社もどのように実装していくのか、非常に注目する必要がある。なぜなら、このテストタイム推論のパラダイムには多くの異なる実現方法があり得るし、もしかしたらさらに効果的なオプションもあるかもしれない。
私たちは人工知能の最も魅力的な年の一つの中にいて、今日起きたことはすべてのマイルストーンだった。だから、私たちはそれを祝福する。みなさん、この人工知能の飛行機の旅で、私と一緒に学び、魅了され続けてくれてありがとう。
そしてこの旅は、ちょうど私をマドリッドに連れ戻してくれる。そこでメインチャンネルに戻り、そこで教育的な動画をすべて続け、このニュースチャンネルでは、私たちが経験しているすべての進歩をカバーし続けていく。みなさん、ありがとう。ここに見ることができる動画が2本ありますので、ぜひご覧ください。また次の動画でお会いしましょう。さようなら。
コメント