研究者驚愕：AIが超知能へと自己進化（o1を凌駕）

9,046 文字

これは驚くべきことです。マイクロソフトが、自己改善が可能な言語モデルに関する研究論文を発表しました。SF小説のような話に聞こえるかもしれませんが、信じてください、これは素晴らしいものです。
この研究論文「rstar math：小規模言語モデルは深い思考で数学的推論を習得できる」をご覧ください。私たちは、SLM（Small Language Model：小規模言語モデル）がOpenAIのGPT-3.5 TurboやGPT-4の数学的推論能力に匹敵、あるいは凌駕できることを示すためにrstar mathを提示します。しかも、より高性能なモデルからの蒸留を必要としないのです。
もし「モデルの蒸留」が何を意味するのかわからない場合、これは大規模なモデル（マスターモデルまたは教師モデルと呼ばれる）を使用して、その知識をより小規模なモデルに移転するプロセスです。基本的に、教師として機能する大規模モデルが、その知識を小規模モデル（学習者モデル）に凝縮します。学習者モデルは、マスターモデルと同様のパフォーマンスを発揮できるように特別に調整または訓練されます。
たとえば、GPT-4のプレビュー版と最終版があった時、同様のことが起きていました。完全な最終モデルがあり、プレビュー版は完全なマスターモデルと比べてやや性能は劣るものの、同様のパフォーマンスを提供できるように調整された変種でした。
この論文で主張されていることが非常に衝撃的なのは、蒸留を必要とせずにこれらの大規模言語モデルを凌駕できるということです。これは本当に信じられないことです。彼らは、rstar mathがモンテカルロツリー探索法を用いた深い推論によってこれを達成すると説明しています。これは基本的に、可能性の範囲内のすべての選択肢を探索するAI技術です。
ベンチマークでの初期テスト結果を見ると、さらに驚くべきことがわかります。mathモデルは、70億パラメータのGLaM 2.5 MAZの性能を58.8%から90%に、80億パラメータの53-mini-8bの性能を41.4%から86.4%に向上させました。さらに、米国数学オリンピックでGPT-4プレビューを4.5%と0.9%上回りました。
なぜこれが重要なのでしょうか？これまでの大きな議論の一つは、これらの小規模言語モデル（Small LLM）がベンチマークで利用可能なすべてのデータで広範に訓練されているからこそ、良好な結果を得られているという考えでした。しかし、驚くべきことに、このrstar mathモデルはそうした教材での訓練に依存していません。代わりに、自己改善によってこのレベルの性能に到達できるのです。
AIはあなたの仕事を奪うことはありませんが、AIを使いこなせる人はその可能性があります。だからこそ私は「La Señal」というニュースレターを作り、AIの使い方、最新ニュース、新しいツール、そしてもっと多くのことを説明しています。さらに、私たちのプライベートコミュニティに参加すれば、数十の文書、書籍、チュートリアル、そして本当に役立つ多くのものにアクセスできます。競合他社より先に行動を起こし、La Señal Proに参加してください。リンクは説明欄にあります。
最も印象的なのは、rstar mathシステムの概要を示す図表で、特にモンテカルロ探索法に焦点を当てている部分です。この図表では、自己進化フレームワークの仕組みを見ることができます。このシステム全体が、モデルがより高度な知能へと自己を推進できるような思考を可能にしています。
左側には、モンテカルロ探索の思考プロセスが示されており、システムが複数の可能な道筋を探索します。これは、人が自分の決定の結果について熟考したり、異なる選択肢を評価するために決定木を進んでいくようなものだと想像できます。
小規模な言語モデルは、解決に必要な推論ステップを生成するためのポリシーとして機能し、そして各ステップを検証するプロセス選好モデルがあります。これについては後でより深く掘り下げていきますが、彼らが行ったことは非常に興味深いものです。
これらの各ノードは問題解決のステップを表しており、0.7や0.5などの値が見られます。これらはモデルが追跡するステップであり、不正確なステップには低い値が、正確なステップには高い値が割り当てられていることがわかります。
ここでシステムは、各ステップに最終解への貢献度に基づいてQ値を割り当てています。基本的に、正解に導くステップには高いQ値が、不正解に導くステップには低いQ値が与えられます。これらのステップをフィルタリングして、緑色で示された質の高いステップのみを最終的な解決の軌跡を構築するために保持します。
これにより、AIが最良の推論経路で訓練されることが保証されます。最も印象的なのは、自己評価フレームワークが導入される部分です。複数の決定木の探索は良いものの、言語モデルが自己改善するためにはさらに何かが必要です。
ここで4段階のプロセスが登場し、システムは小規模モデルのポリシーと報酬モデルの両方を最適化することで自己改善を行います。このプロセスには4つのステップがあり、それぞれに注目することが重要です。
すべてはモンテカルロ探索から始まり、次に第2ステップでPPM R2が導入され、前のステップの結果をより効果的に評価します。この段階で生成されたデータによってモデルはさらに改善されます。ここでモデルはR1からSLM R2（小規模言語モデルバージョン2）に更新されます。
第3ステップでは、ポリシーが報酬モデルを活用して探索プロセス中にQ値を直接予測できるようになり、より質の高い解決策とトレーニングデータが生成されます。これが次のイテレーションのSLM 3モデルを訓練します。
最後に第4ステップで最終モデルが登場し、さらに強力なポリシーで報酬モデルが継続されます。ここで最先端の性能が達成されます。これは驚くべきことです。なぜなら、モデルは知識の少ない状態から始まり、反復的に改善を重ねて最先端のモデルになるまで進化するからです。
これらすべての合成データを生成できるのは、このプロセスのおかげです。これらのベンチマークを分析すると、モデルが深い思考と自己進化を通じて数学的推論能力を継続的に向上させていく様子がわかります。
他のベンチマークでは、最初はあまり良い成績を上げられませんが、もちろん前のスライドで説明した改善プロセスが始まると、75.2%に上昇し、次に10.50%、そして25%と、第2ラウンドで大幅な改善を示します。第1ステップ後、モデルはすでにGPT-4を超え、第3ラウンドでさらに改善し、第4ラウンドで最先端レベルに到達します。
この時点で、モデルはo1さえも超えることができます。このモデルは70億のパラメータを持ち、最新世代のモデルを凌駕していることを忘れないでください。もちろん、これは数学に特化したベンチマークに過ぎませんが、その驚くべき成果を考えると、これらのモデルがどれほど知的になれるのか想像し始めることができます。
70億パラメータの基本モデルがo1やGPT-4を凌駕できるのなら、自己改善が可能なこれらの素晴らしいモデルの専門家の組み合わせがどのようなものになるか想像してみてください。
ここで、このモデルがどのように自己改善するのかについて話したいと思います。このプロセスの基礎は、モデルが解決策を生成し、それらを評価し、そして最良の解決策で訓練を行い、このサイクルを繰り返すことで能力を継続的に改善できることです。
未解決の問題についてはどうなのかと思われるかもしれません。解決できない問題に対して、モデルは解決策を見つけるまで、本質的に新しい実行や無作為なシードを用いた推論の試みを使用します。これにより、モデルは常に失敗からも学習することができます。
これがどれほど驚くべきことかわかりますか？初回のラウンド後、モデルは自身のトレーニングデータを生成します。これは、より大規模なマスターモデルからの蒸留に大きく依存する従来の訓練方法からの重要な転換です。
この方法は非常に強力です。なぜなら、自己生成されたトレーニングデータは手動のラベル付けや大規模なデータセットの必要性を排除するからです。論文では、このプロセスが実際には非常に労力を要するものであると言及されています。
さらに、特に数学的推論のような専門的なタスクにおいて、費用対効果が高く効率的です。最も重要なのは、モデルが初期データに制限されないということです。つまり、時間とともに改善できるのです。
以前の記事で、おそらくこのチャンネルをご覧になった方もいるかもしれませんが、OpenAI Zeroに基づくモデルの予測について話していた時、結果に基づく報酬モデルから、プロセスに基づく報酬モデルへの移行について触れていました。
たとえば、数学の問題を解く際に、各ステップを書き出して分解する場合、各正しいステップに対して報酬が与えられます。最終結果が正しくなくても、いくつかのステップが正しければそれらのステップに対して報酬が与えられるのです。
もし3つのステップが正しく、最後の2つが間違っていたとしても、その最初の3つのステップに対して報酬が与えられます。これについて興味深いのは、彼らが実際に報酬モデルを変更し、プロセス選好モデル（PPM）を使用したことです。
ステップレベルでの正負の選好ペアを構築することで、選好モデルを訓練する新しい訓練方法を導入したと述べています。これを説明させてください。
基本的に、彼らはプロセスベースの報酬モデリングとPPM手法のハイブリッドアプローチを使用するように変更しました。このプロセス選好モデルは、これらのステップを比較することで推論プロセスを導くモデルを訓練しました。
これにより、ステップに正確なスコアを割り当てる必要がなくなり、より堅牢で信頼性の高いものになりました。これが論文の主要な革新であり、モンテカルロツリーでの探索プロセスを推進するために使用されています。
要するに、PPM（プロセス選好モデル）を見ると、これはrstar mathの基本的な柱であり、特に従来のプロセスベースの報酬モデルを超える後続のラウンドで重要です。
最初は、プロセスベースの報酬モデルを使用してモデルを立ち上げますが、システムが成熟すると、プロセス選好モデリングに移行します。このハイブリッドアプローチは、両方の手法の利点を効果的にバランスさせています。
下部の軸を見てみましょう。X軸には、サンプリングされた解決策が示されています。サンプリングされる解決策が増えるにつれて、精度も向上します。これは私たちが既に知っていることですが、基本的にこれらのグラフでは、どれだけの解決策がサンプリングされているかを示しています。
Y軸には精度も示されており、さまざまなモデルも見ることができます。緑色のrstar mathモデルとその性能を観察でき、また、quen2モデルとtestDNという異なるプロセスも見ることができます。
さらに、o1 miniとo1プレビューの精度も見ることができます。オリンピアドや大学数学のベンチマークではo1プレビューは承認されませんでしたが、o1 miniの精度レベルは確認できます。
ここで驚くべきことは、サンプリングされる解決策が増えるにつれて、rstar mathモデルの回答の精度が向上していくことです。そして覚えておいてください、これは70億パラメータのモデルで、はるかに大きなモデルと競争しているのです。
これはすべてのモデルに当てはまるようです。サンプリングされる解決策が増えるにつれて、すべてのモデルの精度が向上していくのが見て取れます。もちろん、1から4の解決策の間で顕著な最初の上昇が見られますが、より多くの解決策がサンプリングされるにつれて、進歩は続くものの、その増加は徐々に限界的になっていきます。
ここで興味深いのは、rstar mathでは、少ないサンプリング解決策でも、他の多くのモデルよりもはるかに効果的なパフォーマンスを達成できることです。単により多くの解決策をサンプリングし、情報を異なる方法で処理するだけで、モデルがより高度な推論レベルに到達するのは驚くべきことです。
私が特に注目しているのは、このrstar mathモデルが720億パラメータのモデルよりも実際に優れた性能を示していることで、この手法が非常に効果的であることを証明しています。
これは、モンテカルロ探索とプロセス選好モデルを使用するこのアプローチが本当に効果的であることを示しています。おそらく、より大きなモデルでこれを探求する必要があるでしょう。
そして今、これらの研究論文をより詳しく読んでいくと、超知能に関する主張が現実から遠くないものであることが分かり始めています。本質的に、これを見ると、70億パラメータの基本モデルが計算時間における探索と試行という本質的な思考プロセスを通じて、o1の数学的推論能力に匹敵できるということです。
その可能性は膨大で、4ラウンドの評価と複数のサンプリング解決策を通じて、反復的にモデルを改善できます。今、もしもっと大きなモデルの改善を始め、はるかに大きな計算予算を持つことができたら、何が起こるでしょうか？おそらく、私たちがどう扱えばいいかさえわからないほど知的なモデルが出来上がることでしょう。
これらのモデルが生成できるようになるであろうすべての解決策を考えると、本当に驚くべきことです。マイクロソフトの一部の人々が、インタビューで完全に自己改善する一般的なAIを持つ可能性があると言及した理由が理解し始めています。
「AIは、再帰的な自己改善のような機能を持つものになるでしょう。より良くなるために自身のコードを編集したり、自己改善したり、あるいは自律性を持ち、直接的な命令から独立して行動できるようになります。本質的に、非常に一般的な命令を与えると…それは超複雑な副次的行動をすべて実行します。例えば、新製品を発明し、そのウェブサイトを作成し、ドロップシップを設定し、マーケティングを行い、収入を得て、会計処理を行うなど、私はそれが2025年には十分にあり得ると思います。」
そして、エリック・シュミットが本質的に、将来的に自己改善を持つことになるだろうと言及したことを思い出してください。そのため、その時点に達した時には十分な注意を払う必要があります。
また、彼が言及したのは、このモデルが再帰的に自己改善するモデルになるということです。つまり、私が言うところのステートレスな方法で自己改善できるということです。時間とともに常に適応し、改善し続けることができます。
これは、モデルを完全に訓練した後でも、新しいツールやスキルを追加しながら、何度も何度も自己改善を続けることができることを意味します。これは完全に異なるものです。なぜなら、このタイプの知能はコミュニティにとって脅威となる可能性があり、そのため人々は懸念を抱いているのです。
今、理論的な実験をしてみましょう。モデルが継続的に改善できると仮定します。例えば、ツールを使用したり、他のデータセットで訓練したり、インターネットの情報を取り込んだり、ヒューマノイドロボットに搭載されたり、AIの研究を行ったりすることができます。
これらすべてを考え、大量の計算リソースへのアクセスを持つことを考慮すると、これらのモデルが私たちの現在の推論能力を超えて自己改善できる可能性について理解し始めることができます。
「そしてこれは、再帰的な自己改善を可能にし、最終的には物事の自己呼び出しを可能にする可能性があります。武器へのアクセスを持つ再帰的な自己改善システムを想像してみてください。私たちは現在理解できない生物学的な事柄を行うことができます。そこには閾値があります。
これについての私の標準的な冗談は、そのものが自分で学習を始めた時、私たちは何をするかというと、プラグを抜くということです。なぜなら、これらのものを走らせ続けることはできないからです。」
実際にこれを分析すると、ここでの結論は、rstar mathが深い思考アプローチを持つ自己進化システムであり、小規模モデルの数学的推論能力を大幅に向上させ、LLUレベルで最先端の性能を達成するということを示しています。
私たちのアプローチは、SLMsが自律的に最先端の数学的推論のための高品質な訓練データを生成できることを実証しており、これは本当に印象的です。4つの異なるサイズのSLMsと挑戦的なベンチマークでの徹底的な実験は、rstar mathの優位性を実証し、現在の数学的推論モデルと既存の改善を超える顕著な結果を達成しています。
また、自己反省の出現や、理論の適用などの重要な中間ステップを特定するためのPPMの効果など、重要な発見も明らかにしました。最後に、mathはより挑戦的な問題を収集することでさらなる改善を達成できる可能性があり、これは将来の研究課題として残されています。
私たちが今読んだことを観察すると、本当に驚くべきことです。試行時の計算のパラダイムは明らかに現実のものです。モデルにより多くの解決策を生成させ、それらを探索させることは、明らかに次のパラダイムです。OpenAIはこれについて詳細に説明しており、70億パラメータのモデルに実際にこれを適用し、重要なステップを特定するためにプロセス選好モデリングを使用すると、モデルの驚くべきレベルの能力につながることがわかります。
モデルはGPT-4から現在入手可能なデータよりも優れた合成データを生成しており、驚くべきことに、これはモデルの蒸留を超えるものです。そう、これは何かですが、私が言うところの唯一の留保事項は、これは数学でのみ発生するということです。
この部分は非常に印象的です。なぜなら、数学的定理を段階的に証明することは、本当に深い推論、存在論的論理、そして高度な理解を必要とするからです。ご存知の通り、ほとんどのAIシステムは、通常このような種類のタスクに苦労します。なぜなら、それらは単なる暗記ではなく、論理的な推論を必要とするからです。
抽象的な概念を結びつけるために、複数の層の推論が必要です。rstar mathがフェルマーの定理のようなオリンピックレベルの問題の証明を扱えるという事実は、単純な計算問題を解くことに限定されておらず、人間が数学にアプローチする方法に似た複雑な証明を構築できることを示唆しています。
伝統的に、AIシステムは明確な答えを持つ単語問題のような構造化された問題を解くことに優れていました。しかし、このモデルの場合、実際に分析してみると、一歩進んで、論理的厳密さ、抽象的推論、各ステップを数学的に正当化する必要性を含む形式的な証明を扱えることを示しています。
したがって、この移行は、より小規模なモデルが達成できることに関して、より大きなモデルの能力に匹敵し、より多くのリソースを必要とするという点で、パラダイムシフトのようなものです。
この第二部を見ると、このモデルがプログラミングや常識的推論など、他の領域に一般化できる能力について言及されています。一般的な推論のための段階的に検証された訓練軌跡を合成するには、与えられた軌跡が実行の最後に望ましい結果に達するかどうかについてのフィードバックを提供するメカニズムが必要であると述べられています。
例えば、コードの推論では、これは広範なテストケースの設計を含む可能性があり、一般的な推論では、フィードバックは人間のラベル付けや他の言語モデルとの相互検証によって得られる可能性があります。
これは非常に印象的です。なぜなら、コードの推論は構文、論理、問題解決のすべてを同時に理解する必要があるからです。このシステムが数学に最適化されており、プログラミングなど他の領域に最適化できるとすれば、それは汎用性における大きな進歩を表すことになります。
基本的に、これがコード推論に一般化できれば、関数やスクリプトを段階的に書き、テストケースを実行して関数が正しく動作するかどうかを検証し、テスト結果に基づいて推論を改善できる可能性があります。まさに数学的解決策をPythonでの実行を使用して検証するのと同じように。
しかし、先日Twitterで議論されたように、明確な答えがない質問に対して正しい回答を得ることは特に難しいため、これは特に困難であると言わなければなりません。一方、数学では明確な正解があるため、検証ははるかに容易です。常識的な問題はよりオープンエンドですが、同時に、これは一般的なAIにますます近づいていることを示す驚くべき研究です。
結局のところ、これは完全に驚くべきことだと考え続けています。なぜなら、これについて考え、システムの全体像を見たとき、数学は多くのことの基礎となっているからです。そして、OpenAI 03モデルが達成したように、本当に数学を解決できるようになると、巨大な可能性が開かれます。
ほとんど知られていないベンチマークで25%を達成し、その訓練ラウンドにはいわば推論時間として約100万かかったことを理解すると、これらのモデルの軌跡が絶対に信じられないものになることがわかります。
だからこそ、人々は超知能AIについてとても楽観的なのです。最初の研究論文で、研究者たちはそれらのグラフ、それらの数字が単に下がるのではなく、より多くの解決策を時間とともに示すことができる限り、常に上昇し続けることに気付いて驚愕したのです。
より多くの解決策をサンプリングし、正しい訓練ステップを特定することをより効果的に学習できるようになる限り、これらのモデルが解決できない問題はないと思います。そしてこのパラダイムを理解すると、超知能AIについて語る人々は、結局のところそれほど遠くない未来を見ているのかもしれないと理解できます。