
8,988 文字

マイクロソフトが、自己改善できるLLM(AI)に関する興味深い研究を発表しました。まるでSFのような話に聞こえますが、これは真剣な研究です。「Airstar Math:小規模LLMが深い自己評価的思考により数学的推論を習得する」というこの研究論文をご覧ください。
タイトルは長いですが、このモデルが自身の思考を使ってより賢くなれるという点で非常に画期的です。この論文は間違いなく、人工知能の進化における重要な節目となるでしょう。
論文の概要では、「我々はAirstarMathを提案し、小規模言語モデル(SLM)がOpenAI GPT4と同等かそれ以上の数学的推論能力を達成できることを実証する」と述べています。これだけでも驚くべき主張です。
ここで使われている「モデルの蒸留」という用語について説明しましょう。これは、より大きな教師モデルが本質的に知識を小さなモデルに転送するプロセスです。大きなモデルは教師モデルと呼ばれ、その知識が小さなモデルに蒸留されます。小さな生徒モデルは、その後教師モデルと同様のパフォーマンスを発揮できるように調整されます。
たとえばGPT4 PreviewとGPT4本体の関係がまさにそうでした。本物のGPT4があり、GPT4 Previewはその調整版で、教師モデルよりもやや能力が劣る版でした。
この論文で驚くべきなのは、蒸留なしでこれらの大規模言語モデルを上回ることができると主張している点です。AIの科学論文を日常的に読んでいる私にとって、これは大きな反響を呼ぶ研究だと思います。
AirstarMathは、モンテカルロ木探索(本質的に様々な可能性を探索するAIの一形態)を通じて深い思考を行使することで、これを達成しています。
初期のベンチマーク結果を見ると、さらに驚くべきことがわかります。数学のベンチマークでは、7Bパラメータ(70億パラメータ)のQueen 2.5 Mathモデルのスコアを58.8%から90.09%へと向上させ、アメリカ数学オリンピックでも大きな成果を上げています。
なぜこれが重要かわからない方のために説明すると、小規模言語モデルがベンチマークで高いスコアを出すのは、単にすべてのトレーニングデータで学習したからだと考えられていました。つまり、試験問題自体で学習する「カンニング」をしているのではないかという疑いがあったのです。
しかし、このモデルが特に興味深いのは、そのようなコンテンツで学習せずに、自己改善によってこのレベルに到達できる点です。ここで示されているように、自己改善によって高いレベルに達することができるのです。
最も興味深いのは、AirMathシステムの図解で、特にモンテカルロ木探索と自己評価フレームワークに焦点を当てている部分です。この全体的な構造は、モデルが自己改善によってより高い知能へと進化できる仕組みを示しています。
左側には、モンテカルロ探索が示されています。システムが複数の経路を探索する様子を見ることができます。これは、人が結果の結果について考えたり、単純な決定木のように考えたりするのと同じようなものです。
詳しく見ていきましょう。ここで小規模言語モデルは、解決策のための推論ステップを生成するポリシーとして機能し、その後、各ステップが正しいかどうかを確認する別の「プロセス選好モデル」があります。これについては後で詳しく説明しますが、彼らが行ったことは非常に興味深いものです。
ここで見えるそれぞれのノードは、問題解決における1つのステップを表しています。0.7や0.5などの値が見えますが、これらはモデルが取るステップや探索する経路です。不正解のものは低い値や負の値を受け取り、正解のものはより高い値を受け取ります。
システムは各ステップに「Q値」と呼ばれる値を割り当て、これは最終的な解決策への貢献度に基づいています。つまり、正解につながるステップはより高いQ値を受け取り、間違った答えにつながるステップは低いQ値を受け取ります。
本質的に、彼らの方法は、図のグラフで緑色で示された高品質なステップのみを残してフィルタリングし、最終的な解決策の軌跡を構築します。これにより、AIが可能な限り最良の推論経路で学習することを確保します。
興味深いことに、モンテカルロ木探索は良いものの、言語モデルが自己改善するためにはさらに何かが必要です。ここで4段階のプロセスが導入され、システムは小規模言語モデルのポリシーと報酬モデル(PPM)の両方を改善します。
AIは報酬モデルによって訓練されます。これは人間や生物が学習する方法と似ています。良い回答には報酬が与えられ、悪い回答には報酬が与えられません。これは動物や人間の訓練と同じような原理です。
4つのステップがあることに注目してください。まずモンテカルロ探索から始まり、次にPPM R2が導入され、前のステップの結果をより効率的に評価します。このラウンドで生成されたデータは、モデルをさらに改善します。
モデルがR1 SLM R1からSLM R2にアップグレードされていく様子がわかります。基本的に、R1小規模言語モデルが別の小規模言語モデルにアップグレードされているのです。この段階では、すべてのモデルが優れているので、小規模・大規模という区別はあまり意味がありませんが。
3番目のラウンドでは、ポリシーが探索プロセス中にQ値を直接予測するために報酬モデルを使用できるようになり、より質の高い解決策とトレーニングデータを生成します。これにより、次のモデルの反復(言語モデル3)が訓練されます。このようにしてモデルはすでに2回自己改善を行っています。
4番目のラウンドでは、最終モデルが登場し、さらに強力なポリシーを持つ報酬モデルの継続が得られます。この段階で、最先端の性能に到達します。
これは驚くべきことです。なぜなら、モデルは最初はほとんど何も知らない状態から始まり、このシンプルなプロセスを通じて繰り返し改善を重ね、最先端レベルに到達するからです。小さなモデルが単なるアルゴリズムのプロセスによって非常に優れたモデルになるのです。
時として、5000億パラメータのモデルであっても、最適化が不十分であれば大した効果は得られません。小規模モデルをこのレベルまで改善できることは、将来に向けて非常に励みになります。
現在、AIエージェント(あなたの代わりにタスクを実行するAI)が流行しています。これらは、メールの返信や顧客対応など、様々なことを代行してくれる知的なコンピュータのようなものです。私も多くのAIエージェントを構築してきましたが、このような高性能な小規模モデルが実現すれば、AIエージェントの可能性は大きく広がります。
というのも、その時点で携帯電話がAIエージェントとなり得るからです。大規模なデータセンターやChatGPTやClaudのようなAPIに頼る必要がなくなり、すべてがAIエージェントになる可能性があります。
これはロボットにとっても非常に励みになります。ご存知の通り、ロボットは物理的な本体に制約されており、RTX 5090をロボットの脳に搭載することはできません。このようなモデルの小型化は、今後非常に重要になってくるでしょう。
次に、彼らが行った驚くべきベンチマークについてお見せしたいと思います。しかしその前に、私の新しいプロジェクトについて少しお話させてください。
このチャンネルでは、AIに関するすべての新製品やニュースを分析しています。私の目標は、この素晴らしい技術をより多くの人々に知ってもらい、特にAIに対する意識を高めることです。
私の周りの人々と話していると、AIとは何か、そしてそれが社会にどのような影響を与えるのか、本当の意味で理解している人は少ないように感じます。その影響は壮大なものになるでしょう。
このチャンネルでは製品プレイスメントを行わず、できる限り本物の情報を提供したいと考えています。そのため、あらゆる生活の分野でAIを活用する方法を学べる研修コースを作成しました。
この動画をご覧の方は、すでにChatGPTなどのAIを使用している可能性が高いと思います。AIツールの使い方をさらに深く理解し、生活のあらゆる場面で活用する方法を学びたい方は、動画の下にピン留めされたコメントのリンクをご確認ください。
また、Vision AI コミュニティにもアクセスできます。このプロジェクトを始めてまだ間もないですが、すでに100人以上の方が研修を受講されています。様々な分野から参加されているのが素晴らしく、学んだツールを各々の分野でどのように適用するかについて、定期的に議論するのが楽しみです。
少し話が脱線してしまいましたが、これ以上時間を取らずに、すべてのリンクは動画の説明欄やコメント欄にあることをお伝えしておきます。
さて、これらのベンチマークを実際に見てみると、モデルが自己評価的な深い思考を通じて数学的推論能力を継続的に向上させていく様子がわかります。これが論文のタイトルの由来です。
2回目のラウンドですでにChatGPT4を上回っているのがわかります。基本モデルの性能を見てみましょう。驚くべき進化を遂げています。基本モデルは数学で58.8%を達成し、AME 2024テストではゼロ点でした。他のベンチマークでも高いスコアは達成していません。
しかし、前のスライドで説明した改善プロセスを開始すると、徐々に向上していきます。75.2%、86.6%、87%、89%と、モデルは大幅に改善しています。特に、AIにとって難しいとされるAME 2024ベンチマークでは、0%から50%まで向上しています。
重要なのは、このモデルが再訓練されていないということです。つまり、より多くのパラメータや新しいデータセットで訓練プロセスを再開したわけではありません。70億パラメータの基本モデルが自己改善によって他の最先端モデルを上回ったのです。
AIの分野に詳しくない方のために説明すると、彼らが行ったことはAIの能力を飛躍的に向上させることです。このプロセスをChatGPT 4oの最新バージョンやClaudの最新バージョンに適用したらどうなるか想像してみてください。今後の展開が非常に興味深いものになるでしょう。
もちろん、これは数学に特化したベンチマークですが、これがどれほど驚くべきことかを考えると、これらのモデルがいかに信じられないほど知的になっていくかを想像し始めることができます。
70億パラメータの基本モデルがChatGPT4を上回ることができるのなら、自己改善が可能な専門家モデルの組み合わせによって、最終的にどのようなモデルが生まれるでしょうか。可能性は無限で、考えるだけでも驚くべきことです。
モデルが実際にどのように改善されるのかについてお話ししたいと思います。基本的に、モデルは解決策を生成し、それを評価し、より良い解決策で再訓練し、そのプロセスを繰り返します。
これがフィードバックループと呼ばれるもので、このモデルの推論能力を継続的に改善していきます。未解決の問題についてはどうするのかと疑問に思われるかもしれません。
解決できない問題に対して、モデルは本質的に複数の推論の試みを使用します。これは追加のデプロイメントや新しいランダムシード(英語ではseedsと呼ばれる、ランダムな数字や異なる経路)を使用し、解決策を見つけるまで、あるいは少なくともアルゴリズムの評価が良い値を示すまで試行を続けます。
これにより、モデルは常に失敗から学習することができます。初期ラウンドの後、モデルは独自のトレーニングデータを生成するという点で、これがいかに革新的かお分かりでしょうか。
前回の動画で合成データの作成について簡単に触れましたが、これは従来の訓練方法から大きく転換するものです。従来の方法では、現在の大規模な教師モデルからの蒸留に大きく依存していました。
この方法は非常に強力です。なぜなら、自己生成されたトレーニングデータにより、大規模なデータセットを手動でラベル付けする必要がなくなるからです。さらに重要なことに、モデルは初期のトレーニングデータに制限されないため、時間とともに改善を続けることができます。
実際、この方法を使用してモデルがどこまで改善できるのか、私たちにはわかりません。以前の論文でGPT4の予測について触れた際、結果に基づく報酬モデルについて言及されていました。
基本的に、数学の問題に取り組む際、各ステップを詳細に書き出し、正しいステップごとに報酬を得るというものでした。最終結果が間違っていても、正しいステップに対しては報酬が得られました。
AIはある意味でズルをしていたのです。最終的な結果が正しくなくても、ステップごとの高いスコアを得ることに長けていました。このモデルでは、たとえ複数のステップが正しくても全体が間違っている場合は破棄されますが、最初の3ステップが正しく最後の2ステップが間違っている場合は、正しい3ステップに対して報酬が与えられました。
この新しい論文で興味深いのは、報酬モデルを変更したことです。プロセス選好モデルを使用し、ステップレベルでポジティブ・ネガティブな選好のペアを構築する新しいトレーニング方法を導入しています。
簡単に説明すると、PPM(プロセス選好モデル)はモデルを訓練して推論プロセスをガイドし、各ステップを比較します。各ステップに正確なスコアを付ける必要がないため、プロセス全体がより堅牢で信頼性の高いものになります。
これが論文の中心的なイノベーションであり、モンテカルロ木探索プロセスを導くために使用されています。PPMはAirstarMathの中核であり、特に後半のラウンドでは従来の標準的な報酬モデルのアプローチを上回ります。
要約すると、最初は標準的な報酬モデルを使用してプロセスを開始しますが、システムが成熟(自己改善)するにつれて、より効率的なプロセス選好モデリングに移行します。これは両方の利点をバランスよく取り入れたハイブリッドアプローチで、非常に賢明な方法だと思います。
これらのグラフを簡単に見てみましょう。X軸にはサンプリングされた解決策の数が示されており、それが増えるにつれて精度が向上していることがわかります。Y軸には精度が示されています。
緑の曲線がAirstarMathモデルで、その驚くべき性能が見てとれます。次にQueen 2モデル、ChatGPT4 mini、ChatGPT4 previewがあります。ChatGPT4 previewは数学オリンピックのベンチマークではテストされていませんが、ChatGPT4 miniの精度レベルは確認できます。
驚くべきことに、解決策のサンプリング数が増えるにつれて、AirstarMathモデルの回答がより賢くなっていくことがわかります。これが70億パラメータのモデルで、はるかに大きなモデルと競合できているのです。
もっとも、これはすべてのモデルに当てはまるようです。自己評価を続けるにつれて、すべてのモデルがベンチマークでより賢くなっていくように見えます。
当然、初期の改善(自己改善)は後の改善よりも大きくなります。より多くの解決策をサンプリングできるようになっても、改善は続きますが、その幅は徐々に小さくなっていくのは理にかなっています。
AirstarMathは720億パラメータのモデルよりも優れた性能を発揮しており、この方法が非常に効果的であることを端的に示しています。繰り返しになりますが、大規模モデルへのこの方法の適用がどのような結果をもたらすのか、本当に楽しみです。
これが何を意味するのか、本当に理解できているでしょうか。この論文は大きな反響を呼ぶでしょう。一見それほど意味がないように思えるかもしれません。しかし、70億パラメータのモデルが1兆8000億パラメータのChatGPT4よりも賢い出力を生成できるようになったことを考えると、次のような可能性が見えてきます。
もしもっと大きなモデルがあり、この種の方法を使って時間をかけて反復的に改善していくことに焦点を当てたら、どうなるでしょうか。将来に向けて何を意味するのか考えると、完全に常識を超えたものになると言わざるを得ません。
最後に、この論文で興味深かったのは、このモデルの創発能力、そしてAIの創発能力全般について触れていた点です。創発能力とは、予測なしに現れる能力のことです。
これは今までに何度も起こっており、AIが予測していなかったことをできるようになって驚かされることが多々ありました。たとえば、初期のChatGPTを英語のデータベースだけで訓練したにもかかわらず、世界中のすべての言語を話せるようになった時のことです。その仕組みはわかりません。
これらの能力は、特定の訓練を受けることなく、あるいはそのような能力を意図的に求めることなく、また能力が現れる可能性を予測することもなく出現します。予測できないものなのです。
この科学論文の第5章(説明欄にリンクがあります)の発見と議論のセクションでは、内在的な自己反省能力の創発について触れています。
彼らは、GPT4の重要な発見の1つは内在的な自己反省能力だと述べています。モデルが誤りを犯した時、その誤りを認識し、自己修正して正しい回答を導き出すことができます。
しかし、彼らが研究に使用しているFalconやQueenシリーズなどのオープンソースLLMでは、これが大きく非効率であることが一貫して指摘されてきました。
コミュニティは様々なアプローチを積極的に探求してきましたが、このモデルが問題解決のために非常に深い、明白な反省を使用することを予期せずに観察したと述べています。
たとえば、モデルは最初の3ステップで方程式を形式化しますが、これは間違った答えにつながります。しかし第4ステップで、モデルは前のステップの質の低さを認識し、その初期の経路を続けることを控え、代わりに引き返してより単純な新しいアプローチで問題を解決し、最終的に正しい答えにたどり着きます。
これについて興味深いのは、ここで解決策を導き出す様子を実際に見ることができる点です。誤りを犯し、そして内在的な自己反省能力を発揮して、既存の枠を超えて問題のより簡単な解決策を見つけ出すのです。
素晴らしいのは、画像が進むにつれてスコアの変化も見ることができることです。ここでPPMスコアが負の値を示し、下に行くにつれてPPMスコアが上昇していく様子がわかります。
この反復的な自己反省のプロセスを見るのは本当に驚くべきことです。繰り返しになりますが、この研究をすべての大規模AIモデルに適用したらどうなるのか、それだけが知りたいです。
これが本当にAGI(汎用人工知能)の到来となるのでしょうか。可能性はありますが、何が起こるかはわかりません。いずれにせよ、この研究の次のステップについては必ず最新情報をお伝えします。
私の考えでは、この研究は大きな反響を呼ぶでしょう。これを見逃したくない方は、まだ登録していない方はぜひチャンネル登録をお願いします。
動画がお気に入りいただけたなら、最後にAIの未来について少し個人的な考えを述べさせてください。AIが自己改善でき、完全な自律性を持つことができたら、あなたの直接的な命令とは独立して行動できるようになるかもしれません。
私は、将来のAIは次のように振る舞うと考えています。私たちが非常に一般的な命令やプロンプト、つまり一般的な目標を与え、AIはこの自己反省ループのおかげで自律的に行動します。
新製品の発明やウェブサイトの作成など、最終目標に到達するためのあらゆる種類の複雑な下位タスクを実行し、オンラインショップを立ち上げ、それを自ら販売し、収益を生み出し、会計処理を行うといったことができるようになるでしょう。
将来的には、「このような製品を売って欲しい」とAIに伝えれば、AIがすべてを行ってくれる可能性があります。2030年までの3~5年以内に、これは十分にありえることだと思います。
2030年よりもずっと早く実現する可能性もあります。このような研究を含め、進歩のスピードを考えると、3年後にどこまで進んでいるかは正直わかりません。
このチャンネルをフォローしている方なら、元Googleのエリック・シュミット氏の様々なインタビューをご覧になったでしょう。彼は本質的に、近い将来に自己改善型AIが登場すると述べており、この点について彼の発言は理にかなっています。
もちろん、私たちは非常に慎重である必要があり、何か問題が起きた場合にはこれらのモデルの「プラグを抜く」必要があるでしょう。しかし、私は本質的に楽観的な性格で、AIは人類にとってこれまでにない素晴らしい機会になると本当に考えています。
ロボット工学と組み合わさることで、イーロン・マスクが最近のインタビューで述べていたように、ロボットの到来は人類がこれまでに経験したことのない、最も驚くべき、あるいは最も画期的な進化になるでしょう。
これはこれまでのすべての革命を上回る、最大の革命になるでしょう。この分野に長く携わってきた者として、なぜそう言えるのか、よく理解できます。
いつもとは少し趣向の異なる動画になりました。AIについてよく話しますが、AIの技術的な詳細に深く踏み込む時間はあまりないので、今回はそこに焦点を当ててみました。
このような動画が好きな方は、コメントでお知らせください。多くの方々の好みに合わない動画かもしれませんが、制作するのはとても興味深い内容です。何か得るものがあったと感じられた方は、今後も同様の動画を作るべきかどうか判断する参考にしたいので、ぜひお知らせください。
以上です。まだチャンネル登録していない方は、ぜひ登録をお願いします。また明日の次の動画でお会いしましょう。
コメント