驚愕！自己改善型AI推論システム（SIRIUS、スタンフォード大学）

7,080 文字

コミュニティの皆さん、こんにちは。自己改善型AIエージェントについてお話ししましょう。とても興味深いトピックですね。自己改善型AIシステムについて、その素晴らしい点は人間が必要ないということです。機械が自身を最適化していくのです。
まず、私たちのコミュニティで注目を集めている自己改善型AIについて見ていきましょう。特に反復的なフィードバックや改良といったシンプルなメカニズムを通じて推論能力を向上させる可能性を持っています。
基本的な要素である大規模言語モデルから見ていきましょう。エージェントに移る前に、もしあまり詳しくない方は、いくつかの論文をお勧めします。2024年10月の「推論ジェネラリストへの成長：自己改善を通じて」、そしてミシガン大学とイリノイ大学による自己修正推論に関する研究があります。
ここで2つの選択肢があります。1つ目は推論パスのための自己生成的な合理性を活用するブートストラップ戦略です。これは2024年7月にバークレーから発表された素晴らしい研究です。2つ目は強化学習を通じた自己改良メカニズムの導入です。GPT-4は最も有名な例ですが、他の研究も忘れてはいけません。1年前にはIBM研究所とペンシルベニア大学による素晴らしい論文がありました。また2024年6月には「最小編集制約付き細粒度強化学習によるLLMの改善」という研究もあります。
そして今、エージェントの話に移りましょう。ちょうど1ヶ月前、MIT、ハーバード大学、中央大学、Google DeepMindによる、より複雑な推論チェーンのための自己改善に焦点を当てたマルチエージェント微調整について議論しました。独立して専門化されたエージェントが相互作用して多様な推論チェーンを生成する、マルチエージェントシステムの構築は非常に魅力的なトピックでした。プロジェクトのウェブサイトやGitHubリポジトリのコードも公開されています。
基礎を理解したところで、今日は天才の閃きが必要です。私たちの場合、それは導きの星、つまりSTAR（Self-Taught Reasoner：推論による推論のブートストラップ）です。スタンフォード大学とGoogle研究所が2022年5月に発表したSTARのアイデアは素晴らしく、今日はこれに焦点を当てていきます。
STARはブートストラップ推論の基礎的概念を提供しました。もちろん2022年当時は単一エージェントシステムに限られていましたが、複雑なタスクに対するLLMの推論能力を向上させるための方法でした。核心的なアイデアは、LLMが自身の成功した推論の試みから学習することで、より良い推論ができるようになるというものでした。
ここで少し中断して、ブートストラップについて詳しく説明しましょう。前回の動画で購読者の方々から、AIにおけるブートストラップについてより詳しい説明を求められました。実は非常にシンプルです。ブートストラップという言葉は「自分のブートストラップで自分を引き上げる」という句から来ています。これは、困難なことや不可能に近いことを自力で成し遂げることを意味します。
推論に適用すると、推論、評価、学習のサイクルになります。AIにおけるブートストラップの簡単な例を2つ挙げましょう。1つ目はカリキュラム学習、または自己ペース学習です。モデルがより複雑なことを学ぶにつれて、訓練例の難易度を徐々に上げていきます。2つ目は、AlphaGoの自己対戦による強化学習です。エージェントが自分自身と対戦し、勝敗という二値の報酬信号を得て、その信号を使って次のゲームでより良いプレイができるよう方策を更新していきます。
さて、本題に戻りましょう。STARには合理化ありとなしの2つのオプションがあります。事前訓練されたLLM、初期の問題データセット、与えられた回答から始めます。この技術は、中間的な合理性を含む少数の例示プロンプトから始まります。いくつかの合理性は正しい答えにつながり、不正解につながるものよりも質が高いと仮定します。そこで、より質の高い回答を取り出し、このフィルタリングされたデータセットで基本モデルの微調整を開始します。
新しく教師あり微調整されたLLMで全プロセスを再開すると、パフォーマンスが向上することがわかりました。完全なデータセット全体での総期待報酬について、方策勾配のための標準的な対数導関数のトリックを使用しました。これは合理的に上手く機能しましたが、1つ例外がありました。
ここで合理化を伴うSTARに話を移します。当時、合理性生成ブートストラップアルゴリズムには一定の限界があることがわかりました。モデルは自身が見た例からのみ学習するため、新しい問題を解けなくなった時点で改善が突然停止してしまいます。そこで論文の著者たちは「合理化」と呼ぶ新しい技術を考案しました。
これは非常にシンプルなトリックです。新しい問題に対する回答をモデルへのヒントとして提供し、以前の合理性生成ステップと同じスタイルで合理性を生成するようLLMに要求します。回答を知っているため、モデルは後ろ向きに推論することができ、正解につながる合理性をより簡単に生成できます。その後、このヒントを削除します。
このように、モデルは解決策を後ろ向きに学習することができました。新しいドメイン知識や新しい複雑性に対して正解を最初に提供する必要がありましたが、それは機能しました。コードを見たい方のために、青色で示された部分が合理化に対応するSTARのステップ2です。
STARの3つのステップをより簡単に説明しましょう：

複雑な質問セットを与え、Chain-of-Thoughtアプローチを使用して回答を生成するようLLMにプロンプトを出します。Chain-of-Thoughtプロンプティングにより、LLMは最終的な回答に至る前に推論ステップを明示的に書き出すことが促されます。これにより推論プロセスの透明性が確保されます。
STARは複数の推論パスを生成する可能性があり、ビーム探索や多様性サンプリングなどを使用します。生成された回答の中から最良のものを選び、既知の正解と比較して検証します。第2のエージェントや人間による検証、あるいは任意のメトリクスを使用して方法論を確立できます。
正解が得られたら、それをデータセットとして使用してLLMの教師あり微調整を継続的に行います。このプロセスは複数回繰り返され、後続の反復でさらに良い推論につながる可能性があります。計算コストは高いものの、人間の少しの助けがあれば実現可能です。

ここで新しい核心的なアイデアに移りましょう。STARのアイデアを使用しますが、STARは単一エージェントでのみ機能していたことを覚えておいてください。次の論理的なステップは何でしょうか？そうです、ブートストラップ推論のアイデアを使用しますが、今度は複数のエージェントの構成による自己学習です。単一エージェントからマルチエージェントシステムへの移行です。
STARにおける成功した推論パスの選択と再訓練という概念は、今度はマルチエージェントシステムの高品質な推論軌跡に適用されます。各エージェントは異なる専門性を持ちながら、クエリの特定の複雑性を解決できます。ここで複雑さが増すのは、単一エージェントの専門性だけでなく、エージェント間のコミュニケーションも考慮する必要があるためです。
STARでは単一エージェントの成功した推論パスでLLMを訓練していましたが、次のステップでは、完全な推論プロセスにおける成功した相互作用軌跡でマルチエージェントシステムの各エージェントを訓練します。単一エージェントからマルチエージェントへの移行により、複雑さは4倍近くになります。完全な相互作用軌跡の最適化が不可欠になりますが、基本的なアイデアは同じです。
より複雑なタスクに取り組むために、複数のエージェントが必要です。STARは単一エージェントの推論強化に焦点を当てていましたが、次のステップはマルチエージェントの協力とコミュニケーションです。クエリを成功裏に解決するために必要な最小限のコミュニケーションセットを確立する必要があります。
具体例を見てみましょう。科学分野での厳密な推論を行うために、物理学者、数学者、科学的作業をまとめる人からなるAIエージェントチームがあります。このケースでのエージェントは、ルールベースではなく、推論とコミュニケーションのためのLLMを核としたAIベースのエージェントです。
これは少し厄介です。なぜなら、チーム全体のパフォーマンスを向上させるために、各エージェントが何を学ぶべきかを正確に知ることが難しいためです。エージェントが知識を持ち、正しい解決策を見つけたとしても、他のエージェント（例えば数学AIエージェント）が理論物理学者の提案した公式の計算を開始できるように、すべてのパラメータとすべての洞察を完全に伝達できない可能性があります。
複雑さが増す中で重要なのは、チームの成功か失敗かという報酬信号のみが存在することです。どのエージェントのアクションが何に責任があるのかが明確ではありません。成功や失敗の鍵が期待ほど明確ではないのです。
これをスタンフォード大学の著者による美しい図で見てみましょう。2025年2月7日の論文「自己改善型マルチエージェントシステム：ブートストラップ推論」です。STARの基本的なアイデアをマルチエージェントシステムに適用しただけ、それだけのことです。
この新しい方法は協調的な最適化を重視し、新しい要素として共有経験ライブラリを持っています。複数のエージェントがあり、1つのエージェントではなく複数のエージェントのために何かを学ぶ場合、この知識を保存しておきたいと考えるのは理にかなっています。後で再利用できる可能性があるためです。これにより、各エージェントが成功した推論軌跡から集合的に学び、改良することができます。
ただし、推論軌跡は単一エージェントの軌跡ではなく、マルチエージェントシステム全体の完全な推論軌跡であることに注意してください。多くのことが間違う可能性があります。これは私の前回の動画と似ているように聞こえるかもしれません。その通りです。前回の動画では、知識グラフを構築してエージェントの動的メモリに配置し、第2部では、知識グラフや動的メモリにエンコードされた内容を更新して、テスト時選好最適化に持ち込む必要があると説明しました。訓練時計算ではDPO（Direct Preference Optimization）を使用し、テスト時計算ではTPO（Test-time Preference Optimization）を使用することを思い出してください。
知識を記録するための道具として、前回は知識グラフを使用し、今回は共有経験ライブラリを使用しているという点で似ています。興味深いことに、著者たちはこのSIRIUS（Serious）のアイデアが非常に上手く機能することを発見しました。リソース交換、複数回のアルティメイタム、売り手買い手の交渉といった対抗的なゲームで使用されました。このシステムは戦略を学習し、勝率やペイオフを改善しただけでなく、アクター・クリティック変種においても、アクター、ジャッジ、クリティック間の前後の議論における役割の専門化の高度化に役立つことが示されました。
スタンフォード大学のオリジナルの図を見てみましょう。問題解決では大学レベルの物理学、化学、医療Q&Aがあり、特定の構造があります。アクター・クリティックや競争的なプレイヤー1、プレイヤー2があり、リソース交換、売り手買い手、アルティメイタムなどがあります。各エージェントへの報酬に注目してください。通常の問題解決では推論パスと最終出力の正確性が報酬信号となり、アクター・クリティックでは効用関数の値となります。
SIRIUSは成功したチームワークのライブラリを構築し、マルチエージェントシステムが問題を正しく解決した際には、その成功につながった各エージェントの相互作用と推論ステップの完全なシーケンスを保存します。これは人間がチームワークのベストプラクティスを集めるのと似ています。
4日前の動画で、エージェントに推論ベースの推論を改善するようプログラムする場合について話しました。通常は推論プロセスの最後に最終的な報酬信号を待ちますが、これを改善できます。システムが終了して悪い信号を出すのを待つのではなく、モノラル木探索アルゴリズムが決定木を構築する際に、エージェントが論理的推論チェーンで行う各決定にプロセス報酬モデルを適用できるようにしたいのです。
その動画では最終報酬信号を待つ必要がない新しいプロセス報酬モデルの更新を示し、計算はベルマン方程式の修正版で簡単でした。詳細は動画をご覧ください。その1-2日後、マルチエージェント最適化に関する動画で、通常はプロンプトエンジニアリングとプロンプト最適化にTSPを使用しますが、トポロジーDSPを使用できることを示し、これを「プロンプティングスワーム」と呼びました。
DSPよりも優れているのがTextGradです。マルチエージェントシステムの各エージェントのプロンプトを、各相互作用を通じて自然言語フィードバックをバックプロパゲーションすることで最適化します。これは自動微分でテキストを介して行われます。41分の動画が待っています。
2025年2月7日のスタンフォード大学の論文では、SIRIUSとTextGradを比較しています。パフォーマンスデータとベンチマークデータを見てみましょう。残念ながら2025年にはもう存在しないGPT-3.5-2を使用していますが、DeepSpeak-1やGPT-4o1、GPT-4o3 mini hi、QWQ-32bのような推論LLMではなく、古典的な非推論言語モデルを使用しています。
物理学、化学、医療Q&Aのデータを見てみましょう。物理学では、TextGradが43%、SIRIUSが46%で3.7パーセントポイント高くなっています。STARの42%と比べると、STARからTextGradへの飛躍はそれほど大きくなく、化学ではSTARからTextGradへの変化は実際にパフォーマンスが低下しています。医療Q&AでもSTARの69%からTextGradの68%へと低下が見られます。
しかし、SIRIUSに注目し、GPT-4 Omni miniで見てみると、TextGradと比べて化学では44%から60%への大きな飛躍が見られますが、68%から73%への変化はそれほど印象的ではありません。なぜこのようなことが起きるのでしょうか。
SIRIUSでは、何らかの初期条件から始める必要があり、完璧な推論チェーン、解決策を見つけるための推論パスでシステムを訓練する必要があります。物理学、金融など、あなたの特定のドメイン知識において、完璧な推論の流れの例が限られている可能性があります。また、SIRIUSでは機能しない推論チェーンも捨てずに保持し、人間や他のエージェントに最適化や修正を依頼し、正しい推論パスに修正して教師あり微調整に戻すことを思い出してください。
著者たちは、SIRIUSでの教師あり微調整に公式のOpenAI微調整APIを使用することを推奨しています。安全な選択肢ですね。これは訓練データの質の影響だと考えられます。
まとめましょう。スタンフォード大学による新しいシステムを見てきました。これはマルチエージェントシステムで、推論において自己改善し、STARから知られているブートストラップ推論フレームワークを使用します。実行し続けることで、成功した相互作用軌跡を収集してエージェントの方策を継続的に改善します。これらの成功した推論軌跡とコミュニケーション軌跡は、各エージェントが利用できるライブラリに保存されます。
最適ではない軌跡は、人間やより知的なエージェントとのフィードバックループを通じて修正され、人間の知識で補強された後、教師あり微調整に戻されます。教師あり微調整には相当量のデータが必要で、データセットの純粋な量と質の最適な均衡にはまだ達していない可能性がありますが、これは今後数週間から数ヶ月の間にSIRIUSをテストしていく中で明らかになるでしょう。
最後に、スタンフォード大学のSIRIUSの著者たちの言葉を引用しましょう：「我々のアプローチにより、エージェントは明示的な監督なしで協力戦略を改良することができます。実験では、大学レベルの推論、医療Q&A、さらには交渉タスクにおいてもSIRIUSがパフォーマンスを向上させることが示されました。」
SIRIUSは私たちに多くの新しい考えるべきことを与えてくれました。SIRIUS自体をどのように最適化できるか、マルチエージェント学習フレームワークの中でどのように位置づけるべきかなど、新しいアイデアが多くあります。TextGradを上回るパフォーマンスを示したことは、興味深い課題です。
このような探索的なAI研究の動画にご興味がありましたら、ぜひチャンネル登録をお願いします。次回の動画のトピックが何になるか、お楽しみに。