
16,390 文字

こんにちはコミュニティの皆さん。戻ってきてくれて本当に素晴らしいです。そして、ここで私は一人の人に語りかけています。なぜなら、このビデオは一人の人だけに見られ、理解されると知っているからです。そしてその人があなたであることを願っています。
それでは始めましょう。ご覧のように、ここに美しい方程式があります。これが私たちのシステムです。数学的な方程式があり、そして高レベルのエージェント出力があります。エージェントが「私は数学を理解しています」と言っているのが分かります。これがシステムが実行すべきステップです。
そして低レベルのエージェントがあり、単にステップバイステップの数学的計算を実行しています。私たちはこれを「エージェント高」と「エージェント低」と呼んでいます。このシステムを構築していきます。なぜなら、システムの構築方法を理解したいからです。
はい、これらは確かにシステムの動作を定義する方程式ですが、実際には本当の数学的方程式ではありません。ある種の数学的抽象化のようなものです。もちろん、確率論、最適化理論、期待値、勾配、ポリシー関数などがあります。これらはすべて数学的に厳密で美しく、AIシステムの構築方法やパラメータの計算方法など、あらゆることを示すガイドとなっています。
ただし、ここで注意すべきは、私たちが理想化されたモデル、単純化された環境で作業していることです。そこではすべてのパラメータ、入力、出力、メタプラン、報酬システム、RO関数、オペレータがすべて明確に定義されています。問題は全くありません。このような完璧に理想化されたモデルは、学習の基本的な関係を理解するのに役立ちます。
「ちょっと待って、出版物では常に擬似コードを見ますが、擬似コードは使えないのですか?」と思うかもしれませんが、擬似コードを使うとさらに簡単です。この擬似コードを見てください。低レベル報酬を計算するブロックと高レベル報酬を計算するブロックがあり、コード化するための情報はほとんどありません。しかし、擬似コードを人間の思考と比較することができます。
低レベルのトレーニングを見てみましょう。私の説明方法はこうです。システムの一定のステップまたはエポックの間、データセットから特定のデータポイントをサンプリングします。そして、特定のポリシーπを持つ凍結された高レベルエージェントを使用してメタプランを生成し、低レベルエージェントの擬似コードは、タスクXとメタプランMという特定のセットが与えられると、Yと呼ばれる最終的な回答を生成します。
次に、メタプラン、結果Y、真の値Yスターを持つ低レベル報酬関数を計算します。そして、報酬の勾配を使ってポリシーのパラメータをすべて更新します。これは、REINFORCEやREINFORCE++などのポリシー勾配法の数学的知識を使って行います。
低レベルエージェントのトレーニングが完了したら、高レベルのトレーニングを行う必要があります。私はこれを簡単に説明します。一定のステップまたはエポックの間、データセットから特定のデータポイントをサンプリングし、入力Xと真の値Pスターを得ます。
凍結された低レベルエージェントPi Lを使用して、エージェントPi Highからのメタプランに基づいて最終的な回答Yを生成します。次に高レベル報酬を計算し、メタプランM、結果Y、真の値Yスターを使用して、メタプランMが最終的な回答に導くかどうかを判断します。そして、この高レベル報酬の勾配を使って、ポリシーとすべてのパラメータθHを更新します。
見てください、説明するのも本当に簡単です。私たちがする必要があるのは、高レベル報酬関数の勾配を何らかの方法で計算することだけです。
この動画を開いて、最初に示した方程式を見てみましょう。これはこのシステムの方程式のようなものです。この種の数学的公式は、開発するアルゴリズム設計のガイドとして機能する理論モデルとして役立ちます。これは重要です。なぜなら後でコード化したいからであり、アルゴリズム設計を理解せずにコードはありません。
これにより、研究者は収束保証、システム全体の安定性、パラメータやシステム全体の改善による期待される改善などの特性を導き出すことができます。最初の項を見てみましょう。システムHのパラメータTAAを持つポリシーπがあり、システム低のパラメータセットθがあり、入力Xと出力Yがあります。
このポリシーとは何でしょうか?πと表記されるこのポリシーは、エージェントが特定の状態または特定の入力Xが与えられた時に取ることができるアクションの確率分布です。強化学習では、このポリシーは、エージェントが特定の明確に定義された状態Sにある時にアクションAを取る確率を指定します。この確率的な定式化により、エージェントは常に固定されたアクションを選択するのではなく、さまざまなアクションを探索することができます。これは学習にとって重要です。そうです、ここでは教師あり微調整を参照しています。マルチエージェント学習における強化学習と教師あり微調整の違いを発見しています。
しかし、この方程式はもう少し複雑です。かっこ内にあるものを見てみましょう。何をしているのでしょうか?総和、積分…各コンポーネントを見てみましょう。
Pi θ High(入力X、M)というモデルまたはポリシーがあります。Mはメタ思考プランです。これは単純なチェーンオブソート(思考の連鎖)を超えています。これは実際に、解決策を実装せずに可能な解決策について考えるエージェントシステム、LLMです。実装は第二のエージェントに与えられます。これが低レベルエージェントポリシーPi θ lowです。トレーニングし、開発し、適用する必要がある低レベルエージェントポリシーです。
この低レベルエージェントポリシーは、同じ入力Xと選択されたプランMに条件付けられています。高レベルエージェントは高レベルの思考プロセスを作成し、戦略や計画を開発し、そして低レベルエージェントは入力X、このメタ思考プランM、そして出力YでYという最終的な回答を生成します。
これでこれらの2つのポリシーが何をしているのかを理解しました。次に、すべてのMで合計します。この総和は演算子Eに対する期待を表します。これはすべての可能なプランMに対するものであり、離散的なMの場合です。連続的なM(後に量子構造で見られるような)がある場合、総和を積分に置き換えます。
そしてもちろん、高レベルと低レベルのポリシーのパラメータはθ highとθ lowと呼ばれます。各エージェントは個別に、または交互に最適化され、強化学習を通じてシステム全体のパフォーマンスを向上させます。
この公式の直感的な解釈をしましょう。高レベルの計画があります。これをメタ思考と呼びます。自分の思考や思考についての思考です。高レベルエージェントはプロンプトX(数学的質問や複雑なタスクのようなタスク)を見て、戦略Mを提案します。つまり、複雑さを小さなより複雑なシステムに分解するか、完全な戦略的計画を立てるということです。
次に、実行のための第二のエージェントがあります。入力XとプランMが与えられると、低レベルエージェントPi θ lowが最終的な出力Yを生成します。これはステップバイステップの解決策または最終的な回答です。
そして、これらを組み合わせます。なぜなら、マルチエージェント調整があるからです。これらの2つの確率分布を組み合わせると、高レベルでのメタ思考と低レベルでの詳細な実行という階層的なコラボレーションを反映した最終的な回答Yの単一の確率分布が得られます。
この公式の感覚をつかむことができます。この公式の擬似コードを持つことができますし、この公式のコンポーネントを詳細に理解することもできます。このメタ思考推論プロセスはMまたはPと呼ばれ、単一またはマルチエージェント構成で行うことができます。ここでは、θhとθLという2つのエージェントがあります。2つのエージェント構成があります。このメタ思考は2番目の項で美しく見られます。
最初の項では、高レベルエージェントは入力Xを与えられ、戦略的計画、メタ思考を生成します。そしてこのメタ思考はクエリXと共に、Pi θ lowの実行の入力要素となります。これがこの公式の内容であり、理解するのはかなり簡単だと思います。
ポリシーはエージェントが取るべきアクションを定義するだけでなく、複雑な環境での学習と最適な行動に不可欠な確率分布の不確実性と変動性をカプセル化する方法でそれを行います。テンプレートを使用したり、12の異なるテンプレートから1つの特定のテンプレートを選択したりするのではなく、次のステップに進みたいと思います。
さて、「天才の閃き」が必要な部分に来ました。どうやってこのメタ思考プロセスを行うのでしょうか?LLMやビジョン言語モデルのためのこのメタ思考、思考についての思考、思考後の思考は、システムのパフォーマンスを向上させることができることを示しています。
ここまで話してきたメタ思考推論プロセスの簡単な数学的公式を見てみましょう。これは単一またはマルチエージェントに有効です。M0からMHまでのMは、質問を解決する際のメタ思考の出力トークンであり、LLMを一度呼び出し、メタ思考を生成し、その後自己回帰的に理由付けを行います。
これは、事前に定義されたテンプレートからサンプリングするなどの構築ベースの方法を主に使用していた以前の作業とは対照的です。そして教師あり微調整を適用しますが、一歩先に進みたいと思います。なぜなら、この教師あり微調整は、指数関数的に大きな言語空間を完全に探索することに失敗し、MOL researchのような効率的な検索アルゴリズムを使用しても、あらかじめ定義されたパターンに限定されてしまうからです。
したがって、他の何かが必要です。事前に定義された実行パイプラインに対する教師あり微調整ではなく、LLMは環境からのフィードバックに基づいて自由に探索し、迅速に更新する柔軟性を持たなければなりません。そのため、強化学習トレーニングを採用する必要がありますが、どんなものでもありません。もちろん、これは非常に特定の数学的手続きです。
最も簡単なケースは、2つのエージェントです。1つは高レベルのメタ思考エージェントで、もう1つは低レベルの数学的推論エージェントです。実装したいコアアイデアを見てみましょう。一緒に楽しみながら、4つの異なるシナリオを見てみましょう。
まず、標準のチェーンオブソート(思考の連鎖)を持つバニラ推論プロセスがあります。これは現在標準となっているものです。LLMにステップバイステップで問題を解くように促します。次に、この「バニラ推論プロセス」という「チェーンオブソート」のLLMの学習を最適化し、LLMのパフォーマンスを向上させるための強化学習法があります。それを「VRPまたは強化学習」と呼びます。
次に、バニラ推論プロセスモデルからメタ思考推論プロセスモデルに移行します。それを強化学習でトレーニングし、このプロンプティングの下でLLMのパフォーマンスを最適化します。問題を高レベルのタスク分析と解決策プランで解くようにLLMに促します。そして最後に、最初に示したように、新しいスキーマの下でLLMを最適化するために強化学習を使用します。それを「マルチエージェントメタ思考推論プロセス」と呼びます。
英語は私の第三言語なので、申し訳ありませんが、発音の仕方がわかりません。これはOFAという略語でも知られています。これはAIコミュニティによる新しい科学的研究で、すぐにお見せします。
「プロンプトエンジニアリングやDSP、TXgratなどですべてを解決できないのか?」と思うかもしれませんね。プロンプトを見てみましょう。バニラ版の推論プロセスでのアシスタントプロンプトは「あなたは問題をステップバイステップで解くことを任された数学の専門家です」というチェーンオブソート形式です。「最終的な答えをボックス内に示してください」などとして、ここに質問があります。これがバニラ版です。
次のバージョンは既にメタ思考版です。「あなたはまだ問題を解く数学の専門家ですが、問題を解く際、最初のタスクは単一のエージェントとして、次の計算のための指示として高レベルの解決策プランを提供することです。そして、あなたが思いついた指示に正確に従う必要があります」と言います。つまり、自分の戦略的計画を実行し、すべての推論と中間ステップを示し、最終的にすべての数学的表現を特定のツール使用ケース、関数呼び出し、Pythonの環境で行い、最終的な答えを示すということです。
ユーザープロンプトは「ここに質問があります」です。これは単一エージェントの推論進行のためのメタ思考です。しかし、Mプロンプトは美しいです。2つのエージェントがあります。高エージェントは高レベルの思考を行い、低エージェントはARSによって呼び出され、実際の数学的推論作業を行います。
高エージェントのシステムプロンプトは明確です。「あなたは数学的問題を解くことに特化した数学の専門家です。数学の能力が最小限の弱いエージェントに問題をステップバイステップで解く方法を教える必要があります。あなたの仕事は、低レベルの数学解決エージェントが複雑な問題さえも解くためのガイドとなるように、与えられた問題の高レベルの解決策プランを提供することです。あなたは直接質問に答えることはできません。答えをあなたの応答に含めると罰せられます。まず深く考え、最終的な指示を出力する必要があります」。
この指示は、低エージェントへの入力パイプラインになります。私たちは低エージェントに「小さな低エージェントよ、あなたは問題をステップバイステップで解くことを任された数学の専門家です。大きな兄弟によって提供された指示に正確に従ってください。あなたのすべての推論と中間ステップを示し、最終的な答えを示し、大きなマシンによって与えられた指示に従ってください」と言います。
プロンプトは素晴らしいですが、コーディングはさらに美しいです。バニラ推論プロセスを見てみましょう。ここでおすすめの論文を紹介します。彼らはここでAIのバニラ推論プロセスを説明しています。
言語モデルの自己回帰的デコーディングプロセスは、各個々のステップの確率の積に等しい全体の確率で、一連の逐次トークン予測として形式化できます。さて、複数のパラメータθでパラメータ化された言語モデルPi θと、n個のトークンを持つ入力を持つタスクプロンプトXが与えられた場合、バニラ推論プロセスは直接応答Yを生成します。応答Yはl個のトークンを持ちます。Yを生成する確率はこの積です。入力X0からXnとY0からYからL-1までを持ち、Iは0からLまで実行されます。
この特定のケースでは、応答に構造化された中間推論ステップが含まれると、このプロセスはチェーンオブソート(思考の連鎖)とも呼ばれます。これはバニラ推論プロセスで行っていることです。
しかし、このシステムをトレーニングする必要があります。Hugging Faceからすぐにモデルを選ぶこともできますが、私たちのデータと専門知識でこのモデルを構築して、改善方法を理解したいと思います。
バニラ推論モデルのトレーニングには、教師あり学習と強化学習があります。Deep Seekの素晴らしいハイプでは、バニラ推論プロセスのデコーディング戦略は、決定論的なトークンレベルのマルコフ決定プロセスとして定式化でき、最適化問題となります。
最適化したい損失関数Lがあり、この関数Lはパラメータθに依存してこのように記述できます。この関数Rは報酬関数で、生成された答えYと真の答えYスター(質問Xに対するあらゆるデータセットDからサンプリングされたグラウンドトゥルース)を比較します。これがこの項を正確に説明します。
実際に数学的アルゴリズムでこれを計算したい場合、ポリシーPi θに対するこのL関数、この特定の損失関数の勾配を計算するために、1992年から私たちの古い友人REINFORCEアルゴリズムを使用します。これは対数微分のトリックを適用し、勾配を次のように計算します。マルコフ決定プロセスとして見た場合、この特定の損失関数に対するこの最適化問題を解決するために必要な損失関数の勾配があります。
数学的なAI最適化または簡略化のためのいくつかのアイデアがあることを知っていますが、厳密なオンラインサンプリングと勾配計算は計算的に高価になる可能性があるため、トレーニングの安定性とサンプリング効率の高いPPO(近位ポリシー最適化)が広く採用されています。システムの安定性を求めています。
OpenAIからのPPO損失関数は、現在と古いポリシーの間の比率と、ポリシーの利点(平均報酬を超える追加報酬)を持つ近似としてこのように定義されています。GPOへのリンクもあります。
そして2025年に、REINFORCE++が公開されました。これは本当に素晴らしい数学的トリックで、REINFORCEアルゴリズムの単純さとPPOの強化されたトレーニング安定性を組み合わせています。古典的なREINFORCEフレームワークを基に、PPOからのクリッピング技術または技術、勾配クリッピング、ミニバッチ更新、アドバンテージ推定を取り入れることでパフォーマンスをさらに向上させています。
古典的なREINFORCEアルゴリズムを思い出すためにここにありますし、REINFORCE++の拡張もあります。もちろん、トークンレベルのコールバックペナルティ、PPOクリップ統合、バッチ化もあります。完全な論文が見たい場合は、2025年1月初めのものです。「REINFORCE++:LLMを整列させるためのシンプルで効率的なアプローチ」です。
GitHubでも利用可能です。彼らは「PPO、直接選好最適化DPO、Deep Seek R1からのグループ相対ポリシー最適化GRPOを知っています。これらすべてを知っているので、REINFORCE++を構築しました」と言っています。このシステムはDeep Seekのグループ相対ポリシー最適化GRPOと比較しても優れた安定性を示し、さらにOpenAIのPPOと比較して同等のパフォーマンスを維持しながら、より高い計算効率を達成しています。
これは、システムの特定の制限を考慮したコード化方法に関する本当に深い数学的最適化ですが、これを計算する解決策があります。これでこのレベルを終了しましょう。
もう一度大きな視点に戻りましょう。私たちが持っているのは、例えばこのような数学的質問です。「これは方程式です。特定の値に対するすべてを識別してください」。そして、私たちが持っているのは、3つのアイデアです。
教師あり微調整アラームがあります。拒否サンプリングがあり、さまざまなメタ思考テンプレートや推論テンプレートなど、あらゆる種類のテンプレートを持つことができます。事前定義された知識フロー構造、数学的ソルバーのための推論などがあります。これは任意の種類のテンプレートとして持つことができます。
そして質問があり、事前トレーニングされたLLMがあります。これを使用し、拒否サンプリングを行い、何が機能するのか、最良の解決策は何かを確認します。教師あり微調整を行い、LLMはトレーニングフェーズでより良くなります。出力をよく見ると、古典的なチェーンオブソートがあり、これを検証します。
次に、Deep Seek R1があります。本当にフォースに乱れがありました。質問と強力なLLMがあり、完全な推論があります。ここでRLで結果報酬RWSDを計算します。そして、トレーニングでは古典的な強化学習のGRPO(グループ相対ポリシー最適化)があり、特定のトレーニングデータセットでLLMをより良くトレーニングします。
出力ストリームを見ると、古典的なR1が「待って、ステップを確認しましょう。待って、自信があります。最終的な答えは…」というようになっています。これが推論であり、特に現在、キングM大学に関する私のビデオで、彼らがDPOをLCPOにさらに簡略化し、L1モデルを構築しようとしていることを示しました。
このDPO最適化の理論的発展に関心があれば、このビデオがおすすめです。しかし今日は、純粋に数学的な観点から何かを理解し構築したいと言いました。
強化メタ思考エージェントにもう一度戻りましょう。ご覧のように、2つのエージェントがあります。戦略的思考だけを行う高レベルエージェントと、数学的推論と実行だけを行う低レベルエージェントがあります。問題を分解し、質問を理解し、解決策を検証し、メタ思考指示を持つメタ思考、推論ステップがあります。これが私たちの2つのエージェントからのステップと思考プロセスです。
このDRMAと呼ばれるものは、マルチエージェントシステムでメタ思考と操作的推論ステップを分離します。2つの異なるエージェントのための、この新しい高度な推論プロセスの数学的実装を知っている場合、次の質問は簡単です。この二重エージェントシステム、このマルチエージェント強化学習システムをどのようにトレーニングするのでしょうか?どのアルゴリズムを使用するのでしょうか?
右側を見てください。非常に簡単です。2つのシステムがあるので、最も簡単な解決策は、あるポイントで1つのエージェントを凍結し、もう1つのエージェントをトレーニング可能にすることです。そして、その反対も行います。高レベルエージェントが凍結され、トレーニング可能になりますが、もちろん低レベルエージェントが凍結された状態でのみです。
したがって、交互学習ステップがあります。これは反復的なプロセスであり、低レベルエージェントからの学習を統合し、同時に高レベルエージェントを戦略的計画で最適化します。これ以上簡単にはできないでしょう。ただ飛び飛びに進んでいき、最終的にマルチエージェント強化学習によるシステム最適化を達成します。
メタ認知推論のプロンプトを見たい場合、プロンプトを書き直すのは非常に簡単です。複雑な数学的問題を分解するためのメタ認知推論と、高レベルエージェントからの質問とメタ認知推論を使用して最終的な回答を生成するためのプロンプト。これ以上簡単にはできません。
さて、決定的な事実にたどり着きました。これは2025年3月12日に上海同済大学、ブリティッシュコロンビア大学、ユニバーシティカレッジロンドン、上海人工知能研究所による論文です。「RMA:マルチエージェント強化学習によるLLMのメタ思考学習」です。RMA(強化メタ思考エージェント)。
私は略語のリストを持っていますが、何を意味するのか忘れてしまいます。世界中の異なるチームから250以上の略語があります。それは楽しいですね。RMAとは何か、私たちが覚えておくべきことは何か、それはマルチエージェント強化学習(MARL)を活用して明示的にこのメタ思考を行う新しい枠組みであり、LLMに思考について考えることを奨励します。
これはそれほど新しいものではありません。「AIエージェントの群れ」では、エグゼキューター、インストラクター、思考者、検証者がいました。このアイデア全体は新しいものではありませんが、興味深い数学的な実装があります。
これをより詳細に見て、以前に見たことがない新しいまたは驚くべきものが見つかるかもしれません。高レベルエージェントを見てみましょう。ここで勾配を最適化する必要があります。この式を見ると、これは2番目のシステム式ではありませんが、「ここで何を見ているのか、これは何を意味するのか」と言うかもしれません。
例えば、この「E」関数のような表現がある場合、それは単にトレーニング中にデータセット内のすべてのペアに対してある表現(報酬や勾配成分など)を計算し、その値の平均を取ることを意味します。この平均は、特定のデータ分布の下での期待された表現の推定値Eを提供します。
「この項は何を意味するのか」という項があり、すぐに説明しますが、計算方法があります。「ホルム方法論」と呼ばれるものがありますが、今はこの項に話を移しましょう。
この項は何を意味するのでしょうか?確率表記では、〜演算子は「からサンプリングされる」ことを意味します。この特定の表現を書くとき、Mは高レベルの思考方法による詳細な戦略的計画であるメタプランです。このメタプランMは、入力X(数学的タスク)が与えられた高レベルエージェントのポリシーPi θ highからサンプリングされることを示しています。
これは、メタプランMが、高レベルポリシーPi θ Hで定義された確率分布からドロー(サンプリング)されることを示しています。それが含まれているとか一部であるということではなく、確率分布で作業していることを忘れないでください。
では最初から始めましょう。高レベルエージェントの勾配、これを計算する必要があります。これがシステムがどのように機能し、実行するコードです。
最初から始めましょう。∇θhJは、全体的な目標Jに対する高レベルエージェントのパラメータθhに関する勾配です。目標は、すべてのデータとすべてのエージェントの決定にわたる期待されるパフォーマンスまたは報酬を測定します。
目標関数Jは、エージェントがどれだけうまく機能しているかを全体的に測定します。特に強化学習では、期待される報酬を最大化することとしてこの特定の目標を定義するのが一般的です。これは最適化問題です。
Jは、システム全体のパフォーマンス指標をカプセル化しています。高レベルエージェントのθHと低レベルエージェントのθlowに対するJの勾配は、期待される報酬を増やすためにこれらのパラメータをどう調整すべきかを教えてくれます。これによりシステムはより良い意思決定と出力の一般化につながります。
最も簡単なニューラルネットワークのバックプロパゲーションからの勾配を覚えていれば、次にどこに行くべきか、どのステップを取るべきか、特定のハイパープレーンや特定の損失関数上でどの特定の方向に向かうべきか、ローカルな最小値や最大値を避けるための方向が分かります。
Jをコードにすると、特定の形式があります。Jについて少し詳しく見てみましょう。Jは、システムまたは共同マルチエージェントシステムが出力Yを生成するときに受け取る期待報酬として定義されます。2つのエージェントに対するJの典型的な定式化は次のとおりです:
Xは入力または入力状態を表し、Ystoreは正解または真の値または望ましい出力です。(X, Ystore)のペアはデータセットDからサンプリングされます。これはトレーニングデータセットです。Yはエージェントによって生成された出力であり、これは真の値ではなく、YからYstarへの最小化が必要です。
Rは報酬関数で、出力Yと真の値Ystarに依存します。報酬関数は出力Yの品質を評価します。そして、高レベルと低レベルのエージェントの共同ポリシーがあります。
これは何を意味するのでしょうか?内部の期待値は、システムのポリシーに従って選択される各出力の確率で重み付けされた、すべての可能な出力Yにわたる報酬関数の重み付けまたは正規化された合計を取ることと同等です。
この特定の表記を理解するのは簡単です。この確率分布を次のレベルで理解したい場合、難しいかもしれませんが気にしないでください。
ポリシーPi θ highとPi θ lowは、入力X、出力Yに対して、与えられた入力Xに対する可能な出力Yの確率分布を定義します。これは、大文字Yがすべての可能な出力のセットである場合、Yの合計は1になることを意味します。
そして、重み付けられた平均または正規化された合計(合計)があります。期待値演算子Eは、この場合は報酬関数である関数の平均値を、確率分布にわたって計算します。離散分布の場合、期待値はすべての大文字Y要素の大文字YにわたるYの合計です。
この合計は、すべての確率が1に加算されることによって正規化されます。これは報酬の加重平均であることを保証し、これはまさに内部の期待値に対して望むものです。
直感的に説明できるでしょうか?各可能な出力Yに対して、真の値Ystarを参照したこの特定の出力Yの報酬は、出力が生成される確率Piによって単純に掛け合わされ、これらの積はすべての出力にわたって合計され、このパーティキュラーポリシーに従った場合に期待できる平均報酬を与えます。
他の項は外部の期待値です。これは、データセット内のすべての異なるペアにわたる内部量(それ自体が特定の入力Xに与えられた期待報酬)の平均を取ります。それは内部の期待報酬を各ペアに対して合計し、サンプルの総数で割ります。効果的にこれは合計を正規化します。
このステップは、トレーニング目標Jが単一のインスタンスではなく、すべての例にわたるモデルの平均的な動作を表すことを保証するため、全データセットにわたるパフォーマンスを集約します。
これで、2つのエージェントシステムのJの意味と、Jの勾配を計算する必要がある理由を理解できたと思います。Jの勾配を計算すると、これはシステム方程式であることが分かりました。
最初の項を見てみましょう。信じられないかもしれませんが、これはまだ期待値演算子です。まず、トレーニングデータセットから引き出されたペアの期待値を取ります。Xはまだ入力で、Yは依然として真の値です。
3番目のポイント、「Mは~からサンプリングされる」の部分、ここでポリシーPi θ highは、特定の入力Xに対して異なるプランMに確率を割り当てる高レベルエージェントのポリシーです。
次の項、これは少し挑戦的ですが気にしないでください。これは単にそのパラメータに対する高レベルエージェントポリシーの導関数です。Pi θ Highがここに標準的な強化スタイルの勾配項として現れることがわかります。これは、パラメータθ Highを調整することが、特定のプランMを選択する確率をどのように変えるかを示しています。
そして最後の項がきます。この最終項はさっき見たものと同じです。括弧内で、低レベルエージェントのポリシーPi θ lowから引き出された最終出力Yにわたる期待報酬を計算しています。入力x、戦略的マスタープランM、出力Yが与えられ、Rは報酬関数で、最終出力Yが真の値Ystoreと比較してどれだけ良いかを測定します。
これがあなたの助けになったことを願っています。または「これは本当に簡単だと思ったことがなかった」と言うかもしれません。もちろん、これを計算するには、いくつかのプログラムがあり、ここに対数トリックがあります。
期待報酬の勾配を計算する場合、それは確率的ポリシーに依存します。確率分布を通じて直接微分することは難しいことがあります。これは非常にフレンドリーな定式化です。代わりに、これは「対数トリック」と呼ばれるものがあり、これを適用すると、はるかに計算が簡単な構造になることがわかります。
このトリックがポリシー勾配でどのように機能するかを見ることができます。期待報酬である目標関数があり、パラメータθに対する直接微分はこれを与え、この特定のトリックを適用することで、Jの勾配をこの特定の式で書き直すことができます。これにより、コーディングとこの計算がはるかに簡単になります。
数学の式を見るだけで論文全体を見ることができました。システムの動作を定義する主な数学的な式を見ました。これはかなり複雑な2つのエージェントシステムの動作ですが、数学は素晴らしいものであることを理解していただけたと思います。
さて、論文に戻りましょう。すべてを実装し、コーディングし、実行し、モデルを構築すると、これらのモデルは特定のパフォーマンスを持っています。次のレベルに進み、これらすべての結果を見てみましょう。
ここには4つの異なるベンチマークがあります。簡単なベンチマーク、中程度のベンチマーク、そして難しいレベルのベンチマークがあります。そして3つのバージョンがあります。ベースモデルに対する強化学習、メタ思考設計下での強化学習、そして教師あり微調整モデルからの強化学習です。
簡単に見てみましょう。簡単なレベルでは、教師あり微調整からの強化学習が最高のパフォーマンス92%以上を提供します。中程度のレベルでも、教師あり微調整からの強化学習が単に最高のパフォーマンスを持っています。しかし、物事は変わります。これは私が理解していない何かで、すぐに話し合います。
突然、オレンジ色の教師あり微調整からの強化学習に問題があり、今彼らは議論しています。私たちの新しい方法論、メタ思考下での強化学習が今や最高のモデルになっていると。
これを見てください。ここではある種の線形パフォーマンスの増加があり、それからプラトーになるか、少し後退します。これは異なっています。これが本当に何を意味するのか見てみましょう。
「オレンジ色の教師あり微調整からの強化学習は優れたパフォーマンスを達成しますが、より困難な問題へ一般化することに苦労します。難しい問題がお分かりになると思います。対照的に、メタシングルからのベースは、以前に見たことのないH問題を解決する能力を示し、パフォーマンスをさらに向上させます」。
しかし、教師あり微調整からの強化学習をより詳しく見ると、彼らが行った特定のことがあります。彼らはGPT-4 Omniからの少量のチェーンオブソート痕跡、推論痕跡、推論データを収集しました。
2025年3月中旬の今日、GPT-4 Omniの数学的推論痕跡は最新の数学モデルの中で最高ではない可能性があることをお伝えしなければなりません。したがって、それらの最高ではない可能性のあるチェーンオブソート推論痕跡を使用して、教師あり微調整の古典的なSFT方法論でベースモデルを見つけ、その後、二項結果報酬でこのチューニングされたモデルをトレーニングします。
GPT-4 Omniが簡単な場合、中程度の場合にチェーンオブソート痕跡を生成するのに良かったとしても、GPT-4 Omni自体がチェーンオブソート推論痕跡を生成できなかった可能性があります。したがって、このデータでベースモデルを微調整すると、トレーニングデータが性能向上に必要な品質を持っていないため、本当に難しい問題のパフォーマンスがありません。
つまり、この画像だけを見て、システムが機能していないという兆候だと思うなら、これは間違った結論だと思います。深く掘り下げて、これは単に別のモデルの合成生成チェーンオブソート推論痕跡を使った教師あり微調整方法論でトレーニングされただけであり、それらの推論痕跡はタスクに適していなかった可能性があると理解すれば、方法論が失敗したとは言えません。簡単と中程度では機能したという兆候があるからです。
さて、同じことをしてみましょう。今日見てきた最高のパフォーマー、最新のトピック、メインの論文であるメタ思考での強化学習を見てみましょう。彼らは再びGPT-4 Omniから少量の高レベルメタ思考データを収集し、2025年第1四半期にMath 7B instructをメタ思考能力を向上させるためにファインチューニングします。
これがジュニアで、これがシニア、これがジュニアです。そして高レベルのプランナーとしてのみ機能することを確認します。これは面白いですね。そして、二項結果報酬を持つ高レベル命令とのコラボレーションで、低レベルエージェントとして2025年第1四半期のMath 7Bモデルの強化学習アライメントも行います。
これは興味深いことです。なぜなら突然、7B instructと7Bだけという2つの異なるモデルがあるからです。それらはGPT-4 Omniでトレーニングされていますが、低レベルエージェントとしての強化学習による一種の補償はありません。これは実装してこのパフォーマンスを得る方法としての興味深い選択であり、すぐに他に5つのアイデアがありますが、私が示そうとしていることを理解していただけると思います。
著者によって公開された公式ベンチマークを見てみましょう。モデルLlamaとQwen 2.5 7B instruct、8B instructがあり、すべての異なるベンチマークに対して4つの異なるシナリオがあります。これがバニラのチェーンオブソートで、これがバニラで、強化学習でトレーニングされ、これがメタ思考バージョンで、これが今見た論文です。
LLMをジャッジとするベンチマークがあります。これは非常に特定の種類のベンチマークです。ここでLlamaモデルでは本当に機能しますが、Qwenモデルでは機能しないことがわかります。他の方が良いからです。
ここにはモデル固有のパフォーマンスがあり、なぜLlamaが改善に敏感で、Qwenでは他のモデルと比較して全く改善がないのかについてのアイデアがあります。
また、数学ベンチマークでのパフォーマンスデータも提供してくれています。ここではLlama 3とQwen 2.5 7B instructがあり、興味深いことがわかります。最初はこれが常に最高のモデルではなく、常に他を上回るわけではありません。
しかし、平均の行を見てみましょう。これら1、2、3、4つの異なるシナリオからすべてを計算すると、平均して全体的にパフォーマンスが50、ここも50、ここも50、おそらく51あることがわかります。そして、これらすべてのことを行った後、2つのエージェントを反復的にトレーニングし、この極端な量のトレーニングと最適化を行った後、最終的に達成したのは51から53への移行です。
これは今、「マルチエージェントメタ思考推論AIの性能向上はどれほど重要なのか」という質問を開きます。この新しい強化学習方法論RAMAで行われたこれは本当に体系的な方法論の改善なのでしょうか?それともLLMの一部がチェーンオブソート推論痕跡を最適に提供しなかったことによる実装の問題なのでしょうか?それとも方法論自体がさらに改善する必要があるのでしょうか?
著者自身による制限を示したいと思います。彼らは「さらに、私たちの定式化は現在、単一ターンの相互作用に限られている」と言っています。「将来的には、これらの方法論を洗練し、マルチターンに拡張することを目指しています」。2つのエージェントがあり、単一ターンの相互作用しか許可しない場合、これは本当の制限かもしれません。マルチターン設定への次のステップで、この方法論が最良のものであり、改善がどれほど重要かを評価する将来への道を示すことになると思います。
私たちはここにいます。楽しんでいただけたら幸いです。研究論文で見つかるこの数学的な定式化を示したかったのです。これらは極めて役立つもので、主なアイデアの抽象的な論理表現であり、このシステムをコード化する際に実装するのはこれらの数学的な公式です。
何を合計しているのか、積分は何か、境界条件は何か、このシステムはどのように相互作用しているのか、最適化のフローは何か、どのパラメータを特定のトリックでどのように最適化しているのか、Jの勾配計算は何かを理解していなければ、新しいモデルを理解するのは難しいでしょう。
しかし、これに慣れていれば、これらはシステムをさらに理解するのに役立つツールに過ぎないことを理解します。アルゴリズムやAIモデルの内部動作について深く掘り下げることができます。今日、「これはいいな、なぜこれをもっと探求しないのか」と言ってもらえるようなきっかけを与えられたらと思います。
コメント