AIエージェント: 新しい推論推理Q-NET (QLASS)

10,692 文字

AI Agents: NEW Inference Reasoning Q-NET (QLASS)

New AI research to improve the intelligence of AI agents by an improved Process Reward Model (PRM). Integration of MCTS ...

コミュニティの皆さん、今日は対話型の複雑なAIと最新のAI研究について少し楽しく見ていきましょう。より科学的に言うと、今回はPRMQLASSについて話します。これは何かと言うと、Quality Guided Language Agent Stepwise Search (品質ガイド付き言語エージェントの段階的探索)のことです。新しいプロセス報酬モデルを見ていきますが、私たちの単純な目標は、特定のタスクに対してAIエージェントをより賢くすることです。
対話型タスク、つまりコンピュータを操作したり、買い物をしたりするエージェントについて、現状では十分に賢くありません。特に、エージェントが実行する複雑な対話型タスクでは、もっと賢くする必要があります。私の動画へようこそ。ご視聴ありがとうございます。
それでは始めましょう。著者たちは新しい科学的研究で、オンラインショッピングや家事タスク、純粋なロボット実装、さらには科学的実験までを検証しています。エージェントが世界に出て科学実験を行うなんて、これは魅力的ですよね。
ここで特殊な状況があります。AIエージェントが自律的に実行する各ステップで、段階的な知恵が必要なのです。つまり、各判断ポイントでエージェントの耳元で囁くような、私たちが知恵や助言と呼ぶもの、学習された何かが必要です。これによって、エージェントがより良い判断を下せるようになります。そのため、この新しいフレームワーク、QLASSという品質ガイド付き言語エージェントの段階的探索機能が登場しました。
私たちは複雑な対話型タスクでより高いパフォーマンスを目指しています。もちろん、学習時間の最適化ではなく、推論時の探索に焦点を当てています。効率性と有効性を向上させるために、特別なプロセス報酬モデルの品質ガイダンス要因を使用し、新しいニューラルネットワークを訓練します。これをQETつまり品質ネットワークと呼びます。
このQETはエージェントの小さな囁き手であり、知識を持つAIエージェントの仲間です。このQETは推論時の各ステップでアクション選択のガイダンスを提供します。状態とアクション、報酬計算のための報酬モデルを覚えていますよね。これが私たちが探しているものです。
それでは実践の場を見ていきましょう。前回の動画で見た非TDCモデルから、o1という推論時推論モデルを見ていきます。隠れた思考トークンやChain-of-Thoughtトークンをスケールアップすると、パフォーマンスが大幅に向上することがわかります。
古典的な方法では、最終的な解決策に対する単純なスコアという形で結果の報酬がありました。しかし、エージェントがクレジットカードを使って対話する場合、クレジットカードの請求書が1ヶ月後に届くまで待つわけにはいきません。この結果報酬では動作しません。なぜなら、エージェントが広大なインターネット検索空間をさまよい、非効率な選択をしてしまうからです。社会が「非効率な選択」と言うとき、それはAIエージェントに望むことではありません。
私たちの美しいLLMを見てみましょう。これは各エージェントの心臓部です。事前学習モデルがあり、教師あり微調整があり、強化学習のDPOがあります。そして今、クエリとともにオンラインになり、テスト時のコンピュータで推論推理が行われています。前回お見せしたように、推論実行で2〜5分待つと、システムは最終的な解答に到達するための推論パスを見つけようとします。
探索と活用があるので、解への複数の経路が探索され、LLMが最終的な解答に到達するために計算する推論の深さも異なります。もちろん、5〜10本の動画でお見せしたように、Monte Carlo Tree Search（モンテカルロ木探索）を使用します。可能性の分岐木を構築し、最後の思考で最終的な報酬シグナルがある古典的なシステムでは、この古典的なモンテカルロ探索のバックプロパゲーションが行われます。しかし、これは今日改善する必要があるものです。
学生のことを考えてみてください。学期末に1回の最終テストがあり、その2時間で全てが試されて、将来の職業人生が決まるようなものです。これは望ましくありません。インターネット上で自由に動き回るAIがあなたのクレジットカードを持っている場合、学期末まで待つわけにはいきません。
そこで今すぐ天才の閃きが必要ですが、問題ありません。複数の閃きがあります。前回の動画で、スタンフォード大学がo1やOpenAI、DeepSeek、R1、S1（ハロー、スタンフォードモデル）を開発したことを覚えていますか。彼らは単純にハイパーパラメータを設定し、500トークンや1000トークンなど一定量のトークン後に「ストップ」と言って、これ以上推論パスを続けないようにしました。
S1の動画で示したように、効果があります。例えば、R1が不正解の応答に7,000や10,000の隠れた思考トークンを生成する場合、それは全て無意味です。なぜなら解に到達しないからです。しかし、緑色の部分を見てください。これらが価値のあるもの、つまり正しい経路と推論の2,883トークンです。これらが欲しいものです。
手動のハイパーパラメータを使用するというスタンフォードのS1のアイデアは、特にLLMが暴走して10,000の不正確な隠れた推論トークンを生成し、最終的な解答に到達しない場合に成功しました。全てが赤色で示されているように、システムは失敗し、このS1の閾値により500トークンや1000トークン後に、無限ループで暴走するのを止めることができます。
S1の良いアイデアですが、さらに発展させる必要があります。最初のアイデアは学期末の最終答案を待つことでした。次にスタンフォード大学は、1000トークンや10,000トークンなど手動の閾値後に機械を停止させ、結果を見ることにしました。しかし今、次のステップに進む必要があります。
新しいアイデアをすでに紹介しましたが、今度はLLMやAIシステムが行う各判断の後に、モンテカルロ探索で将来の割引報酬構造を計算するプロセス報酬モデルを導入します。エージェントのために構築するのは、内部的な段階的なもので、LLMが行う各推論ステップ、隠れたトークンプロセスに対して、動的に適応するプロセス報酬モデルを持ちます。
最後まで待たず、最終的なベンチマークも手動のハイパーパラメータもなく、各ブロックステップまたは推論ステップで行います。しかし、最終的な答えがない場合にどうやって報酬を計算できるのでしょうか？研究の著者たちは、各推論トークンのステップで実際に相互作用する素晴らしいプロセス報酬モデルのアイデアを持っていました。
古典的なモンテカルロ探索と新しいプロセス報酬モデルがあります。1〜2週間前に、マイクロソフトによる数学的因果推論のための新しい方法論Rの動画を見せたことを覚えているかもしれません。彼らは自己進化LLMをコーディングし、私のチャンネルを購読している皆さん、こんにちは、私たちもモンテカルロ探索とプロセス報酬モデルを持っていました。
アイデアは数週間前からありましたが、今回は数学的推論だけでなく、より一般的なパターンで実装します。動画の核心に入りましょう。何を構築したいのでしょうか？動的で適応的なeエージェントを構築したいのです。オンラインショッピングのために送り出し、エージェントにクレジットカードを渡して、そのエージェントの知性が非常に優れていることを期待します。そうでなければ大変なことになります。
私が言ったように、AIエージェントには知的な仲間、知的なQネットワークが必要です。良き古き時代を思い出してください。LLMがあり、RAC（検索拡張）システムがありました。今度は少し並行的です。LLMがエージェントの心臓部であるAIエージェントを持ちますが、この小さな仲間には単位システムが必要です。
このQETは、エージェントがクレジットカードを持って外界で行う各アクションの品質を、各判断ステップ、各推論ステップで評価します。小さなQETは長期的な成功に貢献する可能性に基づいて判断します。段階的な判断ですが、報酬の計算における焦点は長期的な成功です。
AIエージェントの非常に洞察力のあるコーチのように考えてください。エージェントの一つ一つの動きを常に評価し、各動きをガイドします。「これは狂っている、今私たちにはエージェントがいて、そのエージェントは十分に賢くないはずなのに、そのエージェントに賢い仲間がいる」と言うかもしれません。なぜなら、エージェントがインターネット上でクレジットカードを自由に使える場合、十分に賢くないからです。AIリサーチへようこそ。
このQ関数、Qについて2〜3年前から知っています。これは品質関数です。人々は「どう説明すればいいのか」と聞きます。簡単です。この質問に答えてください：エージェントが特定の状態にあり、すでにあなたのために何か買い物をしていて、今非常に高価なPCを買うような特定のアクションを取る場合、全体的な目標を達成する上で、長期的にそのアクションはどれほど良いものでしょうか？
エージェントの状態があり、エージェントが取る可能性のある特定のアクション、例えば何かを検索したり、このアイテムをクリックしたり、このアイテムを購入したりすることを見ています。このQ関数の出力は、5分後にはもっと複雑になりますが、単純なスカラー値、Q値、品質値です。これは単純な数値で、エージェントが状態sからスタートし、アクションaを取り、その後最適に行動し続けた場合の期待される将来の報酬を表します。
「将来の期待報酬関数をどうやって計算できるのか、私たちは未来を知らない」と言うかもしれません。はい、しかし過去からの知識があります。過去に起こったこと、どのように問題を解決したかを知っている上で将来を計算します。この将来は、いわば既知の事実の宇宙に基づく限定的な将来です。
今、現実の世界で言語エージェントを持ち、ウェブショッピングや科学的な世界などで使用する場合、理論的に可能な実際のQ関数、実際の複雑さは信じられないほど複雑です。推論チェーン、アクションチェーンの15ステップ先で彼らがどこにいるのか、どのウェブページにいるのか、何を買っているのかわかりません。
したがって、すべての可能な状態-アクションペアの実際のQ値をリストアップした単純なテーブルを作成することは不可能です。数が多すぎるからです。ここで新しいネットワークが登場します。複雑な関数を近似する強力なツールです。「これは複雑な関数だ、小さなニューラルネットワーク、小さなトランスフォーマーを使い、その上に小さなMLPハットを載せよう」と言います。ソフトマックス関数、ReLU関数を使えば、スカラーが得られます。これが私たちが望むすべてです。
QETと呼ぶ小さな知的な仲間を作り上げます。数学的な詳細はここでは省略します。この動画を楽しんでほしいからです。関数近似器として考えることができます。ニューラルネットワーク、トランスフォーマーネットワークで、特定の状態s（エージェントがインターネット上ですでに行ったこと、購入したことの履歴全て）と、この特定のアクションaを入力として受け取り、推定Q値q-hを出力することを学習します。
この推定Q値はもちろん近似値に過ぎません。純粋に理論的な数学的Q関数からの真のQ値は知ることができないからです。これをどうやって行うのでしょうか？簡単です。AIの世界にいるので、美しいLLMがあります。LLMはエージェントのポリシーとして機能し、そこに価値ヘッドを追加するだけです。マルチレイヤーパーセプトロンです。価値ヘッドは状態とアクションのLLMの内部表現を取り、それらを単一の数値、Q値の推定値に処理します。これで終わりです。
残念ながら、すぐにお見せする研究では、Llama 2 7Bモデルを使用しています。私の goodness、大学の皆さん、なぜ何年も前に存在しなくなったモデルを使用しているのでしょうか？確かに非常に安価ですが、お願いです。この美しいアイデアの品質全体が、私のLlama 2が推論できることにかかっています。財政的な資源が限られていることはわかりますが、Llama 2モデルは使わないでください。
MLPは簡単です。1024サイズの2つの隠れ層があり、ReLU活性化関数があります。これで終わりです。もちろん、ここまで私についてきた方、おめでとうございます。主な疑問は、私たちの小さなQET、AIエージェントの小さな仲間がどのようにしてこの特定の品質値を予測することを学習するのかということです。
簡単です。これはニューラルネットワークなので、教師あり学習、Hugging Faceからの教師あり微調整を使用します。まず、データセットが必要です。「それは簡単だ、モンテカルロ木探索の探索木があるから」と言うでしょう。このモンテカルロ木探索を使用して探索木を構築し、それらの木の中の特定の状態-アクションペアのQ値を推定します。これらの推定Q値がQETの学習ターゲットになります。
データセットができたら、探索木からの教師あり学習を行い、QはそのペアのQ値の推定値です。これは後でお見せするベルマン方程式を使用して計算します。古典的な方法でモンテカルロ探索のバックプロップを行います。そして何をするにしても、損失最小化を行います。このトランスフォーマーネットワーク、Qネットについても同じです。予測したQ値とデータセットのターゲットQ値との間の平均二乗誤差損失関数、または他の損失関数を使用する場合は、それを最小化するように学習されます。
これによりQネットネットワークは、最初にモンテカルロ探索を通じて推定されたQ関数を近似することを学習します。単純なアイデアで、古典的なAIから知っているすべてのツールを使用します。
推論実行中のアクションスコアリング、スコアリング値には注意が必要です。このエージェントは今、インターネット上でクレージーなショッピングをしているので、言語エージェントが実環境でタスクを実行している時、各ステップで複数の可能なアクションを検討できます。ウェブページを想像してください。エージェントはそのウェブページ上のさまざまなリンクをクリックできます。
各候補アクションに対して、訓練されたQET仲間を使用して予測Q値を計算します。自転車を買いたい場合、それが目標です。そしてQETが「はい、自転車の画像が見えたら、その自転車の画像をクリックして、自転車を購入できる次のウェブページに行けることを期待します」と判断します。この特定の画像の予測Q値は、そのホームページの他のすべてのリンクと比べて非常に高くなります。
アクション選択は簡単です。エージェントはQETによる予測品質値が最も高いアクションを選択します。これがQ guided生成と呼ばれるもので、QETは長期的により価値があると予測されるアクションへエージェントを導きます。オンラインで自転車を購入するのは素晴らしいですね。
この状況で「私はこの特定の状態にいて、このアクションを取ると、将来の成功と報酬の全体的なチャンスはどうなるのか」と考える場合、本当に重要なところに指を置いてみましょう。私たちの前に多くの可能な木や枝、葉が利用可能な場合、将来の割引報酬をどのように計算したいのでしょうか？
古典的なAIの方法では、何世代にもわたってベルマン方程式があります。これは最適なQ値を定義する再帰的な方法を提供します。コンピュータサイエンスで数学、物理学、化学などを学んだ時に学んだことを覚えていることを願います。ここでのガンマは将来の報酬を割り引きます。
私たちの特定の方法論では、最適なQ関数Qを直接解くのではなく、モンテカルロ探索木と少し修正されたバージョンを使用してQ値を推定します。環境が確率的である可能性があるため、古典的なベルマン方程式にはこの期待値がありますが、現在の数学的定式化では決定論的な環境で作業しているので、期待値は必要ありません。自転車を購入するために押せる4つのボタンが正確にあるホームページがあります。
この期待値は必要なく、時刻tの状態sから次の状態は単に時刻tのアクションaによって決定されます。Max演算はありますが、これは古典的なものです。Q値の再帰的な計算は、探索木の末端ノートから開始されます。最後に、Q値のスケールを0から1、または-1から+1の間で美しく調整するためのmin-max正規化があります。好きな方を選んでください。
これは重要です。注意してください。新しい方法論では、ベルマン方程式をツールとして使用します。結果報酬、最終的な報酬を思い出してください。これらをスパースな結果報酬から、推論チェーンのステップごとの密なQ値に蒸留するために使用します。探索木の構造を活用してこのプロセスを導きます。
突然、学習フェーズとすべての後に、プロセスのステップごとのQ値が得られます。これらはスパースな結果や最終的な報酬ではなく、ステップごとの密なQ値です。これは美しいものではありませんか？これが私たちが望んでいたものです。QETはこれらの蒸留されたQ値を予測することを学習し、推論実行中のエージェントのアクションを導くための強力な信号として、ニューラルネットワークとして学習されます。
このQETは訓練され、賢くなり、AIエージェントが自転車を購入したいとインターネットをスキャンしている時の仲間となります。なぜならQETは、フリーインターネットをガイドまたは操作する成功的な方法を正確に知っているからです。
これを強調しておきたいのは、エージェントがインターネット上で自由に動き回っているため、開始点や終点ではなく、段階的に判断を下す必要があるからです。理論的にエージェントがクリックできる各ホームページの各リンクに注意を払い、エージェントがナンセンスなものを購入しないようにする必要があります。エージェントに「このリンクはクリックしない、このリンクはクリックしない、最も高いQ値のリンクを探す」と伝える必要があります。
モンテカルロ探索は、複数の潜在的なアクションを探索し、可能性の分岐木を作成するために使用されます。これについて話しましたね。QETをエージェントのローカルガイドとして見ることができます。QETはM木の各ノードで、その特定のポイントで利用可能な候補アクションをスコアリングするために使用されます。
注意してください。遠い将来を事前計算したり、グローバルな計画を事前計算したりするのではなく、AIエージェントが実行する可能性のある、または実際に実行する各判断にローカルなガイダンスを提供するだけです。しかしQETによって予測されるQ値は、インターネットで自転車を購入するという目標に対する推定長期的価値を表します。素晴らしいですね。
では、単純な事実に入りましょう。2025年2月4日、カリフォルニア大学と上海交通大学による美しい共同研究です。非常に興味深い論文で、時間があれば是非読んでみてください。もっと多くの詳細がありますが、今日のこの動画では楽しく、シンプルに保ちながらも、正確で詳細な背景をすべて提供したいと思いました。
この導入で、論文を楽しんで読めるはずです。リリースされてわずか数時間後に私がこれを行っています。彼らはコード、チェックポイント、このデータをリリースすると言っています。GitHubリポジトリのQLに行けば、すべてのコードとデータがあるはずですが、私にとっては早すぎます。
要約が欲しい場合、1万フィートの高さからの概要を見るか、Pythonコードで4つのステップがあります。クローニング、モンテカルロ探索で構築する推論木、QETトレーニングフェーズ、そしてエージェントの各ステップの状態アクションに対するQETガイド付き生成があります。
または、私が書き出したものを見ることができます。これは本当に単純です。第一のステップは教師あり微調整です。どこかから始める必要があり、基礎言語モデルを使用して、成功したタスク軌道のデータセットにある専門家の行動を模倣するように訓練します。自転車の最近の1万回のインターネット購入を記録しただけです。これにより、初期の有能なエージェントポリシーが作成されます。
アクションの定義方法を決めたら、探索木を構築する必要があります。タスクの景観を理解するために、古典的なモンテカルロ探索アルゴリズムを実装して探索木を構築します。新しく教師あり微調整された訓練ポリシーによって導かれるエージェントは、各ステップで分岐する異なるアクション列を探索します。木の各パスは、対話の潜在的な軌道を表します。
この探索木の中で、各状態アクションペアのQ値を推定する必要があります。古典的な強化学習の原理とベルマン方程式を活用して、各アクションに関連する期待される将来の割引報酬に基づいてこれらを計算します。成功的な結果に一貫して導くステップには高い値が割り当てられ、これが小さな仲間Qネットにおけるエージェントのための知恵をエンコードする方法です。
そしてもちろん、QETの心臓部はトレーニングフェーズです。MLPハッド値ヘッドを持つトランスフォーマーバックボーンを持つこの新しいネットワークも教師あり方式で訓練され、探索木で推定されたQ値を予測することを学習します。このQETは本質的に、他のモンテカルロ探索プロセスの歴史的な知識、歴史的な知恵を内部化し、これから学習します。
訓練されたQETを持つと、品質ガイド付き生成が行われます。訓練されたQETがエージェントにとってアクティブになり、エージェントはQETの推奨を聞くことができます。なぜならQETは、可能なアクションのセットから特定のアクションを実行することの品質、スコア、報酬を計算するからです。
新しいタスクの各ステップで、エージェントは複数のアクションを考慮し、予測品質値に基づいてQETを使用してアクションをスコアリングし、エージェントは最も高い品質スコアを持つ特定のアクションを選択します。推論中にステップごとのガイダンスがあることを覚えておいてください。インターネット上のウェブページから何かを購入するための判断をより的確で効率的にするために、推論実行では1〜2分が重要です。
AIで通常使用する古典的な用語との関連性を見たい場合、報酬モデルとしてのQETがあり、Qはここで近似Q値を直接予測するようにQETを訓練し、これが古典的なプロセス報酬モデルです。インターネット上でクレジットカードを持つアクティブなエージェントのアクション選択を導くために、推論中にオンラインで使用されます。計算自体は、モンテカルロ探索内のQ値ターゲットに対して少し最適化された古典的なベルマン方程式によって行われます。
これがこの論文のすべてです。この論文はもちろんパフォーマンスを評価し、エージェントによる複雑な対話型タスクを行いました。古典的な3つ、VAP shop Alor、そして科学実験があります。驚くことではありませんが、著者たちは最後にこれが優れたパフォーマンスを持つと述べています。この新しい方法論は、著者たちによると、教師あり微調整、PPO、ベストofN、そしてGPT-4との比較でさえも、一貫して強力なベースラインを上回るパフォーマンスを示します。Llama 2の判断モデル、推論モデルがGPT-4を上回るなんて想像してみてください。そして3つのベンチマークすべてで、彼らはQガイド付き段階的探索の有効性を示したと述べています。
しかし、コアLLMとしてLlama 2モデルを使用しないことが望ましいですね。2番目は推論時の効率性です。推論実行で1〜2分しか待てないことを覚えておいてください。著者たちによると、この新しい方法論は、ベストofNの方法論よりも少ない探索トークンで（10,000、177,000の探索トークンが隠れていて、おそらく無駄になっているのを覚えていますか？）より良いパフォーマンスを達成します。
著者たちは、これはAIエージェントの心臓部にあるLLMの推論時のパフォーマンスを向上させるより効率的な方法だと述べています。このAIエージェントは、あなたのクレジットカードを持って買い物をするために外界にいます。
始めに戻りましょう。マイクロソフトのR数学についてお話ししたことを覚えていますね。これもモンテカルロ探索とプロセス報酬モデルを使用していましたが、QLASSという方法論が何であるかが今明確になりました。これは単にAIエージェントを推論実行、テスト時のコンピュータ、つまりすでにクエリやタスクを与えられているこの1〜2分の間にもっと賢く行動させることについてです。
R数学に関する私の動画を見ると、これは自己学習モデルについてです。モデルは時間とともにより良い推論を学習し、慎重に作られた自己改善ループを通じて、非常に似た方法論で自己改善する方法を学習します。しかし、すべての詳細はRに関する他の動画にあります。
以上です。この動画を楽しんでいただけたと思います。複雑な数学方程式をすべて省いてメインアイデアだけを伝えたかったので、この動画の準備は本当に興味深いものでした。AIエージェントとの作業を楽しみ、それらをどのように改善できるかを理解し、これは世界にいるAIエージェントを改善するための美しい方法論であることを感じてほしかったのです。
なぜなら、信じてください、エージェントがあなたのクレジットカードを持ってさまよっている場合、このエージェントが本当に優秀なエージェントであり、インターネット上で必要なステップだけを実行することを確認したいはずです。ですから、もし購読したいと思われたら、次の動画でお会いできることを楽しみにしています。