
7,317 文字

こんにちは、コミュニティの皆さん。戻ってきてくれて嬉しいです。「トポロジカルAIシステム?それほど進んでいるの?」と思われるかもしれませんが、はい、その段階に来ています。
このチャンネルを購読している方なら、前回の動画で明示的な推論プロセスとQWQ 32Bを見たことをご存知でしょう。QWQ 32Bは素晴らしいシステムで、マシンの思考過程を一つ一つ出力します。そこで思考の連鎖(chain of thought)を見ていたときに、何か発見しました。時には思考の木(tree of thought)の兆候、さらには思考のグラフ(graph of thought)の兆候も見られました。
これは最新の推論モデルに実装されているもので、「思考のグラフ?それについての動画はあるの?」と思われるかもしれません。もちろんあります。1年以上前に、AIの推論について思考のグラフを構築する方法と、それが思考の連鎖よりも優れている理由を示しました。
推論モデルのパフォーマンスを向上させるために、ここでは線形の思考の連鎖から、テスト時の計算スケーリングで、より複雑な思考のグラフ構造へと進化させます。R0103、R1、S1、L1の推論モデルです。
異なる推論問題には、私のテストで示したように、異なる最適な推論トポロジーがあります。そして、適切なタスクに適切なトポロジーを適用すると、より高い精度が得られます。最も簡単な方法は、思考の連鎖、思考の木、そして思考のグラフを使うことです。QWQ 32Bの推論プロセスの回答構造で発見したものです。
古いモデル01や03のような単純な線形の思考の連鎖に頼るのではなく、最新の推論モデルを見てみましょう。この動画では、プリンストン大学の研究を紹介しました。彼らの「推論フラックス」と呼ばれるアプローチは、思考の連鎖を超えるもので、システム内でユーザーとして定義できる特定の推論の複雑さを持つモデルを開発しました。そのモデルは推論構造に従います。
つまり、理論物理学や数学、化学、金融、医療など、好みに応じて推論の複雑さを事前に定義できるのです。自分が実装したい推論構造を定義できます。インターネット上のどこかにこの問題を解決するためのアイデアがあるというわけではなく、プリンストンが事前定義された推論の複雑さでこれを実現する方法を示してくれました。
それでは本題に入りましょう。ここに5つの都市があり、巡回セールスマン問題があります。ここに距離を示しました。マイルでもキロメートルでも構いません。これはOPという問題で、最適化問題、コンピュータサイエンス、オペレーショナルリサーチの分野ですが、今回はAIでこれを行います。
テスト時の計算スケーリングでは、思考の連鎖、思考の木、そして思考のグラフではどのような結果になるでしょうか?思考のグラフが本当に最良なのでしょうか?もちろんそうです。
思考の連鎖は簡単です。都市Aから始めて、都市B、C、D、Eと進み、最後に出発地のAに戻ります。線形チェーンでは、10km、15km、12kmという距離があります。これが最適解かと思うかもしれませんが、もちろんそうではありません。
次は異なる木に分岐する思考の木を見てみましょう。逆の順序でAから始めて、E、D、C、B、そして再びAに戻ります。これは異なる分岐を選んだものですが、最も美しいのはもちろん思考のグラフです。
思考のグラフでは、AからCへ(8の距離)、CからEへ(6の距離)、EからDへ(8の距離)、DからBへ(7の距離)、そしてBからAへ戻ります。これを計算すると、思考の連鎖と逆順での結果は同じですが、思考のグラフでは39kmとなり、これが巡回セールスマンの最速ルートです。
これで勝者が見つかりました。このような数学的洞察を、次世代のシステムの推論の複雑さに適用できます。思考の連鎖や思考の木ではなく、相互に関連した複雑性を構築して、より迅速な解決策を見つけることができます。テスト時の計算スケーリングでこれをすべて行うのは大変です。この最適化システムに他の方法はないのでしょうか?
もちろんあります。いくつかのパラメータが必要です。まず、計算された距離があります。これを「トポロジカルラベル」と呼びます。これは数学的、数値的な結果です。そして二項ハードラベルがあり、これは後のプロセスで最良のデータを選択するためのものです。タスクを解決してAに戻れた場合は1、どこかで迷子になってAに戻れなかった場合は0です。トポロジカルラベルと二項ハードラベルを覚えておいてください。
一部の人は「中間の思考の木は十分ではないか?線形シーケンスの思考の連鎖から異なる木に分岐する思考の木へ進むだけでは十分ではないのか?なぜグラフシステムが必要なのか?」と思うかもしれません。そしてその通りです。トピックやタスクによっては、これで完璧です。
例えば、3つの別々の部屋がある迷路に閉じ込められていると想像してください。各部屋にはパズルがあり、その解決策は1桁の数字を生み出します。全体の脱出コードは、論理的な順序で各部屋の結果を連結して得られます。これらのパズルは独立しており、自然に分離可能なサブ問題に分解されています。より複雑な問題を複数の低複雑性問題に分解しているのです。
例を挙げましょう。部屋1では最初の5つの素数の合計を計算し、部屋2では3の階乗を計算し、部屋3では「Escape」という単語の文字数をカウントします。結果はご存知の通りです。
複雑なメイン問題を独立したサブ問題に分割でき、他のステップからの入力がない場合、思考の木が構造化された階層的問題に最適な選択となります。これは線形並列問題であり、このトポロジーで解決できます。
今日は少し天才的なひらめきが必要です。LLMに最適なトポロジカル推論設定を選択するよう教えます。カーネギーメロン大学(CMU)による新しい研究があり、彼らはこのアイデアを提供してくれました。
複雑なタスクのためにLLMを教えるには、トレーニングデータが必要です。CMUはどのようなアプローチを取ったのでしょうか?トレーニングデータ、どこかに推論データがあります。そして、ベース言語モデルの教師あり微調整があります。
タスクは少し異なります。今度はこのLLMを訓練して、最適な推論トポロジーポリシーを生成します。異なるタスクに応じて、思考の連鎖、思考の木、または思考のグラフを選択するという推論トポロジーです。
強化学習では、ポリシーモデルと報酬モデルがあります。CMUは「前向き推論には、トポロジカルスケーリングを行います」と言っています。これは新しいマーケティング用語です。そして別のマーケティング用語として、「トポロジカルチューニング」から始めます。
CMUは「高品質なトポロジカル推論データセットを使用して古典的な教師あり微調整を行い、トレーニングデータをトレーニングデータセット、テストデータセット、評価データセットに分割します」と述べています。トレーニングデータは、多様性サンプリング、正解フィルタリング、拒否サンプリングという3段階のプロセスを通じて選択されました。
データを得たら、トレーニングデータセットを作成し、このデータセットを使って次のトークン予測でモデルをトレーニングします。なぜかCMUはQ12 Vision Language 7B Instructを選択しました。最新のモデルではないかもしれませんが、それがCMUの選択です。
データの品質は非常に重要です。「TAC」について見てみましょう。TACは「トポロジカルアノテーション生成」の略です。彼らは「RLHF」について考え、似たようなものを考えました。
その内容は、LLMに大規模な合成データセットを生成するよう促すことです。このLLMは異なる推論トポロジーを解決し、合成データセットを提供します。ただし、LLMは複雑な多次元推論を非線形部分多様体で思考のグラフとして生成できるものである必要があります。
先ほど巡回セールスマン問題で示したように、トポロジカルレベルとハードレベルを計算する方法があります。ハードレベルは正解なら1、不正解なら0の二項指標です。
トポロジカルチューニングを理解しました。これはトレーニング時のスケーリングアプローチで、テスト時のスケーリングではなく、ベースLLMを微調整して最適な推論トポロジーポリシーを生成する方法を学習します。CMUによれば、これはトポロジカルチューニングされていないモデルと比較して5%の精度向上をもたらします。
そしてCMUはさらにアイデアを提案し、トポロジカル報酬システムを提案しました。これは、マルチタスクトポロジカル報酬モデルを活用するテスト時の計算スケーリング方法で、テスト時に最適な推論トポロジーと勝利する回答を動的に選択します。この2つのモデルの違いは、異なるヘッドを持つことだけです。
CMUはさらに、AとBの両方を組み合わせたハイブリッドスケーリングを提案しています。トレーニング時のスケーリングとテスト時の計算スケーリング手法を組み合わせて、特定のタスクに対して正しい推論トポロジーを適用する新しい推論モデルのパフォーマンスを最大化します。彼らはQ2で最高の改善(+10%)を達成したと述べています。
マーケティングにも優れたCMUは、新しいフレームワークを「トポロジカルスケーリングフレームワーク(TSF)」と呼んでいます。これは、各問題に対する最適な推論構造と最良の回答がテスト時に動的に決定される競争的選択プロセスを運用するフレームワークです。
TSFはテスト時の計算スケーリング(TTS)で動作し、トレーニング時からのポストトレーニングとテスト時の報酬システムを統合した古典的なパイプラインです。この新しいマーケティング用語は、適応型トポロジー選択プロセスを可能にします。
注意すべき点として、ここでは強化学習ではなく、トレーニング時の最適化とテスト時の報酬という2つの別々のプロセスがあります。報酬システムは強化学習を行わず、テスト時の計算における純粋な報酬モデルです。
テスト時の計算スケーリングは、トレーニング時の計算で準備するのが良いアイデアです。彼らはポリシーモデルと報酬モデルの両方を使用しています。ポリシーモデルは候補の応答を生成し、取るべきアクションを定義します。そして、トポロジカル報酬モデル(TRM)は、特定の品質メトリクスに基づいてこれらの候補を評価しスコア付けします。
これらのモデルは同じバックボーンを持ちますが、異なる目的と異なる出力層を持ちます。報酬モデルはポリシーモデルを最適化するために使用されるのではなく、推論時のTTSスケーリングに転送され、別途の強化学習トレーニングフェーズなしに最適な応答を選択します。
トポロジカル報酬モデルの核心的なアイデアは何でしょうか?それは、特定の損失関数(回帰やランキング損失など)を最小化することで、集計された報酬スコアを予測することを学習します。このプロセスは基本的に教師あり学習の一形態であり、モデルには良い応答を構成する明示的な例が提供されます。
例としては、5つの都市間を旅行するセールスマンの計算された距離である連続的な信頼スコア(トポロジカルラベル、例えば44や39)と、成功なら1、失敗なら0の二項正解判断(ハードラベル)があります。
なぜAIシステムがこれに必要なのでしょうか?2つのパラメータ、成功パラメータと単に巡回セールスマンが走行した距離を数えるパラメータがあります。さらに多くの要素があり、彼らは複数の要素を統合する追加の報酬モデル、つまりトポロジカル報酬モデルが必要だと言います。
これは教師あり学習を用いて微調整される二次的な報酬システムであり、回答の正確さ(0または1)だけでなく、応答の明確さ(回答が簡潔で明確、構造化され、論理的であるか)などの複数の要素を統合します。ここでは、トレーニングデータに大きく依存していますが、これらの追加要素をトポロジカル報酬モデルに取り入れようとしています。
これは、トポロジカルラベルやバイナリハードラベルなどの生の信号を、ソフト要素も考慮に入れたより高度な報酬スコアにマッピングすることを学習します。これは、応答の明確さや論理的完全性などの適切なスコアを得るために使用するLLMの品質に依存しています。
典型的には、報酬モデルは強化学習を通じてポリシーモデルをさらに微調整するために使用されますが、このフレームワークでは、CMUはTRMを単にテスト時の計算スケーリングで活性化する選択メカニズムとして適用することを決定しました。TRMのトレーニングは、他のモデルでも使用される高品質データセットに対する教師あり微調整です。
彼らはこのトポロジカル報酬モデリングを計算プロセスを簡素化するために行ったと主張しており、これにより候補間の単一パススケーリングが可能になります。トレーニングされたLLMが報酬フィードバックの統合された品質ソースを提供するからです。
ポリシーモデルはテキストトークンを出力し、その訓練損失は線形シーケンスの次のトークンをどれだけうまく予測するかに基づいています。通常、報酬モデルはスカラー、報酬値、またはランキングスコアを出力し、通常は回帰またはランキング損失関数を使用して訓練されます。これは、線形シーケンスの次の言語トークンの予測に通常使用するクロスエントロピー損失とは大きく異なります。
トポロジカル推論は少し奇妙に聞こえるかもしれませんが、理解するのは簡単です。通常、O1やO3などには事前定義された推論トポロジー、推論モデルでの長い思考の連鎖がありますが、今回はシステム自体に推論トポロジーを選択させます。特定のタスクに応じて、システムが推論構造を最適に選択できるようにします。そのため、AIシステムが適切な推論トポロジーを選択する際の最適なパフォーマンスを動的に学習する必要があります。
プリンストン大学の研究でも、複雑な推論テンプレート、多次元の相互接続テンプレートを定義し、モデル的に組み合わせることができるという同様のアプローチが示されました。ここでは自分の推論構造を構築する選択肢がありましたが、CMUのアプローチでは、別のAIシステムやLLM、視覚言語モデルによる合成データ生成により、これが行われています。
この研究は2025年3月6日、米国カーネギーメロン大学によるもので、「SOLAR:推論のための大規模アーキテクチャのスケーラブル最適化」と呼ばれています。新しいトポロジカル報酬モデルとトポロジカルアノテーション生成システムなど、少し挑戦的ですが、フレームワークの説明を見ると、理解するのが難しくなっています。この論文を読んだとき、「何が起きているのか理解できない」と思いましたが、それが私がこの動画を作った理由です。
パフォーマンスデータを見ると、通常のベースライン推論モデルでは精度が79%です。トポロジカル報酬モデルを使うと88%に飛躍し、トポロジカルチューニングのみでは84%です。トレーニング時とテスト時の計算スケーリングの両方を組み合わせると89.02%になります。つまり、ベースラインモデルと比較して10.02パーセントポイントの最大ジャンプを実現しています。これはQ2 VL 7B Instructを使用したものです。
最後に、彼らはトポロジカル報酬モデルのマルチタスク評価構造を選択しました。これは興味深いチャレンジです。強化学習のための複数の独立した報酬モデル(事実の正確さや意識性など)を持つ代わりに、すべての要素を一般的なマルチタスクTRM、統一モデルに入れることには利点もありますが、トレーニングデータが古いLLMによって合成的に生成された最良のものでなければ、欠点もあるかもしれません。
彼らは、マルチタスクTRMが複数の単一タスク報酬モデルを使用する場合と比較して、より良い全体的なパフォーマンスをもたらすと主張しています。MTRMや単一タスクトポロジカル報酬モデル(STM)という言葉は以前に見たことがありません。これは新しい技術用語やマーケティング表記に満ちていますが、主なアイデアは非常に興味深いものです。
彼らは2つの主要なスケーリング戦略を統合しています。まず、トレーニング時のスケーリングを行い、次に推論時のスケーリングを行います。モデルをトポロジカルチューニングによるシンプルなトレーニング時のスケーリングで準備します。標準のLLMまたは視覚言語モデルを、この合成的にアノテーションされたトレーニングデータで微調整します。
これにより、最適な推論ポリシーを選択することを学習したモデルが得られます。推論時には、トポロジカル報酬モデルを使用します。マルチタスクトポロジカル報酬モデルを活用して、その内部の複雑性を考慮し、単一の推論パスで最良の推論トポロジー(思考の連鎖、思考の木、思考のグラフ、またはさらに複雑な推論トポロジー)を選択します。次の動画では、これに関する新しいデータがあるかもしれません。
QWQでは、あるトポロジカル推論構造が既に存在していましたが、それはトポロジカルチューニングやトポロジカル報酬関数に特化したLLMのトレーニングによって選択されたものではなく、おそらくトレーニングデータに内在していたものでした。今、CMUはこれを、最も重要な事実を集約したマルチタスクのトポロジカル報酬モデルという特定の報酬関数で明示的にしています。
もちろん、プリンストン大学の「推論フラックス」のように、別のオプションもあります。これは今週の開発で、新しい進展がさらに控えています。このチャンネルの購読をご検討いただければ幸いです。次の動画でお会いしましょう。
コメント