テストタイム・スケーリング

27,852 文字

YoutubeとXでテストをしながら配信を開始します。Daniel Jacobianさん、素晴らしい苗字ですね。Binksさん、いかがですか。Xでの配信状況を確認しましょう。少し待ってから配信が始まります。
今日は元のホーン、スパイラル・ディジュリドゥを使います。ゴンドールのホーンの方がかっこよく見えるかもしれませんが、スパイラル・ディジュリドゥには比類のない深いうま味のようなトーンがあります。
さて、本日のフーストストリームへようこそ。今日はテストタイム・スケーリングについて話していきます。これは今まさに注目を集めているトピックで、いくつかの論文を中心に見ていきます。
取り上げる論文は以下の通りです:

単純なテストタイム・スケーリング
大規模推論モデルを用いた競技プログラミング
1Bパラメータのモデルは405Bパラメータのモデルを超えられるか
自己改善型トランスフォーマー
空間での推論と想像
LaTとリーズニングによるテストタイム・コンピュートのスケーリング

これらの論文を順番に見ていきましょう。まず最初の「単純なテストタイム・スケーリング」という論文についてです。タイトルの大文字小文字の使い方が変わっていますが、KPOYはこの論文を「可愛い」と評していて、結果もとても興味深いものでした。
主な結果として、彼らの比較的小規模なS1 32bモデルが、数学の問題においてo1プレビューを最大27%上回りました。これは小規模なモデルでありながら、最新のモデル(o3は恐らくこれを上回りますが)に近い性能を達成したということです。
これは推論モデルで、最終的な回答を出す前に推論の過程をたどります。彼らが行ったのは、単純にモデルに重みトークンを追加し、思考の終了を無視して推論を継続させるというものでした。例えばDeepSeekでは、thinkトークンという特別なトークンを使用して思考プロセスを示します。
このように重みトークンを追加するだけで、パフォーマンスを大幅に向上させることができました。X軸にトークン単位での平均思考時間、Y軸に精度をとったグラフを見ると、思考時間を増やすことで最終的な問題の精度との間に明確な関係があることがわかります。
これは、LLMが最初に登場した時に人々が発見した「ステップバイステップで考えてみましょう」というプロンプトに似ています。「この答えが正しければ200ドル払います」とか「答えを出す前にステップバイステップで解決策を考えてください」というプロンプトを加えることで、魔法のようにパフォーマンスが向上したのを覚えているでしょう。
同様の結果で、この重みトークンを追加し推論の長さを増やすことで、最終的な応答の精度が向上します。これが、テストタイム・スケーリングの最もシンプルで明確な説明だと思います。推論の時間、つまりトークン数を増やすことで、パフォーマンスを向上させることができるという考え方です。
そうそう、バレンタインデーですね。
次にOpenAIの競技プログラミングに関する論文を見ていきましょう。他のOpenAIの論文と同様に、詳細をあまり明かさず、一般的なベンチマークを示すだけで、具体的な手法についてはぼかしているように見えます。しかし、これはOpenAIらしいですね。
この論文からのグラフを見ると、テストタイム・スケーリングの考え方がよく分かります。Y軸にo1のmath精度、X軸に対数スケールでの学習時間計算量をとっています。実際はもっと急な曲線なのですが、対数スケールにすることで直線的に見えます。
これは数年前に話題になった、典型的な学習時間、つまり事前学習のスケーリングを示しています。より大きなデータセットを使い、より大きなバッチでより大きなモデルに長時間学習させることで、よりスマートなモデル、つまり一発で正解を出せるモデルが得られるということです。
ここでの「一発で正解」という精度は、モデルが最初の試行で正解を出せる能力を指します。なぜなら、これらのモデルはベンチマークでちょっとしたズルをすることがあるからです。
例えば、論文中でテストタイム戦略について説明している部分を見てみましょう。o1のテストタイム戦略では、国際数学オリンピックの問題をサブタスクに分解し、各サブタスクから1万個の解答をサンプリングし、クラスタリングと再ランク付けを行って最終的な解答を決定しています。
つまり、一つの問題に対して1万回も解答を試み、その中から正解を見つけ出すというアプローチです。モデルが一発で問題を解くのではなく、テストタイム戦略を使ってベンチマークをうまく攻略しているわけです。
次にo1のテストタイム精度を見てみましょう。X軸にテストタイム計算量、Y軸に一発正解率をとったグラフです。ここでも事前学習と同様の線形関係が見られます。実際、テストタイム計算量の方が事前学習計算量よりも効果が大きいように見えます。
つまり、推論の過程に時間をかけることで、事前学習に時間をかけるよりも効率的にモデルの性能を向上させることができるということです。これは重要な示唆を持っています。
事前学習計算量をスケールアップするには、巨大な計算クラスタが必要です。例えば、Stargateと呼ばれる巨大なデータセンターでは、複雑なネットワークで接続された大量のGPUを使って、巨大なモデルに勾配を流し込んでいます。
事前学習のスケーリングは非常に複複雑で、多額の設備投資(CAPEXと呼ばれる物理的な資産への投資)が必要です。一方、テストタイムの計算量は、エッジ、つまりユーザーのスマートフォンやコンピュータ上で実行できるため、スケーリングがはるかに容易です。
エッジには既に大量の未使用の計算リソースが存在します。分散学習のような手法はありますが、一般的に事前学習には巨大なデータセンターが必要です。一方、テストタイム計算量のスケーリングは、スマートフォンやロボット上で少し長く実行するだけで実現できます。これは良いトレンドだと思います。
NVIDIAのGPUカーネルに関するレポートについても見ましたね。今週、コード生成モデルをループに入れて、コードを書き、評価し、修正するというプロセスを繰り返す様子が公開されました。このような総当たり的な探索プロセス(進化的プロセスと考えることもできます)によって、人間の専門家が設計するよりも優れたGPUカーネルを生成できることが示されました。
私も以前、同様の直感を持っていて、AGI Challengeに同じような戦略を適用しようとしました。LLMにコードを書かせ、最終的なスコアを取得し、Hyperoptやwandb sweepsのようなハイパーパラメータ探索機能を使って、コードの探索空間を総当たり的に探索するというアプローチです。
NVIDIAのGPUカーネル探索ほどの規模では実施できませんでしたが、これは「苦い教訓」を示しています。最適なプログラムは探索によって見つけることができ、最初から完璧な解答を出せる神のようなAIは必要ないということです。1万回試行すれば、その中に最適な解決策が含まれているはずです。
次に「1BパラメータのLLMは45BパラメータのLLMを超えられるか？」という論文を見てみましょう。1Bモデルは基本的にスマートフォンで実行できるのに対し、405Bモデルは一般的な消費者向けGPUでは実行できず、高性能なGPUや複数のGPUを搭載したシステムが必要です。
つまり、スマートフォンで動くモデルがサーバーラックを必要とするモデルを超えられるのか？という問いです。この論文では、実際にそれが可能であることを示しています。
結果を見ると、DeepSeek R1 distill 1.5Bが、Math500とAM24でo1プレビューを上回り、o1 miniを超えています。モデルサイズを見ると、1.5Bに対してOpenAIのモデルはサイズ不明(Unk)となっています。これは実際のモデルサイズが公開されていないためです。
3B distillは、LLaMA 3.1を命令調整してチャットボット化し、さらにDeepSeekで蒸留したものです。スコアを見ると、はるかに大きなモデルを上回っています。確かに、これは非常に限定的なベンチマークでの結果で、1.5Bモデルを数学以外で評価すれば、o1モデルよりも大幅に性能が低下するでしょう。
しかし、1.5Bのモデルでこれほどの性能が出せるということは印象的です。これは、10億個の重みから現在よりもはるかに多くの可能性を引き出せることを示しています。現在は、学習時間計算量とモデルサイズのスケーリング曲線を信じて、単にパラメータサイズを増やしているだけですが、まだまだ効率化の余地があります。
私たちは、エッジデバイス、つまりスマートフォンやRaspberry Piでも動作する、信じられないほど知的なモデルの世界に向かっています。Raspberry Pi上で動作する人工超知能を想像してみてください。その方向に向かっているのです。
この論文でのテストタイム・スケーリングは、単に推論のトークン数を増やすことを指すのではなく、少し異なるタイプのテストタイム計算戦略を指しています。OpenAIが言うところのテストタイム戦略です。
彼らが行っているのは、自己回帰的サンプリングの際に最適なトークン選択方法を見つけることです。モデルは全てのトークンに対する確率分布を出力し、その中から一つを選ぶ必要があります。その選び方にはいくつかの方法があります。
例えば、n-bestでは、ポリシーモデルがn個の応答を生成し、スコアリングや投票で選択します。PRMと呼ばれるプロセス報酬モデルを使って、4つの可能な経路のうちどれが最も可能性が高いかを判断するわけです。
投票方法も似たようなアプローチで、複数のモデルがどの経路が最適かを投票し、最も多くの合意が得られた経路を選択します。ビームサーチも人気がありますが、これは次のステップを原子的に選ぶのではなく、先を見据えた少し洗練された方法です。
ビームサーチは光線のように考えることができ、ビーム幅は考慮する選択肢の数、深さは探索する範囲を表します。ビーム幅nのビームサーチでは、ポリシーモデルがn個のステップを生成し、PRMと同様の検証器がどの経路が良いかを判断します。この過程を最大深さに達するまで繰り返します。
これにより、他の経路よりも良い解答にたどり着くことができます。図で示すと、緑の点をたどる経路は赤の点をたどる経路よりも良い結果になります。多様な検証器ツリー探索は、ビームサーチのさらに洗練されたバリエーションですが、詳細には立ち入らないでおきましょう。
770 1.5Bはquenから蒸留されたものについて言及がありましたね。このDeepSeek R1 distill 1.5Bは、実際にはquenモデルをベースに、大規模なDeepSeek R1(サーバーラックが必要なような大きなモデル)から蒸留されたものです。
元のquen 1.5Bの知識は一部残っていますが、DeepSeek R1からの勾配によってその多くが上書きされています。いわばDeepSeek R1の模倣者と考えることができます。
この論文から興味深い結果を見てみましょう。テストタイム・スケーリング(TTS)はLLMの推論能力を大幅に向上させますが、ポリシーモデルのパラメータ数が増えるにつれて、TTSの改善効果は徐々に低下します。これは、TTSの効果がポリシーモデルの推論能力と直接関係していることを示唆しています。
具体的には、推論能力の弱いモデルではテストタイム計算量のスケーリングで大幅な改善が見られますが、推論能力の強いモデルでは改善の余地が限られています。
ここでのTTSは、単に推論の長さを増やすことではなく、モデルが生成しうる解の木の中から探索とフィルタリングを行うという考え方を指しています。つまり、quen 1.5B instructやdistillのような非常に小さなモデルでも、正解に至る推論の道筋は既に内部に存在するのです。
しかし、その正しい推論の道筋が自然に選択されるわけではありません。テストタイム戦略を使って正しい推論の道筋を見つけ、それをたどる必要があります。正解が存在しないわけではなく、テストタイム計算量を使って正解を見つけ出す必要があるのです。
そのため、cootでの性能が31%なのに対し、計算量最適化TTSを使用すると76%まで向上します。この探索、つまり解の木を探索して正解を見つけることで大幅な性能向上が得られます。
しかし、モデルが大きくなるにつれ、例えば72Bモデルではcootで83%、TTSで91%と、性能向上の幅は小さくなります。これは、モデルが大きくなり推論能力が強くなるにつれて、解の木の探索が不要になっていくことを示しています。
特にDeepSeekのような強化学習(RL)で訓練されたモデルでは、正しい経路を選択する能力が既に組み込まれているため、テストタイム計算量を使って複雑なビームサーチや多様な検証器ツリー探索を行う必要性が低くなります。
RLを使用したモデルでは、モデルがテストタイムの推論戦略を自律的に開発し実行する能力を獲得します。つまり、o3のような大規模モデルではビームサーチが不要になり、モデルが生成する推論の道筋が自然と正解にたどり着くようになるのです。
計算量最適化TTSと単純な思考連鎖の性能差は、どんどん小さくなっていきます。私の予測では、このような手法は徐々に消えていくでしょう。ディープラーニングでは、当初は複雑な手法が使われますが、時間とともにシンプルになっていく傾向があります。
これも「苦い教訓」の一つの現れで、過度に工学的で複雑なものは時間とともにシンプルになっていきます。この例でも、複雑なテストタイム・スケーリングや解の木の探索が、モデルの知能が向上するにつれて不要になり、推論パイプラインが単純化されていくのが分かります。
Grock 3の登場を待っているという意見がありましたね。私もAnthropicのモデルを待っています。OpenAIとDeepSeekが推論モデルをリリースした今、AnthropicとxAIも近々推論モデルをリリースするでしょう。existentialな問題になってきています。
Grock 3については、非常に賢いという評価と、そうでもないという評価が混在しているので、実際のところはわかりません。
この論文からもう一つ重要なグラフを見てみましょう。最適なTTS手法は、問題の難しさによって異なります。簡単な問題にはBが効果的で、難しい問題にはビームサーチが効果的です。
このグラフでは、異なるモデルが異なる問題に取り組む様子が示されており、計算量最適化TTSが問題とモデルサイズに依存することがわかります。これは何を意味するのでしょうか。
事前学習計算量やテストタイム計算量には明確な関係があります。事前学習計算量を増やせば一発正解率は必ず向上し、テストタイム計算量を増やしても一発正解率は必ず向上します。これらの関係は普遍的なスケーリング則(「則」は少し強い表現かもしれません。「仮説」の方が適切かもしれません)のように見えます。
しかし、このようなハイパーパラメータが「ここでは良いが、あそこでは悪い」「n-bestが良い場合もあれば、ビームサーチが良い場合もある」「DVTSが良い場合もある」というような関係を見ると、このアルゴリズムに根本的な関係性がないことを示唆しています。
「それは場合による」という状況に陥ると、それは一種の罠です。各問題タイプに対して異なるテストタイム手法を持つというのは、過度に複雑化しているように思えます。このような混在した結果は、そこに根本的なものがないことを示唆しています。
これは、推論モデルにRLを適用すれば、問題のタイプやモデルサイズ、実行ハードウェアに依存するような過度な工学的最適化は不要になることを示唆しています。単純化と改善を同時に達成できるのです。
「無駄な躊躇が多い」というコメントがありましたが、私のことでしょうか、それともモデルのことでしょうか。
ベンチマークの実施方法を学ぶリソースについて質問がありました。現在は様々な評価フレームワークがあります。OpenAIやLuther AIが人気のフレームワークを提供しています。独自のベンチマーク・フレームワークを書く必要はないでしょう。
思考の軌跡に繰り返しペナルティを与えて、行き詰まりの軌跡を減らさないのかという質問については、ある程度それは行われています。DeepSeekでこれらの推論の軌跡にRLを適用する際、GPOは実際に多くの経路をサンプリングし、どの経路が良くてどの経路が悪いかを判断しています。
そして強化学習を使って、良い経路を強化し、悪い経路を弱めています。「これは良い経路なので続けなさい」「これは悪い経路なので避けなさい」というように。RLは効果的にこれを行っていますが、テストタイム時ではなく学習時に行うのです。
ビームサーチをテストタイム時に実行する必要はなく、RLで学習する際に行えば、モデルは正しい経路を選択する能力をより内部に組み込むことができます。
最近のlong coot(思考連鎖)ベースの手法は大きな進歩を見せています。DeepSeekの論文を参照すると、計算量最適化TTSはMCTSで生成したデータに直接RLやSFTを適用する方法よりも効果的ですが、強力な推論モデルからの蒸留よりは効果が劣ります。
つまり、小規模なモデルにRLを適用してパフォーマンスを向上させようとしても、TTSほどの効果は得られません。しかし、小規模なモデルに大規模な推論モデルの知能を蒸留すると、TTSよりも効果的です。
少し複雑な関係性がありますが、重要なのは、DeepSeek R1から蒸留されたquen 7Bが92.63%、instruction tuningされたquen 7Bが91.36%という結果です。DeepSeek R1から蒸留する方が、ビームサーチなどで生成したデータでRLやSFTを行うよりも、より知的なquen 7Bが得られることがわかります。
これは将来に向けてどういう意味を持つのでしょうか。私の解釈では、RLは小規模なモデルに対して行うべきではないということです。1Bモデルに対してGPO形式のRLを適用しても、大規模モデルにGPO RLを適用して、そのRLで強化された大規模モデルを小規模モデルに蒸留するほどの効果は得られません。
つまり、企業は巨大なデータセンターで大規模モデルにRLを適用し、そのモデルを小規模モデルに蒸留して消費者に提供することになるでしょう。消費者自身が小規模モデルを蒸留するようなことは行われないでしょう。
DwaresポッドキャストでのJeff DeanとNoam Shazirのエピソードを見てみましょう。両者ともヘビーヒッターです。Jeff Deanは有名なプログラマーで、Noam Shazirはアテンション論文の著者の一人で、長年MLに携わってきた人物です。
彼らは蒸留について重要な指摘をしています。蒸留は非常に有用なツールで、現在のアーキテクチャ形式のモデルを別の形式に変換することができます。巨大な有機的なものから、効率的にサービス提供できることが分かっているものへと変換できます。
蒸留の魔法的な点は、アーキテクチャに依存しないことです。600B程度の巨大なDeepSeekモデルと、まったく異なるアーキテクチャを持つquen 1Bの間で、巨大なモデルの知能を小規模なモデルに蒸留することができます。
これは当たり前のように扱われていますが、ディープラーニングの不思議な特性です。大手企業が本当にやりたいのは、巨大なモデルをサービス提供することです。複数のGPUに分割して、この巨大なものでバッチ推論を行うのは非常に複雑で高コストです。
しかし、効率的にサービス提供できるモデルを設計することができます。TPUに完璧にフィットする小規模なモデルを設計し、そのアーキテクチャのすべての特徴を効率的なサービス提供のために最適化します。そして、RLで訓練した巨大なモデル(読み込むだけでも100個のGPUが必要)から、推論クラスタの1つのTPUに完璧にフィットする小規模なモデルへと蒸留するのです。
これが今後のトレンドになると思います。蒸留によって、巨大なクラスタで訓練やRLに適したアーキテクチャと、推論に適したアーキテクチャ(最終的にはスマートフォンにフィットすることが理想)を分離することができます。
Noamがこの点について話す際、「このblobを」と言って手を広げ、「あなたの電話に」と言って手を寄せるジェスチャーをしています。これが彼らの目指す方向性です。すべての研究所が、スマートフォンで動作し、スマートフォン向けに最適化されたモデルを目指しています。
そのモデルにRLを適用しても賢くはなりません。スマートフォン上のモデルを賢くする唯一の方法は、大規模なモデルから蒸留することです。
小規模モデルにRLが必要かという質問については、この論文のデータを見る限り、小規模モデルでGPOを行う必要はないと思います。RLは大規模モデルで行い、それを小規模モデルに蒸留すれば良いでしょう。
ただし、ディープラーニングに限らず、科学全般において固定的な意見を持つべきではありません。現在の意見は、新しい論文が3本出ただけで来週には変わるかもしれません。データに応じて柔軟に考えを変える必要があります。
現時点で見えているのは、RLは大規模モデルで行い、それを小規模モデルに蒸留するということです。
蒸留について、ほとんどの方は既にご存知かもしれませんが、基本的な考え方を説明します。特別な設定が必要な巨大なTPUでしか動作しない複雑なアーキテクチャの大規模モデルがあり、Apple社のハードウェアに特化したスマートフォン向けの学生モデルがあります。
知識を小規模なモデルに蒸留することができます。小規模なモデルは大規模なモデルと全く同じようには動作しませんが、非常に近い性能を発揮します。この知識の転移と組み込みは魔法のようですが、もう一つ重要な点があります。
それは、これはモデルである必要がないということです。蒸留の図や説明では常に、大規模モデルと小規模モデルの関係として説明されますが、実際にはモデルである必要はありません。
これは実質的に教師あり学習の一種です。大規模モデルがデータセットを作成していて、入力と出力があります。蒸留は、この入力に対してこの出力を生成すべきという、一種の教師あり学習です。実際の正解ではなく、大規模モデルが生成した出力を「正解」として扱うのです。
つまり、大規模モデルの代わりに、パイプライン全体を小規模モデルに蒸留することもできます。例えば、4つの異なるモデルを持つ巨大なマルチモーダルRAGパイプラインがあり、様々な計算リソースで実行され、データベースから情報を取得しているとします。このパイプライン全体を小規模モデルに蒸留することができます。
Jeff Deanが「有機的なもの」について話す時、これを指していると思います。ポッドキャストでの別のヒントもあります。Dweshが専門家の混合(Mixture of Experts)について質問した際、Jeff Deanは「猫を識別するのが得意なものと、数学が得意な別のもの」と答えています。
これは奇妙です。なぜなら、専門家の混合はそのようには機能しないからです。DeepSeekなどでの専門家の混合は、複数の専門家が別々のモデルではなく、単にフィードフォワードブロックが分かれているだけです。ルーターがトークンを異なるフィードフォワードブロックに振り分けます。
元の専門家混合の論文を見ると、各トークンが最初の専門家の選択で色分けされており、専門家の選択は領域よりも構文に沿っています。専門家の混合では、ある専門家が数学が得意で、別の専門家が英語が得意というわけではありません。
むしろブラックボックスで、専門家は様々なものの奇妙な部分を保存しています。インデントには一つの専門家が使われ、イコール記号は時にブルーの専門家、時にグリーンの専門家が使われ、専門家は常に変化しています。
専門家の混合は、大規模なモデルを小規模なGPUで提供するためのトリックのようなものです。バッチ推論の仕組み上、ユーザーが同じことを求めることは少ないため、このトリックを使って大規模なモデルでバッチリクエストを効率的に処理できます。
しかし、Jeff Deanが話しているのはこれとは異なります。猫の識別が得意なものは一種のCVモデル、数学が得意なものは推論モデルです。全く異なる種類のモデルについて話しているのです。
Jeff Deanは愚かではありません。専門家の混合について理解しているはずです。私が思うに、彼が本当に指しているのは、マルチモーダル・マルチモデルのパイプラインを単一のモデルに蒸留するというアイデアです。
彼の考えでは、推論モデル、猫検出モデル、セグメンテーションモデルなど、5つの異なるモデルを含むパイプラインを小規模なモデルに蒸留できるということです。
これは2021年に彼が発表した「Pathways: 次世代AIアーキテクチャ」というアイデアにも通じています。異なるモデルがあり、単一のモデルと呼んでいますが、専門家の混合のような単一のモデル(異なるFFNブロックを持つ文字通り1つのモデル)ではないと思います。
彼が話しているのは、より大きな計算グラフ内の複数の異なるモデルです。Jeff Deanのような人物にとって、1つの巨大な計算グラフ内の複数のモデルは「単一のモデル」として数えられるのです。
私の解釈が深読みかもしれませんが、マルチモデルパイプラインから単一のモデルへの蒸留について彼が話す時、これを指していると思います。セグメンテーションモデルと推論モデルを使って、スマートフォンで動作する小規模なマルチモーダルモデルに蒸留することができます。
奇妙に聞こえるかもしれませんが、これは実際に可能です。
スマートフォンでコーディングモデルはどれくらい優れたものになるかという質問については、かなり良くなると思います。大胆な予測をすれば、今年末までにはスマートフォンで動作し、コーディングにおいて人間を上回るモデルが登場するでしょう。それほど突飛な予測でもありません。
OpenAIの論文からもう一つの引用を見てみましょう。o3はより洞察力があり、意識的な思考の連鎖を示します。これは先ほど見たように、複雑なテストタイム戦略は不要で、RLによってモデルが正しい経路を選択することを学習するということです。
しかし、モデルは公開テストケースに対してコードを書いて実行し、検証に基づいてアプローチを改善します。ここでのキーワードは「コードを書いて実行する」という点です。
これまでDeepSeekのような推論モデルでは、推論はトークン空間に限定されていました。より多くの計算を使用できますが、それは単に他のトークンとKVキャッシュに存在するトークンを生成することに限られていました。
しかし、さらに進んで、「考える」から「道具を使う」へと移行することができます。モデルがトークンを生成するだけでなく、テストタイム計算量に道具の使用も含まれる強化学習プロセスを想像してみてください。
道具の使用には、電卓を使ったり、Pythonプロセスを起動して特定のコードを実行し、その結果を推論の連鎖に戻すことなどが含まれます。
これは今年見られるようになると思います。RLで訓練されたモデルが、推論の軌跡を改善するだけでなく、外部の道具を呼び出すことができるようになります。DeepSeekが電卓を呼び出せるようになることを想像してみてください。
これは複雑で、単一の統一されたモデルという考え方から、より複雑なパイプラインへと移行することを人々は好まないかもしれません。しかし、それが進む方向だと思います。
数学の問題の解答をトークン空間だけで得ることに制限する必要はありません。道具を使用する能力を与え、RLを使ってこれらの道具の使用と選択を改善すれば、性能の向上は現在のトークン空間での制限よりもはるかに大きくなるでしょう。
次の論文「自己改善型トランスフォーマーが簡単から難しいへの一般化と長さの一般化の課題を克服する」を見てみましょう。これはこれまで話してきたものとは少し異なりますが、重要です。
カーネギーメロン大学の研究です(私はカーネギーメロンに少し偏っているかもしれません)。基本的なアイデアは、迷路を通り抜けるような単純な問題を扱っています。
まず、初期の訓練データセットで学習します。その後、分布内のデータ(訓練セット内の迷路)と分布外のデータ(訓練セット外の迷路)で予測を収集します。つまり、モデルの一般化能力をテストしているわけです。
解答を収集し、多数決や長さを使って良い解答と悪い解答をフィルタリングします。例えば、新しい迷路で10回試行して、6回は非常に長い経路、3回は終点に到達せず、1回だけ到達したとします。
これらをランク付けやソートして、良い迷路の解き方と悪い迷路の解き方というデータセットを作成します。これはGPOに似ています。そして、そのデータセットで学習を行います。
効果的に自分自身のデータセットを作成し、それを学習に使用する能力は、現在行われているGPOのようなRLのアイデアに非常に似ています。
この論文では、トランスフォーマーが示す興味深い現象である「超越」について述べています。超越とは、学生モデルが教師が訓練時に提供したデータの難しさを少し一般化する能力です。
単純な問題で訓練されたモデルが、より難しい問題の正しい出力を生成できることがあります。論文ではこの特性を利用して自己改善のフレームワークを適用しています。
これは人類の文化でも長い間見られてきた現象です。例えば、男子100メートル走の金メダル記録を見てみましょう。走り方が向上し、子供たちにより良い走り方を教えることで、タイムは徐々に改善されてきました。これは、このアプローチが機能することの証明です。
一部の人々は、これは機能しないと考えています。情報理論における熱力学第二法則のような、ある種のハードコードされた信念を持っているのです。彼らは、知能を蓄積することは不可能だと考えています。熱力学第二法則が基本的に熱は常に散逸し、すべてがより無秩序になることを保証するように、知能についても同様だと考えているのです。
モデルが出力を生成し、その出力で学習すると、出力は時間とともにより無作為になり、自身の出力から学習することで賢くなることはないと考えているのです。しかし、この論文や人類社会自体が示すように、出力をフィルタリングする能力があれば、むしろ熱力学第二法則とは逆の法則が存在するのです。情報の世界では、出力をフィルタリングし、それを学習することで、継続的に改善することができます。
私がよく使う思考実験があります。100人のアインシュタインを密閉された部屋に1000年間閉じ込め、お互いに通信はできるが外部からの測定はできない状況を想像してください。そして10年ごとにランダムに1人のアインシュタインを殺し、新しい白紙のアインシュタインが生まれるとします。この部屋は時間とともに賢くなるでしょうか?
一部の人々は「ノー」と答えるでしょう。科学が機能するためには外部からの測定が必要だと考えるからです。熱力学第二法則と同様に、知能を生み出すことはできず、すべては無秩序と知能の低下に向かうと考えるからです。
しかし、私はそうは思いません。情報理論においては、むしろ逆の効果があると考えています。徐々に知能を蓄積することができ、この論文が述べているように、学生が複数の教師から学ぶと、教師を超えて一般化できるという不思議な超越効果があるのです。
蒸留の考え方に立ち返ると、あなたの脳も実際には蒸留の産物です。様々な専門家からの蒸留の産物なのです。数学の教師、理科の教師、歴史の教師がいて、それぞれの教師は個々の科目についてはあなたより優れていましたが、彼らはゆっくりとあなたに知識を蒸留していきました。
一般的に、人類の各世代は前の世代よりも賢くなっています。これは実質的にこの現象の産物です。情報の世界では知能を蓄積できるという、法則とまでは言えないかもしれませんが、この考え方の産物なのです。
時間とともに自己改善するフライホイールを作ることができ、人類社会全体がそれが機能することの証明です。King Tutからの質問です – 「どうですか? 知能は負のエントロピーですよね」
そうですね、負のエントロピーは似たような考え方です。知能を蓄積できるという考え方で、実際にはほとんど法則のようなものに見えます。人類がある知能の閾値に達すると、そこからフライホイールに入り込み、より賢い人間を生み出さざるを得なくなります。そしてより賢い人間がAIを生み出し、AIも自己改善のフライホイールに入り込むのです。
つまり、より無秩序でより拡散したものになろうとする熱力学と、それと戦う負のエントロピー的な生命力の二重の性質があるのです。後者は、より知的になり、より多くのものを組織化する能力を持っています。
では、2つのデータセットフィルタリング方法の概要を見てみましょう。長さによるフィルタリングは、事前に定義された閾値より短い出力のデータポイントを除去します。多数決投票は、複数のモデルからの予測の合意に基づいてデータをフィルタリングします。
これが、分布外のデータに対する予測をフィルタリングするプロセスです。実際に科学的方法で起こることと似ています。科学的方法におけるピアレビューとは、一種の多数決投票フィルターです。研究を発表して、皆がその研究はダメだと思えば、ピアレビューは実質的にその論文を引用せず、その論文は多くの読者を得ることはありません。
つまり、人々が承認し、多く引用する論文が、蒸留データセットで学習に使用される論文となるのです。教師を超越できる理由は、あなたが学習したデータセットが、彼らが学習したデータセットより優れているからです。彼らは実質的にダメなものをフィルタリングし、良いものだけを学習しているのです。
次の世代を学習させる時も、ダメなものをフィルタリングし、良いものだけを教えます。これがスポーツも時間とともに向上する理由です。10年前、20年前に遡ると、ほとんどすべてのスポーツで技術レベルが低かったのです。現在プレーしている人々は、前の世代から良いスキルだけを学んでいるからです。すべてがこのような傾向に従っているのです。
もう1つ重要な点があります。フィルタリングなしで自己生成された学習データは、連続的なラウンドで劣化し、自己改善プロセスの崩壊につながります。対照的に、多数決投票はデータの品質を安定させ、モデルが一般化を継続できるようにします。
これは迷路の経路長で示されています。フィルタリングなしでデータを生成して学習を繰り返すと、ラウンド1、ラウンド5、ラウンド10、ラウンド15、ラウンド19と進むにつれて、精度が低下していきます。生成して学習、生成して学習を繰り返すと、ラウンドを重ねるごとに悪化していくのです。
しかし、データをフィルタリングすれば、連続的なラウンドでより賢くなっていきます。ラウンド1の黄色い線は経路長15以上の迷路は解けませんが、ラウンド10の青い線では経路長25の迷路も解けるようになっています。
この超越効果には、フィルタリングが鍵となります。フィルタリングがなければ、時間とともに向上することはありません。そしてフィルタリングは多数決投票でも可能です。
強化学習の議論でよく話題になりますが、強化学習には環境からの報酬信号が必要だと言われています。しかしGRPOが示し、人類社会が示しているのは、その信号は物を作り出している人よりも知的である必要はないということです。
環境から報酬関数を得なくても時間とともに改善できるのです。あなたと同じくらい賢い100人のアインシュタインと話し合うだけでも、時間とともに成長できる信号を得ることができます。
これは以前私が言っていたことと矛盾するかもしれません。以前は、タスクを検証し、効果的に知能を向上させるには何らかの外部信号が必要だという考えでした。しかし実際にやっていることは、環境や世界から情報を収集しているのです。
環境からの報酬信号は必要ありません。自分自身を複製して複数のコピーを作り、出力のランダム性に頼るだけでいいのです。これらのモデルは、あなたのコピーであっても、時には同意し、時には同意しないでしょう。100個のコピーがあれば、多数決投票によってあなたより高い知能の信号を得ることができます。
これは、Michael Levinの集合知の考え方に似てきます。10個の愚かなものを組み合わせて、より賢いものを作ることができるのです。知能は、たとえそのグループが互いより賢くなくても、グループから収穫できる負のエントロピーの一種の創発的な信号なのです。
ACY scoresが的確な指摘をしています。「外部測定が不要なら、検証不可能な領域でもRLは同様に機能するのでは?」そうですね、それが正しい結論です。
以前のストリームでは、数学やコーディングのような、環境から結果や報酬信号を得られる分野でしかRLはできないと話していました。哲学には正解が環境からは得られないので、永遠に回り続けて前に進めないと。
しかし、それが間違いかもしれません。1003個のモデルを用意して、新しい哲学的アイデアを考え出させ、お互いのアイデアを評価させ、良いと思われたアイデアを学習し、そのプロセスを繰り返せば、超人的な哲学モデルができるかもしれません。
私は自分の直感を再評価し始めています。より主観的なもの、例えば詩などでも超人的なパフォーマンスを得られるかもしれません。人類は時間とともに詩が上手くなったのでしょうか?私はそう思います。
詩の純粋主義者の中には、昔の方が良い詩だったと感じる人もいるかもしれません。しかし、何百年もの間、人々が詩を作り、これは良い詩、これは悪い詩と判断し、新しい世代が良い詩だけを学び、そのプロセスを繰り返してきた結果、おそらく詩は向上してきたのです。
その知能はどこから来ているのでしょうか?それは集合知、ハイブマインドの集合知から来ているのです。ハイブマインドは個人より知的なので、個人はハイブマインドから蒸留することができ、時間とともに個人は賢くなります。それはハイブマインドも賢くなることを意味します。なぜならハイブマインドは個人で構成されているからです。「ホメロスは今でも巨人だ」という意見もありますが、私は詩にはあまり詳しくないので実際のところは分かりません。
では、この論文に入っていきましょう。ここから面白くなります。「想像しながら推論する:思考の多モーダルな視覚化」です。
これまで見てきた思考の連鎖は、すべてトークン空間にありました。問題を解く時、長い推論の軌跡をたどりますが、それぞれの単語は、実際には単語の小さな塊ですが、トークンなのです。辞書や語彙の中から可能な10万個の単語の1つです。
つまり、正解に到達するためには、このトークン空間の中で推論の軌跡を見つけなければなりません。しかし、それは制限が多すぎるのではないでしょうか?なぜトークン空間に限定するのでしょうか?
この論文は、マルチモーダルな思考の連鎖という考え方を導入しています。思考の視覚化と呼んでいます。直接プロンプトを与えると、入力シーケンスを受け取り、モデルは自己回帰的に出力シーケンスを生成します。
テスト時にビーム探索を使って正しい経路を選択するかもしれませんし、思考の連鎖を下って答えに到達するまで、単にYOLOモードで貪欲にサンプリングするかもしれません。思考の連鎖では、出力を得る前により長い思考の連鎖を生成することで、テスト時の計算量を増やします。
多モーダルな思考の視覚化の場合、まだ少し不満が残ります。なぜなら基本的にはまだ言語的思考を行っていますが、その言語的思考を使って画像生成モデルを条件付けし、画像生成モデルが画像を生成します。
その画像は特徴埋め込みに変換され、視覚言語モデルが画像エンコーダーからの出力を視覚トークンに変換するのと同様にトークン化されます。これらの視覚トークンを戻して入力し、思考の連鎖を続けていきます。
基本的には言語的な思考の連鎖と似ていますが、視覚トークンを追加したものです。この論文では、これらの小さなテスト環境、つまり小さな迷路などで、パフォーマンスが向上することを示しています。言語的な思考の連鎖だけに限定されていると、視覚的な思考を加えた場合ほど多くの問題を解くことはできません。
これは理にかなっていますが、この論文はまだ始まりに過ぎません。非常に小さな問題を扱い、7Bという小さなモデルを使用しているからです。これは視覚的な思考の連鎖というアイデアの始まりに過ぎないのです。
これは、インターネット上で話題になった「ワードセル」対「シェイプローテーター」という議論と興味深い並行関係があります。ワードセルは主に言葉やアイデアで考える人のことで、言語や抽象的推論、議論が得意です。シェイプローテーターは主に画像や空間的な観点で考える人で、物体を視覚化したり、形を心の中で回転させたりするのが得意です。
この場合、ワードセルは内部モノローグが基本的に言葉である人です。自分自身と話をして、最終的に正解にたどり着く人です。一方、シェイプローテーターは言葉ではなく、より視覚的な形で考える人です。
シェイプローテーターはワードセルほど賢くないという含意がありますが、私はワードセルほど賢くないシェイプローテーターも知っています。私自身はシェイプローテーター寄りだと考えています。例えば、子供の頃にレゴで多く遊んだことがあり、それが私の内部モノローグを、必ずしも言葉ではなく、より抽象的な視覚的モチーフにする要因となっています。
しかし、「あなたの中はどのように見えますか?あなたであることはどのように感じますか?」と尋ねると、頭の中で自分自身と話をしているような内部モノローグがあると答える人に会ったことがあります。それは私にとってはとても異質に感じます。
実際、多くの点で、シェイプローテーターはより原始的な思考形態だと考えています。以前も言ったかもしれませんが、猫のことを考えてみてください。猫はワードセルではなく、シェイプローテーターだと思います。
猫がキャットタワーに登ろうと考えているとき、そのルートをどのように考えているかというと、一種の内部映画のようなものです。猫は「ここに移動して、ここからここにジャンプする必要がある」と考えていますが、それを言葉で言っているわけではありません。その能力さえないのです。
実際、内部モノローグを持つワードセルという概念は非常に最近のものです。言語を発見してから、人間はこのタイプの脳を持つことができるようになりましたが、それまでは、そして基本的に他のすべての動物は、シェイプローテーターなのです。
しかし、これらの思考タイプはどちらも、新しい思考タイプと比べると劣っています。ワードセルとシェイプローテーターがあり、そして私が「潜在的ウィーバー」と呼ぶものがあります。
潜在的ウィーバーについて説明するために、この論文を見てみましょう。「潜在的推論による試験時計算のスケールアップ:再帰的深度アプローチ」です。
この論文では、長い思考の連鎖で言語化することでテスト時の推論をスケールアップする代わりに、モデルは完全に潜在空間での推論によって改善します。長い思考の連鎖を下っていくのではなく、各推論トークンやテスト時に費やす計算は、トークン語彙に限定された言語トークンを作成するのではありません。
代わりに、この連続的な潜在空間で推論が行われることを可能にします。この論文から、それをうまく指摘している部分を引用します：「高価な内部推論は常に、単一の言語化された次のトークンに投影されなければならず、それは無駄です」
なぜそのような制約があるのでしょうか?なぜモデルを言語の世界に、ワードセルであることを強制するのでしょうか?本当に必要なのは、潜在的ウィーバーになる能力を与えることです。モデルが連続的な潜在空間で自然に考えることができれば、より有能になる可能性があります。
この論文の興味深い画像をいくつか見てみましょう。ここでは特定のトークンがあり、彼らのモデルの仕組みは基本的に再帰型ニューラルネットワークですが、まずモデルについて説明しましょう。
モデルは主にデコーダーのみのTransformerブロックで構成されています。最初のブロックは前奏で、入力データを潜在空間に埋め込みます。入力データであるトークンのシーケンスを取り、この埋め込みを作成します。これは単なる高次元ベクトル、つまり巨大なベクトルの中の大量の浮動小数点数です。この連続的な潜在空間を取り、再帰的ブロックに渡します。
この再帰的ブロックは、その埋め込みと、n0という基本的にノイズを取ります。これは標準偏差を持つ0を中心とした正規分布です。拡散モデルのように、開始するためにある程度のノイズを必要とする、同じような考え方です。
ランダムなノイズから始めて、この埋め込みを取り、再帰的ブロックに供給し、別の状態を生成します。それを再び埋め込みで条件付けし、再び供給し、再び供給し、再び供給します。これが再帰の考え方で、この計算を何度も繰り返すのです。
これは基本的に推論ですが、トークン空間ではなく、この埋め込み空間での推論です。このS1を実際の単語、実際のトークンにする必要はありません。それは何らかのランダムなベクトルです。そのベクトルを取って別のベクトルを作り、そのベクトルを取って別のベクトルを作り、そのベクトルを取って別のベクトルを作ります。
そして最終的に、それを単語に戻す必要があり、それがこのコーダCの役割です。これは潜在空間から複数の層を使用して解除し、モデルの予測ヘッドも含んでいます。予測ヘッドは、実際に理解できる単語の確率分布を生成する層です。
再帰的反復の数と入力トークンのシーケンスが与えられると、出力確率pを得ます。入力Xを前奏に供給して埋め込みにし、ノイズをサンプリングし、そのノイズSI I-1と埋め込みを取り、再帰的ブロックに入れ、それをR回行い、最終的にSrを得ます。
そのSrを取り、コーダCに入れます。ここにタイプミスがあるようですね。Rではなく、Cのはずだとみなさんがおっしゃっているようです。なぜなら、Srを取り、再帰的ブロックを再度実行するのではなく、実際にはCを実行するからです。これはタイプミスですね。そして最終的なトークンであるpを生成します。
これを考える別の興味深い方法があります。このモデルは実際には8つの実層しか持っていませんが、再帰的ブロックが反復されると、効果的な深さが132層に展開され、固定深度のTransformerよりも深い計算チェーンを構築できます。
Transformerには固定数の層があります。ここに戻って、このLLM Transformerの視覚化を見てみましょう。毎回このストリームで見せるべきでしたね。しかし、ここでトークンになっていますが、ここを過ぎると、もはやトークンではありません。
今や潜在空間にあり、この計算を実行しています。実際に起こっているのは、この物事のベクトルを取り、別の物事のベクトルに変換し、さらに別の物事のベクトルに変換しているのです。
その変換を行う回数は、Transformerの層の数に基づいています。Transformerは各トークンに対して固定量の計算を実行しますが、これらの再帰的モデルでは、各トークンに対して可変量の計算を実行できます。
なぜなら、このR世界に入り、同じことをしているからです。物事のベクトルがあり、計算を実行し、別の物事のベクトルを生成します。つまり、これらの再帰的モデルは、可変数の層を持つ可変深度のTransformerと考えることができます。
可変である理由は、このR値が変化するからです。このR値が常に同じなら、その深さは単にRの値になりますが、彼らはこのRを変更しています。再帰の数Rは可変で、フォワードパス中に変化する可能性があります。
かなり大きな反復回数を取る場合もあります。これは可変テスト時計算の能力を持っていると考えることができます。テスト時計算は固定ではなく、この小さな再帰ブロックを繰り返し実行したい場合、より多くの計算を費やすことができ、最終的により良い答えを得られる可能性が高いのです。
「より多くの計算を費やして問題についてより多く推論すれば、より良い答えが得られる」という同じ関係がここにもあります。ただし、固定長や固定深度のTransformerで大量のトークンを生成するのではなく、代わりにこれらの再帰的ブロックの可変量を持つのです。
しかし、重要なことがあります。これは再帰的ニューラルネットワークのアキレス腱となってきました。再帰的ニューラルネットワークを学習させる時、勾配はここから来ます。正しい単語があり、出力した単語があったとして、その勾配を押し込みたい場合、展開と呼ばれる処理を行う必要があります。
基本的に、勾配を押し込み、ここに押し込み、ここに押し込み、ここに押し込み、ここに押し込み、というように進めていく必要があります。これは非常に面倒な場合があります。このチェーンが100個あれば、勾配を押し込むために100個すべてをメモリに入れる必要があります。
そのため、再帰的ニューラルネットワークの学習は、勾配を無限長のチェーンに押し込む可能性があるため、非常に遅くなる可能性があります。通常、人々は切り捨てバックプロパゲーションと呼ばれる方法を使用します。これはRNNでよく行われ、ここでも使用されます。
最後のK回の反復についてのみバックプロパゲートします。Rが125の場合、最後の8回までしか勾配を押し込まず、基本的にここまでしか勾配を押し込みません。最初のRにあった勾配は実際には押し込まないのです。
これは少しトリッキーですが、うまく機能し、再帰的ニューラルネットワークの学習に関する問題を解決します。
では、この画像を見てみましょう。この推論は実際にどのように見えるのでしょうか?トークン空間での推論の特徴の1つは、実際に推論を見ることができることです。トークンなので理解できるのです。「数を数える過程を分解してみましょう」というように、その思考を読むことができます。
ここにアナロジーがあります。ワードセルの場合、そのワードセルがどのように特定の結論に至ったかを理解できる可能性があります。内部モノローグが言語空間にあり、それを理解できるからです。
しかし、シェイプローテーターの思考過程を理解しようとすると、簡単には理解できないため、より複雑になります。これらの再帰的または潜在的推論モデルにも同様の問題があります。
潜在空間での推論は、より連続的でより多くの可能性を持ち、より興味深い推論の軌跡を持つことができます。制約が少ないため、より多くのことができますが、それは同時に何をしているのか全く分からないということも意味します。
これは、この論文の人々が実際に何をしているのか見ようとする試みです。多くのトークンは単に固定点に収束します。上の行のトークンのようにです。
これはPCAと呼ばれる次元削減技術です。この推論空間、この埋め込み空間は2次元以上です。128次元くらいですが、紙の上に128次元のプロットを作ることはできません。そこで、この次元削減技術を使用して2次元にし、プロットできるようにしています。
ここで見えるのは、このモデルの推論の連鎖です。これが最初の推論トークンです。まさに最初に、ランダムなノイズから始まり、ここから始まり、再帰的ブロックを通して供給すると、ここに到達し、そしてここに到達し、ここに到達します。収束していく様子が分かります。
この連鎖は非常に長いものの、最後の数回の再帰的ブロックでは、すでに決定を下しています。最終的なSrがどうなるかをすでに知っているので、それをCに供給して実際のトークンを生成する埋め込みの周りをホバリングし始めます。
これは固定点に収束するという考え方ですが、他の奇妙な挙動もあります。その1つはループです。そこにとどまり、突然ループを始めます。繰り返し続けるのです。
長い100個のチェーンがあり、最後の50から100の間、そこにとどまって、このパターンを繰り返し、このパターンを繰り返し、このパターンを繰り返し、このパターンを繰り返します。
もう1つは「スライダー」と呼ばれるもので、軌跡が明らかにドリフトします。モデルはこれを使って、何回反復が行われたかを数えるメカニズムを実装できます。
実際には、ここで何が起こっているのか分かりません。これは潜在空間での推論であり、それが何なのか分かりません。骨格を見て、私たちなりの考えを思いつくことはできますが、モデルが実際に何をしているのかは分かりません。
しかし、これはかなり cool なアイデアだと思います。例えば、モデルが数を数える方法の1つとして、トークン空間では文字通り見ることができます。「first R」、「second R」、「third R」と言っているのが分かります。これらの中間トークンの目的は数を数えることです。
数え方を発見したのですが、潜在空間でモデルはどのように数を数えることを学習したのでしょうか?これが彼らがやっていることかもしれません。潜在空間の1つの特定の方向で値を増やすことで、数を追跡しているのです。
潜在空間の特定のベクトル、特定の方向があり、「ここで数を追跡する必要がある」と決定し、この潜在空間でこの値を基本的に増やすことで追跡します。
これは、数学の天才児がいて、手を使って物事を追跡する独特の方法を持っているのを見たことがありませんか?頭の中で算盤をしているようなものですが、文字通り手を使って機械的に処理を進めていきます。
これはまさに同じことですが、言語モデルなのです。潜在空間で推論する再帰的深層学習モデルで、最終的な答えにたどり着くために、その潜在空間でほぼ機械的な方法を発見したのです。とても cool ですね。「潜在的算盤」そうです、本当に cool な stuff です。
まとめましょう。再帰的深度アプローチ、潜在空間での再帰の考え方は、基本的にLSTMです。この人物、LSTMを作った人について、名前の発音は試みませんが、彼はドイツ人です。実は、ドイツ人かオーストリア人か分かりません。私にとって、これらのバイエルン人は同じように見えます。
このポッドキャストで彼は、「LSTMはRNNで、MambaはLSTMだ」と話しています。彼の説明によると、アテンションでは新しい情報があり、それを以前のすべての項目と照らし合わせる必要があります。LSTMではメモリとの定数的な相互作用だけです。
これらの異なる再帰的アーキテクチャ、RNN、LSTM、GRU、上にあるMambaを本当によく見ると、すべて同じアイデアを持っています。この種の隠れ状態、メモリ、固定サイズのものを前に渡し続けるということです。
ここではE、このS1は言語モデルではそのように機能しません。純粋なTransformerでは、このアテンションマップがあり、アテンションマップはゆっくりとサイズが大きくなっていきます。アテンションの仕組みでは、より多くのトークンを蓄積し始めるにつれて、KVキャッシュが大きくなっていきます。
1000長のシーケンスを見たい場合、そのシーケンス全体とのすべての個々のペアワイズ相互作用を見る必要があります。対して、LSTM、RNN、Mambaでは、比較対象は大きくなりません。代わりに固定サイズです。メモリとの定数的な相互作用です。
これは、RNN、LSTM、Mambaが基本的に無限の長さの計算を持つことができることを意味します。もちろん他の要因があるので完全に無限ではありませんが、スケーリングは大幅に改善されます。
これを示すプロットがあります。これは正確な比較ではありませんが、アテンションではシーケンス長が増加するにつれて、ミリ秒、おおよそ計算量と考えることができますが、二次的なスケーリングになることが分かります。すべての項目間の相互作用を計算するのが、より困難になっていきます。
対して、LSTMやMambaのような、この固定メモリを持つものは、より線形的です。制御不能に成長することはありません。
アナロジーとして、Transformerは列車のようなものです。多くのものを詰め込むことができ、常に新しい車両を追加し、さらに追加し、さらに追加して、より多くのものを詰め込むことができます。
LSTM、RNNは自動車のようなものです。固定サイズで、ある意味ではより良いです。小さいからです。しかし、この固定サイズの制限があるため、より多くのものを入力するたびに、他のものを忘れる可能性があります。限られた空間があるので、何かをより重要にすると、他の何かがより重要でなくなります。
彼が言ったことでもう1つ興味深いことがあります。「o1はインファレンス側でより多くのことをしているが、LSTMの方が100倍速くなるだろう。100倍多くの思考ができる」
これは非常に重要だと思います。なぜなら、このストリームの最初で、テスト時の計算量とpass@1の精度には非常に明確な関係があることを見たからです。この推論の軌跡でより多くの計算を費やすほど、より良いパフォーマンスが得られます。
everyone は推論の軌跡を大きくしようとしています。より大きく、より大きく、より多くを費やそうとしています。しかし、現在のモデルはすべてアテンションを使用するTransformerなので、これを大きくすることは、そのモデルに費やすメモリを増やし続ける必要があることを意味します。
例えば、モデルに質問するたびに、この推論の軌跡に1000万トークンが必要な世界に移行する場合、機能しません。エッジデバイスのメモリは、100万の異なる推論の軌跡トークンを保持する巨大なKVキャッシュを保持するのに十分ではなくなるでしょう。
そのため、テスト時の計算は、アテンションの標準的な古典的なメカニズムよりも、RNNやLSTMのようなものを選好する大きな理由となる可能性が高いです。推論の軌跡の長さを増やすとパフォーマンスが向上しますが、推論の軌跡の長さを増やすと、必要なメモリと計算量が大幅に増加します。
代わりに、この種の潜在空間で推論するLSTMを使用するとどうでしょうか?確かに、ある種の損失があります。ここにある情報は、ここに到達する頃には忘れられています。100倍長いチェーンを持つことができます。100倍長いチェーンです。
LSTMが少し情報を忘れてしまう、少し損失が生じるという事実は、長さを増やすことで得られるパフォーマンスの向上を相殺するのでしょうか?まだ解明する必要がありますが、もし解明できれば、大きな影響を持つ可能性があります。
なぜなら、スマートフォンやロボットのようなエッジデバイスでは、推論はトークン空間ではなく、潜在空間で行われることを意味するからです。
ロボットはワードセルにはなりません。何かを頼まれて、頭の中で1万行の推論の軌跡を作成し、それを実際に印刷して読むことができるようなことはしません。代わりに、この種の潜在的な織り込みをより多く行います。多くのステップで考え、非常に長い推論の軌跡を持ちますが、その非常に長い推論の軌跡はすべて、LSTMを使用して何らかの潜在空間の中にあります。
潜在空間での推論モデルからのもう1つの興味深い影響があります。ここに彼らが述べている小さな感覚があります：「再帰的深度ネットワークは、標準的なTransformerよりもパラメータあたりより多くのフロップを実行し、スケールでのアクセラレータ間の通信コストを大幅に削減します。これにより、より遅い相互接続でトレーニングする際のデバイス利用率が向上します」
彼らが話しているのは、これらの巨大なクラスターでTransformerをトレーニングする時、連鎖の最も弱い部分は実際の計算を行うチップではないということです。実際の行列乗算ではありません。
連鎖の最も弱い部分は、行列乗算を行って答えを得た後、その答えをデータセンターの反対側にある別のGPUに送信し、何かが返ってくるのを待たなければならないということです。
これは問題です。なぜなら、大規模な分散システムでのトレーニングを目指す場合、非常に高速なネットワーク速度に依存するアルゴリズムは持てないからです。
しかし、再帰的深度やLSTMのようなものでは、1つの出力を生成して、他の誰かが出力の他の半分を提供するのを待つ必要はありません。何らかのモデル並列化やテンソル並列化を行っている場合、多くの部分を自分自身で行うことができます。
1つの出力を作成したら、それを再度行い、再度行い、再度行い、再度行うことができます。この長い再帰的推論チェーンは、より多くのGPU間の通信速度に依存するTransformerよりも、よりローカルに行うことができます。
私たちが、現在の古典的なアテンションTransformerではなく、このタイプのアーキテクチャがデフォルトモデルとなる世界に移行した場合、ロボット工学を改善するだけでなく、非常に高速なネットワークを持つ巨大なデータセンターではなく、分散システムでトレーニングが行われる可能性も高まります。
これらが、潜在空間での推論とこれらのアーキテクチャが特に得意とする2つの重要な影響だと考えました。それらが特に得意で、結果的にそれを支配することになれば、より多くの分散トレーニングも見ることになるでしょう。
以上です。質問を確認するのを忘れていました。Conwayの図形、潜在的算盤、Schmidhuberは近頃見かけませんね。実際にSchmidhuberを懐かしむ人はいるのでしょうか。
LSTMのトレーニングは遅く、推論は速いですが、Transformerはその逆です。これは教師強制のためです。おそらくこれのハイブリッドバージョンを持つことになるでしょう。
例えば、Transformer自体、「Attention is All You Need」という元の論文、それがAttentionと呼ばれる理由は、以前は人々がLSTMと組み合わせてAttentionを使用していたからです。それが以前のやり方でした。両方を組み合わせていました。
そして誰かが「待てよ、このLSTMを取り除いて…おお、Attentionだけで機能する」と気付き、そのため論文は「Attention is All You Need」と名付けられました。
しかし、実は「RNNやLSTM、GRUのようなものを入れるのは良いアイデアだった」という考えに戻りつつあります。なぜなら、トークンごとに非常に長い推論計算、望むだけの計算を効果的に行う能力があるからです。固定的な計算ではありません。
他に質問はありますか? Mamba 2とRW KV? はい、それらは他の線形アテンション変種です。
まとめましょう。今日は、テストタイムスケーリングについて話しました。テストタイムスケーリングとは、推論またはテスト時に使用する計算量を増やすことで、最終的な答えの精度を向上させるという考え方です。様々な論文を見てきましたが、これが実際の新しいスケーリング則であることがますます明確になってきています。
トレーニング時の計算量をスケールアップして精度を向上させるだけでなく、テスト時の計算量もスケールアップして精度を向上させることができます。
また、ツリーを作成したり、探索したり、複数のサンプリングを行ったりするような、より洗練されたテスト時のアプローチの多くは、必ずしも必要ではないことを示す論文も見ました。RLでこれらの推論モデルを訓練すると、正しいものを選択することが上手くなります。
また、蒸留が単なる大きなモデルを小さなモデルに模倣させるトリックではなく、より複雑なパイプラインを1つの小さなモデルに蒸留する方法として登場してきていることも分かりました。
自己改善とそのループについても話しました。モデルが時間とともに賢くなれるという考え方には、何も問題がないようです。自分自身の出力を使用し、自分自身に基づく多数決投票でフィルタリングする限り、時間とともに賢くなることができます。私が呼ぶところの熱力学第二法則の逆のようなものです。
現在、あなたが対話する推論モデルはすべて、トークン空間で推論を行っています。ある意味、ワードセルであることを強制されているのです。しかし、視覚空間で推論するモデル、さらには潜在空間で推論する洗練されたモデルが登場し始めています。
確かに、この推論の軌跡を理解するのが難しくなるというデメリットはあります。このようなモデルのプロセス報酬モデルを作成することは意味をなさないでしょう。しかし、潜在空間で推論するモデルには多くの利点があり、大規模な分散トレーニングやハードウェアのフットプリントが制限されたロボットのような他のトレンドとうまく組み合わさると考えています。
潜在空間で推論するモデルをより多く見ることになり、そのために特化したハードウェアも見ることになるでしょう。以上が要約です。
最後に一つ言いたいことがあります。しばらくストリームを休むことになるかもしれません。家族の個人的な理由もありますが、もう少し時間を使いたいプロジェクトもあります。YouTubeは楽しかったですが、すべてのものには始まりと終わりがあり、LLMやAIがすべてを代わりにできるようになった今、私が価値を提供していると正当化するのが難しくなってきています。
この時点で、これらの論文をLLMに入力すれば、私よりもずっと良い要約を得ることができます。私は人間なので、間違ったことを言うかもしれませんし、私の意見は意味をなさないかもしれません。
数年間、この論文の読み合わせをしてきましたが、他のことに集中するために手放してもいい時期に来たと感じています。戻ってこないとは言いませんし、おそらく戻ってくると思いますが、違う形、違う形態になるかもしれません。違うフォーマットで何か違うことをするかもしれません。
このフォーマットに少し疲れてきました。得るものは得ましたが、Discordでは引き続きアクティブにしていきます。少し休憩が必要なだけです。
みなさんの愛に感謝します。画面を切り替えて、みなさんの顔を見させてください。Nods、Acme scores、Ed prou、Saskia、Binks、Dan、Lil km、Aries、Daniel、King Tutt、Brian、C4 770、PR、Farooq、Mark、Richard、THU、Daniel、Ed、Chillin him、みなさんに感謝します。
みなさん、良い時を過ごしてください。特異点に近づいています。もうすぐ終わりです。そうすれば、残りの人生を楽しむことができます。みなさん楽しんでください。また会いましょう。ピース。