新しいAIモデル、トークンを一切使用せずに「思考」する

6,601 文字

新しい研究論文が発表され、大規模言語モデルが一つのトークンも出力することなく内部で思考できることが示されました。皆さんはテストタイム時のChain of Thought（思考の連鎖）についてはよくご存知かもしれません。これらは新しい思考モデルで、その思考過程は内部の独り言として読み取ることができます。しかし、この新しいアプローチでは、思考は潜在空間で行われ、つまりモデルの内部で一つのトークンも出力することなく行われます。これはChain of Thoughtとは大きく異なり、言葉だけでは表現できない問題に取り組む可能性を秘めています。
この論文について説明する前に、メタのチーフAIサイエンティストであるヤン・ルクンが大規模言語モデルの限界について語っていることをお見せしたいと思います。彼はAIの分野における第一人者の一人で、大規模言語モデルは人間のように推論や計画を立てることができないと最も強く主張している声の一人です。これは言語だけで物事を表現することの限界によるものです。
レックス・フリードマンのポッドキャストでのインタビューで、彼は次のように説明しています。このようなタイプのモデルがあれば、計画を立てることができます。つまり、LLMができないこと、つまり特定の結果に到達したり、特定の目的を満たしたりするための計画を立てることができます。例えば、このような物体があって手を開けば落ちると予測できます。また、テーブルの上で特定の力で押せば動くでしょう。しかし、テーブル自体を同じ力で押しても、おそらく動かないでしょう。私たちの心の中には、特定の目標に到達するための一連の行動を計画できる、このような世界の内部モデルがあるのです。
つまり、彼が本質的に言っているのは、真の推論モデル、私たちの周りの世界を実際に理解できるモデルを持つためには、言語で表現できること以上のものが必要だということです。もちろん、彼には独自の考えがありますが、それは今日のビデオの目的ではありません。彼の主張は、言語モデルだけでは真の計画立案と真の推論に到達するには不十分だということです。
彼のインタビューは、思考モデルの現象が本格的に主流になる前に録画されたことに注意してください。もちろん、彼はおそらくすでに思考モデル、テストタイム時の計算、Chain of Thoughtについて知っていたでしょう。これら全てを知っていても、まだそれでは不十分だと考えているのです。
私にとって、Chain of Thoughtを見て、モデルが最終的な出力を与える前に実際に行っている推論のステップを見ると、かなり説得力があります。しかし、彼は納得していません。
彼は次のように説明します。私たちは流暢さに騙されているのです。システムが言語を操作することに長けていれば、人間の知能の全ての特徴を持っていると思い込んでしまいますが、その印象は間違っています。
彼はそこで明確に述べています。私たちは、これらの大規模言語モデルが言語を操作すること、私たちが知りたいことを教えてくれることに非常に優れているという事実に騙されているのですが、それ自体は真の推論と真の論理には不十分だと。しかし、私はまた、実際にChain of Thoughtを読んで推論パターンを見ることができることに立ち返ります。
もちろん、彼がまだ正しい可能性はあります。Chain of Thoughtは本当に単なる言語操作なので、誰にもわかりません。そのインタビューからもう一つのクリップをお見せしてから、論文に入りましょう。
彼は言います。生成モデルを使って現実世界の良い表現を学習できないという十分な証拠があります。私は皆さんに言っています。生成AIについて話している全ての人に。もし本当に人間レベルのAIに興味があるなら、生成AIのアイデアを放棄してください。
彼はそこで言いました。生成AIのアイデアを放棄しろと。これは最近の進歩を考えると非常に驚くべきことです。彼はこの考えでは少数派です。主要なAI企業は明らかに、言語モデルだけを使って、AGIやASI、真の推論、真の論理、現実世界の真の表現に到達できると信じています。Chain of Thoughtとテストタイムでのコンピューティングがそれに到達するために必要な最後のレバーのように見えます。しかし、彼はそうは考えていません。
では、この論文をお見せしましょう。なぜなら、これは実際に彼が大規模言語モデルに欠けていると話していたものかもしれないからです。
論文のタイトルは「潜在的推論によるテストタイムコンピューティングのスケールアップ：再帰的深さアプローチ」です。この論文の著者たちが発見したのは、モデルが潜在空間で思考できるということです。つまり、一つのトークンも出力する前に、モデルの内部で思考を行うことができ、これがヤン・ルクンが真の推論と真の計画モデルに必要だと考えている欠けているピースかもしれません。
このタイプのアーキテクチャは、モデルが内部で思考し、その思考をスケールアップすることを可能にします。その仕組みと彼らが発見したことを説明しましょう。
要約では、この新しい言語モデルアーキテクチャは、潜在空間で暗黙的に推論することでテストタイムの計算をスケールアップできると述べています。このモデルは再帰的ブロックを繰り返すことで動作し、それによってテストタイム時に任意の深さまで展開できます。
彼らはモデルの中に隠れたブロックを持っており、これは最終的な答えに到達するまで無限に思考を深めることができ、これは全てテストタイム時に起こります。これが重要な部分です。これは、より多くのトークンを生成することで計算をスケールアップする主流の推論モデルとは対照的です。
現在の思考モデルの波は、テストタイム時にChain of Thoughtを使用し、Chain of Thoughtは文字通りトークンを出力し、それらのトークンを修正し、それらのトークンを振り返るだけであることを覚えておいてください。これらの思考モデルで出力されるトークンの数は、従来の非思考モデルよりもはるかに多くなっています。
この新しいアプローチには多くの利点があります。特別な訓練データを必要としません。これが何を意味するのかは後で説明します。Chain of Thoughtや、巨大なコンテキストウィンドウを必要とする現在の思考モデルのような大きなコンテキストウィンドウは必要ありません。そして最も重要で興味深いのは、言葉だけでは簡単に表現できない異なるタイプの推論を捉えることができるということです。
そして再び、ヤン・ルクンの大規模言語モデルに対する主な反論は、言葉だけで現実世界を完全に表現することはできないということで、おそらくこれがその解決策かもしれません。
彼らはこれらの技術の一部を実証するための35億パラメータのプルーフオブコンセプトモデルを作成しました。
一歩下がって、これがどのように機能し、何を意味するのかについて話しましょう。人間の思考がどのように機能するのかについて考えてみましょう。答えの最初の言葉が発せられる前に、脳内で複雑な再帰的な発火パターンを通じて相当量の思考が行われます。
現在のChain of Thoughtについて考えてみると、それは即座に出力しています。Chain of Thoughtでさえ、思考は出力とともに行われます。声に出して考えているか、心の中で考えていますが、言語が思考プロセスの最初のものとなっています。
しかし、それは必ずしもそうではありません。単語を一つも使わずに多くの思考が行われます。単語を一つも頭の中で言わずに、または言葉で表現せずに、異なるトピックや異なる状況を概念化することができます。実際、これは内部の独り言を持たない人々を思い出させます。彼らはどのように考えるのでしょうか？彼らは考えることができ、言語は一切使用しません。
最近、研究者たちはテストタイム時の計算をスケールアップすることでモデルの推論能力を向上させる方法を探ってきました。これらが思考モデルです。DeepSeek R1、o1、o3です。主流のアプローチは、長いChain of Thoughtの例でモデルを事後訓練し、コンテキストウィンドウ内で中間的な計算を言語化する能力を開発し、それによって思考を外部化するというものです。
つまり、モデルに思考を教えるために多くの例が必要だと言っています。しかし、バークレーの博士課程の学生が、わずか30ドルで本質的にモデルの思考行動を引き出すことができたことを考えると、少し混乱します。彼は思考の例をたくさん必要とせず、検証可能な報酬を伴う強化学習を使用しました。おそらくこの論文はその例の前に書かれたのかもしれません。
しかし、高価な内部推論を常に単一の言語化された次のトークンに投影しなければならないという制約は無駄に見えます。モデルが連続的な潜在空間で自然に考えることができれば、より有能になる可能性があります。
つまり、再び、内部思考、言語なし、最初のトークンが出力される前に問題について考えることができるということです。これは新しい発見ではありません。このアイデアは機械学習の基礎的なものであり、再帰的ニューラルネットワーク、拡散モデル、ユニバーサルまたはループ型トランスフォーマーなど、あらゆる10年で再発見されています。
テストタイム時に何が起こっているのかを説明しましょう。モデルは潜在空間での再帰的推論を通じてその性能を向上させることができます。再帰的推論とは、同じ問題について何度も何度も考えることができることを意味し、潜在空間とは、それらのトークンを出力する必要なく内部で行われることを意味します。これにより、より多くのパラメータと訓練データから恩恵を受ける他のオープンソースモデルと競合することができます。
この新しい技術はより効率的です。いくつかの利点について話しましょう。再帰的層により、トランスフォーマーモデルはトークンを出力する前に任意の量の計算を実行できます。
潜在的推論の利点の一つは、特別な訓練データの構築を必要としないことです。先ほど話したように、従来、モデルを思考モデルにする場合、思考の方法について多くの例が必要でした。しかし、検証可能な報酬を伴う強化学習の小規模な例により、モデルに明示的に思考の方法を教えることなく思考を開始させることができることをすでに見てきました。これは彼らが言っていることとは異なります。それがスケールアップするかどうかはわかりませんが、すでに複数の例を見てきました。
次に、潜在的推論モデルは、Chain of Thought推論モデルよりも訓練と推論のためのメモリが少なくて済みます。これは、Chain of Thoughtと従来の思考モデルが多くのトークンを必要とし、そのためにコンテキストウィンドウが非常に大きくなければならず、それが計算的に非常に高価になるためです。
再帰的深さネットワークは、標準的なトランスフォーマーよりもパラメータあたりのフロップス（計算量として考えてください）を多く実行し、スケール時のアクセラレータ（GPUを意味します）間の通信コストを大幅に削減します。つまり、基本的に、複数のGPUを接続する必要があるよりも、単一のGPUをより活用できるということです。
次に、計算が重く、パラメータ数が少ないアーキテクチャを構築することで、記憶ではなく、思考によって、メタ戦略、論理、抽象化を学習することで問題を解決するモデルに向けた強い事前確率を設定することを期待しています。
これも重要な要素です。従来の大規模言語モデルでは、情報を記憶しており、その訓練データ外への一般化能力についてはまだ議論と論争の対象となっています。多くの人々が、モデルは訓練データ外に一般化できないと言っており、これは真の人工汎用知能ではないことを意味しますが、この新しい技術でそれが可能になるかもしれません。
それでは、どのように機能するのか見てみましょう。これはテストタイム時の動作です。「hello」という入力があり、その後に再帰的ブロックがあります。これは反復的な段階で、次に何を出力するか、永遠に考え続けることができます。そして最終的に「world」という実際の出力が得られます。なぜなら「hello world」だからです。
これらの緑色のブロックがモデルの思考部分で、一つのトークンが出力される前に行われます。これが「world」、最初のトークンが出力されるところで、全ての思考がその前に行われることがわかります。
実際に機能することの証明をお見せしましょう。このグラフのY軸は性能、つまり出力がどれだけ良いかを示しており、X軸にはテストタイム時の再帰、基本的にトークンが実際に出力される前の思考量を示しています。異なる評価指標としてHSwag、GSM8K、HumanEvalがあり、4回、8回、16回、32回、64回と思考を重ねるにつれて、その思考時間中のパフォーマンスが向上し続けることがわかります。
これが証明です。モデル内部でトークンを生成せずに行う思考が多ければ多いほど、次に生成されるトークンのパフォーマンスが向上します。実際、これらは異なるベンチマークに対するもので、一般的な総合的な答えと言うべきでしょう。
また、これらのモデルに投入される訓練トークンが多ければ多いほど、パフォーマンスが向上することも見られます。しかし、これは全てのトランスフォーマーモデルの仕組みであり、スケーリング則です。ここでも同じことが見られ、1000億、2000億、3000億から8000億トークンまで、パフォーマンスは向上し続けます。
もう一つ興味深いことは、手元のタスクに応じて使用する計算量を決定できることです。Chain of Thoughtと同様に、より長く考えたり、より短く考えたりすることができ、これは効率性を最適化する本当に良い方法です。
これが図10で見られることです。左から右に、高校数学、哲学、論理的誤謬、道徳的シナリオがあります。高校数学では、X軸に計算量を、Y軸にモデルが正解に到達するためにそれだけのステップを必要とする頻度を示しています。
高校数学では多くのステップを必要とせず、かなり早く良い答えにたどり着きます。哲学ではより多くのステップが必要になり始め、論理的誤謬ではさらに多く、道徳的シナリオではさらに多くのステップが必要です。つまり、高校数学のような単純なタスクではそれほど多くのステップを必要とせず、より複雑なタスクではより多くのステップが必要になります。これは人間として問題について考えるときにまさに行うことです。単純な問題であれば長く考える必要はなく、より複雑な問題であればおそらくより多く考えるでしょう。
興味深いことに、潜在空間での思考というこの技術は、テストタイム時のChain of Thoughtと実際のトークンの使用を否定するものではありません。これらの異なる手法を組み合わせることができます。トークンを一切生成せずに初期の思考を行い、最終的に生成する際にはそれらのトークンを生成して追加の思考を使用することができます。
本当に難しい問題をどのように解決するか考えてみてください。おそらく頭の中で考え、何かを書き留め、さらに考え、書かれたものを反復し、問題が解決するまでそのプロセスを続けるでしょう。これら二つの技術、潜在的思考とトークンベースの実際の思考を組み合わせることで、非常に強力になり、人間の思考方法を反映することができると思います。
これは非常に魅力的な発見です。これはプルーフオブコンセプトで、モデルをダウンロードして自分で試すことができます。これらの論文が非常に魅力的なので、皆さんにも楽しんでいただけたと思います。この動画を楽しんでいただけたなら、「いいね」とチャンネル登録を検討していただければと思います。次回の動画でまたお会いしましょう。