AI 2.0: AIの新しいコアとは

9,581 文字

After focusing the last 2 years on RL and TTS advanced reasoning models, now the moment has come: design the next genera...

こんにちはコミュニティの皆さん、今日も戻ってきてくれて嬉しいです。今日は次世代AIのための新しいコアを開発しました。前回の動画でお話ししたように、現在私たちは研究の全力を強化学習マルチエージェントフレームワークに注いでいます。これは大規模言語モデルのトレーニングスペクトルの終わりに位置し、最終的には推論トレースなどを修正しようとしています。前回の動画では、テスト時のスケーリングコンピュートと推論モデルを使っても、そのすべての推論プロセスはベースモデルによって定義され、事前トレーニングデータセットによって定義されていることをお見せしました。
特に昨日正式バージョンとしてリリースされた最新のqwq 32bを見ると、強化学習の力を活用しています。この強化学習パラダイムのスケーリングが、スペクトルの終端で起こっている理由については説明済みです。しかし、qetエージェントやビジョン言語モデルのための報酬モデルなど、これらの素晴らしいアイデアはすべて、復旦大学、スタンフォード大学、上海大学、プリンストン大学、カカラン大学、清華大学の努力によるものですが、みんなが「私たちはAIシステム、LLM、マルチエージェントシステムの学習曲線の間違った終端にいる」と感じていると言います。なぜなら、この洞察をトレーニングフェーズの最初、LLMの事前トレーニングに置くべきだからです。
今日、MIT EIラボとハーバード大学による新しい研究があります。彼らはまさにこのアイデアに焦点を当てています。過去2週間の私の動画で、これらの素晴らしい大学と素晴らしい博士課程の研究を見てきましたが、今こそ次のステップに進むときです。過去2週間を振り返ると、これらはすべてAIバージョン1.9、1.92、1.93でした。しかし今、終わりに修正する必要がある理由を理解し、推論のための正しい学習パスを最初から実装できるようになりました。
では、この動画を開き、最新のAI研究を一緒に探求しましょう。MITとハーバードは「推論のための事前トレーニングが次世代AIシステムの新しいパラダイムだ」と言います。彼らは最初から強化学習を使用し、これが広く使われている次トークン予測事前トレーニング（ほとんどすべてのシステムで使用されている古典的な事前トレーニング）の代替手段だと説明します。MITとハーバードは、強化学習の推論プライアーを学習するために、合成タスクのカリキュラム（非常に簡単なタスクから始めて、だんだん難しくなるもの）を使用しています。そして第三のポイントとして、より一般化可能な推論機能を学習します。これは前回の動画のトピックでした。私たちには天才の閃きが必要なのです。
それでは始めましょう。ハーバードは「特定の難解なプログラミング言語でアルゴリズムタスクを設計する」と言います。これは単なる遊びの言語で、推論を記憶から分離するためのものです。私たちのLLMでは常に「モデルは本当に推論しているのか、それとも古い事前トレーニングデータを記憶しているだけなのか」という問題があります。MITは「結果は、最先端のLLMでも、アルゴリズムの理解を新しいプログラミング構文のコーディングに転用するのに苦労している」と述べています。つまり、本当の推論ではなく、記憶の度合いが高いということです。
彼らは「現在のLLMの推論能力を超えるには、事前トレーニングパラダイムの根本的な転換が必要だと仮説を立てる」と続けます。これは興味深い点です。彼らは異なる視点、異なる次元から来ていますが、私の過去4つの動画と同じトピック、同じポイントで完全に収束しています。その理由として彼らが主張するのは、古典的な事前トレーニングデータのテキスト文章には数学的問題の記述と最終的な答えが含まれることがあっても、解決策に至るステップバイステップの導出が省略されていることが多いからです。
これまでは、この長いコンテキスト推論を教師付き微調整や強化学習フェーズで行ってきましたが、これを事前トレーニングフェーズに実装したらどうでしょうか？トレーニングスペクトルの最後での問題を取り除くことができるでしょう。彼らは「次トークン予測損失と『受動的に収集されたインターネットデータ』（インターネットの文字列コピーと言えるでしょう）での教師付き事前トレーニングという支配的なアプローチを超えて行くことを仮説として立てる」と言い、その後に古典的な強化ベースのポストトレーニングが続きます。すべての推論モデルはこのポストトレーニングに依存しています。
彼らは「これは2016年のAlpha Goの方法論と密接に似ている」と言います。アルファゴのアルゴリズムのコードを見ると、2016年からの最新のパラダイム、つまり次トークン予測損失での教師付き事前トレーニングの後に強化学習ポストトレーニングが続くという方法が分かります。しかし、わずか1年後の2017年にこのパラダイムはAlpha Zeroによって覆されました。Google DeepMindは、教師付き事前トレーニングなしのゼロからの強化学習が優れたパフォーマンスを達成することを実証しました。
私たちコミュニティは2016年のアーキテクチャに留まり、2017年のAlpha Zeroによるゼロからの洞察を取り入れず、古いアーキテクチャ、古いスキームに固執してきたことは驚くべきことです。そして今、MITとハーバードは「自己対戦のみに頼り、ランダムな初期化から始めることで、Alpha Zeroはより効率的で創造的な戦略を純粋な強化学習で発見し、Alpha Goを上回った」と言います。
これは有用でしたが、注意深く見てください。私はGoogle DeepMindの2017年10月の元の発表「Alpha Go Zero: Starting from scratch」に戻りました。そこでは約40日間の自己学習アルゴリズムが示されています。x軸には40日あり、40日目には通常のプレイヤーを超え、16-17日目には大マスターを超え、その後は人間の能力を超えていきました。しかし注意が必要です。これはゲームであり、完全な複雑さは二次元の球体で、可能な組み合わせの数は限られていました（小さくはないですが限られています）。人間の自然言語、英語やドイツ語やスペイン語などは、はるかに複雑で、より多くのニュアンスがあります。これは簡単な環境でした。
それでは核心的なアイデアに進みましょう。すでに核心的なアイデアをお見せしましたが、MITとハーバードの考えに沿って、Google DeepMindのAlpha Zeroの開発を見ていきましょう。彼らは「現在のAIシステムにおいて、インターネットスケールデータでの次トークン予測トレーニング（つまりインターネットの文字列コピー）は、言語モデルの推論能力のローカルミニマムを構築している可能性がある」と述べています。
これは、超平面を考えると、どこかにローカルミニマムがあり、ポストトレーニング強化学習ではそこから簡単に抜け出せないということです。つまり、ポストトレーニング強化学習は、知識要素をローカルミニマムから本当の解決策であるグローバルミニマムへとカタパルトするほど強力ではないということです。これは問題を見る興味深い方法です。
彼らは「知識と推論を意図的に分離することが重要だ」と言い、後で2分間でこれについて話しますが、「LLMが記憶されたパターンとは独立に堅牢な推論を開発できるようにする」としています。彼らが言うのは「推論と知識（記憶されたパターン）は一緒に属さない、それらを分離し、何が起こるかを調査する」ということです。彼らは「私たちのトランスフォーマーへのアーキテクチャ修正を提案し、推論システムが新しく追加された知識に柔軟に適応できるようにし、LLMが推論戦略を新しいドメインに一般化できるようにする」と言います。彼らはこれらを分離しました。
考えてみれば、それは事前トレーニングのデータの質に関するものです。古典的な方法では、例えば数字を掛け算するようにモデルをトレーニングする場合、答えが直接与えられた形式のデータを使います。MITは「そのようなデータを受動的データと呼び、それは人間の知識と推論の結果であるが、推論プロセス自体を包含していない」と言います。つまり、LLMが人間のデータ（インターネットの文字列コピー）で学習する場合、結果を導き出す推論プロセスを理解していないのです。
彼らは簡単な解決策として「推論アルゴリズム自体を詳述したデータでモデルをトレーニングすることを考える」と言います。最新の推論モデル（O01、O3、R1、qwq 32bなど）はすべて、どのように結論に至ったかの推論トレースを詳述しています。彼らは「モデルが推論トレースを明確に見ることができれば、基礎となるアルゴリズムを学習する可能性が高い」と仮説を立てます。そこで、大量の推論トレースデータを取得することが彼らが直面する課題となります。
彼らはこれを解決するために「データを生成するために強化学習を使用する」と言います。注意してください。私たちは事前トレーニングで強化学習を使用して推論アルゴリズムを作り出すのではなく、別の方法でこれを行います。ここでは、推論トレースを持つデータを生成するために強化学習を使用します。これをどのように行うのか？例えば正しい掛け算や勝利するAlpha Zeroなど、タスク報酬を最大化します。私はこれについて複数の動画を持っています。
彼らは「トレーニング（事前トレーニング）を反復的かつステップワイズな問題解決プロセスとして構造化することで、受動的データでの古典的な次トークン予測よりも、LLMモデルはより堅牢で一般化可能な推論能力を開発できる」と言います。そして、私たちは事前トレーニングデータで観察された奇妙なパターンに限定されず、インターネットデータでは利用できない推論トレースを見逃すこともありません。つまり、事前トレーニングの最初のステップで強化学習を使用し、特定の報酬関数（前回の動画で見たように非常に特定の報酬関数）で推論トレースを生成するだけです。
彼らはAI 2.0の新しいコアの開発を続け、「自然言語での平均的な人間の文章は約40,000トークンを含み、ゼロからの強化学習を行う場合」と言います。アルファ碁は二次元でしたが、今度は自由浮動する人間の言語空間でのトークンとなります。これは実現不可能です。そこで彼らは「私たちは数学者なので、反復法を使う」と言います。私たちは計算能力に応じた縮小されたトークン空間から始め、決して40,000トークンに近づかず、推論プライアーを学習するための鍵となる構造的特性を保持します。
この推論プライアーには、交換法則、結合法則、文脈学習、因果推論などの特定の機能的要素があります。彼らは「推論プライアーがAlpha Zeroのように縮小されたトークン空間で自ら学習する必要がある基本的な要素のセットがある」と言います。私たちは人間の言語トークンではなく、抽象的な数学的トークンについて話しているかもしれません。そして、タスクカリキュラムを通じてトークン空間と複雑さを徐々に増やすことができます。素晴らしいアイデアです！最大限に縮小し、縮小されたトークン空間を持ち、その中で論理の基本的な4〜5のルール、絶対的な最小限のセットを学習します。人間の論理的推論パターンではなく、抽象的な最小限のロジックセットについて話しています。
MITとハーバードが提案した知識と推論の分離において、彼らは「長いコンテキスト（例えば200万トークン）を使用してモデルをトレーニングする場合、コンテキストウィンドウが長いほど（1000万トークンの複数）、古典的な次トークン予測損失を最小化する際に、過去と未来のトークン間に因果関係がない相関が存在することがある」と言います。そこで彼らは「最も簡単な方法は、コンテキストウィンドウ内のトークンセットを大幅に縮小すること」と言います。200万や1000万のコンテキストサイズではなく、最小限のシステムを構築します。
トークンの非常に限られたセットだけを持つことで、トークン間の望ましくない相関を利用する可能性が減り、新しい知識ドメインに転送できるより堅牢な推論が促進されます。なぜなら、知識ドメインが縮小され、推論も縮小されるからです。私たちは英語の言語を導入していないかもしれませんが、抽象的な数学的構造の中にいます。これはAlpha ZeroとAlpha Goの視点から来ていますが、私の過去の動画と一致しています。
アーキテクチャを構築する必要がありますが、トランスフォーマー層のテンソル計算に固有の要素を分離すると、最も簡単な方法は「外部メモリを持つこと」です。「知識と推論を異なるモジュールに分解し、知識のためのメモリと推論プロセスのための推論ネットワークを持つ」と彼らは言います。シンプルです。そしてトークンコンテキストウィンドウを本当に小さくします。推論モデルは短いコンテキストウィンドウで動作するため、メモリとの間で情報を取得し書き込む必要があります。開発する必要がある最適化された方法論があります。CPUとメモリを持っているので、コンテキストウィンドウを縮小することはそれほど問題ではなく、LLMの外部メモリを構築することはエージェントには標準的です。
彼らは新しい表記法を導入しています。古典的な方法では、次トークン予測損失関数を使用したLLMのタスク非依存の事前トレーニングがあり、これを教師付き事前トレーニング（SPT）と呼びます。その後のトレーニングでこの目標を最適化し続けるものは教師付き微調整（SFT）と呼ばれ、その後DPO強化アラインメントなどが続きます。しかし、私たちは事前トレーニングの定式化と少し教師付き微調整に注目しています。
これが古い教師付き事前トレーニングと教師付き微調整です。新しい表記法に切り替えると、AI 2.0のコアを再定義し、強化学習に基づく報酬ベースの定式化を持ちます。この報酬ベースの目的で行われる事前トレーニングは「報酬ベース事前トレーニング（RPT）」と呼ばれます。これは理にかなっています。教師付き事前トレーニングから報酬ベース事前トレーニングへの変更です。そして、この報酬を最適化し続ける報酬ベース事前トレーニングに続く後続のトレーニングは「報酬ベース微調整（RFT）」と呼ばれます。今や私たちはRFTとRPTが何であるかを理解しています。
それでは事実に進みましょう。これは2025年2月の美しい研究で、マサチューセッツ工科大学のAIラボからのものです。そして驚くべきことに、ハーバード大学からは心理学部と脳科学センターが参加しています。これは奇妙です。なぜハーバードのAIではなく、心理学と脳科学なのでしょうか？過去2つの動画を見ていれば、なぜ私が過去数回の動画のコンテンツを選んだのかを理解できるでしょう。
彼らは「明示的な中間推論ステップを含む大規模トレーニングデータがない」と言います。過去4つの動画でのチェーン・オブ・ソートのトピックを覚えていますか？彼らは「まだこれを構築する方法が分からない」と言います。私は過去の動画でプリンストン大学からのReason Fluxをこの特定の問題を解決する方法として紹介しました。しかし今、MITとハーバードは「環境との相互作用を通じて、強化学習を使用してそのような推論トレースを生成することを提案する」と言います。
これは今、私たちが完全にロボティクスの領域にいるか、LLMだけに焦点を当てたいなら、話すことができ学ぶことができる人間のような環境があるということです。そしてこの環境は何らかの指導を提供し、私たちはこれに適切な報酬関数を見つける必要があります。これは本当に非常に重要です。彼らは、プリンストン大学のように抽象的な非線形チェーン・オブ・ソートや複数の次元で定義された複雑な推論パスウェイを議論のブループリントとして構築するのではなく、自己学習システム、AI 2.0を構築したいと言います。出発点としての人間データはなく、システムは完全に自律的に自己学習、自己反省すべてを学ぶべきです。
そこで、推論トレースを生成するために強化学習を使用しますが、システムはどこかから学習する必要があります。最も単純なケースはロボティクスか、システムが誰かと話すだけで、報酬関数が必要です。報酬関数がなければ、LLMを正しい推論トレースに導くことはできません。ここで、なぜハーバード大学の脳科学センターが関与しているのかが理解できます。これは人間の発達に似ています。赤ちゃんのことを思い出してください。赤ちゃんは環境と相互作用し、親に導かれて学びます。抽象的な推論レベルではなく、単に環境の中にいて、異なることを試し、環境からの報酬を得るのです。これが熱い、これが冷たい、これがベッド、これが心地よい、これが美しい、これが濡れている、これがバスルームなど。
同じことがAI 2.0でも起こっています。MITとハーバードが次世代の完全な自己学習のために提案しているように。ここでの重要なポイントは報酬関数の質です。赤ちゃんと同様に、親が見守り、ケアし、フィードバックを提供しています。この親機能が、AI 2.0で必要とする報酬関数です。これは課題であり、最新のLLMやVMSで対応できます。
最後に最も重要な部分、推論プライアーに進みましょう。これは私が以前に見たことのない抽象化のレベルです。MITとハーバードによる推論プライアーは、赤ちゃんLLMが英語やドイツ語やスペイン語などの複雑なドメインで推論し、環境と相互作用する前に習得する必要がある基本的な推論スキルの最小セットを指します。つまり、推論スキルの新しい最小限の核が必要であり、彼らは抽象化、階層的抽象化、因果推論などの抽象化の可能性に進みます。
これが、過去4つの動画が因果推論についてだった理由ですか？偶然ですね！そして、脳での一般化、交換可能性の理解、そして今、前提の順序と前提の交換法則が数学的論理、因果推論にとって非常に重要である理由を私が示したビデオ2を理解しています。そして他のルールの理解、興味深いことに、文脈内学習能力もあり、これは本当に複雑になります。私は今はこれを除外しますが、前回の動画でこのトピックについて話したとき、4つのパターン（検証、バックトラッキング、エラー検証、修正）を示しました。
これらの4つのパターンをチェーン・オブ・ソートに実装すれば、安定した長いチェーンを構築でき、クラッシュしたり、答えが突然ループに入ったり、純粋な幻覚を生成したりしません。長いコンテキストチェーンのこれらの4つの安定化により、より良い30億の事前トレーニング可能なパラメータモデルを構築できます。すべてがこの動画で一緒になっています。彼らはAlpha ZeroとAlpha Goの異なる視点から来ていますが、私の過去の動画と一致しています。
この推論プライアーを学習することについて見てみましょう。縮小されたトークン空間で合成タスクにモデルを事前トレーニングすることで、タスクは基本的な推論スキルの開発を奨励するように注意深く設計されています。おそらく、英語のような自然言語の複雑さやノイズを含めずに、抽象的な数学的論理から始めるべきでしょう。重要なのは、合成タスクが基本的な論理的・数学的推論を教えることができ、それらが英語や人間の言語ドメインでの実際の推論のための構成要素になるということです。
トークン空間を最初から小さくすることで、強化学習の探索空間はより効率的になります。空間が小さいほど、すべての探索アルゴリズムがより効果的になります。そして、エージェントは合成タスクを正しく解決することで報酬を得、時間とともに赤ちゃんのようにAI 2.0に必要な推論トレースを生成することを学びます。これらの推論トレースは基礎となるアルゴリズムを反映します。
人間の思考、人間の推論、私たちの基礎となるアルゴリズムとは何でしょうか？人間が論理を適用しようとするとき、それはパターンベースの直感でしょうか？この推論プライアーは本当に次のAI世代の核心です。彼らは「合成タスクでトレーニングし、より小さなトークン空間で探索がより容易な推論プリミティブの学習を奨励し、環境と反復的に相互作用する」と言います。これが環境から学ぶ場所、環境からのフィードバックと報酬関数です。特定の報酬のためにエージェントは主要な推論スキルを開発できます。
階層的抽象化、因果推論、自然言語の複雑さを回避することで、システムは英語やドイツ語などの特定の言語でトレーニングされるのではなく、推論の核心は本当に抽象的な数学的論法の表記かもしれません。課題は、この推論プライアーが本当に機能する段階に達することです。彼らは「キー・タスク・プロパティを保持し、推論プライアーの出現に必要な、非常に小さなトークン空間で問題を選択できる」と示唆しています。一旦推論プライアーが獲得されれば、それが基本的な論理関数を理解し、その後モデルはより広いトークン空間（4000、6000、8000トークン、最終的には40000〜10万トークンの言語）に適応できます。大規模言語事前トレーニングに検索とフィードバックメカニズムを統合するという、AIへの完全に新しいアプローチです。
これは私に別のオーストリア人、ルートヴィヒ・ウィトゲンシュタインを思い起こさせます。「私の言語の限界は、私の世界の限界である」。もう一つの選択肢として、知識と推論が深く絡み合っていて、単にメモリバッグに切り分けられないとしたらどうでしょうか？この単純化は望ましくない誤りにつながる可能性があります。彼らは「知性システムにおいて知識と推論を分離できるか、すべきかという疑問が生じる」と言います。
一つの見方は、エージェントが同じタスクを繰り返し実行する必要がある場合、毎回明示的に推論するのではなく、一度の推論の結果を知識として保存し、次のタスクでは新しい推論プロセスを開始せずに単に知識を適用するというものです。これはアーキテクチャで分離可能でしょうか？彼らは「推論と知識が結合できないという議論ではなく、エージェントがそれらを分離するメカニズムを持つべきだという議論だ」と言います。抽象的な推論パターンの異なる知識ドメインへの転用可能性が目標です。数学で学んだことを理論物理学や理論生化学などに応用したいと考えています。もし、知識と推論のメカニズムを分離することが、エージェントの人工物の中でそれを達成する方法なのか、あるいは他にもっと良い方法があるのか？これは魅力的なトピックであり、突然私自身の人間としての思考、学習方法、知識と推論の複雑さについての自己内省を促します。自分自身をどうやって向上させ、学習を改善できるかという問いを投げかけます。
とても素晴らしく、今回初めて、人間の学習と次世代AIの学習の間に並行した発展があるかもしれないと感じています。もしこのようなトピックに興味があれば、ぜひチャンネル登録して、次の動画でお会いしましょう。