メタのAI責任者が「もうLLMには興味がない」と発言

6,491 文字

Metas AI Boss Says He DONE With LLMS...
Join my AI Academy - 🐤 Follow Me on Twitter 🌐 Checkout My website -

「正直言って驚くかもしれませんが、もうLLMにはあまり興味がありません」。これはヤン・ルカンがNVIDIA GTC 2025で行った発言の一つです。このクリップはTwitterで大きな話題となりました。なぜなら、現在のAI業界ではLLM(大規模言語モデル)が最も注目を集めているからです。
ヤン・ルカンをご存じない方のために説明すると、彼はAI研究の重要人物の一人であり、AI分野で長年活躍してきました。このような発言をするのは初めてではなく、何年もの知識と専門性に基づいています。このレベルの専門家がこのような発言をすると、多くの人が「彼は本当に正しいのか」と考えるでしょう。さらに彼が語る4つの主要な焦点について聞いてみましょう。
「ヤン、この1年間AIには多くの興味深い進展がありましたが、あなたの意見では過去1年で最も刺激的な進展は何でしたか?」
「挙げればきりがないですが、ひとつ言うと、みなさんを驚かせるかもしれませんが、もうLLMにはあまり興味がありません。それらは最後の段階のもので、今は業界のプロダクト担当者の手に渡っており、彼らは周辺部分を改良し、より多くのデータとコンピューティングパワーを得て、合成データを生成しています。私はもっと興味深い4つの課題があると思います。機械に物理的世界を理解させる方法(これはジェンセンが今朝の基調講演で話していました)、持続的なメモリーを持たせる方法(あまり多くの人が話題にしません)、そして最後の2つは推論と計画を行わせる方法です。もちろんLLMに推論させる取り組みはありますが、私の意見では、それは推論を見る非常に単純な方法です。もっと良い方法があるでしょう。私が興奮しているのは、このコミュニティの多くの人々が5年後に興奮するかもしれないことです。しかし現時点では、それは何か難解な学術論文に過ぎないので、あまり刺激的には見えないでしょう」
これはヤン・ルカンが世界モデルについて語っている部分で、テキストだけが唯一の世界モデルでは、AGI(汎用人工知能)に到達するのに十分な世界モデルを持つことはできないと言っています。次のトークン予測はテキストにはうまく機能するかもしれませんが、実際の物理的世界で人間が行うことに関してはうまく機能しないと彼は述べています。
「でも、物理的世界について推論し、持続的なメモリーを持ち、計画を立てるのがLLMでないとしたら、それは何なのでしょうか?基盤となるモデルは何になるのでしょうか?」
「多くの人が世界モデルに取り組んでいます。世界モデルとは何か?私たち全員が心の中に世界モデルを持っています。これが私たちに思考を操作させるものです。現在の世界のモデルを持っています。例えば、このボトルの上から押すと、おそらく倒れるでしょうが、底を押すと滑るでしょう。そして強く押しすぎると、破裂するかもしれない。私たちは生後数ヶ月で物理的世界のモデルを獲得し、それが実世界に対処することを可能にします。実世界に対処することは言語に対処するよりもはるかに難しいのです。現在私たちが扱っているアーキテクチャとは全く異なるアーキテクチャが、実世界に本当に対処できるシステムには必要だと思います」
「トークンを予測するということですが、トークンは何でもいいわけですよね。私たちの自律走行車モデルはセンサーからのトークンを使用し、運転するためのトークンを生成します。ある意味、それは物理的世界について推論していますよね、少なくとも安全に運転できる場所や柱にぶつからない場所について。なぜトークンは物理的世界を表現する正しい方法ではないのですか?」
「トークンは離散的です。通常、トークンについて話すとき、私たちは有限の可能性の集合について話しています。典型的なLLMでは、可能なトークンの数は10万程度です。トークンを予測するようにシステムを訓練しても、テキストのシーケンスに続く正確なトークンを予測するように訓練することはできませんが、辞書内のすべての可能なトークンの確率分布を生成することはできます。それは0から1の間の10万の数字からなる長いベクトルで、合計が1になります。
しかし、高次元で連続的な自然データを扱う方法は知りません。ピクセルレベルでビデオを予測するよう訓練されたシステムで世界を理解したり、世界の精神モデルを構築しようとするあらゆる試みは基本的に失敗しています。画像の良い表現を学習するようなシステムを訓練する技術でも、壊れたり変形したバージョンから画像を再構築することで機能するものは基本的に失敗しています。完全に失敗したわけではなく、ある程度機能しますが、ジョイントエンベディングと呼ばれる代替アーキテクチャほどうまく機能しません。
例としてよく挙げるのは、この部屋のビデオを撮影してカメラをパンし、ここで止めて、そのビデオの続きを予測するようシステムに求めた場合です。それは部屋があり、人々が座っているという予測はできるでしょうが、あなた方一人一人がどのように見えるかを予測することはできません。それはビデオの最初のセグメントからは完全に予測不可能です。世界には予測不可能なことがたくさんあります。ピクセルレベルで予測するようシステムを訓練すると、発明できない詳細を考え出そうとするのにすべてのリソースを費やし、それは完全な無駄になります。私は20年間これに取り組んできましたが、ビデオを予測することで自己教師あり学習によってシステムを訓練するあらゆる試みはうまくいきません。表現レベルでそれを行うときにのみ機能します。つまり、それらのアーキテクチャは生成的ではないということです」
「つまり、トランスフォーマーは…」
基本的に彼が述べているのは、トランスフォーマーを使って物理世界を予測することはアーキテクチャの問題で機能しないということです。彼は重要な点をいくつか指摘しています。次のトークンを単に予測しているだけでは、物理的世界の理解や脳内で起こる推論など、当たり前のことと思っている多くのことが暗黙的にあります。私はここでのヤン・ルカンの指摘はもっともだと思います。それは本当にうまく機能しないのです。
もちろん、私はただヤン・ルカンの言うことに同意しているわけではありません。中国がSoraについて多くの研究を行い、基本的にこのようなアーキテクチャは物理的世界を本当には予測しないと述べた研究論文についてビデオで取り上げたことがあります。実際、これらのビデオモデルは物理的世界を予測しているのではなく、アーキテクチャに基づいて世界を模倣しているという事実を証明しました。この深掘りを見るのは本当に興味深かったです。ビデオを見れば、もう少し深く理解できるでしょう。
もちろん、これは機能しない、あれは機能しないと言うのは簡単ですが、ここで私たちはビデオの核心に入らなければなりません。機能しないという知識を得たところで、解決策は何なのでしょうか?ここでヤン・ルカンは彼の有名なVJEPAアーキテクチャについて語ります。彼らは実際にすぐにバージョン2を発表する予定で、これはこれまでのどのモデルよりも最も有望な結果を出しているようです。
「ジェンセンは絶対に正しく、最終的にはある種の推論ができるシステムの方がより強力になります。しかし、推論を行う適切な方法が、現在の推論能力で強化されたNLMのやり方だとは思いません」
「それは機能するけれど、正しい方法ではないということですか?」
「正しい方法ではありません。私たちが推論するとき、私たちが考えるとき、それは言語とは何の関係もない抽象的な精神状態で行います。トークンを出すのではなく、潜在空間や抽象空間で推論したいのです。もし私があなたに『あなたの前に浮かぶ立方体を想像し、その立方体を垂直軸の周りに90度回転させてください』と言えば、あなたはそれを精神的に行うことができます。それは言語とは何の関係もありません。猫もこれを行うことができます。もちろん猫に言語で問題を指定することはできませんが、猫は家具に飛び乗るときの軌道を計画するなど、これよりもはるかに複雑なことを行います。それは言語とは関係なく、トークン空間(これは一種の行動です)で行われることもなく、抽象的な精神空間で行われます。それが次の数年間の課題です。このタイプのことを可能にする新しいアーキテクチャを考え出すことです。それが私が過去数年間取り組んできたことです」
「では、この抽象空間で推論を可能にする新しいモデルが期待できるのでしょうか?」
「それはJEPAと呼ばれています。JEPAワールドモデルです。私の同僚と私は、過去数年間でこの方向に向けた第一歩として、一連の論文を発表してきました」
「JEPAとは何の略ですか?」
「Joint Embedding Predictive Architecture(結合埋め込み予測アーキテクチャ)の略です。これらは抽象的な表現を学習し、それらの表現を操作し、おそらく推論して特定の目標に到達するための一連の行動を生成できる世界モデルです。それが未来だと思います。約3年前にこれがどのように機能するかを説明した長い論文を書きました」
では、昨年メタが公開したビデオから、そのVJEPAアーキテクチャの実際の姿を見てみましょう。
「今日の機械は、1つの概念を学ぶのに何千もの例と何時間もの訓練を必要とします。JEPA(Joint Embedding Predictive Architecture)の目標は、人間と同じように効率的に学習できる高度に知的な機械を作ることです。VJEPAはビデオデータで事前訓練されており、赤ちゃんが親を観察して学ぶのと同じように、物理的世界に関する概念を効率的に学習できます。それは完全な微調整なしで、わずかな例だけを使って新しい概念を学び、新しいタスクを解決することができます。
VJEPAは非生成モデルで、抽象的な表現空間でビデオの欠けているまたはマスクされた部分を予測することで学習します。すべての欠落ピクセルを埋めようとする生成的アプローチとは異なり、VJEPAは無関係な情報を破棄する柔軟性を持ち、より効率的な訓練につながります。研究者の皆さんがこの研究に基づいて構築できるよう、私たちはVJEPAを公開しています。この研究は、世界を理解し、計画し、推論し、予測し、複雑なタスクを達成できるAIへの道のりの中で、もう一つの重要なステップだと信じています」
「私たちが現在持っている代替案はVJEPAというプロジェクトで、バージョン2に近づいています。これは基本的にジョイントエミッティング予測アーキテクチャの一つで、表現レベルでビデオの予測を行い、非常にうまく機能しているようです。この例があります。最初のバージョンはわずか16フレームの非常に短いビデオで訓練され、部分的にマスクされたバージョンから完全なビデオの表現を予測するように訓練されています。
このシステムは、少なくとも限定されたケースで、特定のビデオが物理的に可能かどうかを教えることができるようです。これは可能、これは不可能という二値出力を提供します。いや、もっと単純で、システムが生成する予測誤差を測定します。これらの16フレームをビデオでスライディングウィンドウとして取り、次の数フレームを予測できるかどうかを見て、予測誤差を測定します。そしてビデオで何か本当に奇妙なこと(物体が消えたり、形が変わったり、自然発生したり、物理法則に従わなかったりするなど)が起こると…」
「つまり、ビデオを観察するだけで物理的にリアルなものを学習しているのですね」
「そうです。自然なビデオで訓練し、何か本当に奇妙なことが起こる合成ビデオでテストします。もし本当に奇妙なことが起こるビデオで訓練したら、それは正常になってしまい、それらを奇妙なものとして検出しなくなるでしょう」
ここでヤン・ルカンは、システム1とシステム2の思考について話します。人間として、私たちには二つの思考モードがあります。システム1は基本的に反応的であり、システム2は物事についてより長く考える場所です。これはLLMが最近到達した最新のパラダイムです。ヤン・ルカンはAIシステムが本質的にこれらの能力の一部を直感的に欠いていると述べています。これは、汎用的なAGIに到達するための包括的なシステムに本当に必要なものです。
「そして、これは私たち全員がよく知っていることにつながります。心理学者はシステム1とシステム2について話します。システム1は、あまり考えなくても達成できるタスクです。それらに慣れてしまい、あまり考えなくても達成できます。経験豊富なドライバーであれば、運転支援なしでも考えなくても運転できます。同時に誰かと話したりすることができます。しかし、初めて運転する場合や最初の数時間ハンドルを握る場合は、何をしているかに本当に集中しなければなりません。あらゆる種類の大惨事のシナリオを計画したりしています。
それがシステム2です。あなたは前頭前皮質全体を動員して、内部の世界モデルを使用し、何が起こるかを把握し、良いことが起こるように行動を計画します。一方、それに慣れていれば、システム1を使って自動的にこれを行うことができます。このアイデアは、世界モデルを使うことから始め、以前に遭遇したことがないタスクでもタスクを達成できるということです。ゼロショットです。そのタスクを解決するために訓練される必要はなく、世界の理解と計画能力に基づいて、何も学ぶことなくそのタスクを達成できます。これが現在のシステムに欠けているものです。
しかし、そのタスクを複数回達成すると、最終的にはポリシーと呼ばれるものにコンパイルされます。計画なしでそのタスクを達成できる反応型システムです。最初のこと、この推論はシステム2であり、無意識の反応的なポリシーはシステム1です。現在のシステムはシステム1を行うことができ、システム2に向かって少しずつ進んでいますが、最終的にはシステム2には異なるアーキテクチャが必要だと思います」
ここでヤン・ルカンは、単にLLMを通じてAGIに到達することはできないという彼の更なる発言に至ります。私はある程度同意します。将来的に本当に汎用AIとなるシステムはおそらく何らかのハイブリッドになるでしょう。それらはすべての能力の混合体になり、実際にAI企業がオムニモデルに向かっているのを見てきました。最近Googleがそれを行っているのを見ました。彼がこれについて話すのを聞くのは本当に興味深いです。なぜなら、彼はそれほど的外れではなく、将来がどこに向かうのかを見るのは本当に興味深いでしょう。
「しかし、実世界ははるかに複雑です。過去に私が言ったことを聞いたことがある人もいるかもしれませんが、現在のLLMは通常、約30兆トークンで訓練されています。トークンは通常約3バイトです。それは0.9×10^13バイト、言ってみれば10^14バイトです。それを読むのには私たち誰もが40万年以上かかるでしょう。なぜならそれはインターネット上で利用可能なすべてのテキストの総量だからです。
心理学者によれば、4歳児は合計16,000時間起きています。そして私たちは視神経を通じて視覚皮質に毎秒約2メガバイトのデータを送っています。毎秒約2メガバイトです。これに16,000時間×3,600を掛けると、約10^14バイトになります。4年間で視覚を通じて、読むのに40万年かかるテキストと同じくらいのデータを見ているのです。これは、私たちがただテキストから訓練するだけでAGI(それが何を意味するにせよ)に到達することは決してないことを示しています。それは単に起こりえないのです」

コメント

タイトルとURLをコピーしました