ヤン・ルカンはLLMについて正しいかもしれない…

5,420 文字

Meta's Chief AI Scientist just said he's done with LLMs! He's now focusing on 'World Models' and believes this will be t...

LLMだけでは人間レベルの知能には到達できないし、「数年以内に」「データセンターに天才国家を」という引用をした匿名の人物がいますが、それはナンセンスだと思います。
皆さん、少し遅れてしまいましたが、MetaのチーフAIサイエンティストであるヤン・ルカンが基本的にLLMとは決別し、次のステップに進む準備ができていると発言したことについてお話しします。彼はLLMだけでは人間レベルの知能に到達することは決してないと考えており、それ以外のことを言う人は彼によれば「妄想的」だということです。
今日は、なぜ彼がそう考えるのか、LLMの次に何が来ると信じているのか（ちなみに彼はすでにそれに取り組んでいます）、そして彼が実際に正しいかもしれないかどうかについて見ていきます。解説すべきことがたくさんありますので、早速始めましょう。
これは実際にインタビューの最初の質問で、彼に「過去1年間で最も興奮したAIの発展は何か？」と尋ねられた時のクリップです。
「数えきれないほどありますが、おそらく皆さんを驚かせるようなことを一つ言いますと、私はもうLLMにそれほど興味がないんです。最後の仕上げは業界の製品担当者たちの手に委ねられており、彼らは細部を改善し、より多くのデータとより多くの計算能力を得て、合成データを生成しようとしています。私はもっと興味深い問いがあると思います。4つあります。どうやって機械に物理的世界を理解させるのか、そしてジェンセンが今朝の基調講演で話していた点ですが、どうやって永続的なメモリを持たせるのか、これについてはあまり多くの人が話していません。そして最後の2つは、どうやって彼らに推論と計画を行わせるかです。もちろんLLMに推論させる試みはありますが、私の意見では、それは推論を見る非常に単純な方法です。おそらくもっと良い方法があると思います。だから、私が今興奮していることは、このコミュニティの多くの人々、技術コミュニティが5年後に興奮するようなことです。しかし今はあまり刺激的に見えないでしょう、なぜならそれはいくつかの難解な学術論文の中にあるからです。」
彼はもはや大規模言語モデルに興味がなく、今は4つのことに焦点を当てています。AIに物理的世界を理解させること、永続的なメモリを与えること、そして実際に計画と推論を教えることです。あなたは「LLMはすでにこれらをしているのではないか」と思うかもしれません。私たちにはすでに推論モデルとマルチモーダルモデルがあります。これらのモデルは確かにある程度推論することができます。また、画像や動画を生成し、理解することもできます。つまり、物理学の一般的な理解と、物理法則がシーン内のオブジェクトの動きや相互作用にどのように影響するかを少なくとも理解している必要があるということです。
次のクリップでは、インタビュアーが「LLMでないとしたら何なのか」と彼に尋ねています。ここでヤン・ルカンは、彼がAIの次の段階だと信じているものについて簡単に説明しています。それはワールドモデルです。見てみましょう。
「でも、物理的世界について推論し、永続的なメモリを持ち、計画を立てるのがLLMでないとしたら、それは何なのでしょうか？基盤となるモデルは何でしょうか？」
「多くの人々がワールドモデルに取り組んでいます。ワールドモデルとは何かというと、私たち全員が心の中にワールドモデルを持っています。これによって私たちは基本的に思考を操作することができます。私たちは現在の世界のモデルを持っています。あなたは、私がこのボトルの上から押すと、おそらくひっくり返るでしょうし、底から押すと滑るでしょう。そして、あまりにも強く押すとはじけるかもしれないことを知っています。私たちは物理的世界のモデルを生後数ヶ月で獲得し、それによって実世界に対処することができます。実世界に対処することは、言語に対処するよりもはるかに難しいのです。だから、実世界と本当に対処できるシステムに必要なアーキテクチャのタイプは、現在私たちが扱っているものとは完全に異なっていると思います。」
これらのワールドモデルとは正確には何で、LLMとどう違うのでしょうか？ルカンは、LLMが推論する方法と人間が推論する方法の間には根本的な違いがあり、その違いは潜在空間で考える能力から来ていると信じています。
「私たちが推論するとき、考えるとき、それは言語とは何の関係もない抽象的な精神状態で行います。トークンを吐き出すのではなく、潜在空間や抽象空間で推論したいのです。例えば、「あなたの前に浮かぶ立方体を想像し、それを垂直軸の周りに90度回転させてください」と言えば、あなたはこれを心の中でできます。これは言語とは何の関係もありません。猫でもこれができるでしょう。もちろん、言語を通じて猫に問題を指定することはできませんが、猫は家具に飛び乗るための軌道を計画するときなど、これよりもはるかに複雑なことをします。彼らはこれよりもはるかに複雑なことをし、それは言語とは関係なく、確かにトークン空間（行動の種類）で行われるのではなく、一種の抽象的な精神空間で行われます。それが次の数年間の課題です。このタイプのことを可能にする新しいアーキテクチャを見つけることです。それが私が過去数年間取り組んできたことです。」
「それでは、私たちがこの抽象空間で推論できるようにする新しいモデルが期待されているのでしょうか？」
「私たちはそれをJATPAと呼んでいます。JATAPワールドモデルです。私と私の同僚たちは、過去数年間にこれに向けた最初のステップとなる一連の論文を発表してきました。JATAPは結合予測アーキテクチャ（Joint Predictive Architecture）を意味します。これらは抽象的な表現を学習し、それらの表現を操作し、おそらく推論し、特定の目標に到達するための一連の行動を生成することができるワールドモデルです。私はそれが未来だと思います。約3年前にこれがどのように機能するかを説明する長い論文を書きました。」
これは正直に言って素晴らしい指摘です。私たちは常に言葉で考えているわけではありません。彼が言っていたように、猫は言語を理解していません。少なくとも私たちほどのレベルではありません。それでも猫は非常に複雑な動きを計画し実行することができます。あなたの猫は、ソファから棚に飛び移るときに、距離、勢い、潜在的な障害物、重力など、言葉すら持っていないすべてのことを考慮する必要があることを知っています。それでも猫はこれができるのは、世界の精神モデルを持っているからです。
人間も同じことをします。私たちは毎日意識的に物理法則について考えるわけではありませんが、それでもボールをキャッチし、コーヒーを注ぎ、混雑した部屋を移動します。私たちは画像、記憶、本能、感覚、さらには内部シミュレーションで推論するのであって、言葉だけではありません。考えてみれば、人間は元祖オムニモーダルモデルなのです。
そのため、ルカンはある意味で正しいです。人間の心の完全な複雑さを再現するためには、LLMだけよりも何かが必要です。しかし同時に、LLMは無用ではありません。それらは信じられないほど速く、信じられないほど遠くまで私たちを連れてきました。そしてそれらはまだ進化しています。本当の問題は、それらがAGI（汎用人工知能）に到達するのに十分かどうか、それとも完全に異なる何かが必要かどうかです。次のクリップでは、ルカンはその点に関する立場を明確にしています。
「私はAGIという用語が好きではありません。なぜなら、人々はこの用語を人間レベルの知能を持つシステムを指すために使用しているからです。悲しいことに、人間の知能は超特化されています。これを「汎用的」と呼ぶのは誤りだと思います。だから私はAMI（先進的機械知能）という言葉を好みます。まあ、これは単なる語彙の問題です。私が説明しているこのコンセプト、つまり世界の抽象的な精神モデルを学習し、それらを推論と計画に使用できるシステムは、おそらく3年以内、3〜5年以内に、少なくとも小規模ではうまく機能させる方法をしっかりと把握できるでしょう。そしてその後は、それらをスケールアップすることなどの問題になります。人間レベルのAIに到達するまでに。
AIの歴史を振り返ると、新しいパラダイムを発見し、「それだ！10年以内に」あるいは「5年以内に」などと主張するAI研究者の世代が次々と現れています。「すべての領域で人間よりも賢い機械を持つだろう」と。それは70年間続いています。10年ごとに訪れるこれらの波があります。現在の波も間違っています。LLMをスケールアップしたり、何千もの一連のトークンを生成させて良いものを選択させるだけで人間レベルの知能に到達し、数年以内に、2年以内に（いくつかの予測によれば）「データセンターに天才国家を」引用すると、名前を伏せる人物がいますが、それはナンセンスだと思います。完全なナンセンスです。もちろん、近い将来、多くのアプリケーションでシステムが博士レベルになるでしょうが、全体的な知能という点では、私たちはまだ非常に遠いところにいます。非常に遠いと言っても、それは10年以内に起こるかもしれないので、そんなに遠くはありません。」
彼は、次の10年以内にAGIまたは彼が呼ぶAMI（先進的機械知能）を達成できるかもしれないと信じており、それはLLMからではなく、新しいパラダイム、世界モデルから来ると考えています。彼はこれが次の3〜5年以内に登場すると予想しています。これらは本質的に潜在空間で考えることができる世界モデルです。彼らは単に言葉を処理するだけではなく、動物のように、そして人間のように、実際に見て、聞いて、記憶し、時間をかけて推論する必要があります。
これはまた、これらのモデルがテキスト、画像、動画、音声、文字通りあらゆるモダリティで訓練される必要があることを意味します。これにより、彼らに世界の総合的な感覚を与えることができます。私たちがすでにそれをしているように感じるかもしれませんが、企業がデータを使い果たしていること、インターネットがすでに隅々まで収集されていることを聞き続けていますが、真実は、人間として生きているだけで訓練されるデータの量は、どんなAIモデルも実現可能に触れることができる量をはるかに超えているのです。
次のクリップでは、ルカンはそのギャップが実際にどれほど大きいのか、そしてそれを縮めようとする際に伴う信じられないほどのコストについて説明しています。
「私たちは言語を人間の能力、知的能力の最高峰と考えています。しかし実際には、言語は単純なものです。それは離散的だからです。そして離散的なのは、それがコミュニケーションのメカニズムだからであり、ノイズに強くなければならず、そうでなければ私が今言っていることを理解できないからです。だからそれは単純なのです。しかし実世界ははるかに複雑です。
現在のLLMは典型的に約30兆トークンで訓練されています。トークンは通常3バイト程度なので、それは0.9 × 10^13バイト、つまり10^14バイトぐらいです。それを読むには私たち一人一人が400,000年かかるでしょう。なぜなら、それはインターネット上で利用可能なすべてのテキストの全体だからです。
心理学者によると、4歳児は合計16,000時間起きていて、私たちの視覚皮質には視神経を通じて約2メガバイトのデータが毎秒流れています。これに16,000時間を掛け、3600を掛けると約10^14バイトになります。4年間でビジョンを通じて、読むのに400,000年かかるテキストと同じぐらいのデータを見ているのです。これが、単にテキストから訓練するだけではAGI（それがどういう意味であれ）に到達することは決してないことを示しています。そんなことは起こりえません。」
ルカンが結局正しいかどうかにかかわらず、彼はいくつかの妥当な点を指摘しています。個人的には、LLMは本当にパズルの一部に過ぎないと思います。彼らは直接AGIに到達することはないかもしれませんが、少なくともそれに近づき、速くなるでしょう。そして正直に言って、私たちはLLMが何をできるかの表面をまだ掻き始めたばかりです。まだ多くの未開発の可能性があります。
しかし、おそらくルカンは正しいのかもしれません。おそらく未来は単なる言語モデルではなく、私たちと同じように世界を理解できるモデルであり、私たちは今からそれらを構築し始めるべきなのでしょう。
コメントで皆さんの考えを教えてください。LLMは終わったと思いますか？ワールドモデルが本当に次に来るのでしょうか？それともこれはAIレースで遅れをとっている企業を率いる人の言い訳に過ぎないのでしょうか？これを見る方法はたくさんあるので、あなたの意見を聞くのが楽しみです。
ここまで見てくれてありがとうございます。今後もこのようなAIニュースを最新に保ちたい場合は、購読ボタンを押してください。いつものように、また次回お会いしましょう。