AIとコンピューティングのフロンティア:ヤン・ルカンとビル・ダリーの対談 | NVIDIA GTC 2025

18,151 文字

Frontiers of AI and Computing: A Conversation With Yann LeCun and Bill Dally | NVIDIA GTC 2025
As artificial intelligence continues to reshape the world, the intersection of deep learning and high performance comput...

みなさん、こんにちは。AIについて少しおしゃべりをしようと思います。皆さんにとって興味深いものになればと思います。
ヤン、この1年間AIの世界では多くの興味深い出来事がありました。この1年で最も刺激的な進展は何だったと思いますか?
数えきれないほどありますが、皆さんを驚かせるかもしれないことを1つお話しします。私はもうLLM(大規模言語モデル)にそれほど興味がありません。それらはある意味、過去のものです。今や産業界のプロダクト担当者の手にあって、より多くのデータ、より多くの計算能力を得て、合成データを生成しながら、周辺部分を改善しているような段階です。
私が考える興味深い問題は4つの領域にあります:機械に物理的な世界を理解させる方法、持続的なメモリを持たせる方法(これについてはあまり多くの人が話していません)、そして最後の2つは推論と計画を行わせる方法です。もちろん、LLMに推論させる試みはありますが、私の意見では、それは推論をとても単純化した見方です。もっと良い方法があるでしょう。
私が興奮しているのは、技術コミュニティの多くの人が5年後に興奮するようなことです。しかし現時点では、それらは単に学術論文の中の地味なものに見えるため、それほど刺激的には見えていません。しかし、物理的な世界について推論し、持続的なメモリを持ち、計画を立てるLLMではないとしたら、それは何なのでしょうか?基盤となるモデルは何になるのでしょうか?
多くの人が世界モデルに取り組んでいます。世界モデルとは何でしょうか?私たち全員が心の中に世界モデルを持っています。これが本質的に思考を操作することを可能にしているものです。私たちは現実世界のモデルを持っています。このボトルの上から押すと、おそらくひっくり返るでしょうが、底から押すとスライドするでしょう。強く押し過ぎると、はじけるかもしれません。
私たちは物理的な世界のモデルを生後数ヶ月で獲得し、それが実際の世界に対処することを可能にします。言語に対処するよりも実世界に対処する方がはるかに難しいのです。実世界に本当に対処できるシステムには、現在私たちが扱っているものとは全く異なるアーキテクチャが必要です。LMはトークンを予測しますが、トークンは何にでもなり得ます。私たちの自律走行車モデルはセンサーからトークンを使用し、運転するためのトークンを生成します。ある意味、それは物理的な世界について推論しています。少なくとも、どこが安全に運転できて、柱にぶつからない場所などについてです。
なぜトークンが物理的な世界を表現するのに適切な方法ではないのでしょうか?トークンは離散的です。トークンについて話すとき、通常は有限の可能性の集合を指します。典型的なLLMでは、可能なトークンの数は10万程度です。システムをトークンを予測するように訓練すると、例えばテキストのシーケンスに続くトークンを正確に予測することは決してできません。0から1の間の10万個の数値からなる長いベクトルである、可能なすべてのトークンの確率分布を生成することはできます。これを行う方法は知っていますが、ビデオや高次元で連続的な自然データについてはこれを行う方法を知りません。
ピクセルレベルでビデオを予測するように訓練されるシステムを構築するあらゆる試みは基本的に失敗しました。破損したり変換されたりした画像から画像を再構築することによって、ニューラルネットのような画像の良い表現を学習するために訓練されるあらゆる技術は失敗しました。ある程度は機能しますが、ジョイントエンベディングと呼ばれる代替アーキテクチャほどうまく機能しません。これらは本質的にピクセルレベルでの再構築を試みるのではなく、訓練される自然信号や画像、ビデオの抽象的な表現を学習しようとします。
よく使う例は、この部屋のビデオを撮り、カメラをパンして、ここで止めて、システムにそのビデオの続きを予測するよう求めると、おそらく部屋であり、人々が座っているなどと予測するでしょう。皆さん一人一人がどのように見えるかを予測することはできません。それはビデオの最初のセグメントからは完全に予測不可能です。世界には予測不可能なことがたくさんあります。ピクセルレベルで予測するようにシステムを訓練すると、発明できない詳細を考え出そうとするのにすべてのリソースを費やします。それは完全なリソースの無駄です。
私たちが20年間取り組んできたあらゆる試み、ビデオを予測することによる自己教師あり学習によるシステムの訓練は機能しません。表現レベルで行う場合にのみ機能します。これは、そのようなアーキテクチャが生成的ではないということを意味します。
トランスフォーマーにはその能力がないと言っているわけではありませんが、人々はビジョントランスフォーマーを使用して良い結果を得ています。そうではありません。それらのアーキテクチャにトランスフォーマーを使用することはできます。私が話しているアーキテクチャの種類はジョイントエンベディング予測アーキテクチャと呼ばれています。
ビデオのチャンクや画像など何かを取り、エンコーダーを通して走らせると表現が得られます。次にそのテキスト、ビデオ、または画像の変換バージョンの続きを取り、同様にエンコーダーを通して走らせます。そして入力空間ではなく、その表現空間で予測を行おうとします。穴埋めと同じトレーニング方法を使用できますが、生の表現ではなく、この潜在空間で行います。
そこでの難しさは、注意深くなく、賢い技術を使わないと、システムが崩壊することです。システムは入力を完全に無視し、入力についてあまり情報を持たない一定の表現を生成するだけになります。5、6年前までは、これが起こるのを防ぐ技術がありませんでした。
今、エージェントシステムや推論・計画ができるシステムに使用したい場合、予測器が必要です。ビデオの一部を観察すると、世界の現在の状態についてのアイデアが得られ、必要なのは、私が取ると想像している行動が与えられた場合に、世界の次の状態がどうなるかを予測することです。つまり、世界の状態と想像した行動が与えられたとき、世界の次の状態を予測できる予測器が必要です。
そのようなシステムがあれば、特定の結果に到達するための一連の行動を計画することができます。これが私たち全員が計画と推論を行う本当の方法です。トークン空間では行いません。
非常に単純な例を挙げましょう。今日、いわゆるエージェント推論システムがたくさんありますが、それらの仕組みは、さまざまな方法で確率的にさまざまなトークンを生成することによって、多くのトークンシーケンスを生成し、次に第二のニューラルネットが生成されたすべてのシーケンスの中から最適なシーケンスを選択しようとすることです。プログラムの書き方を知らずにプログラムを書くようなものです。ランダムなプログラムを書いて、それらをすべてテストし、実際に正しい答えを与えるものを保持します。これは完全に望みがありません。
実際、超最適化についての論文があり、まさにそれを提案しています。短いプログラムの場合はもちろん可能ですが、長さに対して指数関数的に増加するため、しばらくすると完全に望みがなくなります。
多くの人がAGI、あるいはAMIと呼ぶものがすぐそこまで来ていると言っています。あなたの見解はどうですか?いつ頃来ると思いますか?そしてなぜ?どのようなギャップがありますか?
私はAGIという用語が好きではありません。なぜなら人々はこの用語を人間レベルの知能を持つシステムを指すために使用していますが、悲しいことに人間の知能は超特化しています。これを一般的と呼ぶのは誤称です。私はAMI(Advanced Machine Intelligence:高度な機械知能)という言葉を好みます。これは単に語彙の問題です。
私が説明している概念、つまり世界の抽象的な心的モデルを学習し、それらを推論と計画に使用するシステムは、おそらく少なくとも小規模なレベルでこれを機能させる良い把握ができるまで3〜5年かかるでしょう。その後、それらをスケールアップして人間レベルのAIに到達するまでの問題になります。
ここで重要なのは:歴史的にAIでは、新しいパラダイムを発見し、それが全てだと主張するAI研究者の世代が次々と現れています。10年以内に人間レベルの知能を持ち、すべての領域で人間より賢い機械を持つだろうと。これは70年間続いてきて、約10年ごとにそのような波が来ています。現在の波も間違っています。LLMをスケールアップしたり、数千のトークンシーケンスを生成して良いものを選択したりするだけで人間レベルの知能に到達し、匿名のある人の言葉を借りれば、データセンター内に天才の国を数年以内に持つことができるという考えはナンセンスです。完全なナンセンスです。
確かに、近い将来のシステムがPHDレベルとなるような応用は多くあるでしょうが、全体的な知能に関しては、いいえ、まだ遠いです。遠いというとき、それは10年以内に起こるかもしれません。そんなに遠くないです。
AIは多くの方法で人間の状態を改善し、人々の生活を楽にしてきました。AIのどのような応用が最も強力で有益だと思いますか?
もちろん、明らかなことがあります。AIが科学と医学に与える影響は、現在想像できる以上に大きいでしょう。たとえそれが既にかなり大きいとしても。タンパク質フォールディングや創薬などの研究だけでなく、生命のメカニズムを理解する点でも。
短期的な結果もたくさんあります。現在、米国では医療画像処理を受ける際にAIが関与していることが多いです。マンモグラムの場合、腫瘍を検出するためにディープラーニングシステムで事前スクリーニングされている可能性が高いです。MRI機に行く場合、そのMRI機内で過ごす時間は4分の1程度に削減されています。これは、より少ないデータでMRI画像の高解像度バージョンを復元できるようになったからです。
短期的な結果はたくさんあります。もちろん、私たちの車のそれぞれ、そしてNVIDIAはその大きなサプライヤーの一つですが、少なくとも運転支援システムや自動緊急ブレーキシステムを搭載しています。これらは数年前からヨーロッパでは必須となっています。これらは衝突を40%削減します。命を救っています。これらは巨大な応用例です。明らかに、これは生成AIではなく、認識であり、車に対しては少しの制御です。
今日存在する、あるいは数年以内に存在するLLMの産業やサービスなどへの応用はたくさんありますが、その限界についても考える必要があります。期待される精度と信頼性のレベルでシステムを導入・展開することは、多くの人が考えていたよりもはるかに難しいです。
これは確かに自律走行にとって当てはまります。レベル5の自律走行を実現するタイミングは後退し続けています。同じことが起こると思います。AIが失敗するのは通常、基本的な技術や派手なデモではなく、実際にそれを導入し、適用し、既存のシステムと統合するのに十分な信頼性を持たせる必要がある場合です。
そこが難しく、コストがかかり、予想以上に時間がかかる部分です。確かに、自律走行車のような応用では、常に正しくなければならず、さもなければ誰かが負傷したり死亡したりする可能性がある場合、精度のレベルはほぼ完璧でなければなりません。しかし、ほとんどの場合に正しければ非常に有益な応用がたくさんあります。
医師がダブルチェックする医療応用や、エンターテイメントや教育のように、単に良いことをする方が害よりも多く、間違えた場合の結果が壊滅的でないような応用もあります。
全くその通りです。それらのシステムの中で最も有用なのは、人々をより生産的でクリエイティブにするものです。例えば、コーディングアシスタントのように。医学でも、芸術でも、テキスト制作でも同じことが言えます。AIは人々に代わるのではなく、パワーツールを提供しています。いつかはそうなるかもしれませんが、人々はそれを受け入れないと思います。
将来のAIシステム、超知能を含めて、私たちの関係は、私たちが彼らの上司になるということです。私たちは超知的な仮想人間のスタッフを指揮することになります。私は自分より賢い人と一緒に働くのが好きです。それは世界で最も素晴らしいことです。
AIが多くの方法で人類に利益をもたらす一方で、ディープフェイクやフェイクニュースを作成し、誤って適用されれば感情的苦痛を引き起こすような、闇の側面もあります。AIの使用に関するあなたの最大の懸念は何ですか?そしてそれらをどのように軽減しますか?
Metaが非常に馴染みのあることの一つは、AIを攻撃に対する対策として使用することです。それがAIからのものであろうとなかろうと。驚くべきことの一つは、LLMやさまざまなディープフェイクなどが数年間利用可能であるにもかかわらず、この種の攻撃を検出して取り除く責任者である同僚たちは、ソーシャルネットワークに投稿される生成コンテンツの大幅な増加は見られないと言っています。少なくとも悪意のある方法ではありません。通常、それは合成であることが明示されています。
3、4年前に警告されていた、情報通信システムを破壊するような悲惨なシナリオは見られません。
お話ししなければならない興味深い話があります。2022年の秋、Metaの同僚たちは小さなチームで、科学文献全体で訓練されたLLMを作りました。彼らが手に入れることができるすべての技術論文です。それはGalacticaと呼ばれ、訓練方法を説明した長い論文、オープンソースコード、遊べるデモシステムと共に公開されました。
これはTwitter界から猛烈な批判を浴びました。人々は「これはひどい。これは私たちを殺すことになる。科学的コミュニケーションシステムを破壊することになる。今やどんな馬鹿でも砕いたガラスを食べることの利点について科学的に聞こえる論文を書くことができる」などと言っていました。
否定的な意見の津波があまりにも大きかったため、私の可哀想な同僚たち、5人の小さなチームは夜眠れませんでした。彼らはデモを取り下げ、オープンソースコードと論文は残しましたが、デモは取り下げました。私たちの結論は、世界はこの種の技術の準備ができておらず、誰も興味がないということでした。
3週間後、ChatGPTが登場し、それはまるで救世主の再来のようでした。私たちはお互いを見て、「何が起こったの?」と言いました。以前のものに対する反応を考えると、公衆の熱狂を理解できませんでした。
その多くは認識の問題です。GPTは学術論文を書いたり科学をしたりしようとしていませんでした。それは会話ができ、何でも質問できるもので、より一般的であろうとしていました。ある程度、それはより多くの人々にとってより有用、あるいはより近似的に有用でした。
確かに危険はあり、さまざまなタイプの誤用もあります。しかし、誤用に対する対策はより良いAIです。信頼性のないシステムがあります。これに対する修正は、常識を持ち、推論する能力を持ち、答えが正しいかどうかをチェックし、自分の答えの信頼性を評価できるより良いAIシステムです。これは現在、完全にはそうではありません。
しかし、率直に言って、破滅的なシナリオは信じていません。人々は適応します。AIは主に良いものであり、少しの悪があるとしても、そう考えたいと思います。
大西洋の両側に家を持つ人として、あなたは非常にグローバルな視点を持っていますね。AIの将来のイノベーションはどこから来ると思いますか?
どこからでも来る可能性があります。世界中に賢い人がいます。良いアイデアを独占している人はいません。誰とも話さずに全ての良いアイデアを思いつくことができると考える、大きな優越感を持つ人々がいます。私の科学者としての経験では、そうではありません。良いアイデアは多くの人の相互作用とアイデアの交換から生まれます。
過去10年ほどで、コードの交換も重要になってきました。それが私がオープンソースAIプラットフォームの強力な支持者である理由の一つであり、Metaもまたその哲学を採用した理由の一部です。私たちは自分たちがどれほど賢いと思っていても、良いアイデアを独占しているわけではありません。
DeepSeekに関する最近の話は、良いアイデアがどこからでも来る可能性があることを本当に示しています。中国には本当に優秀な科学者がたくさんいます。多くの人が知るべき話があります。過去10年間で最も多くの引用を集めた科学論文は何かと自問すると、その論文は2015年に、ちょうど10年前に発表されました。それはResNetまたは残差ネットワークと呼ばれる特定のニューラルネットアーキテクチャに関するもので、北京のMicrosoft Researchから中国人科学者のグループによって出されました。
筆頭著者は何凱明でした。1年後、彼はカリフォルニアのMetaのFAIRに加わり、約8年間そこで過ごし、最近MITに移りました。それが世界中に優秀な科学者がたくさんいて、アイデアはどこからでも来る可能性があることを示しています。しかし、それらのアイデアを実際に実践するには、大きなインフラストラクチャ、多くの計算能力が必要で、必要なリソースを購入するために友人や同僚に多くのお金を与える必要があります。
オープンな知的コミュニティを持つことで進歩が速くなります。なぜなら、誰かがここで良いアイデアの半分を思いつき、他の誰かが残りの半分を言うからです。彼らがコミュニケーションを取れば、それは起こります。彼らが皆非常に内向的で閉鎖的であれば、進歩は起こりません。
もう一つのことは、革新的なアイデアが生まれるためには、NVIDIAの主任科学者として知っているように、人々に長いリードを与える必要があります。人々に本当に革新させ、3ヶ月ごとや6ヶ月ごとに何かを生み出すようにプレッシャーをかけないようにする必要があります。それはほぼDeepSeekとLLaMAで起こったことです。
広く知られていない話があります。2022年にFAIRにはいくつかのLLMプロジェクトがありました。1つはリーダーシップから多くのリソースとサポートを受けていましたが、もう1つはパリで十数人の海賊プロジェクトで、彼らは何らかの理由で必要だったため、自分たちのLLMを構築することを決めました。それがLLaMAになり、大きなプロジェクトは聞いたことがなく、中止されました。
全てのサポートがなくても良いアイデアを思いつくことができます。あなたが管理からある程度隔離されていて、彼らがあなたを一人にしておけば、スケジュールに従って革新することを要求されるよりも良いアイデアを思いつくことができます。
十数人がLLaMAを生み出し、それをプラットフォームとして選ぶという決断がされました。その周りにチームが構築され、最終的にオープンソース化されLLaMA 2が生み出され、それは風景に少し革命を起こしました。昨日の時点で、LLaMAは10億回以上ダウンロードされています。これは驚くべきことだと思います。皆さんの多くを含んでいると思いますが、それらの人々は全て誰なのでしょうか?彼らはNVIDIAのハードウェアを買って実行するに違いないので、あなたは彼らを知っているはずです。多くのGPUを売ってくれてありがとう。
オープンソースについてもう少し話しましょう。LLaMAは、人々が自分でダウンロードして実行できるオープンウェイトで提供されている最先端のLLMとして本当に革新的だと思います。会社はモデルの開発、トレーニング、微調整に膨大な金額を投資し、それを無料で提供しています。それの良い点と悪い点は何ですか?
デメリットもあると思います。あなたがそのサービスから直接収益を得ることを期待している会社であり、それがあなたの唯一のビジネスである場合、すべての秘密を明かすことはあなたにとって有利ではないかもしれません。
しかし、あなたがMetaやGoogleのような会社であり、収益が他のソース(Metaの場合は広告、Googleはさまざまなソース)から来る場合、重要なのは短期的にどれだけの収益を生み出せるかではなく、構築したい製品に必要な機能を構築し、世界中の賢い人々の最大数がそれに貢献するかどうかです。
Metaにとって、他の会社が何か他の目的でLLaMAを使用しても害はありません。なぜなら彼らはその上に構築できるソーシャルネットワークを持っていないからです。それはGoogleにとってはより大きな脅威です。なぜならそれで検索エンジンを構築できるからです。それは彼らがこの種のアプローチについて少し肯定的でない理由かもしれません。
最初にPyTorchで、そして今やLLaMAで見てきた他の効果は、スタートアップの全エコシステムを立ち上げたことです。これを大きな産業界でも見ていて、人々が時々プロプライエタリAPIでAIシステムをプロトタイプ化することもありますが、それを展開する時が来ると、最もコスト効率の良い方法は、自社内や他のオープンソースプラットフォームで実行できるLLaMAで行うことです。
哲学的には、オープンソースプラットフォームを望む最大の要因、最も重要な理由は、短時間で、デジタル世界との私たちの相互作用のすべてがAIシステムによって仲介されるようになるということです。私は今Ray-Ban Metaスマートグラスをかけていて、Meta AIに話しかけて何でも質問することができます。
人々が単一のアシスタントを望み、それらのアシスタントが米国西海岸や中国の一握りの会社から来ると考えていません。非常に多様なアシスタントが必要です。それらは世界のすべての言語を話し、世界のすべての文化、すべての価値システム、すべての興味の中心を理解する必要があります。様々なバイアス、政治的意見などを持つ必要があります。
多様なメディアが必要なのと同じ理由で多様なアシスタントが必要です。そうでなければ、私たち全員が同じソースから同じ情報を得ることになり、それは民主主義や他の何にとっても良くありません。誰でも使えて多様なアシスタントを構築できるプラットフォームが必要です。現在、それはオープンソースプラットフォームを通じてのみ可能です。
将来はさらに重要になると思います。なぜなら、基盤モデルが世界中のすべての言語を話し、すべてを理解することを望むなら、単一のエンティティがこれを自分自身で行うことはできないからです。世界中のすべての言語のすべてのデータを収集して、AI、Meta、Google、あるいはAnthropicに渡すだけの人は誰もいません。彼らはそのデータを保持したいのです。世界の地域は、グローバルな基盤モデルのトレーニングにデータを提供したいと思っても、実際にそのデータを提供したくはないでしょう。グローバルモデルのトレーニングに貢献するかもしれません。それが将来のモデルだと思います。
基盤モデルはオープンソースになり、世界中の様々なデータセンターが異なるデータのサブセットにアクセスし、基本的にコンセンサスモデルをトレーニングする分散型の方式でトレーニングされるでしょう。それがオープンソースプラットフォームを完全に避けられないものにし、プロプライエタリなプラットフォームは消えていくと思います。
言語や物事の多様性だけでなく、アプリケーションにも意味があります。特定の企業はLLaMAをダウンロードして、アップロードしたくないプロプライエタリデータで微調整することができます。それが今起きていることです。ほとんどのAIスタートアップのビジネスモデルはこれを中心に構築されています。彼らは垂直アプリケーション向けの特化したシステムを構築しています。
ジェンセンの基調講演では、結婚式の計画、つまり誰がテーブルの周りに座るかを決めるために生成型LLMを使用する素晴らしい例がありました。そしてそれはトレーニングと推論に労力をかける間のトレードオフの素晴らしい例でした。一方では、トレーニングに膨大なリソースを費やす非常に強力なモデルを持つことができ、または、あまり強力でないモデルを構築して多くのパスで実行し、推論させて行うこともできます。強力なモデルを構築する上でのトレーニング時間と推論または検査時間のトレードオフをどのように見ていますか?最適なポイントはどこにありますか?
まず第一に、ジェンセンが推論できるシステムの方が最終的に力を得るという点で絶対に正しいと思います。現在推論能力を持つLLMが行っている推論の適切な方法がそれだという事実には同意しません。それは機能しますが、正しい方法ではありません。私たちが推論するとき、考えるとき、言語とは何の関係もない一種の抽象的な精神状態でこれを行います。
トークンをあちこちに蹴り回したくはありません。トークン空間ではなく、潜在空間で推論したいのです。あなたに立方体が目の前に浮かんでいると想像し、その立方体を垂直軸の周りに90度回転させると言うと、精神的にこれができます。それは言語とは何の関係もありません。猫もこれができますが、言語を通じて猫に問題を特定することはできませんが、猫は家具に飛び乗る軌道を計画するときにこれよりはるかに複雑なことをします。
彼らはそれよりはるかに複雑なことをし、それは言語とは関係ありません。それは確かにトークン空間、つまり一連の行動ではなく、抽象的な精神空間で行われます。それが次の数年間の課題です:この種の推論を可能にする新しいアーキテクチャを見つけ出すことです。それが私が過去数年間取り組んできたことです。
この抽象空間で推論を行うことを可能にする新しいモデルを期待すべきでしょうか?それはJAPA、またはJPA世界モデルと呼ばれています。私と同僚たちはこれに関する一連の論文を過去数年間に発表しました。これは最初のステップです。JPAはジョイントエンベディング予測アーキテクチャの略です。
これらは抽象的な表現を学習し、それらの表現を操作し、おそらく推論して特定の目標に到達するための一連の行動を生成することができる世界モデルです。それが未来だと思います。約3年前にこれがどのように機能するかを説明する長い論文を書きました。
これらのモデルを実行するには、優れたハードウェアが必要になります。過去10年間で、GPUの能力はKeplerからBlackwellまで、AIモデルのトレーニングと推論の両方で5,000〜10,000倍のオーダーで増加しました。今日、さらに多くのものが来ることを見てきました。スケールアウトとスケールアップにより、さらなる能力が提供されています。あなたの意見では、今後何が来るでしょうか?あなたのJPAモデルや他のより強力なモデルを構築するために私たちを可能にするようなものは何でしょうか?
どんどん来てください。必要なのはあらゆる競争です。この種の抽象空間での推論は実行時に計算コストがかかるでしょうし、私たち全員がよく知っていることにつながります。心理学者はシステム1とシステム2について話します。システム1は本当に考えずに達成できるタスクです。それらは第二の天性になり、あまり考えずに達成できます。
例えば、経験豊富なドライバーであれば、運転支援がなくても運転でき、誰かと話しながら運転することができます。しかし初めてまたは最初の数時間運転する場合、何をしているのかに本当に集中する必要があります。あらゆる種類の災害シナリオを計画したりします。それがシステム2です。
何が起こるかを把握するために世界モデル全体を動員し、良いことが起こるように行動を計画します。一方、タスクに慣れている場合、システム1、つまり計画せずにタスクを達成できる一種の反応システムを使用できます。最初のものである推論はシステム2であり、自動的、無意識的、反応的な方針はシステム1です。
現在のシステムはシステム2に向かって少しずつ前進しようとしていますが、最終的にはシステム2には異なるアーキテクチャが必要だと思います。物理的な世界を理解させたいなら、生成的なアーキテクチャにはならないと思います。物理的な世界は言語よりもはるかに理解が難しいです。私たちは言語を人間の知的能力の象徴と考えますが、実際には言語は離散的であるため単純です。
それはノイズに強くするために離散的であり、通信メカニズムだからです。そうでなければ、あなたは私が今言っていることを理解できないでしょう。そのため単純なのです。しかし実際の世界ははるかに複雑です。
以前に私が言ったことを聞いたかもしれません:現在のLLMは一般的に約30兆トークンでトレーニングされています。トークンは一般的に約3バイトですので、それは9から10の14乗バイト、つまり10の14乗バイトです。それを読むのに私たち誰もが400,000年以上かかるでしょう。なぜならそれはインターネット上で利用可能なすべてのテキストの総量だからです。
心理学者によると、4歳児は合計16,000時間起きており、視覚皮質には視神経を通じて毎秒約2メガバイト、おおよそ毎秒2メガバイトのデータが送られていると言われています。これに16,000時間に3600をかけると、4年間で視覚を通じて10の14乗バイトになります。これは400,000年かけて読むテキストと同じくらいのデータを見ていることになります。これは、単にテキストからトレーニングすることによってAGI(何を意味するにせよ)に到達することは決してないということを示しています。それは起こらないのです。
ハードウェアに戻りますが、スパイキングシステムに関して多くの進歩があり、これを提唱し生物学的システムがどのように機能するかの類似性を見る人々は、ニューロモーフィックハードウェアに役割があると示唆しています。ニューロモーフィックハードウェアがAIを行う上でGPUを補完または置き換える場所がありますか?
すぐには無いでしょう。[笑] この話をしなければなりません。1988年にベル研究所に入ったとき、私が所属していたグループは実際にニューラルネットのためのアナログハードウェアに焦点を当てていました。彼らは一連の世代の完全アナログニューラルネット、次に混合アナログ-デジタル、そして90年代半ばには完全デジタルを構築しました。
その頃、人々はニューラルネットへの興味を失ったので、もはや意味がありませんでした。このような特殊な基本原理の問題は、現在のデジタル半導体が非常に深いローカルミニマムにあるため、代替技術が追いつくまでに時間がかかり、膨大な投資が必要だということです。原理的レベルでそれに何らかの利点があるかさえ明確ではありません。
アナログやスパイキングニューロン、スパイキングニューラルネットのようなものには内在的な利点があるかもしれませんが、ハードウェアの再利用を非常に難しくします。私たちが現在使用しているハードウェアはある意味で大きすぎて速すぎるので、基本的に同じハードウェアを再利用してモデルの異なる部分を計算する必要があります。
アナログハードウェアを使用する場合、多重化を使用できません。仮想ニューラルネット内のニューロンごとに1つの物理ニューロンが必要です。これは、まともなサイズのニューラルネットを単一チップに収めることができないことを意味します。マルチチップにする必要があり、これができるようになれば信じられないほど高速になりますが、チップ間通信が必要になるため効率的ではなく、メモリが複雑になります。
結局、ノイズ耐性のために効率的に行う唯一の方法であるため、デジタルで通信する必要があります。実際、脳は興味深い情報を提供します。ほとんどの脳、またはほとんどの動物の脳はスパイクを通じて通信します。スパイクはバイナリ信号であり、アナログではなくデジタルです。
ニューロンレベルでの計算はアナログかもしれませんが、ニューロン間の通信は実際にはデジタルです。ただし、小さな動物を除きます。例えば、C. elegansは1mm長のワームで、302のニューロンを持っています。彼らはスパイクしません。なぜなら遠くに通信する必要がないため、その規模ではアナログ通信を使用できるからです。これは、アナログ計算のような特殊な技術を使用したい場合でも、何らかの形でデジタル通信を使用する必要があることを示しています。
他でもなく、メモリのためです。明確ではなく、私はこの計算を何度も行ってきました。おそらくあなたは私よりもこれについてはるかに詳しいでしょうが、すぐには起こらないと思います。エッジ計算の一部の領域では意味があるかもしれません。
例えば、掃除機や芝刈り機の認識システムを実行する非常に安価なマイクロコントローラが欲しい場合、計算は意味があるかもしれません。すべてを単一チップに収め、おそらく相変化メモリなどを使用して重みを保存できれば、実際にこれらを真剣に構築している人がいることを知っています。これらはPIM(メモリ内プロセッサ)またはアナログおよびデジタルプロセッサとメモリ技術と呼ばれているものです。それらに役割はありますか?有望ですか?
絶対にあります。私の同僚の何人かはこれに非常に興味を持っています。なぜなら、彼らはこれらのスマートグラスの後継を構築したいからです。常に何らかの視覚処理が行われることが望ましいです。現在、電力消費のためにそれは不可能です。このようなグラスの画像センサーのようなセンサーは常にオンにしておくことができません。数分でバッテリーが切れてしまいます。
一つの潜在的な解決策は、センサー上に直接処理を持つことです。そうすればチップからデータをシャッフルする必要がなくなります。それがエネルギーを消費するのです。データのシャッフルがエネルギーを消費し、計算自体ではありません。これに関してはかなりの作業がありますが、まだそこには達していません。これは有望な方向だと思います。
実際、生物学はこれを理解しています。網膜には約6000万個の光受容体があり、網膜の前には4層の透明なニューロンがあり、信号を処理して視覚皮質に向かう100万本の視神経繊維に圧縮します。視覚システムから最も有用な情報を取得するための圧縮、特徴抽出、あらゆる種類の処理があります。
他の新興技術についてはどうですか?量子や超伝導論理、またはAI処理能力に大きな前進をもたらす他の技術が地平線上にあると思いますか?
超伝導については、おそらく。これについて十分に知らないので本当には言えません。光学は非常に期待外れでした。1980年代にニューラルネットの光学実装に関する講演に完全に驚いたことを覚えていますが、それらは決して実現しませんでした。技術は進化しているので、物事は変わるかもしれません。
量子に関しては、量子コンピューティングに対して極めて懐疑的です。量子コンピューティングの中期的な応用で私が見ている唯一のものは、量子化学のような量子システムのシミュレーションです。他の何かに関しては、非常に懐疑的です。
赤ちゃん動物のように観察から学ぶAIの構築について話されていました。それがハードウェアにどのような要求をすると思いますか?そしてそれを可能にするためにハードウェアをどのように成長させる必要があると思いますか?どれくらい提供できますか?
購入する意志がどれだけあるかという問題です。より多く購入すれば、より多く節約できると今日聞きました。安くはありません。例えば、ビデオ。約1年前まで私の同僚が行った実験について教えましょう。
画像表現を学習するための自己教師あり学習の技術がありました。再構築を使用したものです。そのプロジェクトはMAE、つまりMasked Autoencoderと呼ばれていました。基本的にはオートエンコーダー、ノイズ除去オートエンコーダーで、使用されているものと非常に似ています。画像を取り、その一部(実際には大きな部分)を削除することで破損させ、巨大なニューラルネットをトレーニングして、ピクセルレベルまたはトークンレベルで完全な画像を再構築します。次に、内部表現を、物体認識など監視下でトレーニングするダウンストリームタスクへの入力として使用します。
それはまあまあ機能しますが、液冷GPUクラスタを冷却するために小さな池を沸騰させなければなりません。それはジョイントエンベディングアーキテクチャほどうまく機能しません。DINO、DINO V2、JAPAなどについて聞いたことがあるかもしれません。これらはジョイントエンベディングアーキテクチャであり、より良く機能し、実際にトレーニングコストが安くなる傾向があります。
ジョイントエンベディングでは、基本的に2つの入力クラスに対して2つの潜在空間があります。すべてを一種のトークンに変換する代わりに、完全な画像と破損または変換されたバージョンを取り、両方をエンコーダーに通し、それらの埋め込みをリンクしようとします。部分的に見えるまたは破損した画像の表現から完全な画像の表現をトレーニングします。これはより良く機能し、コストが安くなります。
チームは言いました。「これは画像にはまあまあ機能するようだが、ビデオでも試してみよう」。そこで今度はビデオをトークン化する必要があり、基本的にビデオを16×16のパッチに変換します。これは短いビデオでさえも多くのパッチになります。次に、ビデオで欠けているパッチを再構築したり、将来のビデオを予測したりするために巨大なニューラルネットをトレーニングします。これには小さな池ではなく小さな湖を沸騰させる必要があり、基本的に失敗でした。そのプロジェクトは中止されました。
現在我々が持っている代替案はVJAというプロジェクトで、バージョン2に近づいています。それはそのジョイントエンベディング予測アーキテクチャの一つです。表現レベルでビデオの予測を行い、本当にうまく機能しているように見えます。この例があります。最初のバージョンはわずか16フレームの非常に短いビデオでトレーニングされ、部分的にマスクされたバージョンから完全なビデオの表現を予測するようにトレーニングされています。
そのシステムは、特定のビデオが物理的に可能かどうかを、少なくとも限定的なケースでは判断できるようです。「これは可能」「これは不可能」というバイナリ出力を与えるか、もしかするともっと単純かもしれません。システムが生成する予測誤差を測定します。ビデオの16フレームのスライディングウィンドウを取り、次の数フレームを予測できるかどうかを見ます。
予測誤差を測定し、ビデオで本当に奇妙なことが起こる(オブジェクトが消える、形が変わる、自然に現れる、または物理法則に従わないなど)と、それを異常として識別します。これらは自然のビデオであり、次に本当に奇妙なことが起こる合成ビデオでテストします。本当に奇妙なことが起こるビデオでトレーニングすると、それが通常になり、それらを奇妙なものとして検出しなくなります。だからそうはしません。
それは赤ちゃんの人間が直感的な物理学を学ぶ方法と少し一致します。支えられていないオブジェクトが落ちるという事実(基本的に重力の効果)は、赤ちゃんは9ヶ月頃に学びます。5、6ヶ月の赤ちゃんに空中に浮いているように見えるオブジェクトのシナリオを見せても、彼らは驚きません。しかし9、10ヶ月になると、大きな目で見つめ、実際にそれを測定することができます。
心理学者は注意を測定する方法を持っており、それが意味するのは、乳児の内部世界モデルが侵害されているということです。赤ちゃんは可能だと思っていないことを見ており、それは彼女の期待と一致しません。そのため、内部モデルを修正するためにそれを見なければならず、「おそらくこれについて学ぶべきだ」と言います。
この共同埋め込み空間での推論と計画について話されていました。そこに到達するために何が必要ですか?モデル側とハードウェア側の両方でのボトルネックは何ですか?
それの多くは単に機能させることです。良いレシピが必要です。人々が単純な畳み込みネットといえども訓練する良いレシピを思いつく前は、それは非常に難しかったです。2000年代後半、ジェフ・ヒントンは誰にでもバックプロパゲーションで深いネットワークを訓練するのは非常に難しいと言っていました。ヤン・ルカンはConvNetsでそれができましたが、彼は世界で唯一それができる人でした。これは当時は真実でしたが、完全に正確ではありませんでした。
実際、それはそれほど難しくありませんが、多くのトリック—エンジニアリングトリック、直感的なトリック、どの非線形性を使用するか、ResNetのアイデア(これは過去10年間の科学全体で最も引用された論文です)—を理解する必要があります。それは非常に単純なアイデアです:各層をスキップする接続があるので、デフォルトでは深いニューラルネットの層は基本的にアイデンティティ関数に混乱し、ニューラルネットが行っていることはその非常に単純なアイデアからの逸脱です。
これにより、後方に行くグラデーションを失うことなく、100層以上のニューラルネットをトレーニングすることができました。人々がそれらの残差接続、アダムオプティマイザー、正規化などですべての良いレシピを思いつく前は、何も本当に機能しませんでした。トランスフォーマーでは正規化が必要ないことを示す論文も最近出ました。
このような完全なレシピとすべてのトリックがある前は、何も機能しませんでした。NPL(自然言語処理)システムでも同じでした。2010年代半ば、BERTのようなノイズ除去オートエンコーダーに基づいたシステムがありました。テキストの一部を取り、それを破壊し、欠けている単語を回復するために大きなニューラルネットをトレーニングします。
最終的に、それはGPTスタイルのアーキテクチャによって駆逐されました。そこではシステム全体でトレーニングします。オートエンコーダーとしてトレーニングしますが、アーキテクチャが因果的であるため入力を破壊する必要はありません。それは信じられないほど成功し、スケーラブルなものであることが判明しました。
同じ程度にスケールするJAPAアーキテクチャのための良いレシピを考え出さなければなりません。それが欠けているものです。
赤い点滅ライトが前にあります。最後に観客に残したい考えはありますか?終了する前に。
はい、以前に述べた点を強調したいと思います。AIの進歩と人間レベルのAI、高度な機械知能、またはAGI(何と呼ぶにせよ)に向けての進歩は、誰もからの貢献を必要とします。それは秘密裏にR&Dを行うどこかの単一のエンティティからは来ません。それは起こりません。それはイベントではなく、途中で多くの連続的な進歩になるでしょう。それが起こってから1時間以内に人類が死滅することはありません。なぜならそれはイベントではないからです。
基本的に世界中からの貢献が必要になります。オープンな研究とオープンソースプラットフォームに基づく必要があります。多くのトレーニングが必要な場合、より安価なハードウェアが必要になります。あなた方は価格を下げる必要があります。[笑] それはジェンセンと話し合う必要があります。
私たちは日常生活で私たちを助け、おそらくスマートグラスや他のスマートデバイスを通じて常に私たちと一緒にいる、非常に多様なAIアシスタントのある未来を持つでしょう。そして私たちは彼らの上司になります。彼らは私たちのために働くでしょう。私たち全員がマネージャーになるようなものです。[笑] それはひどい未来ですね。
その点で、本当に知的に刺激的な会話をありがとうございます。またこのような機会があることを願っています。
分かりました、ありがとう。はい、ありがとう。

コメント

タイトルとURLをコピーしました