
11,042 文字

ノープライアーズのリスナーの皆さん、こんにちは。2024年が素晴らしい1年になったことを願っています。今年を振り返り、私たちのお気に入りの対話からハイライトをお届けしたいと思います。
まず最初は、AIレボリューションを支えるNVIDIAのCEO、ジェンセン・ファンとの対話です。2023年のノープライアーズでの対話以降、NVIDIAの株価は3倍になり、2024年は毎月約1000億ドルの価値を生み出し、時価総額3兆ドルクラブに入りました。今回ジェンセンは、なぜNVIDIAはもはやチップカンパニーではなく、データセンターのエコシステムなのかについて、彼の視点を再び私たちと共有してくれました。
ジェンセンとの対話をお聞きください。
NVIDIAは顧客サポートの単位を徐々に大きくしてきました。単一のチップからサーバー、ラック、そしてV72へと進化してきましたが、その進化についてどうお考えですか?次は何が来るのでしょうか?NVIDIAはフルデータセンターを手がけるべきでしょうか?
実際、私たちは完全なデータセンターを構築しています。ソフトウェアを開発する場合、完全な形でコンピュータが必要です。パワーポイントのスライドを作ってチップを出荷するのではなく、データセンター全体を構築します。データセンター全体を構築しなければ、ソフトウェアが動作するかどうかわかりません。データセンター全体を構築しなければ、ファブリックが動作するかどうか、期待する効率性が得られるかどうかわかりません。
これが、パワーポイントのスライドで示されるピークパフォーマンスと比べて、実際のパフォーマンスが大幅に低くなることがある理由です。コンピューティングは昔とは違います。新しいコンピューティングの単位はデータセンターです。それが私たちが提供しなければならないものであり、今私たちが構築しているものです。
あらゆる組み合わせを考慮します。空冷x86、水冷Grace、イーサネット、インフィニバンド、NVLink、NVLinkなしなど、すべての構成を構築します。現在、私たちの会社には5台のスーパーコンピュータがあり、来年はさらに5台を簡単に構築できるでしょう。
ソフトウェアに真剣に取り組むなら、自分でコンピュータを構築します。ソフトウェアに真剣に取り組むなら、コンピュータ全体を構築することになります。私たちはそれを大規模に構築し、垂直統合し、フルスタックで最適化します。
そして、すべてを分解して部品として販売します。これが私たちの行っていることの中で最も驚くべき部分です。その複雑さは途方もないものです。なぜなら、私たちはGCP、AWS、Azure、OCIなどのインフラストラクチャに私たちのインフラストラクチャを組み込みたいからです。彼らのコントロールプレーン、セキュリティプレーンはすべて異なり、クラスターのサイジングに対する考え方も異なります。
しかし、私たちはCUDAをどこでも利用できるように、彼らすべてがNVIDIAアーキテクチャを受け入れることを可能にしています。これが最終的に単一の考えです。開発者が使えるコンピューティングプラットフォームを持ちたいのです。インフラストラクチャが少し異なる最適化をしているため、10%ここで、10%あそこで違いはありますが、彼らが構築するものはどこでも動作します。
これはソフトウェアの原則の1つであり、決して放棄してはいけません。私たちはそれを大切に守っています。それによって、私たちのソフトウェアエンジニアが一度構築したものをどこでも実行できるようになります。なぜなら、ソフトウェアへの投資が最も高額な投資であることを認識しているからです。
ハードウェア産業全体の規模を見て、世界の産業の規模を見てください。1兆ドルの産業の上に1兆ドルの産業があります。これは何かを示しています。構築したソフトウェアは、生きている限り維持しなければなりません。
もちろん、OpenAIからテスラ、そして私たち全員の教育に至るまで、AI開発の重要人物であるアンドレ・カーパシーとの対話にも触れなければなりません。彼は人間の認知の拡張としてのAIの未来について、そしてAIモデルの所有権とアクセスについて刺激的な視点を共有し、また将来のモデルが私たちが考えているよりもはるかに小さくなる可能性がある理由について説明しています。
エクソコーテックスについて話すとき、それはアクセスを民主化する必要がある非常に基本的なものだと感じます。現在のLLM研究の市場構造について、どのようにお考えですか?次世代の進歩的なトレーニングに実際に取り組んでいる大きな研究所は少数しかありませんが、これは将来の人々のアクセスにどのように影響するのでしょうか?
あなたが言及しているのは、エコシステムの現状についてですね。少数の閉鎖的なプラットフォームのオリゴポリーがあり、それに対してオープンプラットフォームが遅れを取っているような状況です。Meta LLamaなどですね。これは、オープンソースのエコシステムを反映しています。
エクソコーテックスとして考え始めると、暗号の世界には「あなたの鍵でなければ、あなたのものではない」という言葉があります。それと同じように「あなたの重みでなければ、あなたの脳ではない」という考えが出てきます。企業が効果的にあなたのエクソコーテックスを制御していることになり、これが私のエクソコーテックスだとすれば、侵略的に感じ始めます。
所有権について人々はより気にするようになるでしょう。そうですね、自分の脳をレンタルしているということに気づきます。それは奇妙に思えます。思考実験として、より良い脳をレンタルするために所有権と制御を放棄する意思がありますか?私にはあります。
これがトレードオフだと思います。どうなるかを見てみましょう。しかし、おそらくデフォルトでは素晴らしい閉鎖版を使用し、様々なシナリオでフォールバックを持つことができるでしょう。これは今日の状況の形成方法でもあります。閉鎖ソースプロバイダーのAPIがダウンした時、人々は完全に制御できるオープンエコシステムへのフォールバックを実装し始めます。
おそらく、これが脳のための将来の姿になるでしょう。何か問題が起きた場合はオープンソースにフォールバックしますが、ほとんどの場合は閉鎖版を使用します。そのため、オープンソースが進歩し続けることは非常に重要です。
これは現時点で明白なことではなく、人々が同意していることでもないかもしれませんが、100%そう思います。
一つ気になっているのは、パラメータサイズやその他の観点で、最小の性能モデルがどの程度になるかということです。あなたは蒸留や小規模モデルについて多く考えてきましたが、この点についてどうお考えですか?
驚くほど小さくなる可能性があると思います。現在のモデルは、重要でないものを記憶することに多くの容量を無駄にしています。SHAハッシュや古代の情報を記憶していますが、それはデータセットが適切に選別されていないためです。
これは将来的になくなり、認知の核心部分に到達する必要があります。認知の核心部分は非常に小さくなる可能性があり、それは考える機能を持ち、情報を探す必要がある場合は異なるツールを使用する方法を知っています。
30億パラメータでしょうか、それとも200億でしょうか?数十億のパラメータでも可能だと思います。私たちはその段階に到達するでしょう。モデルは非常に小さくなる可能性があります。
モデルが非常に小さくなる可能性がある根本的な理由は、蒸留が機能するからだと思います。蒸留は驚くほどうまく機能します。蒸留とは、非常に大きなモデルや膨大な計算能力を使って、非常に小さなモデルを監督することです。
OpenAIの取締役会メンバーでSierraの創設者であるブレット・テイラーとの対話では、将来の企業とのやり取りが大きく異なる姿を描きました。ここでは、ブレットが企業エージェントについて、そしてなぜウェブサイトが後退することになるのかを説明しています。
私の会社Sierraが取り組んでいる分野は、企業エージェントと呼ばれるものです。これは単純な自動化や自律性についてではなく、会話型AIの世界で企業がどのようにデジタルに存在するかということです。
1995年を例に取ると、デジタルに存在するということは、ウェブサイトを持ち、Yahooディレクトリに掲載されることを意味していました。2025年には、デジタルに存在するということは、おそらく顧客が製品やサービスについて質問したり、商取引をしたり、カスタマーサービスを受けたりするなど、ウェブサイトでできることすべてを行える、ブランド化されたAIエージェントを持つことを意味するでしょう。
この領域は、現在の技術で実現可能です。なぜなら、ペルソナベースのエージェントのように、技術的に壮大な課題に取り組む必要がないからです。顧客体験のための明確なプロセスがあり、記録システムも明確です。ウェブサイトからアプリ、そして今は会話型体験へと移行する中で、あなたのブランドをどのような会話型体験にしたいのかということが重要です。
完璧で簡単というわけではありません。そうでなければ、私たちはこの分野で会社を立ち上げなかったでしょう。しかし、少なくとも明確に定義されています。現在のAIで人工知能全般に取り組んでいる場合、エージェントに対する見方は異なるかもしれません。それは問題ありません。それは異なる問題を解決することになります。
しかし、特にSierraが取り組んでいる分野や、皆さんが投資している多くの企業にとって、現在の技術で実現可能な機会が確実にあると思います。
企業エージェントを構築するサイクルについて説明していただけますか?研究と現実のギャップはどの程度ですか?エンジニアリングチームとしてどのような投資を行いますか?異なる顧客環境の範囲をどのように理解しているのでしょうか?
まず、投資の方向性について、そして現在Sierraが顧客に提供している製品と、それをどこに向かわせたいのか、そしてその構成要素について教えていただけますでしょうか。ご存知の通り、Sierraは明らかにこの分野のリーダーとして台頭していますが、聴衆の方々にも理解していただきたいと思います。
具体例を挙げましょう。新しいSonosスピーカーを購入した場合や、オレンジのライトが点滅するような技術的な問題が発生した場合、Sierraが提供するSonosのAIとチャットして、ハードウェアの問題かWi-Fiの問題かを診断したり、設定をサポートしたりします。
SiriusXMの加入者の場合、そのAIエージェントはHarmonyという素晴らしい名前で、サブスクリプションレベルのアップグレードやダウングレード、新車購入時のトライアルについての対応など、すべてを行います。
広く言えば、私たちは企業がブランド化された顧客向けエージェントを構築するのを支援しています。ブランド化というのは重要な部分です。それはあなたのブランドの一部であり、ブランド体験の一部です。
これは非常に興味深く魅力的だと思います。1995年に戻ると、ウェブサイトは名刺に記載されており、初めてのデジタルプレゼンスでした。今日のエージェントを振り返ると、同じような新しさを感じ、おそらく「あれは素朴でしたね。」というように感じるでしょう。Wayback Machineで初期のウェブサイトを見ると、電話番号だけが書かれているか、DVDのイントロ画面のようにグラフィックスがたくさんあるものでした。
多くの顧客が最初に始めるエージェントは、カスタマーサービスに関連する分野です。これは非常に良いユースケースですが、3〜4年後には、エージェントは企業が行うすべてのことを網羅すると本当に信じています。
以前に使った例ですが、保険会社を想像してください。保険金請求、プラン比較、子どもが運転免許を取得する年齢になった時の保険料の追加など、企業と関わるすべてのことがエージェントによって行われるようになります。これが私たちが企業の構築を支援しているものです。
次に、信じられるほどリアルな動画AI生成モデルを構築しているOpenAIのSoraチームとの対話を紹介します。このクリップでは、彼らの研究と、世界を理解するモデルがAIへの道筋にどのように適合するかについて語っています。
Soraで行った作業が、より広範な研究ロードマップにどのように影響するかについて、何か言えることはありますか?
ここで重要なのは、Soraが視覚データを見ることで世界について学ぶ知識です。3Dを理解するのは面白いことの一つです。私たちは3Dの情報を明示的に組み込んでいませんでした。ただ動画データで訓練したところ、動画に3Dが存在するため、それを学習しました。
ハンバーガーを一口かじると噛み跡が残ることも学習しました。私たちの世界について、世界との関わり方について、非常に多くのことを学んでいるのです。私たちが世界と関わる時、その多くは視覚的です。私たちが人生を通じて見て学ぶことの多くは視覚情報です。
そのため、AIモデルがより知的になり、私たちのように世界をよりよく理解するようになるためには、これが本当に重要になると考えています。これが私たちの住む世界であり、そこには多くの複雑さがあり、人々がどのように関わり、物事がどのように起こり、過去の出来事が将来の出来事にどのように影響するかについて、動画生成以上の、より広範な知的なAIモデルにつながるでしょう。
まるで未来の視覚野と脳の推論部分の一部を同時に発明したようですね。
これは面白い比較です。なぜなら、人間の知性の多くは実際に世界のモデル化についてだからです。私たちは常に物事をどのように行うかを考える時、頭の中でシナリオを演じています。夢の中でシナリオを演じたり、行動する前に考えたりします。もしこれをしたらこうなる、別のことをしたらどうなるだろうかと。
つまり、私たちは世界モデルを持っており、Soraを世界モデルとして構築することは、人間が持つ知性の大きな部分と非常に似ています。
人間が非常におおよその世界モデルを持っているのに対し、従来のような物理エンジンのように正確なものとの類似性について、どのようにお考えですか?例えば、りんごを持って落とすと、特定の速度で落ちると予想しますが、ほとんどの人間はそれを計算として経路や速度を明確に考えているわけではありません。このような学習は大規模モデルでは並行して行われると思いますか?
これは非常に興味深い観察だと思います。私たちは、それが高精度でないことは人間の欠陥のようなものだと考えています。物理学の非常に狭い範囲で正確な長期予測ができないということは、これらのシステムで改善できることです。
Soraがその能力を超え、長期的には人間の世界モデルよりも知的になることを楽観視しています。しかし、他の種類の知性には必要ないという存在証明であることは確かです。それにもかかわらず、Soraや将来のモデルが改善できることです。
フットボールを投げる軌道予測は、次のバージョンのこれらのモデルの方が私よりも優れているのは明らかですね。
それに付け加えると、これはスケールのパラダイムと、計算能力を増やすにつれてより良くなる方法が欲しいということに関係します。このパラダイムでうまく機能するのは、単にデータを予測するという単純だが挑戦的なタスクを行うことです。
例えば、動画を明示的に使用しない、おおよその物事をシミュレートする空間のような、より複雑なタスクを考えることもできますが、この複雑さは実際には、方法がスケールを増やすにつれて改善する法則には有益ではありません。
スケールを増やすにつれてうまく機能するのは、単にデータを予測することです。テキストでは単にテキストを予測し、それがSoraで視覚データに対して行っていることと全く同じです。
何か複雑なことを最適化しようとするのではなく、インテリジェンスをスケーラブルな方法で学習する最良の方法は、単にデータを予測することだと言っています。それは理にかなっています。ビルの言ったことに関連して、予測は人間の近似値に制限されることなく、より良くなり続けるでしょう。
また、サンフランシスコやフェニックスなどの都市で週に10万件以上の完全自律走行を実現しているWaymoの共同CEOであるドミトリ・ドルゴフとも対談しました。これは私のお気に入りの移動手段です。このインタビューでドミトリは、ドライバーを完全に取り除き、自動運転で99.99%ではなく100%の精度を達成することが、思われているよりもはるかに難しい理由を説明しています。
高度な運転支援システムが多くのシナリオで機能するようになっているのに対し、完全自動運転との違いは何でしょうか?その差は何ですか?
それは9の数、つまり問題の性質です。2009年に私たちが始めた時を考えてみましょう。最初のマイルストーンの一つ、私たちが設定した目標の一つは、ベイエリア全域で10のルート、それぞれ100マイルの走行でした。高速道路、サンフランシスコのダウンタウン、タホ湖周辺など、すべてを走行し、介入なしで100マイルを走破しなければなりませんでした。
それが私たちが自分たちに課した目標でした。約12人のチームで、達成までに18ヶ月ほどかかりました。2009年、ImageNet もConvNet もTransformer も大規模モデルもなく、小さなコンピュータだけでした。
始めるのは常に容易でした。すべての技術の波において、始めるのは非常に簡単でしたが、それは問題の難しさではありません。複雑さは、多くの9の長いテールにあります。プロトタイプや運転支援システムではそれは見えません。
これが私たちがすべての時間を費やしている唯一の難しい部分です。近年は、AIの進歩、特に生成AIの世界やLLM、BLMにより、さらに簡単になっています。ほぼそのまま使えるTransformerを使用できます。VLMは素晴らしく、画像や動画を受け入れ、テキストプロンプトを与えてテキストを出力するデコーダーを持つVLMを取り、少しのデータで微調整して、車のカメラデータから単語の代わりに軌道や決定を出力することができます。
ブラックボックスとして扱い、長時間訓練されたものを取り、少し微調整するだけです。今日、コンピュータサイエンスの優秀な卒業生に自動運転を構築してもらえば、これが彼らのやり方でしょう。
そして、すぐに何かが道路上で動作し、数十、数百マイルを走行できるようになります。Transformerの力、VLMの力は驚くべきものです。少しの努力で、道路上で動作するものが得られ、それは心を打つものになります。
しかし、それで十分でしょうか?ドライバーを取り除き、数百万マイルを走行し、人間よりも明らかに優れた安全記録を示すのに十分でしょうか?いいえ。これは、すべての技術の進化とAIのブレークスルーで見てきたことです。
次に、私の親愛なる友人で、FigmaのCEOであるディラン・フィールドとの対話を紹介します。ディランは、AI駆動の世界でユーザーインターフェースがどのように進化するかについての予測を共有しています。多くの人々が会話型やエージェントベースのインターフェースへの移行を予測する中、ディランは新しいインターフェースパラダイムが既存のものを補完すると示唆しています。また、次世代の入力方法として、視覚AIとインテリジェントカメラの興味深い可能性も強調しています。
AIによって、UIは一般的にどのように変化すると思いますか?短期的には多くのものがチャットインターフェースに集約されており、ほとんどのUIを完全に排除するエージェントベースの未来について多くの人が語っています。UIの行方についてどのようにお考えですか?
これは先ほど私が話していたラビットの話に戻ると思います。エージェントに関して多くのイノベーションが起きていますが、エージェントとインターフェースする方法についてはまだ始まったばかりだと思います。インターフェースはより洗練されていくでしょう。
たとえそうでなくても、新しいメディアタイプが導入されても古いメディアタイプが消えないのと同じように、TikTokがあるからといってYouTubeを見なくなるわけではありません。新しい対話形式がチャットインターフェースを通じて行われるようになるとしても、それを前提としても、UIは依然として存在し、実際にはより多くのUIとより多くのソフトウェアが存在すると思います。
マルチモダリティについて予測はありますか?例えば、音声とテキスト、その他のインターフェースタイプをいつ使用するかについて、様々な議論がありますね。どのような場合にどれを使用するかについて、様々な議論があります。
マルチモダルモデルの台頭により、リアルタイムで会話の文脈的な意味理解ができるようになるため、テキストベースのUIよりも音声入力や会話型UIが増えるだろうと示唆する人もいます。これによってデザインの考え方も変わってきますが、そのような未来志向の考えについて何かご意見はありますか?
音声UIが本当に重要な文脈は多くあり、従来のUIが音声UIにマッピングされ始める可能性があります。より一般化された方法で明らかにできることですが、個人的には、毎日関わる情報空間をすべて音声で操作したくはありません。
Vision Proでマイノリティ・リポートスタイルでも操作したくありません。キーボードとマウス、そして素晴らしいVision Proモニターセットアップか、Oculusのようなものであれば良いかもしれませんが、マイノリティ・リポートのようなことはしたくありません。
新しい相互作用パターンの垣間見が得られ、それらが非常にクールだと感じると、自然な傾向としてそれらがすべてに有用だと考えがちです。しかし、それらには特定の役割があり、私たちが行うすべての相互作用で普遍的になるわけではありません。
これは自然なサイクルであり、それはそれで良いことです。「これで何ができるだろうか?」というある種のマニアックな状態を持つことは健全です。なぜなら、そうでなければ発見することができないからです。できる限り探求することを支持します。それが、HCIを進歩させ、コンピュータを最大限に活用する方法を見つける方法だからです。
私が本当に期待しているのは、入力モードやペリフェラルと考えることもできますが、人々が視覚的なものを説明するのは本当に難しいということです。そのため、最も基本的な意味でのインテリジェントカメラのアイデアは、探求するのに本当に楽しい領域だと思います。
実際に有用になると思いますし、すべてのユーザーが写真を撮ったり、ビデオを撮影したりすることができます。そのため、それは非常に期待しています。
2024年のお気に入りの瞬間を締めくくるのは、ScaleのCEOであるアレクサンダー・ワンです。このクリップでは、アレクサンダー・ワンがAGIへの道筋についての大胆な見解を共有しています。また、AIにおける一般化が多くの人が考えているよりも難しい理由や、これらのニッチな問題を解決し、より多くのデータと評価を行うことが技術を進歩させる鍵となる理由についても掘り下げています。
他の人が持っていないAIについてのあなたの信念は何ですか?
私の最大の信念は、AGIへの道筋はワクチンの開発よりもがんの治療に似ているということです。つまり、AGIを構築する道筋は、一つの問題を解決することから次の問題を解決することへのポジティブなレバレッジがあまり得られない、多くの小さな問題を解決する必要があるということです。
がんの治療のように、個々のがんにズームインしてそれぞれ独立して解決する必要があり、数十年の時間枠の中で振り返ってみると、AGIを構築し、がんを治療したことに気づくでしょう。しかし、そこに至る道のりは、個々の能力を解決し、この最終的な使命を支える個々のデータフライホイールを構築するという、かなり地道な道のりになるでしょう。
一方、業界の多くの人々は、AGIへの道筋を、最終的にはブーンと一気に達成できるように描いています。これは、技術の軌道や社会がどのように対処すべきかについての考え方に多くの影響を与えます。
実際、社会が技術に適応するのにはかなり楽観的なケースだと思います。なぜなら、かなり長い間、一貫した緩やかな進歩があり、社会は開発される技術に完全に順応する時間を持つことになるからです。
一つの問題を一度に解決すると言う時、アナロジーから少し離れると、それをどのように考えるべきでしょうか?マルチステップ推論の一般性が本当に難しく、モンテカルロ研究は人々が考えているような答えではないということでしょうか?それとも、スケーリングの壁に直面するということでしょうか?複数の問題を解決するという点で、どのような次元があるのでしょうか?
基本的に、私が考えているのは、これらのモデルから得られる一般性は非常に限られているということです。例えば、マルチモダリティについても、ある様相での学習が他の様相に対して正のトランスファーをもたらすことはほとんどありません。大量の動画で訓練しても、テキストの問題にはあまり役立ちません。その逆も同様です。
これは、各能力のニッチや各能力領域が、性能を押し上げ、推進するための個別のフライホイール、データフライホイールを必要とすることを意味します。
まだ、世界モデルの基礎として動画を信じていませんか?それは素晴らしい物語ですが、まだ強力な科学的証拠はないと思います。最終的にはあるかもしれませんが、基本的なケースは、モデルからの一般化はそれほど多くないというものです。そのため、実際にはAGIを最終的に解決するために、多くの小さな問題をゆっくりと解決していく必要があります。
2024年のご視聴ありがとうございました。AIで世界を作り変えている人々との対話を楽しんでいただけたと思います。今日お聞きいただいた対話についてより深く掘り下げたい場合は、フルエピソードへのリンクを説明欄に記載しています。
来年お会いしたい方や質問があれば、ぜひお知らせください。良い年末年始をお過ごしください。
Twitterのノープライアーズポッドをフォローしてください。顔が見たい方はYouTubeチャンネルを購読してください。新しいエピソードを毎週お届けできるよう、Apple PodcastやSpotify、お好きな場所で番組を購読してください。
メール登録や全エピソードのトランスクリプトはno-pri.comでご確認いただけます。
コメント