
5,118 文字

NVIDIAのCEOジェンセン・ファンがCES 2025に登場し、2025年に向けての衝撃的な発表を行いました。その一部は、例えばブラックウォールのデモンストレーションなど、より大きなチップの発表でした。彼がソーとしてデモを行う中で、この装置が処理できる数値は驚異的なものでした。インターネット全体のデータストリームよりも多くのデータを処理できるのです。このチップは基本的に世界中のインターネットトラフィックを処理できるという、非常に奇妙なものです。
他にも、完全にAIで制御されたビデオゲームを支援する新しいAIコンパニオンや、新しいスケーリング法則など、たくさんのクールな発表がありました。しかし、ある一つの新しく異なる要素があります。全く新しいというわけではありませんが、ChatGPTがAIにもたらしたような波が、今年は私たちに襲いかかってくるという意味で新しいのです。私たちはまもなく、もう一つのChatGPTモーメントを迎えようとしています。ただし今回はロボティクスについてです。
家庭でのロボットの実用化は、いつも「すぐそこまで来ている」と言われてきました。「今年こそロボットが」「今年こそ」と毎年言われ続けてきましたが、実際には実現しませんでした。2025年は、本当にその転換点になりそうです。2024年以前は、いわばBR(Before Robots、ロボット以前)、ロボティクス以前の時代でした。私はヒューマノイドについて話していますが、2025年がその転換点となります。
ジェンセン・ファンがこのプレゼンテーションで言及した最も驚くべきことの一部を見てみましょう。まずはロボティクスから始めましょう。なぜなら、私は2025年をロボティクスの年と呼ぶことにしたからです。
リナックスと言えば、フィジカルAIについて話しましょう。想像してみてください。大規模言語モデルでは、左側にコンテキストやプロンプトを入力し、一度に一つずつトークンを生成して出力を生成します。基本的にそれが仕組みです。真ん中のこのモデルは非常に大きく、何十億ものパラメータを持っています。コンテキスト長も非常に長く、PDFを読み込むことができます。私の場合は、質問をする前に複数のPDFを読み込むかもしれません。
PDFの代わりに周囲の環境を、プロンプトの質問の代わりに「あそこに行ってその箱を持ってきて」というような要求を、そしてテキストとして生成されるトークンの代わりにアクションのトークンを生成するとしたらどうでしょう。私が今説明したのは、ロボティクスの未来にとって非常に理にかなったことであり、その技術はすぐそこまで来ています。
しかし、私たちがする必要があるのは、効果的な世界モデルを作ることです。GPTが言語モデルであるのに対し、この世界モデルは世界の言語を理解する必要があります。重力、摩擦、慣性といった物理的な動力学を理解し、幾何学的・空間的な関係を理解し、因果関係を理解する必要があります。
何かを落とせば地面に落ちること、突いて倒れれば傾くこと、そして物体の永続性も理解する必要があります。キッチンカウンターの上でボールを転がすと、反対側に行ってしまっても、そのボールは別の量子宇宙に消えてしまったわけではなく、まだそこにあるということです。
これらの種類の理解、直感的な理解は、今日のほとんどのモデルが苦手とするものです。そこで、世界の基盤モデルを作る必要があります。本日、私たちは非常に大きな発表をします。物理的な世界を理解するために設計された世界基盤モデル、Nvidia Cosmosを発表します。これを本当に理解するには、実際に見ていただく必要があります。
Nvidia Cosmos、世界初の世界基盤モデルです。これは2000万時間の映像でトレーニングされています。この2000万時間の映像は、物理的なダイナミクスに焦点を当てています。自然のダイナミクス、人間の歩行、手の動き、物の操作、素早いカメラの動きなど、創造的なコンテンツを生成することではなく、AIに物理的な世界を理解させることに重点を置いています。
このフィジカルAIから、その結果として多くのダウンストリームのことができます。モデルをトレーニングするための合成データを生成したり、それを蒸留してロボティクスモデルの始まりとなる種を効果的に作り出したりすることができます。物理的に基づいた、物理的にもっともらしい未来のシナリオを複数生成することができます。基本的にドクター・ストレンジのようなことができるのです。
このモデルは物理的な世界を理解しているので、もちろん生成された画像をたくさん見ましたが、キャプション付けも非常によくできます。そのキャプションと映像は、マルチモーダルな大規模言語モデルのトレーニングに使用することができます。この技術を使って、ロボティクスやロボット、そして大規模言語モデルのトレーニングにも使用できます。
これがNvidia Cosmosです。このプラットフォームには、リアルタイムアプリケーション用の自己回帰モデル、非常に高品質な画像生成用の拡散モデル、実世界の語彙を学習する素晴らしいトークナイザー、そしてデータパイプラインがあります。もしあなたがこれらすべてを取得して自分のデータでトレーニングしたい場合、このデータパイプラインは、非常に多くのデータが関与するため、すべてをエンドツーエンドで加速化しています。
これは世界初のCuda加速およびAI加速されたデータ処理パイプラインです。これらすべてがCosmosプラットフォームの一部です。そして本日、Cosmosがオープンライセンスで利用可能になることを発表します。GitHubで利用可能です。
非常に高速なモデル、メインストリームモデル、そして知識転送モデルのための教師モデルなど、小・中・大のサイズがあります。Cosmosの世界基盤モデルがオープンになることで、llama 3がエンタープライズAIに対して行ったことを、ロボティクスと産業用AIの世界に対して行うことを本当に期待しています。
魔法が起こるのは、CosmosをOmniverseに接続したときです。その根本的な理由は、Omniverseが物理的に基づいているだけでなく、物理法則に基づいているということです。アルゴリズム的な物理法則、原理的な物理法則のシミュレーションに基づいたシステムです。これはシミュレーターです。
それをCosmosに接続すると、Osmosの生成を制御し、条件付けできる基盤、真実の基盤を提供します。これは、大規模言語モデルをRAG(検索拡張生成)システムに接続するのとまったく同じ考え方です。AIの生成を真実の基盤に基づかせたいのです。この2つを組み合わせることで、物理的にシミュレートされた、物理的に基づいたマルチバース生成器が得られます。
アプリケーションやユースケースは本当にエキサイティングです。もちろん、ロボティクスや産業用アプリケーションにとって、それは非常に明確です。このCosmos、そしてOmniverse、そしてCosmosは、ロボティクスシステムを構築するために必要な第3のコンピュータを表しています。
すべてのロボティクス企業は、最終的に3つのコンピュータを構築する必要があります。ロボティクスシステムは工場かもしれませんし、車かもしれませんし、ロボットかもしれません。3つの基本的なコンピュータが必要です。
もちろん1つ目のコンピュータは、AIをトレーニングするためのものです。私たちはこれをDGXコンピュータと呼んでいます。そして2つ目は、もちろんAIを展開するためのものです。これをAGXと呼んでいます。これは車の中やロボットの中、AMRの中、あるいはスタジアムなどにあります。これらのコンピュータはエッジにあり、自律的です。
しかし、この2つを接続するためには、デジタルツインが必要です。これが、あなたが見ていたシミュレーションのすべてです。デジタルツインは、トレーニングされたAIが練習し、改良され、合成データ生成、強化学習、AIフィードバックなどを行う場所です。これはAIのデジタルツインです。
これら3つのコンピュータは相互に作用することになります。産業界に対するNVIDIAの戦略は、私たちがしばらく前から話してきたように、この3つのコンピュータシステムです。3体問題の代わりに、3つのコンピュータソリューションを持っているのです。これがNVIDIAロボティクスです。
3つの例を挙げましょう。最初の例は、これらすべてを産業のデジタル化にどのように適用するかということです。何百万もの工場、何十万もの倉庫があり、これは基本的に50兆ドルの製造業の背骨です。そのすべてがソフトウェア定義になり、すべてが将来的には自動化を持ち、すべてがロボティクスを取り入れることになります。
私たちは、世界をリードする倉庫自動化ソリューションプロバイダーであるキオンと、世界最大のプロフェッショナルサービスプロバイダーであり、デジタル製造に大きな焦点を当てているアクセンチュアとパートナーシップを組んでいます。私たちは一緒に本当に特別なものを作ろうとしています。後でそれをお見せしますが、私たちの市場参入戦略は、基本的に他のすべてのソフトウェアプラットフォームや技術プラットフォームと同じです。
開発者とエコシステムパートナーを通じて、そして私たちには、Omniverseに接続する成長中のエコシステムパートナーがいます。その理由は非常に明確です。誰もが産業の未来をデジタル化したいと考えています。世界のGDPの50兆ドルには、非常に多くの無駄があり、自動化の機会がたくさんあります。
キオンとアクセンチュアと一緒に行っている一つの例を見てみましょう。次の部分はロボティクスについてです。
私の友人たちよ、一般的なロボティクスのChatGPTモーメントはすぐそこまで来ています。実際、私が話してきたすべての実現技術により、次の数年で一般的なロボティクスにおいて非常に急速な、驚くべきブレークスルーを見ることが可能になります。
一般的なロボティクスが非常に重要な理由は、トラックや車輪を持つロボットが特別な環境を必要とするのに対し、世界には、グリーンフィールドやブラウンフィールドの適応が完璧に不要な3つのロボットが存在するということです。もし私たちがこれらの素晴らしいロボットを作ることができれば、私たち自身が作ってきた正確な世界に展開することができます。
これら3つのロボットとは、1つ目はエージェンティックロボット、つまりエージェンティックAIです。情報労働者なので、私たちのオフィスにあるコンピュータに対応できさえすれば素晴らしいでしょう。2つ目は自動運転車です。その理由は、私たちが100年以上かけて道路や都市を作ってきたからです。そして3つ目はヒューマノイドロボットです。
もし私たちがこれら3つを解決する技術を持っていれば、これは世界が今まで見た中で最大の技術産業となるでしょう。そして私たちは、ロボティクスの時代がすぐそこまで来ていると考えています。重要な能力は、これらのロボットをどのようにトレーニングするかということです。
ヒューマノイドロボットの場合、模倣情報の収集は非常に難しいです。その理由は、車の場合は単に運転すればよく、私たちは常に車を運転していますが、これらのヒューマンロボットの場合、模倣情報、つまり人間のデモンストレーションは非常に労力のかかる作業だからです。
そのため、私たちは、何百もの、何千もの人間のデモンストレーションを取り、何らかの方法で人工知能とOmniverseを使用して、何百万もの合成的に生成された動きを生成し、それらの動きからAIがタスクを実行する方法を学ぶことができるような、賢い方法を考え出す必要があります。
2025年はロボティクスの年になるため、今後数週間でこれについてさらに見ていくことになるでしょう。なぜこの大きな転換点がここにあると考えているのか、後でお見せします。しかし、この動画を先行して出して、これが私が賭けているものだと言いたかったのです。
次の動画では、彼のプレゼンテーションで話されたもう一つの大きな話題についてカバーします。ここまで見てくれてありがとうございます。私の名前はウェス・アールティーエイチです。また近いうちにお会いしましょう。
コメント