NvidiaのCEOが明かすAIの次なるステップ

7,570 文字

YouTube
作成した動画を友だち、家族、世界中の人たちと共有

NvidiaのCEOであるジェンスン・ファンがCESで、AIの次なるステップについての本質的な洞察を示してくれました。それは生成AIではなく、物理AIなのです。このチャートを見ていただくと、最初のステップとして生成AIがあり、その後今年大きく進展するであろうAIエージェント、そして最上位に物理AIがあります。これは本質的に自動運転車や一般的なロボット工学を含む具現化されたAIのことです。
なぜこれが驚くべきことで、AIの次なる進化であるのか、詳しく見ていきましょう。AIモデルのパフォーマンスはデータの利用可能性に直接関係していますが、物理世界のデータの取得、キュレーション、ラベル付けには多大なコストがかかります。
NvidiaのCosmosは、物理AIを進歩させるための世界基盤モデル開発プラットフォームです。これには自己回帰型世界基盤モデル、拡散ベースの世界基盤モデル、高度なトークナイザー、そしてNvidia CUDAとAIで加速されたデータパイプラインが含まれています。
Cosmosモデルはテキスト、画像、動画のプロンプトを取り込み、動画として仮想世界の状態を生成します。Cosmosの生成は、実世界の環境、照明、物体の永続性など、自動運転車やロボット工学のユースケースに特有の要件を優先します。
開発者はNvidia Omniverseを使用して、物理ベースで地理空間的に正確なシナリオを構築し、そのOmniverseのレンダリングをCosmosに出力して、写実的で物理ベースの合成データを生成します。これには多様なオブジェクトや環境条件(天候や時間帯)、エッジケースのシナリオが含まれます。
開発者はCosmosを使用して、強化学習AIのフィードバックのための世界を生成し、ポリシーモデルを改善したり、マルチセンサービューにわたってモデルのパフォーマンスをテストおよび検証したりします。Cosmosはリアルタイムでトークンを生成し、未来シミュレーションの力をAIモデルにもたらし、モデルが正しい経路を選択できるようあらゆる可能な未来を生成します。
世界の開発者エコシステムと協力して、NvidiaはAIの次の波である物理AIの進歩を支援しています。
ここでジェンスン・ファンは、大規模言語モデルが自然言語でモデルと対話できるように、ロボット工学にも同様の世界基盤モデルが必要だと語っています。これは彼らがCosmosモデルで構築しようとしているものです。
物理AIについて説明しましょう。大規模言語モデルでは、左側にコンテキストやプロンプトを与え、一度に1つずつトークンを生成して出力を生成します。これが基本的な仕組みです。中間のモデルは非常に大きく、数十億のパラメータを持ち、コンテキストの長さも非常に大きいです。なぜなら、PDFを読み込む場合もあるからです。私の場合、質問をする前に複数のPDFを読み込むかもしれません。
これらのPDFはトークンに変換され、トランスフォーマーの基本的な注意特性により、各トークンは他のすべてのトークンとの関係性と関連性を見出します。数十万のトークンがあり得て、計算負荷は二次関数的に増加します。これがすべてのパラメータ、すべての入力シーケンスで行われ、トランスフォーマーの各層を通過して1つのトークンを生成します。
これがBlackwellが必要な理由です。次のトークンは、現在のトークンが完了したときに生成され、現在のトークンを入力シーケンスに入れて、それ全体を使って次のトークンを生成します。一度に1つずつ行われます。これがトランスフォーマーモデルであり、計算負荷が非常に高い理由です。
PDFの代わりに周囲の環境が入力で、質問の代わりに「あそこに行ってそのボックスを取って戻ってきて」というリクエストがあり、テキストの代わりにアクショントークンが生成されるとしたらどうでしょう?これは、ロボット工学の未来にとって非常に理にかなったことであり、技術は目前に迫っています。
しかし、私たちがする必要があるのは、GPTが言語モデルであるのに対して、効果的な世界モデルを作ることです。この世界モデルは世界の言語を理解する必要があります。重力、摩擦、慣性といった物理的な力学、幾何学的・空間的な関係、因果関係を理解する必要があります。
何かを落とせば地面に落ちること、突くと倒れること、物体の永続性も理解する必要があります。例えば、ボールをキッチンカウンターの上で転がし、反対側に落ちても、ボールは別の量子宇宙に消えたわけではなく、まだそこにあります。
これらすべての直感的な理解は、今日のほとんどのモデルが苦手としているものです。多くの人が知らないかもしれませんが、物理AIが大規模言語モデルのレベルに追いついていない理由は、もちろん十分なデータがないからです。
ChatGPTや大規模言語モデルは、世界中から集められた数兆もの異なるテキストで訓練されています。そのため、実際に機能する人型ロボットを作るためには、どこかからそのデータを取得する必要があります。
NvidiaのプロジェクトIsaac Groは、データ収集の取り組みを拡大するために使用しているフレームワークです。これが将来のイテレーションでさらに効率化されれば、より多くのデータを収集しやすくなり、人型ロボットの能力は急速に向上していくでしょう。
私たちは皆、Nvidiaの動きの速さを知っています。これが、私が今後数年間のロボット工学に非常に強気な理由です。あなたが予想するよりもはるかに速く進展する可能性が高いのです。
これは注目すべきことです。AIエージェントのように今年や来年ではないかもしれませんが、確実に近い将来、工場での特定の役割を担い、これまでできなかった様々な作業を自動化し始めるにつれて、私たちに影響を与えることになるでしょう。
世界中の開発者たちが次世代の物理AI、具現化されたロボット、人型ロボットを構築しています。汎用ロボットモデルの開発には、取得とキュレーションにコストのかかる膨大な実世界のデータが必要です。
Nvidia Isaac Grootは、これらの課題に取り組むため、人型ロボット開発者に4つのものを提供します:ロボット基盤モデル、データパイプライン、シミュレーションフレームワーク、そしてThorロボティクスコンピュータです。
Nvidia Isaac Grootの合成モーション生成のブループリントは、模倣学習のためのシミュレーションワークフローで、開発者が少数の人間のデモンストレーションから指数関数的に大きなデータセットを生成できるようにします。
まず、Groot teleopによって、熟練作業者はApple Vision Proを使用してロボットのデジタルツインにポータル接続できます。これにより、オペレーターは物理的なロボットがなくてもデータを取得でき、物理的な損傷や摩耗のリスクなしに、リスクのない環境でロボットを操作できます。
単一のタスクをロボットに教えるために、オペレーターはテレオペレーションによるデモンストレーションを通じてモーションの軌跡を取得し、Groot mimicを使用してこれらの軌跡をより大きなデータセットに増幅します。
次に、OmniverseとCosmosをベースにしたGroot genを使用して、ドメインのランダム化と3Dトゥリアルアップスケーリングを行い、指数関数的に大きなデータセットを生成します。OmniverseとCosmosのマルチバースシミュレーションエンジンは、ロボットのポリシーを訓練するための大規模なデータセットを提供します。
ポリシーが訓練されると、開発者は実際のロボットに展開する前に、Isaac Simでソフトウェアインザループのテストと検証を実行できます。Nvidia Isaac Grootによって支えられた汎用ロボット工学の時代が到来しています。
Nvidia Isaac groupは、ロボット工学産業の開発を加速させるための技術プラットフォーム要素を提供するプラットフォームです。
もし工場や国でこの種のAIがどのように革新をもたらすのか正確に知りたければ、彼らが提供するこの例を見てください。バックグラウンドでこれらのシミュレーションの様々なプロセスを実行することで、すでに工場の効率を最大化しています。これは、AI技術が経済の複数の部分に統合されたときにどれほど変革的になるかを示しています。
サプライチェーンソリューション企業のKeon、グローバルなプロフェッショナルサービスのリーダーであるAccenture、そしてNvidiaは、1兆ドル規模の倉庫・流通センター市場に物理AIをもたらしています。
高性能な倉庫物流の管理には、日々や季節による需要の変化、空間の制約、労働力の利用可能性、多様なロボットと自動化システムの統合など、常に変化する変数に影響される複雑な意思決定の網が含まれます。物理的な倉庫の運用KPIを予測することは、今日ではほぼ不可能です。
これらの課題に取り組むため、Keonは産業用デジタルツインを構築するためのNvidia Omniverseのブループリント、Megaを採用しています。まず、Keonの倉庫管理ソリューションは、バッファ位置から保管ソリューションへの荷物の移動など、デジタルツイン内の産業用AIブレーンにタスクを割り当てます。
ロボットのブレーンは、オープンUSDコネクタを使用してCAD、ビデオ、画像から3Dライトアート、点群、AI生成データを集約してOmniverseにデジタル化された物理的倉庫のシミュレーション内にあります。
ロボットの群れは、Omniverseデジタルツイン環境を認識し、推論を行い、次の動作を計画し、行動することでタスクを実行します。ロボットのブレーンはセンサーシミュレーションを通じて結果の状態を見て、次のアクションを決定できます。
Megaがデジタルツイン内のすべての状態を正確に追跡している間、このループは継続します。これにより、Keonは物理的な倉庫に変更を展開する前に、スループット、効率性、利用率などの運用KPIを測定しながら、無限のシナリオを大規模にシミュレーションできます。
NvidiaとともにKeonとAccentureは産業用自律性を再発明しています。これは素晴らしいことです。将来、すべての工場はデジタルツインを持ち、そのデジタルツインは実際の工場とまったく同じように動作します。
実際、OmniverseとCosmosを使用して大量の未来のシナリオを生成し、AIがKPIに応じて最適なシナリオを選択し、それが実際の工場に展開されるAIのプログラミング制約やプログラムとなります。
AIで多くの人が見過ごしている次のことは、実際には自動運転の未来です。ほとんどの人はWhmoを体験していませんが、信じてください。この会社は急速にドライバーリングのサービスを拡大しており、今後数年間でさらに多くの都市に展開される予定です。
これまでWhmoについて話をした人々の話では、これは彼らが経験した中で最高の運転体験だと言っています。これはNvidiaが参加を目指している分野です。なぜなら、もちろんAIは様々なカテゴリーに影響を与えるからです。
将来、自動運転がますます一般的になっても驚きません。人々と話すと、「人間と関わる必要がない、音楽も流れていない、静かで、快適で、運転も穏やかだ」と言います。これは私たちの経済や道路の未来を変えるものになり、近い将来、これらの車が私たちの都市で普及し始めることが期待できます。
次の例は自動運転車です。AVの革命が到来しました。WhmoやTeslaの成功の後、自動運転車がついに到来したことは非常に明確です。この業界への私たちの提供は3つのコンピュータです。AIを訓練するための訓練システム、シミュレーションシステム、合成データ生成システムのOmniverseとCosmosそして車内のコンピュータです。
各自動車会社は私たちと異なる方法で協力し、1つか2つ、あるいは3つのコンピュータを使用するかもしれません。私たちは世界中のほぼすべての主要な自動車会社と協力しています。データセンターではWhmo、Zoox、もちろんTesla、世界最大のEV企業BYD、とてもクールな車を出すJLR、今年から生産を開始するNvidiaを搭載したメルセデスの車両群など。
本日、トヨタとNvidiaが次世代AVsを共同開発するためのパートナーシップを結ぶことを発表できることを非常に嬉しく思います。Lucid、Rivian、Xiaomi、そしてもちろんVolvoなど、本当に多くのクールな企業があります。Wabiは自動運転トラックを開発しており、AuroraもNvidiaを使用して自動運転トラックを開発することを今週発表しました。
毎年1億台の自動車が製造され、世界中に10億台の車両があり、毎年1兆マイルが走行されています。これらすべてが近い将来、高度に自律的か完全に自律的になるでしょう。これは非常に大きな産業になると予測しています。
これは私たちにとって最初の数兆ドル規模のロボット工学産業になるでしょう。世界に出回り始めているこれらの車のうちのほんの一部で、私たちのビジネスはすでに40億ドルになっており、今年は恐らく50億ドルのペースになるでしょう。これは既に非常に重要なビジネスであり、非常に大きくなるでしょう。
本日、私たちは車載用の次世代プロセッサー、次世代コンピュータ「Thor」を発表します。ここに1台あります。これがThorです。これはロボティクスコンピュータです。センサーと膨大な量のセンサー情報を処理します。高解像度カメラ、レーダー、ライダーなど、すべてがこのチップに入力され、このチップはそのすべてのセンサーを処理してトークンに変換し、トランスフォーマーに入力して次の経路を予測します。
このAVコンピュータは現在フル生産に入っています。Thorは、今日の自動運転車の標準となっている前世代のOrinの20倍の処理能力を持っています。これは本当に驚くべきことです。Thorはフル生産に入っており、このロボティクスプロセッサはフルロボットにも搭載可能です。
AMR(自律型移動ロボット)や人型ロボット、それらの頭脳や操作部になる可能性があります。このプロセッサは基本的に汎用ロボティクスコンピュータです。
私たちのドライブシステムの第二の部分で非常に誇りに思っているのは、安全性への献身です。Driosは、自動車の機能安全性の最高基準であるASIL-Dまで認証された、最初のソフトウェア定義プログラマブルAIコンピュータとなったことを発表できることを嬉しく思います。
これは唯一かつ最高の基準であり、ISO 26262に準拠しています。これは15,000工学年に及ぶ作業の成果であり、非常に特筆すべき成果です。その結果、CUDAは機能安全なコンピュータとなり、ロボットを開発する場合はNvidia CUDAを使用できます。
そして今、Nvidiaのデジタルツインを見ることができます。これは、これらの車両をより正確で安全にするために、データ収集の取り組みを拡大する方法です。将来、私たちが実世界では遭遇することのないかもしれない何百万、何十億ものシナリオや状況があるでしょうが、AIは1万の例で訓練されているでしょう。
平均的なドライバーよりもはるかに優れているはずです。これは考えてみると驚くべきことです。自動運転車革命が到来しています。他のすべてのロボットと同様に、自動運転車の開発には3つのコンピュータが必要です。
AIモデルを訓練するNvidia DGX、テスト走行と合成データ生成を行うI-MARS、そして車載スーパーコンピュータDrive AGXです。安全な自動運転車を開発するには、エッジケースに対処する必要がありますが、実世界のデータには限りがあるため、トレーニングには合成データが不可欠です。
Nvidia Omniverse AIモデルとCosmosによって動作する自動運転車データファクトリーは、トレーニングデータを何倍も強化する合成運転シナリオを生成します。まず、OmniMapは地図と地理空間データを融合して、運転可能な3D環境を構築します。運転シナリオのバリエーションは、ドライブログの再生やAIトラフィックジェネレーターから生成できます。
次に、ニューラル再構築エンジンは自動運転車のセンサーログを使用して、高精度の4Dシミュレーション環境を作成します。これは以前のドライブを3Dで再生し、トレーニングデータを増幅するためのシナリオバリエーションを生成します。
最後に、EDiFy 3Dsは既存のアセットライブラリを自動的に検索するか、新しいアセットを生成してシミュレーション対応のシーンを作成します。Omniverseのシナリオは、Cosmosを条件付けして大量の写実的なデータを生成し、シミュレーションと実世界のギャップを縮小するために使用されます。
テキストプロンプトを使用して、運転シナリオの無限のバリエーションを生成し、Cosmos Neotron Video Searchにより、記録されたドライブと組み合わされた大規模な合成データセットをキュレーションしてモデルを訓練できます。
NvidiaのAIデータファクトリーは、何百回ものドライブを数十億マイルの有効な距離に拡大し、安全で高度な自動運転の基準を設定します。これは驚くべきことです。私たちは数千回のドライブを数十億マイルに変換します。
自動運転車のための膨大なトレーニングデータが得られるでしょう。もちろん、実際の車両も道路上に必要です。私たちは生きている限り、継続的にデータを収集し続けます。
しかし、このマルチバースの物理ベース、物理的に基礎付けられた能力を使用した合成データ生成により、物理的に基礎付けられ、正確で妥当なAIのトレーニングデータを生成できます。これにより、トレーニングのための膨大なデータを得ることができます。
自動運転車産業はここにあります。これは非常にエキサイティングな時期です。次の数年間が本当に楽しみです。グラフィックスが革命的なペースで進化したように、自動運転車の開発のペースが今後数年間で大きく加速するのを目にすることになるでしょう。

コメント

タイトルとURLをコピーしました