
2,755 文字

NVIDIAが発表したCosmosは、非常に興味深いプラットフォームです。これは単なるLLMモデルではなく、先進的な生成モデル、つまりワールドファウンデーションモデルだけでなく、高度なトークナイザー、セーフガード(ガードレール)、そして高速なデータ処理とキュレーションを提供するプラットフォームです。
Cosmosは、自動車やロボットなどの物理的なAIシステムの開発を加速させることを目的に設計されています。基本的に、NVIDIAが開発者に提供するプラットフォームであり、モデル、トークナイザー、セーフガード、ワークフロー、データキュレーションを提供して、これから見ていくような興味深いことを実現できるようにしています。
これらの高度なモデルを使用すると、テキストだけでなく画像も生成でき、それを自動運転車の訓練に使用することができます。これは完全なプラットフォームであり、すべてがNVIDIAのGPUで生成されます。結局のところ、これを使用する人々から最も恩恵を受けるのは常にNVIDIAとなります。なぜなら、すべてが彼らのハードウェアであるGPUで生成されるからです。
Cosmosモデルは、テキスト、画像、またはビデオのプロンプトを取り込み、動画として仮想世界の状態を生成します。Cosmosの生成は、実世界の環境、照明、オブジェクトの永続性など、自動運転車とロボティクスのユースケースに特有の要件を優先します。
開発者はCosmosを使用して、強化学習AI用のフィードバックを改善するための世界を生成したり、マルチセンサービューにわたってモデルのパフォーマンスをテストおよび検証したりします。Cosmosはリアルタイムでトークンを生成できます。
重要なのは、すべてがNVIDIA Cosmosによって生成され、それを使って基本的に車両やロボットを訓練できるということです。これらは大きな産業になろうとしています。今日、何百万台もの車が存在し、誰もが1台持っているということを覚えておいてください。ロボットの場合、現在はまだゼロの状態ですが、時間とともに特定のタスクを実行できるようになるでしょう。
目標は、家庭やオフィス、クリニックなどにロボットを配置することです。ここで見られるように、ストレッチ運動を行うロボットがいます。結局のところ、患者に対応できる医師の数には限りがあり、これらすべてをロボットで管理できれば、明らかに大きな販売機会となるでしょう。
基本的に、目的は非常に明確です。ワールドファウンデーションモデルを使用してAI開発を加速することです。そのため、車の画像では、車の前面だけでなく、後部、左側、右側も生成できることを示していました。
Cosmosは開発者にオープンなアクセスを提供します。つまり、完全にオープンで簡単に使用できる基本モデル、高効率な世界、データフローを提供し、物理的なAI開発をすべての人にアクセス可能にします。これはMetaがそのモデルをオープンにするのと同じような方法です。つまり、自由に使用できるようにしますが、後で相当な収益を上げることができ、最終的にコミュニティが採用するプラットフォームとなります。
物理的な一貫性、特に動きについて、これは9兆のトークンで訓練された第一世代のビデオモデルのセットで、2000万時間のロボティクスと運転データを含んでいます。画像、テキスト、ビデオなどのマルチモーダル入力から高品質のビデオを生成できます。
CosmosのワールドファウンデーションモデルとトークナイザーはNVIDIAのオープンモデルライセンスの下にあり、世界中の開発者が高い参入コストなしに大規模な物理的ガイダンスシステムを構築することを可能にします。
最近まで、ロボットシステムを作ろうとすると、参入プロセスやアクセスがかなり高額でした。今では、これらのツールを使用し、月日が経つにつれて、少し経済的になり、小規模なスタートアップも大きな資金を投じることなく、非常に興味深いことができるようになるでしょう。
Cosmosトークナイザーは、視覚データを高忠実度トークンに変換します。ビデオデータを扱う場合、テキストデータと同様にトークン化する必要があります。テキストデータの場合はより簡単なプロセスですが、ビデオでも同じことを行う必要があります。8倍better compression、12倍faster processingを実現し、Nemoモデルと組み合わせることで、物理的な生成AIモデルの加速された訓練と調整を提供します。
Cosmosモデルには以下のようなものがあります:
Cosmosナノモデル:最速で、レイテンシーが最も低いモデルです。リアルタイムで何かを行いたい場合は、このタイプのモデルを使用する必要があります。トークン生成のコストも低く、消費も少なくなります。
Cosmosモデル:より高性能なモデルで、アウトオブザボックスでファインチューニングが可能です。
Ulturaモデル:最も高価なモデルです。結局のところ、これらの企業はすべて、人々が時には超高速で経済的なものを必要とし、また中程度のレベルのものも必要とすることに気付きました。ChatGPTがPlusやProモデルで行っているように、望む価格を請求することができます。
これらは最先端のモデルで、テキストからワールド、ビデオからワールドへの生成のための自己回帰型および拡散モデルで、4億から140億のパラメータサイズで利用可能です。120億パラメータの強化モデルはテキストプロンプトを洗練し、生成結果のより高い精度と詳細を提供します。70億パラメータのモデルは、ビデオシーケンスのデコードに設計され、拡張現実アプリケーション用に最適化されています。
統合されたガードレール(制限)には以下が含まれます:
NSFWコンテンツと有害なプロンプトのための事前フィルタリング
ブランドの悪用やプロンプトインジェクションを防ぐ
問題のある出力を除去するための事後フィルタリング
合成ビデオでの人間の顔のぼかしとデジタルウォーターマーク
プレビューAPIカタログでのAPI
さまざまなビデオやユースケースがあり、ビデオ検索、3Dからリアルへの変換、ポリシーモデルフォーサイド、マルチバースシミュレーションなどが含まれます。ビデオで見た貨物列車は、移動可能なあらゆる空間を移動でき、これを使用して無限の経路を設定し、可能性を分析し、そのマルチバースシミュレーションをより迅速に分析できます。
NVIDIAの人々が発表しているこの新製品は非常に優れています。すべてが彼らのGPUで実行されるため、彼らにとってはwin-winの状況です。
コメント