Googleの新しいAIモデルが仮想空間の現実を再定義する

4,408 文字

Google's NEW AI Model Redefines Reality in Virtual Spaces
Google’s new AI model, Genie 2, creates 3D virtual worlds in real time, generating dynamic environments as users or AI a...

一歩進むごとに自らを構築していく仮想世界に足を踏み入れたり、大規模な制作クルーなしで素早いアイデアが洗練された映像シーンになっていくのを見るというような未来が、GoogleのAIモデル「Genie2」によって示唆されています。一方、テンセントのHunan Videoは、ハリウッドの予算なしでハリウッドレベルの映像を実現し、しかも完全にオープンソースで提供しています。これらについて詳しく見ていきましょう。
まずはGoogle DeepMindのGenie2から始めましょう。ワールドモデルをご存じない方のために説明すると、これは基本的にリアルタイムで環境全体を作り出しシミュレートするAIシステムです。Genie2は、2次元に限られていた前モデルから大きく進歩し、今では完全な3D世界を、あなたや他のAIエージェントが移動するにつれて生成できるようになりました。
これはゲームエンジンではなく、探索しながらフレームを出力するディフュージョンモデルです。まるで仮想世界を前進しながら、その場で描画されるかのように目の前に風景が現れるようなものです。このアプローチにより複雑なシーンを動的に作成することができ、まだ初期段階とはいえ、将来のAI駆動シミュレーションがどのように進化していくかの窓口を提供しています。
水や煙、簡単な物理効果といった環境要素との基本的なインタラクションも表現でき、これらのデジタル世界がいずれはより反応的で自然に感じられるようになる可能性を示しています。Genie2は、三人称視点、一人称視点、アイソメトリック視点など、複数の視点を扱うことができ、開始するのに必要なのは1枚の画像プロンプトだけです。そのプロンプトはGoogleのImagine 3モデルから、あるいは実際に撮影した写真からでも構いません。
フレームの生成を開始すると、モデルは内部の一貫性を維持しようとします。オブジェクトが視界から消えた後でもその位置を記憶し、再び視界に入ってきたときに正確に再構築することができます。これは、以前のOasisのようなモデルが抱えていた、環境がカメラの視点から外れるとキーとなる詳細を忘れてしまうという大きな問題を解決しています。
しかし、このモデルは完璧ではありません。DeepMindは、安定した世界を維持できるのは最大で約6秒程度だと認めています。それを超えると視覚的なアーティファクトが現れ始め、細部が劣化し、安定した環境という幻想が崩れ始めます。ほとんのデモクリップは10~20秒程度の短いものなので、完全に一貫性のある長時間のシーケンスはまだ実現できていません。
Genie2がどのように訓練されたのかは、大規模な映像データセットを使用したということ以外は明確ではありません。現時点でDeepMindはこのモデルを公開していません。代わりに、AIエージェントの訓練と評価のための研究ツールとして見ています。実際、DeepMindは特にGenie2が自社のSEMAアルゴリズムの訓練と評価に使用できることを指摘しており、他の高度なAIシステムの開発においてどれほど重要な役割を果たす可能性があるかを示しています。
また、アーティストやデザイナーがコンセプトを素早くスケッチするための創造的なプロトタイピングエンジンとしても機能する可能性があります。長期的には、Genie2のようなワールドモデルは、AIが多様で絶えず変化するシミュレーション環境で学習することを可能にするため、人工汎用知能への道を押し進める上で重要になる可能性があるとDeepMindは考えています。
Genie2の特に魅力的な点は、ゲーム開発、バーチャルシネマトグラフィー、さらにはVRトレーニングシミュレーションなどの分野におけるAIの広範な未来を示唆していることです。このようなツールがより成熟すれば、開発者は特定の物語的要素やアーティスティックな要素を保持しながら、プレイヤーの行動に基づいて変化する環境を素早く作り出すことができるようになるでしょう。
将来のバージョンでは短時間制限を克服し、数分から数時間の一貫した生成が可能になるかもしれません。データセットの拡大、トレーニング方法の改良、より高度なメモリメカニズムの組み込みにより、より安定し、豊かで、はるかに長く持続する世界が実現できることが期待されます。
時間とともに、これらのモデルは従来のゲームエンジンと統合されたり、物語構造やスタイルパラメータを提供する人間のデザイナーによって導かれたりするかもしれません。これにより、世界の基本的な構成要素をAIが素早く生成し、人間が感情的な共鳴と手作りの魅力を維持するために最終製品を洗練させ形作るというハイブリッドな制作パイプラインが生まれる可能性があります。
では次に、テンセントのHunan Videoについて詳しく見ていきましょう。OpenAIがSoraを長い間予告している間に、テンセントは静かに独自のソリューションを立ち上げ、オープンソース化しました。人間による評価によると、Hunan VideoはRunway Gen 3、Luma 1.6、そして複数の中国の主要な動画生成モデルに匹敵するか、それらを上回る性能を持っていると主張しています。画質と動きの一貫性の面で、その結果は強い説得力を持っています。
初期のテストでは、Luma LabsのDream MachineやCing AIを含む他の商用の重量級モデルに匹敵するか、それを上回る品質を示唆しており、Hunan Videoを利用可能なソリューションのトップティアに位置付けています。
Hunan Videoのアーキテクチャは興味深いものです。標準的なCLIPやT5-XXLのセットアップではなく、デコーダーのみのマルチモーダル大規模言語モデルをテキストエンコーダーとして使用しています。このアプローチにより、指示をより良く理解し、細かい詳細を把握することができます。
また、「男性が犬の散歩をしている」といった簡単なプロンプトを自動的により詳細な内容に豊かにするトークンリファイナーを採用しています。この改良により、特定の照明条件や複雑なシーン設定、被写体の微妙な属性などの要素を追加でき、最終的な出力は、短い初期プロンプトから想定されるものよりもニュアンスに富み、完成度の高いものとなります。
その結果、ユーザーが長いプロンプトを書く必要なく、より鮮やかで描写的な生成が可能になります。テンセントはサイズにも全力を注ぎ、Hunan Videoに130億のパラメータを与えました。このビーストの訓練は単純ではありません。256ピクセルの低解像度画像での訓練から始まり、時間とともに解像度と長さを増やしながら、画像と動画を混ぜ合わせるマルチステージアプローチを使用しました。これにより、安定した収束と良好な結果を達成しています。
最終製品は、テキストから動画を生成したり、静止画を動画シーンに変換したり、アニメーションアバターを作成したり、さらには動画用の音声も生成したりすることができます。しかし、Hunan Videoをローカルで実行するのは困難です。少なくとも60GBのメモリを持つ巨大なGPUが必要で、これはほとんどのゲーミングPCの容量を超えています。
しかし、オープンソースであるため、開発者はこれを回避する方法を見つけることができます。Fall AIのような従量制の動画ソリューションを提供するクラウドサービスがあり、公式のHunan Videoサーバーはクレジットを販売しています。少し支払う意思があれば、トップティアのハードウェアがなくてもアクセスできます。
初期のテスターによると、1本の動画の生成に約15分かかるとのことですが、これは即時ではないものの、高品質なAI生成シーケンスを作成する上で実用的な処理時間と言えます。初期のテストは有望で、動画は写真のようにリアルで滑らかな動きを持ち、人間、動物、環境を驚くほど正確に描写することができます。
ただし、英語のプロンプトに関しては、一部の商用モデルと比べてやや劣る点が小さな欠点として挙げられます。しかし、オープンソースであるため、コミュニティが時間とともに改善していくことができます。
Hunan Videoをオープンに公開することで、テンセントはRunwayやLumaのようなモデルに挑戦するだけでなく、OpenAI Soraのような今後登場するソリューションとの競争の舞台も整えています。この開放性は重要です。長年、最大のブレークスルーは多くの場合、コードを共有しないプライベートな研究所から生まれていました。
今回テンセントが開発者にフルモデルを提供したことで、イノベーションを加速させることができます。スタートアップ、研究者、インディー系クリエイターは、モデルを調整し、言語のギャップを埋め、さらにはテンセントが達成した品質を超える可能性もあります。これは、動画生成におけるコミュニティ主導の研究開発アプローチと考えることができます。
Genie2とHunan Videoを比較すると、Genie2はAIエージェントがリアルタイムで動き回れる3D世界全体の生成に焦点を当てており、主にAIの訓練やテストを目的としています。一方、Hunan Videoはテキストからの動画コンテンツ、写真のようにリアルなシーケンス、アニメーションシーンなどの生成に焦点を当てています。
Genie2は環境とインタラクション可能な空間に関するものであり、Hunan Videoはテキストや画像から高品質な動画を作成することに関するものです。両者は、AIがオンデマンドで視覚的なコンテンツを作成する方法における重要なフロンティアを代表しています。
OpenAIが予告しているSoraはどこに位置付けられるのでしょうか。OpenAIはChatGPT、画像モデル、様々な改良で勢いを得ていますが、Soraはまだ姿を見せていません。一方、テンセントは商用ジェネレーターに匹敵するか、それを上回る可能性のあるツールをすでにリリースしました。
これによりOpenAIはより速く動くか、より画期的なものを提供するよう促される可能性があります。OpenAIがどのように対応するか、Soraは大きな話題を呼んで登場するのか、それともテンセントがすでにハードルを高くしすぎているのか、見守る必要があります。
これらのモデルが進化するにつれて、業界がどの方向に進むのかが明らかになっていくでしょう。それまでの間、Genie2とHunan Videoに注目してください。これらは、AI生成の世界と動画の未来がすでに始まっている兆しなのです。

コメント

タイトルとURLをコピーしました