Googleの新しいVeo 2が非現実的なAI動画品質でOpenAIのSoraを上回る

4,052 文字

Google's New Veo 2 Is Beating OpenAI's Sora With Unreal AI Video Quality

Google has unveiled its new AI tools, including Veo 2, which generates 4K cinematic videos with realistic physics, natur...

Googleが最新のAIツールを公開しました。今回はVO2と更新されたImagen 3で、ビデオと画像生成の分野での支配を目指しています。AIで生成された映像がプロフェッショナルグレードの品質に近づいていることを示しています。また、Whiskという新しいクリエイティブ実験も登場し、長い文章のプロンプトに頼ることなく、他の画像をリミックスして画像を生成することができます。
V2は本格的な進化を遂げています。Googleは、最新のビデオジェネレーターが現実世界の物理法則をより理解していると主張しており、生成される動き、照明、全体的な流れがより自然で信憑性のあるものに見えます。不自然または人工的に感じられる結果を生み出すことに苦心してきたAIビデオにとって、これは大きな前進です。このモデルは人間の動きと表情をより正確に理解するように訓練されているため、表情やキャラクターが場面を歩く様子が、他のモデルのように硬くなったり大げさになったりすることはありません。
V2が際立っているのは、プロの映画制作者が気にする細部へのこだわりです。テキストの説明に基づいて視覚効果を組み合わせるだけでなく、このモデルは撮影技法、特定のレンズ、アングル、エフェクトを理解しています。これらすべてが活用されています。誰かがV2に浅い被写界深度のクローズアップや、18mmレンズの柔らかさを求めると、モデルはそれが何を意味するのか正確に理解して実現します。さらに、出力は4K解像度に達することができ、これは品質における大きな飛躍です。以前のAI生成ビデオは、大きな画面で見ると解像度が低かったりぼやけたりしましたが、V2はそのギャップを埋めています。
このモデルは短いクリップだけでなく、数分の長さまでシーケンスを延長することができ、より長い流れのある映像を求めるクリエイターにとってより有用です。そして、AIビデオには悪名高い余分な指の問題のような癖がまだありますが、GoogleはVO2がそのような細部の誤認識を大幅に減らしていると述べています。
現在、VO2はGoogleのLabs Video FXプラットフォームでのみ利用可能で、アクセスは制限されています。興味のある人はウェイトリストに登録する必要があり、Googleは段階的にロールアウトしています。オリジナルのVooモデルは、主に企業ユーザー向けにVertex AIで引き続き利用可能です。VO2で作成された動画には、AI生成であることを識別するのに役立つSynth IDウォーターマークが含まれています。これは、実際のコンテンツとして偽装されるAIディープフェイクのような悪用を防ぐためのGoogleの安全性重視の一環です。
AIビデオツールの競争は激化しています。OpenAIのSoraは、テキストプロンプトから詳細な動画を生成する能力で今年初めに話題を集めましたが、結果は一貫性を欠いていました。ユーザーは物理法則を無視したような瞬間や解剖学的な奇妙さに気付き、Soraは印象的ではあるものの、まだ欠陥があります。Googleの自社テストでは、人間の評価者がSoraや他のライバルモデルよりもVE2を好むという結果が出ています。
これは、出力がプロンプトにどれだけマッチしているか、そして全体的な好み、つまり人々がどの動画をより好んだかという2つの指標に基づいています。コンテンツクリエイターがどのツールを使用するかを決める際に、このような優位性は重要です。GoogleはV2を、映画制作者、YouTubeクリエイター、ビジュアルストーリーテラーのための真剣なオプションとして位置づけています。初期の主要な使用例の1つは、クリエイターが制作時間を節約するためにYouTubeショートで背景を素早く生成することです。
高品質のAIビデオは、より厳しい予算やタイムラインでプロフェッショナルな結果を必要とするクリエイターにとって強力なツールとなりつつあります。VO2と並んで、GoogleはImagen 3画像ジェネレーターの大幅なアップグレードも展開しました。Imagen 3は、より明るい視覚効果、より豊かな細部、プロンプトへのより良い準拠性で前バージョンを改善しています。このモデルは、写真のリアリズム、アニメ、印象派、抽象芸術など、より幅広いスタイルをより正確に扱うことができます。Imagen 3は、他のトップ画像ジェネレーターと比較して際立つ結果を生み出す、テクスチャーと照明をより精密にキャプチャします。
Imagen 3はすでにGoogle LabsのImage FXツールで利用可能で、100カ国以上でロールアウトされています。V2と同様に、Imagen出力にはAI生成であることを認識できるようにSynth IDウォーターマークが含まれています。
画像生成にクリエイティブなひねりを加えるため、Googleはまた、詳細な説明を入力する代わりに他の画像をプロンプトとして使用して視覚効果を生成できる実験的なツール「Whisk」を導入しました。ユーザーは被写体、シーン、スタイルを画像でWhiskに供給し、ツールはそれらの要素を組み合わせて新しい出力を作成し、プロセスをより速く、より視覚的にします。例えば、誰かがクマの漫画画像、雪山の写真、水彩画のスタイルをアップロードすると、Whiskはそれらのアイデアを視覚的にブレンドします。より細かい調整のためにテキストプロンプトを追加するオプションもありますが、必須ではありません。
WhiskはImage 3と、入力画像を分析して詳細な説明を書くGoogleのGeminiモデルを併用しています。それらの説明は最終結果を生成するためにImagen 3に渡されます。これは、正確なテキストプロンプトを書くのに苦労する人々にとってプロセスを簡略化する賢いアプローチです。GoogleはWhiskを「急速な視覚的探索のためのツール」と呼び、完璧に磨き上げられた出力ではなく、クリエイティブなブレインストーミングのために作られたものとしています。
AIの動画と画像生成は長い道のりを歩んできましたが、まだやるべきことがあります。VO2とImin 3を含む最高のモデルでさえ、癖や不完全さから免れているわけではありません。しかし、改善は否定できません。V2の映画的な細部へのこだわりとImagen 3のスタイルの柔軟性は、AIツールをプロフェッショナルにとってより有用にするための大きな一歩です。
他の企業も前進しています。AIビデオの先駆者の1つであるRunway MLは最近、Gen 3 Alphaターボモデルに高度なコントロールを追加しました。P LabsはPica 2.0をリリースし、ユーザーが独自のキャラクターを動画に追加できるようにしました。一方、Luma AIはDream Machineを拡張し、AWSと提携してツールを企業向けにより利用しやすくしました。
動画と画像生成のためのAIツールへの関心の高まりは、クリエイティブ産業を再形成し始めています。特に期待に応えないAIの結果を見た後、一部の映画制作者やアーティストは懐疑的なままです。例えば、最近のGame AwardsでAIのようなスローモーションのトレーラーに対して観客から批判が寄せられ、多くの人々はまだAIが人間の創造性に取って代わる能力を信頼していません。
しかし、その懐疑論は進歩を止めていません。ジェームズ・キャメロンやアンディ・サーカスといった大物がすでに映画でのAIの可能性を探っており、業界が適応し始めていることを示しています。GoogleのVOとImagenの改善は、プロフェッショナルグレードのツールに焦点を当てることで、この競争で彼らを一歩前進させています。これらの更新により、クリエイターは映画的なエフェクトを備えた洗練された動画シーケンスや、高品質のAI生成アートを制作するための選択肢が増えます。
VO2、Imagen 3、Whiskのようなツールは、印象的な結果を提供しながらクリエイティブなプロセスを簡略化します。VO2は来年、YouTubeショートやその他のプラットフォームに拡大され、クリエイターにとってよりアクセスしやすくなります。Imagen 3のImage Effectsでのロールアウトはすでにグローバルで、Whiskは実験のための興味深い層を追加します。これらのツールは、クリエイティブなワークフローでAI生成の視覚効果が主流になることを後押ししています。
これは、短編映画の制作、マーケティング映像の作成、実験的な楽しみのための制作など、クリエイターに新しい作業方法を提供することに焦点を当てています。VO2やImagen 3のようなツールは、AIの限界をさらに押し広げる改善により、大きな可能性を解き放ちます。
OpenAI、Google、その他の企業がすべてモデルの改善を競い合う中、AI生成の視覚効果はこれまでに見たことがないペースで進化しています。新しいリリースごとに、よりリアルで、よりコントロールが効き、より良い結果がもたらされ、クリエイターがアイデアを現実にすることがより容易になっています。現在、V2へのアクセスは制限されていますが、Googleの慎重なロールアウト戦略により、ツールの微調整と残された問題への対応が確実に行われています。
V2が改善を続け、より多くのユーザーに届くようになるにつれ、クリエイターがどのようにそれを使用し、OpenAI Soraやほかのライバルとどのように比較されるのかを見るのは興味深いでしょう。コメントであなたの考えを教えてください。そしてこの動画を楽しんでいただけたなら、いいねと購読をお願いします。ご視聴ありがとうございました。また次回お会いしましょう。