
5,626 文字

スモーキーな話ですが、AIビデオと実際のビデオを見分けることがほぼ不可能な段階に来ているように思います。バイトダンスがオムニウム1というクレイジーなAIプロジェクトを発表したんですが、これは1枚の画像に音声や動画を追加することで、その画像を音声や動画に合わせてアニメーション化できるものです。
いくつか例をお見せしましょう。「私がこれを知っているのは、オリンピックの表彰台に立ち、首にかけられた金メダルの重みを感じる機会があったからで…」
これはすごいでしょう?たった1枚の写真から、この女性の唇の動きを音声に同期させるだけでなく、音声に合わせて全身の動きまでアニメーション化できているんです。
別の例を見てみましょう。「退屈なのは簡単です。誰でも退屈になれます。でもあなたはそれ以上の存在です。人生はゲームじゃありません。人生はシリアルでもありません。まあ、シリアルではありますが。人生がゲームなら、私たちは同じチームにいるのでしょうか?」
これも驚くべきデモですね。歯の動きも一貫していますし、この少年をアニメーション化しているだけでなく、背景で歩いている人々もアニメーション化しています。
さらに別の例です。「感情のない芸術とはどのようなものでしょうか?それは空虚なものでしょう。感情のない私たちの人生はどのようなものでしょうか?それは価値が空虚なものとなるでしょう。ある有名な古典詩人が言いました。私たちは憎み、そして愛する。誰かその理由を教えてくれますか?カトゥルス…ああ、科学は『なぜ』という質問には答えません。」
呼吸音までアニメーション化されているのがわかります。
もう1つ例を見てみましょう。「私の最初の推測は、電気自動車を実現させ、現在は再利用可能なロケット、宇宙旅行、人間の脳を直接コンピュータに接続すること、都市を電磁式の超高速列車で結ぶこと、ウクライナ戦争で重要なスターリンク衛星システムの完成に取り組んでいる人物です。そして火曜日には…」とても素晴らしい出来栄えですね。
ここでも全身のアニメーション化がされていますが、注目すべきは観客が笑っているときにこの男性は笑っていないことです。AIは彼の声と観客の声を区別できているんです。
さらに例を見てみましょう。「私のことをスタンドアップコメディアンとして、あるいはロースト番組での出演で知っている方もいるかもしれません。でも今夜は皆さんをローストするつもりはありません。そのことをお伝えしたいと思います。実際、どうやってできるでしょうか?皆さんはとても有名で、才能があり、力がある。本当に何でもできる…」
これは信じられないほど現実的です。彼女の頭と体の動きが話し方に合わせて自然に動き、完全に音声と同期しています。
「これらの原則は、ユーザーの体験をより快適にするだけでなく、ビジネスの指標の向上にも貢献します。ユーザーは中断されることを嫌い、途切れた体験を嫌います。アプリのデザインでこれらの原則を念頭に置くことで、より良いユーザー体験が実現できます。」
ここでも全身のアニメーション化がされており、足も少し動いているのがわかります。さらに前景の観客もアニメーション化されています。驚くべきリアルなデモですね。
これは現実的な写真だけでなく、漫画やアニメにも使用できます。動物や難しいポーズにも対応可能です。いくつか例を見てみましょう。
「生まれた日、あなたの目を見つめ、優しい愛を感じました。目を開けてパパの声を聞いたとき、あなたが運命の人だとわかりました。」「ああ、何でもありません。買い物に行く前にストレッチをしているだけです。買い物は肉離れの原因第1位なんです。たぶん。」「それは知りませんでした。」
これらはアニメの例ですが、瞬きまでさせているのに注目してください。すべてが一貫しています。
最後に、これはアニメを作るための完璧なツールだと思います。Fluxやスタブルディフュージョンを使って画像を生成し、それをこのツールに入力すれば、好きなことを言わせることができます。
アニメの代わりに、3Dキャラクターの例もいくつか見てみましょう。「はい、これが彼の立場です。2つの言葉で。彼は海外の裕福な親戚から素晴らしい就職の申し出を受け、それを受け入れる準備をすべて整えていました。」
これは本当に、私が見た中で最も印象的な唇の同期と顔のアニメーションツールです。顔と唇だけでなく、全身の動きがとても自然で現実的です。背景の雪もアニメーション化されているのに注目してください。
別の例です。「退屈なのは簡単です。誰でも退屈になれます。でもあなたはそれ以上の存在です。人生はゲームじゃありません。人生はシリアルでもありません。まあ、シリアルではありますが。人生がゲームなら、私たちは同じチームにいるのでしょうか?」
真剣な話、これがあれば誰でも最終的に自分のディズニー・ピクサー風の映画を地下室のラップトップだけで作れるようになります。もはやこのようなものを作るのに高予算のアニメーションスタジオは必要ありません。
別の例を見てみましょう。これは短いクリップですが、複数の言語にも対応できること、そして全身だけでなく背景もアニメーション化できることに注目してください。
さらに別の例では、シーンに動物を入れることもできることを示しています。とても素晴らしいですね。
そしてこれは、Fluxで生成された別のサンプル画像です。「はい、重要なことについて話し、共有する価値のあるアイデアについて考えたいと思います。」
正直、言葉を失います。これらの動画に何か欠点を見つけられたら、コメント欄で教えてください。一見したところ、完璧に見えます。とてもリアルです。
さらに抽象的な例として、野菜のキャラクターを見てみましょう。これも本当に素晴らしいクオリティです。
そして、さまざまなポーズを示す例をいくつか続けて見てみましょう。例えば、この女性は手で頭を支えています。うまく処理できるか見てみましょう。そしてこの人はマスクを着けています。これはさらに難しいケースです。見てみましょう。これは本当に信じられないほどです。
別の例です。「そして、すべてのミュージカル劇場のオプションを探ってください。でも80年代に誰もが素晴らしいと思っていた曲にこだわらないでください。男性は覚えていません。男性は、男性は…だから誰も…」
AIポートレートによる本動画のスポンサーシップに感謝します。LinkedInやビジネスプロフィールの良質なプロフェッショナル写真は大きな違いを生みます。自分で撮影したり、友人に頼んだりすることもできますが、ほとんどの人はプロフェッショナルな写真を上手く撮れません。
プロのフォトシューティングを依頼することもできますが、平均で200ドル以上かかり、セッションのスケジュールを組んで、カメラの前で何時間も気まずくポーズを取る必要があります。
ここでAIポートレートの出番です。数分で高品質なプロフェッショナル写真のポートフォリオを生成できます。1枚の写真をアップロードし、性別を選択するだけで、様々な設定での50枚のプロフェッショナルなヘッドショットを数分で生成します。
物理的なフォトシューティングの手間なしに高品質なプロフェッショナル写真が必要な場合、AIポートレートが最適な選択肢です。詳細は下記のリンクをご確認ください。
別の言語での例もあります。車を運転している人の例もあり、背景もアニメーション化できることがわかります。「私に神と話したと人々に伝えろと?そう、彼らは私を追い出すでしょう。私はすべての噂に疲れました。私が死んでいるかもしれないという…」
別の例です。「私たちには復讐を求める正当な理由がありますが、代わりに平和を選びます。私たちは平和を選ばなければなりません。」
イヤリングが顔の動きに合わせてリアルに動くのに注目してください。
さらに例を見てみましょう。「人々に信じるものを与えれば、『あなたと私』から『私たち』へと変わるでしょう。そして私は、アクアラッドを手に入れたとき、艦隊や飛行隊に参加したとき、そして人々が私の自伝や本を読んだと言うとき、私は理解します…」
これらの例すべてで、各手に5本の指があることに注目してください。AIが現実的な手や指を生成できない時代はもう過ぎたと思います。
これは本物のTEDトークのように見えます。「これが私の60人の生徒たちの人生に与えた影響でした。」
地下鉄で電話を使用している女性の、さらに難しいポーズの例もありますが、完璧に処理できています。
さらに難しい例として、この老婦人がグラスを持っている例を見てみましょう。「皆様、Home Insteadの新しいクライアントとして、そしてローリーとポール・ホーガンの友人および以前の隣人として、今晩の開会の祈りを捧げる機会を与えていただき、大変光栄に存じます。」
なんと素晴らしいことでしょう。グラスの水のアニメーション化に加えて、背景の波までリアルにアニメーション化されています。
繰り返しになりますが、これに何か欠点を見つけられたら、コメント欄で教えてください。少なくとも私には、これには本当に感動しました。目立った欠点を指摘するのは本当に難しいです。
話す代わりに、歌う音声をアップロードすることもできます。YouTubeに投稿しているため、既存の曲には著作権の問題がある可能性があり、これらの動画の一部は消音されているかもしれません。
「私は一人だと知っています。光に満ちた部屋なのに、すべての光が失われていることを。でもあなたが私と一緒にいるのが見えません。私と一緒に…」「恋人を見つけるのに最適な場所は、私が行くバーです。私と友達はテーブルに座り、飲み物を飲んで、今はゆっくり話します。近づいて会話を始めます。私だけを信じて、チャンスをください。さあ、私の…」
これらの例での唯一の欠点は、手や指が実際には楽器を演奏していないことです。楽器パートの音声とは合っていません。現時点では、歌声に合わせた口の動きの同期にのみ適しています。
まだ終わっていません。これが実際にオムニウムの最も有用な機能だと思うものをお見せします。先ほど言ったように、音声だけでなく、他の人や自分の動きの動画を入力して、入力画像の体の動きを実際にコントロールすることもできます。
例を見てみましょう。「自然を破壊せずに食料を生産するにはどうすればよいでしょうか?100億人に手頃な価格で栄養価が高く持続可能な食料を届けるにはどうすればよいでしょうか?」
元の入力動画が左上にあることに注目してください。右上では、入力画像の最初のフレームを取り、音声に同期させているだけです。AIがこの男性の動きを独自に生成しているのがわかります。
左下では、AIが音声だけでなく、左上の元の入力動画の体の動きと手の動きも同期させています。体や手の動きが上の動画と合っているのがわかります。異なるのは彼が言っていること、つまり唇の動きだけです。
さらにクレイジーな例があります。手の動きだけを分離して、体の動きを無視することもできます。右下では、元の動画から手の動きだけを取り入れ、体の動きは無視しています。これが結果です。非常に柔軟で多用途なツールですね。
過去に私は同様のツールを多く紹介してきました。例えば、Microsoftの VASA-1も音声で顔をアニメーション化できますし、Qu Showのライブポートレートも同様です。最近紹介したエコーミミックV2も、音声で上半身の写真全体をアニメーション化できます。
しかし正直なところ、バイトダンスの新ツール「オムニウム」は他のすべてを圧倒しています。はるかにリアルで自然です。本当に驚くべきものです。
アニメーションの品質に関するベンチマークスコアを比較してみると、オムニウムがあらゆる面で最高のスコアを獲得しているのがわかります。最初のチャートは肖像画アニメーションの品質に関するもので、2番目の表は全身アニメーションの品質に関するベンチマークですが、この表でもオムニウムがベンチマークスコアを圧倒しています。
プロジェクトページと技術論文を詳しく調べましたが、コードをリリースするかどうかの明確な indication はありません。ただし、トレーニング方法やアーキテクチャの詳細を明らかにした技術論文を公開していることから、最終的にはオープンソース化するか、少なくとも私たちが使用できるようにツールをリリースしてくれることを期待しています。
ところで、コメント欄で教えてください。このツールはリリースされるべきだと思いますか?それとも非常に危険なものになるでしょうか?これがあれば、誰でも好きな人の動画を偽造できてしまいます。これは全く新しいレベルのディープフェイクを生み出すことになります。
とにかく、これは数時間前に発表されたばかりですが、私には非常に印象的でしたので、知った時点ですぐに皆さんと共有したいと思いました。これについてどう思うか、コメント欄で教えてください。
いつものように、私はトップAIニュースとツールを探し続け、皆さんと共有していきます。この動画を楽しんでいただけたなら、いいね、シェア、登録をお願いします。そして次のコンテンツもお楽しみに。
また、AIの世界では毎週本当に多くのことが起きているので、YouTubeチャンネルですべてを取り上げることは不可能です。AIに関するすべての最新情報を本当に把握したい方は、私の無料ウィークリーニュースレターに登録してください。リンクは下記の説明欄にあります。
ご視聴ありがとうございました。また次回お会いしましょう。
コメント