見逃せない7つの驚異的なAIビデオの革新

9,941 文字

7 Insane AI Video Breakthroughs You Must See

What we'll be able to do with AI and video is getting crazier and crazier. Also... Don't forget to check out Hostinger h...

AIビデオで実現できることは、さらに驚くべき展開を迎えようとしています。この動画では、最近発表された7つの研究論文を紹介します。これらの論文は、AIテクノロジーがいかに優れたものになってきているかを示しています。あまり印象的でないものから最も印象的なものへと順番に紹介していきますので、最後まで見ていただければと思います。私たちがまさにアクセスできるようになろうとしているこれらの技術は、紹介するごとにどんどん驚くべきものになっていきます。
クールな研究を複数まとめて解説する動画を共有するのは久しぶりですが、時間を無駄にせず、さっそく本題に入りましょう。
最初の2つの研究論文はバーチャルトライオン技術に焦点を当てています。まず「cat vitton：拡散モデルによるバーチャルトライオンに必要なのは結合だけ」という研究から始めましょう。このモデルは、人物の入力画像と試着したい衣服の入力画像を与えると、元の画像のポーズと人物の下の部分を維持しながら、その衣服を元の画像に重ね合わせる方法を見つけ出します。
ここでいくつかの例を見ることができます。この女性とこのパンツの例では、作成された新しいバージョンがあります。また、白いスーツを着たこの男性の例では、白いスーツを着せた出力画像が作成されています。このような人物から人物への衣服の転送では、他の人が着ている衣装を入力した人物に着せることができます。上の画像は入力画像で、下の画像はパンツを取得したい画像であり、これらのパンツがこの人物に転送されているのが分かります。
他にも面白い例があります。アニメキャラクターでも機能することが示されています。ロバート・ダウニー・Jr.の写真とドクター・ストレンジの別の写真があり、ロバート・ダウニー・Jr.をドクター・ストレンジに変身させています。レッドカーペットに立つイーロン・マスクの写真と、K-POPのような衣装を着た人物の写真があり、イーロンをその同じ衣装に着替えさせています。
このモデルは非常に軽量で単純に設計されています。モデルの効率性は3つの側面で実証されています：軽量なネットワーク、パラメータ効率の良いトレーニング、そして簡素化された推論です。つまり、これらのバーチャルトライオンをデバイス上で素早く、非常にシンプルに実行できるように設計されています。eコマース企業がモバイルアプリ内で直接セットアップでき、クラウドを使用する必要がなく、デバイス上で直接バーチャルトライオンを実行できます。
このコードはGitHubで利用可能で、Hugging Faceのスペースで試すこともできます。リンクは説明欄に記載しておきます。私が試してみた例では、自分の全身写真をアップロードし、下にあるシャツの写真の1つを選んで、それが私に重ね合わされる様子を確認できます。これらのドレスの1つを選択して送信すると、即座に後悔する結果となりました。
バーチャルトライオンのアイデアが面白いと思われた方に、これはとても基本的なツールでしたが、「any to any Tron：適応的位置埋め込みを活用した多用途バーチャル衣服タスク」というものもあります。これを使用すると、入力画像と複数の衣服アイテムを与えて、その衣服を着た元の人物の画像を得ることができます。先ほどのものと同様に、上着、下着、全身衣装に対応しています。ここでいくつかの例を見ることができ、他のモデルとの良い比較もあります。
入力した人物画像とガーメント画像があり、さまざまなモデル（GP Von、OOTD、IDM Von、cat Von – 先ほど見たもの）でもまだかなり良く見えますが、このモデルはさらに良くなっています。このモデルの方がかなり優れた例がたくさんあることが分かります。
先ほど見たcat Vonは、基本的に入力画像と衣服の画像を取り、それらを重ね合わせて元の画像と衣服を組み合わせて良く見えるように工夫するように設計されていましたが、このモデルでは実にさまざまなことができます。異なるテキスト指示やモデルのガーメント画像に基づいてトライオン結果を生成し、様々なニーズに対応できます。マスク、ポーズ、その他の条件に依存する必要がありません。シャツをノースリーブにしたり、このスーツを赤にしたりといった追加指示を与えることができ、これは他のモデルではできないことです。
ここまで紹介した最初の2つの研究論文は、どちらも画像のバーチャルトライオンに焦点を当てていました。この動画はAIビデオがいかに驚くべきものになっているかについてだと言いましたが、これらを最初に紹介した理由は、現在のAI画像で実現できる制御性を示したかったからです。誰でも好きな服を着せることができ、最近のAIビデオで気付いたことの1つは、CllingやSora、Minimaxなどのツールを使用する場合、プロンプトだけでなく入力画像から始めた方が常により良いパフォーマンスを発揮するということです。
想像できるどんなキャラクターでも、想像できるどんな服装でも画像を作ることができ、それが生成されるビデオの開始フレームになるとすれば、ビデオを生成する際に人々の見た目や服装をより細かく指定できるようになるだろうと考えられます。
次に紹介する研究論文はすべて、非常に具体的にビデオに焦点を当てています。次は「diff eraser：ビデオインペインティングのための拡散モデル」です。このモデルを使用すると、ビデオ入力から人物や文字通り何でもマスクアウトし、マスクアウトしたものをビデオから削除することができます。
左側でマスクアウトされた人物を見ることができ、中央では従来のこの種のテクノロジーで見られるような幽霊のようなものが見え、右側では新しいテクノロジーがAIを使用して人物の背後にあったものをより上手く推測していることが分かります。この10秒のビデオを再生すると、中央に幽霊のようなものが見え、右側では注意深く見ると少し残っていますが、人物が削除された後の背景がどのように見えるはずかをはるかに上手く推定しています。
アジリティコースを走る犬の別の例では、犬がマスクアウトされ、中央では幽霊のようなバージョンが見え、右側では新しいモデルが見えます。このビデオを見返すと、ぼかしが少し見えますが、中央のバージョンよりも明らかに良くなっています。AIが影も取り除くことができれば本当にクールでしょう。その犬からの影を認識して取り除くことができれば素晴らしいと思います。それは時間の問題だと思いますが、現時点でもかなり改善されていることが分かります。
最後に見たビデオでより顕著でした。これらの研究へのリンクも下に記載しておきますので、詳しく知りたい方は深く掘り下げることができます。しかし私にとって、これらの一部は本当に、生成するビデオや自分のカメラで撮影したビデオに対して、これまで以上に多くの制御ができるようになることを示しています。
駐車場を走る車の別の例では、ブレーキランプがすべてを照らしているのが見えるので、完璧な仕事とは言えませんが、以前よりもずっと良くなっています。これは彼らがここで示しているデモの一部に過ぎません。この研究へのリンクも下に記載しておきますので、ご確認ください。
オンラインで何かを構築する際には、それを世界に示す場所が必要になるでしょう。そのため、この動画ではHostingerとパートナーシップを組みました。Hostingerは、オンラインでのプレゼンスを構築するために必要な唯一のプラットフォームで、オンラインで成長するために必要なすべてが含まれています。現在、新年セールを開催中で、プランが最大80%オフになっています。
私個人的には、クールなAI機能がすべて含まれているビジネスウェブサイトビルダープランをお勧めします。チェックアウト時にクーポンコード「Matt wolf」を使用すると、注文が追加で10%オフになります。ホスティングアカウントに入ると、ウェブサイトの構築は超簡単です。左側のウェブサイトをクリックし、ウェブサイトリストをクリックして、ウェブサイトを追加をクリックします。
Hostingerウェブサイトビルダーをお勧めする理由は、AIを使用して完全なウェブサイトを構築してくれるツールだからです。作成しようとしているサイトについて、Hostingerにいくつかの詳細を提供してください。この例ではギターのウェブサイトを作成しています。ウェブサイトの作成をクリックして、AIに作業をさせましょう。
1分もかからずに、ヒーローヘッダー、ウェブサイトのトピックに関連したサンプルコンテンツ画像、そしてオンラインで素早く始めるために必要なすべてを備えた、完全に設計されたウェブサイトができあがります。ここのボタンをクリックするだけで、カラースキームを素早く変更でき、サイトの編集準備ができたら、すべてがドラッグアンドドロップで、好きなように配置を変更し、ニーズに合わせてサイトを微調整できます。
オンラインで成長するために必要なものがすべて揃っていると言いましたが、本当にそうなのです。これらのAIツールをご覧ください：画像ジェネレーター、ライター、ページジェネレーター、セクションジェネレーター、ブログジェネレーター、商品詳細ジェネレーター、AIヒートマップ、AIアシスタント、さらにAIロゴメーカーまであります。AIのSEOアシスタントを使用してみましょう。ここでランク付けしたいキーワードをいくつか選択すると、AIが実際にサイトのSEOを最適化してくれます。
近頃、ウェブサイトをオンラインに公開する速さと簡単さは驚くべきものです。繰り返しになりますが、Hostingerは現在最大80%オフを提供していますので、hostinger.com/wolfでチェックしてください。クーポンコード「Matt wolf」の使用をお忘れなく。Hostingerにこの動画のスポンサーになっていただき、ありがとうございます。
次は「matte anyone：一貫したメモリ伝播によるステーブルビデオマッティング」と呼ばれるものです。このモデルでは、ビデオ入力を与え、ビデオ内の人物をマスクアウトすると、その人物のマットを作成し、グリーンスクリーンバージョンを作成できます。人物がフレーム内を移動する際の髪の細かい部分まで捉えています。
ここでいくつかの例を見ることができます。戦場を歩くこの男性の例では、グリーンスクリーンバージョンができました。部屋で踊るこれらの人々の例では、一人一人を見つけ出し、背後にグリーンスクリーンを配置しています。マークがイーロンと話している例では、boom、グリーンスクリーン。座っていた椅子までビデオから取り除きました。
映画からの別の例では、boom、グリーンスクリーン。これはAIで生成されたビデオですが、これもboom、背景を取り除いてマットを作成できました。ビデオゲーム「Black Myth: Wukong」からの別の例では、AIを使用してそのキャラクターだけをグリーンスクリーン化してマット化することができました。
映画の中の特定のキャラクターを単に取り除くだけでなく、より上手く分離できるようになりました。これらのグリーンスクリーン背景のものを取り、完全に異なるシーンの上に重ねることができます。このような研究やツールのおかげで、ビデオ編集のワークフローが非常に簡単になるだけでなく、将来のAIビデオツールの多くはおそらくこのような機能を実装するでしょう。チェックボックスを用意し、それをオンにするだけで自動的に透明な背景のビデオを作成するようになるでしょう。
また、この「diffu eraser」に話を戻しますが、このような機能はまもなく私たちのスマートフォンにも搭載されるだろうと想像します。現在、AIのおかげで画像内のものを簡単に囲んで削除できるように、同じ機能がビデオにも搭載されるでしょう。子供の劇の様子を撮影していて、親が誤ってカメラの前を横切ってしまった場合、その人物をハイライトして消去し、子供の劇だけのビデオを残すことができるようになるでしょう。これは本当に近い将来、おそらく来年にはスマートフォンに搭載される次世代のAIテクノロジーになると思います。
しかし、さらに驚くべきものがあります。「Film Agent：仮想3D空間における完全自動化映画制作のためのマルチエージェントフレームワーク」です。これは仮想環境で働くAI映画制作クルーのようなものです。これらの例はUnityゲームエンジンを使用していると思われますが、Film Agentは監督、脚本家、俳優、撮影監督といった主要なクルーの役割をシミュレートし、サンドボックス環境内で効率的な人間のワークフローを統合します。
エージェントのチームは、反復的なフィードバックと修正を通じて協力し、中間的な脚本を検証し、幻覚を減らします。Unityで様々な環境を作成しているのが分かります：アパートのキッチン、リビングルーム、飲み物部屋、ダイニングルーム、ビリヤード室、ゲーミングルーム、オフィス、路上など。また、AI脚本家、カメラマンとしてカメラを配置するAI、シーン内のAI俳優がいて、AIが自律的に全体を作成する小さな短編映画を制作することができました。
グラフィックスは素晴らしいものではなく、Unityの基本的な3Dオブジェクトに過ぎませんが、この研究の本当の功績は、撮影の様々な役割をすべて行うAIエージェントのチームを作成したことです。シーンのどこにいるかを選ぶAIカメラマン、その役割を果たすAI俳優、俳優が使用する脚本を書いたAI脚本家、そしてこれらのAIがすべて互いにコミュニケーションを取って最終的な出力を作成しています。
論文を見ると、「Film Agentはすべての側面で全てのベースラインを上回り、平均して5点満点中3.98点を獲得し、映画制作におけるマルチエージェントの協力の実現可能性を示しています」と述べられています。この3.98点は、プロットの一貫性、対話と俳優のプロフィールの一致、カメラ設定の適切さ、俳優の行動の正確さについて、人間によって評価されました。
このビデオを見た人々のほとんどは、かなり一貫性があると考えたようですが、この評価は必ずしもエンターテイメント性に基づいているわけではないので、人々が見たいと思うものかどうかはまだ分かりません。ただし、これを見る限り、「このような映画を作りたい」というプロンプトを与えれば、互いにコミュニケーションを取り合うAIエージェントのグループがその映画を実際に作成する日も、そう遠くないでしょう。
さらに驚くべきことに、ByteDanceは最近「Omnium-1：ワンステージ条件付き人間アニメーションモデルのスケーリングアップの再考」という研究を発表しました。これは基本的に、1枚の画像入力と1つの音声入力を与えると、それらから動画を作成するツールです。
ここでは開始画像は表示されていませんが、「レイアウトを整理するために、ほとんどの場合、生成されたビデオの最初のフレームである参照画像の表示を省略しました」と述べられています。つまり、ここで見ているのは最初のフレームですが、再生ボタンを押すと、そこから生成された映像が表示されます。この明らかにAIで生成された画像に曲の入力が与えられ、聞いた曲とともに出力が作成されました。
別の例では、1枚の画像があり、曲が流れます：「When I am alone I sit and dream…」実際にピアノを弾いて歌っている様子が映像化されています。もう1つの例を見てみましょう。今は開始フレームを見ています。これら3つはほとんどの場合、開始フレームとしてAIで生成された画像でしたが、実在の人物の画像でも機能します。
これは基本的にディープフェイクの段階に入っています。ビル・マーの入力画像があり、実際のビル・マーの音声があります：「私の最初のゲストは、電気自動車を実現させ、現在は再利用可能なロケット、宇宙旅行、人間の脳を直接コンピュータに接続すること、都市を電磁気の弾丸列車で結ぶことを完成させようとしている人物です」
TEDトークの別の例もあります：「これらの原則は、ユーザーの旅をより快適にするだけでなく、より良いビジネス指標にも貢献するでしょう」話しながら手を動かす様子に注目してください。本物のTEDトークのように見えます。これはすべて、この1枚の入力画像と聞いた音声から始まったのです。
漫画のイメージでも人物のポートレートでも機能し、「すべての音楽劇のオプションを探ってみてください。でも誰もが素晴らしいと思う曲だけにこだわらないでください」というように。ここには多くの例があります。繰り返しになりますが、これは1枚の入力画像と1つの音声ファイルから生まれます。その入力画像を取り、与えられた音声ファイルに合わせてアニメーション化し、基本的に想像できるものは何でも作成できます。
AIで開始画像を生成し、音声クリップを与えて、そのAIキャラクターが話したり歌ったりしているように見せることができます。実在の人物の画像をアップロードし、彼らの音声を録音してアップロードし、マッチさせて、彼らがどのようなシナリオでもそれを実際に言っているように見せることができます。
AIで生成された動画についてそれを考えてみてください。AIで画像を作成する技術はすでにあり、11 Labsのようなツールで現実的な音声を作成する技術もすでにあります。単一のプロンプトでそれをすべて行うまでにどれほどの時間がかかるでしょうか？「イーロン・マスクが何か突飛な、とんでもないことを言っている動画を作って」と。話してほしいテキストを与えると、イーロン・マスクの画像を生成し、11 Labsでイーロン・マスクの声で音声を生成し、作成された画像と音声を組み合わせると、単一のテキストプロンプトから基本的にイーロン・マスクが望むことを言うディープフェイクが生成されます。
最終的には、1つのツールがすべてを単一のテキストプロンプトから行うようになるでしょう。現時点でも、複数のツールを組み合わせることで、すでにそれを始めることができます。これがすべて非常に簡単になっていくのは、素晴らしいと同時に少し怖いことです。
最後に紹介するのは、現時点で私が最も感銘を受けているものです。「Video-JAM：ビデオモデルにおける強化されたモーション生成のための結合外観モーション表現」です。人々が体操の動画を作成し、このような奇妙な結果になっていたのを覚えていますか？このような人物のように。この新しいツールは、実際にそれらをリアリスティックで、よりまとまりのあるものにします。
右側のこのクリップには体操の動画があります。左側では、フラフープをしている人の古いスタイルの動画が見られ、フラフープが体から完全に外れてしまう場面があります。右側では、実際の人間がフラフープをしているように見えます。
ここにはたくさんの例があります。「繁華街の公園でローラーブレードに乗った2本足のカワウソが、ピクニックをしている家族の前を回転しながら通り過ぎる」。左側は不自然ですが、右側はかなりリアリスティックに見えます。「腕立て伏せをする女性」。左側では同じ位置にとどまっているだけですが、右側では実際に腕立て伏せをしているように見えます。「森の小道を自転車に乗って少しふらつきながら進むクマ」。左側は後輪がなく、クマが浮いているだけですが、右側は自転車に乗るクマのように見えます。物理的な動きがどのように機能するかを実際に理解しているのです。
これは新しいAIビデオ生成モデルではありません。これはビデオモデルを訓練する新しい方法です。おそらくSoraやRunway、Clingなどのツールがこの技術をトレーニングに使用して、物理的な動きを理解し、実際にビデオをリアリスティックで良いものにすることでしょう。
このページは必見です。説明欄にリンクを載せておきますので、正直に言って心を奪われるような例がたくさんあります。ここでは、頭立ちをしようとしている人の頭が文字通り体から外れて回転している様子が見られ、SoraとDitもそれほど良くありません。そして、実際に頭立ちをしているように見える女性がいて、想像通りの見た目になっています。右側には他にも本当に印象的な出力例がたくさんあります。
これはAIビデオ生成における最大の進歩の1つです。これらのモデルがこの新しい技術を使い始めるとすぐに、ここで見られるように、Video-JAMはあらゆるビデオ生成モデルに強力なモーションの事前知識を明示的に組み込むフレームワークですが、大手AIビデオ企業がこのコードを手に入れるとすぐに、実際の物理的な動きやビデオをより正確でリアリスティックに見せることに大きな飛躍が見られるでしょう。この研究が世に出るとすぐに大きな飛躍が見られるでしょう。
これらすべてをまとめると、AIビデオが今年を通じてますます驚くべきものになっていく理由が分かります。好きなキャラクターに好きな衣装を着せることができ、ビデオから何でも消去でき、ビデオから何でもマスクアウトでき、カメラアングルを設定し、ストーリーを書き、ビデオ内のAI俳優を作り、基本的にすべてのAIが協力してストーリーを形成できるようになります。
想像できる誰もが想像できることを言ったり歌ったりする動画を、画像と音声をマッチさせて作成する能力を手に入れつつあり、実世界とモーションが実際にどのように機能するかについての物理的な理解がより現実的になり、より一貫性のある動画が得られるようになっています。これらの技術が交差し、組み合わさり始めると、AIを使用して制作できる動画の可能性は無限大です。
これらの多くがRunwayやCling、Sora、あるいはお気に入りのツールに組み込まれ、生成したいビデオの正確な出力をより細かく制御できるようになるでしょう。それは私にとって非常にエキサイティングです。素晴らしいことだと思います。同時に少し怖いことでもあります。なぜなら、誰でもこれらのことを簡単にできるようになるからです。これは明らかに、悪意のある人々が実際には真実ではないことを人々に信じ込ませようとする場合、いくつかの否定的な影響があります。
しかしクリエイティブな人々にとって、これらすべては素晴らしいものです。私はこれらを手に入れて実験し、私の頭で考えつくものを何でも作り出し、世界に発信できることにとてもワクワクしています。素晴らしい時代に生きていますね。みなさんも私が見ているものを見て、これがすべてどれほどエキサイティングになってきているかを感じていただけたらと思います。
この動画を楽しんでいただけ、これから来るものの未来を少し垣間見ることができたことを願っています。この研究の多くは、まだ誰もが利用できるわけではありませんが、このコードはすぐに利用可能になるでしょう。つまり、より多くのツールがアクセスできるようになり、誰でもすぐにこれらの機能を手に入れることができるようになります。本当にエキサイティングなことですね。以上が私からの紹介でした。
最新のAIツール、最新のAIニュース、常に最新情報を得たい方は、futur tools をチェックしてください。ここで私は、ニュース、ツール、研究など、出会ったすべてのものを共有しています。また、最も重要なニュースと最もクールなツールを週2回、無料のニュースレターでメールボックスに直接お届けしています。サインアップすると、様々なAIツールを使用した副収入を得る方法のデータベースであるAI Income Databaseに無料でアクセスできます。すべて無料で、futur toolsで見つけることができます。
この動画をご視聴いただき、またHostingerにスポンサーになっていただき、ありがとうございます。次の動画でお会いできることを楽しみにしています。さようなら。