
10,503 文字

AIは休むことなく進化し、今週は非常に目覚ましい進展がありました。このような形で動画内のキャラクターや背景を入れ替えることができる新しい動画生成ツールが登場しました。さらに、別のツールもあります。ついに、カスタムスタイルやキャラクターを動画に追加する機能が実現しました。編集可能な3Dヘッドを生成できる新しいAIも登場し、1枚の写真から非常に正確な3Dモデルを生成できる別のツールもあります。他にもたくさんありますので、早速見ていきましょう。
まず、このAIはとても驚くべきものです。3D trag Masterと呼ばれ、基本的には動画生成ツールですが、動画内の1つまたは複数のオブジェクトの動きをコントロールすることができます。作成したいものを説明するテキストプロンプトを入力し、さらにオブジェクトを動かしたい経路を定義する3Dの軌道も入力します。これにより、動画内のオブジェクトの動きをコントロールすることができます。
例えば、場所を砂漠に設定し、このような軌道を入力した場合、トカゲを入力すればこのような動画が得られます。あるいは、ホッキョクグマを入力すればこうなり、サイを入力すればこうなります。また、女性や煙の塊などもこのように表現できます。これにより、キャラクターをどのように動かしたいかをより細かくコントロールすることができます。
これらの例では背景を砂漠に固定していましたが、キャラクターを同じにしたまま背景を変えることもできます。例えば、キャラクターを「体が柔らかい灰色の毛で覆われ、大きな丸い耳と黒い鼻を持つコアラ」と指定し、この軌道を入力すると、コアラはすべての動画でこの軌道に沿って動きます。ただし、各動画で場所のプロンプトが異なります。例えば、石の道、砂漠、ビーチ、雪原、草原などです。
これまで、背景を入れ替える例とキャラクターを入れ替える例を紹介してきましたが、両方を同時に変更することもでき、さらに複数の軌道を入力することもできます。例えば、2つのオブジェクトの軌道をアップロードし、森の中のホッキョクグマとドローンを指定すると、このようになります。あるいは、砂漠の中の男性とロボットを指定すると、このようになります。非常に柔軟なツールです。
2つではなく3つの軌道を使用したさらに驚くべき例もあります。各動画で指定した経路に沿って3つの異なるオブジェクトが動いているのが分かります。他にもできることがあります。人物の髪、服装、性別など、動画内の特定の要素を編集することもできます。
例えば、「短い黒髪、中肉中背、グレーのストライプのセーター、黒のジーンズ、薄茶色の革靴を着用した男性」とプロンプトを入力し、男性用と鳥用の2つの軌道をアップロードして、最初の動画がこのようになったとします。さらにプロンプトを追加して特定の要素を編集することもできます。例えば、短い黒髪の代わりに「はげ頭」に変更すると、確かに男性の頭がはげになります。あるいは、グレーのストライプのシャツの代わりに黄色いシャツを指定するとこうなります。男性に要素を追加することもできます。ここで「バックパック付き」を追加すると、確かに男性はバックパックを背負います。さらに、男性を女性に変更することもこのようにできます。
これは動画編集のための非常に強力な機能です。これまでのSoraやclling、Minimaxなどの最高の動画生成ツールでも、他のすべてを同じに保ったまま人物のシャツの色や髪型を編集するような機能はありませんでした。しかし、このAIでついにより細かい編集が可能になりました。
数週間前に紹介したTorahなど、動画内のオブジェクトをコントロールするために軌道を入力できる他の最先端の手法と比較すると、この新しい3D trag Masterはほとんどの場合でより正確な結果を生成します。例えば、「ふわふわの毛並みで尻尾を振り、暖かみのある茶色の毛を持つ犬」というプロンプトで、場所を夕暮れのビーチに設定し、この軌道を入力した場合、この新しい3D trag Masterだけが本当に指定した軌道に従っています。
別の例として、「長い黒髪のストレートヘアで青いデニムジャケットを着た女性が街にいる」というプロンプトでこの軌道を追加すると、他の競合ツールのTorahやdirect a videoは女性を特定の軌道に沿って歩かせることができませんでしたが、この新しいAIはそれをうまく処理できました。
複数の軌道を追加すると、この新しいAIの真価が発揮されます。「乱れた黒髪の男性とシマウマが森にいる」という設定で、このような2つの軌道を指定すると、再び競合ツールのTorahやdirector videoは男性とシマウマを指定された経路に従わせることができませんでしたが、新しいツールはこれを正確に実現できました。
ページの上部にはデータセットのhugging faceリンクとGitHubリポジトリがあり、オープンソースのCog videoを使用して実行するためのすべての手順が含まれています。詳細については、説明欄にこのメインページへのリンクを掲載しておきます。
次に、新しいオープンソースの音声生成ツールを紹介します。これは本当に優れていて、Tango fluxと呼ばれています。テキストプロンプトだけから非常にリアルで正確な音声クリップを生成することができます。いくつか例を見てみましょう。
プロンプトが「バスケットボールがコートでリズミカルにバウンドし、靴がフロアでキーキーと音を立て、審判のホイッスルが空気を切り裂く」の場合、Tango fluxの生成結果はこのようになります。完璧ですね。確かにバスケットボールがコートでバウンドする音、靴がキーキーと鳴る音、そして審判のホイッスルが聞こえます。
同じプロンプトで、人気のある別の音声生成ツールのstable audio openと比較してみましょう。このように、新しいTango fluxモデルほどの品質ではありません。stable audio openを聞いてみましょう。審判が単にホイッスルを吹き続けるだけで、バスケットボールがバウンドする音などはあまり聞こえません。
別の難しい例を見てみましょう。プロンプトは「水滴が鋭く反響し、遠くの唸り声が洞窟に響き渡り、柔らかな金属の擦れる音が見えない何かが潜んでいることを示唆する」です。まずTango fluxを再生して、どのような音になるか聞いてみましょう。完璧です。確かに水滴の音、エコー、遠くの唸り声、そして柔らかな金属が擦れるような音が聞こえます。
次にstable audio openを聞いてみましょう。先ほどのstable audio openの生成結果を聞いてわかるように、唸り声は全く取り入れられておらず、水滴の音さえもあまりリアルに聞こえません。
別の例を見てみましょう。「コインの山が木のテーブルに金属的な音を立てて落ち、その後に居酒屋の群衆のささやかなざわめきと、揺れるドアのきしむ音が続く」という、非常に難しく複雑なプロンプトです。Tango fluxがこれをどのように処理するか見てみましょう。とても素晴らしい、非常に素晴らしいですね。そしてこちらがstable audio openです。コインが落ちる音は聞こえますが、群衆のざわめきは聞こえません。
このように、Tango fluxはプロンプトのコンテキストをより良く理解し、よりリアルな音声サンプルを生成することができます。ちなみに、Tango fluxの技術仕様をいくつか紹介します。最大30秒までの音声クリップを生成することができ、非常に効率的です。stable audio diffusionやaudio dm2などの他のテキストから音声への変換ツールと比較すると、推論時間、つまり音声クリップを生成するのにかかる時間が圧倒的に短いことがわかります。
しかし、それだけでなく、品質も最も高いのです。最高のclap値と最低のFDスコアを持っていることがわかります。これは、音声の品質が高く、より正確であることを意味します。つまり、Tango fluxは現在利用可能な最高のオープンソース音声生成ツールのようです。素晴らしいことに、すでにコードが公開されています。
ページの上部にはhugging faceスペースがあり、データセットとこのGitHubリポジトリがあります。ここには、ローカルでこれをダウンロードして使用するためのすべての手順が含まれています。リンクはすべてここの上部にありますので、説明欄でこのメインページへのリンクを共有しておきます。
他のニュースでは、Hun-yanビデオのためのLoraをファインチューニングできるようになりました。これが何を意味するのかわからない場合は、簡単な背景説明をしましょう。Hun-yanは、最近登場した完全に検閲されていないオープンソースの動画生成ツールで、現存する最高のオープンソース動画モデルです。一部の主要な商用モデルと比較しても遜色ありません。実際、今お見せしているクリップはすべてHun-yanで生成されたものです。ご覧のように、これは本当に印象的です。Hun-yanに詳しくない場合は、完全なレビューとインストールチュートリアルのためにこの動画をご覧ください。
いずれにせよ、今週彼らはユーザーがLoraをトレーニングする機能をリリースしました。Loraは基本的に、特定のスタイルやキャラクターを動画に追加するために追加できる小さなモデルです。例えば、civit AIでは、動画で使用できるHun-yanのLoraがすでにたくさんあることがわかります。例えば、このような動画を作成したい場合は、このLoraを追加します。あるいは、エマ・ワトソンを追加したい場合は、このLoraを使用します。あるいは、動画をスタジオジブリスタイルに変換するLoraもあります。
ああ、これは何でしょう。ナタリー・ポートマンやテイラー・スウィフト、スカーレット・ヨハンソンを追加することもできます。あるいは、リゼロのレムのような、あるいはブルーアーカイブの様々なキャラクターもあります。そしてこちらがリアルなバージョンのレムです。すでに多くの選択肢があります。あるいは、ここで探しているものが見つからない場合は、独自のLoraをトレーニングする方法についての非常に包括的な記事もあります。ただし、これは非常に技術的で、decent GPUが必要なことに注意してください。いずれにせよ、独自のLoraのトレーニングに興味がある場合のために、説明欄でこのページへのリンクを共有しておきます。
オープンソースの動画生成ツールにLoraが導入されたことで、誰でも何かのスタイルを複製したり、一貫したキャラクターを作成したり、既存のキャラクターや人物を動画に追加したりすることができるようになりました。これは非常に強力な機能です。
次に紹介するAIも非常に優れています。「purse」と呼ばれ、1枚の人物写真から3Dヘッドを作成することができます。以前にも、ここで見られるようなcap 4Dや先週紹介したfaceliftなど、他の3Dヘッド生成ツールを私のチャンネルで紹介しましたが、この新しいpurseはさらに柔軟です。アニメーション可能な3Dヘッドを作成できるだけでなく、髪、ひげ、眉毛などを編集することもできます。これにより、多くのクリエイティブな可能性が開かれます。さらに驚くべき機能もあります。1枚の写真からこの人物の編集可能な3Dアバターを作成できるだけでなく、このような別の人物の写真をアップロードして、この人の髪の毛などの特定の特徴を3Dアバターに転送することもできます。
さらに、異なる顔の特徴を組み合わせることもできます。サイトには、このようなインタラクティブなスライダーがあり、これで遊ぶことができます。入力画像が2枚あり、1枚目がこのような見た目で、2枚目がこのような見た目の場合、このスライダーを使って2つのひげを混ぜ合わせることができます。
別のデモを見てみましょう。1枚目の写真がこのような髪型で、2枚目の写真がこのような髪型の場合、スライダーを動かすとアバターの髪がどのように変化するかに注目してください。非常に柔軟なツールです。
ちなみに、これはこのように機能します。システムは2つの主要な段階で構成されています。第1段階では、入力写真を取り込み、異なる表情や顔の特徴を持つ多くの写真を生成します。これにより、この人物の合成データセットが作成されます。第2段階では、このデータセットからすべての写真を取り込み、コントロールや編集が可能な3Dアバターを作成します。このモデルは分離制御を可能にします。つまり、顔の他の部分に影響を与えることなく、髪の色を変更するなど、顔の特徴を独立して変更できます。
このAIは、ビデオゲームやソーシャルメディアのためのパーソナライズされたアバターの作成に非常に有用です。また、人々は異なる髪型やひげを試すためにこれを使用することもできます。ページの上部にはGitHubリンクがありますが、クリックすると現時点では空のようです。まだ早い段階で、コードはまだ公開されていません。とりあえず、詳細を読むためにこのメインページへのリンクを説明欄に掲載しておきます。
次に紹介するのは、おそらく動画編集の未来となるかもしれません。先週、Deep seek バージョン3という新しいAIモデルについて話しました。これは、ほとんどのベンチマークでOpenAIのGPT 4oとClaude 3.5 Sonnetを上回るオープンソースモデルです。これがオープンソースであることは、ローカルで実行したり、ファインチューニングしたり、好きなツールに組み込んだりできることを意味します。
その使用例の1つが、hugging faceプロジェクトの「AI video composer」でDeep seekを使用することです。以前は、ここのパラメータをクリックすると、以前はQuinnを使用していましたが、これをDeep seekに変更すると、実際にはるかに強力になります。これは基本的に、複数のメディアファイルをアップロードし、動画をどのように見せたいかを説明するテキストプロンプトだけで、それに応じて動画を編集してくれます。
従来の動画編集とは異なり、このタイムラインで作業する必要はなく、マスキングやその他の手動作業を行う必要もありません。すべてはこのAIにプロンプトを与えるだけで実行できます。例えば、6枚の猫の画像とこのオーディオファイルがある場合、「オーディオをバックグラウンド音楽として、猫の画像を3×2グリッドで配置し、動画の長さをオーディオの長さに合わせる」とプロンプトを入力すると、このような最終結果が得られます。完璧ですね。6枚すべての猫の画像が3×2グリッドで配置され、動画にオーディオが追加されています。
これは説明欄にリンクを掲載する非常に基本的なhugging faceスペースですが、これが動画編集の未来の始まりかもしれません。私たちが多くの手動作業を行う代わりに、AIにプロンプトを与えるだけで動画クリップを作成してくれるようになるでしょう。
他のニュースでは、pix verse 3.5という新しいAI動画生成ツールが登場しました。その生成の品質と細部の表現には本当に感心しています。もちろんpix verseにはバージョン1やバージョン2などの以前のバージョンがありましたが、それらはかなり平凡で、私がチャンネルで紹介したSoraやclling、Minimaxと比べると明らかに及びませんでした。しかし、この新しいバージョン3.5は、同等かそれ以上だと思います。
まだテスト中ですが、いくつかのサンプルを紹介します。「地下鉄駅でゾンビの群れが人々を襲うホラー映画、手持ちカメラ」というプロンプトの場合、動画がいかに詳細でシャープかに注目してください。あるいは、砂漠でユニコーンに乗る宇宙飛行士の例では、非常にシャープでリアルで一貫性があります。少なくともこのプロンプトに関しては、このように見えるcllingやMinimaxよりも優れていると言えるでしょう。
ご存知の通り、私は非常に倹約家で、無料で試すことが好きです。このpix versteツールをおすすめする理由は、無料でサインアップでき、初期クレジットとして90クレジットが付与され、少なくとも現時点では毎日60クレジットが追加されるからです。これにより、1日に1〜2本の高画質動画を生成するのに十分なクレジットが得られます。もう少しテストを続けて、良ければ完全なレビュー動画を作成するかもしれません。
スポンサーのturbo typeのおかげで、繰り返し入力する必要のあるものにカスタムキーボードショートカットを作成できます。こちらをご覧ください。chat GPTでよく使うプロンプトがあるとします。ショートカットを/Suに設定し、よく使うプロンプトを入力します。コピーしたテキストを含める変数を追加することもできます。要約したい記事を見つけたら、URLをコピーし、chat GPTでキーボードショートカットを入力するだけです。プロンプトを書くための超高速な方法です。
ショートカットを任意のテキストフィールドにドラッグ&ドロップすることもできます。任意のテキストを選択して右クリックすることで、簡単にショートカットとして追加することもできます。最後に、リッチテキストもサポートしています。例えば、太字やイタリック体を追加したり、テキストにリンクを追加したりできます。
次のようなテンプレートで多くのコールドメールを送信する必要がある場合、そのためのショートカットを作成するだけで、メールを開始するたびにショートカットを入力するだけで、テキストがすでにスタイル設定され、リンクが付けられた状態になります。chat GPT、ビジネス、金融、医療などのための一般的なプロンプトを含む、何百もの既存のテンプレートから選択できます。このツールは毎日多くの時間を節約してくれるので、ぜひチェックして、無料のChrome拡張機能を下のリンクからダウンロードしてください。
次に紹介するプロジェクトも非常に興味深いものです。Doraと呼ばれ、1枚の写真から非常に正確な3Dモデルを生成できるAIです。技術的に言えば、Doraは変分オートエンコーダ(VAE)として知られています。comfy UIやstable diffusion、fluxを使用したことがある方には、この用語はかなり馴染みがあるはずです。そうでない場合、VAEは基本的にデータを圧縮および解凍する方法です。
Doraに関して言えば、これは複雑な3D形状を単純なデータに圧縮し、再び3D形状に戻すことができるVAEです。現在の3Dモデリング用VAEは、一様点サンプリングと呼ばれるものを使用しており、これにより3D形状の細部が失われる可能性があります。つまり、再構築された3D形状が元のものほど良く見えない可能性があります。しかし、Doraにはシャープエッジサンプリングと呼ばれる新しいアプローチがあり、これによりVAEの3Dオブジェクト生成が改善されています。
この方法は基本的に、鋭いエッジや角など、3D形状の最も重要な部分を特定し、それに焦点を当てます。最終的に、これによりVAEはより多くの細部を保持し、より見栄えの良い3Dモデルを作成することができます。いくつか例を見てみましょう。雪だるまの画像を入力すると、Doraからこのような3Dモデルが得られます。あるいは、この木の板を入力すると、このようになります。
ちなみに、1枚の画像からその画像の背後にあるものを判断するのは非常に難しいのですが、ご覧のように、この木の板の裏側や雪だるまの裏側を、データがないにもかかわらず、かなり正確に生成することができます。それがどのように見えるかを推測しなければならないのです。
さらに印象的な例をいくつか紹介します。これは非常に複雑なデザインを持つキャラクターですが、ご覧のように、Doraはコートのバッジやデザインなど、複雑な部分を含めてこれをとてもうまく処理できています。ビールのグラスを持つこの男性の例も、かなり複雑なデザインですが、Doraは非常に正確に3Dモデルを生成することができました。
このドラゴンの難しい例でも、Doraはこれを非常にうまく処理しています。さらに難しい例をいくつか見てみましょう。このメカロボットは非常に詳細で、生成するのが難しいのですが、1枚の写真だけで、この3Dモデルがいかに正確で高品質であるかをご覧ください。ブルドッグの顔の3Dモデルを生成するのは、特にしわや顔の特徴を考えると非常に難しい例ですが、Doraはこれをとてもうまく処理できています。
この猫のガンダムクリーチャーの非常に複雑で難しいデザインの例もあります。素晴らしいことに、Doraによって生成された3Dモデルは、すでにUnityなどの現代の3Dエンジンですぐに使用できる状態です。これらの3Dモデルをリアルタイムで使用することができます。例えば、1枚の画像を入力し、Doraに3Dモデルを生成させ、それをリアルタイムで使用してアニメーション化することができます。
リアルタイム処理に関連して、これはDoraのもう1つの利点です。非常に計算効率が良いのです。ここで、Doraは最先端の手法と同等の再構築品質を達成しながら、少なくとも8倍小さい潜在空間しか必要としないと書かれています。基本的に、これはDoraが計算リソースを少なく使用しながら、高品質な3D形状を生成できることを意味します。
上部までスクロールすると、コードは近日公開予定と書かれています。オープンソース化する予定のようです。追加の例を見たり、詳細を読んだりできるこのページへのリンクを共有しておきます。
次に紹介するAIも非常に優れています。gen HMRと呼ばれ、generative human mesh recoveryの略で、動画を取り込んで、動画内の人々の3Dポーズとモデルを検出することができます。技術的な詳細に入る前に、まずいくつかの驚くべき例を見てみましょう。
このような非常にアクション性の高いシーンでも、キャラクターが屋上を走り回り、多くのアクロバティックな動きを行っているにもかかわらず、AIはこの2人のキャラクターのポーズを非常に正確に予測することができます。この戦争シーンのように、さらに混沌とした例では、多くの人々が走り回り、爆発が至る所で起こり、非常に混乱した状況で人々がぶつかり合っていますが、このAI gen HMRは、これらのキャラクターのほとんどのポーズを非常に高い精度で検出することができます。
このレース映像のような、別の混沌とした例でも、ご覧のようにgen HMRはこれらのランナー全員のポーズを非常に高い精度で検出することができます。このように、このAIは動画内の複数の人物のポーズと3Dモデルを検出するのが非常に得意です。では、gen HMRの仕組みを簡単に説明しましょう。これは2つの段階で構成されています。第1段階は不確実性ガイド付きサンプリングと呼ばれ、ここで動画内のすべての人々の可能な3Dポーズを複数生成し、入力画像に基づいて最も可能性の高いものを選択します。第2段階は2Dポーズガイド付き洗練と呼ばれ、これは生成されたポーズと3Dモデルをさらに洗練して、元の画像や動画により適合させます。
とはいえ、このツールにはまだいくつかの欠点や不整合があります。いくつかの例を見てみましょう。動画のフレームがこのように見える場合、生成されたポーズは人の腕や脚と本当には合っていません。これらの体操の例でも同様で、つま先が正しい方向を向いていないことに注目してください。これは別の難しい例で、このような広角ショットではあまりうまく機能しないようです。手や足のサイズが本当に正しくないことに注目してください。
残念ながら、ページの上部にはGitHubやhugging faceのリンクなど何もありません。コードはまだ公開されていないようですが、これは人間のポーズを非常に正確に生成できるツールなので、このテクノロジーが非常に興味深いと思ったので、皆さんと共有したいと思いました。今年中には既存のモーションキャプチャ技術に簡単に取って代わる可能性があります。つまり、もはや誰もマーカーを付けたスーツを着用したり、動画内の別のキャラクターをアニメーション化するために従来のような作業を行ったりする必要がなくなります。
これで今週のAIのハイライトをすべて紹介しました。これらすべてについて、どう思われますか?どのツールを最も試してみたいですか?いつものように、皆さんと共有するためのトップAIニュースとツールを探し続けます。この動画を楽しんでいただけたら、いいね、シェア、登録をして、さらなるコンテンツをお楽しみください。
また、AIの世界では毎週本当に多くのことが起きているので、YouTubeチャンネルですべてを網羅することはできません。AIで起きていることすべてを本当に把握し続けるために、私の無料Weekly Newsletterに登録することをお勧めします。そのリンクは説明欄に掲載されています。ご視聴ありがとうございました。次回の動画でお会いしましょう。
コメント