このフリーAIディープフェイクで誰でも何でも話せる

9,310 文字

このツールは現在使える最高の口の動きを合わせるツールです。完全に無料でオープンソースなので、このビデオではインストール方法と使い方を説明します。このツールはバイトダンス社のLatent Syncと呼ばれ、任意の動画に任意の音声を入力して、音声に合わせて口の動きを同期させることができます。
例を見てみましょう。まずこの10秒程度の元の動画があり、そこに次のような音声を入力します。「食べ物に関して、そして恋愛やジムに関して聞いてください。食べ物について話しましょう。食べ物は私の人生で本当に大切なものです。最近いろんな国の料理を試しているんです。アジア料理やフランス料理を試しています」。このツールがどうするかというと、元の動画に音声を合わせて口の動きを同期させるのです。こちらが最終結果です。
「食べ物に関して、そして恋愛やジムに関して聞いてください。食べ物について話しましょう。食べ物は私の人生で本当に大切なものです。最近いろんな国の料理を試しているんです。アジア料理やフランス料理、タイ料理などです。私の友達は本当に上手いんです」
このツールでは元の動画の体と顔を保持しているので、AIで人物全体を生成する場合と比べて、より自然でリアルな動画に仕上がります。これはAIアバターではなく実際の動画で、口の部分だけを編集しているのです。
別の例も見てみましょう。これが入力動画です。「私たちにとって初めてのディズニーランドでした。他の都市のディズニーランドには行ったことがありません。まず、私たちは別の都市に住んでいるので、中国の都市間を結ぶ高速鉄道のGAAで上海まで移動する必要がありました」
音声を変更するとこうなります。「私はゾウが絵を描くのをよく見ていました。鼻で絵筆を持って描くのが本当に面白いと思います。私も絵を描くのが好きで、大きな絵を描いたり、時にはとても小さな絵を描いたりします。花の絵を描くのが特に好きです」
さらに例を見てみましょう。「この急速な進歩の時代において、技術は社会の進歩を動かす原動力となっています。人工知能から遺伝子編集まで、技術の一歩一歩が…」
なお、実際の動画である必要はありません。AI生成の動画を使ってこのツールでキャラクターに話をさせることもできます。例えばこちらです。「最高司令部は戦争のコントロールを失った。我々が初めて実際のターンと戦った時、顔面にパンチを食らったが、顔面パンチを食らうと茫然とした状態から抜け出して戦うんだ」
このツールを使えば、AI動画のキャラクターに簡単に話をさせたり、偽のAIインフルエンサー動画を作って何でも話させたりすることができます。「私のチャンネルを購読して、AIの最新情報をお見逃しなく」
別の例です。「これが私の子供たちを忙しくさせ、スクリーンから離れさせる方法です」
このツールは非常に便利で、このような2.5Dキャラクターにも使えます。これが元の動画で、ここでも任意の音声を入力して顔の動きを新しい音声に同期させることができます。結果はこうなります。「私は派手で、家にいられません。いつも外に出かけたいんです。家にいられないので、そういうメイクアップの事をするのが好きなんです」
最後に3Dキャラクターのデモもあります。音声を変更すると、このツールでキャラクターの口の動きを新しい音声に同期させることができます。結果はこうです。「私の大好きなことの1つはメイクアップです。本当に大好きな趣味の1つで、子供の頃から始めました。母のコスメを使い始めたんですが、母は『私のコスメを使わないで、子供用じゃないから』と言っていました。そして私は母にお願いし始めました」
これらは公式ページのデモですが、選りすぐられた例かもしれません。自分たちで試してみましょう。
これがデフォルトのワークフローです。インストールと実行方法は後半で説明しますが、まずはこのツールがどれだけ優秀か見てみましょう。使い方は非常に簡単です。「動画を選択」をクリックするだけです。まずはSam Altmanのこの動画から始めましょう。ちなみにこれが元の動画です。「時間とともにGPTsとアシスタントはエージェントの前身となり、さらに多くのことができるようになります。徐々に計画を立て、あなたに代わってより複雑な行動を実行できるようになるでしょう」
そしてここで、顔の動きを同期させる音声をアップロードします。これも非常に簡単で、「ファイルを選択」をクリックするだけです。私は自分の声を使います。これは実際にこのビデオの冒頭で使用した私のナレーションです。再生してみましょう。「このツールは現在使える最高の口の動きを合わせるツールです。完全に無料でオープンソースなので、このビデオではインストール方法と使い方を説明します」
これが必要なすべてです。他の設定はデフォルトのままでOKです。では「Q」をクリックして結果を見てみましょう。これが結果です。「このツールは現在使える最高の口の動きを合わせるツールです。完全に無料でオープンソースなので、このビデオではインストール方法と使い方を説明します」
Sam Altmanが私の声で話すのは本当に奇妙な感じですが、ご覧の通り、私の音声をSam Altmanの動画に非常にうまく同期させています。
別の例も試してみましょう。今度は新しい動画をアップロードします。今回はTaylor Swiftのこの動画を試してみましょう。ちなみにこれが元の動画です。「なぜ私たちがこんなにうまくいっているのか？それは、私たちが急速に成長しなければならないから、こんなに一生懸命働かなければならないから、このチャンスに値することを証明しなければならないから、そして私たちの過去の成果を超えなければならないからです。音楽界の女性たち、ステージ上で」
音声サンプルは同じものを使い、「Q」をクリックして結果を見てみましょう。ちなみにこれは本当に速いです。私はRTX 5000を使用していますが、VRAMは16GBしかありません。24GBのRTX 4090ほど良くない中級のGPUですが、12秒のクリップを生成するのに5分程度しかかかりません。かなり高速で効率的なツールです。
これが結果です。「このツールは現在使える最高の口の動きを合わせるツールです。完全に無料でオープンソースなので、このビデオではインストール方法と使い方を説明します」
これはSam Altmanの動画よりもさらに奇妙です。Taylor Swiftが私の声で話しているのを見るのは。ちなみに、私の声だけを使う必要はありません。RVCまたはRetrieval-based Voice Conversionと呼ばれる別の無料でオープンソースなAIを使用して、基本的に私の声をTaylor Swiftや他の誰かの声に変換することもできます。RVCをまだ知らない方は、誰の声でもクローンして使用する方法の完全なインストールチュートリアルを説明しているこのビデオをぜひチェックしてください。例えば、私の声をTaylor Swiftの声に変換して、このリップシンクツールに再度入力することができます。こんな感じです。「このツールは現在使える最高の口の動きを合わせるツールです。完全に無料でオープンソースなので、このビデオではインストール方法と使い方を説明します」
実は、これには本当にクールな使用例がたくさんあります。例えば、Sam Altmanの動画を再び使用して、Sam Altmanに異なる言語を話させたい場合を考えてみましょう。トランスクリプトを抽出し、AIにSamの発言を他の言語に翻訳させ、その新しいトランスクリプトを誰かの声をクローンできるテキスト読み上げツールに入力することができます。
現時点で最高の無料でオープンソースなオプションはF5 TTSです。これは基本的に誰の声でもクローンして、任意のテキストを読み上げさせることができます。F5 TTSをまだ知らない方は、完全なインストールチュートリアルを説明しているこのビデオをぜひチェックしてください。とにかく、私はスペイン語、中国語、フランス語を含む複数の言語でトランスクリプトを作成しました。再生してみましょう。
では「Q」を押して、Sam Altmanにこれらすべての言語を話させてみましょう。結果はこうなります。異なる言語でも、これが本当にうまく機能しているのがわかります。まるでSam Altmanがその言語を母語として話しているように見えます。
他のものでもテストしてみましょう。アニメでもこれが機能するか確認したいと思います。新しい動画をアップロードしましょう。今回は適当なアニメキャラクターが話している動画です。これが元の動画です。これは無音のクリップで、音声はありません。また私の声を使ってみましょう。この音声クリップを再度アップロードします。最初の数秒だけ再生してみましょう。「これは現在使える最高の口の動きを合わせるツールです」
では、アニメでも機能するか試してみましょう。あまりうまくいかないというコメントを読んだことがありますが、テストしてみましょう。再び「Q」を押します。残念ながら、アニメのような場合、「顔が検出されません」というエラーが出ます。これはリアルな顔でのみ機能するようで、漫画やアニメを使用したい場合は、これが最適なオプションではないかもしれません。
デモは十分でしょう。次は、これをローカルのコンピュータにインストールして、無制限に無料でオフラインで実行する方法を説明します。
このビデオのスポンサーであるXDocに感謝します。XDo.aiは、AIを活用した技術文書の翻訳とドキュメントインテリジェンスツールです。ChatGPTやClaudeのような通常のAIツールを使用することもできますが、このような超技術的な文書の場合、エラーが発生しやすい可能性があります。そこでXDocの出番です。XDocは技術文書の翻訳に特化し、医療、法律、金融など、様々な産業分野で効果を発揮します。実際、700以上の製薬クライアントから信頼を得ており、学生、専門家、企業、フリーランス翻訳者に適しています。
無料でログインまたはサインアップして、ドキュメントをここにドラッグ＆ドロップするだけで翻訳できます。これはWord文書、スプレッドシート、PDF、PowerPointなど複数のフォーマットをサポートしており、13言語以上への翻訳が可能で、多くの時間とコストを節約できます。さらに、大規模なプロジェクト全体の翻訳のために一括アップロードも可能です。
XDocは、重要な分野で最大98%の精度を達成し、高度な技術用語でも人間に近い品質の翻訳を提供します。さらに、用語の一貫性を維持し、高品質な結果を得るために翻訳メモリを使用することができます。XDocはエンタープライズレベルの情報セキュリティを備えており、機密性の高いビジネスデータを保護します。学生でもビジネスプロフェッショナルでも、XDocはドキュメントを翻訳するための完璧なAIツールです。下記のリンクを使って無料で試してみてください。
公式GitHubページ（リンクは説明欄に記載）に行くと、下の方にスクロールすると、コードとモデルがすでにダウンロード可能になっていることがわかります。素晴らしいことに、これは約6.5GBのVRAMを必要とするだけなので、他のAIビデオツールほどの計算能力を必要としません。ほとんどの中級グレードのGPUで実行できます。
このオフィシャルGitHubリポジトリでは、すべてがコードで、ほとんどの人にとって直感的で使いやすくないかもしれません。視覚的なインターフェースがあれば便利ですよね。それが、このComfyUI Latent Sync Wrapperと呼ばれる別のGitHubリポジトリの登場です。
この素晴らしい開発者のschmroninさん（お名前の発音が正しければいいのですが）が、Latent SyncのComfyUI実装を構築しました。これで、Latent Syncを使用するための本当に使いやすいインターフェースがComfyUIで利用できるようになりました。ここで動画をアップロードし、ここで音声をアップロードして、実行を押すだけです。それだけです。
今日は、これをゼロからインストールする方法を説明します。下にスクロールすると、いくつかの前提条件があります。もちろん、これを使用するにはComfyUIがインストールされている必要があります。ComfyUIがインストールされていない場合は、完全なインストールチュートリアルのこのビデオをご覧ください。最初は、多くのノードとヌードルがあって本当に複雑に見えるかもしれませんが、このチュートリアルを見た後は、すべてがずっと分かりやすくなることを約束します。
2番目の前提条件は、このビデオでも説明しますが、Pythonがインストールされている必要があります。実際、ComfyUIを実行するためにもPythonのインストールが必要です。そして3番目のステップは、FFmpegをインストールすることです。
これがインストールされていない場合、インストール方法は次の通りです。まずこのウェブサイトに行き、このページで「FFmpeg-git-full」をクリックします。これは好きな場所にインストールできます。このフォルダを選択し、Cドライブに展開します。OKを押して、これを終了します。
現在Cドライブには、このFFmpegフォルダがあるはずで、開くとこれらのファイルが含まれているはずです。とにかく、1つ前のフォルダに戻って、より短い名前にするために、これを単に「FFmpeg」に変更しましょう。
次のステップは、これを環境変数に追加する必要があります。Windowsの検索バーで「システム環境変数の編集」を検索します。これを開き、「環境変数」をクリックし、システム変数でスクロールダウンして「Path」を見つけ、「Path」をクリックして「編集」をクリックし、「新規」をクリックします。
それが完了したら、このFFmpegを開き、このbinフォルダのパスをコピーします。右クリックして「パスをコピー」をクリックし、こちらに戻って「新規」をクリックし、引用符なしでパスを貼り付けます。そして「OK」を押します。再度「新規」を押して、FFmpeg/binフォルダへのパスを貼り付け、完了したら「OK」を押してこれを終了し、再度「OK」を押します。
これがインストールされたことを確認するには、新しいコマンドプロンプトを開いて「ffmpeg -version」と入力すると、これが表示され、環境変数に追加されたことを示します。
FFmpegをインストールした後、インストールを続けましょう。まず、このGitHubリポジトリをcustom_nodesフォルダにクローンする必要があると書かれています。ComfyUIフォルダを開き、ComfyUIに入り、custom_nodesに入り、上部でCMDと入力してコマンドプロンプトを開きます。
次に、ここで見えるすべてのファイルとフォルダをcustom_nodesフォルダにクローンするために、この行をコピーします。これをここに貼り付けてEnterを押します。
それが完了したら、custom_nodesフォルダに行くと、新しいLatent Sync Wrapperフォルダがあることに注意してください。それを開くと、このGitHubリポジトリで見られるすべてのファイルとフォルダが含まれていることがわかります。
次のステップは、先ほど作成したComfyUI Latent Sync Wrapperフォルダにディレクトリを変更することです。この行をコピーしてここに貼り付け、Enterを押します。現在、このLatent Sync Wrapperフォルダの中にいます。
そして、requirements.txtファイルにリストされているすべてのものをpipを使ってインストールする必要があります。この行をコピーしてここに貼り付け、Enterを押します。基本的に、このrequirements.txtファイルを見て、ここにリストされているすべてのパッケージと依存関係をインストールしています。
すでにインストールされているパッケージとインターネット接続によって、これらすべてをダウンロードするのにしばらく時間がかかる場合があります。これらのパッケージと依存関係がインストールされ、エラーなしでこの行が表示されたら、requirements.txtファイルからすべてが正常にインストールされたことを示しています。
これで基本的に完了です。次のステップは、これをComfyUIで実行することです。実際にこれを終了し、ComfyUIフォルダに戻って、これの実行を開始しましょう。ComfyUIを起動するだけで、このように表示されるはずです。
ComfyUIの素晴らしいところは、これらのすべてのノードとヌードルをゼロからプログラミングする必要がないことです。既存のワークフローをここにドラッグ＆ドロップするだけです。これが複雑に見えても、実際にこの作業をする必要はありません。
ComfyUIフォルダに戻り、custom_nodesで、先ほどダウンロードしたLatent Sync Wrapperの中には、これを動作させるためのワークフローを含むworkflowフォルダがあります。これをここにドラッグ＆ドロップするだけで、このように表示されるはずです。基本的にこれだけです。
使い方はこうです。まず動画をアップロードする必要があります。このボタンをクリックして「動画を選択してアップロード」し、Sam Altmanのこの動画から始めましょう。そしてここでは、フレームレートを設定したり、異なる幅と高さを強制したい場合は、ここで設定することもできますが、元の動画と同じ寸法を維持するのが論理的だと思います。
そしてここで、アップロードする音声ファイルを選択できます。再度このボタンをクリックし、音声クリップをアップロードします。基本的にこのビデオのイントロです。再生してみましょう。「これは現在使える最高の口の動きを合わせるツールです」
これで基本的に完了です。ここでシードを設定することができ、ここではすべての設定をそのままにしておくことをお勧めします。これで基本的に完了です。「Q」をクリックしましょう。
注意点として、初めて実行する場合、ここに書かれているように、必要なモデルを初回使用時にHugging Faceから自動的にダウンロードしようとします。実行すると、現在のコマンドプロンプトを開くと、モデルのチェックポイントをダウンロードしているのがわかります。
インターネット接続の速度によって、これには数分かかる場合があります。もし何らかのエラーメッセージが出た場合は、このHugging Faceリンクからチェックポイントを手動でダウンロードすることもできます。ここをクリックし、「Files and versions」でこのLatent Syncユニットが表示されるはずです。
これをダウンロードして、このフォルダに追加する必要があります。ComfyUIフォルダを開き、custom_nodesで、このLatent Sync Wrapperフォルダにはcheckpointsフォルダがあるはずで、そこにLatent_sync_unit.ptファイルを配置する必要があります。さらに、このtiny.ptファイルも必要です。このファイルはwhisperフォルダにあります。これをダウンロードしてwhisperフォルダに配置するだけです。
とにかく、モデルが自動ダウンロードされた後、またはチェックポイントを手動でインストールした後で実行をクリックすると、リップシンクの実行が開始されるはずです。初回実行時は追加のファイルをダウンロードする必要があるように見えますが、その後はここでリップシンクが実行されているのがわかります。
これが最終的な動画です。約6〜7分かかりました。ちなみに、私はRTX 5000を使用していて、VRAMは16GBしかありません。これは中程度のGPUで、24GBのRTX 4090ほどではありませんが、それでもかなり早く実行できます。
これは自動的に保存されることに注意してください。このsave output設定をTrue（デフォルト）に設定している限り、すでに出力フォルダに保存されています。ComfyUIに行き、outputを見ると、ここに最終的な動画があるはずです。音声付きの動画はこれで、Latent syncと何かしらの番号、そしてaudioという名前が付いているはずです。
オープンソースコミュニティは本当に速く動きます。ComfyUIのインストールチュートリアルの録画を終えた直後に、このHugging Faceスペースも公開されました。コンピュータでローカルに実行するのに十分なGPUがない場合は、このページをオンラインで無料で使用することもできます。リンクは説明欄に記載します。
これで基本的に完了です。Latent Syncのレビューとインストールチュートリアルをまとめました。これは私が見た中で恐らく最高のオープンソースリップシンクツールで、完全に無料で使用できます。
これは多くの可能性を開きます。同じ動画クリップで誰かに別の言語を話させることができるだけでなく、このテクノロジーはニュースキャスターを置き換えたり、インフルエンサーやポッドキャストのホストを置き換えたりする可能性もあります。ある人の既存の動画を使用し、その動画を使い続けながら、音声を変更して異なるエピソードで異なることを話させることができます。これは膨大な可能性を開きます。
コメント欄で、これらすべてについてどう思うか教えてください。問題が発生した場合も教えてください。できる限りトラブルシューティングをお手伝いします。いつものように、私はトップAIニュースとツールを探して、皆さんと共有します。このビデオを楽しんでいただけたら、いいね、シェア、購読をお忘れなく、さらなるコンテンツをお楽しみに。
また、AIの世界では毎週本当に多くのことが起きていて、YouTubeチャンネルですべてをカバーすることはできません。AIの最新情報を本当に把握するために、私の無料ウィークリーニュースレターを購読してください。リンクは説明欄に記載されています。ご視聴ありがとうございました。また次回お会いしましょう。