この AI はどんな動画にも音声を生成できる

11,448 文字

This AI automatically makes audio for any video

AudioX full tutorial. Free & open-source AI for generating music and sounds. #ai #aitools #aimusicThanks to our sponsor ...

この無料の AI では、テキストプロンプトだけでどんな音でも作成でき、音楽も生成できます。さらに、動画をアップロードすれば、動画に映っているものを自動検出して音声を生成することもできます。この AI は Audio X と呼ばれ、完全に無料でオープンソースです。このビデオでは、できることをすべて紹介し、さらにこれをダウンロードしてローカルのコンピューターで実行し、無制限に無料で使用する方法もお見せします。
まず、いくつかのデモを見てみましょう。最初にできることは、テキストプロンプトだけであらゆる音を生成することです。たとえば、「悲しいピアノソロ中の雷と雨」です。悪くありません。そして「キーボードでタイピング」。私には非常にリアルに聞こえます。次に「いびきをかく人」です。とてもいいですね。そして「トイレの水を流す音」。超リアルな音です。
「飛行機の離陸」です。美しく捉えています。「爆発とパチパチ音」です。確かに爆発だけでなく、最後にはパチパチという音も聞こえます。「食べ物と油がジュージューと音を立てる」。とても良いですね。音響効果を生成するだけでなく、音楽も生成できます。
こちらは「ドラム、ストリングス、ブラスを含むオーケストラ的な壮大な音楽」というプロンプトの例です。そしてこちらは EDM です。バックグラウンドミュージックとしてはかなり良いですね。そして「お化け屋敷での緊迫したシーン」です。おお、超怖い。そして「旅行ブログ用の明るいウクレレの曲」です。こちらは面白いものです。「レトロなプラットフォーマーゲーム用の遊び心のある 8 ビットチップチューン音楽」です。どんな音か聞いてみましょう。とても良いですね。まるで初期のポケモンをプレイしているような感じです。このページにはもっと多くの例がありますので、後で聞きたければ自由に聞いてみてください。
音や音楽を生成するだけでなく、動画を取り込んで、その動画に適した音を自動生成することもできます。こちらが一例です。とても良いですね。そしてもう一つの例です。音声が AI によって生成されたと知らなければ、この音声が動画の一部だと思っていたでしょう。私には非常にリアルに聞こえます。もう一つの例です。これは非常に印象的です。キー押下の音を生成するタイミングと、このタブを手で押す別の音を生成するタイミングを正確に把握しています。
動画内のすべてのイベントに合わせて音を生成します。こちらを見てみましょう。再び印象的です。ジェット機の音をいつ大きくし、いつ小さくするかを理解しています。ジェット機が視聴者から離れて飛んでいくと、ジェット機の音も遠くに聞こえるようになります。これらが動画から音声を生成した例です。
さらに、動画をアップロードして動画から音楽を生成することもできます。動画をアップロードすると分析され、さらにプロンプトを入力して動画に合わせたい音楽のタイプを指定することもできます。いくつか例を見てみましょう。この風景タイプの動画には非常に雄大なサウンドです。
もう一つの例です。インスピレーションを与えるフィットネスタイプの音楽が聞こえます。おそらくスポーツやフィットネス機器用でしょう。では、別のシーンに切り替わるときにインパクト音を生成する方法を知っているこの例はどうでしょうか。緊張感を高め、最後に沈黙を挿入した後、さらに大きなインパクトを与えることさえ知っています。
そのコントラストは美しく、この動画と本当に合っています。こちらを見てみましょう。非常に良いですね。シーンからシーンへの切り替わりに合わせてビートを生成する方法を知っています。さらに、最初の方でレースカーを見たとき、レースカーのような音を生成しました。
これを使えば、コマーシャルや短い動画用のバックグラウンドミュージックを簡単に生成できることがわかります。Audio X のパフォーマンスを、音響効果や音楽を生成する他の AI オーディオジェネレーターと比較すると、Audio X が一般的に最も優れていることに注目してください。青色で表示されています。
ご覧のとおり、最も広い表面積をカバーしており、これはすべての異なるベンチマークで平均して最高のスコアを達成していることを意味します。技術的な詳細についてもっと読みたい方のために、このメインページへのリンクを貼っておきますが、それらはデモの一部に過ぎません。自分で試してみて、実際に良いかどうか確認してみましょう。
インターフェースはこのような感じです。この動画の後半で、コンピューターにダウンロードしてインストールする方法を説明しますので、このインターフェースをオフラインで無制限に使用することもできます。Audio X はたくさんのことができます。最も簡単なのは、プロンプトで音響効果や音楽を生成することです。
例えば、最初のプロンプトとして「海の波」と書きます。下には、オーディオ生成の追加パラメータを設定できます。ステップ数は、AI が音声出力を生成する前に実行するイテレーションの数です。一般的に、ステップ数が多いほど、オーディオの品質は向上します。
しかし、ある時点で収穫逓減が起こります。デフォルト値の 100 ステップがちょうど良いようです。より速く生成したい場合は、ステップ数を減らすことができます。「プレビュー間隔」は、生成中に特定の間隔でプレビューを表示したい場合に使用します。
例えば、ステップを 100 に設定し、25 ステップごとにプレビューするとします。その場合、3 つのプレビューが表示されます。最初のプレビューはステップ 25 で、2 番目はステップ 50、3 番目はステップ 75、そしてステップ 100 の 4 番目が最終出力になります。通常これは必要ないので、0 のままにしておきます。
CFG スケールは、AI にどれだけ文字通りプロンプトに従わせたいかです。高い値はより文字通り、低い値はプロンプトに従う度合いを下げ、より創造的になります。今回はデフォルト値の 7 のままにしておきましょう。サンプラータイプは、オーディオを生成するために使用されるアルゴリズムです。
選択できるさまざまなサンプラーがあります。これらの設定はすべてデフォルトのままにしておく傾向があります。「生成」をクリックして、どのような結果が得られるか見てみましょう。それはかなり早かったです。16 GB の VRAM を搭載した RTX 5000 を実行していますが、1 分もかかりませんでした。
とにかく、これが私たちの生成です。とても良いですね。別のプロンプトを試してみましょう。「オートバイが道路を走る」と書きます。すべての設定を同じに保ち、「生成」をクリックします。結果を見てみましょう。とても良いですね。各オーディオクリップは 11 秒であり、設定では個々のオーディオクリップの長さを設定する方法はないようです。
コードをさらに編集して、より長い時間を可能にすることは確かにできるでしょうが、少なくともデフォルトのインターフェースでは、動画用に最大 10 秒のオーディオしか生成できません。ただし、AI で動画を生成する場合、ほとんどの動画ジェネレーターは最大でも 5～8 秒しか出力できないので、この AI はこれらの AI 動画生成に音声を追加するには十分すぎるほどです。
ちなみに、これをダウンロードするには、ここにあるダウンロード矢印をクリックするだけです。さあ、最後の音響効果テストをしてから、いくつかの音楽例もお見せします。ここでのプロンプトは「テーブルに落ちる硬貨」です。再び「生成」をクリックして結果を見てみましょう。
これが結果です。確かにテーブルに落ちる硬貨の音がします。超リアルな音です。さて、先ほど言ったように、音響効果だけでなく、器楽曲も生成できます。プロンプトとして「電子ダンスミュージック、トランス、明るい」と書きます。「生成」をクリックして結果を見てみましょう。
では、これを再生します。悪くありません。電子ダンスミュージックに聞こえます。別のものを試してみましょう。ここでのプロンプトは「指弾きギター、ソフトなボーカル、自然な雰囲気のあるフォークアコースティック」です。実際にボーカルを生成するかどうかはわかりませんが、やってみましょう。これが結果です。まあまあです。
指弾きのアコースティックギターには聞こえますが、期待通りソフトなボーカルはありません。これはインストゥルメンタルしか生成できないからです。次のプロンプトでは、これを試してみましょう。「戦闘シーン用の壮大なオーケストラ音楽」です。これに対応できるか見てみましょう。これを再生しましょう。悪くありません。
確かに戦闘シーン用の壮大なオーケストラ曲に聞こえます。次に、これを試してみましょう。「キャッチーなフック、パンチの効いたビート、重ねられたシンセを持つ K-ポップ音楽」です。これに対応できるか見てみましょう。これが結果です。悪くありません。K-ポップソングのバックグラウンドミュージックにはなりそうです。
次に「バイオリンソロのある悲しい感情的なバラード」を試してみましょう。ワオ、それは本当にリアルに聞こえます。まるで誰かが本当にバイオリンを弾いているようです。そして確かに、誰かが死んでいるかのように悲しく聞こえます。先ほど言ったように、これはテキストプロンプトから音声を生成するだけではありません。動画をアップロードして分析し、その音を生成することもできます。
例えば、森の中の小川の動画をアップロードします。プロンプトは空のままにします。動画を分析してその音を生成できるか見てみましょう。ここの動画パラメータでは、動画の開始時間と終了時間も指定できます。
最大の長さは 10 秒のようです。「生成」をクリックしましょう。これが得られた結果です。完全な動画を再生してみましょう。とても良いですね。プロンプトがなくても、シーンに何があるかを特定し、それに適した音を生成することができました。非常に印象的です。次に、この森の小川の代わりに、池で泳いでいるアヒルの動画をアップロードします。
その音を生成できるか見てみましょう。すべての設定を同じにして、「生成」をクリックします。結果を見てみましょう。それは非常に印象的です。この機能は本当に気に入りました。ゼロから音声を生成するよりも、さらに便利だと思います。
最後の例です。チェーンソーを持っている人のこのクリップをアップロードします。すべてのパラメータを同じに保ち、「生成」をクリックします。これが得られた結果です。本当に印象的です。最後の方で人が止まると、音も止める方法を知っています。そうなるとは予想していませんでした。
このビデオのスポンサーである Monica に感謝します。Monica は、最高の AI ツールすべてに一か所でアクセスできる AI アシスタントです。これには、GPT、DeepSeek、Gemini などのトップ AI モデル、Flux や Stable Diffusion などのトップ画像ジェネレーター、Cling や High Law などのトップビデオジェネレーターが含まれます。これらすべてを別々に使用するよりもはるかに安価に、1 つのプラットフォームですべてを使用できるため、これは素晴らしい取引です。
これはデスクトップやモバイルデバイスでブラウザ拡張機能として使用できます。彼らのブラウザ拡張機能はコンテキスト認識型です。そのため、アクセス中のウェブページと直接やり取りすることができます。Monica に簡単にメールの返信や記事の要約をさせることができます。例えば、このページにいるとします。
Monica にクリック一つでこの技術的な記事を要約させることができます。さらに素晴らしいことがあります。このコンテンツからマインドマップを生成することもでき、アイデアをより視覚的に理解するのに役立ちます。すべてをコピーして ChatGPT に行って記事を要約するよりもはるかに便利です。
Monica を使って YouTube 動画を要約することもできます。例を見てみましょう。この YouTube 動画を見ているとします。クリック一つで要約を生成したり、ポッドキャストを生成したりできます。これを試してみましょう。正確なタイムスタンプを含むハイライトのリストも表示されます。さらに、再度クリックすると、より視覚的に理解できるようにマインドマップを生成してくれます。
Monica では、すべてがクリック数回で済みます。しかし、私の言葉を鵜呑みにしないでください。彼らは Chrome ストアで 4.9 星の評価を持つ世界中の 1,000 万人以上のユーザーを持っています。下記のリンクから無料でお試しください。そしてアップグレードする準備ができたら、私のコード「AI search 10」を使用して素敵な割引を受けてください。
詳細は下記の説明に記載されています。さて、動画をアップロードして分析し、その音を生成するだけでなく、動画をアップロードしてその動画のサウンドトラックを生成することもできます。例えば、Cling 2.0 O で生成されたこの動画をアップロードします。
ドラゴンに追いかけられている視聴者の動画です。そして、プロンプトには「壮大なスリラー映画、怖い、エキサイティング」と書きます。「生成」をクリックして結果を見てみましょう。動画が高すぎてここでは再生できないので、全画面表示にして再生します。すごい、とても良いですね。
プロンプトで特に指定していないにもかかわらず、このドラゴンが視聴者を追いかけている音まで追加していることに注目してください。もう一つの例です。桜の動画をアップロードします。プロンプトには「穏やかなシーン、伝統的な日本音楽、平和的」と書きます。
「生成」をクリックします。これが得られた結果です。悪くありません。これが伝統的な日本音楽です。特定の曲を演奏しているわけではありませんが、桜のシーンにはぴったりです。これで私のデモはおしまいです。次に、これをインストールしてローカルのコンピューターで実行する方法を説明します。
上部には、GitHub リポジトリがリリースされています。これも説明の下にリンクを貼っておきます。下にスクロールすると、セットアップ方法の手順がすべて表示されます。VRAM の要件は実際にはかなり低いです。一部のユーザーは 4 GB でも正常に実行できたと報告しており、一部のユーザーは CPU だけでこれを実行することもできました。
要求されるコンピューティングリソースはかなり低いです。では、これを一歩一歩見ていきましょう。まず、このリポジトリを git clone する必要があります。そのためには、まず Git をインストールする必要があります。Git がインストールされていない場合は、インストール方法は次のとおりです。Git がすでにインストールされている場合は、次のセクションにスキップしてください。
必要なのは、使用しているオペレーティングシステム用の最新リリースをダウンロードすることだけです。私は Windows を使用しているので、Windows 用のダウンロードをクリックします。64 ビットを実行しているので、これをクリックしてダウンロードします。.exe ファイルをダウンロードしています。完了したら、その .exe ファイルを開いて手順に従うだけです。
次へをクリックします。デフォルトのインストール場所である program files/get を使用します。次へをクリックします。これはデフォルトのままにして、再び次へをクリックします。ここではすべてデフォルト設定を使用します。設定がたくさんあるので、すべて次へをクリックします。そして、すべてのファイルがインストールされます。これには数分かかるかもしれません。完璧です。これで Git がインストールされました。
コンピューターに Git がインストールされていると仮定して、インストールしたいコンピューター上のフォルダを開きます。例えば、デスクトップにインストールしたい場合は、デスクトップを開き、上部で cmd と入力してコマンドプロンプトでデスクトップを開きます。次に、このリポジトリを Git を使用してデスクトップにクローンするために、これを貼り付けます。エンターを押して数分待ちます。完璧です。
デスクトップを開くと、この Audio X フォルダがあります。これをこちらにドラッグして開くと、GitHub リポジトリにあるすべてのファイルとフォルダが含まれているはずです。次のステップは、このオーディオ X フォルダにディレクトリを変更することです。現在はまだデスクトップにいるからです。
オーディオ X フォルダに 1 つフォルダ内に移動したいと思います。cd と入力し、その後に audio x と入力します。これで、コマンドプロンプトはこの audio x フォルダ内にあります。次のステップは、仮想環境を作成するために conda を使用することです。これには Python のインストールが必要です。Python がインストールされていない場合、インストール方法は次のとおりです。
すでに Python がある場合は、次のセクションにスキップしてください。私は anaconda.com にいます。実際には Miniconda をインストールしようと思います。これは Anaconda の最小限のバージョンです。完全な Anaconda をインストールすると、必要ないかもしれない多くのパッケージと依存関係がインストールされます。
これはコンピューターの容量をより多く占めるだけでなく、もちろんインストール時間も少し長くなります。しかし Miniconda では、ベアボーンパッケージのみで、後から追加のパッケージや依存関係をインストールすることができます。「Python バージョン別の最新の Miniconda インストーラーリンク」をクリックします。
Windows を使用しているので、これらのいずれかをインストールします。無料でオープンソースの AI ツールは、通常 Python 3.12 をサポートしていません。そのため、Python 3.11 バージョンをインストールする方が良いでしょう。これをクリックすると、.exe ファイルがコンピューターにダウンロードされます。ダウンロードが完了したら、これをダブルクリックして手順に従ってインストールを完了してください。
次へをクリックし、同意します。すべてのユーザーに設定しましょう。デフォルトの宛先フォルダを使用します。完了時にパッケージキャッシュをクリアすることもチェックします。これは機能に影響を与えずに、より多くのディスク容量を確保できます。
完了したら、次へをクリックします。これで終了です。まだ終わっていません。コマンドプロンプトを開いて python –version と入力しても、まだ認識されていないことがわかります。これは、まだ Anaconda をパスに追加していないためです。これを終了して、パスに追加するには、「システム環境変数の編集」という機能を検索します。
これをクリックし、環境変数をクリックし、パスと書かれているものをクリックして、編集をクリックします。ここで Anaconda のパスを追加します。Anaconda をどこにインストールしたかによって異なります。私の場合、program data にインストールしました。したがって、program data/min になります。scripts をダブルクリックすると、python がここにあることがわかります。
これが貼り付けたいフォルダです。これを右クリックして、パスとしてコピーします。環境変数ウィンドウに戻って、新規をクリックし、ここにパスを貼り付けて、OK、OK、再び OK をクリックします。コマンドプロンプトを再度開いて python –version と入力すると、バージョン 24.5.0 が実行されていることがわかります。
これで Anaconda が正常にインストールされたことを示しています。Python がインストールされているとして、この行をコピーして貼り付けます。基本的に、Audio X フォルダ内で、Python 3.8.2 を使用する audio x という新しい仮想環境を作成するために conda を使用します。
仮想環境は、Audio X のすべてのパッケージと依存関係を収容するコンピューター上の別のハードドライブのようなものと考えてください。その理由は、これらのパッケージとライブラリが、コンピューター上の既存のパッケージとライブラリと競合しないようにするためです。Audio X には異なるバージョンが必要かもしれないからです。
Audio X のために必要なすべてのパッケージと依存関係を含む別の仮想環境を作成して、すべてが完璧に動作するようにします。その行を実行した後、続行するには Y を入力する必要があります。Python 3.8.2 とその他必要なものをインストールしていることがわかります。完璧です。
完了したら、次のステップは、作成したばかりの新しい環境をアクティブにすることです。conda activate audio x という行をコピーしてここに貼り付けます。行の最初にカッコ内に環境名が表示されている場合、この仮想環境内にいることを意味します。
次のステップは、この行をコピーしてここに貼り付け、エンターキーを押すことです。これにより、ここに表示されているいくつかの依存関係がインストールされます。実際には、インストールする必要がある依存関係がたくさんあります。インターネットの速度によっては、これには数分かかる場合があります。
この行を実行すると、「No module named torch」というエラーが発生する場合があります。実際に、GitHub リポジトリの issues タブで同じ問題が投稿されています。まず、仮想環境に PyTorch をインストールする必要があることがわかりました。これは、Nvidia GPU を持っているか、CPU のみを持っているかによって異なります。
私は CUDA GPU を持っています。CUDA バージョンを確認するには、コマンドプロンプトを開いて nvcc –version と入力するだけです。私は CUDA 12.4 を使用していることがわかります。この行をコピーして、ターミナルウィンドウに戻り、ここに貼り付けてエンターを押します。続行するには yes を押します。
これは、PyTorch をインストールするためのパッケージと依存関係がたくさんあります。サイズは 2 GB を超えています。これにはしばらく時間がかかります。完璧です。それが完了したら、インストール手順に戻ってこの行を再度実行します。これをコピーしてここに貼り付けます。
完了したら、次のステップはこの行をコピーしてここに貼り付けることです。conda を使用して Forge FFmpeg とこのものをインストールします。エンターを押してこれをインストールするのを待ちます。続行するには Y を押します。そして再び、インストールには数分かかるかもしれない多くのパッケージと依存関係をインストールします。
その後、この行が再び表示されたら、すべてのパッケージが正常にインストールされたことを意味します。次のステップは、これらのモデルをインストールすることです。Windows の場合、Wget は少し面倒なので、実際に HuggingFace から手動でインストールします。このリンクをクリックします。ファイルとバージョンで、このモデルのチェックポイントとこの config.json が必要です。
まず、このモデルのチェックポイントをダウンロードしましょう。これはほぼ 6 GB あります。ダウンロードをクリックし、Audio X フォルダにダウンロードします。そして実際に model という新しいフォルダを作成します。Audio X フォルダ内の model という名前のフォルダにこれをダウンロードする必要があります。
ここをダブルクリックして保存を押します。これは、ここで最初に model という新しいディレクトリを作成する必要があると書かれているからです。さらに、この config.json もダウンロードする必要があります。これはかなり小さく、わずか 5 キロバイトです。ダウンロードをクリックします。そして再び、これを model フォルダに配置します。
両方のファイルをインストールしたら、それらがこの model フォルダ内にあることを確認しましょう。実際に、ほぼ 6 GB のモデルチェックポイントとこの config.json ファイルがあります。これでインストールは完了です。Gradio デモを起動する前に、翌日からどのように始めるのか疑問に思うかもしれません。今すぐそれをやってみましょう。
コマンドプロンプトを閉じて、最初からやり直します。Audio X フォルダを開き、上部で cmd と入力してコマンドプロンプトで開きます。次に conda を使用して audio x という名前の作成した仮想環境をアクティブにします。エンターを押すと、この仮想環境内にいることがわかります。次のステップは、python を使用してこの gradio.py ファイル（ここにあります）を実行することです。これは基本的にこのツールを使用するための素晴らしいビジュアルインターフェースを開きます。また、ここにあるすべてのものを入力する必要があります。基本的にはこれらの行です。とにかく、エンターを押してこれを実行します。
その後、この gradio リンクが表示されるはずです。コントロールを押しながらクリックすると、Audio X を使用できるこの gradio インターフェースが開きます。これで Audio X をコンピューターにインストールする方法の説明は終わりです。これは非常に多目的なツールであり、特に動画から音声への機能が気に入っています。動画全体を分析し、動画内のすべてのイベントに合わせた音声を生成しようとします。
たくさんの AI 動画ジェネレーターがありますが、動画と一緒に音声を生成できるものはほとんどありません。ここで Audio X が非常に便利です。プロンプトなしでも簡単に動画をここに挿入すれば、動画の内容を自動検出して適切な音声を生成します。以上が Audio X についてのレビューです。コメントでどう思うか教えてください。これをインストールする際にエラーが発生した場合は、コメント欄にエラーメッセージをコピーアンドペーストしていただければ、できる限りトラブルシューティングをお手伝いします。
いつものように、トップ AI ニュースとツールを皆さんと共有するために注目しています。このビデオを楽しんでいただけたなら、いいね、シェア、購読をして、さらなるコンテンツをお楽しみください。また、毎週 AI の世界で多くのことが起こっているので、YouTube チャンネルですべてをカバーすることはできません。
AI で起こっていることすべてを本当に最新の状態に保つために、私の無料の週刊ニュースレターを購読してください。そのリンクは下の説明にあります。視聴いただきありがとうございます。次回にお会いしましょう。