オフラインでAI動画を誰でも作れる時代がきた！

8,867 文字

Framepack installation tutorial & review. Local AI video generator even with low vram. #ai #aivideo #hunyuan #aitools Th...

今やほとんどの人がコンピュータ上でローカルにオフラインでAI動画を作ることができます。しかも、これは完全に無料で無制限、そして検閲なしです。信じてください、それが私が最初に試したことでした。
数日前、「Frame Pack」というAIツールがリリースされました。これを使えば、低スペックの一般向けGPUでも超長尺の動画を作成できるのです。この動画では、いくつかの素晴らしい例をお見せするとともに、無料で無制限に使えるようにパソコンにダウンロードしてインストールする方法についてもご紹介します。
まず、Frame Packは二人の開発者によって作られたものですが、特に一人の開発者は伝説的な存在です。彼はControlNetの開発者でもあります。ControlNetは異なるタイプの参照画像を画像生成に転用できるようにするものです。
話を戻しましょう。この新しいツールでは、1枚の画像とプロンプトを入力すると、その画像から一貫性のある完全な動画を生成できます。いくつかのデモをご紹介します。この画像をアップロードすると、キャラクターがこのように踊る動画が生成されます。すべてが一貫して見え、歪みが最小限に抑えられています。
また、この女性と猫の写真を生成し、彼女が動き回るようにしたり、女性が食べ物を食べるシーンを作ったりすることもできます。特にダンスの動画が得意です。
面白い例として、巨大な魚を抱える赤ちゃんの画像があります。ほとんどの部分で一貫性が保たれています。さらに素晴らしい例として、この中国の絵画があります。キャラクターと煙を動かすことができました。
このツールは非常に効率的で、超長尺の動画を生成できます。例えば、カンフーをする男性の写真を入力すると、1分間連続してカンフーや太極拳を行う動画を生成できます。別の例では、この男性が1分間踊り続ける動画を生成できます。これはすごいと思いませんか？
これはローカルで動くオフラインツールです。Clingや高法（High Law）のようなオンラインのクローズドソースプラットフォームでも、生成できるのは最大10秒程度の動画だけです。今やパソコン上で1分の動画を生成できるのは驚くべきことです。これらの例では1分の動画が示されていますが、実際には最大2分の動画まで生成できます。
私の生成例をいくつか紹介します。ボクシングの試合のような激しいアクションシーンを生成できるかテストしたかったので、プロンプトは「激しいボクシングの試合、男性たちが互いにパンチを繰り出す、ハイアクション、素早い動き」としました。「ハイアクション」や「素早い動き」などのキーワードを指定することが重要です。そうしないと、かなりスローな動画が生成されてしまいます。
ご覧のように、生成結果は悪くありません。腕やボクシンググローブはかなりぼやけていますが、全体的にはかなり激しい戦闘シーンが生成されています。
次に、この写真をアップロードし、プロンプトは「少女たちが優雅に踊る、明確で素早い動き、高い動作」としました。ここでも動きや動作を指定することが重要です。そうしないとかなりスローな動画になってしまいます。ここに生成結果があります。動画の長さは8秒に設定しました。ほとんどの部分でとても良く見えます。
TCHという設定をオンにしているので、手や指はかなりぼやけていますが、手や指の詳細が優先事項であれば、その設定をオフにすることができます。その場合、動画の生成は少し遅くなりますが、手や指の詳細がより良く表現されます。
最後に、異なる表情を生成する能力もテストしました。この女性の画像をアップロードし、プロンプトには「女性はとても幸せな笑顔を見せ、突然とても悲しく見え、泣き始める」と書きました。これは8秒の動画で、彼女は確かにとても幸せな笑顔から始まり、眉が曇り、悲しそうに見え始めますが、泣き始めることはありませんでした。いくつかの表情は扱えるようですが、より極端な表情は難しいかもしれません。
また、異なるスタイルの動画を生成する能力もテストしました。これは3DピクサーのようなImageで、プロンプトは「キャラクターたちが猛烈に話し合っている、明確で素早い動き、ハイアクション」としました。この場面は驚くほど良く、ピクサー映画からの場面のように見えます。これがAI生成とは判別しづらいほどです。この場面全体を私のラップトップでオフラインで生成したことに注目してください。これは非常に強力なツールです。
3Dピクサーに加えて、アニメも生成できるか確認したかったので、2人のアニメキャラクターのこの写真を入力し、プロンプトは単に「彼らは話している」と書きました。ここに生成結果があります。動きや動作を指定しなければ、あまり動かないことに注意してください。左の女の子は目を開き、右のキャラクターは少し話し始めますが、動きは本当に最小限です。
他のユーザーからの生成例もあります。このユーザーは「フレンズ」からの画像を入力し、Frame Packでシーンをアニメーション化することができました。女性が場面を横切って歩き、その後男性も横切って歩くのが見えます。ほとんどの部分で一切歪みや変形がなく、非常に一貫しています。これは本当に印象的です。生成の長さにも注目してください。これは1分間の動画です。
人々を踊らせる代わりに、キスさせることもできます。ここではユーザーがこの素敵なブロマンスシーンを生成しました。また、別の例では、このユーザーが2D写真を入力し、彼にサムズアップと笑顔をさせることができました。
もちろん、Stable DiffusionやFluxで美しい女性を生成し、それをここに取り込んで、何でもさせることができます。これは完全に検閲されていません。もちろん、YouTubeではそのようなことは一切お見せできないので、ここではサムズアップをする可愛い女の子だけを紹介します。
別の素晴らしい例として、このユーザーはガンダム像の写真を入力し、Frame Packでガンダムを離陸させています。ただし、最後の方では何かを落としているようにも見えます。
また、別の本当に素晴らしい映画的なシーンでは、男性がヴィンテージの木製列車の横を自信を持って歩いています。男性が歩いているだけでなく、列車や煙、背景の人々もアニメーション化されていることに注目してください。これは映画から直接取り出したかのように映画的です。
この動画はViDUの提供でお送りしています。ViDUは機能満載のトップAI動画ジェネレーターの一つです。彼らの最新Q1モデルはさらに良くなり、明瞭さ、詳細さ、意味的正確性が向上し、コンテンツクリエイターや映画製作者にとって強力なツールとなっています。あらゆるタイプの動画作成に非常に優れています。例えば、ここではテキストから動画への生成で、プロンプトは「激しいボクシングの試合」です。ご覧のように、非常にリアルで一貫性があります。
テキストから動画だけでなく、画像から動画も可能で、開始フレームまたは終了フレームをアップロードできます。ここでは、この非常に複雑な画像を開始フレームとしてアップロードした例があり、ご覧のように、すべてが非常に一貫しています。または、アニメ画像をアップロードした別の例もあります。
さらに、オブジェクトやキャラクターの画像をアップロードして動画に挿入できる「参照から動画へ」などの多くの機能があります。ViDU Q1はAI動画作成の新基準を確立しています。説明欄のリンクから無料でお試しください。
次に、これをコンピュータにローカルにインストールする方法を見ていきましょう。いくつかの方法がありますが、最初の方法は公式GitHubリポジトリを通じてです。下にスクロールすると、NvidiaのGPUが必要だと書かれていますが、良いことに必要なVRAMは6GBだけなので、低スペックのGPUでも実行できます。これは、以前のビデオ生成パッケージであるJuanやHunyangと比較して、メモリ要件が大幅に低下しています。それらは元々80GBのVRAMを必要としていたので、これは驚くべきことです。
しかし、待ってください、ワンクリックインストーラーがあるのですか？これは本当に素晴らしすぎます。この開発者に敬意を表します、彼は本当に凄い人です。私のチャンネルをフォローしている方ならご存知の通り、これらのオープンソースパッケージの一部をインストールするのは非常に面倒です。しかし、ここではワンクリックインストーラーがあります。これをクリックし、7zパッケージをインストールします。保存をクリックし、これが約1.7GBのサイズであることに注意してください。インターネットの速度によっては時間がかかるかもしれません。
ダウンロードを待っている間、Frame Packを使用できる他の場所もあります。別の選択肢は、Pinocchioというツールです。これらのAIツールをワンクリックでインストールでき、すでにFrame Packが追加されています。Pinocchioをダウンロードし、リストからFrame Packをダウンロードするだけです。
また、同じく優れた開発者であるKiyによって作成されたComfy UI統合もあります。これによりComfy UIでFrame Packを使用できます。ご存知の通り、Comfy UIは非常にカスタマイズ可能なので、より柔軟性が増します。ただし、現在これはまだ開発途中です。
ダウンロードが完了したので、これを開き、好きな場所に展開します。私はこのフォルダをデスクトップにドラッグアンドドロップします。合計サイズは6GBなので、すべてを展開するのに時間がかかります。
完了したら、これをこちらに移動し、開きます。次のステップは、このrun.batファイルをダブルクリックするだけです。これを開くと、Windows Defenderのメッセージが表示されるかもしれませんが、自己責任で「実行する」をクリックしてください。その後、必要なすべてのモデルのインストールが進みます。合計で30GBのサイズを占めるので、ハードドライブに十分なスペースがあることを確認してください。
それは非常に時間がかかりましたが、すべてのインストールが完了すると、ローカルURLが表示され、このGradioインターフェースがブラウザで自動的に開くはずです。これはChromeを使用していますが、完全にオフラインで動作します。これはローカルURLです。このインターフェースが表示されない場合は、Controlキーを押しながらこのリンクをクリックしてください。
ここを終了し、次の日からどのように実行するかをお見せします。単純にFrame Packフォルダをダブルクリックし、このrun.batファイルをダブルクリックするだけです。これにより自動的にターミナルが開き、ダウンロードしたモデルが読み込まれ、URLが開きます。それだけで簡単です。
今すぐ動画の生成を始めることもできますが、上部にこれら3つのものがインストールされていないと表示されていることに注意してください。次のステップはオプションですが、特に低VRAMの場合、動画生成プロセスを本当に速くするでしょう。これら3つについて説明しましょう。
xformersは動画生成をさらに少し速くするためのツールで、flash attentionはさらに速くできます。最後にSage Attentionが最速ですが、こちらは品質をさらに犠牲にします。これら3つの中で、速度と品質のバランスが最も良いのはflash attentionです。実際にこれをインストールしましょう。
これを終了し、Frame Packフォルダに戻ると、このsystemフォルダが見えるはずです。これをダブルクリックし、Pythonをダブルクリックします。ここにPythonと他のすべてのパッケージが保存されています。上部にcmdと入力して、このフォルダをターミナルで開きます。
flash attentionをインストールする前に確認する必要があるのは、Pythonのバージョン、CUDAのバージョン、そしてすでにPyTorchがインストールされているかどうかです。まずPythonのバージョンを確認しましょう。あなたのコンピュータにPythonがインストールされている場合、これは自動インストーラーによってインストールされたPythonとは完全に異なることに注意してください。まずこのフォルダを開き、python.exe –versionと入力します。Python 3.10を使用していることがわかります。
次のステップは、このインストーラーがすでにflash attentionに必要なPyTorchをインストールしているかどうかを確認することです。このプロジェクト用に既にインストールされているすべてのパッケージと依存関係をリストアップしましょう。python.exe -m pip listと入力します。
これを押すと、既にインストールされているすべてのものがリストアップされ、上にスクロールするとTorch 2.6.0とCUDA 12.6があることがわかります。Flash Attentionの場合、Python 3.10、Torch 2.6、CUDA 12.6で動作するバージョンをインストールする必要があります。面倒ですが、これが方法です。
次のステップは、Windows用のFlash Attentionの事前ビルドされたホイールがあるこのサイトに行くことです。これは説明欄にリンクします。下にスクロールすると、ここにCUDA 12.6があり、これはTorch 2.6とPython 3.10用です。これが私がダウンロードするバージョンです。ここでダウンロードをクリックし、好きな場所に保存します。私はダウンロードフォルダに保存します。
ダウンロードしたホイールに行き、右クリックして「パスをコピー」をクリックし、Pythonフォルダ内で開いているコマンドプロンプトに戻り、python.exe -m pip installと入力します。これにより、このPythonフォルダ内のPythonとpipを使用してインストールします。次に、先ほどコピーしたホイールのパスを貼り付けます。これは基本的に、適切なバージョンのCUDA、Torch、PythonでFlash Attentionをインストールします。Enterを押して完了を待ちます。
「flash attentionが正常にインストールされました」と表示されたら、ここを終了し、Frame Packフォルダを再度開き、run.batをクリックします。Flash Attentionがインストールされたことが表示され、これにより動画生成が少し速くなります。
このインターフェースが自動的に開き、使い方は非常に簡単です。最初のフレームとして使用する画像をここにドラッグします。私はStable Diffusionで作成したこの猫耳の少女の画像をアップロードします。プロンプトでは彼女に何でもさせることができます。
これには良いプロンプトを作るためのコツがいくつかあります。公式Frame Pack GitHubリポジトリの下部には、Frame Pack用の良いプロンプトの書き方に関するセクションがあります。このプロンプトをChat GPTに貼り付けることができます：「あなたは画像をアニメーション化するための短い動きに焦点を当てたプロンプトを書くアシスタントです。ユーザーが画像を送信したら、視覚的な動きを簡潔に説明するプロンプトで応答してください…」。その後、画像をアップロードすると適切なキャプションが提供されます。
または、自分でプロンプトを書くこともできますが、ここでは簡潔なプロンプトが通常好まれると書かれています。私が発見したのは、すべてのものの動きを指定する必要があるということです。例えば、彼女にダンスさせたい場合は、「明確な動きで」と言う必要があります。腕を上げたり、回転したりさせたい場合は、プロンプトで明確に指定してください。
例えば、「少女が優雅に踊る、明確な動き、魅力に満ちている」というプロンプトを試してみましょう。ここにはいくつかの追加設定があります。TCashをオンにすると、動画の生成が速くなりますが、手や指が少しぼやけてしまいます。以前の例でご覧のように、手や指の明瞭さが優先事項であれば、これをオフにしてください。この例では、少し速くするためにオンのままにしておきます。
シードは基本的に生成の開始点です。この開始フレームとこのプロンプト、そしてこの設定から生成できる動画はほぼ無限にあり、シードは基本的にその生成番号を指定します。写真とプロンプトとすべての設定を同じにして、同じシードを設定すると、全く同じ生成結果が得られます。私は通常-1のままにしておき、これによりシードがランダムな値に設定されます。
総ビデオ長、これが素晴らしい部分です。必要であれば最大2分まで設定できます。これは間違いなく、ショーや映画の一つのまともなシーンを生成するのに十分です。私は5秒に設定しておきます。
ステップ数については、一般的に値が高いほど各フレームの品質が高くなりますが、ある時点から収穫逓減になります。デフォルト値の25がちょうど良い値だとわかっています。これをより低い値に設定すると、動画の生成が速くなりますが、品質は犠牲になります。実際、私は15のステップ数でもかなり良く機能することがわかったので、動画生成を速くするために15に設定します。
CFGスケールは、モデルがどれだけプロンプトに従うかです。より文字通りに取るべきか、それともより創造的にするべきか。一般的には、デフォルト値の10のままにしておきます。
GPU推論保存メモリ設定は、VRAMが非常に少なく、メモリ不足エラーが表示される場合、これをより高い値にドラッグして機能するかどうかを確認できます。基本的にGPUの負担を軽減しますが、動画生成が少し遅くなります。私は16ギガバイトのVRAMを持っているので、これを6に設定して機能するか見てみましょう。
MP4圧縮は、低いほど品質が良く、0は完全に非圧縮です。デフォルトの16のままにしておきます。これは実際にはそれほど悪くなく、目立ちません。
これでほぼ完了です。生成開始をクリックしましょう。実際、その生成方法は非常に興味深いので、それについても簡単に説明します。
ここでは、まずこのようないくつかの予備フレームを生成しているのがわかります。これはフレームごとの動画の大まかな概要にすぎず、これを参考に実際の動画を生成します。進行状況はここで確認できます。15ステップに設定したので、現在15ステップ中9ステップ目を実行しているのがわかります。
15ステップ中15ステップに達すると、ここで約1秒の動画が表示され始めますが、動画の長さを5秒に設定しているのでまだ完了していません。興味深いことに、これが行っているのは、まずこのクリップの最後の1秒の動画を生成し、その後、動画全体が5秒になるまで逆戻りして次の約1.1秒を生成します。
次の1.1秒についても、まずこれらの予備フレームを生成し、次に15ステップを使用してこのモデルを通して実行します。そして、さらにいくつかのラウンドでこれら1秒の動画をすべて繋ぎ合わせることで、このような5秒の動画が得られます。保存するには、上部のこのダウンロードボタンをクリックするだけです。
これでFrame Packのレビューとインストールチュートリアルは終了です。非常に使いやすく、ワンクリックインストーラーがあり、最低6GBのVRAMで動作するので、多くの人にとってアクセスしやすいものです。
最後に注意すべきことは、Frame PackはベースビデオジェネレーターとしてTencent Hunenに基づいていることです。Tencentが最初にこれをリリースした時、最小VRAM要件は60GBと書かれていたので、わずか数ヶ月で要件が10分の1に削減されたのは非常に驚くべきことです。
また、Frame Packを使用していると偽って様々なフェイクサイトが存在します。これらはすべて偽物で、これらのウェブサイトを使用すべきではありません。説明欄にリンクするこのGitHubリポジトリがFrame Packの公式かつ唯一のウェブサイトです。
説明欄にすべてリンクしておきます。コメント欄でこれについてどう思うか教えてください。すでに試す機会があった方は、どのような素晴らしい生成ができたかぜひ教えてください。インストール中にエラーが発生した場合は、コメント欄にエラーをコピーアンドペーストしていただければ、できる限りトラブルシューティングをお手伝いします。
いつものように、私はトップAIニュースとツールを皆さんと共有するために常にチェックしていますので、この動画を楽しんでいただけたなら、「いいね」、「シェア」、「登録」をして、さらなるコンテンツをお楽しみください。
AIの世界では毎週とてもたくさんのことが起こっており、YouTubeチャンネルですべてをカバーすることはできません。AIで起こっていることをすべて把握するために、私の無料の週刊ニュースレターに登録してください。そのリンクは説明欄にあります。
ご視聴ありがとうございました。次回の動画でお会いしましょう。