
8,663 文字
https://www.youtube.com/watch?v=UzLPlPtGtf4
皆さん、AIで完璧な映画が登場するまでには時間がかかると思っていましたか?全然そんなことないですよ、もう始まっているんです。おそらく来年には、信じられないほどの品質の映画が映画館のスクリーンで上映されているでしょう。一緒に見ていきましょう、何が起きているのかを理解していきましょう。
まずはいつものように、いいねをくれた皆さん、チャンネル登録してくれた皆さんに感謝します。特に、このAIチャンネルを支援してくれているメンバーの皆さんに特別な感謝を。メンバーはインテリジェントエージェントの動画や先行公開動画にアクセスできることをお忘れなく。
今日のニュースはこれです。YouTubeの映画館の画面に映っているものを見てください。何が起きているかというと、すべては私がこの動画を見たときに始まりました。この年配の女性が猫と一緒に話しているものですね。「素晴らしい夢」というGoogle Whiskで作られたAIの短編映画で、音声はEleven Labsで作られています。つまり、ここでのナレーションはすべてAIで作られており、映画自体もGoogleのAIで作られています。少し見てみましょう、何が起きているのか理解するために。
(ポーランド語のナレーション)
もうお分かりですね、ナレーションが流れています。映画には年配の女性が登場し、彼女の人生について語っています。ドラマチックな音楽とドラマチックなストーリーです。様々なシーンや場面で登場する人物はとても一貫性があり、物事が非常に意味をなしています。ある場面の人物が次の場面で全く違うというようなことはありません。服装はとても一貫していて、動きもリアルで、物理法則もリアル、画像の品質は本当に驚くほど良いです。もはや以前に作ったような適当な短い動画ではありません。
この動画のタイトルを見て注目したのは、GoogleのWhiskというものを使っていることでした。このWhiskはかなり前からリリースされていましたが、当時はあまり注目していませんでした。というのも、当時のGoogleはあまり良い状態ではなかったからです。
AIの初期の頃、GoogleのチャットについてGeminiになり、現在のバージョン2.5までリリースするまで、Googleのものはあまり注目されていませんでした。このツールが出た時は、waitlistなど複雑なことが多く、私も表面的にしかテストしていませんでしたが、今回はちゃんと見ていきましょう。
Whiskの基本的な考え方は、画像とプロンプトを取って、それらを混ぜ合わせることです。例えば、テーマ(話題)と環境(場所)を混ぜます。ここに人の写真(誰かについて話しているもの)、環境(場所を示すmapsのシンボル)、そしてスタイル(建築様式、場所、何かのスタイルを思わせるもの)があります。実際には、これらはあらゆる方法で無限に混ざり合います。
簡単にするには、このサイコロをクリックすると、ランダムな何かが生成されます。テキストを入力したり、手動で写真をアップロードすることもできます。基本的なテストをしてみましょう、ランダムな画像を生成してみます。サイコロを振るとこの女性が生成され、もう一度振るとティラノサウルス、さらにもう一度振るとドーナツが生成されます。
この3つを残しておくことができます。例えば、ドーナツを削除して女性とティラノサウルスだけを残すことができます。環境も同じように、サイコロを振ると水中の場所が表示され、ティラノサウルス、女性、この水中の場所が組み合わさります。そして、スタイルも選べます。フラワーが出てきました。あまり気に入らないので、別のスタイルを見てみましょう。ロックンロールがありますね。これを残して、テーマ、環境、スタイルが揃いました。
ここで「送信」をクリックすると、これらのテーマに関連する画像(この場合は2枚)が生成されます。何が起こるか、関連性があるかどうか見てみましょう。
完成しました。ティラノサウルスがその環境の中で女性を追いかけています。ロックンロールはあまり表現されていませんが、基本的な考え方は理解できたと思います。もう一度生成してみましょう。
ここで興味深いのは、Whiskに関連して、先ほどの年配の女性の映画に関係することです。これらの画像はすべて若干異なりますが、内部的な一貫性が非常に良いことがわかります。映画を作る場合、キャラクターの一貫性が得られるということです。この画像生成ツールを使って、映画をうまく作ることができます。
また、画像をアップロードすることもできます。例えば、「AIの日曜日」のアニメーションをアップロードしました。この画像をもとに新しい創作ができます。環境として「ポップコーンでいっぱいの部屋」というプロンプトを作り、スタイルを「メン・イン・ブラック」として、「サングラスをかけた人物がポップコーンでいっぱいの部屋でテレビを見ている」としました。
この3つの要素を混ぜてどうなるか、意味があるか、先ほどと同じようなことができるか見てみましょう。完成しました。青いシャツを着せてサングラスをかけさせ、部屋にはポップコーンがいっぱいです。
この画像を選んで「アニメート」をクリックすると、何を見たいか聞かれます。「部屋にポップコーンが降る中、男性がポップコーンを食べている」と入力しました。部屋にはポップコーンが降り続け、彼はそれを食べるはずです。これには少し時間がかかります。
その間に、他の映画も見てみましょう。これも全てAIで作られています。面白いですね。宇宙船や浮かんでいるものがあり、宇宙船の質感も高いです。無重力状態もうまくシミュレーションされています。そして、この女性が登場します。彼女のヘルメットの反射を見てください。この場面がどのようになっているか注目してください。
皆さん、理解していただけたでしょうか?これはすべてAIによって生成されたものです。スタジオも何もありません。この女性は存在せず、起きていることも全て存在しません。宇宙飛行士、物の反射、割れたガラス、このドラマ、このシーン全てです。彼女がやや不自然にキーボードを使用しているシーンもあります。最後まで見たい方は「Space WCK AI short film」を見てください。
私たちのWhiskの結果を見てみましょう。ポップコーンが降っていて、彼は食べています。彼がポップコーンを食べるのはちょっと変ですが。ダウンロードしたので、フルスクリーンで見てみましょう。
完璧です。彼はそこにいて、ポップコーンが降っていて、彼はポップコーンを食べています。少しぼやけていて、ポップコーンを食べるときには頬のほうに食べています。しかし注目すべき詳細として、ポップコーンが彼の頭や肩、あらゆるところに落ちていて、ポップコーンの物理的な動きがあります。ポップコーンの動きを追ってみましょう。最初はほとんどポップコーンがなく、物理法則に沿って落ちていくか見てみましょう。いくつかは肩や頭に落ち始めます。
その間、彼はポップコーンを食べていますが、手の動きはやや不自然で、突然口に現れます。しかし、ポップコーンは落ち続け、彼の頭はポップコーンでどんどんいっぱいになり、部屋もポップコーンでいっぱいになっていきます。興味深いですね。
もし実際にこのようなシーンを作る場合、俳優を雇い、セットを作り、ポップコーンで満たすとなると、非常に高額になるでしょう。
こちらの「The Bridge」という動画は、VO2で作られた印象的な映画です。「Space Wreck」もVO2で作られ、「Dan Horin」はGoogle Whiskで作られています。つまり、Googleは画像の品質において非常に優れているということです。
「The Bridge」を見てみましょう。このシーンの品質は本当にすごいです。この映画を作った人は本当に芸術家です。口の同期も素晴らしいです。クローズアップでも女性の口がリアルで高解像度であるにもかかわらず、口の同期が完璧です。変な口の同期ではありません。
細かく見ると、キャラクターが微妙に変化していたり、シーン間に若干の不一貫性があったりと、注意深く観察すれば気づく詳細はたくさんあります。しかし、最初に見た映画と、1年後、2年後の最初の生成物を比べると、もはや何も言うことはありません。これはもう映画館に行く寸前のレベルです。
この「The Bridge」の映画のエンディングを見て、何が起きたのか理解してください。最も興味深いのは、この映画を作った人がメイキングも作っていることです。このメイキングシーンで撮影しているカメラもAIで作られています。すべてがAIで作られていて、メイキング自体もAIで作られています。実際のシーンや撮影チームの雇用はありませんでした。俳優に見える女性も存在しません。すべてAIで作られています。
この男性は映画の制作者で、ミュージシャンでもあり、かなり有名です。彼はSunoについての動画や様々なことについて解説しています。この動画は非常に話題になり、最後に彼は画像生成の方法など、すべてを説明しています。
彼は以前、Kling 1.6を使用していました。Klingについて、「問題は、非常にうまく機能するときもあるけれど、例えばこのキャラクター、このスケルトンは以前のものよりもずっと良いと思った」と言っています。しかし、「Klingは素晴らしい写真を送ってくれた後、混ざり始めて一貫性を保てなくなる。女性がゾンビになったり、スケルトンが人間になったりして、キャラクターが混ざってしまう」と言っています。
最後に彼は費用を計算し、2分間の動画を作るのに2,002ドルかかったと言っています。そのうち1,500ドルはVO2を使った動画生成に使われました。VO2は1秒あたり50セントかかるからです。
実際には、使われなかった動画もたくさん生成しているので、もっと多くの動画が生成されています。音楽生成にはWoodio、音声生成にはLabs、説明の補助にGemini、イメージ生成にMid Journeyなど、様々なツールを使用しました。Mid Journeyは環境を生成するのに優れていると言っています。
合計で2,002ドルで2分間の動画を作りました。つまり、1分間あたり約1,000ドルです。しかし、実際の映画制作のコストと比較すると、一部だけでも300万から1,000万ドルかかります。これは見積もりです。彼は様々な見積もりを出しており、特殊効果や撮影チームのコストは7万5千から50万ドルと、2,000ドルよりもはるかに高いです。アニメーションやレンダリング、チーム編成には20万から200万ドルかかると言っています。
結論としては、将来的に映画制作チームは実際に小規模になり、コストが大幅に下がり、より高品質な映画が作られるのでしょうか?これは実際にはオープンな質問です。彼が言うには、これを作るのに約40時間以上の彼の時間を使ったとのことです。言い換えれば、彼は空き時間にこれを作っていたのであり、専門的にこれに集中していたわけではありませんが、結果が非常に良かったので、この映画を続けると言っています。
最も興味深いことの一つは、ChatGPTが本当にプロフェッショナルレベルの画像生成ツールになったことです。「ゾンビの黙示録後のサンパウロのパウリスタ大通りの風景。街は完全に空で、背景にはサンパウロ美術館(MASP)がある放棄された風景」というプロンプトで画像を生成してみましょう。
ChatGPTは最終的に最高の基本画像生成ツールになりました。プロンプトを使った生成の最大の参照先の一つになったからです。この画像生成を見てみましょう。
もし新しいバージョンのChatGPTで画像を生成したことがなければ、以前の生成と比べてやや時間がかかることを知っておいてください。
すでにMASPが見えますね。MASPはこの小さな建物です。MASPについて興味深いのは、それがニーマイヤーの作品であり、彼には支柱なしで大きな空間を作る癖があることです。美しい画像ですね。MASPの発想は、建物を下から支える柱ではなく、上から支えているということです。
この風景とこの画像を取り、AI Studioに持っていき、VO2に送ります。VO2は素晴らしい映画を作っているので、「オオカミが放棄された風景を歩き、地面のにおいをかいでいる」というプロンプトを入れてみましょう。彼がオオカミをそこに配置するか、ただ単にこれをアニメーション化するだけか見てみましょう。
VO2が最近受け付けていないのは、人物の写真です。だから問題が発生する可能性があることを知っていたので、人物を含めないように言いました。しかし、VO2はまだ気まぐれで、時々フリーズします。しかし、試してみましょう。この画像とこのプロンプトに基づいて8秒間の動画を生成するという考え方です。
画像生成に優れたChatGPTと、動画生成に優れたVO2を使用しています。そのため、期待は高品質なものを作れることです。画像生成と動画生成のプロセスでどうなるか見てみましょう。
私たちのオオカミがどこかに現れるか見てみましょう。車がありますね。あ、オオカミです!彼は地面のにおいをかいでいます。興味深いことに、ゾンビの車もあります。ダウンロードして、フルスクリーンで見てみましょう。
ゾンビの黙示録です。オオカミは画面の下の方に現れ、通り過ぎていきます。ゾンビの車も走っています。ゾンビの黙示録なので、ゾンビの車は必要なかったかもしれませんが、理解していただけたでしょうか?カメラがオオカミを追いかけてフレーミングしているのも面白いです。最後の方でカメラが少し動いて、オオカミを追っています。
つまり、2つのプロンプトだけで素晴らしいシーンを作ることができたのです。これだけで十分に映画を続けることができます。MASPのような実世界の参照が、その場で即興的に作られた非常に興味深いビデオの生成の一部になっています。
私はチャンネル用に多くの動画生成をしてきました。例えば、Headraでは、作成したキャラクターで対話をしたい場合、ここで画像を生成し、オーディオを送ると、ナレーションをしてくれます。
または、最近知ったDream Faceも同様ですが、非常に興味深いことをします。動画を送ることができます。これは私が送った動画の例ですが、別のオーディオを送ると、手の動き、口の動き、体の動きを、私が上に送った別のオーディオに合わせて動かしてくれます。
この動きはHeadraでこのキャラクターを作りましたが、このアバター動画では、リップシンクを新しいオーディオのリップシンクに変更します。
皆さん、AIの日曜日が来ました。今週のすべての新しいことを追いかけるのに必死になっていた方々も、今は全てが一つの動画にまとめられています。4月の終わりに何が起きているのか見てみましょう。
これは素晴らしいです。最後に、VO2で作られたGen DirectorのAve Clarkによる「Watch California Monsters」を見てみましょう。
このフィルムで注目すべきことの一つは、人物だけでなく、このようなシーンもあることです。場面にはたくさんの人がいます。このフィルムのいくつかのシーンには、多くの人がセットにいて、これはAIにとっては非常に難しいことですが、食堂で何人かの人々がいるようなシーンも作れています。これらの質が到達しているレベルは驚くべきものです。これらの風景や視点を見てください。
これは、完全に高品質で一貫性のある映画全体が、一般の人々によって作られるのも遠くないということを意味します。例えば、私やあなたが、突然ゴジラを作って、リオデジャネイロやサンパウロを攻撃させるような、通常なら非常に高価な映画を、単にAIで作ることができるのです。
きっと大学生がこれを使って、非常に創造的な映画全体を作るでしょう。これはまだ始まったばかりです。
あなたも映画を作りたくなったか、Whisk、VO2、Hedraなどの生成プログラムに手を出したくなったかコメントしてください。私は非常に興奮しています。これらのことを続けてやりたいです。あなたもこれに興奮していたらコメントしてください。
チャンネルを支援してこのようなコンテンツを見続けたいなら、メンバーになってください。メンバーはインテリジェントエージェントの独占動画と先行公開動画にアクセスできます。いいねもお忘れなく。
そして、動画の最後までいた方への特別ボーナスです。私が試してきた興味深いことがあります。私の写真をいくつか送り、環境を変えたり、スタイルを変えたりしました。
この写真ではなく別の写真を送りましたが、基本的に同じチャットで「Bob GPT」と呼んでいたものです。下の写真にはアニメのスタイルを適用しました。彼はこのバーの環境でアニメスタイルの写真を生成し始めました。いくつかの生成を行い、様々な写真を作りました。
スタイルをよりリアルな写真に変更すると、新しいキャラクターが生成されました。全ての写真は同じバーの環境にありますが、スタイルだけが変わり、キャラクターは維持されています。スタイルが変わってもキャラクターの一貫性を保つことがいかに重要かがわかります。ここではアニメでしたが、今度はリアルな絵になりました。
いくつかの瞬間では、スタイルが変わってもキャラクターが非常に一貫していることがわかります。その後、指を指している現在の写真に変更しました。ここからは、彼はあらゆる方法で指を指し示すようになりますが、写真を変えてもバーを維持し、リアルなスタイルを維持しました。彼はキャラクターを更新し、シャツのオレンジのラインが現れ始め、Bob GPTが消えます。しかし、バーは同じです。
背景にいるアナグマを見てください。常にどこかにアナグマがいます。棚にいたり、常に現れたりしています。そして、さらに多くのバリエーションを作り続けます。
この場合、背景を変えました。バーを取り除き、花があるような場所に置き換えました。すると、同じキャラクターが花のある場所に現れます。次に花を取り除いて海に置き換えました。すると同じキャラクターが今度は海の環境にいます。次に海を取り除いて、今見えている環境に置き換えました。そして今度は同じキャラクターが別の環境に現れます。
これは、年配の女性の映画で基本的に一度キャラクターをスタイルで構成したら、真ん中の部分を変更するだけでいいということを意味します。「今彼女は家にいる」「今彼女は通りにいる」などと理解してください。
プロンプトではキャラクターが何をしているかを言います。この例では非常に興味深くなります。このドローイングを取り、この場所を維持し、このキャラクターが何をしているかを書き始めました。例えば、「彼はホットドッグを食べている」と言いました。すると、このキャラクターがこの場所で、このドローイングスタイルで、ホットドッグを食べています。
次に「彼女は猫とコーヒーを飲んでいる」や「彼女は別のことをしている」など。ここで明らかに何かが変わったことがわかります。何かスタイルが変わりました。
この部分も興味深いです。クレイアニメーションのようなストップモーションのようなものを作っていた部分があり、その後、ここでさらに多くのドローイングを作り始めました。Pixartですね。彼は指を指しているドローイングを維持し、環境も維持していますが、他のすべての詳細は異なります。新しい生成が変化するにつれて、写真も変わっていきます。
最終的にはこのカウボーイスタイルのキャラクターを生成しました。例えば、この風景を変えると、指を指している私の写真のこのキャラクターは、ボートと鯨のある水の風景になります。何も書かずに生成してみましょう。
完成しました。彼は指を指している写真に基づいてドローイングを作り、鯨とボートがあります。「ボートでバーベキューをしている」と言いたい場合、同じスタイル、同じキャラクター、同じ風景で、今度はバーベキューをしている場面が生成されるはずです。
バーベキューは表現されていないようですね。英語で「barbecue at the boat」と入力してみましょう。彼のネイティブ言語で話すと理解してくれるか見てみましょう。
今度はうまくいきました。言語の問題でした。英語で言うと機能します。
このアニメーションスタイルを変更して別のスタイルにしてみましょう。面白いですね。このキャラクターのストップモーションのようなものを作ります。キャラクター、環境、ボートでのバーベキューを維持していますが、若干異なります。今度は粘土の絵のように見えます。アニメーションに非常に似ていますが、粘土であることがわかります。
これはいいねに値しますよ。この画像を見てください。粘土のバーベキュー、粘土の顔、粘土の鯨。まだいいねを押していなければ、今押してください。これは価値がありました。
コメントを残す