
6,762 文字

Runway Gen 4が登場し、これまでのAIとは違って実際に役立つ様々な革新をもたらしています。私たちはおそらく今週、AIによる創造性においての転換点に達したと思います。確かに、Soraやほかのビデオモデルのような製品も見てきましたが、このモデルには単なるビデオ生成だけでなく、映画制作に本当に必要な重要な機能がいくつか備わっており、それが他と一線を画しています。
このビデオでは、Runway Gen 4というこの特定のモデルが競合他社よりもなぜ優れているのか、そしてなぜこのモデルが単なる誇大広告ではなく、多くのクリエイターが使い始める基本的なツールであるのかを深く掘り下げていきます。いくつかの映像を見てみると、これらのシーンの多くが完全に美しく、非常に一貫性のあるシーンが展開されていることがわかります。そして、他の多くのクリップで見慣れていた変形がそれほど見られません。
なぜこれが本当に印象的なのか掘り下げてみましょう。正直なところ、多くの人がこのモデルがなぜゲームを変えたのか見逃してしまうと思います。私にとって本当にゲームチェンジャーだったものの一つは、以前は映画業界で働いていたとは言えませんが、確かに短編映画をいくつか作ったことがある者として、一貫したキャラクターが価値あるものを作るために非常に重要な不満点だったということです。そしてRunway Gen 4は、ビデオを作成しようとするとき、一貫したキャラクターを導入します。
なぜこれがそんなに大きなことなのかよく分からない方のために説明すると、短編映画、映画、広告のようなものを作成する場合、視聴者が一貫して認識できる一貫したキャラクターを持つ必要があるからです。これは以前は得られなかったものです。Soraの初期の欠点の一つは、アーティストがそれを使って作業するとき、モデルに何度もプロンプトを与えなければならなかったことです。使えるショットを得るために約20回もモデルにプロンプトを与えなければならなかったと思います。それは単に毎回プロンプトを与えるたびに違う人物が現れたからです。基本的に、彼らは生成モデルを使って毎回似たような人物を得られるかどうか確認していたのです。
それは彼らにとってフラストレーションでした。もう一度考えてみてください。これは大きな時間の節約になります。どんな物語でも、私たちは常にキャラクターが何をしているのかを追っています。ただ見た目が良いアニメーションのクールなシーンだけではなく、常にキャラクターの旅を追い、彼らが何をしているのか、限界、フラッシュバック、未来のバージョンなど、すべてがストーリーテリングの過程の一部です。これは本当に重要なことです。
それだけでなく、時間も節約できます。同じキャラクターに非常に具体的な説明で再度プロンプトを与えることができます。スター参照用の画像アンカーを使用することもできます。これはゲームチェンジャーになるでしょう。なぜなら、これで人々が実際に使えるものを生成できるようになったからです。以前は創造的な映画の特定のシーンのためかもしれませんでしたが、今ではより多くの代理店や個人が実験し始めるでしょう。
そして、これまで発表された中で世界の一貫性を実現した初めてのモデルです。つまり、一貫した環境、オブジェクト、場所、キャラクターで一貫した世界を作成できるということです。それができれば、実際の連続性を持つより長い形式の物語コンテンツを語り始めることができます。異なるシナリオ間で同じキャラクター、同じオブジェクト、同じ場所を生成できるので、意図的にシーンをブロックし、何度も何度も物語を語ることができます。
ここ数ヶ月間、Gen 4を設計・開発し、このモデルが実際に何ができるのかを見るのは非常に楽しかったです。クリエイティブツールとしてのGen 4の最良のデモンストレーションは、このモデルを使用して語ることができる物語にあると信じています。また、Gen 4で何ができるかを紹介するために、一連の短編映画や実験も用意しました。
オブジェクトの一貫性も同様に重要です。先ほども言ったように、キャラクターの一貫性だけでなく、オブジェクトの一貫性も大切です。車であれ、投げ回す必要のある固体のオブジェクトであれ、これからは映画の中で一貫性を保つことができます。繰り返しますが、境界を押し広げたいのであれば、これは本当に必要なものであり、すべてのビデオで同じオブジェクトを保持できるビデオ生成モデルを持つことは実際にはかなり難しく、彼らがそれを管理できたことに驚いています。
これらのモデルを使用する際に彼らが苦労していたことの一つは、一部の人々はただツールを見るだけで実際には使用しませんが、すぐに気づくことの一つは、キャラクターの一貫性とオブジェクトの一貫性がなければ、物事はすぐに楽しい要素を失いがちだということです。なぜなら、生成するたびにすべてがちょっとランダムであることに気づくからです。人々、オブジェクト、環境がフレームごとに変わると、すぐに偽物に見え始めます。
人間は何が本物で何が偽物かを見分ける能力に長けています。そして、オブジェクトが毎フレームで微妙に変形して変化するのを見ると、それがAIによって生成されたものだと気づくでしょう。カップが毎秒違うカップに変わったり、車が形や色を途中で変えたりすると、リアリズムが崩れてしまいます。人間はこれらの不一致に気づくようにハードウェア的に作られています。
実写アニメーションでは、何かが実際に変化の原因にならない限り、すべてのキャラクター、すべての小道具が同じままであることを期待します。一貫性を維持できないオブジェクトがあれば、そのモデルを実際に使用することはできません。これは再度、この開発にとって非常に重要なことであり、だからこそ私は多くの人々がこのアップデートを見落とすと言ったのです。これは確かに必要なものですが、見出しには表れませんが、その下で、より興味深いビデオが多く、これらの一貫したキャラクターがよりリアリズムを帯びてきていることに気づくでしょう。
あなたは思うかもしれません。いつ私たちは実際に一貫したキャラクター、オブジェクトの一貫性、そして世界を本当に理解するモデルを持った週や日があったのでしょうか?そしてGen 4では、シーン全体で被写体を指示することが実際にできます。
スカンクには2つのマークを与えているのがわかります。この場合、スカンクにはまずこちら側に行き、それから戻って何かを探しているように感じさせたいと思いました。そして、シーン全体を通して同じキャラクター、同じ光、同じ雰囲気、同じ状態であることがわかります。ここでは主人公であるキャラクターを紹介しています。そうですね、再び、すべての優れたアニメーションのように、キャラクターがデザインされている方法だけでなく、これらのシーン内での動きにも多くの表現力が見られます。
今見たのは、キャラクターの一貫性の本当に素晴らしい例でした。異なるシーン、異なる照明条件、異なる感情や行動を指示された同じキャラクターを持ってくることができます。また、実世界からオブジェクトを取ることもできます。ここに小さなおもちゃがあり、その写真を撮り、そのおもちゃの写真をGen 4に持ち込み、それをどんな環境にも配置できます。
ここで小さなデモをしてみます。ここにある特定のオブジェクトの写真を撮ります。私の電話から撮るだけなので、ここに表示されるのが見えるでしょう。そして、その写真を撮って、一連の異なる環境で実行してみます。写真ができたので、それをここのGen 4にリファレンスとしてドラッグします。そして、数日前に撮ったニューヨークの写真も使います。
今、私が望む構成を入力します。この場合、この木製のおもちゃがニューヨーク市の歩道に寄りかかっているか、その隣にあるようにしたいです。Gen 4はそれらの参照を組み合わせており、そこにあります。4つの初期画像が表示され、閲覧して選択できます。これが気に入ったので、アニメーション化され、おそらく人々がおもちゃの前に来るようなものが欲しいです。
今、おもちゃと都市の両方に必要なモーションとアニメーションが得られることがわかります。参照として使用し、もちろんこれはどんな場所でも行うことができます。おもちゃを山に持っていったり、砂漠に埋めたりすることもできます。基本的に、あなたが望むことは何でもできます。
これは間違いなく最大の変化かもしれませんが、多くの人々は再びこれに気づかないでしょう。これはAI VFXであり、彼らが実際に呼んでいるのはGV effectです。基本的に、視覚効果が何かを理解していない場合、これは特定のシーンに対する後効果であり、そうでなければ実際のものだと思っていたでしょう。
VFXはしばしば非常に優れているため、見ているものが実際にVFXを上に乗せていることに気づかないでしょう。VFXアーティストが言うように、良いVFXは実際には見えません。しかし、VFXについての問題は、VFXがおそらく映画制作シーンの中で最も時間のかかるものの一つだということです。これらの大きなハリウッド映画では、VFXは時間がかかるだけでなく、しばしば何百万ドルもかかり、これらのアニメーションスタジオに何百万ドルも支払っています。そして、これらのアニメーションスタジオは、すべてをできるだけ早くレンダリングするためにGPUをレンタルするサーバーファームに何百万ドルも支払っています。
VFXは通常、フレームごとに作業する大規模なチームを必要とします。AIによってローソスコーピング、オブジェクト除去、モーショントラッキングなどの複雑なタスクがすべて自動化できるようになりました。かつては面倒な手作業だったものが、数分または実時間で完了します。例えば、ショットをクリーンアップするのに40分かかっていたものを、Runwayはほぼ瞬時に処理できます。
先ほども言ったように、これらの企業が最も重視していることの一つはコストです。あなたが代理店や短編映画スタジオで、VFXに何百万ドルも費やしたくない場合、Runwayのようなツールを使用して制作レベルの品質を向上させることができます。おそらく、テレビ番組を見て「このショットの視覚効果は絶対にひどい」と思ったことがあるでしょう。そして皆さん、それはVFXアーティストが悪いからではありません。多くの場合、時間が足りなかったからです。なぜなら、先ほども言ったように、リアルに見せるためには時間がかかるからです。また、十分な予算がないために、VFXをリアルに見せるために十分に良い人材を雇うことができないかもしれません。おそらく誰かを非常に安く雇い、素早く完了させようとしているので、うまくいかないのです。
これがAIを使用しているのであれば、生成モデルを使用すれば、異なる外観をすばやくテストし、環境を交換し、照明を調整することができ、セットを再構築したり3Dで再構築したりする必要はありません。これにより、クリエイティブプロセスがより楽しく、より速く、より実験的になります。たとえば、晴れた場所から炎に包まれた場所に変えることもできます。
私は数年後には、これがおそらく最先端のものになるだろうと思います。数年後には、AIVFXを持つことが普通になるでしょう。彼らがこれについて実際に話しているクリップがあるかもしれませんが、これは間違いなく最大のものの一つです。これはこれまで見たことのない方法で業界を混乱させるでしょう。もちろん、必要な品質にアップスケールして取得できるという前提です。なぜなら、これは非常に高価なだけでなく、非常に時間がかかるからです。
また、他にもあります。これは非常に革新的だと思います。複数のショットアングルを持つことができます。例えば、人物のショット、横からのショット、上からの鳥瞰図が欲しい場合、これは異なるカメラアングルを持つダイナミックなシーンを作成するために本当に重要です。なぜなら、単にTVショーを見ているだけでは気づかないような多くの異なるダイナミックなカメラアングルがあるからです。
クローズアップショット、後ろからのショット、オーバーヘッドビュー、鳥瞰図など、ダイナミックなシーンを作り出す多くの異なるショットがあります。そして今、Runwayでこれを実際に行うことができるようになり、全く異なるレベルのクリエイティブな表現が可能になります。そしてもちろん、キャラクターの一貫性があれば、見ているものがAIであることに気づかないことが多いでしょう。それは非常に非常にリアリスティックになるからです。
私が本当に取り上げたいことの一つは、もちろん物理学です。彼らは物理シミュレーションをアップグレードすることに成功したと話しています。そして私はそれを信じています。なぜなら、このモデルの以前のエディションを見て、流体シミュレーションを見ると、他のモデルから見たものと比較して比較的リアリスティックに見えたことを覚えているからです。
彼らがどのようなトレーニングプロセスを使用したのか、どのようなデータを使用したのかはわかりません。おそらく彼らは単に様々な流体シミュレーションでトレーニングしたのでしょう。それは十分にあり得ることです。または火のシミュレーションや水のシミュレーションなど。おそらく彼らは何かそのようなことをしたのでしょう。そうすれば、おそらく最高の効果を得ることができます。これは何かがリアリスティックに見えるようにするためには本当に重要なことです。
物理学は本当に難しいです。モデルに正しい物理学を持たせることがどれほど難しいかを過小評価しないでください。それはモデルが現実に根ざしていることを示しているからです。そして多くの場合、これらのモデルはそうではないことに気づきます。私はすべての研究論文に飛び込むつもりはありませんが、ほとんどの人が見ていない論文が一つあり、より多くのモデルがベンチマークされるのを見たいと思います。
これはもちろん物理IQであり、「生成ビデオモデルは物理原則を理解しているか」について話しています。これが最後にテストされたとき、最先端のモデルは約20%を得ました。このモデルがこれにどのくらいの得点を取るのか見てみたいです。なぜなら、基本的に彼らは実際の世界で起こっている何かの動画を取り、画像を配置して何が起こるかを説明し、ビデオモデルが実生活のように実際のイベントを生成できるかどうかを確認するからです。以前のモデルは20%の時間でそれを行いました。この物理学のベンチマークでこのモデルがどのようにパフォーマンスするか見てみたいです。
このモデルが他のモデルとどのように比較されるかを見たい場合、Curious Refugeのおかげで、他のビデオ生成モデルとの比較を見ることができます。Lumar Ray 2は驚くほど良く見えますが、私はそれをあまり成功させていません。Clingはここではあまり良く見えませんが、これは一つのシナリオだけなので、このモデルでは確かに自分でテストする必要があります。
もちろん、異なるシーンやスタイルがあり、他よりも効果的かもしれません。Gen 4が他と比較して最高に見えることがわかりますが、おそらくGen 4を使用している場合、あなたは何らかの映画製作者であるでしょう。なぜなら、それはプロフェッショナルな高品質レベルの映画製作に向けられているようだからです。Vo ClingやすべてのAI画像ジェネレーターのような、変なクレイジーなスタイルではありません。
もちろん、モデルが公開されたらテストしますが、それは私が見ていくものです。私のお気に入りのクリップをみなさんに紹介したいと思います。これはTwitterで見たもので、これへのリンクを残しておきます。これは非常に創造的だったからです。なぜか、これは私を魅了しました。AIをうまくプロンプトすると何ができるかを示すためにこれを共有したいと思います。
誰がこれをツイートしたのかわかりませんが、リンクを残しておきます。全体として、これはおそらく物事を大きく変えると思います。AIにとって本当にクレイジーな一週間でした。このビデオを楽しんでいただけたら、何が良かったか教えてください。次回お会いしましょう。
コメント