
8,097 文字

このビデオでは、OpenAIの新しいGPT-4o画像生成機能を深く掘り下げていきます。特にAI映画制作やストーリーボード作成における可能性に焦点を当てています。このモデルは複数の一貫したキャラクターを生成する能力において真価を発揮し、まるで自然な会話を通じてシーンを演出するかのように、3D空間でカメラを動かすことも可能です。あなたが監督で、AIがカメラマンのような感覚です。
GPT-4oの画像生成機能はまた、鮮明で正確な長文テキストのレンダリングを提供し、科学、物理学、現実世界の状況に対する深い理解を示し、細部への驚くべき注意力を発揮します。さらに、内蔵の画像エディタには優れたインペインティング機能があります。これはAI映画制作、商品撮影、広告制作にとってゲームチェンジャーです。
それでは始めましょう。まず複数の一貫したキャラクター作成と3D空間でのカメラ制御について紹介します。GPT-4o画像生成にアクセスするには、ChatGPTまたはSoraを通じて行えます。ChatGPTでは、プロンプトに「写真を作成して」や「画像を作成して」または「シネマティックな写真を作成して」と入力するだけで、モデルが画像を作成してくれます。Soraのホームページでは、単に画像とビデオを切り替えるだけです。画像モードに切り替えると、新しいGPT-4oモデルで画像を生成できます。
会話型画像編集の全体的な考え方は、最近リリースされたGoogleのGemini 1.5 Proと非常に似ています。Geminiと比較すると、GPT-4oの画像品質はずっと優れており、画像はくっきりと鮮明です。
最初のキャラクターを生成した後、別のキャラクターを生成しました。最初は同じプロンプト「バスローブを着た男性のシネマティックな写真を作成して、彼には多くのタトゥーとピアスがある」を使いました。キャラクターの画像をダウンロードして、ここの「+」ボタンを使って添付し、プロンプトとして「この2人の男性を同じシーンに配置して、高級スポーツカーの前の自動車公園で互いに見つめ合っている様子を見せて」と書きました。すると、2人のキャラクターが一緒に同じシーンに登場し、スポーツカーの前で互いに見つめ合っています。
3D空間でカメラをコントロールすることもできます。例えば「キャラクター1、スーツを着た男性のクローズアップショットを見せて」というように。モデルに誰がキャラクターなのかを教えていることに気づくでしょう。その後は毎回「スーツを着た男性」と書く必要はなく、単に「キャラクター1」として参照できます。これで最初のキャラクターのクローズアップショットが得られ、同じシーンで2番目のキャラクターに対しても同じことを行いました。
ここから本当に面白くなります。「このシーンのオーバー・ザ・ショルダーの視点を見せて」と指示すると、顔や衣装が一貫しており、基本的に同じ車(黒と赤の車)がシーンに登場しています。その後、「今度は他の男性のオーバー・ザ・ショルダーの視点からこのシーンを見せて」と書きましたが、モデルが誰が誰なのか混乱していることに気づきました。それを防ぐために、どのキャラクターのどのオーバー・ザ・ショルダーの視点を見たいのかを明確にすることを強く推奨します。そこで「スーツを着た男性のオーバー・ザ・ショルダーの視点からこのシーンを見せて」と書くと、モデルはそれを理解して、このショットを提供してくれました。
次の例では、モデルにズームアウトしてシーンをもっと見せるよう頼んだところ、ズームアウトしたショットが得られ、シーンで何が起きているのかをより多く見ることができます。「さらにズームアウトして、シーンをもっと見せて」と頼むと、モデルはさらにズームアウトしました。これはかなり印象的です。
次に「同じシーンの超ローアングルショットを見せて」と頼むと、モデルはローアングルショットを提供してくれました。ここで気づくのは、元の画像にはなかったこれらの線を追加していることです。元の画像ではここに一本の線がありましたが、間には線がありませんでした。モデルは明らかに完璧ではなく、ミスを犯しますが、それでも印象的です。もう一つ気づくのは、モデルが画像のアスペクト比を変え続けていることです。アスペクト比の一貫性を保ちたい場合は、プロンプトでそれを指定することを強くお勧めします。そうしないと、縦長と横長のショットが混ざってしまいます。
ここからさらに面白くなります。「車の一つに隠れている第三者の視点からこのシーンを見せて」と頼むと、第三者のPOVショットが得られました。ここで、車のミラーが頭で隠れているという小さなミスがありますが、最も印象的なのは、モデルがこのプロンプトと3D空間を非常にうまく理解していることです。
「同じシーンを鳥瞰図の視点から見せて」と頼めます。最後のショットを参照し続けることもできますが、別の出発点から始めたい場合は、以前のショットのいずれかをダウンロードし、「+」ボタンを使ってアップロードし、それを参照点として使うようモデルに依頼することができます。これがまさに私がやったことで、以前のショットの1つをアップロードして、鳥瞰図の視点を求めたところ、鳥瞰図の視点が得られました。駐車している車の位置が変わっていることに気づくでしょう。今は三角形のように見え、お互いに少し近づいています。もちろん、モデルは時々ミスを犯します。
もう一つの最も素晴らしいことは、「両方のキャラクターの極端な顔のクローズアップショットを分割ビューで見せて」と頼んだところ、モデルは私が求めたものをそのまま提供してくれました。これはかなり印象的です。
次に紹介したいのは、全く異なるセットアップで3つの異なるキャラクターを添付したことです。ここにクローズアップショットがあります。キャラクター1は実際には反射であるため、モデルにとって少し混乱するかもしれません。キャラクター2とキャラクター3です。全く異なる雰囲気、異なるセットアップです。モデルに「これら3人が横顔で並んで立っている写真を作成して」と頼みました。モデルはそれを理解し、最初の女性を認識して鏡からの反射と分離し、混乱することなく横顔ビューを提供しました。キャラクターの一貫した衣装も提供してくれました。最初の写真の水玉模様のテクスチャ、女性の騎士、そして男性です。ここでできることは無限大です。
次の例では、モデルに「レオナルド・ダ・ヴィンチがモナリザを描いた様子を見せて、シネマティックな写真にして」と頼み、この印象的な結果が得られました。テスト中に残念ながら多くのエラーが発生したため、何度も最初からやり直す必要がありました。写真を再アップロードして「シーンの後ろからのショットを見せて」と頼むと、後ろからのショットが得られました。
この例では、波のあるモーゼのようなシーンのシネマティックなワイドアングルショットがあります。かなり印象的なシネマティックショットです。その後、モデルに「ズームインして彼を振り向かせて、顔が見えるようにして」と頼みました。実際にはかなりのエラーが発生しましたが、それでもモデルは「ズームインして振り向かせて」を理解し、顔を見せることができました。
次の例では、髪に鳥が止まっている女性のスタジオポートレート写真を使いました。「クローズアップショットを見せて」と頼み、本当に素敵なクローズアップショットを得ました。これは難しいプロンプトでした。「45度の上面図を見せて」と頼んだところ、求めたものを提供することができました。
単一のキャラクターの場合、カメラを回転させて視点を変えるのははるかに簡単です。次のプロンプトは本当に楽しいものです。「2006年にファーマーズマーケットで完璧に捉えられた予期せぬ瞬間の写真を作成して」と頼むと、かなり面白いこのショットが得られました。
ここから本当に面白くなります。3Dだけでなく、時間次元も含めた4Dを実際にコントロールしています。「同じシーンの側面図を見せて、全員を10歳年取らせて」と頼むと、突然側面図が得られ、キャラクターが10歳年取っています。これはかなり印象的です。おそらく実際には15〜20歳ほど年取っていますが、それは問題ありません。背後のキャラクターはあまり変わっておらず、もちろん10年経ってもヒヨコに何も起こらなかったことが嬉しいです。
もう一つの素晴らしいことは、GPT-4oの内蔵画像エディタを使用できることです。右上隅にブラシオプションがあることに気づくでしょう。画像の一部を選択して、インペインティングに使用できます。例えば、ここのヒヨコを選択して、プロンプトを「これをアライグマに変更して」と変更します。自然言語を使っています。送信すると、ヒヨコがアライグマに変わりました。
いくつか注意点があります。内蔵画像エディタはチャットインターフェースでのみ利用可能で、Soraでは利用できません。また段階的に展開されているため、このオプションがない場合は辛抱強く待ってください。インペインティングは現在、生成された画像でのみ使用できます。つまり、任意の画像をアップロードして変更を加えることはまだできません。
次のプロンプトはAI映画制作に非常に使いやすいです。「女性科学者がスウェーデンの列車で科学的な作業をしている時に、一群のレプタリアンに気づく。彼女は走り出し、小屋を見つける。そこには一人で暮らすオラフという男性がいる。このストーリーラインについて8つのシネマティックでフォトリアリスティックな画像を使ってストーリーボードを作成するのを手伝って。キャラクターを極めて一貫させ、感情をよく表現し、確立ショット、ドローンショット、クローズアップ、ミディアムショットなど、さまざまなショットタイプを確保してください。すべてのプロンプトを『シネマティック写真』で始めてください。」
これを実行したとき、一つ気づいたのは、モデルが私のプロンプトにいくつかのランダムなカメラを追加していたことです。これらのカメラの一部は非常に独特の視覚的スタイルを持っており、AIフィルムでは写真に異なる色彩スキームを持たせたくありません。一貫したスタイルが欲しいため、代わりにこのプロンプトを使用することをお勧めします。特に「キャラクター、服装、フレームのスタイルを極めて一貫させてください」と記載しました。
その後、GPT-4oはフレームごとに生成し始めましたが、自動的にそれを行わなかったため、「次のフレームを生成して」と頼む必要がありました。これは現在の制限のためだと思います。高いトラフィックのため、いくつかの制限があり、生成中に何度も5分、15分、20分待つ必要がありました。
ストーリーラインの各シーケンスのフレームを生成し続け、生成制限のためにエラーが発生するまでうまく進みました。その後、約2分待ってから、さらに生成することができました。その後、少し混乱が生じました。最後のフレームの一つにジャンプし、キャラクターの外観がかなり変わったからです。これが起こっても慌てないでください。キャラクターの画像を再度添付し、「次のフレームを生成して、キャラクターの一貫性を確保してください」と頼むだけです。再びいくつかのエラーが発生しましたが、中断したところから続けることができました。「ラッセルタに振り返らせてカメラを見せて、彼女は緊張しているように見せて」とプロンプトを入れました。モデルにキャラクターの外見を思い出させた後、より一貫した結果が得られました。
生成制限が少し緩くなれば、一つのプロンプトで複数の画像を生成できるようになると思います。これがGeminiの素晴らしいところでした。Geminiでは一つのプロンプトで複数の画像を生成できましたが、現在のGPT-4oではこの機能が欠けていると思います。
GPT-4oの最もクールな点の一つは、細部への注意力です。モデルの世界と科学的理解は素晴らしく、学習や執筆において革命をもたらすでしょう。ここでは「レオナルド・ダ・ヴィンチの概念的な翼を説明する学術的に妥当な経験的インフォグラフィックの画像を作成して」と頼みました。テキストにいくつかのエラーがありましたが、非常に良いインフォグラフィックを生成でき、ほとんどの場合かなり正確で印象的です。
その後、そのインフォグラフィックを添付して「このDIY翼インフォグラフィックをノートにスケッチしている人のPOVを生成して」と頼みました。このインフォグラフィックを新しいシーンにコピーペーストすることができました。それぞれの間にいくつかの小さなミスがありますが、それでも本当に印象的です。
次に紹介したいのは、個人の画像を使ってジブリスタイルの画像を作成する方法です。この特定の例では、私の犬ルーニーの写真を編集して「これをジブリスタイルの画像にして」と頼みました。すると、この素晴らしい画像が作成されました。画像の構造と私の犬の外観にどれほど忠実であったかに気づくでしょう。黄色のバンダナも正確に再現されていて、本当に素晴らしいです。
その後、ルーニーのジブリスタイル画像とサイバージャングルのパーカーを一緒に添付して「画像を作成して、私の犬にこのパーカーを着せて」と頼みました。最初はレート制限によりエラーが発生し、少し待つ必要がありましたが、その後この画像を生成することができました。
GPT-4o画像生成の最も重要な点の一つは、正確で鮮明な長文テキストのレンダリングです。この例では「犬舎の犬の視点から書かれたクリスマスお祝いカードをデザインして、各犬の写真、名前、そして彼らの個性を強調するユーモラスな事実を含めてください」と頼みました。そして、この面白い画像が得られました。「メリー・ウルフマス(Merry Wolfmas)」という言葉と、すべての犬には写真、名前、犬種、そして彼らについての面白い事実があります。最後の画像に問題があり、残念ながら混ざってしまいましたが、ここではテキストのレンダリングにいくつかの問題があることに気づくでしょう。それでも画像のほとんどは実際にかなり良いです。
画像生成は商品写真にも優れています。この特定の例では、以前にMidjourneyで生成した拡張現実グラスを添付し、「この拡張現実グラスをつけた女性モデルを作成して、彼女は驚いているように見せて」と加えました。特に16:9のアスペクト比を求めました。モデルは製品を完璧にレンダリングし、モデルにそれを着用させることができました。
そこで止まらず、モデルをさらに押し進めました。「ズームアウトして、彼女の周辺のホイールの周りに浮かぶいくつかのアプリを表示して」と頼むと、ここにいくつかのアプリアイコンを追加しました。これは本当に素晴らしいですが、可能性は無限大です。
「さらにズームアウトして、アプリアイコンをそれぞれのアプリのユーザーインターフェースに変換して」と頼みました。残念ながら、再びレート制限に達したため、ここでエラーが発生しました。冷却プロセスの後、モデルに再試行を頼み、今回はこの画像が得られました。
エラーのため、中断したところの一貫性が少し失われました。実際にはかなり面白いことに、これは偽のYouTubeユーザーインターフェースに見えます。これは日付がずれているカレンダーです。音楽プレーヤーに曲名やアーティスト名がありません。メッセージでは、この会話がかなり面白いです。「それは素晴らしいね」と「それは素晴らしいね」。これは最も支持的な友情です。私もこのような友情が欲しいです。もちろん完璧ではありませんが、それでも本当に印象的です。単純な拡張現実グラスの画像から始めて、ほぼ広告を生成しました。
次の例では、このQuadriaウォッカの商品写真を添付し、「あなたは世界で最も受賞歴のあるクリエイティブディレクターであり、世界で最も受賞歴のあるクリエイティブエージェンシーにいます」と頼みました。正直に言うと、少し誇張しました。これほど誇張する必要はありません。「Quadriaウォッカの素晴らしい広告の画像を作成してください。ここに製品の画像を添付します」と頼むと、素敵なスローガンまで考え出してくれました。ブランドとボトルの一貫性を保ち、すべてが良好です。
その後、モデルに「このHEXコードをタイトルテキストのチームカラーとして使用してください」と頼みました。これは非常に印象的です。GPT-4oがHEXカラーコードを認識するからです。これはクリエイティブプロセスに全く新しい次元をもたらします。
その後、「この製品を詳細なUIデザインのランディングウェブページに変換して」と頼みました。すると、実際にはウェブページ全体のコードを書き始めました。私が欲しかったのは単純なデザインだけでしたが、これはデザインだけでなくコードも理解できる非常に強力なマルチモデルであることがわかりました。
後でモデルに「わかりました。デザインだけください」と頼みました。「北極の透明さで作られたボトルショップ、王族のために蒸留されました」「氷でろ過された高貴な遺産」など、本当にクールなものを生成できました。単純な商品写真から完全なランディングページを生成できたことは素晴らしいです。
その後、このバッグの画像、このクールなモデル、そして指輪などのランダムな画像を追加して、「これらの添付された要素に基づいて新しい画像を作成して」と頼みました。これらの要素を文脈的にどれだけうまく接続できるか見たかっただけです。ここで少し苦戦しました。ランダムな指輪があり、バッグは浮いているだけで、モデルはただそれを隣に添付しただけでしたが、「彼女にバッグを持たせて指輪をつけさせて」という文脈を与えると、非常に良くなりました。
シーンと文脈をよりよく理解できるようになりました。指輪のデザインは変えられましたが、大きな問題ではありません。全体的に、これらの要素をすべて混ぜ合わせてこの素敵な画像を生成できたことは非常に印象的です。
最後に紹介したいのは、GPT-4oの画像生成機能を使ってサムネイルを生成する方法です。この作業のために、いくつかのメモが書かれたこの下書きをアップロードしました。ここに一人のキャラクターを追加し、「同じキャラクターで異なる視点」と書き、3番目のブログには「別の視点での同じキャラクター」が欲しいと書きました。ここにいくつかのメモを追加し、テキストを書き、「この部分をネオングリーンにしたい」と編集しました。
これをGPT-4oにアップロードし、「画像の指示に正確に従って16:9のサムネイルを生成して、キャラクターを非常に一貫させ、テキストを簡単に読めるようにして」と頼みました。すると、GPT-4oはこれを作成しました。キャラクターの一貫性という点では非常に印象的です。この2つの特定の視点は少し似ているので、おそらく再生成が必要です。また、ここでOを失ってしまいました。テキストには「GPT-4o」と書かれているはずですが、1文字失われてしまいました。それでも、モデルが指示に従える能力は非常に印象的で、これはサムネイルデザインにとってゲームチェンジャーになると思います。サムネイルをここに入力し、GPT-4oにデザインの改善を依頼するだけで、良いアイデアが得られるでしょう。
このビデオが本当に役立つことを願っています。詳細なチュートリアルをもっと見たい場合は、ぜひ高評価を押して購読してください。クリエイティブインテリジェンスについてもっと学びたい場合は、ここをクリックしてください。
コメント