OpenAIが画像生成を完璧にした(比較を含む)

9,289 文字

OpenAI Just Perfected AI Image Generation (See the Comparison!)
Want to save time with AI? Get my FREE newsletter and instant access to 700+ AI use cases updated for 2025: just s...

わあ、すごい。OpenAIが突然ライブストリームを開始し、新しい画像生成モデルを公開しました。この機能は現在、無料版を含むすべてのティアのChatGPTで利用可能です。OpenAIのリリースの多くは非常にニッチで特定のユーザー向けであり、すべての人が使うわけではありませんが、これはそういったものではありません。これは本当に、広い層のユーザーにとって使いやすいだけでなく、役立つツールになるだろうと思います。
そこで今日のファーストルック動画では、様々なことをお見せします。まず、生成の仕組みと使い方をざっと見ていきます。その後すぐに、いくつかのユースケースを見ていきましょう。これを見てください。たった1枚の画像からモデルをファインチューニングできるんです。私の画像を与えただけで、簡単なプロンプトで消防士に変身させることができました。
次に、このようなテキスト作成など、いくつかの特別な機能について詳しく見ていきます。そして、すでに実行したベンチマークプロンプトがあり、トップモデルと比較します。この簡潔な動画では、このモデルのパフォーマンスについての最初の印象と、DALL-E、Midjourney、Fluxなどの他のモデルとの比較、使い方、そしてこのモデルとリリースについての考えや、AIの世界でどう位置づけられるかについて、最後に少し考察を述べたいと思います。
まず最初に基本的な事実から始めましょう。これはChatGPT内の新機能で、すぐにロールアウトされました。現在誰でもアクセスできます。Plus、Pro、Teamアカウントはもちろん、無料アカウントでも利用可能です。OpenAIのアカウントさえあれば、今すぐ使うことができます。もちろん制限はありますが、それは時間とともに変わるので、言及するのは避けておきます。ChatGPTにログインすれば、今すぐ使えます。
使い方はとても簡単です。単に「画像を作成して」または「画像を生成して」と言った後に、何をしたいか言うだけです。私はいつも「帽子をかぶった猫」と入力します。Enterを押すと、これがロードし始めます。以前のツールDALL-Eよりも少し遅いですが、あれは市場で最も悪いモデルの一つでした。そしてこれはネタバレですが、おそらく市場で最高のモデルでしょう。その微妙な違いについては後ほど触れます。
見ての通り、処理が始まり、約15〜30秒で上から下へとレンダリングが始まります。
このモデルが特別な理由は何でしょうか?なぜ気にするべきなのか?すでに何千もの画像生成モデルがあるのに、なぜこれが優れているのか?なぜ私が急いで動画を作っているのか?なぜ明日にはTwitterに「新しいOpenAI画像ジェネレーターの驚くべき10の使い方」とか「新しいOpenAI画像ジェネレーターがデザイナーを時代遅れにした」といった投稿が溢れるのか?
では内容に戻りましょう。これは何ができるのでしょうか?画像を生成できるだけでなく、編集もできます。ここで私がすぐに試した例を見てみましょう。「帽子をかぶった猫の画像を生成して」と入力すると、約15秒でこの美しい画像が生成されました。ハイパーリアリズムが素晴らしいですね。でも他にも同じことができるモデルはたくさんあります。
他に何ができるでしょうか?一つは選択的に編集できることです。これについては触れられていませんでした。「目を赤に変えて」と言うことができます。他には何ができるでしょうか?画像を編集できます。
これがこの動画の主なポイントの一つです。単なる画像生成だけでなく、画像編集もできるということです。これは画像を生成しましたが、今その画像をさらに編集したいとします。「帽子を中世の貴族が身につけるようなものに変えて」と続けることができます。今プレイしているKingdom Come: Deliveranceからインスピレーションを得ました。さて、中世の貴族猫ができました。
続いて、「猫に関する面白いテキストが入ったシャツを追加して」と言えます。大規模言語モデルの力を使っているんです。これはMidjourneyとのやり取りのように「このテキストを正確に」とか「この種の結果を正確に」というものではありません。GPT-4の能力を使って面白いテキストを考えてもらい、この画像生成モデルがシームレスに統合しています。「猫との約束があるのでできません」というテキストが入り、素晴らしいシャツの色補正がされています。
これが彼らが強調した大きなポイントですが、愛好家は異なる見解を持つかもしれません。彼らは「このモデルは完璧な画像生成ができる」と言っていますが、それは以前からあったのではないでしょうか?実はそうではありません。ここで私の比較表が役立ちます。DALL-E、Flux Pro、さらに最近のMidjourneyは短いテキストを処理できますが、長いテキストは苦手です。長いテキストにはIdeogramが適していますが、ヒットアンドミスがあります。しかし、ほとんどのモデルで長いテキストを処理すると問題が生じますが、OpenAIのモデルでは違います。複数の段落があるチケットのようなものを即座に作成でき、毎回正確に処理します。これはすごいことです。
これは機能の一つに過ぎません。他にもいくつかあるので、簡単に挙げた後、もっと例を見ていきましょう。もう一つは、複数のファイルを扱えることです。これは他のモデルではあまり見られない機能で、Googleの競合製品くらいでしょうか。ここで私が同じプロンプト「私を消防士に変身させて」を私の画像とともに実行した結果を見てみましょう。これがGoogleから得た結果で、これがChatGPTから得た結果です。比較になりません。これは全く酷く、こちらは素晴らしい出来栄えです。
Fluxでも数枚の画像でトレーニングすれば、このような結果が得られるかもしれませんが、1枚の画像からここまで近い結果は得られないでしょう。私は多くのファインチューニングをしてきました。サムネイルにも使っているようなものです。これは本当に機能します。
また、透明な背景も作成できます。「背景を削除してPNGにして」とより正確に指定しましたが、単に「背景を削除して」と言うだけでも、背景を切り抜いてPNGファイルに変換してくれると思います。それを他の場所にコピー&ペーストできます。PNGファイルはJPEGのような画像ファイルですが、背景が切り抜かれています。
他には何がありますか?私たちAI Advantageでは、いくつかのベンチマークを持っています。ご存知かもしれませんが、私たちは月に一度ランキングを発表しています。コミュニティの公開エリアに入ると、これは誰でも無料でアクセスできます。私たちは画像、ビデオ、LLMプラットフォームのランキングを月に一度発表しています。これは3月版で、まだDALL-Eは含まれていません。というのも、一般に利用可能なものを含めているからです。Google Studioについても、今ようやく手に入れたところです。
ポイントはこれがすべてのツールのランキングだということです。DALL-Eはおそらくここのグループに所属するでしょう。今、真に対抗すべきツールはMidjourney、Flux、DALL-Eです。DALL-Eには画像編集も含まれています。MidjourneyとFluxは画像生成のみを行います。つまり、その上に編集ツールがあるかもしれませんが、このようなことはできません。画像をアップロードして複数のステップで作業し、Photoshopのような動作を期待することはできません。それが編集と言っているものです。
これらのモデルはどのように比較されるのでしょうか?私たちにはテストプロンプトのセットがあり、この新しいモデルですべてを実行しました。今から、これらの異なるテストプロンプトを見てみましょう。ロゴデザイン、ポートレート写真、映画的スチル、空撮写真、ブックカバー、コミックブックの合計6つのプロンプトがあります。すべてをChatGPTで実行しました。
一緒に見て評価してみましょう。しかしその前に、時間の感覚を掴むために消防士の画像がまだ作成中であることを確認しておきましょう。また、こちらもまだ作成中です。おそらく皆がこれを知り、使い始めているため少し遅くなっているのでしょう。テストプロンプトはストリーム直後に実行しました。
テストプロンプトに行く前にもう一つ忘れていたことがあります。このモデルはブランドガイドライン、色、フォントを与えると、実際にそれらの色を正確に使用します。これは奇妙に見えるかもしれませんが、異なる緑の色合い、紫色、グレーを与え、すべてを使用しました。また、指示したプロンプトも使用しました。1枚の画像でファインチューニングができるのです。消防士の画像も素晴らしく仕上がってきました。
1枚の画像を与えて、あらゆるシナリオで自分の画像を作成したり、背景を切り抜いたり、特定の色やフォントを使用してマーケティング目的に使用したりできます。
では、動画を締めくくるために、他のすべてのツールとどのように比較されるかを見てみましょう。それが誰もが気になっていることですよね。すでに優れたパフォーマンスを発揮していることは分かっていますが、詳細が重要です。具体的なことは、この比較によって判断されます。
主にこれらを見ていきます。Midjourneyの列、Flux Proの列、そしてRecraft、DALL-E、Ideogramなどもありますが、本当に気になるのはSティアのツールとDALL-Eです。これらがこのモデルを評価したいツールです。
まず、このロゴデザインのプロンプトから始めましょう。他のモデルの結果はこのようになっています。比較しやすいように下に引っ張っておきます。ロゴデザインについては、ChatGPT 4の画像生成から得られた結果はかなりシンプルです。おそらくDALL-Eに最も似ていますが、DALL-Eにはより多くの陰影があります。
正直なところ、ロゴデザインに関してはRecraftが最も優れていると思います。Ideogramも非常に興味深いです。特定のスタイルが見られます。これはIdeogramです。おそらくこれが最も優れていると思います。あるいは、DALL-Eがミニマリスティックな外観で本当に良い仕事をしています。ただ、これは単純で陰影がありません。線がやや不明瞭だと思います。これは何でしょう?デザイナーからこれを受け取ったら満足しないでしょう。これはきれいではありません。
だからロゴ生成については大きなファンではありません。ただし、テキストは完璧に処理しています。クイックロゴが必要な場合はこれで十分ですが、その特定のユースケースでは、おそらく別のモデルを選ぶでしょう。
次の例を見てみましょう。ポートレート写真は非常に重要なものです。ここにはChatGPT 4を通して実行した正確なプロンプトがあり、これはファンタスティックな画像です。すでに分かりますね。肌のテクスチャーと毛穴が美しく、スーツは超リアルに見えます。完璧です。ひげは少し完璧すぎるかもしれませんが。
これらすべてと比較すると、ハイパーリアリズムはこれらのモデルですでに解決されていました。FluxとMidjourneyは両方とも優れた仕事をしています。Midjourneyは常にやや芸術的で芸術的な外観を持っています。クリエイティブディレクターが画像を作成したような、非常に趣味が良く前衛的なクリエイティブディレクターが作成したようなものです。それがMidjourneyで得られるものです。趣味の良い芸術的な画像を得られます。一方、Fluxはハイパーリアリズムが非常に優れています。
正直に言って、この比較は非常に判断が難しいです。Flux Ultraはわずかに劣るかもしれませんが、実際にはあまり差はありません。本当に判断が難しいです。Recraftは明らかに劣りますが、DALL-Eは少し異なる人物を表示していますが、プロンプトを何回実行するかによって常に少し変わるものです。
ハイパーリアリズムの点では、Recraftよりも上で、FluxとDALL-Eと同等だと言えます。実質的な違いはありません。ただし、これがChatGPT内にあり、ほとんどの人が使用しているという点では重要な利点があります。品質に関しては、ロゴは劣っていましたが、画像生成は同等です。AIを趣味としていない一般の人々は、これを通常の画像と区別できないでしょう。
次のテストに移りましょう。ロマンチックな映画的スチルです。理論的メディアが最初にマティアスに示したことに感謝します。マティアスは私たちのコミュニティでこれを常に使用しています。今では私たちは皆、映画的スチルプロンプトに夢中です。とにかく、これはYouTuberの理論的メディアからの良いプロンプトのコツです。
要点は、私たちがこのプロンプトをすべてのモデルで実行し、その違いを確認できることです。一つコメントしておくと、このプロンプトは2回実行する必要がありました。最初は拒否されたからです。ロマンチックなシーンができないと言われました。私の経験上、これまでのところあまり制限はありませんが、確かにいくつかの制限があります。
さて、映画的スチルのパフォーマンスはどうでしょうか?Midjourneyを見てみると、非常に映画のようなシーケンスを作成します。黒が結構グレーに見えるので、非常に特徴的な外観があります。ビンテージレンズのようなフィルターがかかっているような感じです。これは非常にスタイル化されています。
この結果はここで得られるものと非常に似ており、正直なところ、これをどのように判断するのでしょうか?この時点では単に良いもののさまざまな味わいでしかありません。Flux 1.1 ProとFlux 1.1 Ultraの結果を見れば、これらはフラッシュ付きのポラロイドのように見えますが、これは映画のシーンのように見えます。
この例は明らかに劣っているので、Recraftはこれらの点でも劣っていますが、DALL-Eはどうでしょうか?DALL-Eは優れていますが、動きはこちらの方がやや強いかもしれません。これはよりポスターのように見えますが、品質的にはすべて同等です。すべてハイパーリアリスティックです。
最後の比較として、Ideogramを見てみましょう。これらの画像を簡単に見ると、これらの品質は低いですが、見ての通り、DALL-E、Midjourney、Fluxはすべて同じレベルのようです。これらの比較で本当に難しいのは、自分で判断して、このビデオを見て、一時停止してズームインできますが、それらは非常に似ています。
次の例を見てみましょう。これは大自然の空撮画像です。これを見てみましょう。すでに他のものと非常に似ていることがわかります。FluxやMidjourneyと同等です。Midjourneyは再び映画的なアプローチを取り、雲がより多く、より強い色調があり、青の彩度が高くなっています。再び、より映画的です。
そしてここのRecraftは全くパフォーマンスが良くありませんでした。DALL-Eはフォトショップの背景のようなものを提供しています。この場合、DALL-Eは実際に劣っていると思います。これは現実的に見えず、人工的に見えます。子供が描いてAI画像に変換したようなものです。そのため、あまり好きではありません。Ideogramも機能しませんが、Fluxとほぼ同等です。
素晴らしい仕事ですが、業界最高レベルのものと同等です。ただし、Fluxは1枚の画像を与えて消防士の画像を得ることはできません。Fluxは背景を切り抜いてPNGにすることはできません。Fluxは長いテキストを完璧に処理することはできません。Fluxはおそらくあなたがすでに使用しているGPT-4に統合されていません。これらは大きな利点です。
結論は、選択肢があれば、品質が同等ならばこれを使うということでしょう。品質は重要なので、それを見たかったのです。あと2つの例があります。
一つはこちらです。「森」というテキストが入ったブックカバー、本の挿絵です。すべての例を見てみましょう。比較のためには十分な大きさだと思います。こちらに「森」があり、こちらにブックカバーがあります。Midjourneyは非常に良く見えます。Midjourneyはこれを本当によくやっていると思います。
一方、Fluxですが、このフォントは少し古臭いですね。あまり好きではありません。これはあまりにも基本的で良くありません。しかし、このポスターは信じられないほど素晴らしいです。Midjourneyが行ったように、これも非常にうまく表現しています。Midjourneyのものには芸術的なフレアがあります。際立たせたいものを作りたい場合、クリエイティブディレクターが画像生成に関わってほしい場合、Midjourneyがまだ優位に立っていると言わざるを得ません。
しかし、長いテキスト、PNG、その他の機能など、いくつかの追加機能は提供していません。次は何があるでしょうか?テキストが得意なモデルがあります。Recraftはこのような場合、ミニマリストスタイルを採用しており、これはよりフォトリアリスティックなものです。正直なところ、これらは同じものの異なる味わいに過ぎず、どれが優れているとか劣っているとかはないと思います。
最後に、DALL-Eを見てみましょう。これは非常に似たフォントを選んでいます。画像は基本的に同じで、これはDALL-Eのものの暗いバージョンに過ぎないように見えます。再びすべてのケースで、すべてがテキストを完璧に処理しています。ただし、それは短いテキストだからです。
最後の例はコミックブックで、これです。見てみましょう。GPT-4からの美しい作品です。このコミックストリップを見てください。コミックブックのテキストを追加できると確信していますが、今ビデオを録画しているので、具体的に何を書くか考えていません。
これは美しい作品で、ストリップ全体を作成します。それはいくつかの高度なものです。単に画像を作成するだけでなく、コミックブックのストリップ全体を作成します。これはストリップのイラストであるべきだからです。
他のモデルでは、これを無視しました。これらは女性の画像に過ぎません。Fluxのものも良く見えますが、どれもこのようにヒーローを劇的な方法で特集していません。これらのものは?DALL-Eです。これらはそうです。テキストもあります。
これのサイズを拡大してDALL-Eとの比較を本当に示したいと思います。そうしましょう。はい、DALL-Eのものを見てみましょう。テキストは全部おかしいです。画面上でこれを読むことができますが、一部の単語は正しいですが、もっとズームインしましょう。一部の単語はおかしいです。「Ty I your edits an hey Brio」。一貫性がありません。「uto」。単に正しくありません。
それ以外は、これは本当に近くて良いと思いますが、これについては、GPT-4が明らかに一番良いと思います。これがすべての中で最も良く見えるものだと思いませんか?そして「コミックブックのテキストを追加して」と言うと、どのテキストを追加するかのアイデアをくれます。これがLLMと連携できる点です。
見ての通り、これには本当の利点があります。他のすべてのことは同等に良いか、ロゴに関しては少し劣るかもしれませんが、このようにGPT-4を自由に使えるメリットがあります。LLMが使ったテキストを正確に教えてくれるので、テキストを生成するためにChatGPTに別途行く必要はなく、すべてをここで行うことができます。
これがプロンプトの内部情報や選択的編集ツールを使用して、最初の画像から他のすべてを維持しながら目だけを変更する能力を追加すると、非常に強力です。確かに今は、与えたブランドカラーに背景を変更しませんでした。これをきれいに行いたい場合は、画像を生成し、ツールを使用して再生成するだけです。これはすでに会話の文脈を取り入れていますが、目は変更されています。
これはまだ処理中ですが、正直に言うと、数時間前に立ち上がったばかりなので過負荷になっているに違いありません。しかしこれは機能しており、動作します。ダウンロードできるPNGができます。これらはすべて他のモデルでは得られない機能です。画像を生成することはできません。他のモデルでは得られません。すべてのツールが組み合わされているからです。
ここでは画像生成だけでなく、画像編集も重要です。また、組み込みのLLMがあるという事実も重要です。これらすべてのことを組み合わせて無料アカウントの誰にでも提供するならば、再びOpenAIのマスターストライクと言えるでしょう。
これがすべてのユースケースで当てはまるのか、それともこの1つの例だけなのか、本当に気になります。そのため、約2週間前にリリースされた新番組で紹介したGoogle AI StudioのDALL-EとOpenAIの新しい画像ジェネレーターの様々なユースケースを比較するビデオをすでに作成しています。
これは編集に非常に優れていますが、OpenAIの画像ジェネレーターは編集に優れているだけでなく、信じられないほど完璧です。他のどのモデルもできない長いテキストを処理でき、このビデオで何度も指摘した他のすべてのことができます。
これがあなたのまとめであり、他のすべてのモデルとの比較です。あなたはどう思いますか?これを使用しますか?試してみますか?使い方は本当に簡単です。無料アカウントさえあれば、すぐに試すことができます。これは、ChatGPTに組み込まれたPhotoshopの大部分のようなものです。会話内で有効化でき、複数の画像を追加したり、一緒に編集したり、変更したり、切り抜いたり、1枚の画像でモデルをトレーニングしたりできます。印象的です、OpenAI。そしてここでもGoogleを出し抜いたことに良くやりました。
これが今日お伝えしたいすべてです。Googleツールとのさまざまなユースケースによる比較ビデオを見たい場合は、ぜひチャンネル登録してください。それ以外では、金曜日のニュース番組でお会いしましょう。以上です。「いいね」と「チャンネル登録」をお忘れなく。さようなら。

コメント

タイトルとURLをコピーしました