Googleの新しいAIは驚異的（あなたは何でも作れる！）ネイティブ画像生成

7,736 文字

https://www.youtube.com/watch?v=AeJDgOABbsk

Googleはこのブログ記事を公開し、Gemini 2.0 Flashを試してみてくださいと述べています。そこではもちろんネイティブ画像生成について説明していますが、正直言って、私はこの種の技術に関する研究論文を以前から見てきましたが、実際の使用例とモデルが本当に効果的にそれを行うのを見たのは今回が初めてでした。なぜこれがそれほど素晴らしいのか実際にお見せしましょう。
私たちが実際に持っているものの一つは、一貫したキャラクター表現の課題が解決されたことです。彼らが見せてくれたデモの一つは、Gemini 2.0 Flashが本質的に物語を語り、それを画像で描写できるというものでした。この例では、もちろんヤギがいるのが見えますが、そのヤギが異なることをしているように変更することができます。もちろん、これを行うことができる異なるモデルがありましたが、本当に印象的なことは、Gemini 2.0 Flashでは、これらのモデルの精度が真に驚異的だということです。これは全く同じ動物であり、単に物語において少しだけ良い画像を作ることができるとお考えかもしれませんが、私が何を言っているのか正確にお見せします。
試してみたかったことの一つは、このモデルアプリが画像編集においてどれほど優れているかを確認することでした。白い背景のデッドプールの画像を作成してと入力しました。AIの画像モデルが作成する可能性のある間違いを避けるために白い背景が欲しかったのですが、ここでデッドプールの非常にシンプルな画像が生成されているのがわかります。次に、彼に腕を組ませてと言うと、すぐにデッドプールに腕を組ませることができ、すべてが絶対に維持されています。前の画像に戻すとそれが全く同じ画像だとわかります。これについての驚くべきことは、完全な画像を再生成するのではなく、残りの画像を完全に完璧なままにしながら、必要な部分だけを再生成するということです。
ここで「今度は彼を片足で立たせて」と言うと、再びデッドプールが現れ、足が完全に片足立ちに変わっているのがわかります。おそらく私はこれを使用するための100万の異なる方法をすでに考えることができますが、まだまだたくさんの使用例があるので、視聴を続けたいと思います。次に「彼にスーツを着せて」と言うと、このレベルの詳細でスーツを彼に着せることにすぐに成功しました。これは個人的に非常に有用だと思います。なぜなら、AI編集が登場したときに物事がどのように変化するかを示しているからです。AIはこれを毎回約5秒で行うことができ、実際にキャラクターの一貫性を維持することができました。
最初のものに戻り、キャラクターの一貫性について話すと、彼らがどのようなキャラクターの一貫性を使用しているのかわかりません。なぜなら、同じ説明で同じキャラクターを再生成するだけではないからです。私が作成したキャラクターと2番目の画像の間に違いを見つけることができません。どうやってそれを行っているのかわかりませんが、非常に正確な画像生成ツールを持っており、特にAPIが現在公開されているため、多くの人々がおそらく使用するでしょう。
そして今、Geminiの素晴らしいワールドモデルについて話しましょう。ここでチョコレートチップクッキーのレシピを提供し、各ステップの画像を含めてくださいと頼むことができます。これはすごいことです。なぜなら、画像のどの部分がどのように見えるべきかを正確に理解し、次の画像を正確に生成することができるからです。ここでは卵が加えられ、次に材料をかき混ぜる様子が見え、そして5番目のステップと6番目のステップがどのように見えるかがわかります。すべてが信じられないほど完璧に見えます。
これはさまざまな使用例で絶対に素晴らしいものになるでしょう。ここでは、すべてがほぼ完璧に見えます。フォトショップがこれよりも良い仕事ができるかどうかはわかりません。私よりフォトショップスキルがある人がいるかもしれませんが、画像を編集できるだけでなく、例えばレシピを生成し、それがどのように見えるべきかの異なるステージをすべて見ることができるということは、本当に魅力的なことだと思います。
このシステムのワールドモデルは非常に優れています。なぜなら、特定のものの次の状態を理解しているからです。例えば、あなたがベーキングトレイやボウルの写真を撮り、「次はどうなるの？」と質問すると、実際に手順を正しく完了しているならば、あなたのボウルが次にどのように見えるべきかを正確に示すことができます。これは本当に興味深いことだと思います。なぜなら、さまざまな用途の可能性を開くからです。そしてもちろん、以前言ったように、これは何らかの支払いや長々としたソフトウェアの背後にあるものではなく、使用できるものであり、信じられないほど高速です。
ここで驚くべきことは、あるTwitterユーザーが、私が今までで最も創造的なことの一つだと思うことを実行できたことです。基本的に彼らはAIモデルでゲームを作成しました。ここで見ることができるのは、彼らがジブリスタイルでヒーローキャラクターを作成したことです。ジブリが何なのか実際にはわかりませんが、彼らがキャラクターを生成したのが見えます。次に「このキャラクターをゲームGに配置してください。画像は典型的なゲームプレイのスクリーンショットのようである必要があり、ゲームスタイルは原神インパクトのようです」と言っています。そして、ここの右下にそのゲームの信じられないほどリアルなスクリーンショットが生成されているのが見えます。正直に言って、これがAIモデルから出てきているとは信じられません。携帯電話のスクリーンショットのように見えますし、これがどこに向かっているのかすでに見ることができます。
この最初のスクリーンショットは本当に私を驚かせました。なぜなら、ゲームのポーズで全く同じキャラクターが見えるだけでなく、背景、視点、HUDアイコンなど、すべてがほぼ完璧だったからです。しかし、次のことは私をさらに驚かせました。ユーザーはさらに進めたいと思い、彼らが何をしたか見てみましょう。彼らは「キャラクターを前進させて」と言い、キャラクターが前進し、足が走り始め、そして建物に近づいたとき、彼らが前進できたのが文字通り見えます。そして重要なのは、実際に視点を見たときに多くの歪みがないように見えることです。ここで背景を見ると、山がまだ見え、雲はまだ同じ場所にあり、これはただ少し大きく見えるだけで、詳細は同じように見えます。そして、これがすべて非常に一貫していることが見えます。
これは本当に素晴らしいことです。なぜなら、このレベルの制御性とこの細かいレベルの詳細に到達するとは思っていなかったからです。そして単にテキストプロンプトでこれほど早い段階でそれを制御できることは驚異的です。そして、彼はさらに一歩進め、「壁にもっと近づいて」と言い、その後「その壁を登れ」と言ったのが見えます。そして、キャラクターが実際にその壁を登ることができたのが見えます。これはもちろん、人々が試すと予想していなかったことですが、ソフトウェアが出回ると、人々がそれを使用するための100万の異なる方法があります。
これは私にとって、使用する面で完全に別次元のものでした。AIが生成したビデオゲームについて考えるとき、AIが文字通りこれらのフレームを生成し、それらのフレーム間で何らかの拡散生成を行っていると想像してください。このような一貫性があれば、それがどれほど素晴らしいものになるかを想像してください。AIのWTゲームが将来大きなものになるかもしれないと既に見ることができます。
このモデルが持つもう一つの優れた点は、非常に印象的なテキストレンダリングです。このデモでは、誰かが古い詳細なビンテージ35mmの正面からの写真をコンピューターモニターセットに表示したいと思っていたのが見えます。そして、テキストが非常に正確に見えることがわかります。軽微な間違いなしに完全なテキストを完成させることができる多くのモデルはあまりないと思います。Googleは現在、ほぼ100%の時間でテキストを正確に行うことができる唯一の企業のようです。もちろん、1つか2つの間違いはありますが、このモデルがどれほど正確であるかは本当に驚くべきことです。
全体的に見て、これは一貫性とその能力を考えると真に印象的なものであり、多くの異なる使用例を可能にします。テキストレンダリングに加えて、「黄色いチョークで黒板に以下の言葉を書いている教師がいる教室の画像を生成してください」とプロンプトを出すと、GPT-4oの前にGemini Flashのネイティブ画像出力を得ることができます。これはある意味でOpenAIに対する皮肉のようなものです。誰がツイートしたのか覚えていませんが、説明にはすべてのリンクがあります。もちろん、これはOpenAIから一年前にリリースされたものでした。
ですから、実際にそれらのスライドを今お見せします。ここで一年前にOpenAIからこれを持っていたことがわかります。なぜOpenAIがこれをリリースしなかったのかわかりません。おそらく当時より重要なものにコンピューティングリソースをシフトしたのかもしれませんが、Googleはこれを提供するためのコンピューティングリソースを持っているようです。このツイートがバイラルになり、多くの人々がこれに興奮していたことを覚えています。これは230万回の視聴があり、GPT-4oシステム内にあったものでした。
さらに、Googleが何ができるかを見てみると、同じ種類の画像がプロンプトとして与えられ、誰かが「チェックメイト」と言ったのが見え、彼らが生成した画像を見ることができます。どちらも非常に正確に見えると思います。これが実際に可能にするもう一つのことは、スタイルを簡単に切り替えることです。スケッチがあり、「このスケッチからラインアートを作成してください」と言うことができます。そして他の誰かが「基本色を追加してください」と言ったのが見え、それは本当にクールでした。そして「柔らかい陰影を追加してください。光源は左上の角にあります」と言うと、それを非常に正確な方法で行うことができました。
全体的に見て、これは本当に印象的だと思います。なぜなら、これで本当に創造的になれるからです。例えば、背景やインドアを追加することができ、それをモノクロのグレースケールにしてイラストレーションにすることができます。ここでの使用例を考えてみてください。創造的な方々にとって、これらを使用してさまざまなことを行うための無数の異なる使用例があると思います。
もちろん、ここにはいくつかのミーム機能もあります。現在このイメージを持っていて、誰かが「彼らをもっとリラックスさせて幸せにし、アイスクリームを持たせて、他は何も変えないでください」と言ったのが見えます。そして、それはすぐに全く同じアートスタイルを使用し、彼らの手に2つのアイスクリームを置きました。正直に言って、このイメージが変更されているかどうかを私に言われても、私は推測することができなかったでしょう。
実際には、本当に印象的なさらに多くの例がありました。その一つがこの例で、モーガン・フリーマンの写真を撮り、それを使用してこのキャラクターの3Dモデルを作成しています。これは非常に印象的であり、モデルができるとは全く予想していなかったものです。
ビデオを作成していたので、人々がこの新しいソフトウェアを創造的な活動に活用するさまざまな方法についての多くの異なるツイートを見てきました。人々がこれを使用している方法は本当に印象的です。なぜなら、これが可能だとは思っていなかったからです。基本的なレベルでこれがどのようにして行われているのかわかりません。拡散モデルがあることは知っていますが、この画像を取り、このように再現できることは、Googleがどのような魔法を使っているのかわかりません。これは間違いなく本当にすごい技術であり、特にさまざまなものを視覚化しようとしている個人にとって、幅広い使用例があると予想します。
例えば、彼の頭を3Dモデル化しようとしていて、AIがすでに完璧なバージョンを作成したようなものになるのかを見たいと思っているとしましょう。すでにこのツールが非常に強力である理由が見え始めています。これは4〜5秒程度で行われたことを覚えておいてください。対して、Zbrushや他のクリエイティブソフトウェアのようなツールを使用して3Dモデリングを行い、何時間もかかる場合と比較してください。
創造的な試みのためにこれを使用する別の例は、このツイートで、誰かがこれを使用して仕事に遅れていないふりをしていたことについて述べています。「あなたは既に仕事に遅れていて、まだ家を出ていません。言い訳はありません。今日の服装の写真を撮り、Gemini 2.0 Flashの実験版を開きます」と書かれています。ここでは、女性が自撮り写真を持っており、それが完全に変化して彼女が地下鉄駅または電車駅でサムズアップをしている様子を示しています。
これは本当に興味深いです。もちろん、あなたが遅れていて、どこかで写真を撮る必要があった場合、これはもちろん簡単にボスに「あと5分で着きます」と見せかけるために使用できるものです。同時に、私たちはこれらの画像が向かう領域に移動しているのかと疑問に思います。AIが自分自身ですべてを作成したという意味でAI生成されているとは思いません。初期の画像データを取り、それをAIと融合して超リアルなものを作成しました。これは非常に強力ですが、同時に非常に危険でもあります。
なぜなら、現実の誰かとブレンドされた場合、何を信じるべきかをどうやって知るのかという状況になったからです。テキストは基本的に完璧であるため、それが偽物であることに気づかないでしょう。私たちは真実後の時代に入り、人々がオンラインで見る多くのものを、おそらく存在しないと考え始めるかもしれません。有名人がこのアプリケーションを使用することから除外される可能性もあると思います。なぜなら、有名人の写真を変更し、彼らに自分と一緒に自撮りを撮らせたり、さまざまなことをさせたりすることができるからです。もちろん、現在AIは強力ですが、同時にリスクも高いです。
もう一つの例は、「Gemini Flash 2.0の実験版は、実際にウォルマートのポートレートスタジオへの旅行を節約してくれる」と言っていました。ここでは、ポートレートがあり、テーブルでコーヒーを飲んでいる女性と別の女性がいます。そして「右側の金髪の女性の中立的な表情の白い背景のスクエアなパスポート写真を作成してください」と書かれています。
これがなぜ非常に強力なのかわかると思います。パスポート確認のために使用できる写真をすぐに入手するために、半分だけ撮られたあなたの写真を使用するだけで想像してみてください。これは個人的に非常に強力だと思います。先ほど言ったように、Googleは本当にこのモデルで素晴らしい仕事をしました。基本的に、それが見ているものに基づいて物事を変更することができます。
完璧な角度で撮影していなくても、背景、表情、照明など、望むものの細部まで詳細に調整することができ、それらのすべてを組み合わせて望む出力を作成することができます。
もう一つの例は、Geminiがアートスタイルをコピーできることです。ここでこのアートスタイルがあり、何と呼ばれているのか正確にはわかりませんが、このアートスタイルがあり、Geminiは同じアートスタイルを使用して犬の画像を生成することができます。オンラインで「そのアートスタイルが何なのかわからないけど、それを再現したい」と思ったことがありますか？Gemini Flash 2.0を使って、そのアートスタイルをコピーし、自分自身のためにどのような方法や形でもイメージを作成することができます。
これは本当に強力です。なぜなら、私たちは多くの場合、物事の名前を知らないからです。特定のブランドが特定の配色や特定のカラーパレット、以前見たことのない方法で使用する特定の資産を持っているのを見て、彼らがどうやってそれを実現したのか、そのアートスタイルをどのように使い始めればいいのかと考えています。これはもちろん、アートスタイルをコピーしたい人には良いですが、自分のスタイルを維持したい人にはそうではないかもしれません。
全体的に、これは非常に強力なツールだと思います。ここで見ることができるもう一つは、画像の即時カラー化も可能にするということです。古い画像があれば、これを使用してカラー化することができるかもしれません。例えば、あなたが視聴者の中でより年配の方で、白黒の写真をいくつか持っていて、それをカラー化したいと思っているかもしれません。Gemini Flash 2.0は、「これをカラー化してください」という一つの簡単なプロンプトでそれを簡単に行うことができます。
これまでのところ、この画像を見ると、すべてが非常に正確に見えます。もちろん、いくつかの画像では特定の色である特定のものがあるでしょうが、全体的に、これは非常に強力なツールだと思います。特に古い写真を復活させるためのものです。
私がとても重要だと思ったことは、実際にポーズを変換できることです。ポーズを変換する理由は、それらを3Dモデルとして使用するためです。ここではワンダーウーマンとして着飾ったジャガイモがあり、「それをTポーズで立たせてください」と言っているのが見えます。もちろん、それは行うことができましたが、ほとんどの人はTポーズが非常に有用だということを理解していません。なぜなら、それによってそのポーズから3Dモデルを作成することができるからです。
このユーザーがそれに成功したのが見え、AI to 3Dツールにアクセスがある場合、文字通りこれらの画像を取得し、3Dキャラクターを取得することができます。このワークフローでポーズを変更できるため、簡単なAIキャラクターを任意の種類の3Dモデルにすることができます。これは大きな問題ではありませんでしたが、Tポーズを作るのは非常に難しいことでした。フォトショップや他のソフトウェアで手動でそれを行おうとしたことがあり、AIは特定の体の部分を認識しないことがあったことを覚えています。これはクリエイターにとって大きな問題を解決しています。
以上、この動画を楽しんでいただければ幸いです。ぜひこれを試してみてください。これに関するより多くの動画を近日中に公開します。

Googleの新しいAIは驚異的（あなたは何でも作れる！）ネイティブ画像生成

コメント

コメントを残すコメントをキャンセル

Googleの新しいAIは驚異的（あなたは何でも作れる！）ネイティブ画像生成

コメント

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル