リアルタイムAIアシスタント、驚異の3Dモデル、Gemini 2.0、SORAのリリース、AIによる動画から音声生成、フルAIコミック

15,606 文字

AIは休むことなく、今週は本当に目まぐるしい展開がありました。新しい3Dモデルジェネレーターが登場し、これは私が今まで見た中で最高のものです。OpenAIのSoraがついにリリースされ、素晴らしい出来栄えです。画像上でドラッグするだけでアニメーション化できる新しいAIも登場しました。GoogleはGemini 2やリアルタイムビジョンアシスタントなど、大規模なアップデートをリリースしました。複数のパネルと一貫性のあるキャラクターを持つフルコミックを作成する新しいAI、そして超高速な新しい画像エディターなど、盛りだくさんの内容をご紹介していきましょう。
まず最初に紹介するのは、私が今まで見た中で最高のAI 3Dモデルジェネレーターです。MicrosoftのTrellisと呼ばれるもので、最高なことに無料でオープンソースです。使い方は後ほど説明しますが、まずは例をいくつかご紹介します。プロンプトを入力するだけで完全な3Dモデルを作成できます。例えば、「精巧な細部が施された、ヴィンテージの銅製ロータリー電話」というプロンプトを入力すると、それに応じたモデルが生成されます。「赤い屋根とフェンスのある2階建てのレンガ造りの家」、「金と銀のデザインの球形ロボット」など、非常に細部まで美しく表現されています。
さらに複雑なものも生成可能で、「銅と茶色の色調で、精巧なデッキの細部を持つ船」というプロンプトでも見事な結果が得られます。「石造りで装飾的な装飾、出窓、ラップアラウンドポーチを備えたビクトリア朝の邸宅」や「革のシートとクロームのアクセントを備えた光沢のある銀と赤のオートバイ」なども生成できます。
プロンプトから3Dモデルを生成するだけでなく、さらに優れた機能もあります。画像をアップロードすると、その画像に基づいて完全な3Dモデルを生成できます。例えば、この入力画像を見てください。これが何なのかわかりませんが、1つの画像だけから物体の背後を予測することはAIにとって非常に困難な課題で、これまでの3Dモデルジェネレーターの多くが失敗してきました。しかし、この新しいTrellisモデルは見事にこれを処理できます。
さらに難しい例として、このメカロボットの入力画像を見てください。画像ではロボットの正面しか見えませんが、ロボットの背面がどのように見えるかを推測して作成することができます。これは本当に印象的です。別の例では、このドラゴンの頭部の入力画像があります。ドラゴンの頭部の背面がどのように見えるかはわかりませんが、このAIはドラゴンの頭部の背面を予測して再現することができています。
また別の難しい例として、このロボットカニの入力画像があります。カニの背面がどのように見えるかはわかりませんが、それを見事に推測して表現しています。そしてこのかわいいアニメの女の子の入力画像でも、キャラクターの背面の情報がまったくないにもかかわらず、Trellisは3Dモデルを非常にうまく作成しています。この非常に難しい石の生き物のような対象でさえ、ご覧のように美しく3Dモデルを生成できます。
さらに素晴らしい機能として、既存の3Dモデルを入力し、テキストプロンプトでモデルの外観を編集することもできます。例えば、オリジナルの3Dモデルがこのように見える場合、「オレンジと白のペイント仕上げの頑丈な金属のテクスチャ」というプロンプトを入力すると、このような結果が得られます。「緑と紫の色の編み物のような質感」というプロンプトでは、このような結果になります。「中世の武器を思わせる、革のストラップと青いアクセントを備えた頑丈な金属」というプロンプトでは、このような結果になります。そして最後に、「透明なガラスのような構造」というプロンプトでは、このような結果が得られます。
別の例では、3Dモデルが円形のロボットの場合、「オレンジと白のペイントの頑丈な金属のテクスチャ」というプロンプトでこのような結果が得られ、「緑と紫の色の編み物のような質感」では、このような結果になります。「革のストラップを備えた頑丈な金属」では、このような結果に、「透明なガラスのような構造」では、このような結果になります。
これでまだ終わりではありません。既存の3Dモデルのテクスチャを編集できるだけでなく、プロンプトだけでモデルに要素を追加したり削除したりすることもできます。例えば、入力がこのメカロボットで、プロンプトに「腕なし」を追加すると、ロボットの腕が除去されます。「巨大なビーム兵器付き」を追加すると、ご覧のように巨大なビーム兵器が追加されます。「tracked chassis（履帯式シャーシ）」とプロンプトを入力すると、このような結果が得られます。
これは非常に強力なツールで、先ほど述べたように素晴らしいことに無料でオープンソースです。このページの上部にはGitHubリポジトリがあり、下部までスクロールすると、ローカルでダウンロードして実行する方法についての説明がすべて記載されています。また、Hugging Faceのデモも提供されているので、このオンラインプラットフォームで無料で3Dモデルを作成することもできます。
使い方は非常に直感的です。試してみましょう。このガンダムの非常に複雑な画像をアップロードして、実際に3Dモデルを作成できるかテストしてみます。ここには追加の設定があり、いろいろと調整できますが、私はデフォルト値のままにしておくことが多いです。作成をクリックするだけでOKです。
これができるか見てみましょう。このガンダムの decent な3Dモデルを生成できたら感心します。なんということでしょう、これは驚異的です。たった1枚のガンダムの画像から、decent な3Dモデルを生成できるなんて信じられません。本当に感動しました。
さらに難しいものを試してみましょう。この金属的なガンダムの代わりに、天使のような翼を持つガンダムウイングゼロの画像を試してみましょう。もう一度生成をクリックして、どうなるか見てみます。これは本当に驚異的です。このガンダムの前面だけでなく、天使の翼を持つ背面も生成できています。この細部は前のガンダムほど良くありませんが、それでもなお非常に印象的です。
リンクは全てこちらにありますので、メインページへのリンクを説明欄に記載しておきます。さらに詳しく読みたい方はそちらをご覧ください。
次に紹介するAIも本当に素晴らしいものです。Google DeepMindのMotion Promptingと呼ばれるもので、基本的に任意の画像をドラッグするだけで、ドラッグした軌跡に従って画像をアニメーション化してくれます。例えば、このオウムの顔を周りにドラッグすると、オウムが頭を動かすようになります。こちらはクマの例です。こちらは松の木の例です。そしてこちらはチェスの駒の例です。
すごいのは、動物やキャラクターを動かすだけでなく、この例のように砂のような他の種類のオブジェクトも非常にリアリスティックに動かすことができます。これは本当に砂が動くような感じです。別の例では、現実世界のものの物理的な性質を理解していることを示しています。ここでは煙を動かしているのが見えますが、確かに煙のように見えます。
別の例では、この女性の髪をドラッグできますが、この髪は本当に髪のように動きます。馬の頭を動かすだけでなく、シーンがおそらくかなり風が強いと検知して、馬の毛も風に揺れるようにしています。
このツールでできることはさらにあります。カメラの動きもコントロールできます。実際にまず行うのは、アップロードした画像の深度を推定し、ポイントクラウドを作成します。このように見えます。そしてこのポイントクラウドをドラッグして、望む効果を得ることができます。例えば、このようにドラッグすると、このドリーズームの効果が得られます。
別の例では、このようにポイントクラウドをドラッグすると、この本当にクールなズーム効果が得られます。また別の例では、このようにポイントクラウドをドラッグすると、このドリーズーム効果が得られます。あるいは、このようにポイントクラウドをドラッグすると、画像の上部へパンニングしてアーク状に移動しているのがわかります。
別の例では、他のポイントを左上隅にドラッグすると、このような効果が得られます。また別の例では、このようにポイントクラウドをドラッグすると、このような本当にクールなドローン映像のような効果が得られます。これは多くの可能性を開きます。このポイントクラウドを円を描くようにドラッグするだけで、このような効果が得られます。
こちらは円形の効果を使った別の例で、軌跡に基づいてカメラがパンニングして動いているのがわかります。別の例では、このようにカメラをドラッグすると、カメラを動かすだけでなく、ある程度象も動画化します。象の耳が動いているのに注目してください。同様にこの例でも、カメラを変えるだけでなく、滝も動画化されています。この動画では水が実際に流れているのに注目してください。
画像内の特定のものをコントロールできる他の例もあります。例えば、この猫の目を別の方向を向かせることができます。別の例では、このカエルの目だけを動かしています。さらに驚くべき機能として、参照動画をアップロードすると、その動画の動きを抽出して、別の画像に適用することができます。
さらに驚くべき例をいくつかご紹介します。アップロードされた参照動画がこの食べている猿で、入力が森の航空写真の場合、猿が噛んでいる動きに基づいて木々がアニメーション化されているのに注目してください。これは本当に驚くべきことです。森の画像の代わりにこのレンガの壁をアップロードすると、この猿の動きに合わせてレンガの壁も動きます。不気味ですがクールな生成結果です。
別の例では、アップロードされた動画がこの滝で、これらの秋の木々の画像をアップロードすると、参照用の滝の動画に合わせて木々が動画の中で動いているのがわかります。あるいは、秋の木々の代わりにこの魚の群れの画像をアップロードすると、滝の動画に基づいて魚が動いているのがわかります。これは多くのクリエイティブな可能性を開きます。
このビデオの時点では、まだ技術論文しか公開されていません。GitHubやHugging Faceはまだありませんが、リリースされたらお知らせします。とりあえず、説明欄にこのページへのリンクを記載しておきますので、さらに詳しく読みたい方はそちらをご覧ください。
次は、おそらく今週最も興奮するアップデートです。Googleがいくつかの大きな発表をしました。まず、Gemini 2.0をリリースしました。これは最もスマートで能力の高いAIモデルの1つです。このモデルはネイティブにマルチモーダルで、テキスト、画像、音声、動画を入力として受け取り、テキスト、画像、音声、動画を出力として生成できます。これにより非常に柔軟になります。
例えば、OpenAIの高度な音声機能とまったく同じように、音声アシスタントとして話すことができます。実際に今すぐ試すことができます。説明欄にリンクを記載するGoogle AI Studioにアクセスするだけです。これは、Googleの多くのAI機能を完全に無料で使用できるプラットフォームです。はい、完全に無料なのは本当に信じられないことです。このcreate promptセクションでは、chat GPTのような通常のチャットボットとしてチャットができ、ここで異なるモデルを選択できます。少し下にスクロールすると、現在Gemini 2.0 flashを選択していることがわかりますが、これについては後ほど説明します。これは基本的なチャットボット機能です。もっと良いものを試してみましょう。
stream real timeをクリックすると、このGemini AIアシスタントとリアルタイムで会話できます。試してみましょう。
「聞こえますか？」
「はい、聞こえています。どのようにお手伝いできますか？」
「機械学習について教えてください」
「もちろん、機械学習の概要をお話しできます。これは人工知能の分野で、明示的にプログラミングすることなく、データから学習してコンピューターシステムを機能させることに焦点を当てています。これは、より多くのデータが利用可能になるにつれて、パターンを識別し、精度を上げて決定を行うことで実現されます」
「どこから始めればいいですか？」
「良い質問ですね。良い出発点は、機械学習の異なるタイプを理解することです。教師あり学習、教師なし学習、強化学習などが一般的なタイプです。また、線形回帰や決定木などの異なるアルゴリズムについても調べることができます」
「教師あり学習についてもっと教えてください」
「はい、教師あり学習では、アルゴリズムは…」
ここで一旦止めますが、このAIアシスタントと無料で話すことができ、多くのことを学ぶことができるのがわかります。AI Studioについては来週フルビデオで取り上げる予定ですので、そちらをお楽しみに。
もう1つ素晴らしいことができます。実際にGeminiにウェブカムやカメラを見せて質問することができます。これを行うために、私は実際に携帯電話にログインし、再びChrome ブラウザでAI studioにアクセスします。同じように、上部でモデルを選択できます。もちろん、最高のものであるGemini 2.0 Flashを選択します。そして上部メニューで、再びstream real timeを選択できます。ここで、talk to Geminiの代わりに、show Geminiをクリックします。
「聞こえますか？」
「はい、聞こえています。今日はどのようにお手伝いできますか？」
「これを分析して翻訳してもらえますか？」
「はい、画像にはアーモンドの袋の栄養成分表示が写っています。上部の『eat a little every day』は英語と中国語で表示されており、食品名は『nuts』で英語と中国語で表記されています。栄養成分は100グラムあたりの値が中国語で示されており、カロリー2,657K、タンパク質22.1g、脂質52.8g、炭水化物19.3g、ナトリウム12mgなどが含まれています」
これは本当に簡単なデモでしたが、AI studioでできることをお見せしました。AI studioでできる全ての素晴らしい使用例については、おそらく詳しいビデオを作成する予定です。繰り返しになりますが、これは完全に無料なので、絶対に試してみてください。
さらに素晴らしい機能があります。これはマルチモーダルなので、テキストと画像を理解できます。このような画像をアップロードして、プロンプトで編集するだけです。例えば、「この車をコンバーチブルに変える」とプロンプトを入力すると、このような結果が得られます。次に、「車をビーチ用品でいっぱいにして、夏らしい色に変更する。段階的に説明する」とプロンプトを入力すると、このような結果が得られます。画像を変更するだけでなく、段階的に何をしているのかを説明していることに注目してください。
これがアップロードされた画像で、「ダウンジャケットを小さな枕に変えて、毛布を取り除く」とプロンプトを入力すると、このような結果が得られます。プロンプトに基づいて画像を魔法のように編集します。画像を組み合わせることもできます。ここで、プロンプトが「私のCをこの枕にクロスステッチで作成する」の場合、このような結果が得られます。あるいは、ここでプロンプトが「私のスケートボードに私の猫の詳細なイラストステッカーを貼る」の場合、このような結果が得られます。そして猫は写真の猫と実際によく似ています。
画像内のものを丸で囲んで、例えば「これを開く」とプロンプトを入力すると、車のドアが開いた新しい画像が生成されるのがわかります。そして「車を飛ばす、雲を抜けてビーチに向かって飛んでいる車を想像して、それがどのように見えるか示して」とプロンプトを入力すると、このような結果が得られます。
参考までに、これは初めてこのようなツールを見たわけではありません。例えば、以前に紹介した別の無料でオープンソースのAIツールであるomnigenも同じことができます。画像を生成できるだけでなく、「女性のイヤリングを取り除き、コーヒーカップをコーラが入った透明なグラスに置き換える」とプロンプトを入力すると、確かに彼女のイヤリングを取り除き、このカップをコーラのグラスに置き換えます。omnigenについてもっと知りたい場合は、フルチュートリアルを行っているこのビデオを必ずチェックしてください。
しかし、GoogleのGemini 2とAI Studioに話を戻すと、この機能がネイティブに組み込まれているのは素晴らしいことです。チャットボットのようにチャットしたり、音声アシスタントのように話しかけたりできるだけでなく、同じインターフェースで画像を生成・編集することもできます。
スポンサーのWondershare Verboに感謝します。動画の撮影と編集に何時間も費やす必要はもうありません。なぜなら、Wondershare Verboがゲームを変えようとしているからです。これは、テキスト、写真、既存の動画をPRのような動画に数分で変換できる強力なAI動画メーカーです。高価なカメラや編集スキルは必要ありません。
300以上のリアルな外見のアバターから選んで動画の顔として使用できます。あるいは、自分を使いたい場合は、デジタルアバターと音声クローンを作成することもできます。さらに、90言語で460以上の自然な音声を使用できます。AIビデオトランスレーターを使用すれば、多言語への対応は簡単です。動画を多くの言語に翻訳してダビングし、グローバルにリーチを拡大できます。
また、話す写真機能が最適化され、より豊かな上半身の動きをサポートするようになったので、動画全体が非常に自然で流動的に見えます。しかし、機能はそれだけではありません。VerboにはGPTを使用してビデオスクリプトを作成するAIスクリプトライターもあります。さらに、コンテンツをより速く作成するのに役立つAIビデオテンプレートが多数用意されています。
クリエイターがすでにVerboを使用している方法をいくつかご紹介します。映画、旅行、ホラーストーリーなど、任意のトピックに関するソーシャルメディアチャンネルを作成し、Verboを使用してコンテンツを大量生産できます。また、Verboを使用して動画を複数の言語に翻訳してダビングし、視聴者を指数関数的に増やすこともできます。使用用途に関係なく、Verboは動画作成を超簡単にします。もう無数の時間と多額のお金を制作に費やす必要はありません。説明欄のリンクから無料でお試しください。
ところで、GoogleはAstraという別のプロジェクトにも取り組んでいます。これはリアルタイムアシスタントで、携帯電話を何かに向けるだけでAIアシスタントとチャットできます。いくつかの驚くべき例をご紹介します。
「このバスはチャイナタウンの近くに行きますか？」
「はい、24番バスはレスタースクエアを通っていきます。チャイナタウンのすぐ近くです」
「途中に何か名所はありますか？」
「24番バスでは、ウェストミンスター寺院、ビッグベン、トラファルガー広場などの有名な名所を通過する予定です」
「友達へのプレゼントを探していて、これが彼女が最近読んでいる本のすべてです。これらの本から彼女の好みをどのように分析しますか？」
「あなたの友達は歴史、伝記、そしておそらく政治的または社会的なコメンタリーが混ざったものを楽しんでいるようですね」
「これらのいくつかを私が選びましたが、彼女が最も気に入りそうなのはどれだと思いますか？」
「複雑な社会的・政治的問題を歴史的な背景の中で探求している『Half of a Yellow Sun』を考えてみてください。重要な時期に関する洞察を提供する物語への彼女の興味に合致します」
私も友達と会って多言語機能をテストしました。
さて、Geminiに戻りましょう。注目すべきは、GoogleはGemini 2.0 flash experimentalのみを今週リリースしたということです。Flashはジェミニファミリーの最小モデルです。ご存知のように、ジェミニファミリーはFlashバージョンと、より大きく性能の高いProバージョンで構成されています。また、さらに大きなUltraバージョンもありましたが、現在はUltraモデルへの言及は削除されているようです。
これは小さなモデルに過ぎませんが、驚くべきことに、このGemini 2.0は、この2つの実験的Geminiモデルと最新バージョンのGPT 4oのすぐ後ろの3位にすでに躍り出ています。これは非常に素晴らしい進歩です。1年前を覚えていますが、Geminiはかなり悪く、多くのwakeコンテンツを生成していたので、人々はある程度嫌っていました。しかし状況は確実に変わりました。GoogleはOpenAIに追いついたと思います。そして彼らはOpenAIを追い越すと思います。リーダーボードの上位にこれほど多くのGeminiモデルがあるのを見てください。
次に、このAIはテキストの説明だけでコミックやマンガを作成することができます。Diff Senseiと呼ばれています。これが革新的な理由をお話しします。このチャンネルで以前に紹介したコミックジェネレーターはいくつかありますが、これは decent なキャラクターコントロールを持つ最初のものです。つまり、コミックで一貫性のあるキャラクターを生成できるだけでなく、表情、ポーズ、アクションもカスタマイズできます。さらに、複数のパネルを持つ複数のページを生成することもできます。
いくつかの例をご紹介します。ここでプロンプトが「ダイナミックなバトルシーンのキャラクター」で、このキャラクターの画像をアップロードすると、アップロードしたキャラクターに基づいて複数のパネルを持つバトルシーンの1ページ全体を実際に生成します。
別の例では、プロンプトに「少年と男性が不思議な事件を解決する」を入力し、この男性の写真とこの少年の写真をアップロードすると、この男性と少年を含む複数のパネルを持つ1ページ全体を生成します。テキストは単なる意味のない文字ですが、簡単にchat GPTにスクリプトを書かせて、これらのパネルのテキストを置き換えることができます。
こちらは別のアニメスタイルで、ここでプロンプトが「少年と少女が深い山のジャングルを探検し、途中で空腹を満たすために大きな食事を準備する」の場合、再びアップロードしたスタイルを保ちながら1ページ全体を生成し、これら2人のキャラクターを一貫して保ちます。そして確かに、彼らは深い山のジャングルを探検し、大きな食事を準備しています。
別の例では、「混雑した教室で生徒たちが新しい英語の先生について話している」というプロンプトで、この3人の生徒とこの魅力的な先生の4つの画像をアップロードすると、確かにこのストーリーのページを生成できます。これはなんと素晴らしいことでしょう。
ここでプロンプトは「少女が暗い廊下で何かを聞くが、教室は空っぽだった」で、この少女の参照画像をアップロードすると、このような結果が得られます。これはコミックのプロトタイプを作成する非常に強力な方法です。1ページだけでなく、複数のページを作成できることにも注意してください。
ここに本当に素晴らしい例があります。プロンプトが「HintonとYanとBenjoがノーベル賞を受賞する物語」で、この3人をアップロードすると、ここにストーリーがあります。対話は後編集されていることに注意してください。このコミックジェネレーターは意味のないテキストしか生成しないので、AIに実際の対話を生成してもらう必要があります。
とにかく、これが最初のページです。晴れた日、Yanの家で、誰かが急いでいます。そしてHintonが現れます。「気分はよくなった？」これはおそらくYanです。「ずっと良くなったよ。花がきれいだね」そしてHintonは「研究のミッションがあって、あなたにそれをやってほしいんだ」と答えます。そして彼らはさらに話し合い、そしてYanは「じゃあ、いつ始めるの？」と答えます。そしてHintonはこのクレイジーな表情で「この研究は思うほど簡単じゃないよ。研究は戦争のようなものだ」などと言います。そしてYanは「とにかくやってみたい」と答えます。
このストーリーは実際に9ページと非常に長いので、興味がある方は説明欄にこのページへのリンクを記載しておきますので、そちらで続きを読むことができます。
これがどのように機能するかというと、研究者たちは実際にこのAIを、43,000ページ以上のマンガと427,000以上の注釈付きパネルを含む「manga zero」と呼ばれる巨大なデータセットで訓練しました。もちろん、このデータセットでAIを訓練した後、今では様々な種類のマンガを生成することが本当に得意になっています。
素晴らしいことに、コードはすでに公開されています。ここの上部でこのGitHubリポジトリをクリックすると、コンピューターにローカルでインストールする方法についての説明がすべて記載されています。とにかく、さらに詳しく読みたい方のために、説明欄にこのメインページへのリンクを記載しておきます。
次に、MM audioと呼ばれる新しいAIがあります。これは任意の動画に同期する高品質な音声を生成できます。単に動画を入力するだけで、その動画の音声を生成します。いくつかの例をご紹介します。
オリジナルの動画には音声がないことに注意してください。このAIに入力した後、このように聞こえます。こちらは無音のクリップの別の例です。このAIで処理した後、このように聞こえます。こちらは無音の動画クリップの別の例です。このAIで生成された音声がこちらです。
これらの動画はSoraで作られたので音声がありませんが、これらの動画をMM audioに入力した後、このように聞こえます。動画を入力するだけでなく、テキストプロンプトを追加して音声生成をさらに導くこともできます。これにより多くの創造性が可能になります。
とにかく、説明欄にこのGitHubページへのリンクを記載しておきます。ローカルでインストールして実行する方法についての説明が記載されています。ローカルでの実行に加えて、Hugging Faceのデモとcolabも提供しています。Hugging Faceをクリックすると、無料で試すことができるHugging Faceスペースがあります。
次に、このツールも本当に素晴らしいです。Swift editと呼ばれ、無料でオープンソースです。プロンプトを入力するだけで任意の画像を編集できます。繰り返しになりますが、omn genやGoogleのGemini 2など、同じことができる他のツールを紹介しましたが、これは非常に高速で、そのためSwift editと呼ばれています。
いくつかの例をご紹介します。このオリジナルの犬の画像をアップロードして、例えば「口を開けて」を追加すると、数秒でこのような結果が得られます。これは非常に高速です。あるいは「草原の上の猫」と入力すると、このような結果が得られます。「ライオン」と入力すると、このような結果が得られます。「ハスキー」を試してみましょう。このような結果が得られます。「キツネ」ならこのような結果が得られます。繰り返しになりますが、これは非常に高速です。
別の例を試してみましょう。この女性の画像をアップロードして、「老女」に変えると、このような結果が得られます。「テイラー・スウィフト」に変えると、このような結果が得られます。「笑顔の女性」にすると、このような結果が得られます。
strengthなど、追加の設定も編集できます。新しいプロンプトに基づいてどの程度画像を変更したいかを設定できます。繰り返しになりますが、editをクリックすると、画像が2秒ほどで編集されることに注意してください。これは本当に高速です。
では「怒った表情」を試してみましょう。まずstrengthを6に設定すると、このようになります。1.8に設定すると、ずっと怒った表情になっているのがわかります。
別の例では、この犬を猫に変えると、このような結果が得られます。「白い猫」にすると、このような結果が得られます。「黒い猫」にしたい場合は、このような結果が得られます。「馬」や「クマ」、「ハスキー」も試してみましょう。
繰り返しになりますが、非常に柔軟なツールで、実在の人物や有名人でも機能します。これがソース画像で、「ベッカム」とプロンプトを入力すると、このような結果が得られます。「ロナウド」とプロンプトを入力すると、このような結果が得られます。こちらはトム・クルーズで、こちらはクリス・エヴァンスです。
さらに追加のプロンプトを加えることもできます。「笑顔のベッカム」ならこのような結果が得られ、こちらは笑顔のロナウド、笑顔のトム・クルーズ、笑顔のクリス・エヴァンスです。笑顔の代わりに怒った表情にしたい場合は、このような結果が得られます。
非常に強力で多様なツールです。このページの上部でGitHubボタンをクリックすると、実際にこのページに戻されます。まだGitHubリポジトリやチェックポイントをリリースしていないようですが、リリースされたらお知らせします。とりあえず、説明欄にこのページへのリンクを記載しておきますので、さらに詳しく読みたい方はそちらをご覧ください。
最後になりましたが、Soraが今週ついにリリースされました。これは、本当に高品質だと主張するOpenAIの長年待望の動画ジェネレーターです。ここでいくつかの例をお見せしますが、確かに品質は本当に良好です。細部が非常に鮮明で、すべてが非常に一貫性があり、雪や煙、水の反射など、現実世界のものの物理的性質を理解しています。
ここでお見せしている例は、かなりゆっくりとした動きであることに注意してください。これらは単なるシンプルなズームやパンニング、あるいは誰かがゆっくりと歩いているだけの本当にシンプルな動画です。繰り返しになりますが、ほとんどのトップクラスの動画ジェネレーターはすでにこれを処理できますが、Soraは定義と品質が最高であることは認めなければなりません。
Soraはこのように、多くの人々とアクションがある複雑なシーンも生成できます。こちらは多くの人々と多くのものがあるカオスな例ですが、これをかなりうまく生成できています。多くの人々がいる場合、時々不整合が生じることに注意してください。しかし、これは以前に見た他の動画ジェネレーター、例えば特に多くの人々がシーンにいる場合に多くの歪みと不整合が生じるRunwayよりも明らかに優れています。
こちらは砂漠を行進する軍隊の生成の例です。再び、多くの人々がいても、これをかなり一貫して生成できています。ただし、左側の馬が間違った方向を向いているので、まだ完璧ではないことに注意してください。実際、後ほど解剖学の理解に関する問題について話します。
こちらは多くの人々がいる非常に忙しい動画の別の例です。カメラがあらゆる場所を動き回っていますが、再びこれを非常にスムーズかつ一貫して処理できています。これは以前に見た他の動画ジェネレーターよりも優れていると言わざるを得ません。
このようなズームインショットの処理も素晴らしいです。この動画がどれほど鮮明で高解像度であるかに注目してください。特に猫にズームインすると、その顔の毛や髭がはっきりと見えます。これは素晴らしいです。
気になっているかもしれませんが、はい、この例のようにアニメも生成できます。繰り返しになりますが、このアニメの品質は他の動画ジェネレーターで見たものより明らかに優れています。
とはいえ、特に一般的でないポーズの場合、人間の解剖学の生成はまだ難しいです。例えば、この体操の演技を生成させると、この動画では多くの不自然な点が見られます。こちらは別の失敗例です。この体操の演技を生成させると、このような結果になります。再び、一般的でないポーズや、このような高いアクションシーンには適していません。
オリンピックの飛び込み競技を生成させると、このような結果になります。正直に言って、最も正確な飛び込み演技とは言えません。そして、Soraによるヨガをする女性はこのようです。再び、多くの不自然な点と不整合が見られます。余分な手足があったり、手足が消えたり再び現れたりと、かなり奇妙に見えます。
そうです、ヨガや体操のような一般的でないポーズの人間の解剖学の処理はまだ優れていません。これは驚くべきことです。AI動画や画像は多くのものを生成できますが、ヨガや体操のようなより一般的でないポーズの理解に失敗してしまいます。
参考までに、数日前に紹介した最高のオープンソース動画ジェネレーターであるHun Yenとの比較をご紹介します。まだご覧になっていない方は、ぜひチェックしてみてください。
こちらは同じプロンプトを使用した比較で、Soraの方が明らかに細部が優れていることがわかります。色がより飽和していて、コントラストが高いと言えます。
こちらのプロンプトは「涙を流して泣いている女性」ですが、ご覧のようにSoraは極端な表情を処理できず、単に空想に耽る女性のように見えます。一方、Hun Yenは実際に非常に悲しい表情で泣いている女性を生成できます。
別の比較では、プロンプトは「水中で泳ぐ赤ちゃん」で、両方ともうまく処理できていることがわかります。ただし、Soraについては、なぜ水中で水しぶきを生成しているのかわかりません。それは物理的に正しくないと思います。また、それらのおもちゃは本当に正確には見えません。私の意見では、色のコントラストが低いことを除けば、Hun Yenの方が良く見えます。
こちらのプロンプトは「湖で走って猫と戦う犬」で、ご覧のようにSoraは猫を生成することすらできず、2匹の犬を生成しました。一方、Hun Yenは少なくとも猫を生成することができました。
こちらのプロンプトは「日本庭園で戦う2人の侍」で、ご覧のように、このような複雑な戦闘シーンでは、Soraおよびほとんどのトップクラスの動画ジェネレーターは実際に解剖学を正しく処理できません。2人の人間を戦わせることができないか、戦わせても手足が歪んだり、多くの不整合が生じたりするのが見て取れます。しかし、実際Hun Yenはこれを非常にうまく処理しています。
しかし、テキストから動画への変換は、Soraの一機能に過ぎません。こちらは別のさらにクールな機能で、動画から動画への変換ができます。つまり、上部のこのパペットのような動画を入力し、プロンプトを使って参照動画に基づいて新しい動画を作成できます。これらの例でご覧いただけます。
あるいは、過去に他のAIジェネレーターから低解像度の動画を生成したとしましょう。その動画をSoraに入力することもでき、これらの例のようにはるかに高品質にしてくれます。これは既存の動画の修正や詳細の追加に非常に便利なツールです。
こちらは別の素晴らしい例で、ユーザーはハサミを持っているこの参照動画を入力し、「鶴の頭」などとプロンプトを入力すると、このような結果の動画が得られます。この動画から動画への変換ツールで非常にクリエイティブなことができます。
こちらは別の驚くべき例で、バービー人形の動画を撮影し、Soraの動画から動画への変換に通すと、実在の人物を生成します。これは本当に驚くべきことではないでしょうか。
とにかく、今後数日中にSoraの完全なレビューとチュートリアルを行う予定ですので、そちらをお楽しみに。その間、説明欄にリンクを記載するsora.comでSoraにアクセスでき、アカウントにログインまたはサインアップできます。
ただし、アカウントを作成しても、Soraにアクセスするには料金を支払う必要があることに注意してください。既存のchat GPT plusプランをお持ちの場合は、おめでとうございます。すでに使用できます。そうでない場合は、最低でも月額20ドルを支払う必要があり、これで720p解像度で最大50本の動画を生成でき、各動画は5秒です。
あるいは、chat GPT Proプランを支払うこともできます。これには01 01 Pro Advanced voice modeなどへの無制限アクセスが含まれますが、Soraに関しては、1080p解像度で20秒の長さまでの動画を無制限に生成することもできます。
とにかく、再度になりますが、サイトはsora.comです。説明欄にリンクを記載しておきますので、次回の完全なレビュー動画をお楽しみに。
以上が今週のAIのハイライトをすべてまとめたものです。これらすべてについてどう思われますか？どのツールを試してみたいと最も興奮していますか？
いつものように、共有すべきトップAIニュースとツールを探し続けますので、この動画を楽しんでいただけましたら、いいね、シェア、購読をお忘れなく、さらなるコンテンツをお楽しみに。
また、毎週AIの世界で本当に多くのことが起きているので、YouTubeチャンネルですべてをカバーすることは不可能です。AIで起きているすべてのことを本当に把握するために、私の無料週刊ニュースレターを購読してください。そのリンクは説明欄にあります。
ご視聴ありがとうございました。次回でお会いしましょう。