この新しい無料AIビデオジェネレーターが全てを凌駕する

14,899 文字

この新しいAIビデオジェネレーターは無料で使用制限がなく、トップクラスの有料モデルをも凌駕します。今お見せしているこれらのクリップは全て、このモデルで生成したものです。実際に簡単なテストをしてみましょう。同じプロンプトで4つの異なるジェネレーターを使って生成した4つのビデオをお見せします。1つはQuinの新しい無料ジェネレーター、他の3つはPixverse、Cling、Hiw Minxという主要なビデオモデルです。
どのモデルがどのビデオを生成したのかわからないように順番を入れ替えていますが、コメント欄でどのビデオが一番良いと思うか教えてください。最初のプロンプトは「ストリートでブレイクダンスをする女性」です。あとで答え合わせをしますので、どれを選んだか覚えておいてください。
2つ目のテストです。プロンプトは「泣いている女性。とても悲しく苦悩している」です。この4つの中で、どのビデオが最もプロンプトに沿っているでしょうか。繰り返しになりますが、4つのモデルの順番は入れ替えてありますので、どれがどのモデルかはわかりません。
次のテストです。「鏡を見ながら吠える猫。しかし鏡に映るのは吠えるライオンの姿」。これは非常に難しいプロンプトです。鏡に映る反射の物理的な動きだけでなく、猫をライオンに変える必要があります。この4つの中で、最も良いと思うものを教えてください。
プロンプトは「美しい輝く白いドレスを着たお姫様が、赤く光る目を持つ巨大なドラゴンから逃げる。ディズニー・ピクサーのアニメーションスタイル」です。この4つの中でどれが一番良いか、また、どれが最もプロンプトに忠実かを教えてください。
最後に「木製のまな板の上でトマトを切る手」というプロンプトです。この4つの中で、どれが一番良いと思うか教えてください。
これらのテストの中で、皆さんが選んだ優勝作品は全て、今日ご紹介する無料で使用制限のないこの新しいモデルからのものだと96.8%確信しています。
それでは本題に入りましょう。サイトはQuen Chatと呼ばれ、実はこれはチャットボットです。ビデオ生成は主な機能ではないので、今のところある意味秘密です。できることは多岐にわたります。まず、通常のチャットボットのように会話ができます。また、コードを生成してリアルタイムで表示できるアーティファクト機能もあります。画像生成機能もあり、後ほど説明しますが、現時点で最も強力なツールは間違いなくビデオ生成機能です。そのため、今回の動画では主にこの機能に焦点を当てています。
使い方は非常に簡単で、完全に無料です。まだ制限には当たっていません。一連の難しいプロンプトでテストして、正しく生成できるか見てみましょう。
最初のプロンプトは「泣いている女性。とても悲しく苦悩している」です。ビデオ生成をクリックし、アスペクト比を16:9に設定して生成するだけです。これが結果です。フルスクリーンで再生してみましょう。
なんと素晴らしいでしょうか。確かに女性は泣いており、とても悲しく苦悩しているように見えます。非常にリアルで細部まで作り込まれています。前回のビデオジェネレーターのレビューで、多くの方から各プロンプトを1回だけでなく複数回試して、最良のものを選んでほしいというフィードバックをいただきました。そこで今回は3回生成して、最良のものを選ぶことにします。
2回目の生成も非常にリアルです。最後の生成でも、彼女は本当に悲しく苦悩しており、確かに泣いています。3つを並べて比較すると、左上のものが最も良く、最も悲しそうに見えるので、これを選びましょう。
次に、Quinと3つの主要な商用モデルを比較します。数週間前にリリースされたばかりのPixverse 3.5があります。まだ完全なレビュー動画を作る時間がなく、以前の動画で少し触れただけですが、いくつかの点で品質は実際にかなり良いです。左下にはCling 1.6 Proがあり、これは現在のClingの最新かつ最も性能の高いモデルです。右下にはHiw Minxがあります。これら3つのビデオジェネレーターについても、3回生成して最良のものを選びました。
この4つの中でどれが好みか教えてください。少なくとも私の場合、プロンプトが「泣いている女性」なので、涙を探しています。PixverseとClingには涙がないので、残るのはQuinとHiwです。そして、悲しく苦悩しているように見える点では、このケースではQuinのサンプルの方がHiw Minxよりも悲しく苦悩しているように見えます。ここではQuinにポイントを与えなければなりません。
では、スコアを記録していきましょう。現時点でQuinはこのプロンプトで1ポイントです。
次のプロンプト「木製のまな板の上でトマトを切る手」は非常に難しく、実際ほとんどのビデオジェネレーターはこれを正確に生成できません。Google’s V02を除いては、これは我々のほとんどがアクセスできないものです。Quinでこれがうまくいくか見てみましょう。
3つの生成結果がこちらです。1つ目を再生してみましょう。トマトを切っており、物理的な動きは全て正確です。スローモーションですが、全てが物理的に正しいです。2つ目の生成も、トマトを切っています。やはり少しスローですが、正確で問題は見当たりません。最後の生成は、より速く切っており、美しく、完璧です。
3つの生成を並べて見ると、左上を選びたいと思います。これは人がトマトを1枚切る全過程を示していますが、他の2つは少し遅すぎるように切っています。とはいえ、これら3つのビデオ全てにおいて、物理的な動きは正確で、実際にはどのビデオにも欠陥はありません。
参考までに、同じプロンプトでPixverse 3.5、Cling 1.6 Pro、Hiw Minimaxを使用した結果がこちらです。これらは現在のトップクラスの商用モデルですが、各モデルで3回生成して最良のものを選んでも、リアルにトマトを切ることはできませんでした。Pixverseでは切り方が非常に奇妙で、Clingでもトマトを現実的には切れていません。一部のスライスは魔法のように突然現れます。Hiwも同様にトマトを適切に切ることが非常に困難です。
これら4つの中で、Quinだけがこのプロンプトを完璧にこなすことができました。再びQuinにポイントが入りますので、現在Quinが2ポイント、他は0ポイントです。
次は「シェフになることを学ぶポメラニアンの子犬たちのグループ」です。3つの生成の中で最良のものがこちらです。なんと現実的でしょうか。まず、子犬たちは確かにシェフになることを学んでおり、その動きは非常にリアルです。全員がシェフハットをかぶっており、テーブルの上の物や台所の背景も非常にリアルに見えます。欠点を指摘するのは難しいほど、非常に良い品質です。
参考までに、他の3つのビデオモデルで同じプロンプトを試した結果がこちらです。全てが本当に良いのがわかります。今や我々はAIを使ってほぼどんなビデオでも生成でき、非常にリアルに見えるところまで来ています。Pixverseは非常に細部まで作り込まれています。これはPixverseの強みの1つで、生成物は非常にシャープで高解像度です。彼らは材料を使って遊び、シェフになることを学んでいます。
Cling 1.6 Proも同様にシェフハットをかぶっており、Hiw Minimaxは超かわいらしく、この想像上の台所で料理を作ろうとしています。正直なところ、この4つの中から勝者を選ぶのは非常に難しいです。なので、これは引き分けにしましょう。明確な勝者はいないので、スコアを記録すると、このラウンドでは誰もポイントを獲得せず、依然としてQuinが2ポイント、他は0ポイントのままです。
次のプロンプトはさらに難しいです。「鏡を見ながら吠える猫。しかし鏡に映るのは吠えるライオンの姿」。Google’s V02を除いて、他のトップモデルはこれを正確に生成できません。
Quinから得られた結果がこちらで、完璧に実現しています。まず、これがいかに良くリアルに見えるか、じっくり見てみましょう。猫の動きは鏡のライオンの動きと同期しており、鏡の反射とは何か、その物理的な性質を理解しています。また、猫は吠えており、それがライオンの吠え声につながっています。これは私がプロンプトで指定した通りです。さらに、石鹸のボトルやシンクのハンドル、上部の金属部分など、ビデオ内の他の物体の反射も見てください。これらは全て鏡の中で適切に同期しています。
唯一の欠点は、よく見ると絵画の反射が実際の絵画と同じではないことです。パターンが少し異なっています。しかし、それ以外は完全にプロンプトを実現しています。
参考までに、他の3つのモデルで同じプロンプトを試した結果がこちらです。各モデルで3回生成して最良のものを選びました。Pixverseの3回の生成の1つは、確かに鏡の中にライオンのいる猫を生成しましたが、ライオンが鏡から飛び出しているように見えることに注意してください。これは反射ではありません。また、猫の動きはライオンと100%同期していないので、物理的に正しくありません。
Cling 1.6 Proでは3回生成しましたが、現実の猫と反射のライオンを生成することはできませんでした。単に同じ猫が反射に映るだけでした。最後にHiw Minimaxですが、これは3回の生成の中で最良のもので、ある程度プロンプトに従っています。ちなみにプロンプトは「鏡を見ながら吠える猫。しかし鏡に映るのは吠えるライオンの姿」でした。なので、最初に吠える猫の反射を生成し、それが魔法のようにライオンに変化するという形で、ある程度プロンプトに従っていますが、この4つの中で明らかな勝者はQuinです。
スコアボードに戻りますと、再びポイントはQuinに入ります。現在Quinが3ポイント、他は0ポイントです。
次は「ライブストリーム用に自撮りする女性」です。非常にリアルで正確に見えます。特に気に入っているのは、携帯電話が非常にリアルに生成されていること、特にカメラレンズです。他のジェネレーターの多くはレンズを正確に表現できません。
参考までに、同じプロンプトを他の3つのジェネレーターで試した結果がこちらです。Pixverseは実際にとても良く見えます。確かに自撮り棒で自分を撮影している女性で、カメラ画面には彼女が撮影している様子も映っており、とても良いです。
Cling 1.6 Proも同様に、自撮り棒を使って自分を撮影する女性で、これに欠点を見つけるのは難しいです。Hiw Minimaxも女性が自分を撮影しています。プロンプトでは携帯電話や自撮り棒を持つことを指定していなかったので、この生成も正しいです。これは女性が自分をライブストリーム用に撮影しています。
この場合も、4つとも非常に良く見えるので、勝者を選ぶのは難しいです。コメント欄で、どれが好みか教えてください。残念ながら、これも引き分けにしなければなりません。誰もポイントを獲得しません。
次にテストしたプロンプトは「粘土を形作る手のクローズアップ」です。これが結果です。再び非常にリアルで、両手とも5本の指があり、全てが良く見えます。他の3つのビデオモデルとの比較がこちらです。これら3つも非常に良く見えます。
興味深いことに、Quinはこの人が回転する装置で粘土の壺を作るように生成しましたが、他の3つは各モデルで3回生成したにもかかわらず、小さな粘土を扱う手のペアを生成し続けました。しかし、プロンプトは単に「粘土を形作る手のクローズアップ」なので、技術的には4つとも正しいプロンプトを実現しており、4つとも正確な手と指を持っています。
Pixverseの手は少しプラスチックのように見えます。推測ですが、ビデオの最初のフレームの生成にFluxのようなものを使用したのだと思います。この生成にはFluxの雰囲気があります。Cling 1.6 Proも非常に良く見えますが、ビデオの品質はそれほど良くありません。低品質な携帯電話で撮影したように見えますが、Quinのビデオは色のバランスが取れており、より専門的なビデオのように見えます。
Hiw Minimaxは粘土を形作っていますが、正直なところ、粘土というよりは粘着物質のように見えます。コメント欄で同じように感じたかどうか教えてください。これら4つの中で、私はQuinを選びたいと思います。Quinが最も詳細でリアルに見え、色や彩度も最も良く見えます。
スコアボードに戻りますと、現在Quinが4ポイント、他は0ポイントです。かなりの差をつけてQuinがリードしています。
次のQuinのプロンプトは「ショッピングモールで混乱を引き起こすゾンビの群れ。手持ちカメラ」です。これは、多くの要素を持つよりアクションの多い混沌としたシーンを生成する能力をテストするためのものです。結果がこちらです。再び非常に印象的なビデオです。手持ちカメラで、ショッピングモールでゾンビが混乱を引き起こしています。自然に歩くのではなく、ぎこちなく歩いているのに注意してください。また、ショッピングモールの背景の細部が非常にリアルに見えることにも注目してください。
参考までに、同じプロンプトを他の3つのビデオモデルで試した結果がこちらです。Pixverseはアクションの多いシーンを生成できません。より遅い動きのビデオでのみ良い結果を出します。Cling 1.6は被写体の一貫性という点でも非常に良く、手足や顔の歪みが少なくなっています。非常に複雑で混沌としたシーンで多くの人々やゾンビがいるにもかかわらず、全てが非常にシャープで詳細に、一貫して見えます。
Hiw Minimaxに移りますと、これも非常に良く見えますが、シーンではまだかなりの歪みが見られます。ここでも勝者を選ぶのは難しく、QuinとCling 1.6の引き分けといったところでしょう。コメント欄でどちらが好みか教えてください。
スコアボードに戻りますと、QuinとClingにそれぞれ1ポイントずつ入り、現在5:0:1:0となっています。
次のプロンプトは「街を横切って建物を破壊する巨大なドラゴン。恐れおののく人々が四方八方に逃げ出す」です。これも再びアクションの多い混沌としたシーンで、多くの要素を生成する能力をテストするものです。結果がこちらです。ドラゴンは超リアルに見え、最後の炎の噴射は本当にかっこいいです。そして、確かに人々が至る所を走り回っています。これは超クールなシーンです。
参考までに、同じプロンプトを他の3つのビデオモデルで試した結果がこちらです。先ほど言ったように、Pixverseはアクションの多いシーンを扱えません。Cling 1.6 Proは実際に非常に良く、街を横切って飛び、人々が四方八方に逃げ出しています。全体的に非常に良いビデオです。Hiw Minimaxも悪くありません。確かにドラゴンがいて、人々は四方八方に逃げ出していますが、ドラゴンはただそこに立って羽ばたいているだけで、何もしていません。
これら4つの生成の中で、Clingも近いですが、炎や爆発が奇妙で、なぜか足から出ているように見えます。細部やリアリズム、エラーの少なさ、そしてプロンプトへの忠実さという点で、再びQuinにポイントを与えなければなりません。コメント欄で皆さんの意見を聞かせてください。
スコアボードに戻りますと、現在Quinが6ポイント、Pixverseが0ポイント、Clingが1ポイント、Hiwが0ポイントです。これまでのベストモデルであるClingやHiwと比べて、無料で使用制限のないビデオジェネレーターがこれほど大きくリードしているのは本当に驚きです。
次はアニメをテストしてみましょう。プロンプトは「京都の街を歩く着物姿の少女。アニメスタイル」です。これが3回の生成の中で最良のものです。再生してみましょう。悪くありません。確かにアニメっぽく見え、京都の街を歩いています。全てが欠点のないように見えます。唯一の気になる点は、歩く時にまっすぐ前を向いていないことです。なぜかカニのように横向きに歩いていますが、悪くはありません。
参考までに、同じプロンプトを他の3つのビデオモデルで試した結果がこちらです。今回はご覧の通り、Pixverseが圧倒的です。これは本当に良いアニメスタイルのビデオで、全てが非常に詳細です。これは確かに着物を着て京都の街を歩く少女です。
ちなみにPixverseでは、アニメスタイルで生成したい場合、ここでスタイルを必ずアニメに選択する必要があります。最初にこれを選択しなかった時は、プロンプトでアニメスタイルを指定したにもかかわらず、非常にリアルなビデオが生成されました。スタイルをアニメに選択してはじめて、このような結果が得られました。
比較に戻りますと、Cling 1.6 Proは悪くありません。アニメを生成することはできますが、これは2Dのフラットなアニメシーンというよりも、イラストに近すぎるように見えます。このような見た目のアニメ番組は見たことがありません。
Hiw Minimaxは、現在のテキストからビデオモデルではアニメを生成することができません。とはいえ、非常に高品質な画像からビデオへの変換機能を持っているので、まずStable DiffusionやFluxを使ってアニメシーンを生成し、それをHiwに入力すれば、アニメを非常に良く生成できます。しかし、テキストプロンプトだけを使ってアニメスタイルのビデオを作りたい場合、Hiwaは現在これをうまく実現できません。
このケースでは、明らかな勝者はPixverseです。Pixverseはアニメの生成が驚くほど良いです。これでPixverseに1ポイントが入り、現在Quinが6ポイント、Pixverseが1ポイント、Clingが1ポイント、Hiwが0ポイントです。
次に、ディズニー・ピクサースタイルのアニメーションを生成する能力をテストしてみましょう。プロンプトは「美しい輝く白いドレスを着たお姫様が、赤く光る目を持つ巨大なドラゴンから逃げる。ディズニー・ピクサーアニメーションスタイル」です。これまで私がテストしたビデオモデルの中で、これを100%正確に実現できたものはありませんでした。
なんと素晴らしい！これは実際に、お姫様がドラゴンから逃げるのを生成できた初めてのケースです。そして、これは100%ディズニー・ピクサースタイルに見えます。さらに、ドラゴンは巨大で赤く光る目を持ち、お姫様は美しい輝く白いドレスを着ています。これは完璧な生成です。
同じプロンプトを他の3つのビデオモデルで試した結果がこちらです。Pixverseについては、この3Dアニメーションスタイルを生成したい場合、ここで3Dアニメーションを選択する必要があります。そうしないと、実際にリアルなビデオを生成してしまいます。彼女はある程度ドラゴンから逃げているので、それにはポイントを与えますが、お姫様は輝く白いドレスを着ておらず、衣装は非常に奇妙です。なぜ彼女に翼があるのかわかりません。なぜ王冠をかぶっているのかもわかりません。ビデオでこれらを指定していません。
Cling 1.6 Proでは、テキストプロンプトでディズニー・ピクサースタイルを生成することができませんでした。Hiwはディズニー・ピクサースタイルのビデオ生成が得意として知られており、これは確かに輝く白いドレスを着たお姫様に見えます。彼女は逃げているわけではありませんが、ドラゴンから少し歩いて離れており、ドラゴンは確かに赤く光る目を持っています。
これら4つの生成の中で、私はQuinが明らかな勝者だと言わざるを得ません。スコアボードに戻りますと、Quinにもう1ポイントが入り、現在Quinが7ポイント、他は1ポイントと0ポイントです。
既存の人物や文字を含む高アクションシーンの生成をテストするため、お気に入りのプロンプト「スパゲッティを食べるウィル・スミス」を試してみましょう。これがQuinの結果です。明らかに、このモデルはこの人物をウィル・スミスだと考えていますが、彼は非常にリアルに食べており、フォークやスプーン、パスタの皿も非常にリアルに見えます。しかし、これはウィル・スミスではありません。たとえウィル・スミスという名前の白人がいたとしても、この人物はそうは見えません。これはドナルドやハンクのような人物に見えます。Quinは実在する人物やキャラクターを生成できないようです。
参考までに、同じプロンプトを他の3つのビデオモデルで試した結果がこちらです。Pixverseは近づいており、ウィル・スミスを生成しようとしていますが、本当のウィル・スミスには見えません。おそらく彼のいとこのような感じです。Cling 1.6 Proは食事のビデオ生成が得意として知られていますが、これも私が求めていたウィル・スミスではありません。むしろミスター・ビーストに見えませんか？
最後にHiw Minimaxは、実在する人物やキャラクターを実際に生成できる唯一のモデルです。これは100%ウィル・スミスに見えます。ただし、PixverseとClingは画像からビデオへの変換機能を持っているので、まずウィル・スミスがスパゲッティを食べている写真を生成し、それをこれら2つのモデルの最初のフレームとして使用することはできます。しかし、テキストからビデオの生成を比較すると、Hiwだけがウィル・スミスを生成できました。疑問の余地なく、ここではHiwにポイントが入ります。
次に、人体の解剖学とより不規則なポーズについてさらにテストしてみましょう。プロンプトは「白いビキニを着た美しい女性がトレッドミルで走る」です。結果がこちらです。私には完璧に見えます。彼女の体の揺れ…動きも非常にリアルに見えます。
参考までに、他の3つのビデオモデルの結果がこちらです。Pixverseは3回生成しても、5秒間自然に走る女性を生成することができませんでした。クリップの途中で彼女の走り方が不規則になっているのがわかります。Cling 1.6 Proは完璧なビデオです。彼女は非常に自然に走っています。最後にHiw Minimaxも欠点を指摘するのが難しく、彼女もトレッドミルで走っています。動きは非常に自然ですが、最後の方で走り方が少し不規則になります。
これら4つの中から勝者を選ぶのは再び難しいです。単に走る女性を生成したい場合、Pixverse以外の全てのモデルがそれを非常にうまく扱えます。このケースでは、QuinとCling、Hiwを引き分けにしなければなりません。それぞれ1ポイントずつ獲得し、現在のスコアは8:1:2:2です。
次は非常に難しいプロンプト「北極海の浮氷の上で踊るバレリーナ」です。3回の生成の中で、解剖学的に正しいものを1つ得ることができました。この女性が氷の上で踊っているのが見えます。彼女が回転しているにもかかわらず、手足や顔に変形や歪みはなく、ビデオ全体を通して一貫性が保たれています。これは歴史的に、トップクラスのビデオジェネレーターでさえ実現するのが非常に困難でした。
他の3つのモデルで同じプロンプトを試した結果がこちらです。まずPixverseを見ると、歴史的にこのような動画、つまり女性が踊ったり、より異常なポーズをしたりする場合、余分な手足や指が出現し、非常に奇妙に見えるのを見てきました。
Cling 1.6 Proの生成は実際に非常に良く、女性はビデオ全体を通して一貫性を保っています。同様にHiwも、バレリーナはビデオ全体を通して一貫しています。ただし、ClingとHiwは両方とも、Quinほどにはダンスをさせていません。Quinは実際により挑戦的なことを試み、彼女を回転させることに成功しています。
ここでも勝者を選ぶとすれば、バレリーナのダンスの妥当なビデオを生成できた唯一のモデルであるQuinに与えなければなりません。スコアボードに戻ると、Quinは現在9ポイントで、他のモデルは大きく引き離されています。
次のプロンプトはさらに難しく、Google’s V02を含むどのビデオジェネレーターも完璧に実現できていません。プロンプトは「ストリートでブレイクダンスをする女性」です。Quinから得られた最良の生成がこちらです。まずまずです。群衆が多くいるにもかかわらず一貫性があり、この人物は確かにブレイクダンスをしているように見えます。もちろん、ブレイクダンスをさせると手足に多くの欠陥が出てきます。
他の3つのビデオジェネレーターと比較すると、それらも非常に一貫性がありません。Pixverseは非常に詳細ですが、女性にブレイクダンスをさせることができません。彼女が何をしているのかわかりません。Cling 1.6 Proも同様で、ビデオは非常に詳細で流暢ですが、彼女はブレイクダンスというよりも悪魔に取り憑かれているように見えます。
Hiw Minimaxも、これはブレイクダンスには見えません。これはヒップホップのスキットのようなものに見えますが、確かにブレイクダンスのパフォーマンスではありません。これら4つの中で、たとえ女性に多くの一貫性の問題があっても、少なくともブレイクダンスをしているように見えるのはQuinが最良のようです。スコアボードに戻ると、Quinにもう1ポイントが入り、現在10ポイントです。
最後に、ビデオ内のテキスト生成能力もテストしたいと思います。プロンプトは「”subscribe to my channel”と書かれたネオンサイン。サイバーパンクの夜の街」です。3つの生成の中で最良のものがこちらです。テキストを完璧には生成できていないことに注意してください。channelを完全に誤字していますが、興味深いことに他の単語は正しく生成できています。完璧な生成ではありません。
参考までに、他の3つのビデオモデルの結果がこちらです。Pixverseは実際に非常に良く、最も一貫性があり、3回の生成全てでほとんどのテキストを正しく生成できました。Clingはビデオ内で正当なテキストを生成することができません。Hiwは近づいていますが、品質はあまり良くありません。このケースではポイントはPixverseに与えなければなりません。
これで一連のテストは終わりです。ご覧の通り、ほとんどのケースでQuinは、トップクラスの商用モデルと比較しても最良の生成を行いました。これは完全に無料で使用制限のないプラットフォームであることを考えると、本当に驚くべきことです。少なくとも今のところは。
なお、ビデオ生成に加えて、画像も生成することができます。ここで画像生成機能のデモをいくつか素早く見せ、トップクラスの画像ジェネレーターと比較してみたいと思います。ちなみにこれはLM Arenaによるもので、ユーザーが異なるテキストから画像へのモデルをブラインドテストできる場所です。これらのブラインドテストから、トップ3モデルはGoogle’s Imagen 3、Recraft Version 3、Ideogram Version 2のようです。これら3つの画像ジェネレーターとQuinを比較してみましょう。
Quinに戻りますと、画像の生成は非常に簡単です。ここにプロンプトを入力し、画像生成をクリックするだけです。ここでアスペクト比を選択できます。デフォルトの1:1のままにして、生成をクリックします。
最初のプロンプトは「TED トークをする男性の写真。彼の後ろには “TEDx AI search” というテキストが書かれた大きなネオンサインがある。スポットライト照明。柔らかい影。シャープなフォーカス。浅い被写界深度」です。これは画像内でのテキストやロゴの生成能力をテストしています。これが結果です。非常に良くリアルに見え、TEDxのロゴは正しく、テキスト “AI search” も正しいです。悪くありません。唯一の欠点は、男性の指が少し不正確なことですが、遠くからは気づきにくいです。
参考までに、トップ3の画像ジェネレーターで同じプロンプトを試した結果がこちらです。Recraftを除く全てのモデルがTEDxのロゴを正しく生成できました。また、Googleのimagenを除く全てのモデルが “AI search” も正しく生成できました。ここの “I” は何故か小文字になっています。人物のリアリズムという点では、RecraftとGoogle’s Imagenが最も良く見えます。
次にテストしたプロンプトは「ウィル・スミス、アイアンマン、エリザベス女王が一緒に夕食を食べている」です。これは実在する人物やキャラクターを生成できるかをテストするためのものです。Quinは実際に非常にうまく、確かにウィル・スミス、アイアンマン、エリザベス女王をかなり良く生成しています。
Google’s Imagen 3は残念ながら、1位にランクされているにもかかわらず、かなり厳しい検閲があります。既存の人物の生成を許可していないので、有名人の名前など何か入力すると、このエラーが出ます。Recraftも3つのキャラクターを非常によく生成できました。Ideogramも同様です。ここで勝者を選ぶとすれば、Ideogramが最もリアルで詳細に見えます。コメント欄でどれが好みか教えてください。
次のプロンプトは「手書きのメモを持つティーンエイジの女性。メモには “verify me 8/22/2024” と書かれている。低品質の自撮り写真」です。Quinはこの女性を生成でき、手書きのメモを持っており、指は正しく、テキストも正しいです。ただし、被写界深度が非常に浅く、低品質のアマチュアの自撮り写真というよりも、プロのカメラで撮影したように見えます。
興味深いことに、Google’s Imagen 3では再びこのエラーが出ます。このプロンプトでの写真生成を全く許可しません。何度も試しましたが、Recraftはこの写真が非常に良く見えます。確かにアマチュアな携帯電話で撮影したような写真に見え、かなり低品質です。さらに手書きのメモも正しいです。Ideogramが実際に最も良く見えます。彼女は実際に自撮りをしているかのように手を伸ばしており、全てが比較的低品質に見え、さらに手書きのメモも正しいです。
次に、異なるタイプの画像を生成する能力もテストしたいと思います。プロンプトは「フィットネストラッキングアプリケーション用に設計されたモダンなウェブアプリのユーザーインターフェース」です。Quinの生成は実際に非常に印象的です。他の3つの画像ジェネレーターもこちらです。全て非常に良く見えます。全てが正当なテキストを追加しようとしていますが、うまくいっていないことに注意してください。
例えば、Quinでは “Local Workout” と書こうとしています。Imagenでは “Daily Activity Dashboard” と書こうとしていますが、多くの文字を誤字しています。Ideogramでは “Dashboard” という単語がここにあり、その他にも意味をなさないランダムなテキストがここにあります。デザイン上に多くの正当なテキストを生成することは、現在の最高の画像ジェネレーターでもまだ限界があります。
次に、手や指の難しいポーズを生成する能力もテストしたいと思います。プロンプトは「ハートマークを作る2つの手」です。Quinはこれを生成できますが、プラスチックのような偽物に見えます。他の3つはより現実的に見え、人の肌の細部や手の毛まで見ることができます。
次のプロンプトは、プロンプト内の多くの異なる要素の空間的な理解をテストするためのものです。プロンプトは「青い立方体の上に置かれた赤い球体の写真。その後ろには緑の三角形。右側には犬、左側には猫」です。まずQuinでは、青い立方体の上に赤い球体があり、その後ろには緑の三角形、右側には犬、左側には猫がいます。
これらの画像ジェネレーターのほとんどは、このプロンプトを理解し、完璧な写真を生成することができます。Recraftは動物の生成に苦労しており、犬と猫の位置も少し逆になっていますが、ImagenとIdeogramの結果は非常に良いです。
次に、アニメを生成できるかも見てみたいと思います。非常にシンプルなプロンプト「夜の都市のアニメの女の子」です。Quinはこれを非常によく生成し、Imagenも同様です。Recraftはアニメの生成に非常に苦労しており、Ideogramもかなり良く生成します。ただし、アニメを生成したい場合、これらのどれも使用しないでしょう。アニメを生成するにはStable DiffusionとFluxが依然として最良のオプションです。
以上で画像生成機能の簡単なレビューを終わります。先ほど述べたように、このQuen Chatインターフェースの最も強力な機能はビデオ生成です。これを確実に活用してください。現在は無料で使用制限がないので、秘密にしておきましょう。ただし、ご覧の通り、画像も生成でき、他のトップクラスの画像ジェネレーターと比較しても結果は悪くありません。
そして、冒頭で述べたように、これはチャットボットなので、質問をしたり、コードを生成したり、レシピやニュースなど何でも尋ねることができます。例えば、「Deep SEER1について教えて」とプロンプトを入力し、ウェブ検索をオンにすると、実際にウェブを検索して最新の結果を取得します。Deep SEER1は数日前にリリースされたばかりなので、これはおそらくQuen 2.5 Plusのトレーニングデータには含まれていません。そのため、関連する結果を見つけるためにウェブをスクレイピングする必要があります。
エンターを押して、どのような結果が得られるか見てみましょう。なんと素晴らしいでしょうか。実際にウェブをスクレイピングしており、実際にこの右サイドバーに全ての結果が表示されています。各参照をテキスト内で引用しており、これはまさにPerplexityのようです。さらに、追加で尋ねることができるフォローアップの質問も提案してくれます。非常に便利なツールです。
ちなみに、上部でモデルを選択できます。各モデルの簡単な説明がこちらです。より速い応答とより長いコンテキストウィンドウが必要な場合は、Quen 2.5 Turboを使用します。
最後に見せたいのは、このアーティファクト機能です。ここでコードを生成し、結果をサイドバイドサイドで実際に表示することができます。例えば、「Redditのクローンを作成して」とプロンプトを入力して、何が得られるか見てみましょう。左側にコードが表示され、右側にこのコードがどのように見えるかのライブプレビューが表示されます。
ただし、Quinのチャットやコーディングの機能は他の主要なモデルほど優れていないことに注意してください。そのため、この動画の主な焦点はビデオ生成機能に当てています。ビデオの出力は、トップクラスの商用モデルと同等の品質だと考えています。
以上でこのQuen Chatインターフェースのレビューを終わります。ビデオ生成に興味がある方は、まだ無料で使用制限がない間に、この機能を必ず活用してください。コメント欄で、他にどのような素晴らしい印象的な生成ができたか教えてください。いつものように、トップAIニュースやツールを探して皆さんと共有していきます。
この動画を楽しんでいただけたなら、いいね、シェア、登録をお忘れなく。また、毎週AIの世界で本当に多くのことが起こっているので、YouTubeチャンネルだけではすべてをカバーすることができません。AIの最新情報を本当に把握するために、私の無料ウィークリーニュースレターを購読することをお勧めします。リンクは説明欄にあります。
ご視聴ありがとうございました。次回の動画でお会いしましょう。