ついに公開される驚異のSora

3,768 文字

After months of anticipation, Sora, OpenAI's groundbreaking text-to-video model, is finally on the brink of release. Pre...

10ヶ月の待機期間を経て、Soraがついに公開される直前にあるようです。そしてプレビューによると、非常に印象的な出来栄えとなっています。AI Daily Brief ヘッドラインエディションへようこそ。約5分で必要な全てのAIニュースをお届けします。このコンテンツを視聴している時点で、すでに情報が古くなっている可能性があります。
OpenAIの12日間、通称「シップミス」の3日目となり、本日Soraが公開される可能性が高そうです。週末にはプレビュー動画が公開され始めました。L videoの共同創業者兼CEOのルード・ベンダー・リンデンは、OpenAIのチャド・ネルソンがロンドンのC21メディアキーノートでこれを披露し、サム・アルトマンが予告した通り「すぐに見られるようになる」と述べたとツイートしています。動画には壮大なバイキングの戦闘シーンに続いて、エイリアンの雪の惑星での戦闘シーンのようなものが含まれていました。
動画と共に、1分間の動画出力が可能であることや、テキストから動画、テキストから画像から動画、さらにテキストから動画から動画への変換が可能であるという詳細も明らかになりました。Thursday AIのアレックス・ボフの反応は、その成果を端的に表現しています。「他の動画モデルがSoraに追いつくなどと言った自分の発言を全て撤回します。リークされたSoraバージョン2の動画では、複数のシーンで信じられないほどのキャラクターの一貫性を見せています。追伸：もしこれが月額200ドルのProティアの一部として提供されるなら、OpenAIは新規契約者が急増するでしょう」
価格設定は大きな疑問点の一つです。月額200ドルでさえOpenAIにとって採算が取れるかどうか分かりませんが、様子を見守るしかありません。シー・チェンは「この品質は1年後くらいに実現するものだと思っていましたが、もう実現してしまいました」と述べています。イーサン・Mは「これが本物なら、中国のモデルと比べても動画生成における大きな飛躍です。どうなるか見てみましょう」と述べています。
一方サムは土曜日に「3日目に公開予定のものにとても、とてもわくわくしています。月曜日が遠く感じますね」とツイートしました。もちろんイーロンはサム・アルトマンに話題を独占させるつもりはなく、週末にはxAIの新しい画像生成モデル「Aurora」を発表することで応戦しました。金曜日の夜の数時間、xAIユーザーはこの新しい画像モデルを試すことができました。
イーロン・マスクは「これは我々の社内画像生成システムで、まだベータ版ですが、急速に改善されていくでしょう」と説明しています。ベフ・ジョスは「xAIが土曜日の午前2時に、さりげなく最高の画像モデルの1つをリリースするなんて、本当に違うレベルですね」と書いています。アレックス・ボフは再び「この新しいGrock画像生成モデル『Aurora』が土曜日にリリースされましたが、皆さんどう思いますか？彼らが訓練したように見えます。評価やディテールの説明もなく、ただ『はい、どうぞお使いください』という感じです。テーマは写真のリアリズムに焦点を当てているようです」とコメントしています。
では、どう評価すべきでしょうか？TechCrunchはいくつかの不満を述べています。「Xユーザーが投稿したAurora生成画像では、物体が不自然に溶け合っていたり、指のない人物が見られました。ただし、私が調べた限りではそのような例は見つけられませんでした」。スタイル的には、ソフトフォーカスのボケた背景を多用する傾向がありますが、それは本当の意味での不満というわけではありません。
テスラ車からスタイリッシュな風景まで、大量の写真のようにリアルな生成画像があります。多くの人々が、このモデルが有名人のポートレートに優れていることを指摘しています。エイブ・リンカーンの衣装を着たビル・マーレー、実際には共演したことのない番組セットでピンポンをするアダム・サンドラーとレイ・ロマーノ、サンタの帽子をかぶったジャン＝リュック・ピカード船長、さらにはスカーレット・ヨハンソンに憧れるサム・アルトマンまで。このモデルは、イーリヤ・スツクの特徴的なほくろまで含めた顔の独特な特徴を見事に表現しています。
しかし、なぜモデルがこれほど短時間で公開を停止したのかについての説明はありませんでした。短時間のデモを意図していた可能性もありますし、チームが予期せぬ問題を発見した可能性もあります。既存のFluxモデルがGrockの画像生成を動かしているように、Auroraにはリアルな人物や著作権のある素材を作成する際のガードレールがほとんどありませんでした。ヌード画像は禁止されていましたが、それがAuroraが拒否する唯一のプロンプトでした。例えば、ルイージとミッキーマウスがボクシングをする画像なども、何の問題もなく生成していました。
ソロプレナーのピーター・レベルズは感心した様子で「一見したところ、Grockの新しい画像モデルAuroraは、人物写真の生成においてFluxよりも詳細度が高いように見えます。彼らがこれほど早く全く新しい画像モデルを作れたことは驚異的です。それとも、Fluxを作っているブラックフォレストラボとのパートナーシップなのでしょうか」と投稿しています。
そしてそれが、もう一つの残された疑問です。xAIがこのようなモデルを社内で開発できるのであれば、ブラックフォレストラボやその他の補助的なモデルプロバイダーはまだ存続可能なのでしょうか？それとも彼らが実はこのモデルの秘密なのでしょうか？
補足として、xAIは2時間ごとに20のプロンプトと10の画像という制限付きで、Grockチャットボットを無料で公開しました。チームが新年にOpenAIに挑戦する意図を明確に持っていることは明らかです。xAIの開発者であるクリス・パークは、サム・アルトマンの月曜日の発表に関する投稿に対して「xAIは月曜日まで待つ必要はありません。このチームは優秀すぎて、常に開発を続けています。新しい画像生成モデルAuroraをリリースしたxAIに祝福を。Grock 2とAuroraは現在、XAIのモデルセレクターで利用可能です。そうそう、Grock 3も開発中です」と皮肉を込めて応答しています。
最後にもう一つのモデル発表として、Metaが70Bモデルの新バージョンをllama 3.3としてリリースしました。MetaのGen担当VPであるアマド・アラルは、ライバルのソーシャルメディアプラットフォームXで「llama 3.3を紹介します。405Bモデルのパフォーマンスを実現しながら、より実行が容易でコスト効率の高い新しい70Bモデルです。オンライン選好最適化を含む最新のポストトレーニング技術を活用することで、大幅に低いコストで基本性能を向上させ、オープンソースコミュニティ全体にとってさらにアクセスしやすいものとなっています」と発表しました。
共有されたベンチマークは印象的で、Gemini Pro 1.5とGPT 4oに迫る性能を示しています。このモデルは、フロンティアモデルの中で最もコストが低いとされるAmazonの新しいNova Proとも同等です。Nova ProはGPT 4oの3分の1の価格でしたが、llama 3.3はNova Proの8分の1、つまりOpenAIの提供価格の125分の1です。
モデルは128kのコンテキストウィンドウを持ち、これはGPT 4oと同じで、約400ページのテキストに相当します。現時点ではテキストのみの対応で、Hugging Faceからオープンソースとして入手可能です。サイズ削減の重要性を理解するために、VentureBeatが概算を行いました。他のフロンティアモデルと比較してGPU負荷が24分の1に削減されると示唆しています。これにより、フロンティアモデルのパワーが消費者向けハードウェアで実行可能なサイズまで縮小されました。
Appleの機械学習研究者であるアニ・ホンは「llama 3.3 70b 4ビットは64GB M3 Maxで快適に動作し、M4 Macならさらに高速になるでしょう。昨日のサーバー専用405bが、今日のラップトップ70bになりました」と書いています。
このモデルは、モデル蒸留理論、つまりフロンティアモデルの性能を巧妙なポストトレーニングによってより小さなサイズに圧縮できるという考えの証拠を追加しているようです。現在の戦いは、最先端の性能だけでなく、コスト効率性も争点となっています。AI教育者のポール・コートは「Metaがllama 3.3 70bをリリースしました。これはGPT 4よりも強力で、25倍安価です。オープンソースは本当にあらゆるレベルで勝利しています」と書いています。
先ほども述べたように、これが公開される頃には情報が古くなっている可能性がありますが、現状はこのような状況です。以上がAIニュースですが、今日のヘッドラインはここまでとします。次は本編をお届けします。