
3,395 文字

これは音声と動画の分野における次のDeepSeekとなる可能性があります。中国・上海から突如として現れたこの企業は、Hugging Faceで2つの最先端の商用ライセンスモデルをリリースしました。1つはテキストから動画を生成するモデル、もう1つは音声チャットモデルです。これはChatGPTの高度な音声モードのようなものですが、完全にオープンソースとなっています。これらのモデルは誰でも試すことができますが、大量のGPUリソースが必要です。
このビデオでは、これら2つのモデルについて私が知っていることすべてと、突如として現れたこの企業について分かっていることをお伝えします。
この企業の名前はStepFunといいます。おそらくディープラーニングでよく使われるステップ関数から名付けられたのかもしれません。StepFunは2023年4月に設立された企業で、「すべての人々の可能性を広げる」というミッションを掲げています。これは野心的なミッションですね。
この企業は今日(あなたがいる地域によって日付は異なりますが)、音声チャットモデル、音声TTS(テキスト読み上げ)モデル、音声トークナイザーをリリースしました。これが音声分野での展開です。動画分野では、テキストから動画を生成するターボモデルとフルサイズモデルをリリースしました。また数週間前には、私たちがあまり注目していなかったOCRモデルもリリースしています。
これらのモデルのクオリティは、オープンソースモデルとしては驚くべきレベルです。ウェブサイトで生成することができますが、私は電話番号の登録が必要だったため快く思わず登録していません。しかしサンプルをいくつか見てみると、とても素晴らしいものです。
例えばこのレース映像は、テレビ中継のようなものですが、とても驚異的です。人体の形が変化するのは見えますが、引きの映像なのでかなり良い出来です。また、モデルが物理法則を守ろうとしていて、それなりの成果を上げています。信じられないほどの出来ではありませんが、十分な水準です。
また、月面でボールを跳ねさせる宇宙飛行士の映像もあります。重力がどのように見えるべきかは分かりませんが、これも良いモデルです。オープンモデルとして、モデルとその重みが誰でもダウンロードして使用できる状態で公開されています。
これはStep Video T2V(テキストから動画)と呼ばれるモデルをベースに構築されており、300億パラメータを持つ最先端のテキストから動画への事前学習モデルです。1秒間に最大200フレームを生成する能力があります。通常30FPSの動画では1秒間に30フレームですが、45FPSや60FPSなど異なるバリエーションもあります。30FPSを基準にすると、このモデルは大量のフレーム補間なしで204フレームを生成できるため、300億パラメータモデルを使用して約7秒の動画クリップを生成できることになります。
さらに進む前に、期待値を適切に設定するためにGPUの要件をお見せしたいと思います。このモデルは少なくとも80GBのGPUメモリ(VRAM)を必要とします。50ステップでFlash Attentionを使用した場合は743秒、Flash Attentionなしでは1,232秒かかります。これはこの特定のフレームの高さと幅に対してです。より低グレードの場合、Flash Attentionなしで600ステップが必要です。Flash AttentionをサポートするGPUを見つけられれば、最も効率的な動画生成が可能で、この場合Flash Attentionを使用して400秒です。
これが計算要件ですが、モデルの品質を見ると、モデルは非常に素晴らしく、Hugging Faceからダウンロードして試すことができます。このモデルにはターボバージョンという小さなバージョンもあり、より高速に動画を生成することができます。大きなモデルほどの品質ではないかもしれませんが、より高速で計算効率が良いとされています。ターボバージョンの計算要件についての詳細な情報は多くありませんが、動画モデルのターボバージョンと大きなモデルの両方がMITライセンスでオープンソース化されています。
一方、音声モデルはApache 2.0ライセンスで提供されています。音声モデルには音声チャット機能があり、ChatGPTの高度な音声モードと同様にエンドツーエンドのチャットが可能です。話しかけると返答してくれる、基本的にはエンドツーエンドの音声対音声パイプラインです。
この分野ではオープンソースモデルが多くありません。数ヶ月前に私が取り上げたMoshiというモデルを覚えているかもしれませんが、それと非常によく似たコンセプトです。このモデルは、この分類の他のどのモデルよりもはるかに優れた性能を発揮しています。GM4 Voice、Qwen Audio(私は使用したことがありません)、Moshi(使用したことがあります)と比較して、Step Audio Chatははるかに高いスコアを獲得しています。
これは1,300億パラメータのマルチモーダルモデルです。マルチモーダルと言っても、現時点では音声対音声ですが、彼らが構築しているモデルのサイズを考えると、おそらく他のモダリティも学習している可能性があります。このモデルは音声認識、意味理解、音声クローニング、音声生成を統合するように設計されています。モデルは音声を十分に理解し、音声を生成できる必要があります。
Step Audio Chatのこのモデルのために、少なくとも265GBのGPUが必要です。これは強力なGPUで簡単に実行できるものではなく、おそらくGPUクラスターが必要です。ただし、TTSモデルは8GBのメモリしか必要としないため、将来的に試すことは十分可能です。テキストから音声への変換だけを行いたい場合、モデルは利用可能で8GBのGPUメモリ(VRAM)で実行できます。チャットモデルは265GBを必要とし、これはかなり大きいですが、モデルは利用可能です。4台のA100または4台のH100を使用することを推奨しています。各GPUが80GBなので、4台で320GBとなり、より高品質な生成が可能です。
これがこの企業がリリースした2つのモデルです。企業の詳細については、正直なところあまり情報がありません。これは彼らの中国語のウェブサイトを英語に翻訳したバージョンです。Step 1 V(まだオープンソース化されていないもの)について言及しており、数千億のパラメータを持つマルチモーダルモデルについても言及しています。
この企業はStep基盤モデルシリーズを立ち上げました。これにはStep 2(まだ見たことのない、数兆パラメータのMoE言語モデル)、Step 1.5 V(強力なマルチモーダル大規模言語モデル)、Step 1 V(革新的な画像生成モデル)が含まれます。これらのモデルは、少なくともこのビデオ録画時点では利用できません。利用できるのは音声チャットと動画生成モデルのみです。
動画生成を試したい場合は、このプラットフォームに登録して動画生成を行うことができます。先ほど述べたように、自分の電話番号を登録する必要があるため、私は登録しませんでしたが、サンプルを見ることができます。サンプルはとても良く、動画の品質も優れています。P LabsやAI Labsの最先端レベルとまでは言えませんが、このサイズのモデル、300億パラメータモデルとしては驚くべき素晴らしさです。
このAPIがReplicate上に登場するのを待ち切れません。それ以外は完全な驚きです。この研究所や企業についてこれまで聞いたことがありませんでした。彼らは採用にも積極的で、キャンパスリクルートやソーシャルリクルートを行っています。いずれにせよ、これは新しい企業です。おそらく音声と動画のDeepSeekとなる可能性があります。より大きなGPUを見つけることができれば、これらのモデルをもっと試してみたいと思います。これらのモデルの動画品質についてのあなたの感想をお聞かせください。また次の動画でお会いしましょう。ハッピーPR思考です。
コメント