
7,864 文字

アリババには泉(Quen)チームと呼ばれる部門があり、彼らは一連のオープンソース大規模言語モデルを開発してきました。彼らの最新リリースはQWQ 32B(Quen with Questionsの略)と呼ばれており、真剣に注目を集めています。なぜなら、このモデルは驚異の6710億パラメータを持つDeepSeek R1という大型推論モデルと同等、あるいはそれを上回るパフォーマンスを発揮すると主張しているからです。本当に驚くべき点は、このモデルがわずか320億パラメータしか持っていないことです。つまり理論上、DeepSeek R1よりもはるかに小さいのです。
人々は、小規模モデルがどうやって数学、コーディング、一般的な推論タスクで同様のパフォーマンスを発揮できるのか、特に実行に必要なリソースが通常はるかに少ないことに驚愕しています。泉チームによれば、このモデルは通常わずか24GBのVRAMを持つハードウェアで展開できるといいます。これは、複数の高性能GPUで完全なDeepSeek R1の設定を実行しようとした場合に必要な1,500GB以上の総VRAM使用量と比較すると非常に軽量に感じます。この違いだけで、多くの人々がこのAI開発競争において「小さいことが新たに大きいことになるのか?」と問いかけています。
泉チームは2024年11月にこの推論モデルを初めて紹介しました。その時点で、OpenAIの高度な推論モデル(01 proなど)のオープンソース対抗馬として発表されました。当時、最初のバージョンは既に、特に数学やコーディングタスクにおいてステップバイステップの内省的論理を行う能力で人々を感銘させていました。トリック、あるいは少なくとも大きな特徴の一つは、QVQが途中で立ち止まって自分が書いていることを見直すことでしたが、Live Code Benchなどのプログラミングベンチマークではいくつか問題があり、一部のファンはOpenAIのコーディングモデルに追いつく必要があると感じていました。
興味深い点は、アリババがこれをApache 2.0ライセンスの下でリリースしたことです。これは基本的に、企業、研究者、あるいは誰でも、それを調整し、改良し、自分のサーバーで実行したり、それを搭載した製品で料金を請求したりすることができます。一方、OpenAIの大規模モデルは通常、独自の環境にロックインされたままです。そのような自由の感覚が、初期の段階で多くの人々をQVQに引き付けました。
もちろん、QVQチームがモデルを改良している間に、AI業界は新しいアプローチ、特に大規模推論モデル(LRM)に関して爆発的に発展しました。この波にはOpenAIのo3シリーズや、香港のハイフライヤー・キャピタル・マネジメントのDeepSeekラボからのDeepSeek R1が含まれていました。ウェブ分析会社Similar Webによると、DeepSeek R1はOpenAIに次ぐ、2番目に訪問者の多いAIモデル提供ウェブサイトになりました。これは大きな成果です。
そして私たちは、巨大なスケールアップがパフォーマンス向上の一般的な方法となる一方で、各回答をどのように考えるかを調整することで、これらのモデルの推論能力を向上させることへの新たな関心が持たれるようになりました。アリババはQVQ 32Bを発表し、より大きなパラメータ数だけに頼るのではなく、強化学習によってモデルの推論能力をスケールアップすることを強調しています。
このモデルがどのように設定されているかを見てみましょう。325億パラメータがあり、そのうち310億が非埋め込みパラメータです。標準的な因果言語モデルアーキテクチャを使用し、64のトランスフォーマー層があります。また、位置埋め込みにRoPE、Swiglu、RMS正規化、および注意QKVバイアスを組み込んでいます。一般化されたクエリ注意方式を採用し、クエリに40のヘッド、キー値に8つを使用しています。コンテキスト長は131,072トークンと非常に大きく、これは2,000や4,000トークンで行き詰まってしまう多くの古いモデルからの大きな進歩です。
Quin 2.5コードをベースにしているため、一部のユーザーはエラーを避けるためにライブラリをTransformers 4.37.0以上にアップデートする必要がありました。この点には後で戻りますが、AIは急速に進化しているため、その使い方を知ることで大きな違いが生まれます。
それが、私たちがGrowth Schoolと提携して価値あるものをお届けする理由です。2024年と2025年初頭は予測不可能で、仕事は来たり去ったり、経済的安全性は決して保証されません。だからこそ、複数の収入源は単に賢いだけでなく、不可欠です。AIはそれを助けることができ、適切なスキルがあれば月に追加で$10,000を稼ぐことも可能です。
始め方がわからない場合、Growth Schoolは素晴らしいものを提供しています。25以上の強力なAIツールの使い方を学べる3時間の実践的AIトレーニングを提供しています。通常は有料ですが、最初の1,000人のAI Revolutionの視聴者は、説明欄のリンクを使って無料で参加できます。さらに、登録するだけで$500相当のボーナスリソースも得られます。
このトレーニングでは、求職のヒント、給与交渉、Excelのマスター、さらにはコンテンツ作成まで、あらゆることをカバーしています。そしてこれは技術専門家だけのものではありません。あなたが金融、営業、マーケティング、人事にいるか、まだ勉強中であっても、これはあなたに役立ちます。Growth Schoolはすでに何百万人もの人々のレベルアップを支援しており、これがAI主導の世界で先を行くあなたの番かもしれません。
もしこれがあなたにとって興味深いなら、下のリンクをクリックして無料の枠を確保してください。また、Growth SchoolのWhatsAppコミュニティに参加することも忘れないでください。AIに飛び込む他の人々と繋がるための素晴らしい場所です。
さて、QVQ 32Bに戻りましょう。なぜこれが話題になっているのでしょうか?泉チームは、最良の結果を得るために特定のサンプリングパラメータを推奨しています。例えば、温度0.6、topP約0.95、topKは20から40の間などです。また、32,768トークン以上をモデルに投げる場合は、YaRN SKファイリングを有効にすることを勧めています。これは大量のテキストをより効果的に処理するのに役立ちます。ただし、VMを使用している場合は現在、静的YaRNしか得られないため、入力の長さに関係なくスケーリング係数は固定されたままであることに注意してください。
本当の秘訣は、泉チームが2つの異なるフェーズで強化学習をどのように使用したかです。最初のフェーズでは、数学とコーディングに焦点を当てました。数学問題の最終解が正しいかどうかをチェックするシステムと、コードが特定のテストケースに合格するかどうかを確認するコード実行サーバーを持っていました。解決策やコードが実際に機能した場合にのみ、モデルを強化しました。
その後、一般的な報酬モデルとルールベースの検証者を使用した第二段階のトレーニングを行いました。このステップは、日常的なタスクにおけるパフォーマンスの向上、人間の好みとの整合性、およびエージェント能力を高めるためのものでした。そうすることで、数学やコードだけを行う一芸モデルにならないようにしました。彼らによれば、これらの追加のRL(強化学習)ステップは数学とコードの進歩を損なうことはなく、QVQ 32Bは全体的により優れた問題解決者となり、幅広い推論能力が向上したと主張しています。
現在話題になっているのは、このAIモデルがDeepSeek R1やo1 miniなどの他のモデルと比較してベンチマークでどのように立ち位置を占めているかです。公式参照の一つで共有された統計によると、QVQ 32BはAIM24で79.5を記録し、DeepSeek R1は79.8。Live Codebenchでは63.4(DeepSeek R1は65.9)、Live Benchでは73.1(対71.6)、IF Evalでは83.9(対83.3)、BFCLでは66.4(対62.8)となっています。BFCLはBerkeley Function Calling Leaderboardの略で、モデルがツールやAPIを構造化された方法で呼び出す能力をテストします。
これらはパラメータサイズの何分の一かでありながら、非常に優れた結果です。はるかに小さいモデルがそのような同等の結果を達成できることに、人々は当然ながら懐疑的です。一部の人々は、選択バイアスがあるのではないか、あるいはQVQ 32Bが特定のベンチマークに最適化されているだけではないかと疑っています。しかし、典型的なハードウェア、あるいは少なくとも少ないGPUでより快適に実行でき、かつそのような結果を達成できることは大きな成果であることに疑いの余地はありません。
もう一つのプラス点は、オープンソースであることです。これは、Hugging Faceやmodel scopeからウェイトをダウンロードできることを意味します。コードとライセンスはApache 2.0で、企業ユーザーや好奇心旺盛な趣味のユーザーは、自分のドメイン用に微調整したり、プライバシー上の理由からオフラインで保持したりすることができます。
オフライン使用の側面は、中国のEコマース大手のシステムや他の大企業プロバイダーのサーバーにデータを送信することに躊躇する一部の企業にとって大きな問題です。泉チームからの主張は、公式のQuen Chatインターフェースをスキップしてモデルのウェイトをダウンロードし、自分の安全なマシンで実行できるため、外部への通信が不要だというものです。
コミュニティ側では、Redditのユーザーたちがこれに非常に熱心になりました。一部の人々はこれをゲームチェンジャーと呼んでいます。なぜなら、320億パラメータのモデルが時に巨大なシステムを上回るパフォーマンスを発揮するからです。しかし、他の人々は実際の使用は見栄えの良いベンチマークとは異なる可能性があると警告しています。
多くのテスターは、しばしば長時間考え、最終的な回答までの時間を遅らせる大きな推論トークンチェーンを生成すると報告しています。これはおそらく、注意深く全てを振り返るように教えられた方法の副作用です。一部の人々はこれを、ミスが少なくなるという特徴と見なしていますが、他の人々は実用的な使用には遅すぎるか、冗長だと感じています。
システムプロンプトやサンプリングパラメータを調整することで、その傾向を抑え、より直接的な答えを得ることができると言われています。一方、4ビットや6ビットに量子化してローカル推論を行うと、特定のタスクで問題が発生することを発見した人もいますが、他の人々は幅広いクエリに対してまだかなり効果的だと主張しています。
モデルが新しいため、多くの人々は圧縮して小さなフットプリントにした場合のパフォーマンスの安定性をまだ模索している段階です。
企業の視点から見ると、その魅力は明らかです。CEOやCTOは、より少ないGPU、または場合によっては大きなGPUを搭載した単一のマシンでトップクラスの推論能力を得られるという話を聞くことを好みます。より大きなクラスターにお金を出す必要はありません。
泉チームは特に、自動データ分析、戦略的ビジネス計画、財務モデリング、ソフトウェア開発、さらには顧客サービスなどの用途を指摘しています。彼らによれば、QVQ 32Bは入力に最大131,000トークンを見ることができるため、より文脈に即した応答を提供できるとのことです。つまり、コードベース全体や大きな文書を入力し、関連する接続を理解させることができます。
もちろん、誰もがアリババからの真新しいモデルに頼りたいわけではありませんが、オープンウェイトであるという事実は、自分のインフラ上でホストし、ドメイン固有の微調整を大量に行い、ライセンス料や使用制限を心配する必要がないことを意味します。また、そのように設定すれば、思考の全チェーンを見ることができるため、特定の回答にどのようにたどり着いたかを追跡することができるという利点もあります。
アリババはさらに、Hugging Face TransformersやAlibaba CloudのDash Scope APIを通じてモデルを実行する方法を示すコードスニペットもリリースしました。OpenAIスタイルに慣れている人なら、類似したチャット完了メソッドを認識するでしょう。典型的なスニペットは、QVQ 32Bをtemperatureとmax_new_tokensで読み込み、クエリを送信します。違いは、リアルタイムで隠された思考の連鎖を表示するオプションの推論出力があることです。
多くの観察者がこのAIモデルを人工一般知能への探求における一つのマイルストーンと呼んでいます。泉チーム自身も、将来のバージョンではさらに高度な形態のスケーラブルRLと、より深いエージェント能力を押し進める可能性があると示唆しています。つまり、モデルは環境の何か(例えば、検索結果やユーザーのフィードバック)が以前の仮定に矛盾すると観察した場合、その推論を適応させることができるということです。
彼らはまた、強化学習をより効率的にする方法も模索しており、さらにスケールアップできるようにしています。夢は、最終的にはモデルが小さな知識ストアを補うために十分な推論を行うことができれば、5兆パラメータも必要ないということです。
ただし、モデルが珍しい事実や専門知識を求められた場合、その論理がどれだけ堅固であるかには依然として大きな疑問符がつきます。DeepSeek R1のような大規模なモデルには、専門的なトピックに関するより多くの生データが含まれている可能性があります。これは、小規模モデルのギャップを埋めるために検索拡張技術が役立つ場所です。
泉チームは、単一のアプローチが万能薬ではないことを絶対に認めています。彼らにとってQVQ 32Bは、複数段階で行われる強化学習が、より控えめなサイズのベースモデルからより深い知性を引き出すことができるという証明です。
繰り返し言及されているもう一つの詳細は、131,072トークンの拡張コンテキスト能力です。QVQ 32Bは非常に長いテキストを処理でき、一部のユーザーはコードリポジトリ全体や大規模な書き起こしでテストし、モデルは明らかに古いモデルや小規模モデルよりもはるかに多くの参照を追跡できます。
チームは、YARNスケーリングを有効にする際には注意が必要だと指摘しています。選択したフレームワークが静的バージョンのみをサポートしている可能性があり、それによって短いテキストのパフォーマンスが低下する可能性がある一方で、より大きなテキストを処理できるようになります。しかし、大きな文書を扱う本当の必要性がある人々にとっては、恐ろしいコンテキスト制限に達するよりも良いでしょう。
泉チームが警告していることの一つは、GPUメモリ使用量とスループットに注意することです。Hugging Faceでは、このモデルは絶対的な意味で小さなモデルではないと言及しています。そのため、12GBの消費者向けGPUしか持っていない場合は、量子化または部分的なCPUオフロードに頼る必要があります。
いずれにせよ、ソーシャルメディアでの反応は激しいものでした。Xでは、人々はその「猛烈な速さ」、「DeepSeek R1とOpenAI o1 miniを打ち負かす」、または時には「大型モデルよりも高いスコアを出す」ことを賞賛しています。Hugging Faceの一部の人々は、基本的に1クリックでエンドポイントに展開できる容易さに言及しています。特にローカルLlamaまたはローカルモデルコミュニティでは、全てをオフラインで実行したい人々にとって、QVQ 32BがDeepSeekの実際の競合相手になり得るかどうかを見るのを楽しみにしています。
しかし、全ての人が納得しているわけではありません。一部の人々は、特定の数学タスクには良いかもしれないが、特殊な積分や高度な論理パズルには不向きだと指摘しています。また、コミュニティの別のグループは、モデルが基本的に考えすぎて、一回の応答で何万ものトークンをダンプすることを批判しています。これは徹底性という点では素晴らしいかもしれませんが、急いでいる場合には厳しいです。
また、実際の使用は公式ベンチマークと正確に一致しない可能性があるという言及が繰り返されています。これはAIモデルの発表でよく見られることです。
それでも、全体を見れば、泉チームが会話を前進させ、多段階強化学習トレーニングが素晴らしいことができるという強い主張をしていることに敬意を払わなければなりません。このモデルをApache 2.0ライセンスの下で無料で手に入れることができるという事実は、いじりたいまたは商業化したい開発者にとって大きなプラスです。
少なくとも、これは巨大なパラメータ数と効率的な推論の間のギャップを埋める一歩を表しています。それが本当にあらゆるシナリオでDeepSeek R1と肩を並べるかどうかは、より広範なテストによってのみ確認されるでしょうが、その期待は本物であり、それには良い理由があります。
これは、コードの作成から数学の解決、整合性のある複数段落の説明の生成まで、幅広いタスクを確実に処理できるモデルであり、しかもそれを自分のハードウェアに保持することができます。
AIに熱心な方であれば、Hugging Face、Model Scopeでテストしたり、コードをいじりたくない場合はQuen Chatをチェックしたりすることで、試してみる価値があります。
これらのオープンモデルが高度な推論能力で登場し、特殊なスーパーコンピューティングリソースを必要としないことは素晴らしいことです。自己報告されたベンチマークに同意するかどうかにかかわらず、QVQ 32Bは現在利用可能であり、あなた自身のプロンプトでテストし、既存のソリューションと比較して測定し、自分自身で判断することができます。
それが本当に多くのタスクでDeepSeek R1と肩を並べることができるならば、強化学習とより小さなパラメータ数が一緒になって巨大なモデルに挑戦するAI世界の次の大きな変化を見ていることになるかもしれません。一つ確かなことは、このドメインではすぐに退屈することはないということです。
コメント欄にあなたの考えを投稿してください。この解説が気に入ったら、いいね、購読、共有を忘れないでください。視聴していただきありがとうございます。次回の動画でお会いしましょう。
コメント