
5,595 文字

さあ、誰がこの展開を予測していたか分かりませんが、Qwen3が登場しました。ほとんどの人はDeepseekが何か新しいもの、おそらく新しい推論モデルをリリースすると予想していたでしょう。しかし意外なことに、Deepseekではなく、別の中国のオープンソースAIモデルが驚くほど優れた性能を示しています。見ていきましょう。
まず第一に、AIモデルの命名規則は本当に混乱していますよね。あなたも私も知っていることですが、Qwen3はそれを全く新しいレベルに引き上げています。主力モデル、今日主に話題にするのはQwen3 235B A22Bです。
これは非常に紛らわしいかもしれないので、簡単に説明します。Qwen3はモデルファミリーの名前で、大型旗艦モデルや他の高速または小型モデルを含みます。235Bはモデルのパラメータ数を指し、これはモデルのサイズと考えられるものです。しかし、このモデルは「専門家の混合(Mixture of Experts)」方式で、質問内容に応じてモデルの異なる部分(異なる専門家)が呼び出されます。
つまり、あらゆる質問に対してモデル全体を使用するのではなく、その部分だけを使用するということです。これが「有効化されたパラメータ」と呼ばれるもので、A22Bは有効化されるパラメータ数が220億であることを示しています。しかし大きな見出しに移りましょう。重要なのは、このモデルがDeepSeek R1、O1、O3 Mini、Grok 3、Gemini 2.5 Proなどの他のトップクラスのモデルと競争力があるということです。
このモデルでは、拡張思考モードを使用するかどうかを選択できます。つまり、推論モデルとして使用するか、通常のモデルとして使用するかを切り替えることができます。
ここで旗艦モデルのQwen3を左側に、右側にはGemini 2.5 ProとOpenAIのO3 Miniがあります。Gemini 2.5 Proはおそらく最も優れた競合相手で、良い比較対象です。O3 Miniも非常に強力ですが、現在はフルO3やO4 Miniといったさらに優れたモデルがあります。注目すべきは、Qwen3がO3 Miniを上回り、Arena HardのテストでGemini 2.5 Proに非常に近い性能を示していることです。
2024年の高度な数学コンペティションであるAIMEME 24においても、Gemini 2.5 ProとO3 Miniの間に位置しています。AIMEME 25でも同様で、トップに非常に近い位置にあります。Live Code Benchでは実際にGemini 2.5 Proを上回り、Code Forcesでも両方のモデルを上回っています。また、他のテストでもGemini 2.5 ProとO3 Miniと非常に競争力があるか、あるいは上回っています。
もちろん、ベンチマークは全体像の一部に過ぎません。単に見るだけでは不十分で、開発者がこれらのベンチマークに過度に最適化したり、ゲーム化したりする場合もありますが、それが実際の使用ケースに貢献するとは限りません。
さらに、オープンウェイト(公開)される6つの密集型モデルがあります。密集型モデルは専門家混合型の反対で、専門家混合型は異なる部分が1つのモデルに結合するのに対し、密集型は1つの大きな塊のようなモデルです。これらのモデルは320億パラメータから60億パラメータまでの範囲で、事後学習モデルと事前学習モデルがHuggingFace、Model Scope、Kaggleで利用可能です。
彼らはこれらのモデルのリリースとオープンソース化が大規模基盤モデルの研究と展開を大幅に進めると期待しています。彼らの目標は、世界中の研究者、開発者、組織にパワーを与えることです。興味深いことに、チームの開発者の一人は、Qwen3がモデルカードには書かれていない非常に興味深い機能を持っていると述べています。研究と製品の両方に新しい可能性を開くと思うとのことです。
人々がこれに触れ始めると、何に良いのか、何に役立つのかが明らかになるでしょう。しかし明らかに、モデルのさまざまなバージョン、基本モデル、事後学習モデルをすべて公開し、これらの結果をどのように達成したかを説明することは、研究開発にとって、そして世界的なAIの進歩にとって素晴らしいことです。オープンソースAIは、誰もが前進することを可能にします。
主な特徴のひとつは、思考モードと非思考モードの両方をサポートしていることです。思考モードは推論モデルのようなもので、最終的な答えを出す前にすべてを考え抜きます。非思考モードでは、モデルは素早く、ほぼ瞬時に応答します。彼らが注目しているのは、これら2つのモデルを統合することで、モデルが安定的かつ効率的な思考予算制御を実装する能力が大幅に向上することです。
つまり、モデルは難しい問題などに対してより多くのトークンを使って考えたり、逆に考えずに素早く答えたりすることができます。こちらはAIME 24と25のパフォーマンスを示しており、下側は思考予算(千トークン単位)を示しています。1,000トークンから32,000トークンまでです。
赤い線は非思考モードで、横一直線の結果を示していますが、思考モードでは問題について深く考えることを許すにつれて、かなり急激な改善が見られます。16,000トークンまでで約85%の正解率となり、32,000トークンではさらに少し上昇します。AIME 25 Live Code Benchでも同様に改善が見られ、GPQAダイヤモンドでは2,000トークン以上で大幅に改善しています。
119の言語と方言をサポートし、エージェント機能も向上しています。後で、Qwen3チームからの1分以下の短い動画をお見せしますが、要点は彼らがコーディング機能、エージェント機能を向上させ、MCPのサポートも強化したことです。MCPは、さまざまなソフトウェアツールと対話するためのAnthropicのモデルコンテキストプロトコルです。
Qwen3のデータセットは、Qwen2.5と比較して大幅に拡張されています。Qwen2.5は18兆トークンで事前学習されましたが、このモデルQwen3はほぼ2倍の量を使用しています。これはウェブだけでなく、PDF形式の文書からも収集されています。興味深いことに、彼らはQwen2.5VLを使用してテキストを抽出し、Qwen2.5を使用して抽出されたコンテンツの品質を向上させています。
つまり、彼らは以前のモデルを使用してデータを収集し、フィルタリングして品質を向上させ、量を増やしています。また、数学とコードのデータ量を増やすために、Qwen2.5 MathとQwen2.5 Coderを使用して合成データを生成しています。これには教科書、質問回答ペア、コードスニペットが含まれます。
これは私たちが話してきたアイデア、つまり各世代のモデルが次世代のAIモデルの構築を支援し、各反復でより良くなるというアイデアに沿っています。事前学習には3つの段階があります。S1、最初の段階では、4,000トークンのコンテキスト長で30兆以上のトークンで事前学習されました。これにより基本的な言語スキルと一般的な知識が得られます。
第2段階では、知識集約型データ、つまりSTEM(科学、技術、工学、数学)、コーディング、推論タスクなどの割合を増やして改善しました。モデルはさらに5兆トークンで事前学習されました。最終段階では、高品質の長いコンテキストデータを使用してコンテキスト長を32兆トークンに拡張しました。
次に事後学習です。基本モデルがあり、第1段階は長いChain of Thought Cold Startです。Chain of Thoughtは答える前に質問を考え抜く能力です。長いChain of Thought Cold Startとは、基本的に推論方法の少数の例を与えて、推論能力を開始させることだと理解しています。
第2段階は読解・推論・強化学習です。正解を得たときに、それを肯定的に強化するなどです。第3段階は思考モード融合で、2つのモード(思考と非思考)があるため、これは両者の融合です。第4段階は一般的な強化学習です。
生成されるのは大型モデル、235B A22B(これはクレイジーなモデル名ですが)とQwen3 320億パラメータの2つです。これは密集型モデルとモデル専門家の混合です。
軽量モデルについては、強から弱への蒸留を使用しています。基本的にこれらのモデルの出力を取り、それを合成データとしてこれらの小型軽量モデルを訓練するために使用しています。過去の研究から分かるように、これにより非常に小さく、安価で高速なモデルが生成され、それぞれの専門分野で非常に優れた性能を発揮できます。
大きなモデルは教師モデル、これらは生徒モデルです。そのため、かなり小さくずっと高速ですが、能力の多くを維持している可能性が高いモデルが得られます。能力は少し失われますが、それでも良好で、はるかに高速に実行できるという利点があります。小さいモデルの一部はエッジデバイスやスマートフォンなどで使用できます。
ここで簡単に第1段階について述べています。多様な長いChain of Thoughtデータを使用してモデルを微調整しました。このプロセスは、モデルに基本的な推論能力を備えさせることを目的としていました。第2段階では、強化学習のための計算リソースの拡張に焦点を当て、ルールベースの報酬を活用して、モデルの探索と活用の能力を向上させました。
私たちはモデルが独自の問題解決スキルを開発することを目指しています。目標は、さまざまなことを試し、何が機能するか、何が機能しないかを見極め、また正解を得るときにどの戦略が正解をもたらすかを理解することです。
私のビデオで、小さなヘビがヘビゲームをプレイするように訓練する様子を見たことがあるかもしれませんが、訓練中は「とにかくやってみて、何でもいいから試してみて、何が機能するか見てみよう」と言います。探索するのです。そして訓練が終わったら「よし、ゲームタイムだ、もう遊ばないで、機能することだけをやれ」と言います。
興味深いことに、DeepSeekはこのアイデアを思いつき、GRPO(Group Relative Policy Optimization)と呼んでいます。これは出力を批評し、ポジティブまたはネガティブな強化学習を行う批評モデルをスキップすることで、はるかに効率的な強化学習トレーニングを可能にします。代わりに、グループスコアからベースラインを推定し、計算コストを削減します。RedditのHassan 789氏によるこの解説に感謝します。
DeepseekがモデルをリリースするときにGRPOについてより深く掘り下げるでしょう。明日になるのか、今週中になるのかわかりませんが、考えるとクレイジーな話です。これを正しく読んでいるなら、彼らはDeepseek社と同じアプローチは取らなかったようです。
第3段階では、第2段階から強化された思考モデルによって生成された長いChain of Thoughtデータと一般的に使用される指示調整データの組み合わせで微調整することにより、非思考機能を思考モデルに統合しました。これにより、推論と迅速な応答能力のシームレスな融合が確保されました。
彼らはこのモデルの一部を並行して構築し、その後1つに融合しているように見えます。そして、より重要なのは、彼らがそのすべてをこれらのブログ記事で説明していることです。また、これについての論文も発表する予定です。まだ見ていないので現在出ているかどうかはわかりませんが、彼らが開発したすべてのこと、新しいトリックや戦略はすべて世界と共有される予定です。
おそらくその大部分、もしくは全てが、他の人々が結果を再現し、このイノベーションのサイクルを継続することを可能にします。これは素晴らしいことです。そして最後に、指示に従う能力、フォーマットに従う能力、エージェント能力などを向上させるための一般的な強化学習があります。
興味深いことに、ブログ記事の最後で、彼らは「モデルのトレーニングに焦点を当てた時代から、エージェントのトレーニングに焦点を当てた時代へと移行していると信じています。私たちの次の反復は、すべての人の仕事と生活に意味のある進歩をもたらすことを約束します」と述べています。
彼らが提供した動画を見て、改善されたエージェント機能を確認しましょう。彼らはオープンソースエコシステム、使用だけでなく研究者や製品を構築する人々のためのさまざまなオープンソースリソースの提供にも力を入れているようです。
このすべてはApache 2.0ライセンスで実行されており、商業目的で使用することができます。もしあなたがこれをベースにビジネスなどを構築しているなら、それは大歓迎です。確認のために簡単にGoogle検索をしましたが、許可的商業利用が可能で、修正して配布することもできます。出力物からの派生作品を作成し、それを独自のものとして販売することも可能です。適切な帰属を行う必要がありますが、派生作品を同じ条件でライセンスする必要はありません。
これについてどう思いますか?Deepseekがリリースされた場合、これよりさらに優れたものになるでしょうか?いずれにせよ、これについてどう思うか教えてください。そしてこのエージェント機能の動画を見てみましょう。
コメント