0.6Bから235B：Qwen3のデュアルモードAIの構築方法

5,667 文字

0.6B to 235B: HOW TO Build Qwen3’s Dual Mode AI

The technical paper for the Qwen3 model was published today and I explore the specific pre-training phases and the post-...

こんにちは、皆さん。私たちはQN3モデルの新しい技術レポートを公開しました。特に私が興味を持っているのは、彼らがどのように思考と非思考モードの動的切り替えを実現したかということです。これは重要なのかと思われるかもしれませんが、こちらのAIM24とAIM25のパフォーマンスデータをご覧ください。
赤色で示されているのが非思考モードで、青色が思考モードでの精度向上です。一つのモデルで両方のモードを持つことができる方法は、本当に魅力的です。今日の主な質問は、複雑な多段階推論のための思考モードと、迅速な文脈駆動型の即時応答のための非思考モードを備えたこれらの思考モデルをどのように作成するかということです。
それでは動画を開いて、古典的なトレーニングプロセスを思い出しましょう。事前学習、教師あり微調整、GRPOなどのPO手法による強化学習、そして推論があります。彼らが行ったのは、事前学習シーケンスにおけるさまざまな可能性、ステップ、シーケンスを調べて評価することでした。
簡単なタスクで試して評価し、Q13チームの技術レポートによると、この3つのステップが最適であることがわかりました。まず、一般的な知識について事前学習し、次に科学とコード特有の事前学習と数学特有の事前学習を継続し、最後に32kトークン長までの長文脈事前学習を行いました。
これを行った後、彼らは結果のモデルを評価し、新しい事前学習モデルができたことに満足しました。しかし次にどうするか、思考モードと非思考モードの動的切り替えをどのステップで実装するのかが課題でした。Q3が公開した解決策は以下の通りです。まず、長いチェーンオブソートのコールドスタートを使った教師あり微調整から始め、次に推論のための強化学習GRPOを使用し、その後重要なステップである推論と非推論の間の思考融合を行い、最後に一般的な強化学習GRPOの実装を行います。
事前学習からポスト学習まで、トレーニングプロセスは線形シーケンスを持ち、結果として2つの基本モデルが生まれます。一つはエキスパートモデルのミックスチャーであるQ13 235億の訓練可能なパラメータ（実際に使われるのは220億パラメータ）と、もう一つは非ミックスチャーの密なQ13 32bモデルです。
これらの2つのモデルがあれば、さらにモデルを蒸留することが容易になります。これは簡単な蒸留タスクです。すぐに詳しく説明します。現在、密なカテゴリとエキスパートミックスチャーカテゴリの両方で最高性能のモデルを持っています。
残りは蒸留です。継続するには天才的なひらめきが必要です。事前学習で示したように、これはカリキュラム学習です。これは教科書そのままの3段階カリキュラム学習の美しい実装です。まず、一般的な理解と言語理解のための一般事前学習ステージ1があります。Q13が理解し話すことができる119の言語と様々な専門知識があることを覚えておいてください。
データは実際の多様な領域から約30兆トークンで、多言語テキスト、書籍、スタンプコンテンツ、コードなどがあり、生のテキストに対する教師なし事前学習で、単にトークン予測タスクと基本的なパターンを学習しました。これに続いてステージ2の知識集約型事前学習が行われました。
ここでは、科学、数学、コーディングの推論とドメイン固有の専門知識に焦点を当てました。彼らはここで知識豊富なコーパスからのデータを多く使用し、Q12.5 mとQ12.5コーダーによって生成されたデータも使いました。これらのデータをすべて集めて、特に複雑なタスクの処理において推論プロセスに重要な特定のドメインにおける継続的な事前学習を行いました。そして、実際に長い論証のチェーンを持つために、ステージ3で長文脈事前学習を32kトークンに増やしました。
彼らは32kまでのシーケンスを持つ長い文書、PDF、技術マニュアル、書籍を使用し、この本当に長い入力に対して注意メカニズムを最適化するためにYARNのような技術を使用しました。YARNの方法論について詳しく知りたい場合は、私がロープからコーナルロングロープ、リングアテンションでのデータスケーリング、YARNまですべてを詳細に説明した特定のビデオがあります。
もちろん中心は、この特定のシーケンス、教師あり微調整とGRPOの組み合わせです。4つのステップすべてを詳しく見ていきましょう。最初のステップは簡単です。チェーンオブソートのコールドスタートです。このためにデータセットを生成します。
推論タスクのためのチェーンオブソートデータを生成します。これは、広範なカテゴリにまたがる包括的なデータセットを構築することを意味し、データセット内の各問題は検証済みの参照回答やコードベースのテストケースと対になっています。これがコールドスタートでのチェーンオブソート微調整です。
彼らが達成したいのは、過度に即時推論性能を強調することなく、モデルに基本的な推論パターンを植え付けることです。この方法を使えば、次のステップである強化学習フェーズが本当に効率的になります。
コールドスタートと強化学習のバランスは見た目ほど簡単ではありません。では、次のステップに進み、推論強化学習ステージで使用される推論クエリ検証ペアを見てみましょう。彼らはコールドスタートでは使用されなかったが、コールドスタートモデルから学習可能な、できるだけ難しく興味深いもので、広範な副ドメインをカバーする約4,000のクエリ検証ペアを用意しました。そして、データセットを使ってRLを行い、GRPOを採用しました。
興味深いことに、このステップの性能状態が示されています。M24ベンチマークとエキスパート235Bモデルのミックスチャーを使用した場合、合計170の強化学習トレーニングステップにわたって性能が70から85へ向上しました。
次のステップが本当に重要で興味深いです。非思考から思考への動的切り替えがどのように起こるのかを学びたい場合、それはここで起こります。ここでこのステップで起こります。すべての以前に開発された思考モデルに非思考機能を統合します。
これは簡単で興味深いステップです。単純なことから始めて複雑さを増すのではなく、思考能力を持つ複雑なものを作った後、今度は非思考能力を統合します。彼らはこれをテンプレート方式で行います。
本当に単純で美しいので、どのようにこれが行われるかを示します。思考と非思考タスクのための別々のモデルを配備するコストと複雑さを減らしたいのです。一つのモデルで両方を行うことができ、前のステップで残した推論モデルに継続的な教師あり微調整を行い、二つのモデルを融合するためのチャットテンプレートをデザインします。技術レポートでは表記が非常に似ています。思考モードと思考内容があり、一方では非思考モードのラベルがあり、思考内容が単に欠けているだけです。それだけの違いです。単純で学びやすく、パターン認識EIに最適です。
もちろん、ここで使用するデータセットは、追加の教師あり微調整のための思考データと非思考データの両方を持っている必要があります。非思考データは、コーディング、数学、指示に従う、多言語タスク、創造的な文章、質問応答、ロールプレイングなど、多様なタスクをカバーするように慎重に選定されています。
ここで本当に魔法が起こり、教師あり微調整のためのデータをここで準備する必要があります。興味深い詳細があります。Q3の場合、思考プロセスの最大長を38,912トークンまで制御できる思考予算を持つことができます。
これは単純な「思考停止」命令で行われます。これが興味深いのは、特定の時間や思考の長さの予算内で回答を生成する能力が、思考モード融合を適用した結果、自然に生まれるということです。素晴らしいですね。
思考モードと非思考モードのスキーマが同一のモデルがあり、そしてなんらかの形でモデル自体が、ユーザーが定義できる特定の最大長を持って、この境界条件内に留まろうとすることを把握します。本当に興味深いです。そして、GRPOを使った一般的な強化学習の主要部分に到達します。
これは本当に集中的な部分で、4Kで録画しましたので大きな画面で読むことができます。この一般的な強化学習で達成したい目標強化は以下の通りです。指示に従う能力、思考と非思考を含むフォーマットに従う能力、オープンエンドな質問のための参照整合性、そして重要なのはエージェント能力です。指定されたインターフェースを通じて正しくツールを呼び出します。
そして、特殊なシナリオのための非常に特別な能力があります。将来的には、直接システムや検索拡張生成タスクを最適な方法で統合することが本当に興味深いと考えています。
彼らはすでにragエージェントを使って行う主要なタスクについて強化学習を実装しています。本当に興味深いです。次のステップでは、彼らはクラシックな報酬モデルを使用していますが、興味深いことに3つの異なるタイプの報酬を活用しています。まず、古典的なルールベースの報酬から始めます。
これは指示に従うことやフォーマットに従うことなどの一般的なタスクに役立ちます。よく設計されたルールベースの報酬は、高い精度でモデル出力の正確さを評価できます。次に、参照回答を用いたモデルベースの報酬に進みます。ここでは、Q2.572B指示モデルを使用して、参照に基づいてモデル応答のスコアを付けます。
この方法論は、多様なタスクを柔軟に処理することを可能にします。また、参照回答なしのモデルベースの報酬もあります。他のLLMの助けを借りず、人間の選好データを活用して、モデル応答にスカラースコアを割り当てる報酬モデルを訓練します。これがデータの複雑さにおいてこれらのステップを正しく取得すれば、それが本当にこの特定のモデルの成功を推進していると思います。
公開された事実を見てみましょう。これはQ1による技術レポートで、2025年5月14日に公開されました。彼らは美しい説明を提供しており、透明性があるのは素晴らしいことです。彼らはこれをあなたに説明しています。どのように行ったか、どのようにモデルをトレーニングしたか、各ステップで何を達成したかったのか、これは本当に美しいことです。利用可能なすべてのモデルがこのような明確な説明を持っていることを願います。すべてのQ13モデルはApache 2ライセンスの下で公開アクセス可能です。
私たちの2つの主要なモデルができたので、蒸留プロセスでより小さなモデルを生成することは比較的簡単でした。彼らはこれを「強から弱への蒸留パイプライン」と呼び、これは軽量モデルを最適化するために設計されました。彼らは0.6億から14億までの5つの密なモデルと、30億の活性パラメータを持つエキスパートモデルのミックスチャーという1つの追加モデルを持っています。蒸留プロセスは予想通り、オフポリシー蒸留とオンラインポリシー蒸留です。ここで学生モデルは微調整のために独自のポリシーシーケンスを生成し、プロンプトがサンプリングされ、学生モデルはリアルタイムサンプリングで思考モードまたは非思考モードのどちらかで回答を生成します。そして学生モデルは、教師モデルのロジットと整合させることで、クルバックライラーダイバージェンスを最小化するように微調整されます。これは確率分布シフト間の乖離とどれだけ近づけるかを示すものです。Q13 3のトレーニングプロセスの絶対的に魅力的な技術論文です。
いつものように、ビデオの最後に著者自身による結論のスクリーンショットをお見せします。このモデルが特定の方法で応答できる119の言語があるというのは驚くべきことだと思いますが、本当に絶対的に魅力的なのは、未来と研究です。数人の将来の重要な分野に焦点を当てると述べています。品質が高く、文脈において多様なデータを使用することで、事前学習を拡大し続けるでしょう。同時に、モデルアーキテクチャとトレーニング方法自体を改善し、極端に長い文脈へのスケーリングを行っています。
さらに、環境フィードバックからも学習するエージェントベースの強化学習システムに特に重点を置いて、強化学習のための計算リソースを増やす計画があります。これは、環境内でのアクションと相互作用する野生のロボットを持つロボットシステムです。彼らはセンサー、視覚的なものや、ライダーやその他のセンサーを通じて即時のフィードバックを受け取り、それを継続的な学習プロセスに統合する必要があります。もちろん、エージェントベースの強化学習システムは、各エージェントが特定のタスクのための専用のエキスパートエージェントになるからです。そして、これにより、推論時間のスケーリングを必要とする複雑なタスクに取り組むことができるエージェントを構築することができるといいます。絶対的に魅力的なトピックです。
Q13の実際の動作を見たいなら、技術レポートを読むだけでなく、2つのビデオがあります。最初のビデオは、ホットスワップ可能な思考モードを持つ235億の訓練可能なパラメータを持つ大きなモデルです。そして、より小さなモデルのこの良いパフォーマンスに本当に驚きました。
Q3 Q3による30億のエキスパートモデルのミックスチャーについて話しています。私はいくつかの論理的推論テキストを実行し、これらのテストが素晴らしいことに感心しました。Q13のメインモデルは絶対にお勧めですが、特に科学、数学、そしてより複雑な推論に興味がある場合は、小さなモデルも特定のテストに最適です。これらはオープンソースであるという利点もあります。このビデオを楽しんでいただけたなら、ぜひ購読してください。次の動画でお会いしましょう。