
6,536 文字

私たちは現在、Gemini 2.5 Proに匹敵する完全にオープンソースでオープンウェイトのモデルを手に入れました。Qwen3が登場したばかりですが、その性能は驚異的です。ベンチマークをお見せしましょう。
こちらが彼らのフラッグシップモデルであるQwen3 235Bで、220億のアクティブパラメータを持っています。ここに示されており、すべてのフロンティアモデルが含まれています。O1、Deepseek R1、Grok 3 Beta、Gemini 2.5、そしてO3 Miniがあります。
Arena Hardでは、Gemini 2.5 Proが最高位を獲得していますが、わずかな差です。AMY 24と25では、Qwen3が85.7と81.5を記録し、Gemini 2.5 Proが92と86.7です。確かに優れていますが、それほど大きな差ではありません。Live Codebenchでは70.7で、Gemini 2.5 Proの70.4を上回っています。Code Forcesでは実際に2056というより高いELOレーティングを獲得しており、これはGemini 2.5 Proの2001と比較しても高いです。
このモデルは特にエージェントとコーディングに最適化されています。ご覧のように、関数呼び出し能力をテストするBFCLベンチマークでは、大型235Bモデルが70.8、Gemini 2.5 Proが62.9です。実際、より伝統的なモデルであるQwen3 32B密モデルも70.3を記録しており、Gemini 2.5 Proの62.9と比較すると優れています。
このより小さなモデルでさえ、このベンチマークによれば関数呼び出しでより良いパフォーマンスを発揮します。また、30億のアクティブパラメータを持つ300億パラメータのエキスパートミックスチャーモデルは、あなたのマシンで驚異的な速さを実現するでしょう。このバッチの中で最高のモデルです。これを前世代のQwen 2.5と比較してみましょう。
Gemma 3 27B、最近登場したDeep Seek V3、11月時点のGPT-4o。Arena Hardでは91対GPT-4oの85。AMY 24と25では80と70対11と7、Live Codebenchでは62対32です。これは本当に素晴らしいモデルです。
しかし、それだけではありません。これらのモデルには特別な点があり、他ではあまり見られないものです。まず、ハイブリッド思考モデルであることです。これは以前にも見たことがありますが、思考予算を調整できるのです。彼らが示しているのは、使用するトークン数に応じてなめらかなパフォーマンス向上が見られることです。
ここで赤い線で示されている非思考モードをご覧ください。一貫したパフォーマンスですが、より多くの思考能力をより多くのトークンで与えると、あらゆる面でパフォーマンスが向上します。AMY 24、AMY 25、Live Codebench、GPQA Diamondの結果がこちらです。
Qwen3モデルは問題解決へのハイブリッドアプローチを導入しています。思考モードでは、モデルは最終的な回答を提供する前に段階的に推論するための時間をかけます。これは深い思考を必要とする複雑な問題に理想的です。非思考モードでは、モデルが迅速で瞬時に近い応答を提供し、速度が深さよりも重要な簡単な質問に適しています。この柔軟性により、ユーザーはタスクに応じてモデルが実行する思考量を制御できます。
重要なのは、これら2つのモデルの統合により、安定的で効率的な思考予算制御を実装するモデルの能力が大幅に向上することです。タスク固有の予算をより簡単に設定でき、コスト効率と推論品質の間でより最適なバランスを達成できます。これがバイブコーディングに使用されると考えてみてください。
バイブコーディングをするとき、時には非常に難しいタスクを与えることがあります。この機能を構築するとかテストを書くとか言いますが、そういったタスクに対しては思考して時間をかけ、可能な限り最高の回答を出力してほしいと思います。しかし、他にも少し面倒くさいことがあり、「テストが通ることを確認して、コードをコミットしてデプロイして」と一つのプロンプトにすべて書いてしまうこともあります。
これらのほとんどは単にターミナルコマンドを実行するだけで、すべての追加的思考は必要ありません。このモデルはそういった場合に最適です。必要ないときに待って多くの思考をさせるのではなく、リアルタイムで思考予算を調整できるのです。
Qwen3はMCPツール使用に最適化されているため、最高のMCPツールにアクセスできるはずです。今日のスポンサーであるZapierを通じてそれが可能です。彼らは数千のMCPツール用のMCPサーバーをリリースしました。Zapierについてお伝えできることにとても興奮しています。私は文字通り10年以上彼らを使用しています。
以前の会社でも使っていましたし、今日も使っています。そして今、彼らの数千のツールがMCPサービスを通じてあなたのエージェントや人工知能に利用可能になりました。これをチェックしてみてください。ZapierのMCPであなたのAIを任意のアプリに接続できます。Zapierは長い間、作業の自動化を行ってきたので、彼らは何をしているのか正確に理解しており、多くのツールを提供しています。
セットアップも非常に簡単です。MCPサーバーに追加したいアプリを設定すると、URLが提供され、Windsurf Cloud Desktop、Cursor、またはその他のMCPツールを利用する場所にプラグインできます。MCPサービスの一部として使用できるアプリは7,000以上あります。または、直接自動化を設定したい場合は、コードを1行も書かずにすべてを設定できます。
無料プランで始めることができ、必要に応じてスケールアップできます。Zapierをチェックして、MCPサーバーを設定し、Qwen3に接続して試してみて、どう思うか教えてください。リンクはすべて下に記載します。Zapierに再度感謝します。
では、Qwen3に戻りましょう。Qwen3ファミリーの一部としてリリースされた2つのエキスパートミックスチャーモデルと6つの密な伝統的なモデルがあります。異なるモデルを見てみましょう。
まず、彼らのフラッグシップモデル、Qwen3 235B。2,350億パラメータと220億のアクティブパラメータを持っています。こちらの表記でActiveと示されています。128のエキスパートがあり、そのうち8つが推論時にアクティブ化されます。コンテキスト長は比較的短いです。128Kは現在の最低限のものです。もっと長いものを見たかったですが、このリリースですべてを得られたわけではありません。
次に、Qwen3があります。これは300億パラメータモデルで、30億のアクティブパラメータを持ちます。非常に効率的です。30億のアクティブパラメータは、300億をGPUに収めることができれば、このモデルは非常に高速に動作することを意味します。48層あり、同様に128の合計エキスパート、8つのアクティブ化されたエキスパート、128kトークンのコンテキスト長があります。
その後は密モデルです。これらはより伝統的なモデルです。32Bから6億パラメータまでのすべてがあります。それは60億です。そして、80億から320億までは128kトークンのコンテキストウィンドウを持ちます。6億から40億までは32Kです。
私にとって最も印象的な部分は、O3およびO4シリーズのモデルでしか見たことがない、思考の連鎖中のツール呼び出しを行うことです。これをご覧ください。このデモでは、GitHubのスター数を取得し棒グラフをプロットするタスクを示します。
前述の通り、Qwen3はエージェンティックなユースケース、コーディング、特にここで言及されているMCPに非常に優れています。プロンプトを出力しており、これは320億パラメータモデルで思考中です。
ここで始まります。ツール呼び出し開始。フェッチ。ツール呼び出し終了。思考を続けています。これは新しいプロンプトではありません。別のツール呼び出しを開始しました。また思考に戻りました。コードインタープリタのツール呼び出しを開始しました。終了。
このように、思考し、コードを書き、思考し、MCPツール呼び出しを実行しています。そして最終出力はGitHubのスター数の棒グラフです。次に彼らはコンピュータの使用を示します。
「ファイルタイプ別にデスクトップを整理してください」。思考中、非常に速く思考中です。どのモデルを使用しているかは実際には見えません。ツール呼び出しを開始しました。ファイルシステムで許可されたディレクトリの一覧表示。ツール呼び出し終了。思考に戻ります。そして今からツール呼び出しを開始します。
ファイルシステムのディレクトリ一覧。まだ思考中です。すべてを調べています。さらにツール呼び出しがあります。ディレクトリ作成。ディレクトリ作成。ファイル移動。ファイル移動。これらすべてが同じ推論実行内で行われています。本当に素晴らしいです。そして、整理が完了し、フォルダを作成し、ファイルタイプに応じて正しいフォルダにファイルを配置しました。
それでは、事前学習について話しましょう。彼らは実際にどのようにしてこれらのモデルを作ったのでしょうか?Qwen3はQwen2.5と比較して大幅に拡張されています。Qwen2.5では、18兆トークンで学習されましたが、Qwen3はその約2倍の36兆トークンを使用し、119の言語と方言をカバーしています。
データセットの構築方法も同様に興味深いです。ウェブだけでなく、PDFのような文書からもデータを収集しました。「PDFのような」が何を意味するのかはわかりませんが、おそらくPDFとPDFに変換できるものすべてを指すのでしょう。彼らはQwen2.5VLを使用して文書からテキストを抽出し、Qwen2.5を使用して抽出されたコンテンツの質を向上させました。これは前世代のモデルを使用して、次世代のモデルのデータを作成することです。
数学とコードのデータ量を増やすため、Qwen2.5 mathとQwen2.5 coderを使用して合成データを生成しました。合成データの非常に強力な使用が見られます。これには教科書、質問回答のペア、コードスニペットが含まれます。そして、彼らの事前学習プロセスには3つの段階がありました。
第一段階では、モデルは4,000トークン(4Kトークン)のコンテキスト長で30兆以上のトークンで事前学習されました。この段階でモデルに基本的な言語スキルと一般的な知識を提供しました。これはいつも見るものです。第二段階では、STEM、コーディング、推論タスクなどの知識集約的なデータの割合を増やしてデータセットを改善しました。
そして、モデルはさらに5兆トークンで事前学習されました。最終段階では、高品質の長いコンテキストデータを使用してコンテキスト長を32Kに拡張しました。そして、事後学習も非常に興味深いものでした。
段階的な推論と迅速な応答の両方が可能なハイブリッドモデルを開発するために、4段階のトレーニングパイプラインを実装しました。まず、長い思考連鎖(long chain of thought)です。ここにベースモデルがあります。次に、長い思考連鎖のコールドスタートで事後トレーニングを行いました。
この最初の段階では、数学、コーディング、論理的推論、STEM問題などのさまざまなタスクとドメインをカバーする長い思考連鎖データを使用し、すべてはモデルに基本的な推論能力を備えさせることを目的としていました。
次に、以前にも見た推論強化学習を使用しました。第二段階では、強化学習のための計算リソースの拡大に焦点を当て、ルールベースの報酬を利用してモデルの探索能力を向上させました。第三段階は思考モデルの融合です。
ちなみに、自分で行いたい場合は、そのためのコードすべてが公開されています。第三段階では、長いCO2データと一般的に使用される指示調整データの組み合わせでモデルを微調整することで、非思考能力をモデルに統合しました。データは第二段階の強化された思考モデルによって生成され、推論と迅速な応答能力のシームレスな融合を確保しました。
そして第四段階、一般的な強化学習です。ここで2つのモデルが得られます。第四段階では、20以上の一般的なドメインタスクにわたって強化学習を適用し、モデルの一般的な能力をさらに強化し、望ましくない行動を修正しました。その後、強力なトーク蒸留があり、そこでモデルの小さなバージョンが得られます。
モデルを試してみたい場合は、すぐにダウンロードできます。LM Studio、MLX内のO Lama、Llama CPP、K Transformersで利用可能です。私はLM Studioを使っていますが、多くの人がこれがLlama 4の立場を脅かし、Llamiconの前日に特に残念だと指摘しています。
こちらがQwen3 235B、彼らのフラッグシップモデルで、Llama 4 Maverickと比較しています。これは彼らのフロンティアモデルです。Llama 4は4,020億パラメータで、全体的には大きなモデルですが、Qwen3の2,350億と220億に比べて、使用するアクティブパラメータは少ないのが興味深いところです。
ベンチマークを全体的に見てみましょう。Qwen3はLlama 4を上回りました。MMLU 87対85。Mmlu Reduxも同様です。Super GPQA 44対40。こちらにGPQAがあり、素晴らしい改善が見られます。GSM AKもあります。文字通り全体的に上回っています。この多言語タスクを除いてはQwen3が優勢です。
Artificial Analysisはすでに独自のベンチマークの一部を実行しています。見てみましょう。これが現在の位置です。これはGPQA Diamond科学的推論です。彼らのフラッグシップモデルは70%です。こちらを見ると、確かにGemini 2.5はまだ84%で大幅にリードしており、O3が僅差で2位です。
興味深いことに、Deepseek R1とLlama 3.1 Neatron Ultraのすぐ後ろに位置しています。これはNVIDIAフレーバーのLlamaバージョンで、前世代のLlamaです。アクティブパラメータ数に対するGPQA Diamondを見てみましょう。
わずか30億のアクティブパラメータを持つこのQwen 3Bの推論モデルがここにあります。X軸では左側が良く、Y軸のGPQA Diamondでは上にいくほど良いです。これは本当に優れています。こちらが彼らのフラッグシップ235Bモデルです。こちらがLlama 4 Maverick、Llama 4 Scoutで、それよりかなり下です。Deepseek R1はわずかに上にあります。そしてGemmaモデルはこちら下の方です。
私はQwen3、30億のアクティブパラメータを持つ300億パラメータモデルをダウンロードしました。どれだけ速いか見せましょう。「Pythonでスネークゲームを書いて」。ここで実行します。ご覧の通り、驚異的な速さです。そして確かに、私は強力なMacを使用しています。これはMac Studio Apple M3 Ultraで、96GBのRAMを搭載しています。
このモデルをぜひテストしてみてください。私自身もテストする予定です。これから更に多くの動画が出る予定です。この動画を楽しんでいただけたなら、いいねとチャンネル登録を検討してください。
コメント