
5,976 文字

アリババがQwen 3をリリースしました。これは軽量版から2350億パラメータの巨大モデルまで、幅広いAIモデルのファミリーです。これらのモデルは実際にタスクに応じて深い思考と高速な回答の間を切り替えることができます。そして誰でもダウンロードして使用できるようオープンになっています。OpenAIやGoogleの最高モデルに匹敵または凌駕するパフォーマンスを持つこのローンチは、すでにAI業界に衝撃を与えています。
それでは実際に発表された内容を見ていきましょう。これは単一のモデルではなく、モデルの一連のラインナップです。最小のモデルでは約6億パラメータの軽量版があります。基本的に、性能の良いラップトップで実行できる小さなモデルです。そして最上位には、Qwen 32350億パラメータと呼ばれる2350億パラメータを持つ絶対的な巨人があります。
それが巨大に聞こえるにもかかわらず、面白い点はその動作方法が非常に賢いことです。質問するたびに全体を稼働させるわけではありません。代わりに、128の可能な専門家から一握りの専門家を選びます。各質問に対して8つだけが処理に飛び込みます。そのため、膨大な計算リソースを無駄にすることなくパワーを得ることができます。
また、Quinn 330BA 3Bと呼ばれるやや小さなパワーハウスもあり、こちらは30億パラメータのみがアクティブになるため、実行がさらに容易になります。また、凝った専門家システムに興味がなく、単純なものが欲しい場合は、320億パラメータから小さな0.6億までの6つの通常バージョンもあります。
すべて完全に無料でオープンライセンスの下で利用可能です。すでにHugging Face、GitHub、Model Scope、Kaggleなどの場所で入手できます。また、すぐに使い始めたい場合は、そのためのシンプルなツールもあります。ターミナルで単一のコマンドで実行することもできます。Fireworks AIやHyperbolicのようないくつかのクラウドプロバイダーも、ローンチ直後にほぼ即座に利用可能にしました。
つまり、どのように使いたいとしても、準備ができています。数字は素晴らしいですが、なぜ実際にこれを気にすべきなのでしょうか?二つの大きな理由があります。ハイブリッド推論と幅広さです。ハイブリッド推論とは、Qwen 3が文字どおり会話の途中で「脳」を切り替えられることを意味します。最初からモデルはチームが「思考モード」と呼ぶものを起動し、そこでは段階的に進み、思考の連鎖が特別なタグの下に表示され、厄介な数学やコードパズルに最適です。
プロンプトに「/no_think」を渡すか、チャットテンプレートで「enabled_thinking=false」とトグルすることでハンドブレーキを引くと、QNは内部モノローグを削除し、GPT-3.5に近い低遅延で回答を返す非思考の高速パスで走ります。質問が突然難しく見える場合は、いつでも「/think」に戻すことができます。
最新の指示が常に優先されるため、複数ターンのフローは正常に保たれます。内部的には、アリババによるとこの融合は4段階のポストトレーニングパイプラインで行われました。長い思考連鎖データによるコールドスタート、より深い推論を促すルールベースの報酬による強化学習、高速回答行動を上に接ぎ木するための別のRL(強化学習)ラウンド、そして奇妙さを取り除くために20以上の日常的なタスクにわたる一般的なRLスイープです。
そしてQwen 3のようなリリースでAI技術が爆発的に進化する中、スキルをレベルアップし、これらのツールを実世界の利点に変える絶好の機会が訪れています。だからこそ、Outskillの2日間のAIマスターマインドを強くお勧めします。これは一流の人工知能の投資家や創業者が支援する世界初のAI重視の教育プラットフォームです。
今週末、彼らは土曜日と日曜日の両日、午前11時から午後7時まで16時間のライブトレーニングを実施します。通常は895ドルですが、私の視聴者には無料です。このプログラムでは、20以上の強力な人工知能ツール、より良い結果のためのプロンプトエンジニアリング、コーディングなしでのデータ分析、AIとExcelの使用とプロレベルのプレゼンテーションの作成、コードを書かずにツールを構築する方法、AIでの見事な画像と動画の作成、AIエージェントの開発、時間を節約し生産性を向上させるタスクの自動化など、幅広いトピックについて深い知識を得ることができます。
40カ国から100万人以上がこのトレーニングに参加しており、技術専門家からビジネスオーナー、フリーランサーまで誰にでも最適です。枠は急速に埋まっていますので、説明欄のリンクをクリックして予約してください。更新情報を得るためにWhatsAppグループへの参加を忘れないでください。また、金曜日の午前10時(東部標準時)に紹介電話があります。これを見逃さないようにしてください。
さて、Qwen 3に戻りましょう。それはトレーニングダイエットに関係します。Qwen 2.5の18兆トークンを覚えていますか?それを倍にしてください。Qwen 3は119の言語と方言をカバーする約36兆トークンを処理しました。エンジニアたちはオープンウェブの別のスライスをスクレイピングしただけではありません。
彼らはPDFスタイルの文書を収集し、Qwen 2.5VLでテキストを抽出し、通常のQwen 2.5モデルでクリーニングしてから、Qwen 2.5 MathとQwen 2.5 Coderで合成数学とコードを生成しました。事前トレーニングの第1段階は、控えめな4Kコンテキストで30兆以上のトークンで実行されました。第2段階では、STEMと推論を重視してさらに5兆を投入しました。
そして第3段階ではコンテキストウィンドウを32Kに拡張しました。そして重要なことに、実際にその上限に達する配列長を持つデータを追加しました。その結果、Qwen 2.5の変種の2〜3倍のサイズに匹敵し、STEMではしばしば凌駕する高密度のベースモデルが生まれました。一方、MOE Eベースは有効なパラメータの10分の1で同じ精度を達成します。
そして32Kが小説の長さのプロンプトに十分でない場合、Yarnはそれを128Kにワープさせることができます。次にベンチマークについてです。アリババは内部のスコアボードをブログ記事に引きずり出しました。そして確かに、彼らは誇りに思っています。まだ公開されていない235B MOEはOpenAIのO3 MiniとGoogleのGemini 2.5 Proを Code Forcesでわずかに上回り、最新のIME数学テストとBFCL論理的推論スイートで優位に立ち、基本的にGrok 3と同じレベルにあります。現在私たちが実際にダウンロードできる最大のモデルです。
Quinn 332BはLive CodebenchでOpenAIのO1をかろうじて上回り、Aggregate MathではDeepSeek R1のすぐ後ろに位置し、Quinn 2.572B Instructを叩き潰します。サイズはその半分以下にもかかわらずです。小さな4B Dense checkpointは、前世代の720億パラメータの重量級モデルと真っ向から競合します。これはLlama 70BをローカルのRTXカードに搭載しようとしたことがあるなら、とても良いニュースです。
ツールの使用とエージェント的な行動も優先されました。最初からQN3はMCPツール呼び出しスキーマに従う方法を知っています。アリババはさらに呼び出し署名を隠し、JSONをパイプで出し入れし、コードインタープリター、フェッチステップ、タイムゾーンサービスなどの組み込みユーティリティを備えたQwen Agentと呼ばれるPythonラッパーを提供しています。
アシスタントオブジェクトを起動し、そのモデルパラメータをQwen 330BABに向け、API_keyをローカルVLMエンドポイントに向けます。そうです、彼らはAPI_key=SMPでデモを行っています。非常にハッカー的です。それからメッセージをストリームします。思考はタグの間にラップされて到着するため、必要に応じて保存または破棄できます。ブログ記事には基本的な会話スクリプトも含まれています。思考モードをオンにして「strawberries(いちご)にはいくつのRがあるか」を尋ねます。それから「blueberries(ブルーベリー)には/no_think」と続けます。
そして最後に「really /think」と切り替えます。モデルは毎ターン忠実にモードを切り替えます。すべてがオープンソース化されているため、コミュニティはすぐに動いています。Betanの最高経営責任者であるTuhin Shervestavaは、TechCrunchに対して、Qwen 3はオープンモデルの曲線をクローズドシステムと同じレベルに保ち、特にワシントンがH100とBlackwell出荷の中国のバイヤーへの輸出規制を引き締め続けている今、アメリカの研究所はペースを維持するためだけに走らなければならないだろうと述べました。
これらの規則は明らかにこの種の進歩を遅らせるために書かれました。しかし、私たちはここで中国のMOE巨人が少ない有効パラメータでO3 Miniを数学で上回り、世界中の誰もがpip installでインストールできるという状況を見ています。したがって、政策担当者は忙しい一週間を過ごすことになるでしょう。中国内の競争も激しいです。Baidu(バイドゥ)のErnie 4.5 Turboは先週金曜日に公開され、新しい推論重視のX1 Turbo変種でより低い遅延を約束しています。
Deepseekは1月のハイプにまだ乗っており、その時西洋のどのラボよりも安く最先端モデルをトレーニングしたと自慢していました。アリババ自身の当時の反応であるQwen 2.5 Maxは応急措置でした。Qwen 3は本格的な挑戦です。同社が従来のAI機能と高度な動的推論を開発者向けの適応可能なプラットフォームに統合したと主張するものです。
メッセージングはかなり明確です。彼らはモデルがGoogleとOpenAIの最高のものに匹敵し、場合によっては上回ると言っています。彼らはO3 Miniに対する直接的な勝利に言及し、下流のスタートアップが法的な悪夢なく商業製品に重みを包むことができるように、ライセンスが十分に許可的であることを確認しています。
ハードウェアについて少し話しましょう。MOEルーティングは役立ちますが、220億のアクティブなパラメータを動かすには、スループットを気にするなら少なくとも8つの良いGPUが必要です。アリババのドキュメントは新しいSG langサーバーを推奨しています。彼らはQwen 3推論パーサーフラグやVLMにenable_reasoning、そして冗談半分にDeepSeek_r1パーサーを追加しました。
彼らはスライディングウィンドウカーネルを使ってHF spacesで128Kコンテキスト推論をデモしています。ローカル開発のために高速スワップをマウントする限り、それは機能します。LM Studio、Apple SiliconのMLX、そして信じられないかもしれませんが、K Transformersを介したPlain Llama.CPはすべて中級のウェイトをロードします。GPUが少ない場合は、14B密集型変種が8ビットで24GBのVRAMに快適に収まります。
4Bモデルはほとんどのゲーミングラップトップに収まり、それでもSTEMの質問にWolf from Alphaを飲み込んだかのように回答します。リリースに埋もれている一つの興味深い点は、Qwen3は8Bより大きいモデルでは埋め込みを結合せず、小さなチェックポイントでは結合し、key/valueヘッドを半分にしてコンピューティングのスケールを向上させています。
密集型モデルは8B以上のSKで128Kにコンテキストを制限し、小さいものはカスタムカーネルをコンパイルしない限り32Kで最大になります。一方、MOEクルーは常に128Kを話します。そして思考モードは生成されたシーケンスの長さを簡単に膨らませる可能性があるため、すべての隠されたステップがシリアル化されます。アリババは生成後に思考を解析させます。
彼らのサンプルコードでは、特別なトークンID 151668を検索し、配列をスライスし、ログ記録のための思考前のチャンクをデコードし、そして思考後のチャンクをユーザーに渡します。Qwen 3の言語カバレッジは驚異的です。英語とスペイン語からトクピシン語とフェロー語まで、119の言語と方言を話します。ユーザーがどこにいても、このモデルはおそらく彼らを理解します。
もう一つの点は、単なる生の力だけでなく、スマートなコントロールも手に入れることです。どのように構築されているかのおかげで、深く考えるときと素早く答えるときを決めることができ、特に多くのクエリを実行している場合は効率的でコスト効果の高い状態を維持できます。投資家は確かに注目しています。
アリババの株はローンチ後少し上昇し、現在、テンセントやバイトダンスのような他の中国の巨人も自社のモデルをオープンにするかどうかを皆が見守っています。彼らはまたワシントンも注視しています。別のチップ制限トランチはいつでも着地する可能性があります。将来を見据えて、アリババはここで止まらないことを明確にしています。
彼らはQwen 3がAGI(汎用人工知能)への道の重要なマイルストーンであると書いています。そして今日のモデルを明日のエージェントに変えるために、パラメータ、コンテキスト、モダリティ、環境フィードバックによる強化学習のすべてをスケーリングし続けることを約束しています。
ともかく、これが概要です。もしこれを試してみたら、ツール呼び出しがあなたのスタックでどのように機能するか、またはモデルがあなたを修正する前にstrawberriesに何個のRを見つけるかを教えてください。このブレークダウンが数時間の仕様読みを節約したら、「いいね」ボタンを押してください。さらなる深掘りのためにチャンネル登録をお願いします。次回でお会いしましょう。
コメント