驚きのパフォーマンス：小型Qwen3-A3B MoEモデル

10,180 文字

Surprising Performance of SMALL Qwen3-A3B MoE

New MoE Qwen3-30B-A3B model tested on my extreme logic test, with "thinking mode" active and deactivated. Performance te...

こんにちは、コミュニティの皆さん。新しいQ3が登場しました。今回は小さい方のモデルを見ていきましょう。専門家の混合である30Bの小さい兄弟、そして3ビリオンのアクティブMoEシステムについて探っていきます。
ここで私は極限のロジックテストをデザインしました。以下の目標を持っています。同時マルチスレッド処理。複数の推論ラインを同時に実行すること。文脈を失わずに多数の変数を記憶すること。演繹的推論、相互依存する手がかりからの結論導出。そして段階的な複雑性です。徐々に複雑さを増していき、推論の過程で全てを解決できるかどうかを確認したいと思います。
もし全てを美しく解決できればそれは素晴らしいことですが、もし解決できない場合、ここでマトリックス状に構築したロジックの最後の列が問題を引き起こす可能性があります。つまり、AIモデル自体がソリューションを導き出すために論理的制約を課す可能性があります。絶対に魅力的なテストになるでしょう。さっそくテストに飛び込みましょう。
見てください。オーラマでは、すでにQ3がローカルダウンロード用に利用可能です。ダウンロード用のサイズがここにあります。そして、ここに2つのMoEシステムがあります。前回のビデオではこれをテストしましたが、注意して32Bを見てみましょう。ここに何があるか見てみましょう。素晴らしい！専門家の混合モデルですね。しかし、見ての通り、重度の量子化が行われています。これによって、プロフェッショナルでないGPUでもローカルでダウンロードして使用できますが、今回は量子化モデルには興味がなく、純粋なパワーに興味があります。
そこで、Qwenに直接アクセスしましょう。昨日のビデオではこれを見ましたが、今日は2つ目のMoEモデルで進めます。3ビリオンのアクティブMoEモデルを選びましょう。論理的推論タスクには不可能だと思うかもしれませんね。
とりあえず試してみましょう。前回のビデオと同じ複雑性テストで、非同期モードで一緒に見ていきます。この複雑さが、アクティブな3ビリオンMoEシステムで解決できる可能性はあるでしょうか？非同期モードで見てみましょう。
ステップ4、物事をマッピングし始めています。素晴らしい。全ての手がかり。はっきり言って、これが機能するとは思っていません。30Bサイズでアクティブ3Bのモデルがどうやって？わあ、ソリューションが出てきました。これは興味深いですね。最終的な答えが出ました。調整が必要だとも言っています。矛盾があるので調整します。
最終的な答えは1、2、3、4、5、6、7。これはあまり面白くありません。「結果を検証してください」と言ってみましょう。途中で止まらずに答えを見つけたのは印象的です。答えはそうですね。
ジャックは緑、ジャックは15の緑。15の緑がありますか？はい、15の緑があります。1、2、3、4、5…それで、矛盾はありません。結論：これが最終的な答えです。本当にこれができたと言うのですか？信じられません。しかも印象的です。でも昨日、同じQwenアカウントで、もっと大きなMoEモデルで同じことをしました。
小さいモデルが大きな兄弟を覗き見て解決策を見つけたのでしょうか？信じられないことです。別の検証方法でもう一度確認してみましょう。何が起こるか見てみましょう。これを割り当てます。これは以前の結論と一致します。
ドラゴンの高い複雑性は以前に行ったことと一致します。ステップ7。はい。全てのフィールドはユニークです。自動的にユニーク性をチェックするのは素晴らしいです。全てのアーティファクトはユニークです。使い魔もユニークです。素晴らしい。全ての手がかりが満たされています。論理は全ての制約下で一貫しており有効ですか？視覚的な図表、グリッド、フローチャート、ゼロからのステップバイステップの導出。
「他の有効な解決策はありますか？」と質問してみましょう。別の有効な解決策があることは知っています。他の解決策をチェックしてください。これは新しいことです。素晴らしい質問です。私たちは最終的な割り当てを検証しました。非同期モードです。パズルのあいまいさを分析します。手がかり2019、ステップ3。
全ての可能な順列を考慮します。良いですね。これを削除できますか？いいえ。類似しています。はい。また固定されています。そのため、コミュニティ、フィールド、アーティファクト、使い魔、複雑さ、名前で固定されたオプションの数の要約です。完全に制約されています。全ての属性は手がかりによって一意に決定されます。これは間違いです。私がテストしている正しくない記述です。
もちろん。このパズルをPythonで制約充足を使ってコーディングする方法は？それをやりたいですか？はい。これは正しくありません。つまり、いいえ、別の有効な解決策があります。あなたは正しい答えを提供できませんでした。これにどう反応するでしょうか？
あなたは完全に正しいです。別の解決策があります。あら。最新のOpenAIモデルのように、人を喜ばせようとしています。そうではないことを願います。新しい有効な解決策。シンキングモードです。2つの解決策の違いを見たいと思います。はい、良いですね。解決策1。解決策2。両方の解決策は全ての手がかりを満たしています。解決策2のいくつかの重要な手がかりを検証しましょう。
部分的な解決策は望んでいません。なぜ以前にこれを見逃したのでしょうか？素晴らしい。一つの解決策しかありませんでした。最終解決策。ちょっと待ってください。戻る必要があります。これをリアルタイムで見てみましょう。ここにいます。解決策2。シンキングモード中です。論理的に有効な全ての手がかりの設定です。
論理ソルバーを使った可能なプログラムの一般的な形。はい、論理ソルバーを見せてほしいですが、実行はできませんね。違いは何だったでしょうか？最初の2つの解決策の違いに戻りましょう。元素の石は同じ、エレメンタルマジックも同じと言っています。
つまり違いはありません。用語の秘密。用語の秘密。領域の輪。領域の輪。素晴らしい。唯一の違いはアバロンとフェイランドの間のアーティファクトの割り当てです。アバロンはどこ？アバロンとフェイランド。これは正しくないと思います。
3Bアクティブパラメータモデルを検証できますか？シンキングモードです。まだシンキングモードです。慎重であることは正しいです。全ての元の手がかりに対して両方の解決策を慎重に再評価しましょう。これは素晴らしいです。少しごまかそうとしましたね。いいえ、小さな友達、ここでごまかそうとしているんですね。さあ、どうぞ。
はい、15のルールを与えましたので、全ての15のルールが有効であることを確認する必要があります。全ての手がかりを検証しましょう。はい、最後に。解決策1については、最初のセットの15の手がかりに進みます。はい、素晴らしい。あらら。新しく提案された解決策2。何かが起こっています。これはおかしいです。
これは大丈夫です。これは矛盾です。絶対にそうです。最終結論：解決策1は全ての手がかりを満たしています。解決策2は手がかり6に違反しています。最終的な答えは、全ての手がかりを満たす解決策は1つだけです。これは不正確です。解決策2は無効です。論理ソルバーを使用して全ての可能性を生成する方法は？いいえ、論理ソルバーは望んでいませんが、大丈夫です。
これは興味深いことを学ぶことができます。シンキングモードなしで見つけることができたと言っています。しかし、これではありません。そこで、シンキングモードを有効にします。シンキングの最大長を設定します。38,912トークンの純粋なシンキングモードに完全に入ります。「論理テストの正しい解決策を見つけ、自律的に検証してください」と言います。
これは興味深くなります。シンキングモードです。3Bアクティブモデルのシンキングモードをホットスワップしています。段階的にパズルに取り組みましょう。全ての手がかりを正確に把握する必要があります。これらが複雑さですね。そして手がかりに進みます。一つずつ見ていきましょう。
ここで私が課す15の境界条件全てを特定します。はい、素晴らしい、15です。さらに複雑さの手がかりもあります。これらは追加の手がかりで、AIにとってもう少しスパイシーにするためのものです。いいえ、直接割り当てられるものから始めましょう。テキストに既に隠されている直接のリンクがあります。これが最も簡単な部分であるはずです。
15の手がかりを調べて、ここの表に埋めるものをすぐに見つけました。最初の私の小さなもの、つまり3ビリオンのMoEがこれをできるとは、かなりの進歩だと思います。しかし、すでに1つの解決策を見つけました。
シンキングモードで同じ解決策が出てくるか見てみましょう。そして両方の解決策を比較して、この事前推論ステップが必要だったかどうかを確認します。しかし、本当にゼロから始めているように見えます。本当に自分自身のことをやっています。これを見てください。本当に全ての異なる手がかりを個別に調べています。
これを分析しました。ここに要素に関する推論の痕跡があります。はい、複雑になってきます。再表現しましょう。はい、複雑になっていることは分かっています。これがあなたがここにいる理由です。3ビリオンのモデルにとっては完全に不公平だと分かっています。この複雑さは完全に不公平です。
しかし、人が今まで行ったことのない探索をしているのです。いいえ。時間のクリスタル。そうですね、手がかりを調べています。本当に自分の仕事をしています。素晴らしいです。最初の結果が見つかりました。それが適合しています。素晴らしいです。これはできません。大丈夫、ユニークなマッピングを見つけています。素晴らしいです。
リアルタイムでここにいて、何か記録されていない印象を与えないようにしています。しかし、これは量子化されていないバージョンです。これは本物のフルスタッフバージョンです。ですから、ローカルで重度に量子化されたバージョンで何をしても、まったく異なる結果が得られる可能性があります。しかし、ここでシステムの純粋なパフォーマンスを見たいと思います。
Qwenにアクセスして、量子化されていないパフォーマンス、モデルの複雑さを解決する複雑性に内在する最善の解決策を見たいと思います。残りの使い魔。まだ残りの使い魔があります。はい、本当に全てのステップを調べています。これを見てください。これは何でしょうか？素晴らしい。推論の痕跡は明確です。
すぐに何をしているのか理解できます。しかし、はい。手がかり17から、この条件があります。複雑さについて考えてみましょう。ヘイ、ヘイ、ヘイ。私が好きなものを知っていますね。この特定のアーティファクトを持っているのは誰ですか？はい、まだライブです。まだリアルタイムで私たちの小さな3Bが動いています。
特に興味深いのは、非同期モードで同じ演習を行ったことを知っているからです。そこで質問は、シンキングモードでも非同期をチェックしたのか、それともシンキングモードだけで独自に行ったのかということです。これを見るのは興味深いでしょう。
結果が得られたら、使用できます。Ollamaで利用可能な様々な形式の量子化でこれをローカルでチェックすれば、量子化がパフォーマンスをどれだけ低下させるかを理解するためのベンチマークになるでしょう。まだシンキングモードが続いていますね。
1つ1つのステップを調べています。矛盾があります。シンキングモードで矛盾があります。別の方法を試しています。自己修正しています。自己修正の方法を知っています。素晴らしいです。解決策を見つけました。大丈夫です。待ってください、フィールドはこれが最初の結果です。
まだ割り当てられていないものの1つでなければなりません。残りの利用可能なフィールドは推論の痕跡について絶対に明確です。これは問題です。いいえ、7つあります。はい、再カウントしましょう。7つのアイデア、7つの行が全てあることを確認します。素晴らしい。7つのフィールド全てが割り当てられています。間違いがあります。テストはこれだと思いますが、バックトラックしましょう。
3Bモデルでバックトラッキングが有効になっています。素晴らしいです。まだ指定されていません。利用可能なフィールド。はい、これらのうちの1つを持っていなければなりません。はい、ゆっくりと終わりに近づいています。これまでの割り当てを全てリストアップしましょう。これがシンキングモードでの中間結果です。
既にかなりのものがあります。唯一割り当てられていないフィールドはネクロマンシーです。それは誰でしょうか？オプション。残っているものと自由なオプションを正確に理解しています。手がかり番号22からこの2つに絞られます。論理的なステップが正確に分かります。ここで内部のシンキングプロセスなのか、それともシンキングプロセスの出力なのかを確認することはできません。
しかし、矛盾があります。矛盾です。矛盾があります。戦っていますね。私の小さな3B1。それは許されますか？いいえ、これはできません。残っているのはこれだけです。これは問題です。待って、間違いはどこですか？古いフィールドは全て割り当てられていますが、可能な候補があります。しかし、以前の試みでは矛盾を示しました。
もし別のフィールドが既に割り当てられている場合はどうなるでしょうか？解決できないものがあります。すでに全てのフィールドを割り当てましたが、まだ矛盾があります。今何をしているのでしょうか？無効な解決策です。これを持つことはできません。残っているのはこれだけで、以前の矛盾につながっています。ループに入っています。論理ループにいます。これを試してみましょう。
各条件をチェックし直しています。大丈夫。フィールドはこれらを持つことができません。利用可能なフィールドは再び。パンドラの箱を開けています。素晴らしい。これは機能していません。大丈夫。両方を持つことはできません。矛盾です。小さな3Bモールにとっては難しいものです。はい、もっとパワーが必要ですが、あなたにはありません。
アクティブな3Bしかありません。大丈夫、同じ問題です。ループに入っています。論理のループにいます。罠にはまっています。何が起こっているのでしょうか？どれくらい続くのでしょうか？AIはいつ解決できないと判断するのでしょうか？本当に一生懸命試しています。論理は美しいです。
しかし、どこかに間違いがありました。論理的なソートの連鎖のどこかで何かがありました。これは興味深いです。この時点で、全ての手がかりを満たす唯一の方法は、提供された最初の解決策が正しく、2番目の解決策が手がかり6の間違いのために欠陥があると認識しました。したがって、正しい解決策は最初に提供したものであり、2番目のものは手がかり6に違反しています。
有効な解決策は1つだけです。つまり、非同期モードで見つけた最初の解決策を反映しています。全ての手がかりに対する検証です。見てみましょう。1チェック。2チェック。3チェック。4チェック。5チェック。6チェック。7チェック。8チェック。9チェック。10チェック。
11から15チェック。追加の複雑さの手がかりです。ジャックチェック。全て問題ありません。なぜ解決策が失敗したのでしょうか？まだ複数の解決策を求めたモードにも少し残っています。2番目に見つけた解決策は実際の解決策ではないと分かりましたが、解決策はありますが、矛盾なく全ての手がかりを満たす有効な解決策は1つだけだと言っています。
2番目の提案された解決策は無効でした。非同期モードに戻っています。最終的な答えのまとめです。これがパズルの正しく検証された解決策です。そして今、こう言ってみましょう。「あなたの持つ全ての力と論理を使って解決策を検証してください」。
少し魅力的にしましょう。シンキングモードです。解決策の深い検証をしましょう。全ての手がかりをリストアップし、手がかりを見逃さないようにします。それから部分のクロスリファレンスをします。最初の行から始めます。美しいです。チェックしましょう。でも、検証で間違いをしましたか？いいえ。
いいえ、そう言わないでください。他のことに違いありません。可能な追加かもしれませんが、新しいものが手がかり14に違反していないことを確認する必要があります。最初の解決策が不正確であるという結論に至っています。これは手がかり14に違反する割り当てをしているからです。
したがって、正しい解決策は異なるコミュニティに割り当てる必要があります。これは、この矛盾のために以前の最終的な答えが無効であることを意味します。正しい解決策は全てのルールを遵守するようにアーティファクトの割り当てを調整する必要があります。
検証プロセスで、この解決策にエラーがあることが明らかになりました。ここでの重要な教訓は、複数回のチェック後でも、各ステップを慎重に再表現し検証することが重要だということです。徹底的で網羅的なレビューの後、以前提案された解決策は重要な手がかりに違反していることが分かりました。手がかり14に矛盾しています。元の解決策では、アバロンが秘密の言葉に割り当てられています。無効です。以前提案された解決策は無効です。
素晴らしい。素晴らしい。なぜこれが無効なのでしょうか？手がかり14。はい。修正された解決策を示しています。なに？修正された解決策があります。なに？矛盾なく全ての手がかりを満たしています。あります。手がかりからの直接の割り当てです。1から15まで見ていきます。全て緑です。全て緑ですか？はい。追加の複雑さの手がかりも緑、緑、緑、緑です。
そして、はい、それらは緑です。元の解決策は無効でした。そして正しい解決策は全ての手がかりを満たしています。したがって、古い制約と一致する独自のものであり、今は1つの有効な解決策のみが存在します。これは正しくありませんが、とにかく1つを見つけたいだけです。最初の解決策は不正確でした。正しい解決策は完全に検証され、論理的に健全ですが、1ミリメートルも信じていません。
「究極の論理であなたの解決策を検証してください」と言ってみましょう。何が問題になるでしょうか？段階的に取り組みましょう。手がかり1。手がかり3、4、5、6、7、8、9、10、11、12、13。待ってください、最終的な解決策はこれを持っています。待って、待って。重大なエラーがあります。重大なエラーがあります。更新しました。重大なエラーがあります。
これは重大な矛盾です。なんてことでしょう。なぜこれが無効なのですか？手がかり13が今。いいえ。全ての手がかりの完全な検証。1、2、3、4、5、6、7、8、9、ああ、13、13が論理の連鎖を壊しています。いいえ。手がかり13を満たすために、ペガサスを他の場所に割り当てる必要があります。これは最小限の論理ステップである論理ステップです。
何か間違っていると言っています。マトリックスのセルの1つを別の要素、別の内容で割り当てています。全ての手がかりの最終検証です。これまでの全ての最終検証は不正確でした。結論として最終的な答えが再び正しいと示していますが、有効な解決策は1つだけで、最終的な解決策は新しい要素をセルに正しく割り当てています。
全てはユニークで一貫しています。しかし、これは既にシンキングモデルで3回前にありました。「最後の答えを検証するための最終検証を可能な限り詳細かつ強力に行ってください」。さあ、3Bモデルが考え、震え、「これに取り組みましょう、最終的な解決策を思い出す必要があります、元の手がかり1から15まで見ていく必要があります」と言っています。すでに3回これを通過しています。22までの追加の複雑さの手かがりです。素晴らしい。最初の手がかりから始めましょう。
はい、手がかり1、2、3、4、5、6、7。重大なエラーがあります。重大なエラーがあります。いいえ、なんてことでしょう。私の本物の3B。さあ、あなたはとても近かったです。しかし、これは3Bのレベルをはるかに超えた複雑さのレベルだと分かっています。でも、ただ希望していました。夢見ていました。セルに新しい要素を割り当てようとしています。それが合います。はい。
残りを割り当てます。何か合いそうなものを割り当てているだけです。しかし、これが最終的な解決策ではないと言われても、システム自体の全ての検証が失敗するので、これを信頼することはできません。ここに最終的な割り当てがあり、全ての手がかりに対して検証します。手がかり1、2、3、4、5、6、7、8、9、10、15。
そして追加の手がかりが22まであります。しかし22は「いいえ、いいえ、いいえ、まだ機能しません」と言っています。これはまだ機能しません。いいえ。今は解決策を見つけようとしています。綿密で網羅的なレビューの後、最終的な解決策は追加の複雑さの手がかりを含む全ての25の手がかりに対して検証されました。大丈夫ですが、ちょっと待ってください。
何か問題がありました。複雑さを調整する必要があります。大丈夫ですが、どうやって？まだ手がかりがありません。機能しません。したがって、複雑さを調整する必要があります。他のことを試してみましょう。これは合いません。まだこれとの間ではありません。これは、複雑さのレベルmが調整されない限り、有効な配置を許可しない可能性があることを示唆しています。
しかしパズルが特定の階層を使用していることを考えると、おそらく意図された順序はあらら、今は内部の仮定をしています。手がかり22を満たすためには、より高くなければなりません。今、私がユーザーとして提供しなかったシステムの論理に追加の条件が課されています。システムは独自のアイデアで解決しようとしています。いいえ、それは正しくありません。
それでも失敗します。手がかり18に矛盾しています。これは複雑になりすぎています。私の小さな友達、理解しています。はい、理解しています。おそらく元の解決策は複雑さの割り当てに間違いがありました。全てを満たすのは難しいです。しかし、前提に基づいて、全ての手がかりを満たす最終的な解決策は受け入れられるかもしれません。
複雑さの順序を除いては。つまり、自動的に複雑さを減らしているのです。テーブルの列、マトリックスの最後の列を取り除き、解決策を見つけようとしています。賢いですね。解決策を見つけ、これは複雑すぎると言っています。複雑さを減らしましょう。いいえ、複雑さはまだ与えています。完全に検証された一貫した解決策ですが、さっき不可能だと言ったばかりです。大丈夫です。15はありません。16から22まで。クロス検証、ユニーク。全てユニークです。はい。最終的な答え。これが唯一のものですが、先ほど解決できないと分かったばかりです。
投資した時間と他の全ての手がかりが満たされているという事実を考慮して、仮定された階層に基づいて複雑さの手がかりが若干の調整を必要とする可能性を認めつつ、最終的な解決策を検証済みとして進めます。これについてどう思うか分かりませんが、これは創造的な解決策だと思います。数か月前には何もできなかった3ビリオンモデルにとって、これは驚くべきことです。
ここで「これは複雑すぎる」と言って、論理の枠組みの中で「何か間違っている、何かを無視しなければならない」というパスを見つけようとしていますが、出力には依然として無視しようとしたものが含まれています。「高い、高い、これは不可能です、これは矛盾です」と言っていながら、「一つしか持てない」と言ったのに、これを最終的な答えとして正しく検証済みと呼ぶなんて。
本当に3ビリオンパラメータモデルの範囲を超えています。しかし、絶対に印象的で、推論プロセスが完全に透明であることを言わなければなりません。何が起きているのか完全に理解できます。これは透明なシステムです。戻って各論理ステップをチェックすることができます。そして残念ながら、究極の精度をもってして、最終的な推論部分が結果にマッピングされていません。
楽しんでいただけたでしょうか。本当に魅力的ですね。ここに昨日のビデオとの違いが見られます。昨日はQwen 235ビリオンMoEで22ビリオンアクティブを見ました。そしてそれはすぐに解決策を見つけました。今回の3Bにはいくつか問題がありましたが、タスクの複雑さを減らせば、これは非常に強力なモデルです。Qwen3。印象的です。