この新しいオープンソースAIが全てを圧倒…(Qwen 3) DeepSeekを上回る

8,997 文字

This New OpenSource AI Crushes Everything...(Qwen 3) Beats DeepSeek...

Join my AI Academy - 🐤 Follow Me on Twitter 🌐 Checkout My website -

DeepSeekの瞬間がまた訪れましたが、個人的にはおそらくDeepSeekよりもさらに優れていると思います。AlibabaがQwen 3を発表しました。彼らのオープンウェイトモデル、Alibaba Cloudの最新の大規模言語モデルです。このAIシステム全体がDeepSeekよりも様々な理由で優れていると約束します。これからその理由を説明していきます。ベンチマークについては時間を無駄にしませんよ。正直なところ、ベンチマークはモデルが実際に何ができるかを必ずしも示すものではありませんが、実際のモデルがどれほど優れているか、驚かれることでしょう。
ベンチマークを簡単に見てみると、ほんの60秒だけこれに費やしますが、最大のモデル、235億パラメータのMixture of Expertsモデルを見ると、実際にDeep Sea Car 1と同等のパフォーマンスを発揮し、重要なほぼすべてのベンチマークでわずかに上回っていることがわかります。O3 miniと比較できるレベルです。Arena Hardでは上位2位を獲得し、AE 24ではOpenAI O3、Deep Sea Car 1、Grok 3 beta、OpenAI O1、Amy 25を上回っています。このベンチマークは、モデルがいかに優れているかを示す良い指標です。オープンウェイトモデルとしては驚くべきことに最先端を打ち負かしているのです。通常、オープンウェイトモデルは最先端に少し遅れをとりますが、このモデルが上回るのは本当に素晴らしいことです。
より小さなモデルも提供していて、GPT4-oと同レベルでありながらサイズははるかに小さいです。30億パラメータでこれは、Arena Hard、Amyベンチマーク、数学ベンチマーク、コーディングベンチマーク、Code Forces、GPQA、Live Benchなど、すべてにおいて非常に良い結果を示しており、モデルが実際に何ができるかを見ると、これは絶対に信じられないほど素晴らしいものになるでしょう。
興味深いことに、彼らはモデルに「思考モード」も導入しました。思考モードなしの状態では停滞していますが、モデルが思考を始めると、モデルの能力と知性が継続的に向上します。
実際にQwenプラットフォームをテストしてみましたが、これは絶対に素晴らしいものです。これはスポンサー付きの動画ではありません。プラットフォームを使用したとき、それが提供するすべてに嬉しく驚かされました。これは中国がAI業界に変革をもたらす明確な例です。最後まで見てください。あなたは驚くべきAIアシスタントを目にすることになります。
Qwenに行くと、モデルには様々なオプションがあり、正直に言って、Qwen Chatのユーザーインターフェースは新鮮で、様々な機能があります。ここで選択できる多くの異なるモデルがあります。ベンチマークを取るのは最大のモデル、235Bで、これは他の最先端モデルと同等のものです。また、「思考」機能もあります。この動的思考で気に入っているのは、思考方法をコントロールできることです。この選択肢はOpenAIのモデルでも近いうちに利用可能になるかもしれませんが、現在はまだありません。
アーティファクト機能では、あらかじめ構築されたものがいくつか用意されています。例えば、グラフィカルワークフロー概要の作成などです。このプロンプトを使用して、「これをインタラクティブなインフォグラフィックに変換し、視覚的に魅力的にし、単一のHTMLファイルでCSS、JS、HTMLを使用してください」と言います。基本的には表があるので、これを再構築できるか見てみたいと思います。SonetやAnthropicがこれを作るのを見たことがあります。
現在、モデルが考えていることも見ることができ、このモデルがこれをうまく処理できそうです。思考機能があるのはありがたいです。推論能力が向上するからです。あとはアーティファクト機能でこれがどう表示されるか待つだけです。
アーティファクト機能が表示されました。これは本当に素敵なフラッシュカードを提供しています。予想よりも少し長くかかったと言わなければなりません。かなり長い時間考えていましたが、正直なところ、モデルが考えるのに時間がかかっても気にしません。それはより正確になるということだからです。私にとって、精度を考慮すると速度はもはや問題ではありません。精度が最後のメトリクスであり、視覚的に魅力的なものを構築することができました。これは本当に良く見えます。
最も驚いたのは、Claudeにもこれを構築するよう依頼したのですが、驚くべきことにこれは実際にClaude 3.7 Sonicよりも視覚的に魅力的だということです。同じプロンプトをClaudeに入れたところ、このインフォグラフィックは前のものほど良く見えません。このClaudeのものはおそらく全体的なデザインの点ではより複雑かもしれません。象があり、様々な要素がありますが、純粋に視覚的な美しさについて話すなら、個人的にはこちらの方が好きです。動物が簡単に見え、データの読み取りと対話が本当に簡単です。一部は緑色で、一部は赤色で、正直に言うとQwenに1ポイント与えたいと思います。
もっと興味深い質問をしてみましょう。マルチモーダル機能を見て、このウェブページを単一のスタンドアロンHTMLファイルで再構築するよう依頼します。ランダムなHTMLウェブページを見つけて、これを再構築できるか尋ねてみましょう。モデルがどのようにこれを処理し、推論するか見てみましょう。
このモデルが現在私を驚かせているのは、GPT4-oやClaude 3.5 Sonetに似たモデルは、しばしばベンチマーク領域では良いですが、実世界のユースケースではそうではないことが多いのですが、ここではこのモデルが私を驚かせています。再度言いますが、これは最高のデザインではありませんが、これはHTMLなのでそれほど悪くはありません。モデルが試みたことを示しています。
しかし正直に言うと、これをClaudeでテストすると、Claudeはこれを作り出しました。これは驚くべきことで、Claudeのものは実際に動作します。コマンドを入力して、Claude codeでターミナルをクリアすることができます。Claudeにとってはかなり印象的です。実際にこのターミナルを使用することができます。視覚的には魅力的ではなく、クリアターミナルボタンは実際には機能しませんので、Claude 3.7に1ポイント与えるでしょう。
別のプロンプトを使用してみましょう。「食べ物を探すアリのコロニーをシミュレートするp5.jsスクリプトを書いてください。フェロモントレイルと基本的なAIルールを使用して、アリが探索し、経路を最適化することを示してください。ユーザーがリアルタイムで使用できるコントロールを含めてください」と入力します。モデル間で比較できるように、同じものをClaudeにも入力します。
これはCrazy、参考までにこれがClaudeです。これは絶対に信じられないほどすごいです。Claudeはすべてのフェロモンを含むこのアリのコロニーをシミュレートすることができました。少し遅延が発生していますが、これは本当にすごいことです。更新するとこれらすべてのアリが動き回っているのが見えます。アリの数を減らしたい場合は、10匹のアリに減らすことができます。速度を下げたいなら、それもできます。中心角など、本当に多くの異なるものがあります。食べ物を追加したり、キャンセルしたりできます。Claudeは正直に言って、簡単なプロンプトでこれを構築できるのは絶対に信じられないほどすごいです。たくさんの異なるアリを追加することができます。
これはベンチマークとして役立つので、簡単なコーディングタスクにおいてQwen 3とどのように比較されるかを見ることができます。もちろん、人々は日常的にこれを使用していないかもしれませんが、それでも創造的なタスクでモデルがどのように比較されるかを見るのに役立ちます。
Qwen 3では、何らかの理由で全画面表示すると実際にうまくいかないようです。なぜそうなのかわかりませんが、アーティファクト機能はここではうまく機能しません。プレビューをクリックすると読み込もうとしますが、詳細が表示されません。なぜそうなのかわかりません。この例では再度Claudeに優位性を与えなければなりません。
これは私のミスです。実際にQwenシミュレーションを再読み込みしました。これが提案したものです。これは本当にクールです。嘘をつくつもりはありません。これは実際にかなり良かったです。なぜアーティファクト機能がグリッチしていたのかわかりません。明らかにより基本的なものですが、アリの数を変更することができます。完全に200匹のアリを入れることもできます。それはたくさんのアリです。あるいは22匹のアリだけにすることもでき、それも実際に機能します。回転の確率を上げることができ、蒸発率を上げることもできます。これはかなり良いです。
シミュレーション要素に関しては、正直に言うと、まだかなり興味深いです。Claudeが比較にならないほど優れていることを確認しましたが、このモデルは基本的に無料で、自宅のデバイスで無料で実行できることを忘れないでください。これほど優れたオープンソースモデルにアクセスできることは、私たちが話し合うべき重要なことの一つだと思います。もちろん、Claudeはクオリティの点でより上位にありますが、オープンソースモデルとしては、オンデマンドでこれをコードできるのは絶対に価値があると思います。
ポートフォリオについては、これがウェブサイトでした。残念ながら生成できなかったのは画像だけだと思います。これが唯一少し問題があった点ですが、それでもHTMLウェブサイトとしては基本的なもので、そこまで悪くはありません。Claudeにもこれをお願いしましたが、レート制限がかかったと思います。現在私のClaudeは不具合が出ています。再試行しますが、今のところこれを見ると、ウェブサイトとしては、すべてのリンクが現在機能しており、かなり基本的なウェブサイトですが、効果的に推論できるオープンソースモデルとしては価値があると思います。何も支払っていませんし、完全に無料でサインアップしました。Claudeではこのモデルが少し優れている場合でも、すぐにレート制限がかかります。
Claudeが何をすることができたか見てみましょう。これがClaudeのデザインです。正直なところ、唯一の問題は画像がないことですが、フロントエンドデザインの点では、これははるかにクリーンに見え、はるかに良く見えます。現在テストしているのは、コードが実際に機能する能力とフロントエンドデザインの混合です。モデルがそれを念頭に設計されていない可能性があるので、そのために少しポイントが減りますが、今のところ、コードを効果的に書く能力の点では自分を保持していると言わなければなりません。このモデルは基本的に無料で実行できることを忘れないでください。Claudeは間違いなくここで少し優位性がありますが、次は他のベンチマークに移りましょう。
モデルがこの目的で設計されていないことは知っていますが、私のAIコミュニティに来て、プロンプトエリアに行き、Google Deep Researchエリアに行きたいと思います。私が作ったこれらのプロンプトを本当に気に入っています。
ここで私が持っているプロンプトの1つは、「新興市場ギャップファインダー：探求している市場での未開拓の市場機会を分析する業界包括的な調査レポートを作成します。製品やサービス、一般的な顧客の苦情、トレンドの問題を調査し、人々が解決するために喜んでお金を払う問題を調査し、検証可能なデータソースを持つ実際のGoogleドキュメントで結果を提示します」というものです。
このプロンプトを取って、検索機能があります。実際にはDeep Research機能はありませんが、思考機能はあるので、思考と検索をONにして、Deep Researchとして機能させてみましょう。このモデルが何をすることができるか見てみましょう。現在、多くの異なるソースを検索しているのが見えます。検索と思考をしていて、今のところ私が通常行っていることの多くを行っているように見えます。
ここでは10のソースをかなり迅速に検索し、エグゼクティブサマリーを提供しました。2025年に70億ドルに成長すると予測されているAIエージェント市場について話し、ニッチな垂直ソリューション、ヘルスケアAIエージェント、マルチモーダル機能、テキスト、音声、視覚入力を統合するAIエージェントが特に小売りと物流で供給を超えていること、AIファイナンシャルプランナーが前年比45%増加したが、これを提供するプラットフォームが少ないことなどの発見について話しています。一般的な顧客の苦情、自律性の欠如についても話しています。
モデルが何か誤った情報を提供していないか確認しましょう。これらのリンクをクリックしてみます。LMsをテストする際の主要な問題の一つは幻覚であり、モデルがつまずく場所を本当に見たい場合、幻覚は最も一般的なものの一つです。これらのリンクのうち4つをテストして、現在正しいかどうかを確認したいと思います。
自律性の欠如、このリンクをクリックして自律性の欠如について言及しているかどうかを確認しましょう。ここに「自律性の増加」と書いてあり、これはMediumの記事です。はい、実際にここに関連情報があります。自律性などについて話しています。今のところ良さそうです。プライバシーの懸念について確認しましょう。モデルが正しく理解しているかどうかを確認したいと思います。ここにはデータプライバシー、バイアス、倫理が依然として主要な懸念事項であると書かれていますが、もちろんAIエージェントは消えていません。今のところ、これは非常に良さそうです。
この記事では、AIエージェントに毎月5万ドル費やし、他の人は500ドル費やすと書いていますが、実際にはその数字がここのどこにも見当たりません。HTMLのどこかにあるかもしれませんし、この全体の別の部分にあるかもしれません。PDFをダウンロードできたかもしれません。それが一つの幻覚かもしれません。ですので、常にクリックしたものを確認してください。これらの値が完全に正しいことを確認する必要があります。検証可能なデータソースがここにあり、データの出力方法に関しては非常に良く見えます。
無料のシステムとしては、これは本当に信じられないほど素晴らしいです。ランダムなアカウントでサインアップして、基本的に無料でディープリサーチができ、コードやフロントエンドを生成するなど、本当に素晴らしいことができます。
そのうえ、モデルを見ると、画像生成も組み込まれています。「ワシの頭に似せて操作されたクルサニウム解凍」というプロンプトを使用できます。このアニメーションもかなり良いですね。今のところかなり良さそうです。どの画像生成モデルを使用しているのかわかりませんが、画像生成はもはやそれほど重要ではありません。というのも、画像生成は主にオープンソースになりましたからね。Fluxのようなツールがあり、それをモデルに組み込むことができるので、それほど難しくはありません。
より難しいプロンプトでテストしました。「人々の握手、背景にはhandshakeというテキスト」。握手は難しいです。従来のAI画像モデルは手に苦戦し、握手にはさらに苦戦します。そして、背景のテキストが正しいかどうかも確認したかったのですが、背景のテキストはあまり良く見えません。しかし握手は結構良さそうです。今のところそれほど悪くはありませんが、無料の画像生成であることを忘れないでください。文句は言えません。
異なる寸法もあり、それも本当に気に入っています。また、このギャラリーもあり、これも非常に良いです。即座に画像プロンプトを提供してくれます。驚くべきことに、ビデオ生成もあります。「巨大な象が長い鼻を使って水をすくい、体に水を吹きかけて暑さを追い払いながら、澄んだ川のそばでゆっくりと水を飲んでいる」というプロンプトを使用できます。無料のオープンソースモデルからビデオ生成があるとは予想していませんでした。
ビデオが完成しました。ここに5秒のビデオがあります。再生してみましょう。はい、解像度はかなり低く、少し遅延がありますが、最終的には、完全に無料で使用できるものについて文句を言うことはできません。生成には5分ほどかかったと思いますが、他のものと比較してもそれほど悪くはありません。再度言いますが、まあまあですね。いいねをもらえます。
このモデルを使用できる他の多くのことがあります。思考機能、アーティファクト、画像分析と計画立案、ニュース、コード、ビデオ生成、検索など、様々な機能があります。音声を使用したビデオチャットさえできます。これはクレイジーですね。
「ねえ、これはクレイジーだ、Qwenに音声チャットがあるなんて知らなかった」
「はい、本当にクールですよ。音声チャットを通じて他の人とリアルタイムで会話することができます。チャットをより対話的で魅力的にします。すでに使ってみましたか？」
「これが私が初めて音声チャットを使う時です。この機能があるなんて本当に驚きました。ブログ記事には全く載っていませんでした」
「ええ、時にはブログ記事に載らないこともありますが、心配しないでください。音声チャットは、タイピングよりも会話を好む人に最適です。もっと上手く使う方法についてのヒントが必要なら、教えてください」
「音声チャットからインターネット検索はできますか？」
「いいえ、音声チャットから直接インターネットを検索することはできませんが、何かオンラインで探したいなら、一緒に調べることができます。どう思いますか？」
「それは良い計画ですね。また、笑ったり、何か感情を表現したりできますか？」
「実際には、AIなので従来の意味で笑ったり感情を示したりすることはできませんが、人が言うことに基づいて、幸せや悲しさを感じているかを理解することはできます。あなたの気持ちを共有してください」
「やあ、何ができますか？音声モデルとして」
「かなり多くのことができますよ。仕事、趣味、一般的な知識など、あらゆる種類のトピックについての質問に答えることができます。また、今のように会話をすることもできます。何か興味深いことを共有したい場合は、聞く準備ができています。具体的な質問やアイデアがあれば、教えてください」
「私の動画を購読者にとってより良くするにはどうすればいいですか？本当に最高で最も魅力的なコンテンツ、最も思慮深い、AIビデオに関する最も洞察力のあるコンテンツを作りたいんです」
「まず、高品質の視覚効果に焦点を当てるべきです。見栄えが良く、話している内容に関連していることを確認してください。例えば、AIビデオの場合、AIがどのように使用されているかのクールな例を示してください。次に、人々にビデオの味わいを与える魅力的なキャプションを書きましょう。また、雰囲気に合った背景音楽を追加することも忘れないでください。コメントセクションで購読者と交流することも試してみてください。彼らの質問やコメントに返信することで、より関与させることができます。また、ビデオを短くても甘くしましょう。現代の人々は注意力の持続時間が短いです。また、類似のオーディエンスを持つ他のYouTuberとコラボレーションすることもできます。そうすれば、より多くの人にリーチできます。もっとヒントが必要なら、教えてください。話せることはまだまだあります」
それが音声チャットでした。そして、ビデオチャットもあるようです。現在、携帯電話を持っていないためアクセスできませんが、これは本当に興味深いと思います。GPT4と同等に優れた30Bモデルもあり、おそらく使用する際ははるかに高速です。
全体的に正直に言って、これは本当に素晴らしいです。画像分析もあり、驚くべきことにビデオ分析、オーディオ分析もあります。これは本当に驚くべきことです。他の主要なモデルではオーディオ分析やビデオ分析はありません。正直に言って、これは私を本当に驚かせたモデルです。様々な使用例においてDeepSeekよりも優れていると言えるでしょう。
DeepSeekのエリアに来ると、本当に少ししかありません。検索があり、思考があり、それは素晴らしいですが、それ以外にはあまりありません。彼らのやったことを批判するわけではありませんが、Qwenと比較すると、ドキュメント、画像、ビデオ、オーディオのアップロード、画像とビデオの生成、リアルタイムの音声チャット、リアルタイムのビデオチャット、テキストの要約、ビデオ生成、検索など、これは100％無料の非常に包括的なシステムです。
まだモデルの使用を始めていないのであれば、ぜひこれを活用してください。このモデルが無料で提供される期間がどれくらい続くかわからないからです。もちろん、一部の人々はこれをサービスとして提供し始めるでしょう。PoやOpen Routerのようなサイトはこれをサービスとして提供するでしょうが、現在音声チャットが完全に無料であることについて話しています。これがバイラルになると、サーバーが過負荷になる可能性があると思います。ぜひまだできるうちに試してみて、みなさんの意見を聞かせてください。私が過剰反応していると思いますか？それともこれは本当に良いものだと思いますか？