AIは汎用品になったのか?Gemini 2.5、新しいDeepSeek V3、そしてMicrosoft対OpenAI

6,491 文字

Did AI Just Get Commoditized? Gemini 2.5, New DeepSeek V3, & Microsoft vs OpenAI
Gemini 2.5 is out, on the same day as the new DeepSeek V3 (which should power Deepseek R2). Do both models prove AI is b...

GPT-4o画像生成と新しいDeepSeek V3が発表されたのと同じ日に、Gemini 2.5 Proも登場しました。UltraやNanoバージョンはありませんが、依然としてProと呼ばれており、現在公開されています。Googleの一部の人々は、これが最高のAI言語モデルだと主張しています。私も自分でかなりテストしてみました。通常ならここで「そして論文も読みました」と言うところですが、新しいオープンウェイトのDeepSeek V3とは異なり、Gemini 2.5の秘密のソースは秘密のままです。
ベンチマークを超えて、ここにはより広い関心を持つ大きな物語があります。最近、MicrosoftのCEOはモデルが汎用品化されつつあると主張し、より高いパフォーマンスが商品のように買われ、OpenAIのようなラボは単なる「製品会社」であり、体験を売っているだけだと述べました。彼は、彼らが他の誰よりも「AGI」への秘密を持っているわけではないと言っています。OpenAIの新しいGPT-4o画像生成が製品だけでなくモデルでもあるという事実は一旦置いておきましょう。より大きな論点は正しいのでしょうか?今日のGemini 2.5とDeepseek V3のニュースは、少なくとも知性に関して、AIにもはや秘密がないことを証明しているのでしょうか?
その答えを出すために、まずは真新しいGemini 2.5、Googleの「最も知的なAIモデル」から始めましょう。このタイトルが少し謙虚になっていることに注目してください。単刀直入に最もスマートなモデルと言うのではなく、彼らの最も知的なモデルと言っています。正直に言うと、Gemini 2の後にこのモデルがこんなに早く登場するとは思っていませんでした。おそらく多くの人もそうでしょう。
ベンチマークの数字はすべて少し圧倒的かもしれないので、その意味を理解するのを手伝いましょう。いささか勘違いした「人類最後の試験」というタイトルの付いたベンチマークは、信じられないほど知識集約型のものです。もちろん、一部の質問には推論や計算が必要ですが、何よりもそれは非常に難解な雑学、難しいラテン語の翻訳、そして難解な蝶の生理学をテストしています。しかし、評価すべきところは評価すべきで、Gemini 2.5は最も知識を持っているようです。
もちろん、考慮すべき点の一つは、OpenAIからはまだフルのO3はリリースされておらず、これはO3 miniだけだということです。そのため、フルのO3はこれよりも高いスコアを獲得すると推測されます。その一つのヒントとして、Deep Researchシステムはツールを使用して、このベンチマークで約27%のスコアを獲得していますが、ウェブを検索せずに知識面ではGemini 2.5 Proが最も知識を持っていると言えるでしょう。
では、信じられないほど難しい科学の質問、Googleでも解けないようなPhDレベルの質問についてはどうでしょうか?その面でも、2.5 Proが拡張思考を使用した場合、Claude 3.7 Sonnetとほぼ同レベルであり、Grok 3も同様です。厳しく見れば、OpenAIの03のスコアが多数決投票を使用して87.7%であることがわかっているにもかかわらず、それを含めなかったことを指摘できるかもしれません。しかしGoogleはそこでOpenAIをやや非難し、「私たちのスコアは多数決投票のようなさらに多くの計算能力を費やすものなしのものです」と言っています。
しかし、ある意味でこれはこのビデオの要点と言えます。「誰かがリードしている」という言葉、本当に誰かがまだリードしているのでしょうか?AIを分析する者として、直接的な比較はますます困難になっています。意図的にそうなっていると言えるかもしれません。OpenAIのような一部の企業はベンチマークスコアに多数決投票を使用し、他の企業はパフォーマンスが悪いベンチマークを単に報告しません。一部の数字にはツールの使用が含まれ、他のものには含まれていません。
しかし、それらすべてを考慮しても、スコアはわずかに収束しています。一定量の計算能力に対して、数学や科学、知識雑学、あるいはコーディングでも、ほぼ一定のパフォーマンスレベルが得られます。これは、視聴者の誰もが明確なお気に入りのモデルを持てないということではありません。私の議論では、おそらくO3が総合的に最も優れているかもしれず、私はDeep Researchを常に使用しています。多くの人々はClaude 3.7 Sonnetのパーソナリティとライティングスタイルを愛し、Cursorのようなものでのコーディングに広く使用しています。DeepSeekについては後で触れますが、コスト効率、つまり最もお得な選択肢という点で限界を押し広げています。しかし、計算能力の支出を一定に保つと、パフォーマンスは本当に収束し始めています。それが今夜の私にとっての大きな発見です。
モデルが改善していないという事実を排除するものではないことを指摘する価値があります。ただ、それらは一緒に改善しているのです。モデルが例えばMMUベンチマークでの表やグラフを以前よりもよく読めるようになったという事実は素晴らしいことです。この場合、Gemini 2.5 Proは文字通り最先端であり、その特定のカテゴリーにおける優秀さはScale AIのVistaベンチマークによって強化されました。MMUとは異なり、Vistaベンチマークはモデルに自由形式の応答を与え、視覚的理解に適した形で、画像内のアイテム数を数えることができるか、ロジックを使用できるか、情報を抽出できるかなどをテストします。
Gemini 2.5 ProはこのCapacityにおいてClaude 3.7よりも大幅に優れているだけでなく、このベンチマークで人間のパフォーマンスに手が届く範囲内に入った最初のモデルです。ちなみに、これらの人間はウェブを閲覧し、時間をかけて回答することができたため、そのパフォーマンスはかなり印象的です。
少し問題があるにもかかわらず、言語モデル・アリーナでの大きなジャンプを示すべき簡単なベンチマークがあります。これはコミュニティ投票であり、少し操作される可能性がありますが、1位と2位の間には現在大きなデルタがあります。鷹の目を持つ人は、このベンチマークについての大きな警告サインに気付くかもしれません。それは、Claude 3.7 Sonnetがどこにあるのかという点です。
Gemini 2.5 Proが他のモデルよりも頭一つ抜けている分野が一つあることを認めざるを得ません。それは長いコンテキストの処理です。約75万語に相当する100万トークンを処理できるのに対し、この図の他のモデルはその4分の1も処理できません。しかし、私はそれでも、1つか2つの例外を除いて、パフォーマンスはさまざまなモデルファミリー間で全体的に収束していると主張するでしょう。
現在、GoogleのAIスタジオでは無料ですが、もちろんそれは続かないでしょう。また、検索ができるのは素晴らしいことですが、Chat GPTはかなり前からそれができており、Claudeもまもなくできるようになります。
簡単に、私のベンチマーク「Simplebench」ではどうでしょうか?これは常識的な推論のテスト、あるいはトリック問題と言える場合もあります。今夜の遅い時間、今は10時30分近くですが、完了してリーダーボードに載せられることを期待しています。ただ、10の公開質問でテストしないわけにはいきませんでした。Gemini 2 Pro、拡張思考を使用するGemini 2でさえ、10問中1問しか正解できませんでした。Gemini 2.5 Proは、よろしければ自分でも質問をテストできますが、10問中5問正解しました。これは大きな飛躍です。ただし、それはClaude 3.7や01が得るスコアと同じであり、これも動画の要点のようなものです。進歩が見られないということではなく、むしろモデルのパフォーマンスが収束しているということです。
さて、今朝発表された新しいDeepSeek V3に話を移しましょう。これは新しい推論モデルではなく、R2でもなく、新しい基本モデルです。推論モデルでは、最も良い例えはGPT-4.5と比較することでしょう。これはGPT5の基本モデルになるはずで、GPT5は推論モデルになるでしょう。ちょうどGPT-4がOシリーズモデルの背後にある基本モデルのようなものです。
チャートをズームインさせましょう。これが恐らく、パフォーマンスがチーム間で収束しているという最も顕著な証拠かもしれません。今日のDeepSeek V3は縞模様で示されており、これが間違いなく、おそらく今後数週間で登場するR2モデルの基本モデルになるでしょう。R1の基礎となるモデルである元のDeepSeek V3からの改善に焦点を当てるだけでなく、OpenAIのGPT-4.5との比較にも焦点を当てたいと思います。
ご覧のように、数学面では明らかに優れており、コーディングでもおそらくそうです。科学的質問と一般的な知識については少し劣っていますが、OpenAIは中国企業よりも6か月から12か月以上先を行っているはずでした。しかし今や、新しいDeepSeek V3とGPT-4.5の基本モデル間のパフォーマンスはほぼ同等です。4.5はサム・アルトマンが「多くの人々がAGIを感じるだろう」と言ったモデルであることを忘れないでください。
私のPatreonでは、DeepSeekとリャン・ウェンファンの舞台裏に関するドキュメンタリーを間もなく公開する予定ですが、彼がこの新しいV3でAGIを感じると言うとは思いません。もちろん、中国政府によって支援されていない限り、そしてたとえ支援されていても、DeepSeekはAnthropicやOpenAIの純粋な計算能力に匹敵するのに苦労するかもしれないことは承知しています。それでも、現在の状況では、推論モデルに明確な障壁はありません。
最後に、AIの汎用品化の証拠をさらに2つ紹介します。ここでの汎用品化とは、現時点での唯一の本当の差別化要因は、より多くの計算能力を得るためにどれだけのお金を注ぎ込めるかであり、それによってベンチマークのパフォーマンスが向上するという議論です。
すでに、サティア・ナデラがAIモデルは汎用品化されつつあると直接言っていることについて話しました。このチャンネルをしばらく見ている人なら、これは2年前から大きなバイブシフトであることをご存知でしょう。当時彼はOpenAIとの特別なパートナーシップを祝っていました。しかし数週間前、「The Information」でこの内部報告があり、チャンネルで話す機会がありませんでしたが、非常に興味深いものです。
MicrosoftにはMicrosoft AIという部門があり、それはInflection AIの元責任者であり、それ以前にはDemisと共にGoogle DeepMindの共同創設者だったMustafa Suleyman氏によって運営されています。予想通り、Microsoft AI部門もAGIを形成しようとしています。しかし、去年9月、彼らはOpenAIの01が先に行くのに気づきました。私たちも全員気づきました。Mustafa Suleyman氏は明らかに電話をかけ、OpenAIが01の作り方を教えてくれなかったときに激怒したと言われています。
彼はMira Muratiに対して声を荒げ始めたようです。「あなたは契約の一部を守っていない」と彼は言いました。通話は突然終了しました。「ユーザー通話は突然終了しました。「ユーザークエリに回答する前にどのように考えるようにプログラムしたかについてのドキュメンテーションを提供してください」と彼は要求しました。
もちろん、これはMicrosoftとOpenAIの関係悪化についてのやや刺激的な話ですが、本当の核心は後に来ます。少なくともMicrosoftによれば、彼らはこの種の推論をする方法を理解したそうです。GeminiやR1、そしてその他のモデル、Grok 3や03など、みんなが今推論しているようですが、Microsoftも同様だと主張しています。
彼らは、MAI(Microsoft AI)モデルが現在、ベンチマークにおいてOpenAIやAnthropicの主要モデルとほぼ同等のパフォーマンスを発揮していると主張しています。彼らのモデルも当然、回答する前に考えるという同様のことを行っています。これがサティア・ナデラがモデルが汎用品化されていると自信を持って言った理由でしょうか?もし彼自身のチームが例えば03のパフォーマンスを部分的にでも複製できるならば、それは確かに彼にその自信を与えるでしょう。
Microsoftは最高のモデルを持つ必要はありません。彼らはあらゆる方向でAIから大金を稼いでいます。例えば、972マガジンによると、同社のクラウドおよびAIサービスのイスラエル軍への販売は、ガザへの攻撃が始まって以来急増しているのはご存知でしょうか?もちろん、MAIモデルが誇大広告に見合うものかどうかは様子を見る必要がありますが、それでもその声明自体は注目に値します。あなたはOpenAIが単なる製品会社だと感じますか?私はそれ以上のものだと思いますが、時が教えてくれるでしょう。
最後の証拠は、再び今日の新しいDeepseek V3とClaude 3.7 Sonnetを比較することから来ています。これらは現在おそらく100以上あるベンチマークのうちの5つに過ぎないことは承知していますが、例えばLive Codebenchでは3.7 Sonnetを上回るパフォーマンスを示しています。これはAnthropicのCEOが次のようなコメントをした数日後のことです。「私たちが発見しているのは、3〜6ヶ月以内に、AIがコードの90%を書いている世界からそれほど遠くないということです。そして12ヶ月以内に、AIが基本的にすべてのコードを書いている世界になるかもしれません。」
しかし、このかなり劇的で誇大な発言を見た後、Anthropicがまだロンドンでソフトウェアエンジニアの職を募集していることに気づきました。彼らは非常に寛大な年俸を広告しているだけでなく、待ってください、もし12ヶ月以内にClaude 4か5が「すべてのコーディング」を行うとするなら、なぜ年俸を広告するのでしょうか?論理的には、これらの人々は数ヶ月以内に仕事がなくなるはずです。もちろん、エンジニアリングはコーディングだけではないので、少し皮肉を言っているのですが、それでもその言葉と予測は採用の熱意と完全に一致しません。
「すべてのコーディング」を行うとされるモデルファミリーにとって、この場合ポケモンをプレイする小学生向けのゲームにも苦戦し、進行のために滑稽な手段に頼り、結局うまくいかないというのはかなり苦しいものです。
これが新しいGeminiに関する私の見解です。素晴らしいモデルですが、例外性というよりはむしろ収束の証拠です。もちろん、OpenAIのImage Genと同じ夜に登場したことはGeminiチームにとって非常に不都合でした。私は2つの別々の動画を作ることにしましたので、そのアプローチが気に入ったかどうか教えてください。友人と共有する際に、特定のトピックに興味がある場合、より簡単になると思いました。現在こちらでは11時に近づいていますので、おやすみなさい。視聴いただきありがとうございました。

コメント

タイトルとURLをコピーしました