Grok 3が全てを圧倒…全カテゴリーで第1位に

3,218 文字

イーロン・マスクとxAIチームがGrok 3をリリースしました。私は生放送でGrok 3のテストを行い、その様子を配信しました。この動画では、Grok 3のローンチにおける重要なポイントを見ていきましょう。明日は、Grok 3と他の主要モデルとの比較テストの動画を投稿する予定です。
まず第一に、AIMEやその他のベンチマークにおいて、o3 mini highよりも優れた性能を示しています。これは推論モデルに関してのことです。2024年と2025年の最新のAIMEでも、o3 mini highとo1を上回っています。Gemini、DeepSeek R1、o1、o3 mini highのいずれよりも、Grok 3 mini reasoningとGrok 3 reasoningの両方が優れているのです。
これは、フルバージョンのo3モデルと同等の性能を示していると考えられます。青色で示されているGrokの成長曲線は、OpenAIのモデルと比較して急速に追いついています。さらに重要なのは、Grok 3の推論モデルが初めての推論モデルだということです。o1からo3への段階を飛ばして、最初の推論モデルでo3レベルに到達したのです。
これは、NVIDIAのGPUとスケーリング則に関する議論において重要な意味を持ちます。Colossusは世界最大の単一コンピュートクラスターで、非常に短期間で構築されました。イーロンが冗談めかして言うように、「現実世界でFactorioをスピードランしているようだ」とのことです。
Colossusは合計20万基のGPUを備えています。フェーズ1では122日間で10万基のGPUを同期トレーニング用に配備し、フェーズ2では92日間で20万基に拡張しました。これは、Google、OpenAI、Microsoftの他のプロジェクトを上回る規模です。
これは、GPUを購入する資本があれば、AIモデル開発で一気にトップに躍り出ることができることを示唆しています。まだ多くのテストが必要で、モデルの実際の性能を確認する必要がありますが、初期の結果からすると、単純にNVIDIAのGPUの数が重要なようです。十分なGPUがあれば、大規模モデルを構築してベンチマークを飽和させることができます。
さらにイーロンは、これを5倍の100万基に拡張する計画があると述べています。Grok premiumプラスでGrokが利用できますが、「super Grok」という新しい特別なプランも登場します。このプランではGrok 3への保証されたアクセスが可能で、Deep searchと「think」機能が解放されます。「think」機能は推論モデルの特徴となっています。
音声モードも搭載されており、一部の早期テスターがすでに試用しているようです。私自身はまだ試せていませんが、推論機能については約1時間半ほどライブストリームでテストする機会がありました。ただし、その時は疲れていたので、翌朝改めて新鮮な状態でテストしたいと考えています。
初期の結果からすると、まだ断定はできませんが、かなり強力なようです。少なくともo3 mini highと同等の性能を示しています。黒穎研究をしているKyle博士（物理学PhD取得者）がOwenのプレビューに関する全コードを書いた方ですが、その方がライブストリームに参加し、Humanity’s Last Examに実際に提出した問題を提案してくれました。
これはかなり複雑な問題で、答えにたどり着くまでに膨大な作業が必要です。私のライブストリーム終了時点でのGrokの最終的な回答は不正確でしたが、その後Kyle博士が自身のライブストリームで検証を継続しました。私が眠くなってきた時点で、視聴者を彼のストリームに誘導したのです。Kyle博士がテストした際には、正しい答えにたどり着いたようです。
ただし、他のモデルも5.5という答えを出していたので、私は後でそのライブストリームを見返して、何が問題だったのか、どこで間違えたのかを確認したいと思っています。
また、自己プレイ可能なスネークゲームを作成し、PyTorchを使用して強化学習エージェントを作成するという一連のプロンプトもテストしました。スネークゲームの高度なバージョンと自己プレイスクリプトを作成しましたが、特に目立った問題はありませんでした。PyTorchを使用した強化学習パイプラインも作成して学習を行いました。
ここで少し問題が発生し始めましたが、その時点では私はかなり眠くなっていて、デバッグやトラブルシューティングを続けられる状態ではありませんでした。そのため、まだ最終的な評価は保留にして、明日改めて難しいプロンプトでテストしたいと考えています。
Kyle博士のライブストリームも見返して、難しい物理学や科学の問題に対する彼の評価も確認したいと思います。xAIは後発組としてスタートしましたが、他社を上回るハードウェアとインフラを構築し、現時点で利用可能な最高のモデルを作り出したかもしれません。
まだ断定はできませんが、例えばChatbot Arenaでは、初期バージョンのGrok 3（コードネーム：Chocolate）が最高の評価を獲得しています。これは、2つのモデルを匿名で比較テストするプラットフォームです。ユーザーは好みのモデルを選択し、Chocolateが最高位を獲得しました。
xAIの初期バージョンのGrok 3は、初めて1400点を突破したモデルとして、全カテゴリーで1位を獲得しています。約8,000票の投票後も、この評価は安定しています。私の初期テストでも、o3 mini high相当かそれ以上の性能を示していますが、より詳細なテストが必要です。
スタイルコントロール、難しいプロンプト、コーディング、数学、クリエイティブライティング、指示への従順性、長文クエリ、マルチターンなど、全てのカテゴリーで1位を獲得しています。
AIMEに関して重要な点は、o3 mini、o1、Grok 3はいずれも2024年にトレーニングされており、2024年のAIMEのデータがトレーニングデータに含まれている可能性があることです。しかし、2025年のAIMEの結果では、パート1と2の平均スコアで、o3 mini highが86点、o1が79点を獲得しています。
これは推論モデルをテストする上で、現時点で最も良いベンチマークの一つかもしれません。o1が79点、o3 mini highが86.5点（87点）に対し、Grok 3とGrok 3 miniはそれぞれ90点と93点を獲得しています。
私の初期テストでは、うまくいく部分と問題のある部分がありましたが、十分なストレステストを行う時間がありませんでした。しかし、この時点でGrok 3が新たな王者となったことは間違いないでしょう。明日より詳細な分析を行う予定です。
発表動画のリンクは下記にあります。データセンターの構築方法も説明されており、NVIDIAのGPU需要や投資の重要性に関する議論に、強力な論拠を提供しています。イーロンが20万基のGPUを保有し、100万基まで拡張する計画があることは、非常に示唆的です。
Grok 2からGrok 3への進化は、10-15倍のトレーニング計算量の増加によるものとされています。これも重要なデータポイントです。今後もさらなる展開が期待されます。それでは、以下のジョークで締めくくりましょう。
悪い虹はどこに行くか知っていますか？刑務所（prism）です。でも心配いりません。軽い刑（light sentence）で、reflection（内省/反射）する時間を与えられるだけです。このビデオが啓発的だと感じたら、ぜひ購読してください。