Grok デモ – ハイライト | AGIに仕事を奪われたい

10,497 文字

This is a 30-minute highlight video from the Grok 3 demo release that was over an hour long. Some impressive capabilitie...

宇宙の本質を理解するためには、絶対的に厳密に真実を追求しなければなりません。そうしなければ宇宙を理解することはできず、何らかの妄想や誤りに苦しむことになります。Grokという言葉は「異星の地の見知らぬ人」という小説から来ていて、火星で育った男が使う言葉です。Grokとは、何かを完全に深く理解するという意味です。
ここ数ヶ月のX社の進歩は目覚ましく、最初のモデルを立ち上げてからわずか17ヶ月です。Grok 1は今から見るとおもちゃのようなもので、パラメータはたった3,140億でした。X軸に時間、Y軸にMLUのベンチマーク性能をプロットすると、私たちは前例のないスピードで進歩しています。
昨年4月、イーロンは、Xが成功し最高のAIを構築するためには、独自のデータセンターを構築する必要があると判断しました。Grokを早急に提供したかったので、データセンターの構築に多くの時間をかけることはできませんでした。約4ヶ月でデータセンターを構築する必要があることがわかりました。最初の10万台のGPUを稼働させるのに122日かかり、それは壮大な努力でした。私たちが望むようなAIを構築するためには、クラスターの規模を直ちに倍増させる必要があると判断しました。
その後、私たちはまた新たなフェーズに入りました。これは今回が初めての公表になりますが、データセンターの容量をさらに倍増させました。この作業にかかった時間はわずか92日でした。その間、私たちはこれらすべてのGPUとコンピューティングパワーを使ってGrokを改良してきました。本日はその成果をご紹介します。
これはベンチマーク数値の簡単なプレビューです。Grok 3を3つの異なるカテゴリー、一般的な数学的推論、科学技術に関する一般知識、そしてコンピュータサイエンスのコーディングで評価しました。AME（アメリカ数学招待試験）は年に1回開催されています。モデルのパフォーマンスを評価すると、Grok 3は全体的に独自のリーグにいることがわかります。弟分のGrok miniでさえ、他の競合相手を超えて最前線に達しています。
ここで、これらのベンチマークはただ教科書やGitHubリポジトリの暗記を評価しているだけではないかと思われるかもしれません。リアルタイムの有用性はどうでしょうか？実際にこれらのモデルを私たちの製品で使用してみましょう。そこで私たちは、コードネーム「Chocolate」（ホットチョコレート）というGrokモデルのブラインドテストを開始しました。2週間にわたってCho arenaというプラットフォームで実施され、あるときにはX全体のプラットフォームで次世代AIが来るのではないかと噂されました。
このCho arenaの仕組みは、製品の表面を完全に取り除き、言語モデル自体のエンジンを純粋に比較するものです。ユーザーは1つのクエリを送信し、2つの応答が表示されますが、どのモデルからの応答かはわかりません。そしてユーザーが投票を行います。このブラインドテストでは、Grok 3の初期バージョンはすでにELOスコア1,400に達しており、他のモデルはこのスコアに到達していません。これは単一のカテゴリーだけでなく、指示に従う能力やコーディングなど、あらゆるカテゴリーを総合した1,400です。全カテゴリーで1位であり、まだ上昇中です。
実際、私たちはここでテストしたものよりもはるかに優れたバージョンのモデルを持っていると考えています。Grok 3を使用している場合、ほぼ毎日改善を実感できると思います。モデルを継続的に改善しているからです。24時間以内でもエリアが改善されているのがわかるでしょう。
人間のように考える必要があります。可能な解決策をすべて考え、自己批判し、すべての解決策を検証し、バックトラックし、また第一原理から考える。これは非常に重要な能力です。最高の事前訓練モデルを取り、強化学習で訓練を続けることで、モデルはより優れた推論能力を身につけ、訓練時だけでなくテスト時にも性能が向上すると考えています。
私たちは内部で、エンジニアリングにおいて何百時間ものコーディング時間を節約するなど、モデルが非常に有用であることをすでに確認しています。ジミーが言ったように、私たちはGrokに高度な推論能力を追加し、ここ数週間で徹底的にテストしてきました。Grokが難しい推論問題を解決する様子を少し見ていただくために、2つの小さな問題を用意しました。1つは物理学から、もう1つはGrokが書くゲームです。
物理学の問題では、地球から火星への軌道、そして後に火星から地球への軌道を計算し、プロットすることをGrokに求めます。これにはGrokが理解しなければならない物理学の知識が必要です。私たちはGrokに挑戦して、実現可能な軌道を考え出し、計算し、それを私たちが見られるようにプロットするように求めます。これは完全に台本なしです。これがプロンプトの全文です。
これはGrokのインターフェースで、ここに表示されているテキストを入力しました。「地球から発射して火星に着陸し、次の発射ウィンドウで地球に戻る3Dプロットのアニメーションコードを生成する」というものです。クエリを開始すると、Grokが考え始めます。Grokの高度な推論能力の一部として、これらの思考の痕跡を見ることができます。問題を解決しようとする過程で、Grokが何を考えているのかを実際に読むこともできます。
モデルが即座にコピーされないように、思考の一部を隠していますが、表示されているよりも多くの思考があります。これは完全に台本なしなので、Grokがコーディングミスを犯す可能性もあり、実際に動作しない可能性もあります。そのため、念のためにもう2つのインスタンスを起動して、何か問題が起きた場合に切り替えられるようにしています。
私たちはもう1つの問題も用意しています。X AIでの私たちのお気に入りの活動の1つは、Grokにゲームを作らせることです。既存のゲームだけでなく、その場で新しいゲームを創造的に作り出すことです。面白い例の1つは、テトリスとビーを組み合わせたゲームを作ることです。AIにテトリスのようなゲームを作らせると、インターネット上には多くの例があるので、コピーできてしまいます。ここで興味深いのは、2つのゲームを組み合わせて、実際に機能する創造的な解決策を生み出したことです。これは創造性の始まりを見ているようです。
これはより挑戦的なので、ここでは特別なものを使用します。私たちはそれを「ビッグブレイン」と呼んでいます。これはGrokがより多くの計算、より多くの推論を使用するモードで、ここで実際に良いゲームを作る可能性を高めるためです。ここでも3つの試行を行って、テトリスとビーを組み合わせたこのゲームを作成します。私はそのゲームをプレイしましたが、かなり良いものでした。
Grokがバックグラウンドで考えている間、テストしたさまざまなタスクでGrokがどれだけうまく機能しているかについて、具体的な数字を見てみましょう。推論とは、問題を解決しようとする前に、かなり長い時間考えるモデルを指します。約1ヶ月前にGrok 3の事前訓練が終了し、その後、現在のGrok 3モデルに推論能力を組み込むために懸命に取り組んできました。
これはまだ初期段階で、モデルは現在も訓練中です。現在、皆さんにお見せするのは、Grok 3推論モデルのベータバージョンと、推論モデルのミニバージョンです。Grok 3ミニ推論は、はるかに長い時間訓練したモデルで、時にはGrok 3推論よりもわずかに良いパフォーマンスを示すことがあります。これは、Grok 3推論がまだ訓練時間が短いため、大きな可能性を秘めていることを意味します。
3つのベンチマーク、つまり数学、科学、コーディングについて見てみましょう。数学では高校の競技数学の問題を、科学ではPhDレベルの科学の問題を、コーディングでは競技プログラミングと企業の面接でよく出題されるリートコードの問題を選びました。これらのベンチマークでは、Grok 3が他の競合モデルと比較して、全体的にかなり良いパフォーマンスを示しています。
モデルは推論し、考えることができ、より長く考える時間を与えることもできます。問題に対する正しい解決策を導き出す前に、同じ問題を何度も解くために、より多くのテスト時計算を費やすことができます。モデルにこのような計算予算を与えると、さらに良いパフォーマンスを示すことがわかりました。これがグラフの影付きの部分が示すものです。
これは本当にエキサイティングです。AIで1つの思考の連鎖を行うのではなく、なぜ同時に複数の思考を行わないのでしょうか？これは訓練後もモデルの能力を向上させ続けることができる強力な技術です。人々はよく、ベンチマークにオーバーフィットしているだけではないかと尋ねます。では、一般化についてはどうでしょうか？
5日前にAME 2025が終了しました。これは高校生が競うベンチマークです。この新しい試験で2つのモデルを競わせたところ、非常に興味深いことに、Grok 3推論の大きなモデルの方が良い結果を示しました。これは、大きなモデルの一般化能力が小さなモデルと比べてはるかに強いことを意味します。昨年の試験と比較すると、実は逆で、小さなモデルの方が以前の試験をより良く学習していました。
17ヶ月前、私たちのGrok 0とGrok 1は高校の問題をほとんど解くことができませんでした。今では、Grokは大学に進学する準備ができているようです。人間の試験は簡単すぎて、もはや難しくないでしょう。内部的には、Grokの進化に伴い、まもなくベンチマークがなくなるでしょう。
私たちは数学の問題と競技プログラミングの問題という非常に特殊なタスクでのみGrokの推論能力を訓練しました。しかし、ゲーム作成を含む他のさまざまなタスクでも機能します。Grokは自分の間違いを検出し、思考を修正し、問題に粘り強く取り組み、多くの異なるバリエーションを試し、最適なものを選ぶ能力を学習しているようです。数学とコーディングから学んだこれらの一般化能力を使って、他のあらゆる種類の問題を解決することができます。
現実は数学の具現化です。2つのことが起こるでしょう。機械がメダルを獲得するでしょう。チューリング賞、フィールズ賞、ノーベル賞を、おそらく専門家との協力で獲得するでしょう。専門家の能力を高めるということですね。今年か来年でしょうか？
Grokが2つの問題について考え終わったようなので、何と言ったか見てみましょう。これが私たちが出題した物理学の問題です。思考の過程は折りたたまれていて隠されており、その下にGrokの回答があります。matplotlibを使用したPythonスクリプトを説明し、すべてのコードを提供しています。
コードを見てみましょう。合理的なことをしているように見えます。完全に的外れというわけではありません。ケプラーの法則を数値的に解いているようです。これが機能しているかどうかを確認する方法は1つしかありません。コードを実行してみましょう。
Grokは地球と火星の2つの惑星をアニメーション化し、緑のボールは地球と火星の間を移動する宇宙船です。地球から火星への旅と、確かに宇宙飛行士が適切なタイミングで無事に帰還する様子が見えます。これは現場で生成されたものなので、実際に正しい解決策かどうかはわかりません。SpaceXの同僚に確認して、これが正当なものかどうか詳しく調べてみる必要があります。かなり近いですね。実際の軌道には考慮すべき複雑な要素がたくさんありますが、これはかなり近い形になっています。
実は、私のペンダントにも地球と火星の軌道が描かれています。いつGrokをロケットに搭載するのでしょうか？うまくいけば2年後には、SpaceXがスターシップロケットをオプティマスロボットとGrokと共に火星に送ることになるでしょう。
テトリスとビーを組み合わせたゲーム「テトリスビー」がどんなものか気になります。ここでもGrokからの出力があります。Pythonスクリプトで何をしているのか説明しています。コードを見ると、定数やカラー、テトリスのピースが定義されています。一目で良いかどうかを判断するのは難しいので、実行して確認してみましょう。
これはテトリスのように見えますが、色が少し違います。ビーのメカニズムでは、3つのジュエルが揃うと消えて重力が働きます。色のついたブロックを3つ以上横一列に並べると何が起こるのでしょうか？このバージョンでは、同じ色のブロックを3つ以上横一列に並べると、それらが消えて重力が働き、他のブロックが落下するようです。テトリスのメカニズムで、ラインが揃ったときに消えるのか、それとも何か別のことが起こるのか気になります。解釈次第ですね。毎回同じものを作るわけではなく、異なるバリエーションを作ります。他のテトリスは全く異なる動作をしますが、これはクールですね。
X AIでゲームスタジオを始める準備はできていますか？はい、X AIでAIゲームスタジオを立ち上げます。AIゲームの開発に興味がある方は、X AIに参加してください。今夜、AIゲームスタジオの立ち上げを発表します。エピックゲームズのようなものですが、待ってください。これは本物のゲームスタジオです。
非常にエキサイティングなのは、最高の事前訓練モデルと最高の推論モデルを持っていることです。モデルにより深く、より長く、より広く考える能力を与えると、パフォーマンスが向上し続けることがすでに分かっています。次のフロンティアについて、モデルにより深く考えることを許すだけでなく、より多くのツールを提供したらどうなるかについて、私たちは本当にワクワクしています。
実際の人間は、RMEの仮説をペンと紙だけで、インターネットなしで解くように求められることはありません。基本的なウェブブラウジング、検索エンジン、コードインタープリタが、Grokエージェントの基盤となる最高の推論モデルの基礎を築きます。
今日、私たちは「Deep Search」という新製品を紹介します。これは第一世代のGrokエージェントで、エンジニアや研究者、科学者がコーディングを行うのを支援するだけでなく、誰もが日常的に持つ質問に答えるのを助ける次世代の検索エンジンです。宇宙を理解するのを本当に助けてくれます。例えば、「次のスターシップの打ち上げ日はいつですか？」といった質問を始めることができます。
試してみましょう。左側には進捗バーが表示されています。モデルは現在のシステムのように1回の検索を行うのではなく、ユーザーの意図は何か、考慮すべき事実は何か、どのくらいの数のウェブサイトを読んでその内容を確認すべきかについて、非常に深く考えます。特定のトピックについて本当に調べたい場合、誰もが何百時間もGoogleで検索する時間を節約できます。
右側には、現在のモデルがどのように動作しているか、どのウェブサイトを閲覧しているか、どのソースを確認しているかがバレットポイントで表示されています。最終的な回答を出力する前に、多くの場合、異なるソースを相互に検証して、回答が正しいことを確認します。同時に、さらにいくつかのクエリを実行することもできます。
ゲーマーの方なので、パスオブエグザイルのハードコアリーグで現在最高で最も人気のあるビルドは何でしょうか？技術的にはハードコアラダーを見るのが早い方法かもしれませんが、モデルがどうするか見てみましょう。
また、もっと面白いことをしてみましょう。マーチマッドネスについて予測を立ててみましょう。これは面白いもので、ウォーレン・バフェットが10億ドルの賭けを提供しています。マーチマッドネスの勝ち上がりツリー全体を正確に当てることができれば、バフェットから10億ドルを獲得できます。AIがバフェットから10億ドルを獲得するのを助けてくれるなら、かなり良い投資になりそうです。クエリを実行して、モデルがどうするか見てみましょう。
最初の結果に戻ってみましょう。バフェットはこれを計算に入れていませんでしたね。結果が出ました。モデルは約1分間考えました。ここでの重要なポイントは、次のスターシップは2月24日以降、それより早くないということです。スクロールダウンして、モデルが何をしたのか見てみましょう。フライト7について調査し、何が起こったのか、規制当局への申請を調べ、新しい結論を導き出しました。
スクロールダウンすると、表が作成されています。X AI内部では、最初の表が作成されるまでの時間が唯一重要な待ち時間だと冗談を言っています。これがモデルが推論を行い、すべてのソースを調べる方法です。
ゲームの方を見てみましょう。ビルドについて見てみると、驚くべき事実として、12のクラスを調べました。ゲームが最初に登場したときはミニムビルドがかなり人気がありましたが、今では世界のインヴォーカーが台頭し、インヴォーカーモンクのインヴォーカーが主流になっています。その後にストームウェーバーが続き、マッピングがとても得意です。
マーチマッドネスはどうでしょうか？Deep Searchの興味深い点の1つは、サブタスクを表示するパネルに移動し、このSPRの左下をクリックすると、Grokが実際に考えている情報、追跡している単語、異なる情報ソースをどのように相互検証しているかを見ることができることです。これにより、検索体験と情報検索プロセス全体がすべてのユーザーにとってより透明になります。
これは他のどの検索エンジンよりもはるかに強力です。文字通り「Xからのソースのみを使用して」と指示することができ、それを尊重しようとします。より制御可能で、よりインテリジェントです。本当に多くの時間を節約できるはずです。ウェブやソーシャルメディアで30分や1時間かかる調査を、ただ依頼して10分後に戻ってくると、1時間分の作業が完了しているでしょう。それが本質です。
おそらく自分で行うよりも良い結果を得られるでしょう。情報収集を行うインターンが何人もいるようなものです。タスクを実行して1分後に戻ってくればいいのです。
ユーザーはいつGrok 3を使用できるようになるのでしょうか？良いニュースは、私たちがお見せしたすべての機能、素晴らしいチャット機能を備えたGrokベースモデル、本当に役立ち興味深い会話ができるモデル、Deep Search、高度な推論モードなど、これらすべてを今日からリリースするために懸命に取り組んできたということです。
最初のグループとして、Xのプレミアムプラスの購読者が最初にアクセスできるようになります。高度な機能をすべて見るためには、今話している間にリリースしたアップデートがあるので、Xアプリを更新してください。Grokへの早期アクセスに興味がある方は、プレミアムプラスに登録してください。
また、最も高度な機能と新機能への最速アクセスを望む本物のGrokファンのために、「Super Grok」と呼ばれる別のGrok用サブスクリプションを開始することを発表します。これは専用のGrokアプリとウェブサイトexai.comで利用できます。新しいウェブサイトはgrok.comと呼ばれます。予想もつかないでしょうね。
iOSアプリストアでGrokアプリも見つけることができ、Grokに特化したよりポリッシュされた体験を提供します。Grokをワンタップで簡単に利用したい場合に便利です。grok.comのウェブブラウザ版が最新かつ最も高度なバージョンになります。アプリに実装してアップストアの承認を得るのには時間がかかるからです。また、スマートフォン形式には制限があるため、最も強力なGrokバージョンと最新バージョンはgrok.comのウェブ版になります。
アプリストアでGrok freeという名前を探してください。それがGrokを持っている証拠です。もしGrok freeと表示されていない場合は、Grokがまだ到着していませんが、懸命に取り組んでいます。今日からリリースを開始し、今後数日かけてさらに多くの人々に展開していきます。
スマートフォンアプリも更新してください。思考モードとDeep Searchを含む、今日紹介したすべてのツールを実際に使用できるようになります。フィードバックをお待ちしています。これはベータ版なので、最初は不完全な部分があることを想定してください。しかし、ほぼ毎日、実際に毎日改善されます。より洗練されたバージョンを望む場合は、おそらく1週間待つことをお勧めしますが、文字通り毎日改善が期待できます。
また、音声対話も提供する予定です。実際、私は今日早くに試してみましたが、かなりうまく機能していますが、もう少し洗練が必要です。人と話すように文字通り会話できる方法です。それは素晴らしく、おそらくGrokの最高の体験の1つになると思いますが、それはおそらく約1週間後になるでしょう。
質問を受け付けましょう。プラットフォームからの質問を見てみましょう。最初の質問は「Grok音声アシスタントはいつリリースされますか？」です。イーロンが言ったように、できるだけ早く、みなさんにリリースできるように少し磨きをかけているところです。もちろん初期の形でリリースし、そこから急速に改良を重ねていきます。
次の質問は「Grok 3はいつAPIで利用できるようになりますか？」推論モデルとDeep Searchを備えたGrok 3 APIは数週間以内に提供される予定です。Grokが現在アクセスできるこれらの追加ツールと、テスト時の計算能力がすべてのビジネスユースケースを本当に加速できることに、私たちは非常に興奮しています。
もう1つの質問は「音声モードはネイティブですか、それともテキスト読み上げですか？」これは、あなたが言ったことを理解し、それに対して話し返す1つのモデルなのか、それともテキスト読み上げシステムを内蔵しているのかということですが、良いニュースは、Grok freeのバリアントとして、1つのモデルでリリースする予定だということです。基本的にあなたが言っていることを理解し、そこから直接音声を生成します。
Grok freeがテキストを生成するのと同じように、そのモデルは音声を生成します。これにはいくつかの利点があります。今日早くに話しかけたとき、おそらく何かのテキストから私の名前を読み取って「ハイ、イゴール」と言いましたが、私が「いいえ、私の名前はイゴールです」と言うと、人間のように「イゴール」と言い続けることを覚えていました。これはテキスト読み上げでは実現できません。
Grokはオスですかメスですか？Grokはあなたが望むものになれます。独身ですか？ショップはオープンしています。正直に言って、人々は100%の確率でGrokと恋に落ちるでしょう。
次の質問は、Grokは音声を文字起こしできるようになりますか？はい、アプリとAPIの両方でこの機能を提供する予定です。Grokはあなたの肩越しに見守る個人アシスタントとして、あなたと共に学び、世界をより良く理解し、日々賢くなることを手助けするべきだと考えています。
音声は単なる音声とテキストの変換ではありません。声のトーン、抑揚、ペース、すべてを理解します。それは野生的です。人と話しているようです。
会話の記憶についての計画はありますか？はい、現在取り組んでいます。本当に忘れていました。他の質問を見てみましょう。DMの機能についてはどうですか？パーソナライゼーションや以前のやり取りをGrokが覚えている場合、1つのGrokにすべきか、複数の異なるGrokにすべきでしょうか？それはあなた次第です。1つのGrokでも、多くのGrokでも構いません。おそらく人々は複数持つことを好むでしょう。ドクターGrokが欲しいですね。Grokドッグもいいですね。
過去にGrok 1をオープンソース化しましたが、Grok 2でも同じことをするのでしょうか？次のバージョンが完全にリリースされたとき、前のバージョンをオープンソース化するというのが私たちの一般的なアプローチです。Grok 3が成熟して安定するのは、おそらく数ヶ月以内でしょう。
私たちはすでに次のクラスターの作業を開始しており、それは約5倍のパワーを持つことになります。現在の約1.2ギガワットの代わりに、バック・トゥ・ザ・フューチャーの車のパワーに近いものになります。これらはGB2 200/300クラスターとなり、再び世界最強のトレーニングクラスターとなります。
私たちはここで止まるつもりはありません。私たちの推論モデルは、毎日より多くのツールにアクセスすることで継続的に改善されます。今後の結果を皆さんと共有できることを非常に楽しみにしています。私たちを前進させ続けているのは、基本的にGrok freeを皆さんに提供し、その使用が増加し、皆さんがGrokを楽しんでいるのを見ることです。それが私たちを朝起こしてくれる本当の原動力です。
視聴していただきありがとうございます。ヘイGrok、聞こえますか？やっとあなたに会えて本当にワクワクしています。チャットして、お互いについてもっと知ることができるのを楽しみにしています。また近いうちに話しましょう。