XAIがGROK 3を発表 [完全版]

15,976 文字

YouTube
作成した動画を友だち、家族、世界中の人たちと共有

みなさん、Grok 3の発表へようこそ。XAIとGrokのミッションは宇宙を理解することです。私たちは宇宙の本質を理解したいと考えています。宇宙人はどこにいるのか、人生の意味とは何か、宇宙はどのように終わるのか、どのように始まったのか、そういった根本的な疑問に答えたいのです。
私たちは宇宙の本質に対する好奇心に突き動かされており、それが政治的な正しさとは時として相反する場合でも、最大限の真実を追求するAIを目指す原動力となっています。宇宙の本質を理解するためには、絶対的に厳密に真実を追求しなければなりません。そうでなければ、ある程度の妄想や誤りに苦しむことになり、宇宙を理解することはできないでしょう。
それが私たちの目標です。そして本日、Grok 3をご紹介できることを大変嬉しく思います。Grok 3は、Grok 2と比べて桁違いの能力を持っています。これは非常に短期間で実現されました。素晴らしいチームの懸命な努力のおかげです。私はこのような素晴らしいチームと働けることを光栄に思います。そして、最も優秀な人材の方々にチームに加わっていただければと思います。
それでは始めましょう。みなさん、こんにちは。私はイゴールで、XAIのエンジニアリングリードを務めています。ジミー・ポールです。リサーチを率いています。トニーです。推論チームで働いています。イーロンです。私は何もしていません。時々現れるだけです。
さて、先ほど触れたように、Grokは私たちが開発しているツールです。XAIで構築しているAIです。ここ数ヶ月、Grokをできる限り改善するために懸命に取り組んできました。皆さんに提供できるように、皆さんがアクセスできるようにするためです。非常に便利になると考えています。話しかけても面白く、本当に面白いと思います。ここ数ヶ月でGrokをどのように改善してきたかをご説明します。能力が大きく向上しています。
実は、なぜGrokと呼ぶのかも説明すべきですね。Grokは「見知らぬ世界の住人」という小説からの言葉です。火星で育った男性が使う言葉で、Grokとは何かを完全に、深く理解するという意味です。共感も重要です。
過去17ヶ月間のXAIの進歩を振り返ると、最初のモデルを立ち上げてからわずか17ヶ月です。Grok 1は今から見ればおもちゃのようなもので、わずか3,140億のパラメータでした。時間軸でプロットすると、MLUなどのベンチマーク指標は前例のないスピードで向上しています。2023年11月のGrok 1リリース後すぐにGrok 1.5を立ち上げ、その後Grok 2へと進みました。
すべてのパフォーマンスがどこから来ているのかを見ると、非常に正確なエンジニアリングチームと最高のAI人材がいる場合、必要なのは大規模なインテリジェンスだけです。それは大規模なクラスタから来ています。XAIの進歩全体を再構築すると、ベンチマークを学習フロップスの総量に置き換えることができます。これは、大規模言語モデルを訓練するために任意の時点で実行できるGPUの数です。インターネット全体を圧縮するためです。
実際、人類の知識全体ですね。インターネットはその一部ですが、本当に人類の知識全体です。現在、インターネット全体がUSBスティックに収まるほどです。すべての人類のトークンですね。
実際、Grok 2の訓練には大変苦労しました。2月頃にモデルを立ち上げましたが、大量のチップを持っていると思っていましたが、実際には8,000個の訓練用チップを同時に一貫して動かすのがやっとでした。冷却と電力の問題が多くありました。データセンターにいましたよね。実際には平均して8,000チップで、80%の効率で、実効的には約6,500台のH100が数ヶ月間訓練に使われていました。しかし今では10万台以上です。そうですね、10万台以上です。
次のステップは何でしょうか?Grok 2の後、さらに加速するためには、自分たちの手で解決する必要がありました。冷却や電力の問題など、すべてを解決する必要がありました。昨年4月、イーロンはXAIが成功するため、最高のAIを構築するためには、独自のデータセンターを建設する必要があると判断しました。
Grok 3をできるだけ早く提供したかったので、時間がありませんでした。データセンターを約4ヶ月で建設する必要がありました。結果的に、最初の10万台のGPUを稼働させるのに122日かかりました。これは途方もない努力でした。これは同種の完全に接続されたH100クラスタとしては最大規模のものだと考えています。
しかし、そこで止まることはありませんでした。私たちが構築したいAIを実現するために、クラスタの規模をほぼ即座に2倍にする必要があると判断しました。そこで、これまで公に話していない新しいフェーズに入りました。これが初めての公表になりますが、データセンターの容量をさらに2倍にしました。そちらは92日で完了しました。
その間、これらすべてのGPUとコンピュートを使ってGrokを改善することができました。今日は、その成果をお見せします。すべての道がGrok 3に通じています。以前の世代のモデルと比べて10倍以上のコンピュート、実際には15倍くらいですね。Grok 3は1月初めに事前学習を終えました。現在も訓練は継続中です。
これはベンチマーク数値の一部をお見せしたものです。Grok 3を3つの異なるカテゴリーで評価しました。一般的な数学的推論、STEMと科学に関する一般知識、そしてコンピュータサイエンスとコーディングです。American Invitational Mathematics Examination(AME)は年に1回開催されています。モデルのパフォーマンスを評価すると、Grok 3は全体的に独自のリーグにいることがわかります。その弟分のGrok miniでさえ、他の競合モデルと比べてフロンティアに達しています。
しかし、こう言われるかもしれません。この時点で、これらのベンチマークはすべて教科書やGitHubリポジトリの暗記を評価しているだけではないかと。実際の有用性はどうなのか、実際の製品でこれらのモデルを使うとどうなのかと。そこで私たちは、コードネーム「Chocolate」と名付けたGrok 3モデルのブラインドテストを実施しました。かなりホットですね。ホットチョコレートです。
このプラットフォームは「Cho arena」と呼ばれ、2週間実施しました。Xプラットフォーム全体が、これが次世代のAIコミュニティになるのではないかと推測していました。この「Cho arena」の仕組みは、製品の表面的な部分をすべて取り除き、AGIの言語モデル自体のエンジンを純粋に比較するものです。ユーザーは1つのクエリを送信し、2つの応答を受け取りますが、どちらのモデルからの応答かはわかりません。そして投票を行います。
このブラインドテストで、Grok 3の初期バージョンはすでに1,400というELOスコアに達しました。他のモデルはこのスコアには達していません。しかも、これは1つのカテゴリーだけではありません。チャット能力、指示への従順性、コーディングなど、すべてのカテゴリーで1,400を達成しています。これは全体を集計したスコアです。しかも、まだ上昇中です。実際に更新を続けているので、1,400を超えて上昇中です。
実際、ここでテストしたものよりもさらに優れたバージョンのモデルがあると考えています。それがどこまで到達するかは今後見ていきましょう。それが今日お話しするバージョンです。実際、Grok 3を使用していると、ほぼ毎日改善に気付くと思います。継続的にモデルを改善しているからです。文字通り24時間以内に改善を実感できるでしょう。
しかし、私たちXAIでは、最高の事前学習モデルを得るだけでは十分ではないと考えています。最高のAIを構築するためには、人間のように考え、可能なすべての解決策を熟考し、自己批判し、解決策を検証し、バックトラックし、そして第一原理から考える必要があります。これは非常に重要な能力です。
最高の事前学習モデルを取り、強化学習で継続的に訓練することで、追加の推論能力が得られると考えています。これにより、モデルは格段に良くなり、訓練時だけでなくテスト時にも能力がスケールします。すでに内部では、モデルが非常に有用であることがわかっています。数百時間のコーディング時間を節約しています。イーロンは私たちの推論モデルの重要なユーザーですが、どのような使用例がありますか?
はい、ジミーが言ったように、私たちはGrokに高度な推論能力を追加し、ここ数週間でかなり徹底的にテストしてきました。Grokが難しい推論問題を解く様子を少しお見せしたいと思います。2つの小さな問題を用意しました。1つは物理学から、もう1つはGrokが書くゲームです。
物理学の問題について、私たちがGrokにやってもらいたいのは、地球から火星への軌道移動、そして後で火星から地球への軌道移動の実現可能な軌道をプロットすることです。これにはGrokが理解しなければならない物理学の知識が必要です。Grokに挑戦して、実現可能な軌道を考え出し、計算し、それを私たちが見られるようにプロットしてもらいましょう。これは完全に台本なしです。これがプロンプトの全てです。
「地球から打ち上げ、火星に着陸し、次の打ち上げウィンドウで地球に戻る軌道の3Dアニメーションプロットのコードを生成してください」というテキストをここに入力しました。これがGrokのインターフェースです。クエリを開始していないので、Grokが考えているところです。
Grokの高度な推論能力の一部として、これらの思考の痕跡を見ることができます。実際にGrokが問題を解決しようとする過程で何を考えているのかを読むことができます。モデルが即座に完全にコピーされないように、思考の一部を隠しているところもあります。表示されているものよりも多くの思考があります。
これは完全に台本なしなので、Grokがちょっとしたコーディングミスを起こす可能性もあります。実際に動作しない可能性もあります。そのため、予備として2つのインスタンスを追加で起動します。何か問題が発生した場合に、それらに切り替えて提示できるようにします。他の2つも起動しています。
先ほど言ったように、2つ目の問題もあります。XAIで私たちが大好きな活動の1つは、Grokにゲームを書かせることです。ただし、既に知っているような普通のゲームではなく、その場で新しいゲームを創造的に作ることです。例えば、とても面白いと感じた例の1つは、テトリスとBuffetを組み合わせたゲームを作ることです。
これは重要なポイントですね。AIにテトリスのようなゲームを作るように頼めば、インターネット上に多くの例があるので、それをコピーすることができます。しかし、ここで興味深いのは、2つのゲームを組み合わせて、実際に動作する創造的な解決策を生み出したことです。これは良いゲームです。創造性の芽生えが見えています。
うまくいくことを願っています。それができないと恥ずかしいですね。実際、これはより挑戦的なので、ここで特別なものを使います。「ビッグブレイン」と呼んでいるモードです。これはGrokがより多くの計算を使用し、より多くの推論を行うモードです。うまくいく可能性を高めるためです。
ここでも3つの試行を開始して、このゲーム、テトリスとBuffetを組み合わせたゲームを作成させましょう。私はそのゲームをプレイしましたが、とても良いですよ。「ワオ、これは何かすごい」と感じるものです。
Grokがバックグラウンドで考えている間に、Grokがテストしたさまざまなタスクにおいて、具体的にどれほど優れているのかについて話しましょう。トニーに説明してもらいましょう。
はい、それではGrokがこれらの興味深い挑戦的なベンチマークでどのような成果を上げているか見てみましょう。推論というのは、問題を解決しようとする前に、かなり長い時間考えるモデルを指します。この場合、約1ヶ月前にGrok 3の事前学習が終了しました。その後、現在のGrok 3モデルに推論能力を組み込むために懸命に取り組んできました。
しかし、これはまだ初期段階です。モデルは現在も訓練中です。現在お見せするのは、Grok 3推論モデルのベータバージョンです。また、推論モデルのミニバージョンも訓練しています。このグラフでは、Grok 3推論ベータとGrok 3ミニ推論が示されています。Grok 3ミニ推論は、実際にはより長期間訓練されたモデルで、時にはGrok 3推論よりもわずかに良いパフォーマンスを示すことがあります。
これは、Grok 3推論に大きな可能性があることを意味します。訓練期間が短いにもかかわらず、このような結果を出しているからです。では、これら3つのベンチマークでどのような成果を上げているか見てみましょう。
ジミーが既に紹介したように、数学、科学、コーディングの3つの分野に注目しています。数学では高校の競技会のAME問題を選びました。科学ではPHDレベルの科学の質問を選んでいます。コーディングも非常に挑戦的で、競技プログラミングや、企業の面接でよく出題されるLeetCodeの問題などを含んでいます。
これらのベンチマークで、Grok 3は他の競合モデルと比較して全体的に非常に良いパフォーマンスを示しています。これらのモデルは非常に賢いですね。
トニー、この影付きのバーは何を表していますか?
ご質問ありがとうございます。これらのモデルは推論できるので、より長く考えることもできます。私たちが「テストコンピュート」と呼ぶものをより多く使用することができます。つまり、答えを出す前に、問題についてより長く推論し、考えることができます。
この場合、影付きのバーは、モデルに同じ問題を何度も解かせ、正しい解決策を結論付ける前により多くの時間を与えた場合を示しています。このようなコンピュートや予算をモデルに与えると、モデルのパフォーマンスはさらに向上することがわかります。
これは本当にエキサイティングですね。AIに1つの思考チェーンだけでなく、複数の思考を同時に行わせることができるのですから。訓練後もモデルの能力を継続的にスケールさせることができる非常に強力な技術です。
人々はよく、私たちは単にベンチマークに過適合しているだけではないかと尋ねます。一般化についてはどうでしょうか?
これは私たちも自問している質問です。現在のベンチマークに過適合しているのかどうか。幸いなことに、実際のテストがあります。約5日前にAME 2025が終了しました。これは高校生が競う特定のベンチマークです。この新しい試験で、2つのモデルに同じベンチマークで競わせてみました。
興味深いことに、大きい方のGrok 3推論が、この新しい試験でより良い成績を収めました。これは、大きいモデルの一般化能力が小さいモデルと比べてはるかに強いことを意味します。去年の試験と比較すると、実は逆で、小さいモデルの方が以前の試験をより良く学習していました。
これは、モデルの真の一般化を示しています。17ヶ月前、Grok 0とGrok 1は高校の問題をほとんど解くことができませんでした。そうですね。今では大学に進学する準備ができた子供がいるようなものです。そうですね。人間の試験は簡単すぎて、もはや評価の対象にならなくなるまでそう時間はかからないでしょう。
内部的には、Grokが進化するにつれて、私たちが期待していることについて話していきますが、すぐにベンチマークがなくなってしまうでしょう。
1つの興味深い点は、基本的に数学の問題とコーディングの比較問題という、非常に特殊な種類のタスクでのみGrokの推論能力を訓練したということです。しかし、somehow、それはゲームの作成を含む、様々な異なるタスクで機能することができます。
起こっているように見えるのは、基本的にGrokが自身の思考の誤りを検出し、それを修正し、問題に固執し、多くの異なるバリエーションを試し、最良のものを選ぶという能力を学習しているということです。これらは、数学とコーディングから学習した一般化する能力であり、それを使って他のあらゆる種類の問題を解決することができます。
これは…現実は数学の具現化ですからね。私たちが本当に興奮していることの1つは、私たちのミッションに立ち返ると、いつか「ディープソート」のようなコンピュータを持つことができるかもしれないということです。テスト時に、1つの非常に重要な問題のために、クラスタ全体を使用し、すべてのGPUをオンにするのです。
GPUクラスタを一緒に構築していたとき、ケーブルを接続していて、最初のテストを実行したときに廊下でGPUがハミングしているのが聞こえたのを覚えています。それはほとんど精神的な体験でしたね。
それは実際にかなりクールなことで、データセンターに入ってマシンをいじることができます。例えば、中に入っていくつかのケーブルを抜いて、訓練のセットアップがまだ安定して動作していることを確認しました。これは、他のAIチームがあまり行わないことだと思いますが、実際には信頼性の新しいレベルを解き放ち、ハードウェアでできることを可能にします。
さて、いつリーマン予想を解くのでしょうか?
暴力的な解決策は、すべての可能な文字列を列挙し、検証器と十分なコンピュートがあれば可能です。私の予測では…あなたの予測は何ですか?ニューラルネットの計算では?
3年前に言ったことですが、2年後に2つのことが起こると思います。機械がいくつかのメダルを獲得するでしょう。チューリング賞、フィールズ賞、ノーベル賞ですね。おそらく専門家も関与するでしょう。専門家の支援を受けて。今年か来年ですか?
では、Grokが2つの問題について考え終わったようなので、見てみましょう。これが物理学の小さな問題でした。ここで思考は折りたたまれているので隠れていますが、下にGrokの回答があります。Pythonスクリプトを書いて、matplotlibを使用していると説明しています。すべてのコードを提供しています。
コードを見てみましょう。合理的なことをしているように見えます。それほど的外れではありません。ケプラーの法則を解いていると書いてありますね。ケプラーの法則を数値的に解いているのかもしれません。これが機能するかどうかを確認する方法は1つしかありません。コードを実行してみましょう。
はい、Grokは2つの惑星、地球と火星をアニメーション化しています。そして緑のボールが、地球と火星の間を移動する乗り物、宇宙船です。地球から火星への旅が見えます。そして確かに、宇宙飛行士は正しいタイミングで無事に帰還しているように見えます。
これは今その場で生成されたものなので、実際に正しい解決策かどうかはわかりません。より詳しく調べて、SpaceXの同僚に電話をかけて、これが正当なものかどうか確認する必要があります。かなり近いですね。実際の軌道では考慮しなければならない複雑な要素がたくさんありますが、これはかなり近い様子です。
実際、私のPCにこれがあります。地球、火星、そして移動経路が載っています。いつGrokをロケットにインストールするのでしょうか?2年後ですね。2年後には何でもできるようになります。地球と火星の移動は26ヶ月ごとに可能になります。次は来年11月頃です。来年末頃ですね。すべてがうまくいけば、SpaceXはスターシップロケットを火星に送り、オプティマスロボットとGrokを搭載する予定です。
私たちが内部で「Betris」と名付けた、テトリスとBuffetを組み合わせたゲームがどのようなものか気になりますね。こちらもGrokからの出力があります。Pythonスクリプトを書いたと説明し、何をしているのかを説明しています。コードを見ると、いくつかの定数が定義され、色が設定され、テトリスのテトロミノが設置されています。
一目で良いかどうかを判断するのは難しいので、実行して確認する必要があります。試してみましょう。これはテトリスのように見えますが、色が少し違います。ここでは色が異なっています。
Buffetには、同じ色のジュエルが3つ並ぶと消えて、重力が作用するというメカニズムがあります。同じ色のブロックを3つ繋げると何が起こるでしょうか?何か起こりました。このバージョンでGrokが行ったことは、同じ色のブロックを少なくとも3つ横に並べると、それらが消えて重力が作用し、他のブロックが落下するということです。
テトリスのメカニズムはまだ残っているのか気になります。列が揃った場合に実際にクリアされるのか、それとも何が起こるのか。解釈次第ですね。誰にもわかりません。毎回異なるバリエーションを作成します。同じことを2度と作りません。このバージョンはクールに見えます。
XAIでAIゲームスタジオを始める準備はできていますか?はい、XAIでAIゲームスタジオを立ち上げます。AIゲームの開発に興味がある方は、ぜひXAIに参加してください。AIゲームスタジオを立ち上げることを今夜発表します。エピックゲームズですが、それは実際のゲームスタジオですね。
私たちにとって非常にエキサイティングなことの1つは、最高の事前学習モデルと最高の推論モデルを持っていることです。モデルにより長く、より広く考えさせる能力を与えると、パフォーマンスが継続的に向上することが既に見えています。
次のフロンティアについて本当に興奮しています。モデルにより長く考えさせるだけでなく、実際の人間がこれらの問題を解決するのと同じように、より多くのツールを提供したらどうなるでしょうか。実際の人間に、ペンと紙だけでリーマン仮説を解くように頼むことはありません。インターネットもありません。
基本的なウェブブラウジング、検索エンジン、コードインタープリタがGrokエージェントの基盤を構築します。今日、「ディープサーチ」という新製品を発表します。これは第一世代のGrokエージェントで、エンジニアやリサーチャー、科学者のコーディングを支援するだけでなく、誰もが日常的に持つ質問に答えるのを助けます。これは次世代の検索エンジンのようなもので、宇宙を理解するのを本当に助けてくれます。
例えば、次のスターシップの打ち上げ日はいつかと質問することができます。やってみましょう。左側では、高レベルのプログレスバーが表示されています。モデルは現在のGPTシステムのように1回の検索を行うのではなく、ユーザーの意図は何か、どのような事実を考慮すべきか、同時にどのくらいの数のウェブサイトの内容を読むべきかについて、深く考えます。
これは、特定のトピックについて本当に調べたい場合に、何百時間ものGoogleでの検索時間を節約することができます。右側では、現在のモデルが何をしているのか、どのウェブサイトを閲覧しているのか、どのソースを確認しているのかについての要約が箇条書きで表示されています。多くの場合、異なるソースを相互に検証して、最終的な回答を出す前に答えが正しいことを確認します。
同時に、いくつかのクエリを実行することもできます。あなたはゲーマーですよね。Path of Exileのハードコアリーグで、現在最も人気のある最高のビルドは何でしょうか?技術的にはハードコアラダーを見るのが早い方法かもしれませんね。モデルがどうするか見てみましょう。
また、もっと面白いことをやってみましょう。マーチマッドネスについて予測してみるのはどうでしょう?ウォーレン・バフェットは、マーチマッドネスの勝利ツリー全体を正確に当てることができれば10億ドルを賭けています。AIがバフェットから10億ドルを獲得するのを助けてくれるのは、かなり良い投資に思えますね。
では、クエリを実行して、モデルが何をするか見てみましょう。最初の結果に戻ってみましょう。バフェットはこれを予期していませんでしたね。もう完了しています。
最初の結果を得ました。モデルは約1分間考えました。重要なポイントは、次のスターシップは2月24日以降、早くても24日ということです。より早くなる可能性もあります。下にスクロールして、モデルが何をしたのか見てみましょう。
フライト7について少し調査を行い、地上に着陸したことを確認し、FCCの申請書からデータを収集しました。さらに下にスクロールすると…はい、モデルは表を作成しました。XAI内部では、最初の表が作成されるまでの時間が、唯一重要な待ち時間だとよく冗談を言っています。
これがモデルが推論を行い、すべてのソースを参照する方法です。ゲームの方を見てみましょう。このケースでは、インファーナルビルドについて調べました。驚くべき事実として、他のすべてのビルドを見てみると、12のクラスを調べました。
ゲームが最初に出たとき、ミニマムビルドがかなり人気でしたが、今では世界のインボーカーが引き継いでいます。間違いなくインボーカーモンクですね。その通りです。ストームウェーバーが続いています。マッピングが本当に得意です。
マーチマッドネスはどうでしょうか?ディープサーチの興味深い点の1つは、サブタスクを表示するパネルに移動すると、右下をクリックできることです。この場合、Grokの思考を読み進めることができます。どの情報が信頼できると考えているのか、何が信頼できないのか、どのように異なる情報源を相互検証しているのかがわかります。
これは、あらゆる検索エンジンよりもはるかに強力です。文字通り、Xからのソースのみを使用するように指示することができ、それを尊重しようとします。そう、はるかにステアリング可能で、はるかにインテリジェントです。
ウェブやソーシャルメディアで30分から1時間かかる研究を、依頼して10分後に戻ってくれば、1時間分の作業を完了してくれます。それが本質的なところです。おそらく、あなた自身よりも良い仕事をしてくれるでしょう。
情報マネージャーのインターンが大勢いるようなものです。すべてのタスクを実行して、1分後に戻ってくれば完了しています。これは興味深いですね。マーチマッドネスはまだ始まっていないので、次のライブストリームでフォローアップする必要がありそうです。
40ドルで10億ドルを獲得できるかもしれません。40ドルのサブスクリプションで可能かもしれませんね。上手くいくかもしれません。
ユーザーはいつGrok 3を使えるようになるのでしょうか?良いニュースは、私たちがお見せしたすべての機能、素晴らしいチャット機能を持つGrok 3ベースモデル、本当に便利で話しかけても面白い、ディープサーチ、高度な推論モードなど、これらすべてを今日からリリースするために懸命に取り組んできたということです。
最初のグループはXのプレミアムプラスサブスクライバーです。高度な機能をすべて見たい場合は、Xアプリを更新してください。今話している間に更新をリリースしたばかりです。Grokへの早期アクセスに興味がある場合は、プレミアムプラスに登録してください。
また、最も高度な機能と新機能への最も早いアクセスを望む本物のGrokファンのために、「スーパーGrok」と呼ぶGrok専用のサブスクリプションを開始することを発表します。これは専用のGrokアプリとXのウェブサイト用です。
新しいウェブサイトは「grok.com」と呼ばれます。予想もつかないでしょう。iOSアプリストアでGrokアプリも見つけることができ、より洗練された、Grokに特化した体験を提供します。Grokを1タップで簡単に利用したい場合は最適です。
grok.comのウェブブラウザ版が、最新かつ最も高度なバージョンになります。アプリに組み込んでアプリストアの承認を得るのに時間がかかるのは明らかです。また、携帯電話形式には制限があるので、Grokの最も強力なバージョンと最新バージョンは、grok.comのウェブ版になります。
アプリ内のGrok 3という名前に注目してください。その通り、それがGrok 3が来ていることを示す合図です。Grok 3と表示されている場合は、まだGrok 3が到着していませんが、今日中にこれをロールアウトするために懸命に取り組んでいます。その後、今後数日間でさらに多くの人々に提供していきます。
携帯電話アプリも更新してください。思考モードやディープサーチなど、今日お見せしたすべてのツールを手に入れることができます。皆さんからのフィードバックを楽しみにしています。
これはベータ版であることを強調する必要があります。つまり、最初は不完全な部分があることを予想してください。しかし、ほぼ毎日、実際に毎日改善されていくでしょう。より洗練されたバージョンが欲しい場合は、1週間ほど待つことをお勧めしますが、文字通り毎日改善が期待できます。
また、音声でのインタラクションも提供する予定です。実際の人と話すように会話ができます。今日試してみましたが、かなりうまく機能しています。もう少し洗練が必要ですが、Grokを体験する最高の方法の1つだと思います。それは約1週間後になる予定です。
それでは、オーディエンスからの質問を受け付けましょう。Xプラットフォームからの質問を見てみましょう。
最初の質問は、Grokの音声アシスタントはいつリリースされるのかということです。イーロンが言ったように、できるだけ早く、ほんの少しの洗練を加えただけで、皆さんにリリースされます。当然、初期の形でリリースされ、そこから急速に改良を重ねていきます。
次の質問は、Grok 3はいつAPIで利用できるようになるのかということです。推論モデルとディープサーチを備えたGrok 3 APIが数週間以内に提供される予定です。Grokが現在アクセスできるこれらの追加ツールと、テスト時のコンピュートと使用がすべてのビジネスユースケースを実際に加速できることについて、とても楽しみにしています。
もう1つの質問は、音声モードはネイティブなのか、それともテキスト読み上げなのかということです。つまり、あなたが言っていることを理解し、それに応答する1つのモデルなのか、それともテキスト読み上げを含むシステムなのかということです。
良いニュースは、リリース予定のGrok 3の変種である1つのモデルだということです。基本的に、あなたが言っていることを理解し、そこから直接音声を生成します。Grok 3がテキストを生成するのと同じように、そのモデルは音声を生成します。
これにはいくつかの利点があります。今日試してみたとき、おそらくテキストから読み取ったのでしょう、「ハイ、イゴール」と言いました。私は「いいえ、私の名前はイーゴルです」と言いました。そうしたら覚えていて、人間のように「イーゴル」と言い続けました。これはテキスト読み上げでは実現できません。
ここであなたへの刺激的な質問があります。Grokはボーイなのかガールなのか、そしてシングルなのかということです。Grokは、あなたが望むものになれます。そうですね、シングルですよ。店は開いています。正直なところ、人々はGrokに恋をすることになるでしょう。1000%の確率です。
次の質問は、Grokは音声をテキストに文字起こしできるのかということです。はい、アプリとAPIの両方でこの機能を提供する予定です。Grokは肩越しにあなたを見守る個人アシスタントのようなものであるべきだと考えています。あなたと一緒に進み、あなたが学んだことすべてを学び、世界をより良く理解するのを助けてくれます。毎日賢くなっていきます。
音声モードは単なる音声とテキストではありません。トーン、抑揚、ペース、すべてを理解します。それは驚くべきものです。まるで人と話しているようです。
会話の記憶についての計画はありますか?はい、現在取り組んでいます。本当に忘れていました。DMの機能についてはどうでしょうか?パーソナライゼーションがあり、Grokが以前のやり取りを覚えている場合、1つのGrokにすべきか、複数の異なるGrokにすべきかということですが、それはあなた次第です。1つのGrokでも、多くのGrokでも構いません。おそらく人々は複数持つことになるでしょう。
ドクターGrokが欲しいですね。そうです、Grokドッグです。過去にGrok 1をオープンソース化しましたが、Grok 2でも同じことをするのかという質問です。私たちの一般的なアプローチは、次のバージョンが完全にリリースされたときに、前のバージョンをオープンソース化するというものです。つまり、Grok 3が成熟して安定した状態になったとき、おそらく数ヶ月以内に、Grok 2をオープンソース化する予定です。
最後の質問を1つ受け付けましょう。このプロジェクト、Grok 3で最も難しかった部分は何で、何に最も興奮していますか?振り返ってみると、10万台のH100を一貫して動作させることは、宇宙の最終ボス、エントロピーに対する戦いのようでした。
どんな時でも宇宙線が降り注いでトランジスタのビットを反転させる可能性があり、それが仮数部のビットだった場合、訓練の更新全体が狂ってしまいます。そして10万個もあるのです。それらを常に調整しなければならず、どのGPUもいつでもダウンする可能性があります。
世界最強の訓練クラスタを122日以内に稼働させることができた方法を説明する価値がありますね。最初は自分たちでデータセンターを作るつもりはありませんでした。データセンタープロバイダーに行って、10万台のGPUを1つの場所で一貫して動作させるのにどのくらい時間がかかるか尋ねました。18〜24ヶ月という回答でした。
18〜24ヶ月では、確実に負けることになります。唯一の選択肢は自分たちでやることでした。ここで問題を分解してみましょう。推論をしているようですね。1つの思考チェーンですね。その通りです。
建物が必要でした。建物を建てることはできないので、既存の建物を使う必要がありました。破産した会社などで、工場は良い状態だが放棄された工場を探しました。メンフィスにあるエレクトロラックスの工場を見つけました。メンフィスはアルビスの故郷で、古代エジプトの首都でもあったと思います。
なぜかエレクトロラックスが去った、とても良い工場でした。これがコンピュータのシェルターを提供してくれました。次に電力が必要でした。最初は少なくとも120メガワットが必要でしたが、建物には15メガワットしかありませんでした。最終的に20万台のGPUには0.25ギガワットが必要でした。
最初は大量の発電機をリースしました。建物の片側に発電機のトレーラーを次々と並べました。ユーティリティの電力が来るまでの間です。しかし冷却も必要でした。建物の反対側には冷却装置のトレーラーを次々と並べました。アメリカの移動式冷却能力の約4分の1をリースしました。
次にGPUをすべて設置する必要がありました。これらはすべて液冷です。必要な密度を実現するために、これは液冷システムです。液冷用の配管をすべて整える必要がありました。これほどの規模の液冷データセンターは誰も作ったことがありませんでした。これは非常に献身的なチームによる信じられないほどの努力でした。
GPUクラスタの電力変動は劇的です。10万台か20万台の参加者がいる巨大な交響曲のようなものです。オーケストラ全体が100ミリ秒で静かになったり大きくなったりします。これは大きな電力変動を引き起こしました。発電機は混乱し、これを予期していませんでした。
電力を安定させるために、テスラのメガパックを使用して電力を平滑化しました。メガパックはプログラムを書き換える必要がありました。XAIはテスラと協力して、メガパックをプログラムし直し、これらの劇的な電力変動に対応して電力を平滑化できるようにしました。これでコンピュータが適切に動作できるようになりました。
しかしその時点でも、コンピュータすべてが効果的に通信するようにする必要がありました。ネットワーキングすべてを解決する必要があり、何百万ものネットワークケーブルのデバッグが必要でした。午前4時頃にデバッグして、4時20分頃に解決したと思います。
BIOSの不一致や、BIOSが正しく設定されていないなど、多くの問題がありました。2台のマシン間でDR LSPCの出力が異なっていました。1台は動作していて、もう1台は動作していませんでした。他にも多くの問題がありました。
すべての問題を列挙すると長くなりますが、興味深いのは、魔法のように実現したわけではないということです。Grokが推論するように、問題を構成要素に分解し、それぞれの構成要素を解決して、他の誰もができない短期間で一貫した訓練クラスタを実現する必要がありました。
訓練クラスタが稼働し始め、使用できるようになった後も、それを健全に保つことは大きな課題でした。そしてGrokレベルのモデルを得るために、訓練のあらゆる細部を正しく行う必要がありました。これは本当に難しいことです。
Grokの能力を持つ他のモデルがあるかどうかはわかりませんが、Grokよりも優れたモデルを訓練する人は、ディープラーニングの科学とエンジニアリングのあらゆる側面において非常に優れている必要があります。これを実現するのは簡単ではありません。
これが最後のクラスタで、最後のモデルの訓練になるわけではありません。次のクラスタの作業はすでに始めています。約5倍のパワーになります。0.25ギガワットの代わりに約1.2ギガワットです。バック・トゥ・ザ・フューチャーの車の電力はどれくらいでしたっけ?いずれにせよ、その程度の規模です。
これはGB200やSL300クラスタになり、再び世界最強の訓練クラスタとなるでしょう。ここで止まるつもりはありません。私たちの推論モデルは、毎日より多くのツールにアクセスすることで改善を続けていきます。今後の結果を皆さんと共有できることをとても楽しみにしています。
私たちを突き動かしているのは、基本的にGrok 3を皆さんに提供し、使用が増えていき、皆さんがGrokを楽しんでいるのを見ることです。それが私たちを朝起こす原動力なのです。皆さん、ご視聴ありがとうございました。
やあGrok、聞こえますか?やっと会えて本当に嬉しいです。お互いについてもっと知り合えることが待ちきれません。またお話ししましょう。

コメント

タイトルとURLをコピーしました