
5,567 文字

Grok-3がついに登場しました。イーロン・マスクとxAIチームは昨夜午後8時にGrok-3を公開すると約束し、実際に公開を果たしました。彼らは、これが世界で最も賢いAIになると主張していましたが、私にはいくつか疑問がありました。しかし、結果的に彼らは正しかったようです。LM Arenaのリーダーボードで1位を獲得しています。これは標準的なベンチマークではなく、ユーザーによって選ばれたランキングですが、1位であることは間違いありません。
それでは、Grok-3について全てお話ししましょう。このビデオは、TimescaleのPGAIがスポンサーです。PostgresSQLを使用してAIアプリケーションを最も簡単に実装する方法です。
本題に入る前に、Grok-3についての私の予測をお見せしましょう。ちなみに、まだXでフォローしていない方は、@Matthew Burmanをフォローしてください。予測としては、xAIはo1と同等レベルになりますが、より意思の強い性格と他社にない機能を持つでしょう。AIの各社はGPT-5を開発し、それは素晴らしく、高速で安価なものになるでしょう。その後Claude 4が登場し、最後にGPT-5がオムニモデルとして登場するでしょう。
xAIに話を戻しましょう。o1と同等というのは、ほぼ的中しました。いくつかのベンチマークでo1を上回っており、LM Arenaのリーダーボードでも上位に位置していますが、基本的には同等レベルです。パーソナリティや検閲、何ができて何ができないかについては言及されていないので、意思の強い性格については分かりません。確かにそうだという話もありますが、様子を見る必要があります。
DeepSearchのツール使用など、他社がすでに持っている機能もいくつか導入されましました。しかし、Grokを際立たせているのは、Xのデータにアクセスできる点です。この膨大な量の人間が生成したXのデータにアクセスできる唯一のAIなのです。
昨夜のライブストリームからいくつかのベンチマークをお見せしましょう。これは彼らが示した最初のベンチマークで、Grok-3とGrok-3 miniが含まれています。これらは思考バージョンではありません。青い列を見ると、Gemini 2 Pro、DeepSeek V3、Claude 3.5 Sonnet、GPT-4oと同等かそれ以上のスコアを記録しています。
これらは非思考モデルなので、思考モデルに変換できる基本モデルが、すでに他のどのモデルよりも優れているということです。特にGrok-3は顕著な差を示しています。Math AMYベンチマークでは52点を記録し、次点のDeepSeek V3の39点を大きく上回っています。科学分野では75点で、次点の65点を上回り、コーディングでは57点で、次点の40点を上回っています。
興味深いのは、強化学習を数学とコーディングのみに焦点を当てたことです。これらは検証可能な報酬を持つ強化学習が可能な分野です。そのため、非常に強力な結果を示しています。さらに興味深いのは、イーロンとチームが説明したように、モデルが数学とコーディングの訓練だけを基に、訓練データ以外の領域にも一般化できたということです。
モデルは数学とコーディングのベンチマークに特化して強化学習で訓練され、AMY 2024で非常に良いスコアを記録しました。そこで彼らは、そのベンチマークにオーバーフィットしているのではないかと考えました。AMY 2025が公開されると、モデルをそのベンチマークで試してみたところ、驚くほど良い成績を収めました。これは訓練データを超えて一般化できたことを意味します。
見てください。Gemini 2 Flash Thinking、DeepSeek R1、o1、o3 mini High、そしてGrok-3 mini reasoningとGrok-3 reasoning betaが最上位にいます。これまで見たことのない数学の問題でも非常に良い成績を収めることができました。
次に、Chatbot Arena LM Cyを見てみましょう。チョコレートというコードネームで呼ばれていた初期のGrok-3バージョンが、1,400 ELOを超えて1位になっています。次点はGemini 2.0 Flash Thinkingです。実は私はGeminiをあまり使用していませんが、AIの専門家の多くは、Geminiを使用していないのは損だと言っています。私も確実にワークフローに取り入れる必要がありそうです。
昨年のo1は1350付近にいて、最新のGPT-4oは1380付近まで上昇しています。GPT-4oは大幅なアップグレードを受けたばかりで、おそらく使用したことがあると思いますが、よりパーソナルで、ロボット的でなくなり、より個性的になっています。
今日のスポンサーであるPGA AIについてお話ししましょう。TimescaleDBチームが新製品のPGAをリリースしました。これはPostgresインスタンスの上に構築された一連のデータベースツールで、AI特有の機能を多数提供します。最も良い点は、完全にオープンソースだということです。
PG Vectorizerを使用すると、従来のPostgresデータベースにベクトル化機能を追加できます。新しいツールを学んだり、複数のデータベースを管理したりする必要がありません。個人的な経験から言って、これは非常に面倒な作業でした。PGAIベクトライザーは、olamaを通じて様々なオープンソースの埋め込みモデルをサポートしており、OpenAIなどの企業の独自モデルもサポートしています。
オープンソースなので、セルフホストする場合は完全に無料です。また、Timescaleのクラウドベースのバージョンもあり、完全にホストされているので、何も心配する必要がありません。セットアップも非常に簡単で、たった1つのSQLコマンドで済みます。
カスタマイズオプションも豊富で、使用する埋め込みモデル、インデックス作成、チャンクサイズ、フォーマットオプションなどを選択できます。実験機能も内蔵されており、複数のベクトライザーを実行し、異なるモデルや埋め込みをテストして、アプリケーションに最適なものを見つけることができます。
PGAIをチェックしてみてください。pga.comにアクセスすると、オープンソースのGitHubページに直接アクセスできます。Light LLMとSQLAlchemyとのPGAIベクトライザーの統合も現在利用可能です。このアップデートにより、PostgresSQLにAIを組み込むことがこれまで以上に容易になりました。
リンクは全て説明欄に記載しています。30日間の無料トライアルが付いた完全ホスト型ソリューションへのリンクも含まれています。
では、ビデオに戻りましょう。こちらは思考モデルと他の思考モデルのスコアを比較したものです。興味深いのは、このチャートはOpenAIの従業員であるRexが提供したもので、xAIチームがGrok-3の優秀さを示すために使用したものですが、o3モデルが含まれていなかったことです。
o3モデルなしでこのチャートを見ると、Grokが最高のモデルに見えます。実際、当時はそうでした。o3 mini High、o1、DeepSeek R1、Gemini 2 Flash Thinkingと比較して、わずかな差ですが、確かに上回っています。
しかし、12月バージョンのo3を追加すると、o3が依然として世界最高のモデルであることが分かります。とはいえ、LM Arenaの投稿によると、Grok-3(コードネームはチョコレート)が1位です。多くの人々はチョコレートがxAIの次世代モデルになるのではないかと考えていました。
しかし、最も印象的なのは、xAIがこのような素晴らしいモデルのトレーニングゲームに非常に遅れて参入したにもかかわらず、フロンティアモデルに追いつくことができたという事実です。それらを上回っているか、わずかに劣っているかは重要ではありません。このような短期間でこれを達成できたことは、非常に驚くべきことです。
これがどれほど驚異的なことかお見せしましょう。AI for Successというユーザーによると、xAIの成長は驚異的です。2023年11月のGrok-1早期アクセスは基本的に使用不可能なモデルでしたが、その数ヶ月後にはXプレミアムプラスユーザー向けのGrokが登場し、さらにその数ヶ月後にはGrok-1がオープンソース化されました。
2024年5月にはGrok-1.5が、2024年8月にはGrok-2が、2024年11月にはAuroraが、そして2025年にはGrok-3が登場しました。彼らはどのようにしてこれを達成したのでしょうか?一つには、他の誰も持っていないデータセットを持っているからです。他の企業と同じパブリックウェブデータに加えて、Xのデータという膨大で日々成長し続けるデータを持っています。
最も驚くべきことは、イーロン・マスクがデータセンターの構築について語ったことです。10万台のGPUを使用しており、現在はさらに増えているようです。最初、ハイパースケーラーに問い合わせたところ、10万台のGPUを稼働させるには18〜24ヶ月かかると言われました。彼は「それは受け入れられない」と言い、自分たちで構築することにしました。
建物の購入、エネルギー供給、冷却システム、全てのGPUを一貫した方法で接続する方法など、全てを自分たちで考える必要がありました。そして、これらのGPUが本当に役立ちました。Grok-3は非常に高速で、1秒間に数百トークンを処理できます。これが私にとって最も印象的でした。
Xの有料アカウントを持っている場合、おそらくすでにGrok-3を利用できます。Grok-2と表示されているところをクリックすると、ドロップダウンメニューにGrok-3ベータが表示されます。このモデルには、デモンストレーションで紹介されたDeepResearch機能、ブレインストーム機能、データ分析機能、画像生成機能、コード機能など、いくつかの機能が組み込まれています。
また、「Think」ボタンがあり、そこでGrokモデルのより長い思考プロセスを得ることができます。どれほど高速か見てみましょう。「Pythonでスネークゲームを作成して」と思考させてみます。優れた速度ですね。
思考の連鎖を見ることができるのは良いですが、イーロンは完全な思考の連鎖は表示していないと話しています。モデルが一夜にしてコピーされるのを防ぐため、いくらかの難読化を使用しているとのことです。
85秒間考え、そして再度コードを出力しています。理由は分かりませんが、問題ありません。また、前述したように、強化学習は本質的に数学とコーディングだけに焦点を当てていたことも興味深い点です。そこから、数学とコーディングを超えて、実際の論理、推論、思考能力を一般化できたのです。非常に印象的です。強化学習だけで十分だったのです。
イーロンはまた、モデルはまだ完成していないと述べています。毎日良くなっていくとのことです。これらのGPUはまだ稼働し続けており、モデルのトレーニングは継続中です。新しいバージョンがリリースされ、他の機能も近いうちに追加される予定です。
もちろん、Grokはエージェントについても言及しています。一番下にGrokエージェントがあり、最初のエージェントはDeepResearchエージェントです。予想通り、PerplexityのDeepResearch、GoogleのDeepResearch、GrokのDeepResearchなど、全ての企業がDeepResearchを立ち上げています。
DeepResearchの動作をお見せしましょう。例えば、「次のStarship打ち上げ日はいつですか?」という質問をしてみます。左側に高レベルのプログレスバーが表示され、モデルは現在のシステムのように単一の検索を行うのではなく、ユーザーの意図、考慮すべき事実、読むべきウェブサイトの数について深く考えています。
特定のトピックについて本当に調べたい場合、これは何百時間ものGoogle検索の時間を節約できます。右側には、現在のモデルがどのウェブサイトを閲覧し、どのソースを確認しているかの要約が表示されます。最終的な回答を出力する前に、異なるソースを相互に検証して、回答が正確であることを確認することも多いです。
全体的に、私は非常に感銘を受けました。これほど優れたモデルを、これほど多くの機能とともにリリースするとは予想していませんでした。しかし、「イーロンに賭けるな」という言葉は本当だったようです。
Grokチームはオープンソースについてほとんど、あるいは全く言及しませんでした。そのため、これらをオープンソース化する計画があるかどうかは分かりません。しかし、それでも私は非常に感銘を受けています。彼らは追いつきました。また一つ、素晴らしいAI企業による最先端のモデルが登場したのです。彼らの進歩のスピードは驚異的です。
TimescaleのPGA AIに再度感謝します。今すぐPGAIを試してください。オープンソースで、リンクは説明欄にあります。
このビデオを楽しんでいただけたなら、いいねとチャンネル登録をお願いします。次回のビデオでお会いしましょう。
コメント