Grok 3は退屈である。そしてそれこそが重要な理由

8,195 文字

Grok 3 (and Claude 3.7 and GPT 4.5…) is boring, and that's why it matters

In today's video web log, Austin chronicles the moment the first AI wave came to an end, and the lessons we should take ...

通常ならこのような動画は作らないのですが、Grok 3について話したいと思います。なぜなら、これは私たちがこのチャンネルで数ヶ月にわたって話してきたAIの前時代の終わりと、その時代から学んだ教訓に感嘆符を打つものだからです。また、これはAIの未来がどのようなものになるのか、OpenAIが始めたこのLLMブームにおける第二波のAI開発競争と進歩が私たちに何をもたらすのかを示す境界線でもあります。
Grokが前時代の終わりに打つ感嘆符の一つは、このチャンネルで数ヶ月間話してきたことです。それは、チャットボットを動かす大規模言語モデル（LLM）は商品であり、特別なものではなく、優位性を持たないということです。この話を追跡し、Grokの平凡さにもかかわらずそれを理解し分析することで、LLMが単なる商品であるという事実を超えて、私たちが得られる3つの教訓を示すことができ、AIウォーズの第二段階におけるOpenAIが直面する問題を指摘することができます。
しかし先走ってしまいましたね。Grokについて話しましょう。Grokについて話す理由、そもそものきっかけは、Grokが少し特別だということです。それは最高峰にいるのです。実質的に世界最高のモデルだと言えます。少なくとも現時点ではそう見えます。これは、数学能力、科学能力、コーディング能力を測定する指標や、業界で使用されているユーザー認識のベンチマークに基づいています。
誤解しないでください。ベンチマークがすべてだとは思いません。以前は教師をしていたので、標準テストの落とし穴は理解しています。しかし、これらは大まかな範囲でGrokの位置を確認するのに役立つと思います。そしてGrokは、ChatGPT 4o、Gemini 2、DeepSeek o1など、他のすべてのモデルを上回っているようです。驚くべきことは、xAIが基本的に1年半しか経っていない若い会社だということです。
彼らはこのゲームの若手プレイヤーよりもさらに若く、1年でみんなを追い抜いてしまいました。これがGrokから得られる証拠であり、すでに話した最初の教訓を指し示しています。それは、LLMは商品だということです。1年半の間にたくさんのお金と十分な才能を投入すれば、1年で他のすべての企業を追い抜くことができるのなら、それはおそらく大きな参入障壁のない業界なのでしょう。
結局のところ、あなたが作っているものは他のものと同じようなものだと私は賭けてもいいでしょう。AIがこれらのLLMが自己完結し、すべてを自分でできるような魔法の線を越えるような転換点が来るまでは、特別なものは何もないと思います。xAIという会社の若さと、この場合のフロンティアモデルと呼ばれる先端モデルを作る能力は、大規模言語モデルが一度限りで最後に商品であることを示しています。
しかし、Grok自体はどうでしょうか？彼らは実際にどのようにしてそこにたどり着いたのでしょうか？Grokを分析し理解するために、私は彼らの大規模言語モデルの作成とその使用を分けて分析したいと思います。部分的にはこのように考えるのが役立つからであり、部分的にはこれらのコインの両面、つまりコンピューティングパワーが重要な2つの異なる場所の間に、第二、そして第三の教訓を導き出せるスルーラインがあると思うからです。
簡単に復習すると、大規模言語モデルを作成することを事前学習と呼びます。基本的にインターネット上のすべてのデータを取り、大量のNVIDIA GPUを投入し、中間にアルゴリズムを置き、それを一連の他の単語の次の単語を予測できるこのモデルに圧縮するのです。これが事前学習で、これはプロセッサの製造とデザインのようなものです。それはモデル自体の作成です。
コインのもう一方の面では、大規模言語モデルを実際に使用する必要があります。モデルを作成して放置することはできません。プロセッサを作成して放置できないのと同じように、何かのために使用する必要があります。大規模言語モデルの使用は推論と呼ばれます。これがコインの第二の面です。私の分析をモデルの作成である事前学習と、モデルの使用である推論に分けましょう。
まず、事前学習から始めましょう。なぜなら、それが最初に起こる必要があるからです。発表動画の初期に興味深い瞬間があり、エンジニアの一人が「大きな知性は大きなクラスターから生まれる」と言っています。これは面白いと思います。文字通り聞いたときに笑い出してしまいました。しかし、彼が言いたかったのは、これらの巨大なGPUの集合体によって、これらのモデルを迅速かつ賢く学習させ、より多くのデータを投入し、モデルのより良いバージョンを作成できるということです。
そのコインの面では、より多くのコンピューティングパワーを投入し、より多くのデータを投入すれば投入するほど、コアモデル自体がより賢くなることを学びました。その動画には自己報告があり、世界最大のクラスターがあると言っています。それが外部で検証されているかどうかはわかりません。また、Grok 3の学習にはGrok 2の10倍の時間がかかったとも言っています。
しかし重要なのは、これらのことを行うには大量のコンピューティングパワーが必要であり、したがってハードウェアが重要だということです。それを確認する前に、次の部分である推論に移りましょう。1月に最後の動画を作ったとき、誰もがDeepSeek o1モデルがより効率的に学習され、より効率的に使用できると考えて大騒ぎしていました。そのため、NVIDIAがアメリカのAI産業全体を崩壊させ、世界の終わりが来ると思われていました。
しかし、実際にはそうではありませんでした。o1のリリース後もNVIDIAが継続的な勝者であることを示しています。なぜなら、これらのモデルを学習させるにはハードウェアが必要で、ハードウェアはまだ重要だからです。推論に話を移すと、それはまだ当てはまります。1月にDeepSeek o1を使おうとしたとき、最初にアプリをダウンロードしてログインページを開くと、「これは使用できません」というメッセージが表示されました。
セキュリティの問題があり、DoS攻撃を受けていて、悪意のある活動があるという理由でした。しかし、それはすべて「十分なハードウェアがないため、これらすべてのリクエストを受け入れることができない」というコードです。人々は忘れがちですが、1月に人々がこれについて話さなかったことに私はフラストレーションを感じていました。これらのものを学習させるだけでなく、使用するためにもGPUが必要なのです。
これらのLLMの使用量をサポートできない場合、そもそも何の意味があるのでしょうか？DeepSeekは1月にそれを指摘し、Grokもそれを示しています。非常に応答性が高く、大量のGPUを持っていて使用していることがわかります。さらに、過去1年間でこれらのチャットボットの構築方法は大きく変化しています。
以前は、大規模言語モデルと、「あなたはアシスタントのふりをして、ユーザーと会話をする」というような少しのプロンプトテキストがありました。そしてユーザーが小さなプロンプトを与え、それが返ってくる、それで終わりでした。しかし、最終的に興味深いのは、それ以降私たちがその上に構築してきたことです。私たちが学んだことの一つは、これらに考えを書き出し、応答する前に声に出して考える時間を与えると、実際により良い結果が得られるということです。
以前は、ユーザーがLLMにプロンプトを与えると、即座に返信が返ってきて、基本的に適当な答えを出していました。それでもかなり説得力があり、良い仕事をしていましたが。今では、チャットボットに一つ余分なステップを加えています。プロンプトを与え、その答えを受け入れさせ、そして考えさせます。ユーザーには見えない多くのことを書き出させ、応答する前に自分の考えをすべて統合させるのです。
重要な事実は、モデルに考える時間をより多く与えるほど、一般的に前述のベンチマークでより良いパフォーマンスを示すということです。Grok 3もこれを行っています。その意味で、より多くのコンピューティングパワー、より多くのハードウェアがあれば、物事はより良くなることを示しています。これが私たちの第二の教訓です。推論時のコンピュートは事前学習のコンピュートと同じくらい重要であり、最も重要なのは、すべてにおいてハードウェアが重要だということです。
OpenAIについての会話に入る前に、もう一つ重要な点があります。Grokについて特に言うことはあまりないと思います。実際、私にとってはとても平凡で、そこから引き出せるもう一つの教訓を指し示していると思います。それは、LLMが商品化されているだけでなく、チャットボットも商品化されているということです。説明しましょう。
OpenAIを開き、ChatGPTを開き、DeepSeek o1を開き、Grokを開いて、それらのユーザーインターフェースを見て、すべてのブランディングを取り除いたら、平均的な人はそれらを区別することができず、正直なところ気にもしないでしょう。なぜなら、これらは基本的に同じように見え、ユーザーインターフェースは同じように見え、非常に似たような動作をするからです。
実際、Grokについて興味深いのは、ユーザー体験やユーザー認識のベンチマークで非常に高いスコアを記録したことです。実際、それは数学、科学、コーディングのベンチマークよりも印象的だと思います。これは、応答のトーンのような、これらのわずかな違いが、短期的にこれらのモデルと製品を差別化する要素になるということを示しています。それは非常に小さな違いであり、これらすべてが同じように見え、基本的に同じように聞こえ、私たちは現時点でほとんど意味のないような部分について非常に気にしているということを示しています。
誤解しないでください。それらの重要性は理解しています。しかし、これらのほとんど意味のない部分は、実際にはこれらの間に差別化がないことを示しています。そこで、大規模言語モデルは商品であり、ハードウェアが極めて重要で、チャットボットも現時点で商品であることがわかりました。おそらくOpenAIについて私が何を言おうとしているかがわかるかもしれませんが、その前に最後の教訓に触れたいと思います。
これは他の企業にとって何を意味するのかを見ることで最もよく伝えられると思います。1月にo1がリリースされたときも同じことをしました。Googleにとって、これは基本的に同じ話を意味します。まず、彼らは独自のLLMを持っていますが、世界最高のLLMを持つことに会社の命運をかけてはいません。第二に、彼らは大量のハードウェアを持っており、実際にAI用の独自のカスタムハードウェアを持っています。
そして、これらを構築するための才能も豊富です。実際、ChatGPTのTであるTransformerはGoogleで発明されました。それは彼らにとって素晴らしいことです。実際、私は前回の動画でGoogleについて厳しすぎました。よく考えてみると、Googleはそれらの理由で非常に良いポジションにいるように思えます。第三に、Geminiについて私が好まないすべてのことにもかかわらず、それはChatGPTのようには見えません。
彼らはチャット製品を持っており、それが機能しているということが重要です。彼らはまた、非常に重要な優位性を持っています。それはGoogle検索です。インターネットの残りの部分へのエントリーポイントである一つのテキストボックスです。誤解しないでください、他のすべての企業からプレッシャーを受けていますが、より生成的なチャット体験に移行していないのは、その必要性を感じていないからだと私はますます信じるようになってきました。
Googleは彼らのキャッシュカウであり、大量のお金を生み出しています。そしてOpenAIやperplexityやその他の競合する検索エンジンを作っている人々からプレッシャーを受けていますが、十分なプレッシャーを感じるか、ビジネスモデルを見つけ出せば、瞬時にチャットボットに切り替えることができます。google.comでそれは即座に利用可能になります。そしてそこから得られる教訓は、配信が重要だということです。スマートフォンやブラウザを開くと、おそらく最初に目にするのはGoogleであり、したがってGoogleのチャットボットにアクセスできるということです。
一方で、彼らの最大の弱点は、良くない製品を出荷していることだと思います。Geminiは良くないと思います。Googleは今、悪化していると思います。正直なところ、YouTubeを除いて、Googleのほとんどのものに対して非常に悪い印象を持っています。基本的に、彼らのものはあまり良くないと思います。彼らは時間とともに製品に対する考え方を衰退させてきました。それは彼らにとって危険なことだと思います。Pixelはまだ興味深く、Geminiにもいくつかの興味深いアイデアがありますが、結局のところ、個人的には良い製品ではないと思います。
Metaについても同じ話です。彼らは最初からLLMが商品であることを知っていました。Zuckerbergにはその点で賛辞を送りましょう。実際、彼らはそれをとてもよく理解していたので、かなり早い段階でLLaMAをオープンソース化しました。彼らはこれらのモデルのオープンソース化のリーダーでした。それは実際に彼らにとって戦略的な優位性でした。なぜなら、モデルをオープンソース化することで、業界標準になり、すべてのハードウェアでの実行コストが下がり、これらの大規模言語モデルをアプリケーションとして使用できるようになったからです。これは私たちが得る教訓の一つです。
Metaはこれらを使って投稿を生成し、広告を生成し、フィードをさらにパーソナライズ化したいと考えています。これらの実行コストが下がれば下がるほど、彼らにとって良いことです。彼らは多くの独自のハードウェアを所有しており、それに依存していません。チャットボットも持っていますが、それにも依存していません。AIが安くなればなるほど、彼らにとって良いことです。そして、彼らは独自の戦略を持っており、それは彼らにとって有利なことです。
彼らのオープンソースアプローチは、これによって再確認されました。実際、Grok 3はまだオープンソースではありませんが、Grok 2がオープンソース化されることが示されています。申し訳ありません、Grok 3の発表で、Grok 2がオープンソース化され、Grok 4が出たときにGrok 3がオープンソース化されるというように、順次進んでいくことが言及されています。これは、これらが商品であるというZuckerbergの早期の賭けが正しかったことを示しています。
彼らもまた、ソーシャルプラットフォームを通じて配信の優位性を持っています。FacebookやInstagramを頻繁に開きます。私の家族全員がスマートフォンにMetaのアプリを持っています。そして、Meta AIが登場し、それが進む道になれば、アクセスできるようになります。そこで、この最後の教訓が見えてきます。配信が本当に重要だということです。
私はこの最良の例がAppleだと思います。再び、Grok 3の発表はAppleにとっても同じ話の再確認ですが、特に配信の重要性を強化し、AppleがiPhoneという究極の配信デバイスを持っているということを示しています。私はMetaのアププリをスマートフォンにインストールしなければならず、Googleを使って何かをしなければなりませんが、Siriは文字通り、変更できない常時マッピングされたボタンです。AppleはいつでもSiriをアップグレードして機能させることができます。それが重要なことです。
Siriは現時点で良い状態ではないと思います。過去1年の間にAppleインテリジェンスを通じていくつかの興味深いものがリリースされています。追いつくにはまだ長い道のりがあると思いますが、彼らはそこにたどり着くと信じています。繰り返しになりますが、xAIは1年半でそれを達成しました。Appleも短期間でできると思います。しかし、ここで重要なのは、Appleが現在どこにいるかではなく、必要に応じて比較的迅速にそれを行うことができるという事実と、他の誰とも比べものにならない配信力を持っているということです。AIのプラットフォームを構築する上で、彼らは大きな優位性を持っています。
ということで、4つの教訓をお伝えしました。LLMは商品です。ハードウェアが重要です。チャットボットは商品です。そして配信が重要です。では、これはOpenAIにとって何を意味するのでしょうか？彼らは、これが完全に状況を変えてしまったと感じる唯一の企業です。OpenAIは両側から圧迫されていると感じます。
OpenAIが持っている資産について考えてみましょう。ChatGPTですよね？しかし、ChatGPTは根本的に何なのでしょうか？大規模言語モデルとチャットボットです。推論能力はありますが、他の誰もが推論を行っています。彼らは4oと01を持っており、それらはGrokによって性能が上回られているようです。UIの観点から見ると、彼らのチャットボットは他のすべてのものと同じように見えます。これが彼らが提供するコアです。
そして、これらの教訓を文字通り受け取るなら、彼らは、Grokが近い将来に商品化されることを示した2つのものを所有しています。もし所有していないのなら、ここ数ヶ月で商品化されています。では、OpenAIは本当にどんな資産を持っているのでしょうか？彼らの製品のコアが基本的に商品である場合、何が残るのでしょうか？
最初の一つは彼らのブランドです。人々はAIやチャットボットについて考えるとき、OpenAIのことを考えます。なぜなら、彼らが最初にそれを提供したからです。当然のことながら、多くの人々がChatGPTをインストールしたので、ある程度の配信力も持っています。二つ目は、彼らは製品でリードしていると思います。
もちろんこれは主観的ですが、彼らは素晴らしいMacアププリを持っていると思います。彼らが最高のデスクトップチャットプラットフォームを持っていることは疑問の余地がないと思います。iOSアプリもかなり良いと思います。ウェブアプリも良いと思います。彼らの製品にはいくつかの興味深いアイデアがあると思います。
しかし、製品のリードは他の人々を追い抜く能力と同じくらいしか価値がなく、ブランドは製品と同じくらいしか価値がありません。したがって、OpenAIが優位性やレバレッジを持っている両方の方法は、他の誰もがキャッチアップし、より多くのコンピューティング、より多くのお金を問題に投入するにつれて、かなり急速に侵食され始めています。
ところで、反対側の面では、OpenAIは重要だと決めたものを所有していません。彼らは本当にはハードウェアを所有していません。彼らは配信の優位性を持っていません。そして結局のところ、重要なのは製品が重要だということです。OpenAIが集中して実行できれば、チャンスはありますが、彼らにとって時計は刻々と進んでいます。
OpenAIに対する私の大きな懸念は、彼らはもはや才能を持っていないこと、モデルでの優位性を持っていないこと、そして他の誰よりも速く走れるかどうかわからないということです。そのため、これまで以上に、Sam Altmanが彼らのために調達できる資金の額にもかかわらず、OpenAIは非常に不安定な立場にあると感じています。