Grok 3は…興味深いモデルですね

15,338 文字

I had high hopes for Grok 3. According to their benchmarks it should be the new best model right? Right? Quite a lot to ...

Grok 3が登場し、興味深い展開となっています。このモデルには大きな期待を寄せていました。そのハイプは凄まじく、私もライブストリームを見ていました。そこでは非常に期待が持てるスライドが示されていて、Grok 3の推論モデルはo3 mini highやo1よりも優れているとされていました。
もしこれらの数値が本物だとすれば、それは驚くべき成果です。ただし大きな「もし」が付きます。なぜなら、彼らが見せている推論モデルは一般に公開されていないからです。より従来型のモデルと、その従来型モデルの思考バージョンが公開されているだけです。
私はGrokを使って良いパフォーマンスを得ようと試みましたが、興味深い経験をしました。Grokには確かに何か面白いものがあると思いますが、それが何なのかを理解するのに苦労しています。私の経験は奇妙なものでした。その奇妙さをお見せしたいと思いますが、その前に今日のスポンサーからのメッセージをお届けします。
今日のスポンサーはaugment codeです。一見すると、VS Codeのための単なる別のAIツールアシスタント拡張機能のように見えるかもしれません。しかし、これは全く異なるものだと約束できます。すでにテキストが表示されているのに気付くかもしれません。
これは、数日前に私が検索エンジンを構築していた時に、既存の例がどのように特定のフォーマットのパースを処理していたのかを理解しようとしていたからです。そこで「bangはどこでパースされているか」と尋ねてみました。コードベース全体を追跡できるため – そう、巨大な企業規模のコードベース全体でも、これは彼らの専門分野なのですが – 探していたコードを正確に見つけることができました。
ファイルをタグ付けする必要もなく、どこに何があるのかを手動で教える必要もありませんでした。コードベース全体をインデックス化し、質問をして文字通り0.5秒以下で回答を得ることができます。これは驚異的です。
その驚異的さを証明するために、別のコードベース、少し大きなコードベースに切り替えてみましょう。これはReactのコードベース全体です。巨大で、600メガバイトもあるためダウンロードに5分ほどかかりました。同期が完了すると、どこに何があるか、どのような部分が存在するかの要約を提供してくれます。
コンパイラには、packagesとreactから独立した一連のものがあることを指摘しています。そして今、Reactについて質問することができます。いくつかの提案もしてくれます。「Reactコンパイラとは何か」と尋ねることもできますし、「開発ツールはどのように機能するか」と聞くこともできます。
もう少し難しい質問をしてみましょう。「サーバーサイドレンダリングを可能にするコードはどこにありますか？」すると、このコードベースにある該当するコードを探して答えを見せてくれます。
文字列にレンダリングできるreactdomレガシーサーバーノードがあり、これが最新のSSRレンダリング実装です。また、ここで小さな情報も提供してくれます。これがコア実装であり、最新のストリーミングSR実装があること、flightサーバーコンポーネント実装もあることを説明してくれます。
これらの詳細な内訳を全て提供し、クリックすると該当する部分が実際にハイライトされます。全体的に非常に良い体験です。VS Codeユーザーだけでなく、信じられないかもしれませんが、優れたneovimプラグインも提供しています。
augmentは、ここで見られるような巨大なコードベースを持つ大企業で既に使用されています。webflow、lemonadeなどです。特に大規模なコードベースへのエンジニアのオンボーディングや、何がどこで起こっているのかを理解しようとする際に、大きな成果を上げていると報告されています。
ほとんどの開発者にとって、コードベースにオンボードする際のより良い出発点となります。これらの大企業で働いていなくても、オープンソースで作業している場合は、オープンソース開発者には完全に無料です。
私の言葉を信じる必要はありません。今すぐsoy.l/augmentcodeで無料でチェックしてみてください。
数学や科学の側面について多くを語ることもできますが、正直なところ私にはその資格がありません。しかし、このコード面については資格があります。そして、コーディングに関してはかなり優れているとされています。少なくとも表向きはそうです。
私の経験は少し異なりました。かなりの時間をかけてプロンプティングを試み、誰もが好む「跳ねるボールが回転する六角形の中で跳ね返る」というテストを実行しようとしました。これがそのプロンプトです：「重力と摩擦の影響を受け、回転する壁に現実的に跳ね返るボールを、回転する六角形の中で表示するPythonプログラムを書いてください」
最初のバージョンを取り出してここに貼り付けてみましょう。Grok 3 v1.pyを実行する前に、Claudeのバージョンをお見せします。これがClaudeのバージョンで、このテストが何を示そうとしているかのアイデアが分かります。
ボールが六角形の中で跳ね回り、現実的な物理法則を持つべきです。つまり、底に向かって跳ね返り、六角形の中にいるので外に落ちないはずです。これが基本的な期待です。
また、o3 miniで作られたバージョンもお見せできます。これはもっと跳ねやすく、重力の設定も間違えていますが、私がテストした中では恐らく一番お気に入りです。
もし、この新しいGrokモデルがさらに優れているなら、ここでも素晴らしいパフォーマンスを見せるはずですよね？UV Run games.sl grok3_v1を実行してみましょう。見逃した場合のために、もう一度やってみます。
Grok 3には数学、物理、コードが少し難しいようですね。しかし、正直に言うと、これは思考バージョンではありませんでした。なぜなら、その時点ではこの思考ボタンが存在しなかったからです。
そこで思考バージョンで再実行しましたが、ここにはもう表示されていません。2分以上かかりました。皆さんに見ていただくために、もう一度実行してみましょう。新しいものをコピーし、Grok 3の思考モードを確認します。
それが考えている間に、最初に生成したコードをお見せしましょう。どうやら重力を逆転させ、ボールが上に消えてしまうように自分を欺いたようです。私には…分かりません。これはまだ実行中です。
面白いテストを一つやってみましょう。最初の試みを取り、cursorに修正を依頼します。「ボールがコンテナから逃げてしまいます。修正してください」と。これを修正できるかどうか非常に興味があります。
試してみましたが、正直な努力はしたようです。はい、このコードは特に回復できそうにありません。厳密な監査はしていませんが、ざっと読んだ限りでは、実際のバウンシングメカニクスやインターセクションコードではなく、頂点を参照点として使うことに非常に興味を持っているようです。
ちなみに、まだ考えています。これは全てリアルタイムです。思考に131秒かかっています。この問題についてかなり考える必要があるようですね。
参考までに、プロンプトをコピーしてT3 chatに移動し、o3 mini Highに切り替えて貼り付け、投稿してみましょう。その代わりにどのくらい時間がかかるか見てみましょう。
待っている間に、もう一つ面白いことをやってみましょう。T3 chatで提供されている他の高速モデルの一つを有効にしてみます。deep seek quen distilledモデルは非常に高速です。そちらを使ってみましょう。
まだストリーミング中です。ここに移動します。どうやら現在、R1の情報に問題があるようです。いや、R1ではなく、QつきのGrokについてです。QつきのGrokは本当に良いですが、KつきのGrokは疑問です。
QつきのGrokは、より高速な推論を行うためのインフラストラクチャに焦点を当てた企業で、その推論は驚異的です。推論を使って全てをどれだけ速く処理したか見てください。しかし、そのパフォーマンスがどうだったか気になります。
それを投入する前に、ダブルチェックしましょう。おっ、Grokが最後に終わりました。では、R1_qu_grock.pyを実行してみましょう。これは難しい問題であることは確かです。そこで…興味深いですね。
思考モデルがClaudeが解決できる問題を解決できないとは。これは私のClaude評価を少し下げました。価値は分かります。思考モデルではないこれらのモデルの中で、唯一これができるというのは興味深いです。
grock_thinking_v2.pyを実行してみましょう。ちなみに、UVのおかげでPythonが再び使えるようになりました。もう誰もPipを扱えないでしょう？分かりません。
自分自身を欺いてボールを外に出してしまいましたか？[笑い]ああ、このモデルは…このモデルはね。ページを変更して壊してしまいましたか？はい、誤ってlowに切り替えてしまいました。もう一度highで試してみましょう。
なんと奇妙な世界に私たちは生きているのでしょう。私たちの仕事は安全かもしれないと、ますます考えるようになってきました。少なくとも、私たちの仕事が六角形の中でボールを跳ね返らせることである限りは。
再実行しました。o3 mini highは少し速くなっていますが、APIを介して思考データを公開していません。でも約束します。彼らがそうすれば、すぐにUIに反映させます。
また、これらのモデル間を簡単に切り替えられる、良い高速プラットフォームを持つことは本当に素晴らしいです。はい、私は自分の製品を見せびらかしていますが、これは良い製品なんです。私は最近これらのサイトをたくさん使っています。
o3_mini_high_2.pyを貼り付けて実行してみましょう。コミカルなほど速いにもかかわらず…ワオ、2回目は失敗しましたね。面白いことに、最初は私のお気に入りのオプションだったのに、2回目は失敗しました。
公平を期すために、もう一度Claudeを実行する必要があると思います。clad_v2.pyを実行して、2回目の試行でも失敗したかどうか確認してみましょう。
何てことだ、何が起こっているんだ？トワイライトゾーンに入ってしまったのか？何が起きたんでしょう？どうして全てが最初の試行で正しく動いて、今は動かないんでしょう？
イライラすることですが、Claudeのウェブサイトで試してみましょう。ああ、うまくいかないことを願います…ああ、あれはローディングスピナーでした。はい、T3 chatは必要ないと言う人たちへ、他のサイトは速いと…皆さん、あれを見ましたか？情けないほど遅かったです。5秒以上かかりました。
そうそう、グラデーション、あの古き良きFirefoxエフェクト。「pondering」は「thinking」のように見えますが、より高価で、それほど良くないですね。申し訳ありません、Claudeについて不満があります。提供されているものに対して非常に高価すぎます。
すぐに価格と深さについて話しますが、ちなみに私はClaudeに対価を支払っています。つまり、実際に動作する、質問に答えてくれる、半額で、永遠にかからないバージョンのClaudeが欲しければ、T3 chatは良い選択肢かもしれません。
しかし、信じられません。録画中に実際にこれが起こるなんて。このUIは何なんでしょう？まだアーティファクトの部分が気に入りません。常にポップアウトするのは。T3 chatへの追加を検討していますが、決して強制はしません。好きになれません。
さて、コードをコピーできました。これを上書きしようと思っていました。そこで何にも当たらずに跳ね返ったんでしょうか？最初にこれらのファイルを全て作った時、o3 miniのものが最初の実行で、Claudeのものも最初の実行で、全て一発で上手くいったはずです。何が起こっているのか分かりません。
イーロンは過去48時間で全てのデータを悪質なものに書き換えるために全財産を使い果たしたのでしょうか？まったく。単なる偶然だと分かっていますが、ここに履歴があります。これはGeminiでのもので、Geminiのは失敗しました。それは隠しません。
次はo3 mini highで、これが最初の試行でした。これがそのコードです。最初に見せたのと同じコードだと証明できます。メインシミュレーション更新、全く同じコードです。理論的には何かを削除した可能性もありますが、そんなことはしていません。
これはClaude 3.5のもので、これも動作しました。複数の良い結果が続いただけだったようです。とはいえ、Grokからは一つも動作するバージョンを得られていません。Grokからは動作するコードを全く得られていません。
アドベントオフコードの問題もいくつか試してみましたが、多くのものを幻視し、TypeScriptもコンパイルできませんでした。価格設定が良ければ、これら全ては問題ないのですが。V3のAPI価格はまだ発表されていませんが、ウェブサイトでのアクセスに新しい有料サブスクリプションを発表しました。
価格設定を見てみると、ビジョンバージョンと非ビジョンバージョンの両方で、入力が100万あたり2ドル、出力が100万あたり10ドルです。これは、o1や、o3 miniのような何かと、ほぼ同じ価格設定になります。
現在の価格に関する私のギストを見てみると、o1は入力トークンでわずかに高価で、出力は同じくらいです。Claude 3.5は全体的に50%高く、全体的な品質は明らかに高いです。deep seekは信じられないほど安価で、flashlightも信じられないほど安価です。
彼らがここで構築したものを出して、o3 miniより高価にするのは、不思議な動きに感じます。o3 miniが明らかにより優れたモデルなのに、同じくらいの価格というのは、非常に奇妙な動きだと思います。
彼らが構築しているものは、革新を目指すというよりも、OpenAIの敵を挑発しようとしているだけのように感じます。これは悲しいことです。なぜなら、そこには本当に優秀な人々がいることを知っているからです。
新しい階層に登録しようとした時、XA Dev テストモードのstripeに遷移したのですが、彼らはそれほど優秀なはずなのに、テストモードのチェックアウトフローをstripeキーと共に出荷してしまいました。信じてください、stripeの設定が簡単ではないことは分かっています。私はstripeの設定が簡単ではない理由を説明する業界のエキスパートですから。
どうしてテストキーを本番環境にプッシュしてしまったのでしょう？また、Grokで働いていた時に、Grok 3がコードに関して劣っているだろうと指摘して解雇された人がいたというのも面白いですね。
オッ、Zがstripeのカンファレンスにいるのは素敵ですね。私はstripeとは非常に良い経験をしています。特に公に不満を言い始めてからは。彼らと多く話をして、プレゼンテーションもさせてもらいました。彼らには大きな期待を寄せています。
しかし、まだ理解できないのは…思考にかかった時間の長さを忘れていました。今実行したものをチェックするのを忘れていました。196秒かけて、ボールを六角形の外にレンダリングする解決策を出すとは。なんということでしょう。
気が狂いそうです。理解できません。Grokには可能性がありましたが、それは実現していません。ただし、彼らがやっている素晴らしいことが一つあり、もっと多くの企業がこれを真似てほしいと思います。
Grokには、Grokベータや、Grok、そして今では複数のGrok 3モデルなど、様々なモデルがあります。Grok 3、Grok 3推論などです。彼らが行っている興味深いことは、最新の主力モデル、つまりフラッグシップモデルに線を引くことです。
この線より上のものは全てOSSになります。完全なオープンソースではありませんが、少なくともオープンウェイトです。これは非常に良いことだと思います。彼らは公式に、現在のブレークスルー的な最先端モデルではない全てのモデルをオープンソース化する計画だと述べています。
つまり、Grok 4が登場した時には、私のイーロンの発言の理解が正しければ、その線が移動し、Grok 3はオープンソースになります。これは非常に良いことで、もっと多くの企業、OpenAI（ウィンクウィンク）にも同じことをしてほしいです。
新しいモデルが登場した時に、他の企業もこの機会を活用してほしいと思います。もしある他の企業がこれを行えば、全てが変わる可能性があります。もしClaude 4の登場により3.5がオープンソースになれば、Anthropicは完全に勝利します。
彼らにそれだけの度胸があるかどうかは分かりませんが、もし3.5よりも優れたモデルを作り、その前のモデル、つまりまだ業界をリードしていたモデルをオープンソース化できれば、多くの企業のビジネスを破壊することになるでしょう。
実際、数日前、というか昨日だったと思いますが、面白いことが起こりました。新しいベンチマークが投稿されました。「彼ら」と言う時、私はOpenAIを指しています。彼らは「we Lancer」という、私が実際にかなり優れていると思うベンチマークを発表しました。
これは新しいベンチマーク方法として興味深いものです。なぜなら、サムが何度も言っているように、既存のベンチマークは100%勝利に近づいているため、もはやそれほど価値がないからです。
このベンチマークは、Upworkから多くのフリーランスエンジニアリングタスク、つまり「タスクを実行して報酬を得る」サービスから100万ドル分のタスクを収集し、異なるモデルがUpworkの投稿で指定されたタスクを解決できるかどうかをテストし、理論的にどれだけの金額を稼げたかを計算します。
ここで本当に興味深いことが起こりました。これはOpenAIによって公開されたことを覚えておいてください。彼らのページからリンクをクリックしました。彼らは調査を依頼し、Claudeが彼らに勝ったのです。黄色がClaudeです。彼らは自分たちのベンチマークで負けました。
これは信じられません。本当に彼らがこのように公開したことが信じられません。ここにはさらに詳細な内訳があり、異なるタイプのタスクと成功率が示されています。
サーバーサイドのロジックについては、確かにタスクは17個しかありませんでしたが、GPT 4oと01は24%しか解決できませんでした。sonicでさえ40%を超えませんでした。これは驚くべきことです。
公平を期すために、マネージャータスクではClaudeは少し劣りましたが、全てのICタスクで勝利しました。そして40はUIの問題を全く処理できませんでした。これらの問題の1つしか解決できませんでした。興味深い研究です。
理論的に、4が登場した時に3.5がオープンモデルになれば、OpenAIが出荷したものよりも優れたオープンモデルが存在することになります。彼らは今や一部のものをオープンソース化することを強制されています。
サムもこれを理解しているようです。数日前に彼がアンケートを実行したことからそう思います。「次のオープンソースプロジェクトとして、GPUで実行する必要があるがo3 miniレベルの小さなモデルと、可能な限り最高の電話サイズのモデル、どちらが有用でしょうか？」
皆さん、このアンケートを操作するのを手伝ってください。ああ、投票は終わっていますね。最終結果が出ました。o3 miniが勝ちました。電話サイズのモデルが一時期リードしていたので、それが勝っていたら非常に動揺していたところです。
電話で実行できるモデルはクールです。しかし、それは未来ではありません。5Gはますます普及し、GPUはますます効率的になっていますが、それらができることと、これらのモデルができることへの期待は上がり続けています。
Appleのプライバシーオタクとして、信じてください。全てを自分の電話で実行できればいいのですが、それは現実的ではありません。より良い大規模なオープンモデルが必要です。それらのモデルを夢見る前に。
ルームメイトがR1を電話で実行させましたが、1～2トークン/秒程度でした。それは必要ありません。20だったとしても、品質が下がりすぎてしまいます。気にしません。
Grokに戻りましょう。良いところを探してみましょう。うーん…サイトは綺麗です。あなたのユーモアのセンスが「銀河ヒッチハイクガイド」だけなら面白いかもしれません。Twitterを検索できます。本当に頑張って探しています。
ディープサーチも試していませんでした。試してみましょう。「イギリスにはコーギーが何匹いますか？」fancy UIについて言えば、もう一つ嘲笑いたいことがあります。
ライブストリーム中に試した時、ほとんどずっと5でした。ここでたくさんの検索をしています。多くの異なるソースをチェックしているのは評価できます。2015年には約500匹のコーギーが登録されていたようです。
これらの数字は正しくないと思います。比較のために、バックグラウンドでperplexityを実行してみましょう。ちなみに、まだ会話を要約していないことに気付きました。タイトルもまだありません。
実は、T3 chatで新しいタイトルとサマリーを時間通りに送信するのを忘れるという愚かな変更をしてしまいましたが、1時間以内に修正しました。Grokがまだ修正していないのは分かりません。
なんてこった。確かに研究論文のように見えるものを書くことはできますが、イギリスに2,000匹のコーギーというのは滑稽なほど少なすぎます。それはあまりにも間違っていて、ほとんど美しいほどです。
perplexityが進行中の間に、私たちが追加した新しいお気に入りの機能をお見せしましょう。検索エンジンを作りました。本物の検索エンジンではありません。unduckと呼ばれています。このビデオはまもなく公開されます。
T3 chatのbangを追加しました。これを貼り付けると、T3 chatに自動投稿されます。ケネルクラブは12,000と推定しています。ああ、これはpem WGの一つのタイプですね。思考に切り替えましょう。いや、このように実行した場合、検索では起動しないかもしれません。
flash searchに切り替えましょう。いいですね、そうなりました。Gemini flash searchはあまり良くありません。perplexityはまだ進行中です。さあ、この数字がこんなに低いはずがありません。
人口7,000万人のイギリスで、2,000匹のコーギーしかいないというのはありえません。70,000,000人の中で、偏りのない無作為な集合でさえ、2,000匹以上のコーギーがいるはずです。イギリスはコーギーの首都のようなものなのに。
flash thinkingで検索します。T3 chatに追加するのを躊躇していました。なぜなら…どう言えばいいでしょう。ひどいレート制限があるからです。しかし、thinking Geminiモデルをまもなく追加する予定です。
思考を私が予想していたよりもかなり積極的に表示します。2021年には1,000匹が登録されていたそうです。なぜこれらは全てこんなに間違っているのでしょうか？これは簡単な質問だと思っていたのですが、どうやらそうではないようです。
これはまだ進行中です。これが簡単な質問だと思っていたのに。ああそうか、理解できます。ここでの言葉が非常に曖昧なのですね。2021年時点で登録されているコーギーの総数が1,000匹なのか、2021年に1,200匹が登録されたのか。
はい、これは年間の数字のようです。1960年には約9,000匹の子犬がいました。それは当時9,000匹の新しい犬がいたということです。つまり、これらの数字は全て間違っています。2,000は滑稽なほど少なすぎます。なぜなら年間1,200匹が登録され、コーギーは永遠に生きられたらいいのですが、1年以上は生きるからです。
perplexityを更新してみましょう。まだ進行中のようです。いいえ、UIがフリーズしただけですね。面白い。なぜ他の人のUIはこんなに壊れているのでしょうか？
イギリスの総犬数は約1,300万匹と推定されています。おっと、イギリスに1,300万匹の犬がいるのに、コーギーが1,300匹というのは少なすぎませんか？これらのリサーチツールは優れているはずなのに。
また、大物たちに聞けることを思い出しました。私は数日前、いくつかのテストのために200ドルのプランに再登録しました。最初の質問です。「登録・未登録を含む総数の推定値でも構いません」
ここで本当に話が脱線してしまいました。deep researchは時間がかかるようなので、様々な試みがなされているのを見てみましょう。このスクロールコンテナが本当に嫌いです。気にしすぎるべきではないのですが、自分のAIチャットアプリを作ってから、スクロールコンテナのことばかり考えてしまいます。
ちなみに、興味深い事実ですが、ChatGPTサイトで01 Proモードやdeep researchのような高価なものを使用している場合、別のチャットを開始したり、タブを閉じたり、インターネット接続が切れたりすると、完全に失敗します。
実験全体が台無しになってしまうので、このタブがスリープ状態にならないように注意する必要があります。世界中のコーギーは1万匹だけだそうです。それは違います。私自身で1000匹は名前を挙げられます。純血種だけを数えているのだとしても、それでもかなり少なすぎると思います。
まだ進行中です。少なくとも3分は経過していますね。ヒントを与えた後のGeminiは、1万から1万5千匹というもっと現実的な数字を出しました。しかし、これらのほとんど全てがこんなに間違っていたのは依然として驚きです。
はっ、ChatGPTが4分かかりました。「ケネルクラブの登録コーギー数は、コーギーが絶滅危惧種だった年には、イギリスの犬の1%未満でした。中間的な推定では1万から1万5千匹のコーギーということになります」
これは面白いことに、同じ結論に達するのにずっと時間がかかりましたね。公平に言えば、Geminiには間違っていることを指摘する必要がありましたが、これは全て自分で質問を投げかけて出した結論です。
OpenAIが再び勝利です。そして明らかにGrokはそうではありません。最後の追加質問をしてみましょう。「deep searchか思考のどちらかを使うことができます」
興味深いことに、検索するたびに画面の一番上に飛ばされます。何もトリガーしていないのに、自動的にそうなってしまいます。全体的に見て、GrokのUIは最も見栄えが良いと言えます。これは素晴らしく洗練されています。
しかし、画面にうまく収まっていません。確かに私の画面は小さいですが。今や46のウェブページを検索して、私のコーギーに関する質問に答えようとしています。
ここまでずっと、人生で最も重要な質問の答えを見つけようとする過程を見守ってくれた皆さんには申し訳ありません。コーギーの数は、deep searchにとってのバウンシングボールになるのでしょうか？これは私が今まで言った中で最も馬鹿げた文かもしれません。
いいですね。追加のコンテキストと検索を全て行っても、Grokは間違い続けることを主張しています。はい…彼らのdeep searchは多くのサイトに触れます。多くのリンクを生成したい場合には良いかもしれません。
それ以外は有用に思えません。Twitterの感情分析をしたい場合には良いかもしれません。しかし、ここではそれを見出せません。はい…このモデルに多くの可能性は見出せません。
V3のAPIがリリースされた時に、T3 chatでどれだけの人々が使用し、どのような感想を持つのか非常に興味があります。人々が実際に使用するまでは、確実なことは分かりません。ウェブサイトだけでは、これらのモデルの価値を適切に理解することはできません。
APIを介してモデルを組み込むことでしかできない多くのテストを作成中です。ちなみに、もし知らなかったとしたら、これは信じられないほど簡単になっています。
これが私たちのT3 chatの実際の本番コードです。異なるモデルの特定のモデルにIDをマッピングするモデルマップがあり、新しいものを追加したい場合は、キーを追加してプロバイダーを追加するだけです。全てAIスクプロバイダーから来ています。
モデルはコモディティ化され、それらの切り替えは今まで以上に簡単になっています。でも、一部の点で10%優れ、他の点で50%劣る、同じかそれ以上のコストのモデルをさらに作成することに、今は意味を見出せません。
彼らが自慢していた数字に近いものを共有し始め、APIを介してこのようなパフォーマンスを得られるモデルを提供できれば、「Grokについて私は間違っていました」というビデオを必ず投稿します。しかし、今のところ、このビデオで間違っているとは感じていません。
短い中断をさせてください。既に数時間前に録画は終わっていますが、Grok 3の体験について非常に興味深いニュースを入手したので、これを含める必要があります。
過去2日間、Grok 3を使用していた多くの人々が、実はウェブアプリケーションのバグにより、Grok 2を使用していたことが判明しました。プロンプトの下にGrok 3と表示されていても、実際にはGrok 2を使用していたのです。
これは重要な詳細です。なぜなら、私が提出したもののいくつかは、ほぼ確実にGrok 2を通じて行われていたからです。これが本当かどうか懐疑的な人々を見かけましたが、私たちのT3 chatでの作業でも同じミスを犯したことがあるので、確認できます。
確かに、私たちの場合は1時間以上続くことはありませんでしたが、このミスは以前にも起こしています。私たちのような12以上のモデルを持つ場合、理解するのは少し難しいですが、2つのモデルしかない場合は理解するのが難しいです。
しかし、彼らにも疑問の余地を与えましょう。彼らはそのミスを犯し、テスト課金ページでもミスを犯しました。チェックが付きます。しかし、これは結果にどのように影響するのでしょうか？
それについて触れる前に、チームにまだ確認していませんが、ほぼ確実だと思われることを指摘したいと思います。thinkingで何かを行った場合、つまり私が以前に行った全ての例は、全て良好でした。しかし、思考ではないもの、最初に行って話題になったビデオのようなものは、間違っていた可能性があります。
そこで再生成し、別の回答を得て、トリプルチェックしました。「あなたは何のモデルですか？」「Grok 3」と彼らは言いました。これが正しいモデルを使用していることを絶対に確認する唯一の方法です。
このコードがあります。どのように実行されるか見てみましょう。これが私のGrok第3回目の試みのコードです。どうなるか見てみましょう。素晴らしい。以前よりもさらに優雅に失敗します。
もし私のコメント欄で「実際にはGrok 3ではなかった」というコメントを残そうとしているなら、はい、そのコメントを残してください。いくつかの人々は、それが意味のある改善だと言っています。
私が信頼する何人かの人々がそれを指摘していますが、私の経験では、以前と同じように、もしかしたらさらに滑稽なほどに失敗しています。
つまり、クリックしたモデルを実際には使用していないという恥ずかしいミスを犯しましたが、それはGrok 3がまだ少しジョークであることを意味しません。
確かに、それが得意とする分野はあるはずで、もし人々がそれらを見つけて私に見せてくれれば、喜んで見たいと思います。コードはその一つではありません。コードが得意だと主張するのはやめてください。
私はまだ、AI界で起こることの順序は一般的に次のようだと考えています：特定の企業、仮に「closed AI」と呼びましょう、が何かをリリースし、それが画期的なものとなります。そして時間とともに、その品質水準に追いつくための多くの外部での作業が行われます。
ちなみに、これらの代替案による作業は、使用するコストがはるかに安くなる可能性があります。多くの面でより効率的で優れたものになるかもしれません。しかし、純粋な知能の向上は、通常OpenAIが取り組んでいることです。
1%以上の大きな躍進のような大きな進歩は、まだOpenAIから来る傾向にあり、それは残念なことです。彼らは全てを論文として公開するので、モデルは得られませんが、そこに到達するのに役立った知識の多くを得ることができます。
そして、それに近づき始めると、OpenAIは再びこのような段階的な勝利の1つを出してきます。これは、私たち全員がそれまでの彼らの位置に追いつこうと戦っている間に起こる、重要な勝利なのです。
私はこのパターンが続くと思います。そしてそれは良いことです。なぜなら、これらの青いバー、つまりOpenAIのバーは信じられないほど高価で、業界が追いつき、それをコモディティ化するにつれて、これらのモデルから得られる勝利は、それを使う余裕のある人々だけに限定されないからです。
勝利はより大きくなり、私たちはR1が自分で実行できるオープンモデルで01にとても近づいたという、かなり記念碑的な躍進を目の当たりにしました。
しかし、Grokが彼らの話すようなことをするとは思えません。彼らはそれをまるで今まさに起こったかのように、まるでOpenAIの現在の位置を超えたか、それに近づいたかのように話していますが、私にはそれが見えません。まだ信じていません。
ここで間違っているかもしれませんが、現時点では、ここにいるような感じがします。Anthropicをここに置くとすれば、彼らは少し遅れて始まり、OpenAIとほぼ同じ位置に到達しました。
次の時代では少し高い位置に到達しましたが、今や思考の時代に入り、彼らは動いていません。本当に、私たちはAnthropicが動きを起こすのを待つ必要があります。
これが私のAIの品質に関する友人たちについての感想です。基本的に、OpenAIが何か狂ったことをするのを待ち、そして私たち全員がそれに追いつくために戦うだけです。
全体として、これは良いことです。私は不平を言っているわけではありません。しかし、「OpenAIは死んだ」と言うのはもう止めようと思います。なぜなら、十分大きな何かが起こるたびに、彼らは非常に素早くリープフロッグ（飛び越え）するからです。
私はまだo3 miniに震えていますが、それが私の現状です。「あなたはClaudeの熱心な支持者でしたが、o3 miniがそこから引き離しましたね」はい、私も似たような感じです。
私はまだcursorでClaudeが好きです。それは、ここで素早いことを行う時に最も楽しいモデルです。そしてCSSに関しては他のものよりも優れているように見えますが、o3は難しい課題に対して本当に素晴らしいです。
o3 miniはCSSがかなり苦手です。最後に一つ。人々は、Grok 3が全てのリーダーボードで勝利したと言い続けています。私は気付いたのですが、それらは全て「early Grok 3」と、私が見た全ての人によってラベル付けされていました。
私たちは同じモデルを得ていないと思います。これらのテストで使用されているものと同じものを得ていないと思います。私には見えません。私は、生成できないコードを生成する多くの例を見てきました。
勝利したベンチマークを再現できず、意味をなさないことを行うのを競うことができません。私たちは実際のGrokモデルを得ていないと信じています。
数週間後にアップデートと共に登場するのかどうか興味があります。なぜなら、彼らは自己改善すると約束しましたが、それが何を意味するのかは誰も知りません。
しかし、これは私が経験したこと、あるいは実行させることができたこととは一致しません。Grok 3は現在、私が全く信頼も興味も持てないモデルです。
私は、少しでも挑戦的なことを、私が何らかの信頼を持てる方法で答えさせることができていません。そして、現時点では推奨できるモデルではありません。
チャンネルに注目しておいてください。そしてまだ登録していない場合は、今がその時です。なぜなら、もし私が間違っていれば、私が間違っていたことについての動画がすぐに続くからです。
希望的にこれが役立ったと思います。これらのモデルで遊び続け、AIで未来を生成し続けてください。そして次回まで、さようなら、ナードたち。