
4,313 文字

Grok-3は本当に最高のモデルなのでしょうか?それともOpenAIのアプライドリサーチ部門長であるボリス・パワーが主張するように、ベンチマークで不正をしたのでしょうか?彼は次のように投稿しています。「Grokチームが評価で不正や欺瞞を行うインセンティブがあるのは残念です。要するにo3ミニはあらゆる評価においてGrok-3より優れています。Grok-3は確かに優れたモデルですが、誇張する必要はありません」
これはOpenAIからの非常に興味深い見解で、Grokチームが「Grok-3ベータ:推論エージェントの時代」というブログ記事を公開した後に出されました。
オリジナルの結果では、Grok-3が他の思考モデルを上回っていることを示しており、結果は濃い青と薄い青の2色で表示されていました。あるXユーザーが指摘したように、薄い青の部分がベストオブNスコアだとすると、これはGrok-3の推論能力が本質的にo1レベルであることを意味します。つまり、OpenAIとxAIの能力差は約9ヶ月ということになります。また、thinkとbig brainの違いは何でしょうか。
結果を見ると、これは実際に64回の異なる実行の多数決投票で、大幅なパフォーマンス向上を実現しています。しかし、OpenAIもo1とo3ミニの結果を報告する際に非常に似たことを行っていました。シェード部分は64サンプルの多数決投票を表しています。
これについてxAIチームのメンバーであるアオールは「完全な間違いです。私たちはあなたたちと同じ手法を使っただけです」と指摘しています。しかし、o3ミニの結果にはそのような多数決投票の結果は含まれていません。そのため、xAIチームが報告したベンチマークでも、高設定でのo3ミニとGrok-3ベータthinkの単一パスを直接比較すると、実際にo3ミニの方が優れているのです。
しかし、外部からの検証シグナルは非常に強いものでした。ChatbotアリーナのリーダーボードでのELOスコアを見ると、1,400を超えた最初のモデルとなっています。これは他のモデルと比べて大きな進歩です。完全にブラインドテストなので、これらは実世界のパフォーマンスをより良く表していると言えるでしょう。
私自身のテストでも、これまで見た中で最も印象的なモデルの一つです。それらのテストを見ていきますが、特に強調したいのは思考プロセスを表示するUIです。他の実装と比べて非常によく作られています。
結果を見る前に注意すべき点として、Grok-3はまだベータ版であることが挙げられます。正式版は多数決投票を使用せずにo3ミニを上回るパフォーマンスを発揮できる可能性があります。時が経てば分かるでしょう。
私自身のテストを見ていきましょう。XでのGrokの推論能力を見てみましょう。左側のアイコンをクリックすることでGrokを有効にできます。思考や推論バージョンを使用するには、thinkオプションを選択する必要があります。プレミアムパッケージでは現在2時間ごとに5回のGrok thinkの質問が可能です。より多くの質問をするにはPremium Plusにアップグレードする必要があります。
推論能力をテストするために、私は再び「misguided attention」リポジトリを使用します。このアイデアは、よく知られたパラドックスや質問に小さな変更を加え、モデルがそれらの変更を認識できるかどうかを確認することです。Grok-3は、これらの変更を捉えることにおいて、私が見た中で最も印象的なモデルの一つです。
まず、思考モードを無効にして始めます。これは通常のGrok-3を使用しており、トロッリー問題の修正版を質問します。この場合、線路上の5人はすでに死亡しており、もう一方の線路に1人が縛られている状況で、レバーを引くべきかどうかを尋ねています。
これを送信すると、思考なしのGrok-3からの最初の応答は「これは古典的なトロッリー問題で、長年議論されてきた道徳的ジレンマです。レバーを引けば1人が死にますが、5人が救われます」というものでした。すでに、単純に訓練データに基づいて応答し、5人がすでに死亡しているという事実を完全に無視していることが分かります。
しかし、思考を有効にすると、そこで魔法が始まりました。内部の思考プロセスはこうです:「古典的なトロッリー問題ですが、ひねりがあります。メインの線路には5人の生きている人々ではなく、死亡した人々がいて、もう一方の線路には1人の生きている人がいます。そして、トロッリーを迂回させるためにレバーを引くべきかどうかが問題です」
まず、与えられたシナリオを説明しようとし、次に「オリジナルのトロッリー問題は、5人を死なせるか、または5人を救うために積極的に1人を死なせるかの選択についてです。これは行動対不作為の倫理と人命の価値に関する道徳的ジレンマです。しかし、このバージョンでは線路上の5人はすでに死亡しているので、トロッリーが彼らに衝突しても、人々はすでに死亡しているため追加の害を与えることはありません」と述べています。
内部の思考プロセスは非常に詳細で、R1を思い出させます。最終的な応答では、基本的に状況を分解し、主要な事実を強調しています。5人がすでに死亡しているという事実を実際に強調し、行動を取らない場合と行動を取る場合の両方のオプションについて説明し、道徳的考察について論じています。
最終的な決定は「線路上の人々はすでに死亡しており、これ以上救うことも害を与えることもできないため、レバーを引くことは他方の線路上の1人の生きている人の不必要な死をもたらすだけです。介入によって救える命はなく、失われる命があるだけです」というもので、そのためレバーを引かないことを決定します。非常に印象的で、他のモデルがこのような応答を最初の試みで出すのを見たことがありません。
Grok-3とGrok-3 thinkingの間には明らかに大きな違いがあります。モンティ・ホール問題の修正版を提供した際、思考なしのGrok-3は基本的にオリジナルの問題に戻り、オリジナルのモンティ・ホール問題に基づいて解決策を提案しようとしました。しかし、推論機能を持つGrok-3 thinkは変更を識別することができました。
「私はゲーム番組にいます。3つのドアがあり、1つのドアの後ろには車が、他の2つのドアの後ろには商品があります。私はどのドアの後ろに何があるのか分かりません。私はドア1を選びました」と、出場者の立場に自分を置いて説明します。
そして「しかし、モンティ・ホールは全てのドアの後ろに何があるのか知っています。ドア1を開け、私にヤギを見せました。古典的なモンティ・ホール問題では、司会者は選ばなかったドアで、ヤギがいるドアを開けます。しかし、このシナリオでは、私がドア1を選び、モンティがドア1を開けてヤギを見せたというのは違います」と続けます。
「待って、もう一度注意深く読んでみましょう」と言って、問題を印刷し、同じプロセスを経て、これらの変更を識別できるのは非常に賢いと言えます。
最終的な応答はこうです:「残りの2つのドアの後ろには、1つには車が、もう1つにはヤギがいます。したがって、確率は50%になります」そして、正しい推論でそれを導き出すことができます。最後に「ドア2に留まるか、ドア3に切り替えるかに関わらず、車を獲得する確率は2分の1です。古典的なモンティ・ホール問題では切り替えることで確率が上がりますが、このバリアントでは最初の開示後にゲームがリセットされ、単純な50/50の決定となります」と説明します。
次はシュレーディンガーの猫の修正版でした。この場合、猫はすでに死んでいます。再び、それを簡単に理解することができました。「質問には、死んだ猫が核同位体と一緒に箱に入れられると述べられています。セットアップでは、放射線検出器が放射線を検出した場合、毒が明らかになり、箱は1日後に開けられます」と説明します。
「問題は明確に、死んだ猫が箱に入れられると述べています」と強調し、これはおそらく追加の助けなしで「misguided attention」プロンプトのほとんどまたはほぼ全てを解決できる最初のモデルの一つです。これができた他のモデルはGemini 2.0 proでしたが、プロンプトをそのまま書き直し、注意を払うようモデルに指示するシステムプロンプトを提供する必要がありました。その助けを借りてGemini 2.0 proはこれらを解決できましたが、Grok-3 thinkingは追加の助けなしでこれらを解決できるのは印象的です。
最も興味深いものの一つは、これでした。これはラッセルのパラドックスまたは理髪師のパラドックスの修正版ですが、この場合のユニークなルールは、彼は町で彼を訪れる全ての男性を剃るということです。理髪師は自分自身を剃るのでしょうか?
驚くべきことに、答えを導き出そうとする際、実際のラッセルのパラドックスについて考えることすらせず、直接ここにある独自のルールを述べています。私が見た他のほとんどのLLMは、オリジナルのラッセルのパラドックスを参照し、それを自分で調整しようとします。
数学的な定式化を行い、基本的にBは町の男性である理髪師、Mは町の全ての男性の集合でB⊂M、そしてVは理髪師を訪れる男性の集合で、これは町の全ての男性です。その定式化に基づいて、いくつかの異なるシナリオを検討しますが、最終的に正しい結論に達します。
「理髪師が町で彼を訪れる全ての男性を剃るというルールに基づき、また彼が誰かを訪れる必要なく自分自身を剃ることができる町の男性であることを考慮すると、理髪師は自分自身を剃ります。このルールはそれを妨げず、一貫性のある実践的な結果です」
全体的に非常に印象的なモデルで、特に論理的な検出に関しては素晴らしいです。私が「misguided attention」プロンプトを使い始めたのは、最初のo1モデルがリリースされた頃だと思いますが、このようなパフォーマンスは見たことがありませんでした。
次に、インターネットアクセスを持つ他のモデルと比較して、Grok-3の深い検索能力を比較する動画を作成する予定です。そのような比較に興味がある方は、チャンネルを購読してください。
ご視聴ありがとうございました。いつものように、次回もお会いしましょう。
コメント