
7,035 文字

Grok 3が来ています。イーロン・マスクは今朝未明にローンチを行い、私たちは2時間のライブで全プロセスと全ての出来事を見守りました。深夜に待機していた人々は全てをリアルタイムで目撃することができました。ここでは、起こった全てのことを総括していきましょう。
いつも通り、いいねを押してくださった皆様、チャンネル登録してくださった皆様に感謝します。特に、このAIチャンネルを支援してくださっているメンバーの皆様には特別な感謝を申し上げます。
イーロン・マスクのxAI社が最新の主力モデルGrok 3をリリースしました。xAI社は月曜日の夜にGrok 3を、iOSとWeb向けのGrokアプリの新機能とともにリリースしました。これは重要な詳細で、iOSについては言及がありましたが、Androidについては何も言及がありませんでした。
GrokはOpenAIのGPT-4やGoogleのGeminiへのxAIの回答であり、画像を分析して質問に答えることができ、さらにマスクのソーシャルネットワークXで様々な機能を提供します。数ヶ月間開発されてきたGrok 3は2024年にリリースされる予定でしたが、その期限を超過しました。
イーロン・マスクが打ち出したアイデアは、このモデルが世界最高のAIモデルになるというものです。Claude 3よりも優れ、Claude 3 Miniよりも優れ、既存の全てのモデルよりも優れているとされています。月曜日のローンチは野心的なものでした。xAIはメンフィスの巨大なデータセンターを使用しており、約20万基のGPUを含むデータセンターでGrok 3のトレーニングを行っています。
Xでの投稿で、マスクはGrok 3が前身のGrok 2の10倍の計算能力で開発され、訴訟記録を含むと思われる拡張されたトレーニングデータセットを使用したと述べました。プレゼンテーションでも同じことが言及され、データセンターについて説明し、さらに超先端技術を扱う際の問題や困難についても触れました。技術を発展させながら規模を拡大する必要があり、それに伴いエネルギー消費が増加し、エネルギー不足が発生してサーバーがダウンするなどの不安定さが生じるという問題が提起されました。
月曜日のライブ配信プレゼンテーションで、Grok 3はGrok 2よりも一桁優れた能力を持つと述べられました。それは政治的に正しいとされることと時には相反する場合でも、最大限真実を追求するAIだとされています。これはイーロン・マスクが強く主張している点です。時には彼が極端すぎると言う人もいて、彼が擁護する表現の自由にもバイアスがあるとされることもありますが、そのような質問に対して彼自身は、AIが持つバイアスを好まないと答えています。
正確を期すと、Grok 3は単一のモデルではなく、モデルファミリーです。Grok 3 Miniと呼ばれる小規模バージョンは、精度を多少犠牲にして質問により迅速に回答します。全てのモデルと関連機能がまだ利用可能というわけではなく、一部はベータ版ですが、月曜日からローンチが開始されました。
現在はPremium Plusの加入者向けに段階的にリリースされているようです。xAIによると、Grok 3は数学の問題サンプルでモデルのパフォーマンスを評価するAIME、および物理学、生物学、博士レベルの化学問題でモデルを評価するGPQを含むベンチマークでGPT-4を上回ると主張しています。
画像で示されているように、青い線で表されているGrok 3とGrok 3 MiniはAIME、GPQ、コーディングで非常に高いレベルを達成しています。興味深い点として、この比較は基本モデル同士で行われており、リフレクションモデルやDeep Researchモデルではありません。Grok 3、Gemini、DeepSeek V3、Claude 3.5、GPT-4といった基本モデル同士の比較となっています。
Grok 3の初期バージョンもChatbot Arenaで競争力のあるスコアを記録しました。これは異なるAIモデルを対戦させ、ユーザーが好む回答に投票するクラウドソーシングテストです。xAIによると、「Chocolate」というコードネームのモデルが非常に良い成績を収めたとのことです。Chatbot Arenaの興味深い点は、人々が評価するモデルを知らずに評価を行い、評価後に初めてどのモデルを評価したのかわかるという点です。
Grok 3 ReasoningとGrok 3 Mini Reasoningという2つのバリエーションは、OpenAIのO3 miniや中国のAI企業DeepSeekのR1のような推論モデルと同様に、問題について慎重に考えることができます。今日では推論モデルを持たないことは意味をなさないと言えるでしょう。チャットに検索やリサーチ、買い物などを依頼する際に最も必要とされるのが、この推論の部分だからです。
推論モデルは結果を提供する前に完全に事実を確認し、通常モデルを悩ませる落とし穴を避けるのに役立ちます。私は推論なしと推論ありの両方で三目並べをプレイしましたが、推論なしでプレイすると、ランダムに入力しているように見えます。一方、推論を有効にすると、ゲームは常に引き分けになります。なぜなら、まさに何をしているかに注意を払っているからです。
xAIは、Grok 3 ReasoningがO3 MiniとO3 Mini Highの最良バージョンを、AIME 2025と呼ばれる最新の数学ベンチマークを含む複数の人気ベンチマークで上回ると主張しています。AIME 2025の興味深い点は、非常に新しい数学テストであるため、モデルがそれらの問題で訓練されていないことです。そのため、モデルが学習していないことを保証できるため、良いベンチマークとなります。
ご覧のように、Grok 3とGrok 3 MiniはO3 Mini Highを上回っているようです。興味深い点として、O3との比較が行われていないのは、O3がオープンでも自由でもないため、テストができないからです。ライブ配信での興味深い点として、視聴者数が250万人に達し、300万人に近づいたことが挙げられます。300万人に達したかどうかは記憶にありません。
推論モデルはGrokアプリからアクセスでき、ユーザーはより難しいクエリに対して考えるようGrok 3に依頼したり、追加の計算を行う「Big Brain」モードを利用したりできます。xAIは推論モデルを数学、科学、プログラミングに関連する質問により適していると説明しています。マスクはアプリケーションで推論モデルの思考の一部が隠されていると述べました。これは、他のモデルから知識を抽出するために使用される方法である蒸留を防ぐためです。
これは基本的にDeepSeekがOpenAIに対して行ったことです。DeepSeekが人間のフィードバックを含むデータを持っていなかったことは明らかで、したがって良い回答を持つ他のモデルのデータに基づいて訓練を行いました。彼らはおそらくChatGPTを使用し、基本的に誰もが少しずつ使用したのでしょう。最近、DeepSeekは自社のモデルを作成するためにOpenAIのモデルを蒸留したとして非難されました。
Grokの推論モデルは、OpenAIのDeep Searchのような、AIによって強化された深い検索ツールへのxAIの回答である「Deep Search」と呼ばれるGrokアプリの新機能を支えています。推論を行うだけでなく、Deep Researchも行います。これは、チャットにWebで特定のトピックを検索し、そのトピックについて知りたい全ての情報についてトップレベルのレポートを作成するよう依頼する時のことです。
チャットはインターネットに接続し、多くの情報や情報源を検索し始め、比較や評価を行い、プレゼンテーション、研究、その他の推論を必要とする活動に使用できるように、情報を分かりやすくまとめて提供します。Deep SearchはインターネットとxAIをスキャンして情報を分析し、質問に対する要約を提供します。
月額2ドルのxAI Premium Plusの加入者が最初にGrok 3を受け取り、その他の機能は「Super Grok」と呼ばれる新しいプランの後ろにロックされています。このSuper Grokは今まで存在していませんでした。価格は月額30ドルまたは年額300ドルです。うわさ話が本当なら、Super Grokは追加の推論とDeep Searchクエリをロック解除し、無制限の画像生成を含みます。
これはChatGPTのProバージョンに似ています。20ドルのPlusと200ドルのProがあり、Proでは好きなことができます。おそらくSuper Grokも同様で、多くの機能への早期アクセスが可能となります。しかし、Grokプランの興味深い点は、このPremiumレベルがあることです。Premiumと混同しないでください。
ここで加入する際のPremiumとは異なります。ご覧のように、レアルで表示されていて、99.17レアルのPremium Plusがあります。これがそれです。このPremiumではなく、このPremium Plusです。現時点では新機能がまだ更新されていないようです。リストを見ても更新されていません。そのため、これらの新機能が表示されるまで待って、本当にこのプランなのか、本当にこれなのか確認するのが良いでしょう。
しかし基本的には彼が言ったのはそういうことです。興味深い点として、音声統合と音声会話が含まれると述べられました。音声で質問でき、音声で回答を受け取ることができます。これは現在のモデルが既に言語と会話のネイティブだからです。
私が言ったように、250万人、つまり250万人もの人々が視聴していました。そして、Inteligência Mil Grauでも記録を達成し、ほぼ500人がオンラインでした。Inteligência Mil Grauの規模からすると、これは驚異的な記録です。今まで行った最高のライブ配信でも、100人近くになると多くの人数でした。これはInteligência Mil Grauも成長していることを意味します。
今から約1週間後、Grokアプリは音声モードを獲得するとマスクは述べました。これによりGrokモデルは合成音声を持つことになります。その数週間後、Grok 3モデルはDeep Search機能とともにxAIのエンタープライズAPIに到達します。これはAPI部分が、Webの外部でGrokを使用するアプリケーション開発を行うプログラマーや開発者向けだからです。
xAIは今後数ヶ月でGrok 2をオープンソース化する計画だとマスクは述べました。実際、これは視聴者からの質問に対する回答でした。イーロン・マスクは公開すると答えましたが、その回答に確信が感じられませんでした。即興的な回答のように思えました。しかし、彼は実行すると言いました。
「次のバージョンが完全に利用可能になったとき、私たちは最新バージョンのGrokをオープンソースとして提供する、というのが一般的なアプローチです」と彼は続けました。しかし、これはGrok 2の段階で、Grok 1を公開したばかりなので、伝統とは言えません。彼らはこれを一度しか行っていないからです。
そのため、彼は「私たちの伝統はこれを行うことです」と言いますが、一度しか行っていないので伝統とは言えません。「Grok 3が成熟し安定したとき、おそらく数ヶ月後に、私たちはGrok 2をオープンソースとして提供します」とのことです。
しかし、おそらくオープンソースではなく、オープンウェイトになるでしょう。そのモデルを本当に再現できるオープンソースと、トレーニングに使用したデータを提供するオープンデータ、そして応答を行うインテリジェンスの設定であるオープンウェイトには違いがあります。
ウェイトだけを公開すると、人々はそのチャットを作成する方法を知らず、どのデータが使用されたかも知りません。したがって、これはより議論の余地のある問題です。私はオープンソースではなく、オープンウェイトになると考えています。
マスクが約2年前にGrokを発表した時、彼はそれをウォークに反対する大胆で無フィルター、そして一般的に他のAIシステムが答えないような議論の的となる質問に答える意思のあるAIとして立ち上げました。彼はその約束の一部を果たし、例えばGrokとGrok 2は、ChatGPTでは聞けないような色彩豊かな言葉を喜んで吐き出すと述べました。
ある意味で、イーロン・マスクは制限の少ないチャットを作ることを懸念している人物の一人です。一部の人々は彼を制限的だと考えていますが、彼は常にこれを制限しないように努めています。しかし、Grok 3以前のGrokモデルは政治的な話題では自己防衛的で、特定の境界線を超えませんでした。
実際、ある研究でGrokはトランスジェンダーの権利、多様性プログラム、不平等といったトピックで政治的に左寄りであることが判明しました。これは事実で、マスク自身も他の人々が彼の行動について疑問を投げかけたのと同様に、この問題について疑問を投げかけました。
しかし、マスク自身も矛盾に陥っていることがわかります。例えば、トランプに関する質問にはチャットが回答せず、バイデンに関する質問には回答しましたが、今日では誰もがマスクはトランプ支持者であることを知っています。したがって、彼自身もこれに満足していないようです。
マスクはGrokの政治的な行動をウェブ上で公開されているページというトレーニングデータのせいにし、Grokを政治的中立に近づけることを約束しました。xAIがこの目標を達成したのか、そしてその結果がどうなるのかはまだ明確ではありません。
これは大きな要約ですが、もう一つ興味深い出来事がありました。彼らは推論モデルにリアルタイムテストを行い、地球から火星に向かい、火星から地球に戻る宇宙船のアニメーションをグラフで作成するよう依頼しました。地球と火星の両方の窓を含め、これらの打ち上げが行われなければならない特定の時期を示すものでした。
この時、チャットは混乱しました。彼らが質問を始めると突然消え、話題を変え始め、他のことを話し始めました。誰もが「この連中はパワーポイントの達人だ」「パワーポイントを作っているだけだ」「これは解決しない」と言い始めました。
そして突然、彼らは「では戻って見てみましょう」と言い、コードを取り出して実行すると、完璧に素晴らしく動作しました。そこで疑問が生じました。彼らは誰も見ていない間にこれを考案し、テストを行って動作させ、その後で動作するものを再生しただけなのか、それとも本当に初めから完璧に動作したのか。
この疑問は、私たち一般の人間が自分の手でこれらのツールをテストし始め、このような質問を行うまで分からないでしょう。彼らが行った別のテストは、AIが2つのゲームを1つのゲームに組み合わせなければならないテトリスとジェダイの混合でした。
なぜ彼らはこれを行い、なぜこのようなことに取り組んでいるのでしょうか。それは、チャットが創造的であり、単にインターネットからコピーしたコードではなく、プロンプトだけから存在しないゲームを生成できることを示したかったからです。
最も興味深いことに、このゲームは素晴らしく動作しました。テトリスとジェダイの混合は非常に面白く、それは機能しました。この時点で、懐疑的だったチャットは何を言うべきか分からず、少し動揺していましたが、事実として彼らは成功を示していました。
しかし、先ほど述べたように、私たちは待って確かめる必要があります。これらのモデルを家で試して、これが実際に起こったのか、起こらなかったのか、そしてこれらのチャットの能力のレベルが本当にこのようなものなのか、数分で機能する自律的なものを作成できる質のものなのかを判断できるようになるまで待つ必要があります。
チャット中に、私は「皆さん、どう思いましたか?成功したと確信していますか?中立ですか?それとも非常にネガティブで、何も機能しないと思っていますか?」と尋ねました。視聴していたチャットの世論の反応として、基本的に好意的な人々は驚き、それが予想外のものだったと感じましたが、一部の人々はそれでも気に入らず、それが機能するかどうかについて確信が持てませんでした。
あなたはどう思いますか?これは単なる話だと思いますか?それとも今後数週間で、これを使用する人々が驚き、ChatGPTを置き去りにすると思いますか?あなたの考えを聞かせてください。このようなビデオを引き続き視聴したい場合は、メンバーになってチャンネルをサポートしてください。メンバーはWhatsAppグループとビデオの早期アクセスが可能です。以上です。いいねをお願いします。
コメント