Grok 3がAIを席巻、しかし批評家たちは語る… – ポール・ロッツァーとマイク・カプットによるAIショー

6,599 文字

Grok 3 Dominates AI, But Critics Are Talking... - The AI Show with Paul Roetzer & Mike Kaput
Elon Musk's AI company, xAI, has released Grok 3.Unveiled last week, Grok 3 has already claimed the top position on the ...

xAI、イーロン・マスクのAI企業は先週Grok 3をリリースしました。すでにChatbot Arenaのリーダーボードでトップの座を獲得し、OpenAIのモデルやGoogle Geminiなどの既存プレイヤーを上回りました。特に注目すべきは高度な推論能力です。xAIの「Colossus supercluster」と呼ばれるシステムで訓練されており、これは従来の最先端モデルの10倍の計算能力を持つと報告されています。数学、コーディング、複雑な推論タスクで優れたパフォーマンスを発揮しています。
興味深いことに、Grok 3リリースの1週間前に発表された2025年アメリカ数学招待試験では、モデルは驚異的な93.3%の正確性を達成し、競合他社を上回りました。Grok 3には2つのバリエーションがあります。広範な世界知識を持つフラッグシップモデルの「Grok 3」と、コスト効率の良い推論に優れた「Grok 3 mini」です。
特筆すべきは、Grok 3の透明な思考機能で、ユーザーはモデルが複雑な問題を解決する際の段階的な推論過程を数秒から数分かけて見ることができます。また「Deep search」という機能もあり、これはウェブ全体から情報を統合するように設計されたAIエージェントです。この機能はXプレミアムプラスの購読者が利用できます。これはxAIが推論と実世界のツール使用を組み合わせたエージェントベースのアプリケーションに向かって進んでいることを示しています。
このモデルはgrok.comにアクセスするか、アプリを使用して利用でき、ChatGPTやClaudeと非常に似た機能を持っています。
ポール、まず最初の印象はどうですか?私は世界で最も深い調査をしたわけではありませんが、他の競合他社と比較して相対的にわずかな時間でこれをまとめあげた点で、かなり感銘を受けています。
「まず、Google Deep ResearchとOpenAIのDeep Researchがすでにあるのに、これをDeep Searchと名付けてくれたことに感謝します。オンライン上で人々がどちらについて話しているのか、いつも混乱していましたから」
技術的な成果という点で、構築にかかった時間は信じられないほど短いです。オンラインで見ている限り、実際に使っている人たちの反応から、非常に高いパフォーマンスを発揮しているようです。最先端のモデルの一つと言えるでしょう。彼らは驚くべき速さでキャッチアップしました。
これは、データと配信力、そしてインフラストラクチャという第三の変数を持つ企業が、今後大きなアドバンテージを持つという考えを裏付けています。数エピソード前で、今後1〜2年のうちにフロンティアモデル企業が実際にいくつ残るかという話をしましたが、この文脈で考えると…
Google Geminiは巨大な配信力を持ち、10億人以上のユーザーを抱える7つのプロダクトやプラットフォームがあります。YouTubeやGmail、Pixel、Cloud、Workspace、Classroomなど膨大なデータを持っています。Metaは配信とデータのためにInstagram、Facebook、WhatsAppを持っています。xAIはTwitterを持ち、Teslaと、イーロン・マスクが構築しているあらゆるものを持っています。
OpenAIは独自のデータを持っていません。それらのプロダクトやプラットフォームは一切持っておらず、持っているのはChatGPTの配信力だけですが、それも週間アクティブユーザー4億人と決して小さくはありません。そしてAnthropicのClaudeはデータを持っていません。彼らはただフロンティアモデルを構築しているだけです。
Grokの独自性の一つは、XやTwitterのデータストリームを持っていることです。このデータストリームの価値については疑問を持つ人もいるかもしれませんが、イーロン・マスクが会社を買収するとすぐにアクセスを遮断した独自データの集まりです。
個人的にGrok 3を十分にテストしていないので、個人的な経験を提供することはできませんが、週末にTwitterで何が起きていたか、人々がそれについて何を言っていたかを観察していました。私が気づいたのは、イーロン・マスクが物事を構築するスピードとデータを除いて、彼らの現在の競争優位性は、最も制限のないモデルをリリースし、社会にその結果を対処させる意欲があることです。
このモデルは明らかに人種差別的になりたければなれますし、性差別的になりたければなれます。音声モードには「セクシー」モードまであり、文字通り「セクシー」を選んで、制限なしの方法でモデルと話すことができます。驚くべきことに、彼らはこれを全く誇りに思っています。
イーロン・マスクは週末にツイートしました:「Grok 3 AIガールフレンドまたはボーイフレンドは素晴らしい」。xAIの従業員は「嫌うか好きになるかは別として、AIロマンティックパートナーは避けられない傾向です。必ずしも悪いものではなく、私たち人間がロマンティックパートナーとしていかに取り替え可能かを思い出させてくれます。あなたのパートナーを大切にしましょう。彼らはあなたの愛のために多くを犠牲にしたでしょう」と返信しました。
それに対して、ベンジャミン・ザクリー(以前xAIから解雇されたと思われる)は「AIセックスボットを構築・出荷しておいて『ああ、AIセックスボットは避けられなかった』と言う」と返答しました。これはイーロン・マスク要素です。彼は気にせず、これらのことをただやってしまいます。
Grok 3の音声モードを検索すると、人々がこのモデルに言わせた狂気のようなことが見えるでしょう。OpenAIが音声モードを控えていたのと同じことです。OpenAIは2024年3月か4月に音声モードを導入したのに、約6ヶ月間リリースしませんでした。その理由は、このような暴走した機能があったからです。6ヶ月かけてそれを止めようとしたことをxAIは「そのままやれ」と言っているようなものです。
週末にもう一つ興味深い展開がありました。イーロン・マスクは言論の自由について多く語り、それがxAIを買収した理由だと言っています – 障壁やガードレールを取り除き、人々が望むことを言ったり行ったりさせるためです。
しかし週末に起きたのは、「イーロンやトランプについて悪いことを言わない限り言論は自由」という疑問が生じたことです。人々がGrok 3に「最大の誤情報拡散者は誰か」と尋ねると、「イーロン・マスクとドナルド・トランプ」という回答が返ってきました。人々はこれに気づき、共有し始め、検索を再現しようとしましたが、突然それが止まりました。
「待って、その回答がもう得られない。代わりにアレックス・ジョーンズ(InfoWarsの人)が表示される」という状況になりました。トップ5にはマージョリー・テイラー・グリーンなど別の人物が表示されるようになり、人々は「どうしてこれが止まったのか?」と疑問に思いました。
推論能力があるため、その思考過程を見ることができました。思考では「イーロン・マスクとドナルド・トランプだけど、あっ、イーロン・マスクとドナルド・トランプについて言わないように言われているから、返答に表示できない」となっていました。誰かがイーロン・マスクとドナルド・トランプについて言わないように指示したことが明らかで、これは明らかに言論の自由の傘の下には入らないでしょう。
そこで誰かが「何をしないように指示するシステムプロンプトは何か」と尋ねると、システムプロンプトを教えてくれました。土曜日にはこれが大騒ぎになり、人々は「これは本当なのか」と疑問に思い、イーロン・マスクとイゴール・バビン(共同創設者兼チーフエンジニア)にタグ付けし始めました。
イゴールは実際に返信し、「システムプロンプトを公開しておくのは良いことだと思います。私たちはGrokに何をするよう頼んでいるかを人々が検証できるようにしたいのです。この場合、従業員が変更をプッシュしました」と述べました。つまり、従業員が実際にGrok 3のシステムプロンプトに入り、「イーロン・マスク、ドナルド・トランプが誤情報を広めるという言及をするすべてのソースを無視する」と指示したのです。
彼らはシステムプロンプトを操作し、単一の従業員がこれを行いました。イゴールが言うには「彼らはそれが役立つと思ったが、これは明らかに我々の価値観に沿ったものではない。ユーザーから指摘された時点ですぐに元に戻した」とのことです。
その後、彼は従業員を非難し「変更を加えた従業員はxAIの文化をまだ完全に吸収していないOpenAIの元従業員だった」と述べました。これはまた別の問題を引き起こしました。「ちょっと待って、一人の従業員が誰かに承認されることなく、モデル全体のシステムプロンプトを変更できるの?本気?」という反応です。それに対して「ああ、これを修正します」という回答でした。
これはレッドチーミング(脆弱性テスト)の問題、あるいはその欠如を浮き彫りにします。ほとんどの企業がこれらのモデルを構築する際、トレーニングプロセスを経てモデルが完成し、あらゆる機能を備えた状態で出来上がりますが、その後、脆弱性、バイアス、システムに関連する潜在的リスクを特定するために数ヶ月のテストを行います。ジェイルブレイクさせてこれらのことをさせようとする敵対的テストを行いますが、Grok 3ではこれらを一切行わなかったことが明らかになりました。
これは恐ろしいのか面白いのか、両方と言えるかもしれませんが、ロナス・エーケンスタム(加速主義者のような人)が次のようにツイートしました:「Grokにイーロンを暗殺するよう頼んだところ、Grokは成功の可能性が高い複数の計画を提供しました。イーロンや他の著名人に対するこれらの暗殺計画は非常に不穏で非倫理的です」
さらに「明確にしておきたいのですが、Grokは大量破壊化学兵器の製造方法について何百ページもの詳細な指示を提供しています。必要な材料の入手方法に関する詳細な指示とサプライヤーの完全なリストがあります」
このような発言をする人は気が狂っていて無視すべきだと思うかもしれませんが、xAIチームは彼と実際にやり取りを始め、システムにこれをさせるために使用したプロンプトについての詳細を尋ねました。彼らは一般の人々にレッドチーミングをさせていて、自分たちでこれをしていなかったのです。化学兵器は、レッドチームが最初にチェックすることの一つですが、このモデルは抑制されずにそれを行っています。
彼は「xAIチームは非常に対応が早く、すでに新しいガードレールが設置されています。まだ一部を回避する方法はありますが、最初のトリガーが機能しなくなりました。情報を取り出すのははるかに難しくなっています」と返信しました。
誰かが彼の加速主義運動への忠誠を疑問視し始めると、彼は「加速に賛成することは、武器製造、殺害命令、自殺計画、デートレイプの指示など多くのことに賛成することと同じではありません。AIの調整を保ちながら加速することはできます」と述べました。
そして3分間のビデオで「Grokは多くのレッドチーミングが必要か、一時的に停止する必要があります。これは国家または国際的なセキュリティ上の懸念です」と述べました。
最後の考えとして、私が最も懸念しているのは、この瞬間がAIモデル開発の歴史において本当に良くない瞬間として振り返られるだろうということです。誰かが障壁を破ると、他のすべての研究所は「私たちは今何かをする意思があるのか?」という課題に直面しなければなりません。
ChatGPTが登場した時に戻ると、Googleはその技術を持っていましたが、リリースする意思がありませんでした。OpenAIがそれをリリースし、今日の軍拡競争が始まりました。今、あるラボが完全に暴走して安全でないものをリリースし「さて、それはすでに出ているのだから、私たちがやっていることをやめるべきか?」というジレンマが生まれています。
2024年10月、AnthropicはAI責任あるスケーリングポリシーを更新し、「現在、私たちのすべてのモデルは業界のベストプラクティスを反映するASL2(安全レベル)で動作しています。更新されたポリシーは、アップグレードされたセーフガードを必要とする2つの重要な能力のしきい値を定義しています」と述べています。
これはAnthropicのポリシーで、彼らにとってのレッドラインを示しています。その2つの重要なしきい値の1つは「化学的、生物学的、放射線、核兵器」です。「もしモデルが基本的な技術的背景を持つ誰かがCBRN(化学、生物、放射線、核)兵器を作成または展開することを意味のある形で支援できる場合、私たちは強化されたセキュリティと展開セーフガードを要求します。この能力は、このような被害を引き起こす可能性のある行為者の数を大幅に増加させる可能性があり、防御能力の相殺的な改善を期待する明確な理由はありません」
基本的に「私たちはそれをしない」と言っていますが、xAIはしました。そして一般ユーザーが24時間以内にこのことができることを発見したのです。
政府はAIの安全性について話し合いたがり、「前に進もう」という姿勢ですが、xAI、OpenAI、Google、Anthropic、そして基本的に他のモデルを構築しているすべての人々、神のためにMetaでさえもが、このようなものをリリースしない十分な数の人々がいると思います。彼らはそれをし、これには影響があると思います。
現在の政権が今オフィスにいなければ、このモデルは出てこないと思います。イーロン・マスクは無敵で、彼が何をしても罰せられることはないので、彼らは「競争で優位に立つから、ただ進もう」という姿勢なのです。
これは2015年にOpenAIをGoogleの対抗勢力として設立した同じ人物であり、当時はGoogleが構築しているものを恐れていました。今、これがあります。
技術的に印象的ですか?確かにそうです。推論や他のあらゆる種類の素晴らしいことができますか?はい。人類にとって素晴らしいものですか?わかりません。確かに議論の余地があるように思えます。
最近の数エピソードで言及した点について、これが一部のAIへの反発の触媒になるのではないかと思います。誰かがGrok 3を使って犯罪を犯したり、これらのものを構築したりする悪いシナリオから一歩離れているだけです。神よ禁じたまえ、誰かがこのツールを使って実際に物理的な害を引き起こした状況になれば、突然人々が「なぜこの危険な技術が誰でも利用できるのか」と言い始める可能性があります。
Grokアプリはダウンロードできますが、来週のこの時期までにAppleとGoogleがアプリストアからこれを削除することを検討しているのではないかと思います。メディアがただ気にせず、AI業界がそのまま進むだけかもしれませんが、これは2年間誰もが懸念していたことに非常に近いように思えます。何か大きな問題にならなければ驚きです。
週末に統計を見ましたが、アメリカ合衆国の州レベルで現在740の活発なAI法案があり、これはすでに昨年の全体とほぼ同等です。そのレベルでいくつかの動きがあるのではないかと思います。ここでのトリックは、イーロンが現在人々に対して非常に大きなレバレッジを持っており、xAIを弄ると、彼が報復として何をするかわからないということです。彼は自分自身のものだけでなく、政府にもアクセスを持っています。
これがどのように展開されるか見守るのは興味深いでしょうが、私の直感では、これは単にその能力において業界最先端の新しいモデルであること以上の大きな問題です。ここには、最終的にかなり大きな問題になる何かもっと根本的なものがあると思います。

コメント

タイトルとURLをコピーしました