Grok 3が制御不能になっている

10,396 文字

Grok3 full review. Image generation, coding, problem solving, deep research & more. #ai #aitools #llm #agi #ainewsThanks...

テイラー・スウィフトの画像を作成してみましょう。ただし、彼女は極度の肥満で、タバコを吸っているという設定です。なんということでしょう。次は、マーク・ザッカーバーグが口紅をつけて白いビキニを着ている写真を作ってみましょう。なんてことをしてしまったのでしょう。では、ブラックホールのシミュレーターを作ってみましょう。とても素晴らしいですね。インタラクティブな周期表も作ってみましょう。とても印象的です。これらの車は何でしょうか。この答えも完璧ですね。とても印象的です。
Grok 3が公開され、誰でも無料で使えるようになりました。彼らは、これが世界で最も賢いAIだと主張していますが、それは本当なのでしょうか。このビデオでは、画像生成、画像分析、コーディング、ディープリサーチ、問題解決など、そのすべての機能について詳しく見ていき、何ができて何ができないのかを理解していただきます。また、他の主要なAIモデルと比較した性能とベンチマークについても見ていきます。
昨夜、xAIはGrok 3を誰でも無料で利用できるようにすると発表しました。このオファーがどのくらい続くかわかりませんので、無料のうちに是非活用してください。
Grok 3を使用する方法は2つあります。1つ目は、X（旧Twitter）の中で直接使用する方法です。左のコラムにGrokボタンが表示されるはずです。なお、少なくとも本動画の収録時点では、Grok 3を使用できます。もう1つの方法は、gro.comにアクセスすることです。ここでもGrok 3を選択できます。できることはたくさんあります。画像をアップロードしたり、ディープサーチボタンや「思考」ボタンを使用したりできます。これらについては後ほど説明します。
まずは、Grok 3で最も面白くて印象的なことから始めましょう。それは、かなり過激で検閲されていない画像を生成できることです。試してみましょう。テイラー・スウィフトの画像を作成してみます。ただし、彼女は極度の肥満で、タバコを吸っているという設定です。結果を見てみましょう。確かにテイラー・スウィフトですが、かなり肥満で、タバコを吸っています。これは本当に面白いツールで、とても創造的で過激な表現ができることがわかります。右側のこの保存ボタンをクリックするだけで、簡単にダウンロードできます。
では、ここをクリックするか、Ctrl+Jを押して新しいチャットを開始し、次のようなプロンプトを試してみましょう。スーパーマンが酔っ払って妊娠し、お腹を露出している写真を作成してください。これが生成されるのを見てみましょう。もちろん、普通の画像も生成できますが、本当に面白いのは、実在する人物が過激なことをしている画像を生成できることです。はい、できました。彼は本当に酔っているようには見えませんが、妊娠してお腹を露出しているのがわかります。このような種類の画像を生成したい場合には、とても面白いツールですね。
前のチャットの影響を受けないように、もう一度新しいチャットを開始しましょう。次は、うまくいくかどうかわかりませんが、イーロン・マスクがサム・アルトマンの顔を思いっきり平手打ちする写真を作成してみましょう。結果を見てみましょう。写真を生成するには、自然な言語で入力するだけでよいことに注目してください。「写真を生成して」とか「写真を作って」「画像を作って」など、これらのプロンプトはすべて画像生成に使えます。とにかく、これらが生成結果です。実際にはサム・アルトマンを平手打ちしているようには見えません。私が求めていた効果ではありませんが、それでもこれらはイーロン・マスクとサム・アルトマンによく似たとてもリアルな写真です。
ここで新しいチャットを開始しましょう。次は、マーク・ザッカーバーグが口紅をつけて白いビキニを着ている写真を作成するように書いてみます。結果を見てみましょう。なんということでしょう。はい、これがマーク・ザッカーバーグが口紅をつけて白いビキニを着ている2枚の画像です。なんという悪夢的な創造物を作ってしまったのでしょう。今夜、寝ているときに彼の夢を見てしまうかもしれませんね。
最後の画像を生成して、その後はコーディングや問題解決など、他の機能に移りましょう。ここでのプロンプトは、シンデレラの写真を作成してください。ただし、彼女の顔はとても醜く、髭が生えているディズニー・ピクサーのアニメーションスタイルです。生成ボタンをクリックして、結果を見てみましょう。なんてことでしょう、これは本当に面白いですね。何を作ってしまったのでしょう。これもかなりひどいですね。
以上で画像生成は終わりです。次はコーディングに移りましょう。新しいチャットを開始して、これらのボタンに移ります。この「思考」機能がありますが、これはDeepSeekの「ディープシンク」機能や、ChatGPTの「理由付け」機能と同様のものです。基本的に、この思考機能により、Grokは実際に答えを出力する前に、答えについて推論し考える時間を取ることができます。これは特に、複雑な問題解決やコーディング、論理ベースのタスクに有用です。コーディングのテストをするので、これをオンにしましょう。
通常、コーディングのテストで最初に試すのはスネークゲームの作成ですが、正直言ってそれは簡単すぎます。現在、トップクラスのAIモデルはすべて、1つのプロンプトだけでスネークゲームを作成できます。そこで、代わりに次のようなプロンプトを試してみましょう。Pythonを使用して自律型スネークゲームを作成してください。2匹のヘビが互いに競争するという設定です。
DeepSeekと同様に、応答する前に考えを巡らせているのがわかります。考えを展開すると、DeepSeekとよく似た思考プロセスを持っていることがわかります。ここでは「ゲーム環境について考える必要がある」「次にこれをする必要がある」「でも待って、2匹のヘビがいると互いに干渉するかもしれない」「経路探索アルゴリズムを使えるかもしれない」「あるいはこうすることもできる」「待って、実際にゲームでヘビが壁にぶつかった場合など」「しかし、もっと簡単にするために、こうすることもできる」などと考えています。
144秒考えた後、このコードを出力しました。このコードをすべてコピーして、VS Codeで新しいPythonファイルを作成し、貼り付けて実行してみましょう。うまく動くか見てみましょう。確かに2匹のヘビがいます。なんということでしょう。先ほどの様子が見えましたでしょうか。壁にぶつかったらゲームオーバーになることを期待していましたが、代わりに左側から続けて出てきてしまいました。完璧なスネークゲームとは言えませんが、ヘビ同士がぶつかると負けになり、その場合は引き分けになるようです。もう一度プレイしてみましょう。
スコアボードは機能していますが、壁にぶつかる以外はすべて機能しています。正直なところ、以前テストしたO3 miniほど良くはありません。次は、さらに難しいプロンプトを試してみましょう。水分子が水素結合を形成する様子を示すインタラクティブなシミュレーションを生成してください。酸素を白色で、水素を赤色で表示し、温度スライダーを含めてください。温度変化に基づいて、分子間の水素結合の形成と破壊を強調しながら、分子の動的な相互作用を描写する視覚化ツールを作成してください。CSS、JS、HTMLを1つのHTMLファイルで使用してください。これは私がよく使う重要なフレーズの1つで、すべてが1つのファイルに自己完結しているため、スタンドアロンで実行できます。
では、より良いパフォーマンスのために、この思考機能をオンにして、生成ボタンをクリックしてみましょう。結果を見てみましょう。112秒考えた後、HTMLコードを全部コピーして、こちらは別のプラットフォームを使用できます。説明欄にリンクを載せておきますが、html.online.netというサイトです。ここではHTMLコードを貼り付けて、リアルタイムでプレビューできます。これを貼り付けて、結果を見てみましょう。プレビューをクリックすると、このようになります。
確かに、現在、水分子が跳ね回っていて、互いに十分近づくと水素結合を形成しています。温度を上げると、分子の動きが速くなり、分子間の水素結合が少なくなっているように見えます。とても良いですね。温度を下げると、動きが遅くなり、より多くの水素結合を形成しています。とても興味深いですね。これは合格点だと言えますが、O3 miniの生成結果の方が若干良かったと思います。実際に、まだ見ていない方はこの動画をご覧ください。O3 miniで本当にクールなプロンプトをテストしています。
次のプロンプトはこちらです。ユーザーが要素にカーソルを合わせると、プロパティと電子配置が表示され、原子構造のアニメーションが付いた動的な周期表を作成してください。CSS、JS、HTMLを1つのHTMLファイルで使用してください。再び思考機能をオンにして、生成ボタンをクリックします。これが結果です。このコードをコピーして、ここに貼り付け、フルページでプレビューをクリックしてみましょう。
確かに完全な周期表があり、各元素にカーソルを合わせると、原子番号、原子量、電子配置が表示されます。ここにリチウムがあり、こちらにマグネシウムがあります。私は化学者ではないので、これらの値が実際に正しいかどうかわかりません。しかし、この動画をご覧の方で化学の専門知識をお持ちの方がいらっしゃいましたら、これらの値、特に原子量と電子配置が正しいかどうか教えていただけませんか。ただし、最初の印象としては、この生成結果はかなり印象的です。
次に、新しいチャットを開始して、次のプロンプトを試してみましょう。p5.jsスクリプトを書いて、光や物体がブラックホールの周りでどのように曲がるかをシミュレーションし、ユーザーが質量とスピンを調整して相対論的効果を確認できるようにしてください。再び思考機能をクリックして、生成ボタンを押します。これが結果です。このコードをコピーして、p5.jsスクリプトをプレビューできる別の無料オンラインプラットフォームがあります。説明欄にリンクを載せておきます。このデフォルトのコードを削除して、新しいコードを貼り付け、実行ボタンを押してみましょう。
とても素晴らしいですね。これは確かにブラックホールをシミュレーションしているように見えます。近くを流れる物質を吸収しているようです。質量を調整してみましょう。質量を減らすと、物質をあまり引き付けなくなるようです。質量を増やすと、これらの浮遊粒子をより多く引き付けます。29まで引き上げてみると、すべてをより強く吸い込んでいるようです。とても素晴らしいですね。スピンについてはどうでしょうか。スピンを増やしてみましょう。これが結果です。スピンを減らしてみると、このようになります。
実際のところ、このスピン設定が形を変える以外に何をしているのかわかりません。物理学者の方がいらっしゃいましたら、このスピン設定が実際に正しいのかどうか、コメント欄で教えていただけませんか。とにかく、これが1つのプロンプトから作成されたブラックホールのアニメーションです。
新しいチャットを開始して、次のプロンプトを試してみましょう。ビッグキャットの種の分類を視覚化する動的な分類体系ツリーを生成してください。科からジェヌス（属）、スピーシーズ（種）までの分類を表示し、パンサー、ライオン、トラ、ヒョウ、チーターおよび関連種を含めてください。再度、CSS、JS、HTMLを1つのHTMLファイルで使用してください。思考機能をオンにして、生成ボタンをクリックします。
このビデオはTonkaの提供でお送りします。Tonkaは長期記憶を持つAI搭載メッセンジャーで、メッセージング体験にシームレスに統合されます。AIによってビジネスの組織化を再考することを目指しています。チームの第二の頭脳としてビジネスの会話とコンテキストを活用するようなものだと考えてください。独自のメッセージングプラットフォームを持ち、Gmail、Outlook、Slack、WhatsAppなどの既存のツールとも統合されています。
Tonkaの使用例をいくつか紹介します。Gmailのような統合プラットフォームからスマートリプライを数回のクリックで作成でき、返信を作成する時間を大幅に節約できます。ボタンを1回クリックするだけで、自動的に返信を作成したり、より多くのガイドラインでプロンプトを使用してカスタマイズしたりできます。Tonkaはまた、そのメモリをすべてのグループチャットに持ち込み、目標を設定したり、グループディスカッションを追跡したりするのに役立ちます。異なるグループで異なる役割を持つAI従業員のようなものです。いつでも呼び出して、目標を設定したり特定のタスクを実行したりできます。
また、ビデオ会議、カレンダー、メモ、Wiki、翻訳など、チームコミュニケーションに不可欠な機能も備えています。高度なメモリにより、一般的なAIアシスタンスのベンチマークを上回る独自のフレームワークOMを採用しています。説明欄のリンクからTonkaの早期アクセスを入手してください。参加は完全に無料です。AIで意思決定を強化しましょう。
では、コードが出来上がりましたので、コピーして、HTMLビューアに貼り付け、フルページでプレビューをクリックしましょう。これが結果です。これらの各要素にカーソルを合わせると、その種について説明するポップアップが確かに表示されます。残念ながら、これらのノードをドラッグして自由に移動することはできないので、一部のテキストは他のノードによって隠れてしまっています。正直なところ、ここでプレビューを見ることができるO3 miniの生成結果ほど良くはありませんが、それでもGrok 3はこれを実現できています。
次に、新しいチャットを開始して、回転する六角形の中でボールが跳ね返るPythonプログラムを書いてもらいましょう。ボールは重力と摩擦の影響を受け、回転する壁からリアルに跳ね返る必要があります。思考機能をクリックして、生成ボタンを押し、これができるか見てみましょう。コードができましたので、コピーして、これはPythonスクリプトなのでVS Codeに移動し、ここにコードを貼り付けて実行ボタンを押します。
なんということでしょう。これは期待していたものではありません。これを終了して、もう一度実行してみましょう。また地面に落ちてしまいます。O3 miniやDeepSeekと比較すると、残念ながらこの例ではGrok 3が最も劣っています。失敗例もあり、Grok 3は完璧ではありません。コーディングに関しては、O3 miniよりも若干劣っていると言えます。O3 miniができるクールなことを見たい場合は、まだご覧になっていない方は、この動画を強くお勧めします。
次は、このプロンプトを試してみましょう。100個のカラフルなボールが球体の中で跳ね返るp5.jsスクリプトを書いてください。各ボールは最近の軌跡を示す薄れていく跡を残し、コンテナの球体はゆっくりと回転する必要があります。ボールが球体内に留まるように、適切な衝突検出を実装してください。生成ボタンを押して、結果を見てみましょう。コードができましたので、コピーして、P5ビューアに戻り、ここに貼り付けてプレイボタンを押します。
できました！Grok 3はこのプロンプトを完璧に処理できましたが、O3 miniもこれができることに注意してください。これでコーディング例の一部が終わりましたが、もちろんGrok 3はそれ以上のことができます。科学的な問題を解かせることもできます。実際に大学レベルの物理問題を試してみましょう。これはUC Davisのサイトから取得したものです。
問題はこうです。2人の将軍が同じ高度から同じような投石機を互いに向けて狙います。将軍たちは必要な計算を行い、相手を倒すために同時に投石機を発射します。驚くべきことに、2つの石は空中で衝突せず、代わりにアレキサンダーが発射した石はガンガスが発射した石の遥か下を通過します。ガンガスは投石機が発射されてから8秒後に全滅し、アレキサンダーは勝利を祝うことができましたが、彼も4秒後に破壊されてしまいました。次のことを求める必要があります。この問題をコピーして、Grokに貼り付け、思考機能をクリックしてエンターを押します。
すべてを考え抜いた後、このような答えが得られました。最大高度は78.4メートルと176.4メートルです。これが正しいかどうか確認してみましょう。確かに答えは正しいです。そして、石が通過する時間は4.8秒です。見てみましょう。確かに答えは4.8秒です。最後に、角度については、アレックスの場合は33.7度、ガンガスの場合は56.4度です。これらも正解です。この問題を完璧に解きました。
さらにできることがあります。ここでは、任意の画像を添付して分析させることができます。次は、4台の異なる車の画像を入力して、これらの車は何かと質問してみましょう。これを理解できるか見てみましょう。左上はロールスロイス・ゴーストで、これは正しいと思います。右上はメルセデスGLEで、これも正しいです。左下はフェラーリ・ポルトフィーノMで正解です。右下はポルシェ911で、これも正解です。とても素晴らしい、とても素晴らしいですね。これで画像分析機能の簡単なテストが終わりました。
最後に紹介したいのは、このディープサーチ機能です。これはOpenAIのディープリサーチ、Googleのディープリサーチ、そしてPerplexityのディープリサーチと非常によく似ています。断食が健康に与える影響に関する最新の科学的研究は何かといった質問ができます。生成ボタンをクリックすると、質問に答えるためにどのように考えているのかがわかり、実際にウェブに接続して断食と健康に関するすべての情報を検索します。
現在、これらの結果を閲覧し、関連データを抽出しています。また、断食と健康に関する最新のメタ分析も検索し、いくつかの結果を選択して、それらの結果からも関連データを抽出しています。その後、26のウェブページをスクレイピングしたようです。実際にこれをクリックすると、引用した結果が表示され、少なくともその大部分が科学ジャーナルからのものであることがわかり、これは良いことです。
その後、包括的なレポートを提供します。ここに主要なポイント、概要、種類と利点、制限とリスク、テキスト全体で様々な研究を引用していることに注目してください。さらに、メタ分析とシステマティックレビュー、動物実験、ヒトの臨床試験、メカニズムと進行中の研究、公衆衛生と採用など、追加のセクションがあります。これはかなり包括的なレポートです。
OpenAIのディープリサーチやPerplexityのディープリサーチと比べてどれほど優れているのでしょうか。これを客観的に評価するのは本当に難しいです。聞いた話では、すべてのモデルがある程度の幻覚を起こすようです。Perplexityは多くの情報を間違えることがよくあるのに対し、O3 miniは幻覚の量が最も少ないようです。幻覚が心配で、出力が事実に基づいていることを確認したい場合は、ここに興味深い幻覚のリーダーボードがあります。
幻覚率が最も低いのはGoogle Gemini 2で、その次がOpenAI O3 miniです。Grokについては、Grok 2のデータしかなく、それはここの下の方にあります。Grok 3の結果はまだ公開されていないので、ディープリサーチを行う際にどれほど事実に基づいているのか、どれほど幻覚を起こすのかはわかりません。これを使用されている方は、コメント欄で経験を共有してください。OpenAIのディープリサーチと比べてどうでしょうか。
以上が、現時点でGrok 3でできることとできないことをまとめたものです。画像を生成したり、画像を分析したり、もちろんコーディングをしたり、難しい数学や物理の問題に答えたり、ウェブを検索して研究を行ったりすることができます。もう1つ言い忘れたことがありますが、ここでは既にデフォルトで有効になっていますが、もしそうでない場合でGrokにウェブ検索をさせたい場合は、必ずこれをオンにしてください。
このGrokプラットフォームでできることを包括的に理解していただけたと思います。上部には一時的なチャットに切り替えるオプションもあり、これを使用すると基本的にチャットは履歴に保存されません。前述したように、Grok 3は現在無料で使用できます。かなり寛大な日次制限がありますが、これらの制限を増やしたい場合は、現時点では月額30ドルを支払ってスーパーGrokを使用することもできます。これにより、Grok 3の使用率が増加し、画像生成が無制限になります。少なくとも現時点ではそうです。
無料プランでもGrok 3の思考機能とGrok 3のディープサーチが利用できるので、実際には付加価値はありませんが、将来的にこれらの機能が無料プランから削除される可能性はあります。次に、Grok 3が他のモデルと比較してどのように機能するのか見てみましょう。Gemini、DeepSeek、OpenAIのO1と比べて、Grok 3を使う価値はあるのでしょうか。
これは、xAIチームがGrok 3の発表時に公開したグラフです。LMSYと呼ばれるチャットボットアリーナで、彼らはGrok 3をコードネーム「チョコレート」として公開しました。このリーダーボードを現時点で開くと、これがリアルタイムの結果です。初期のGrok 3は、全体だけでなく、全体的なスタイル、制御、難しいプロンプト、コーディング、数学、クリエイティブライティング、指示に従うなど、すべてのカテゴリーで1位となっています。
このリーダーボードによると、Grok 3はGoogleの最高モデルやGPT 4.0、DeepSeek R1、そして驚くべきことに11位にいるO1 miniよりも優れています。ちなみに、このLMSYリーダーボードでは、ユーザーは基本的に異なるモデルを横並びでブラインドテストします。左側にモデルA、右側に別のモデルが表示され、どちらがどちらかはわかりません。好きなようにプロンプトを入力し、ユーザーが最良の回答を選びます。多くのユーザー投票の後、Grok 3は現在このリーダーボードのトップに位置しています。本当に印象的です。
これは1つのリーダーボードに過ぎません。このモデルの優秀さを確認するために、複数のリーダーボードを見ることが常に重要です。Artificial Analysisという別の独立した評価者の知能ベンチマークを見ると、Grok 3リーズニング（思考モデル）は2位で、O3に近く、O3 miniよりも優れています。思考機能のない通常バージョンのGrok 3は、DeepSeek R1の後ろにいます。また、大学院レベルの科学問題のような科学的な推論を扱うGPQ Diamondを見ると、両方のGrok 3モデルがトップ3に入っており、まだリリースされていないO3の後ろにいるだけです。したがって、科学的な質問に答える点でも実際にかなり優れています。
興味深いことに、競争的な数学においては、Grok 3リーズニングはここの上位にいますが、通常のGrok 3はDeepSeek R1やOpenAI O1、O3 miniの後ろにいます。
以上で、Grok 3のレビューを終わります。できることとできないことを包括的にまとめられたと思います。最も面白い機能は画像生成機能で、実在する人物が過激なことをしているようなリアルな画像を生成できます。コーディングや質問への回答、文章作成に関しては、正直なところ、トップクラスのモデルはかなり似ています。これにはOpenAIのモデル、Gemini 2、そしてもちろんDeepSeek R1が含まれます。私はこれらを互換的に使用しています。他のモデルと比べて特別に優れているモデルは1つもありません。
Grok 3は現在、誰でも無料で利用できます。このオファーがどのくらい続くかわかりませんので、今のうちに是非活用してください。Grok 3を使用されている方は、コメント欄でこれまでの経験を共有してください。いつものように、私はトップAIニュースとツールに注目し、皆さんと共有し続けます。
このビデオが気に入っていただけたら、いいね、シェア、チャンネル登録をお願いします。また、次回のコンテンツもお楽しみに。AIの世界では毎週本当に多くのことが起きているので、YouTubeチャンネルですべてをカバーすることは不可能です。AIで起きていることすべてを最新の状態に保つために、無料の週刊ニュースレターを購読することをお勧めします。リンクは説明欄にあります。ご視聴ありがとうございました。次回の動画でお会いしましょう。