Grok 3の3つの論理テスト: AIの失敗

4,619 文字

3 Logic TESTS of GROK 3 - THINK mode (hardest problems in math)

Grok 3 is a new VLM that I tested on my three standard logic causal reasoning tests. All reasoning models of the last 11...

こんにちはコミュニティの皆さん。今日は戻ってきていただき嬉しく思います。今日はGrok 3ベータ版で3つの論理テストを実施していきましょう。いつものようにテストを行っていきます。ここに私たちの美しいテストを貼り付けて、ベータ版の詳細についてもみていきましょう。
Grok 3は見事に議論を展開しています。これは7×3のマトリックス構造で、いくつかの論理的な手がかりから導き出されるべきものです。ご覧の通りGrok 3はこれらすべてを処理しており、これはリアルタイムで21秒間考えています。
手がかり13、手がかり11、はい、31秒間考えています。もしかしたらもっと関連性が見つけられるかもしれません。38秒経過、40秒に。さて、今が面白くなってきました。50秒に近づいています。絞り込んでいますね、これは良いです。
何か残っている論理的なパーツがありますね。これはあなたにとって問題ですね。確認してみましょう。でも待ってください。別の方法で…でも何かがうまくいかなかったようです。もう一度試してみてください。
最初のラウンドでは解決策を見つけることができませんでしたが、気にしないでください。これは論理パズル401です。
さて、また生放送に戻ってきました。私の美しいコーヒーカップの隣で、窓から太陽が差し込んでいて、素晴らしい一日になりそうです。Grokで最初の論理テストを行ってみましょう。今すぐ解決策を見つけられるか見てみましょう。32秒間考えています。
追加で…これらのいくつかをリンクできるかもしれません。さあ、待ってください。もう一度フィールドを見てみましょう。もしかしたらもっと関連性が見つけられるかもしれません。いくつかのフィールドはユニークです。あ、何かがうまくいかなかったようです。もう一度試してみましょう。
問題ありません。もう一度やってみましょう。手がかりが多いので、すべての関連性を理解するために慎重に組み立てる必要があります。
これは3回目の試行です。もし失敗から学んでいれば、今回は解決策を見つけられるはずです。それほど難しくないはずです。特別なプロンプトを使用してGPT-4 Omniがこれを解決できたことを覚えていますよね。
45秒経過しましたが何も…システムはここにはありません。はい、私たちは強く進んでいきます。1分に近づいています。確認してみましょう。手がかり14があり、15個の手がかりがあります。もう1つだけで完了です。1分8秒です。
実際、この時点ではまだすべての割り当てを知らないので、覚えておく必要があります。手がかり15で完了です。まとめてみましょう。
1分30秒に近づいています。3回目の試行で1分33秒です。実際に、私はすでに他のリンクもいくつか記録しました。もしかしたら理解したかもしれません。アーティファクトを見てみましょう。
実際にはまだ割り当てられていません。未知です。いいえ、できるはずです。待ってください。可能な領域の中で…確認…いいえ、待ってください。さらにメモしましょう。
もう一度試してみましょう。手がかり3から2分2秒が経過しています。アーティファクトが何を取っているか見てみましょう。でも待ってください。実際に…待ってください。絞り込むことができるかもしれません。手がかりからそれらのHを見ることができるかもしれません。
本当に頑張っています。2分20秒が経過しています。フィールドを馴染みのあるものに割り当て始めることができます。2分30秒です。これが時間の閾値でしょうか。いいえ、実際にこのフィールドはユニークなので…
おや、追加のリソースを得ました。あるいはループに入ったのでしょうか。どちらだと思いますか？ほとんど読めませんが、何かがうまくいかなかったようです。3分が限界で、このテストを実行することに同意したと思います。
気にしないでください、Grok betaさん。あなたはまだベータ版です。一番賢いわけではないかもしれません。では、新しいチャットを始めましょう。
Grok 3ベータ版で、ここで深い思考モードに入ります。シンプルなタスクがあります。いいえ、私たちはいつもシンプルなタスクを持っています。
高層ビルに閉じ込められていて、30階に行きたいのですが、エレベーターにはA、B、C、D、Eのボタンしかありません。各ボタンは特別な機能を持っています。チャレンジは、現在の階から30階に到達するための最短のボタン押下シーケンスを決定することです。
ただし、2つのトラップフロアがあります。13階に到達すると、ボタンDしか押せません。ボタンDには特別な機能があります。また、22階がトラップフロアで、ここに着くと10階に戻されて、最初からやり直しになります。
深い思考モードでこれを行ってみましょう。Grokさん、あなたも私も6ステップの解決策があることを知っています。Grok 3が何を考え出すか見てみましょう。
ボタンAの理解を始めています。数学的な公式を見つけようとしています。これは良いですね。N+4、ボタンC、ボタンD、ボタンE。実際、問題では移動した階数を2倍にすると…これはどういう意味でしょうか。確認してみましょう。
はい、それは理にかなっています。AIが自分自身に同意するのは常に良いアイデアです。はい、必要です…10階に戻ります。理解しました。私が何をしたいのか正確に理解していませんね。押せません…今や私の指示を理解しています。
まだ私の入力を理解するレベルにいます。もしボタンを押すと…何かがうまくいかなかったようです。もう一度試してみましょう。もう一度生成し直すことに問題はありません。同じトピックです。何も変更していません。
はい、そこでも…モジュロ3、とても良いですね。はい、これは良さそうです。見てください、すぐに理解しました。最初の実行は失敗しましたが、気にしません。2回目のチャンスを与えましょう。
システムが何が起こっているのか理解したのが分かりますね。異なるボタンを押した場合のタイムシリーズを構築しようとしています。いいえ、数学的な公式ではありません。今は一歩一歩進んでいます。
シーケンスを試してみています。9回の押下まで減りました。何かがうまくいかなかったようです。もう一度試してみましょう。3回目のチャンスを与えています。
考えていますね。問題を理解することから始めましょう。これは良いです。地上階にいて、エレベーターを使って30階まで上がる必要があります。5つのボタンがあり、各ボタンにはエレベーターを動かす特定のルールがあります。いくつかのトラップフロアがあります。
タスクを理解しました。まず、各ボタンのルールを明確にする必要があります。いくつかは少し…はい、分かっています。待ってください。これは少し混乱します。n階にいるときにボタンAを押すと、n+1階に移動します。つまり、n+1階、n+1、2n+1に行きます。5で割り切れる場合はnの半分に戻されますが、整数でなくても構いません。
そこにたどり着こうとしています。気にしないでください。時間をかけてください。409秒が経過しています。はい、2つのテストが失敗したと言えると思います。どう思いますか？
これは私が他のすべてのモデルで行った標準テストです。この特定のテストについて5、6つの異なるビデオがあります。これは両方のテストが完全に失敗した最初のケースです。これは両方のテストに失敗した最初のモデルですが、Grokを助けたいと思います。
そこで、私が持っている最も簡単な論理テストを選びました。これは1年以上前のスタンフォードのテストだと思います。GPT-4でこれを使用しました。ルールのセットがあり、これらは人工的な単語です。未見のデータであるべきだからです。
いくつかのルールがあり、2つの事実があり、そして単純なクエリがあります。この人がこの特定の特性を持っているかどうかです。深い思考モードを有効にしました。私の論理テストの中で最も簡単なものでここで運があるか見てみましょう。
はい、ルールと事実のセットがあり、この特定のケースを理解する必要があります。この人が特定の特性を持っているかどうか。事実、はい、これは正しいです。クエリは、アリスがVかどうかです。指示を理解しました。
明確にするために、もう一度ルールを列挙してみましょう。これらは従うべきルールだということを本当に理解しています。しかし、これはルールに従う論理の最も単純なケースです。ニューラルネットワークの領域には全く近づいていません。これは単純なルールベースの論理です。
はい、38秒間考えています。17個のルール、これは正しいです。アリスがWかどうかを見つける必要があります。では、論理的な推論を始めましょう。ルール7…待ってください。実際にルールは一般的で、特定的ではありません。
LisがAでLisがBと言うルールを想定するのは安全です。何？はい…参照点…はい、これから何を推論できるでしょうか。はい、今は動き出しました。これは私たちが探していたフローです。Grok、できるはずです。
はい、まだ分かりません。実際にもっと見つけることができます。彼女がこの特定の特性を持っているかどうかを決定しようとしています。これが起こっているかどうか分かりません。確認してみましょう。はい、ルール4は…確認してみましょう。
はい、ほとんど単純明快に見えます。私はシンプルな人間です。これは素晴らしいです。1分50秒が近づいています。Grok 3の2分間の推論です。すでに似ていますが、待ってください。私の早期の推論では…待ってください。私の以前のチェーンは正しいです。
したがって、答えは真です。待ってください…since、therefore、alternatively、perhaps…事実を見つけてみましょう。2分10秒です。最も簡単なテストで。
ここにあります。興味深いことに、論理は消えてしまいました。今は答えだけを持っています。事実から始めましょう。与えられた事実…これは正しいです。次のような関連するルールを使用します。
17個のうち、7個だけが選択されています。他のルールは存在しますが、事実に基づいて適用可能なものに焦点を当てます。これは興味深いですね。このケースに有効な7つのルールだけを受け入れていますが、何かがうまくいかなかったようです。もう一度試してみましょう。
24時間以内に10回のGrok思考質問の制限に達しました。プレミアムにサインアップしてください。24時間で10回のGrok質問、これは寛大ですね。ありがとうGrok、これは素晴らしいです。
しかし、最も簡単なものから最も高度なものまで、3つすべての論理テストに失敗したことをお伝えしなければなりません。これは私個人が因果論理タスクや科学的な質問にこのシステムを使用するとは言えないものです。
あなたはどう思いますか？あなたの経験はどうですか？このビデオの説明欄にコメントを残してください。そして、もしよければチャンネル登録もお願いします。なぜなら、確実に朝もテストを続けるからです。