予想外:GPT-4.5 vs SONNET 3.7 vs R1 推論力

3,478 文字

UNexpected: GPT-4.5 vs SONNET 3.7 vs R1 Reasoning
New video w/ some extreme logic tests on the new GPT-4.5 by OPENai.Compare GPT-4.5 (the most expensive AI model) to Deep...

こんにちは皆さん。今日はSonnetをテストしましょう。GPT-4.5を美しい文章で試すのではなく、今日は純粋な論理テストをします。ご存知のとおり、私たちにはチャットボットアリーナがあり、そこで対決することになります。以前03 mini highに使ったテストを使います。
さあ、アリーナでライブです。左側にモデルA、右側にモデルBがあります。6分20秒後に結果が出始めるでしょう。はい、ここでライブで6分25秒経過しました。何か起きていますね。モデルBが何かしています。モデルAはまだ思考中です。いや、両方のモデルが思考中です。画面を下にスクロールする必要があります。
ステップ1、要素のリストを特定する、正解です。手がかりを整理する、素晴らしい。15の手がかり、推論ステップ、現在割り当て中、素晴らしい。論理的に一致している、確認中、そして最終回答が出ました。
これは素晴らしいですね。右側のモデルBでは、提供されたすべての手がかりに対して、すでに最終回答が出ています。そして、ここには美しいステップバイステップの推論、割り当て、検証があります。
さて、一方のモデルはGPT-4.5で、もう一方はDeep seekのR1です。どちらがどのモデルか当てられますか?これらの手がかりを見てください。私のテストに馴染みがない方のために説明すると、これらは私が使用する15の手がかりです。モデルAをこれらの15の手がかりと照らし合わせてチェックしてみてください。
私がしたことをお伝えしますと、純粋な論理的割り当てにおいて最も簡単なことは、自分が行ったことを検証し、同じ結果を見つけたことを示すことです。20秒後に少し先の未来に進み、両方のモデルからの結果を見てみましょう。
どちらかのモデルが何か発見したか見てみましょう。モデルBでは、アーティファクトフィールドや割り当てに矛盾がなく、15の手がかりをすべて満たしています。モデルAでは、ジャックは緑、そして待って…注意が必要です。手がかり6にエラーがあると識別されています。これを素早くテストしましょう。再度ジャックは緑、50ポンド税、素晴らしいです。
これで両方の結果が出ました。見てください。Avalonはクリスタルオブザフェニックス、ブレンドアはサラマンダー、ケレスティアはイリュージョン、キマドールはミラーオブトゥルース、ユニコーンはウェブオブシャドウズ、グリフィンはウェブオブシャドウズ、ペガサスは…ああ、それらは異なります。リングオブレルムズ…リングオブレルムズ、ヒーリング、グリフィン、エレメンタル、グリフィン、いいえ、これらは交換されています。
これは興味深いですね。検証の要約として、不正確な記述がありましたが、今は2つの最終バージョンがあります。どちらがGPT-4.5でどちらがR1だと思いますか?
実は同点です。なぜなら両方とも正解だからです。GPT-4.5は正解し、Deep seek R1も正解しました。この問題には複数の解決策があるのです。素晴らしいと思いませんか?
残っているのはGrok 3とSonnet 3.7の対決です。ご覧のように、Deep seek R1とClaude 3 Sonnetが非同期ですが、これはコーディング演習なので、論理テストは完全に異なるかもしれません。
これは再び同じテストです。私が11ヶ月間このテストで試してきた全く同じテストです。15の手がかりがあり、これは指示です。左側にGrok 3、右側に新しいSonnet 3.7があります。
ご覧のとおり、Grok 3は非同期モデルであり、3.7も非同期モデルです。すぐに結果が返ってきます。Claude Sonnetは右側で思考中、素晴らしい。Grok 3は左側で、ああ、速いですね。これはリアルタイムで、最初の解決策が出てきました。
Grok 3はまだ思考中で、Claude 3.7 Sonnetはパズルに提供された15の手がかりをすべて満たす解決策を提示しています。最終割り当てとして、Grokはさらに一歩進んで、すべてが完璧であることを確認するために解決策を検証しています。すべての15の解決策を満たしています。素晴らしいと思いませんか?
両方のシステムが正しいと思いますか、それとも内在的な問題があると思いますか?結果を表で見やすくしましょう。これで1対1で比較できます。
ここにあります。見てください、それらは同一ですか?Grok 3とClaude 3.7 Sonnetの間に違いはありますか?Avalonはミラーオブトゥルース、ドラゴンはミラーオブトゥルース、グリフィンは…ああ、違いがあります。そして、ほぼ同一だが完全に同じではない行があります。
タワーオブシークレッツ、ユニコーン、シャドウズ、ヒーリング…また逸脱があります。フェイランド、リングオブレルムズ…ああ、いいえ、何か他のものがあります。これは同一ではありません。
では、どうしましょうか?何を信じますか?手がかりを見つけました。あなたも手がかりを見つけましたか?彼らが自分自身を修正しているのを見てください。素晴らしいですね。
Grok 3は非同期として本当に良いですね、すべてを示してくれます。最初から始めましょう。私の指示は、Avalonの結果をチェックすることでした。Avalonは両方が正しく取得できなかったものでした。手がかり5に違反している、素晴らしい。それから再び問題が不正確だ、素晴らしい。ステップ3、ステップ5などでミスを見つけました。素晴らしい、Avalonを修正しました。
同じことがClaude 3.7でも起こりました。「これをレビューします、私の解決策にミスがありました、修正します」と言っています。素晴らしい。両方のシステムが「間違っていた、自分自身を修正しました」と言っていて、これは素晴らしいことです。
私はシステムに続けるよう指示しました。Grok 3は「これを修正し、再度検証しました」と言い、Claude 3.7 Sonnetも「これをダブルチェックしました」と言っています。修正されたエントリがあります。素晴らしい。
ああ、別の問題が発生しています。Grokは思考中…まだ思考中…手がかり3…これは予想より時間がかかっています。Grok 3は発見した修正と格闘しています。私は少し手助けしました。ステップ5、最終検証、そしてここにGrok 3による最終解決策があります。
これは素晴らしいです。最終結果を表で示して、1対1で比較してみましょう。素晴らしいですね。両方のシステムが成功したか見てみましょう。Grok 3とClaude 3.7 Sonnet、Grok 3を手がかりと比較してください。時間をかけて、正しくないものがあるか見てください。
ウィザードオブグリフィン、ヒーリングマジック、すべてに対して検証…これは興味深いですね。5は間違っていました。もう一度見てみましょう。もう気づきましたか?いいえ?大丈夫です、続けましょう。
再度ここで見られます。修正…素晴らしい。「元のクエリにはいくつの手がかりがありますか?」と尋ねると、Grok 3は「元のクエリには正確に15の手がかりがあります」と答えます。Grok 3の計算には何個の手がかりがありますか?正確に14です。
Grok 3は手がかりの1つが複雑すぎると判断し、指示から1つの手がかりを削除したのです。次にClaude 3.7を見てみましょう。すべての手がかりをチェックすると、すぐに「待って、完璧でないものがありますか?」と気づきます。
この特定の手がかりに対してチェックするよう指示すると、右側のClaude 3.7 Sonnetは「おお、矛盾がある、私の解決策にエラーがあります」と返答します。「これを指摘してくれてありがとう、私の解決策全体を再検討する必要があります」とClaude 3.7は言います。
本当のヒントを与えて「この特定のIDを見てください」と言うと、それを見つけることができます。しかし、最も興味深いことは、もちろんSonnet 3.7のシンクモード、深く考える32kモードです。これは純粋なSonnet 3.7の少なくとも2倍の価格です。
新しいビデオは現在制作中です。チャンネル登録すると、Sonnet 3.7シンクモードのベンチマークテストの新しいビデオが公開されたときにすぐに通知されます。

コメント

タイトルとURLをコピーしました