OpenAI o1(ストロベリー)に対する新しい極限論理テスト

5,601 文字

NEW EXTREME LOGIC test for OpenAI o1 (Strawberry)

I decided to design a more complex LOGIC TEST for OPENAI's o1. A little bit more advanced that "how many R in strawberry...

おはようさんどす。今日はちょっと楽しいことをしようと思うてな。OpenAI o1に対して極限論理テストを考えてみたんや。早速見てみよか。
Year1プレビューに入って「ストロベリーにはいくつのORがあるんや」みたいなタスクがあるの知ってるやろ。せやけど、わいはちょっと違う発想の論理テストを考えてみたんや。特にo1向けにな。
前の動画で見せたように、GPT-4とo1の違いは、推論中のチェーン・オブ・ソートの構成における多重性と相互接続性なんや。前の動画でこんなこと聞いたんやけど、「手動で別のコマンドを入力するようなカスケーディングプロンプトってできるんかな」って。理論的には、手動でプロンプトを設計して、3つか5つのカスケーディングプロンプトの最後で、o1と同じレベルの因果的知能に到達できるんちゃうかな。
そこで、わいの論理テストはこんな構造になってるんや。新しいo1が、この長い推論期間中に複数のチェーン・オブ・ソートを使って全体的に解けるように設計されてるんや。でも同時に、弱いLLMでも反復的なプロンプトを使えば、理論的にはo1と同じか近い解に収束できるようにもなってるんや。
つまり、チェーン・オブ・ソートを重ねて、なんとかo1に少しでも近づけるかどうかってことやな。これがわいのテストの構造と意図なんや。
もちろん、最初のステップとして弱いLLMが簡単に失敗することを確認せなアカンな。Gemini 1.5 Pro、Llama 3.1 45B (16ビット版)、Grok 2、GPT-4 Omni (最新版)、それから「Sonnetが今日この地球上で最高のLLMや」と信じてる友達のためにClaude 3.5 Sonnetも試してみたんや。
わいの極限論理テストを少し改良して、出力に視覚的なエンコーディングを加えたんや。これで正解かどうかがわかりやすくなるやろ。
ほな、2つのいいLLMを選んで、左側にGrok 2、右側にClaude 3.5 Sonnetの最新版を置いてみよか。見てのとおり、Claude 3.5 Sonnetはもう終わってて、最終的な表ができてる。4×7の再配置も全部済んどるな。Grok 2も終わったみたいやけど、表の出力はできへんかったみたいやな。まぁええか。
次は同じタスクをもう一回走らせて、結果に違いがあるかどうか見てみよか。ほら、Claude 3.5 Sonnetは今度は表やなくてリストになってもうた。なんでやろか。左側のGrok 2は今度は修正された表になってるな。
「続けて」言うたら、Claudeは「申し訳ありません、最初のエラーを訂正します」言うてきた。Grok 2も何か違うもん出してきたな。後で見比べるために、スクリーンショット撮っとこか。
ほんじゃ、本物の悪ガキどもの出番や。左側にGemini 1.5 Pro実験版、右側にLlama 3.1 45B、ただし8ビットやなくて16ビット版や。見てのとおり、両方ともええ感じで始まったけど…「続けて」言わなアカンかったな。
Geminiは最初の答え出してきたけど、Llama 3.1 45Bはまだ答え出す途中で問題があるみたいやな。「続けて」「続けて」…Geminiは答えを修正してきたけど、Llamaはまだダメみたいやな。
ほな、結果見てみよか。これがClaude 3.5 Sonnetの最終的な表や。Grok 2と比べてみると、ガロリアの属性は同じやけど、サラマンダってとこが全然違うな。両方のLLMの答えに大きな違いがあるわ。
2回目に走らせたら、別の解が出てきて、Sonnetが「申し訳ありません、最初のエラーを訂正させてください」言うてきたんや。Grok 2も2回目は「先ほどの混乱をお詫びします。表を修正して完成させましょう」言うて、違う結果出してきたな。
Llama 3.1 45Bは、5ステップ、10ステップ、15ステップのカスケーディングプロンプトを試してみたけど、ループに入ったり時間切れになったりして、結局こんな感じで終わってもうた。Llama 3.1 45Bではわいのテスト解けへんみたいやな。
Gemini 1.5 Proも面白かったで。これも自分で修正してきたんや。ほな、Claude 3.5 Sonnetの修正版も見てみよか。よく見てや、これも完全に同じってわけやないで。
さて、次のステップや。今度はOpenAIのモデル、GPT-4 Omniを使ってみるで。これがメインのテストになるな。Omniを使って、もうちょっと知的で複雑なカスケーディングプロンプトを追加できるかどうか見てみるんや。「もう一回考えて」「ステップバイステップで」「時間かけてええで」みたいな感じでな。プロンプトエンジニアリングの小技も使うてな。
これは月20ドルのGPT-4 Omniの有料版や。わいの極限論理テストを入れてみたんや。これがGPT-4 Omniのライブ記録や。
最初の設定は4人の魔法使いと7つの魔法の分野、7つの使い魔、4×7やな。これはわいがテストに対称性を持たせたかったからや。理論物理学者はいつも対称性を探すもんやからな。
ほんで、ちょっと退屈やから600%か800%くらいに加速させるで。最初の表ができたな。次にカスケーディングプロンプトを入れて、「続けて」「もう一回考えて」「もっと続けて」「再開して」言うてるわ。
600%か800%に加速させた最終的な推論や。「続けて」言うて新しい最終表を出させて、「間違いがあったと仮定して、結果を検証する方法を見つけられるか」「別の視点を見つけられるか」って聞いてみたんや。
Omniがまた考え始めたから「続けて正しい答えを見つけて、表で示して」言うたんや。何回かカスケーディングプロンプトを使って、最後に「全てのリソースを使って検証して、論理的な順列を深く考えて、最終結果を示して」言うたんや。
1回の実行と2回の検証を経て、最終結果が出てきたで。ほな、最後の表を見てみよか。
GPT-4 Omniのカスケーディングプロンプトの違う時点でのスクリーンショットを見比べてみると、最後の表ではガロリアの「錬金術の鏡」とグリフィンは同じやけど、エレメンタルマジックが2回出てきてるんや。これはちょっとおかしいかもしれんな。
ほんじゃ、わいの可愛いo1プレビューに行ってみよか。科学者専用のプレビューやからな、科学者やないヤツは触らんといてな。
極限テストを入れてみたら、システムが考え始めたけど、100秒経っても「考え中」のままやった。普通はこの間に別のトピックが出てくるもんやけどな。
そしたら突然こんなん出てきたんや。「あなたのプロンプトまたはリクエストが利用規約に違反している可能性があるためフラグが立てられました。別のプロンプトで再度お試しください。」
わいのプロンプトには何の問題もないで。他の20以上のLLMで使ったけど、利用規約違反なんて全然あらへんかったんや。OpenAIがなんでわいの論理テストを止めたんか、さっぱりわからんわ。
もしかしたら、システムがOpenAIのリソースを使いすぎたんかもしれんし、複雑すぎたんか、メモリの閾値を超えたんかもしれん。o1にとってこのテストが重すぎたんかもしれんな。
まあ、OpenAIさん、ごめんな。本当はo1の内在的な複数のチェーン・オブ・ソート構造が、単なる繰り返しのプロンプトじゃなくて、長い推論期間でどう働くか見せたかったんや。
GPT-4 Omniがo1と同じ複雑さのレベルで解けへんのやったら、因果推論の複雑さのレベルを上げるだけの繰り返しチェーン・オブ・ソートなんかな。それとも、それは無理で、ただループに陥るだけで、同じ低い複雑さのレベルで終わるんかな。
o1は本当に優れてて、他のモデルじゃ達成できへんのかな。それとも、o1は本当にそんなに特別なんかな。OpenAIが今日この地球上で本当に最高のモデルなんかどうか見せたかったんやけどな。
ほな、見てくれてありがとう。次の動画でまた会おな。
あ、もしうちのチャンネルの登録者さんで、まだ見てくれとるんやったら、「おいおい、理論物理学者のくせに、プランBも用意せんと、こんな中途半端な説明で終わらせる気かい？」って思とるやろ。
もちろん、そんなわけないで。プランBはちゃんと用意してあるんや。この動画を撮る前にo1のテストを録画しておいたんや。
ほな、OpenAI o1プレビューの録画を見てみよか。72秒後に推論を始めたんや。o1はちゃんとできたんや。利用規約違反なんかなかったで。なんでこんなことになったんか、OpenAIが何を検知したんかはわからんけどな。
ほら、これがo1プレビューの最終的な割り当てや。美しいやろ。後で比較できるようにスクリーンショット撮っとこか。
「続けて」とか言わんでも、一発でこんな答え出してきたんや。すごいやろ。自動的に全ての手がかりをリストにして検証してるんや。「全ての手がかりを適用して、消去法のプロセスを使って、これらが正しい関連付けやと分かりました」って言うてるで。
わいが「これを検証して、できる限りの可能性を示して」って言うたら、42秒後にこんな答えが返ってきたんや。
「検証をまとめ上げて、正確さを確認し、構成を検証し、全ての分野を割り当て、ブレンダーリンク（これは何か特別なもんらしい）を考慮し、手がかりをまとめ上げ、魔法使いをマッピングし、使い魔を理解し、全ての手がかりをまた組み立て、可能性のある聖遺物を特定し、つながりに注目し、重要な聖遺物を特定し、聖遺物を割り当て、手がかりを詳細にリンクさせました。」
複数の推論チェーンで何が起こったか見てみよか。別の検証アプローチもあるんや。ステップ1は手がかり15、6、2、4、9、8から始まって、ステップ2は別の方法で決定して、ここで割り当てて、ここでもっと割り当ててる。
o1は1回のプロンプトでこれ全部やってのけたんや。これはマジですごいで。
ほら、見てみ。何か見覚えあるか？何か変更されてるか？わいには変更点が見当たらへんわ。最初から正解だったってことか？後で比較できるようにスクリーンショットを撮っとこか。
o1はほんまにすごいな。見てや、全ての手がかりをダブルチェックしてる。システムが自分のやってることをわかってるって感じやな。「全ての手がかりが満たされ、最終的な割り当ては一貫していて、矛盾はありません」って言うてる。
最初の答えと全く同じ答えが出たんや。これは検証が本当に100%の検証やったってことや。正解かどうかはわからんけど、これは一貫性があって、首尾一貫した答えを出せる初めてのシステムやな。全ての可能性を探索して、わいの極限論理テストの全ての条件を満たす唯一の解決策やと言うてるんや。
ほな、これがOpenAI o1プレビューの最終的な答えや。
ChatGPT o1プレビューで本物の極限論理テストを走らせた結果がこれや。4×7の複雑な構造を持つ超平面やけど、これはそんなに複雑やないな。でも見ての通り、o1の限界に近づいてるんがわかるやろ。
ほら、ここに最終的な答えがあって、ここにも最終的な答えがある。この2つのフィールドを全部比較してみ。検証結果も含めてな。全く同じやろ。さっき言うたように、これは1回のプロンプトで最初の答えと全く同じ検証結果を出した初めてのモデルなんや。
これはマジですごい性能やで。さらにもう1回聞いてみても、まだ1、2、3、4、5、6…1、2、3、4、5、6…元素の杖、主張の指輪、影のオーブ、真実の鏡、秘密の本、夢のお守り、時の水晶、フェニックス、サラマンダー、キマイラ、ユニコーン、グリフィン、ペガサス、ドラゴン…全く同じ答えが返ってきたんや。
わいはこの一貫性、この首尾一貫性が好きやな。でも、はっきり言うておくけど、これが正解かどうかはわからんで。
今、ウィーンで大洪水が起こっとってな、火曜日の朝5時やねんけど、7時からちょっと下の方に住んでる若い家族の家が浸水しちゃったから、シャベル持って手伝いに行かなアカンのよ。4立方メートルの泥、それもびしょ濡れの泥をかき出すのを今日は楽しむことになりそうやわ。少なくとも家をきれいにする手伝いができたらええなと思とるんや。
今日はもう出かけるけど、この動画見てる人で時間ある人おったら、これが正解かどうか教えてくれへん？紙とペンを用意して、昔ながらのやり方でやってみるのもええかもしれんな。数学の天才やったら、ちらっと見るだけでわかるかもしれんし。
どんな方法でもええから、これが正解かどうか教えてくれたらすごくありがたいわ。ほな、GPT-4 Omniの最終的な答えはこれや。エレメンタルマジックが2回出てきてるのは、ベストな答えやないかもしれんけどな。
そして、これがo1プレビューの完全に一貫した答えや。もし興味があって正解を見つけたいって人がおったら、コメントしてくれへん？長い1日の後に戻ってきたら、この2つのOpenAIシステムのどっちが正解に近かったか、本当に知りたいんや。
わいはo1かもしれんって予想しとるけど、実験せなわからんよな。次の動画を見てくれる人がおったら嬉しいわ。笑顔やで。
ほな、極限論理テストのプロンプト全文をビデオの説明欄に載せとくで。読んでみたい人は試してみてな。4Kで撮影したから、きれいに見えるはずや。
最後に、まだ頭に残っとることがあるんや。もしカスケーディングプロンプトをもうちょっと知的にしたら、他のほとんどのLLMでもOpenAI o1モデルに近づけるんちゃうかな。
まあ、冒険はまだまだ続くってことやな。次の動画でまた会えたらええな。