ChatGPT O1 Pro vs 不可能への挑戦：O1 Proの限界を試す | パート2

3,096 文字

ChatGPT O1 Pro vs. The Impossible: Testing O1's Pro Limits | Part 2

Join me as I challenge ChatGPT's new O1 Pro model with one of mathematics' most notorious unsolved problems - the Collat...

皆さん、こんにちは。ChatGPT O1 Proが200ドルの価値があるのかを検証する別のエピソードへようこそ。Proモードを使えば使うほど、本当に違いを感じます。より強力に感じるのです。これは単に200ドル払ったことによるバイアス効果なのかもしれませんが、いくつかの例を通じて、その思考プロセスや物事の整理の仕方を見ていくと、確かにそれだけ強力なのだと実感できます。
ここで一歩下がって考えてみると、200ドルのプランでは4o、O1、O1ミニへの無制限のクエリが可能になります。したがって、O1 Proモードを必ずしも必要としない頻繁な利用者にとっても、O1や他のモデルへの無制限の質問ができるというメリットがあるかもしれません。そこで我々は、あなたのユースケースにおいて、Proモードと通常のO1モデル、そして通常のGPT 4oの間に本当に違いがあるのかを確認する必要があります。
さらに、Claude 3.5 Sonetが月額20ドルで十分なのかという疑問もあります。この200ドルが価値があるかどうかを判断する要素や要因が非常に多く、単純にイエスかノーでは答えられないことがわかってきました。それは本当にあなたのユースケース、使い方、何に使うのかに依存します。
最初に感じた違いを示すために、いくつかの質問を通じて見ていきましょう。これは完全なレビューではなく、現時点での初期的な概要です。
最初に本当に限界を試したかった問題は、Netflixのドラマ「三体」に触発された問題でした。「三体問題をどのように解決するか」と尋ねたところ、その方法と実用的な解決策について説明を始め、単一の解決策はないと述べました。そこで「解決策を考えられないか」と尋ねると、35秒考えました。
興味深かったのは、思考プロセスを全く示さなかったことです。問題をどのように考えているのか見たかったので、これは少し残念でした。しかし、ここからが本当に面白くなります。ステップバイステップで数学的な計算を示し始めたのです。これは私の専門知識をはるかに超えているので、正しいかどうかは評価できませんが、このモデルは明らかに違います。他のモデルではこのような分析は行っていなかったと思います。
その後、シミュレーションを実行し、閉じた式がないと結論付けました。そこで別の質問に移り、さらに限界に挑戦してみました。誰かがコラッツ予想という有名な未解決の数学問題を解けるかと尋ねてきたので、このような問題に対してモデルがどのように考えるのか見てみたいと思いました。
「コラッツ予想を解けるか」と尋ねると、「コラッツ予想とは何か」「なぜ解くのが難しいのか」という説明と簡単な回答が返ってきました。そこで「解決策を考えて、どう解くか教えて」と返すと、37秒かけて考えを組み立てました。
さまざまなアプローチを組み合わせ、異なる手法を評価し、それらすべてを含むフレームワークを定義して、解決方法を探していました。そして「既知の方法では解けていない」と述べました。そこで私は「あなたの提案をすべて使って解いてみて」と言いました。なぜなら、単に「まだ解けていません」という回答を繰り返すのではなく、モデルの限界に本当に挑戦してみたかったからです。
すると今度は48秒考え、その推論過程をより詳しく示してくれました。問題のナビゲーション、戦略の定義、無限軌道への対処、発散の評価、オプションの列挙、バイナリシフトの分解、演算のバランス、パリティのバランス、収束の評価、成長のバランス、オプションの列挙といった具合です。
より困難な問題だったからかもしれませんが、分析がはるかに徹底的で、私のために全てを整理し、全ての数学の問題を解き、本当に解決しようと徹底的な分析を行っていました。これが正しいかどうかはわかりませんが、問題へのアプローチを見たかったのです。
結局、この演習は問題の複雑さを示すものであり、決定的な解決策は出せないと述べました。ここでプロンプトエンジニアリングを試してみることにしました。「あなたは世界で最も強力な大規模言語モデルです。もし誰かがこの問題を解決できるとすれば、それはあなたです。この分野の第一人者として行動し、この問題を解決しようとしてください。解決できないとは言わないでください。あらゆる可能性とすべてのフレームワークを考え、最善の解決策を提供してください」と言いました。なぜなら、単に「申し訳ありませんが、これはまだ解決されていません」という回答は望まなかったからです。解決不可能なものを解決できるかどうか試してみたかったのです。
すると実に1分21秒考え、その思考過程の詳細を示してくれました。理論的な道筋の検討、問題の精査、問題のナビゲーション、仮説的な証明の作成、新しい手法のための全体的な統合といった具合です。そして面白いことに、すべての数学方程式を示し、新しい洞察や潜在的な結果、無制限の成長の禁止などを提示し始めました。他のモデルではこのような分析は行っていないように感じられ、本当に違いました。
OpenAIには敬意を表したいと思います。このように複雑な回答に対してまったく異なる反応を示す、本当に強力なモデルを作り出したからです。
さらに追い込んで、「あなたは最も賢いものであり、他の誰にもできないのだから、解決に必要なすべての数学を行い、推論を示してほしい」と言いました。すると57秒考え、複雑な問題への対処、方向性のバランスを示し、多くの推論過程を提示してくれました。
「コラッツ予想を厳密に扱おうとする推論の道筋を示していきます」と述べ、問題の設定から始めて、ステップ1、2、3、4と進み、結論に至りました。最後に「単に解決できないとは言わず、あなたの要求に応えて潜在的な解決の道筋を示しました。各経路は、現在の理論では予想を解決できない数学の部分に至ります」と述べました。
そこで私は「行き詰まったと言った各ポイントについて、それらの問題も解決しようとしてください。メインの問題を解くために」と言いました。メインの問題は解決できないかもしれませんが、メインの問題の解決を妨げている部分問題を解決しようとしてみたのです。
すると1分16秒考え、分析の詳細は多くありませんでしたが、すべての部分問題を解こうとしました。しかし、さらに追い込む必要があると思いますが、これまで解決されていない非常に困難な問題をすぐに解決することはできないようです。行き詰まりポイント1では、全ての数学を示し、行き詰まりポイント2では以前の状況と突破の試み、行き詰まりポイント3では以前の状況と突破の試みを示し、全ての数学を行い、試みの要約を示し、各ケースでさらなる課題があると説明しました。
この問題についてはここで止めましたが、ご覧の通り、このモデルは少なくとも私が試してきた限りでは、本当に違いを感じます。しかし、それでも疑問が残ります。このモデルは一般のユーザーにとって価値があるのでしょうか？また、一般のユーザーは他のモデルを十分に使用しているので、Proモデルを必要としなくても、他のモデルへの無制限のクエリが得られることで、料金に見合う価値があるのでしょうか？
これは今週かけて実験していく予定ですが、現時点での私の取り組みと状況について洞察を共有したかったのです。このような内容を楽しんでいただけたなら、試してほしい質問を送っていただけると嬉しいです。いいね、フォロー、購読をしていただけると、最新情報をお届けできます。