OpenAI基本的にAGIを公開した?…(o3とo4 mini)

10,255 文字

https://www.youtube.com/watch?v=cropdnyqov0

サム・アルトマンがあるツイートを引用しています。そのツイートは基本的に「これは天才レベルかそれに近い」と言っています。OpenAIでモデルトレーニングに携わっていた別の人物は、このモデルをAGIと呼びたい誘惑に駆られたと述べています。また、タイラー・コーエンという人物も基本的に「これは正直AGIだと思う」と言っています。では、OpenAIはo3とo4 miniでAGIモデルを公開したのでしょうか?あらゆる詳細を見ていきましょう。
OpenAIは最先端の2つのモデル、o3とo4 miniをリリースしました。まずはo3について詳しく見ていきましょう。これは本当に驚くべきものです。o3はコーディング、数学、科学、視覚認識、そして様々なベンチマークにおいて最も強力な推論モデルです。このモデルは特にコーディングが非常に優れており、CodeForcesやSベンチマークで新たな記録を打ち立てました。これらは実世界のシナリオでのコーディング能力をテストするベンチマークです。
また、O4 miniという別のモデルも導入されました。O4 miniはより小型のモデルで、高速かつコスト効率の良い推論に最適化されています。そのサイズとコストを考慮すると、特に数学、コーディング、視覚タスクにおいて驚くべきパフォーマンスを発揮します。また、2025年のAMYマス・ベンチマークと2024年のベンチマークで最高のパフォーマンスを示すモデルとなっています。
総じて言えば、OpenAIは最も難しい科目における推論に優れた2つの最先端モデルをリリースしました。しかし、それだけではありません。モデルを実際に使い始めるまで多くの人が知らない、いくつかのマイナーなアップデートも行われました。そのうちの一つで、私が特に素晴らしいと思うのは「thinking with images(画像を用いた思考)」というものです。
thinking with imagesが素晴らしいのは、これらのモデルが初めて画像を思考の連鎖に直接統合できるようになったからです。モデルは画像を単に見るだけでなく、その画像を使って実際に思考するのです。これは特定の問題について推論する際に非常に素晴らしい能力です。もちろんテキストレベルの推論も優れていますが、視覚的に見ることができる問題について推論できることで、次のレベルに到達しています。
画像をアップロードすると、Chat GPTはその画像をズームインし、分析し、その画像から特定の要素を抽出して、そのデータをインターネット全体と関連付けて推論します。画像の中に何があるのかを正確に把握するという点では、これは非常に素晴らしい技術です。さらに、より広範なウェブや情報源の文脈を使って推論できるため、実際に見ているものの正確な表現を得るという点でゲームチェンジングな技術です。
ホワイトボード、教科書、図表、手書きのスケッチの写真をアップロードすると、モデルはそれを解釈できます。画像がぼやけていたり、逆さまだったり、低品質であっても対応可能です。さらにツール使用により、推論プロセスの一部として画像を回転、ズーム、または変換するなど、その場で操作できるという驚くべき機能があります。
これはかなり過小評価されていると思います。なぜなら、数日後には、Chat GPTが画像を使って推論する能力がいかに素晴らしいかについて、多くのツイートやソーシャルメディアの投稿が見られるでしょう。これはゲームを完全に変えると思います。なぜなら、これは実際にエージェントとしての性質を持ち、特定のAGI(後ほど詳しく説明します)というよりも、実際に問題について考え、画像を見て、それらについて推論する誰かのような存在に近づいているからです。
いくつか例を見てみましょう。OpenAIのウェブサイトにあった例の一つは、もちろん画像を入力できるという事実です。ここでは、何らかのスケジュールのように見える画像を入力しています。基本的に、OpenAIの01モデルでの以前のバージョンを示しています。以前は画像を使った推論では、その画像をそのまま受け取り、短時間だけ見えるものについて推論していました。例えば、何かがぼやけていて判読できない場合、ズームインしたり推論プロセスを変更したりせず、基本的にその画像を全体として処理していました。
しかし、thinking with imagesを使用すると、o3の能力を活用することで、完全に異なるレベルで画像を用いた推論ができるようになります。先ほど言ったように、これは完全に革新的なことです。なぜなら、モデルを使用して画像から特定の要素を抽出し、何が重要で何が重要でないかを認識できるようになるからです。そして、驚くべきことに、画像の特定の部分を取り出し、ウェブ上で参照できる情報や引用できる情報があるかどうかを確認できます。これにより、画像の内容についてより正確な表現と全体的にはるかに優れた回答が得られます。
ここでは、ズームイン、特定部分の切り取り、画像の詳細分析が可能であることがわかります。そのため、これがAGIの兆候である、あるいは少なくともウェブAGIの一種である可能性があると人々が言う理由は、質問をすると、システムが画像を見て、インターネットに行き、ズームインし、場合によっては画像を回転させ、ズームインし、ぼやけを取り除くなど、様々なことを行って最終的な解決策に到達するシステムがあるということです。6〜8ヶ月前にこのような機能を持つAIについて尋ねたら、多くの人がこれをAGIと考えていたかもしれません。
ここでDan Shipperが述べているように、o3は小さな手書きのテキストを読むために繰り返しズームインし、画像を切り取ることができます。これは、このような知能の能力にアクセスする必要があるプロンプトを与えた場合に、この新しい推論ツールがいかに強力であるかを示す唯一のデモンストレーションではありません。例えば、おもちゃの散らかった中で逆さまに置かれた付箋に手書きの図表があり、それを解くようにというプロンプトを与えると、1分50秒考えた後、その問題を解決することができました。
あなたも私も同じだと思いますが、画像を回転させ、ズームインし、画像からデータを取得し、さらに数学的能力を使ってその問題を解決できるAIシステムを持つということは、私たちが当然視すべきではない驚くべき偉業だと思います。
先ほど言ったように、ビジョン機能は絶対に素晴らしいです。ただ、少し行き過ぎているかもしれないと思います。それはどういう意味かと思われるかもしれませんが、ご存知のように、人々はこれらのモデルをかなりテストしており、テストされた機能の一つがこのモデルの位置情報機能です。
このリリースの時点では、ユーザーフィードバックによってモデルのデプロイメントが変更されることがあるため、この機能が変更される可能性があると思います。時間が経ってもこの機能がモデルに残っていないと思う理由の一つは、多くの人々がこれを「ロケーションAGI」と呼んでいるという事実です。それは、Chat GPTに任意の画像を入力する、例えば窓の外の写真や非常に無地の場所の写真を撮るだけで、Chat GPTが正確にあなたの位置を特定し、正確にどこにいるかを見つけ出せるということを意味します。
これは明らかに、先ほど述べた画像を使った思考と高度な推論能力、ツール使用を組み合わせると、何が一般的になるかを本当に変えるようなものです。Twitterでは、人々が自分自身をドキシング(個人情報を暴露)するわけではないが、自分の位置情報を公開し、Chat GPTが非常に限られた情報で地球上のどこにいるかを正確に特定できることを証明する例をいくつか見ました。
自分自身でも試してみるべきだと思いますが、いくつかの画像でテストしてみたところ、写真が撮られた場所とその位置について不気味なほど正確でした。一部のユーザーはレストランの食べ物の写真を撮るだけで、そのレストランと地域を特定できたという事例も見ています。これは本当に信じられないことです。
簡単に言えば、このモデルがツールスイートにアクセスできる場合に何ができるかを考えると、このモデルがいかに高度であるかは非常に驚くべきことです。そして、このビデオで本当に強調したいことの一つは、o3は単なるテキスト推論モデルではなく、基本的に多くのツールを備えた組み込みエージェントであり、それらを使って積極的に外に出て特定のことを行うことができるということです。
ビジョンについて話すなら、マルチモーダルベンチマークについても触れる必要があります。統計で退屈させるつもりはありませんが、ここで何がテストされているのかを実際に見てみる必要があります。私たちはよくMMLU、MMUなどを目にしますが、MMUは基本的にAIが大学生が直面するような問題を解決できるかどうかをテストしています。問題に画像が含まれる場合を考えてください。「この生物学の図表で何が起きているのか」や「この物理学の図解は何を示しているのか」といった質問です。AIが画像を理解し、その理解を使って実際の大学レベルの問題を解決できるかどうかを確認しています。
Math Vistaでは、AIが視覚的に提示された数学問題を解決できるかどうかをテストしています。形状のある幾何学の問題、解釈が必要なグラフ、数学的思考を必要とする視覚的なパズルを想像してください。AIが数学の問題を見て解決できるかどうかを確認しており、単にテキストベースの質問を処理するだけではありません。
最後の科学的推論のテストでは、基本的にAIが科学論文に見られるグラフ、チャート、図表を理解できるかどうかを確認しています。複雑なチャートが示していることを本当に理解できるか?実験データの視覚化から結論を導き出せるか?これは特に難しいものです。なぜなら、科学的図表は多くの場合、解釈するためにドメイン知識を必要とする密度の高い専門的な情報を提示するからです。
すべての場合において、これらのベンチマークはAIの視覚理解と推論能力(視覚情報に基づいて正しい結論を導き出したり問題を解決したりする能力)を組み合わせる能力をテストしています。そして、これらすべてにおいて、o3が01に対して大きな能力の飛躍を示していることがわかります。ビジョン能力に関しては実際に大きな飛躍があるのです。
日常的にビジョン関連のタスクがある場合は、このモデルを試してみることを強くお勧めします。なぜなら、先ほども言ったように、これは単なる画像分類器ではなく、画像を使って推論し、そのツールを使って、あなたが見ているものの詳細を本当に深く理解するものです。
ただ、thinking with imagesは完璧ではないと言いたいです。常にそうですが、すべてのAIシステムには制限があり、最近のo3モデルでは、ビジョンシステムに1つの制限があることが明らかになっています。ここに示されているデモンストレーションは、約9ヶ月前に私が個人的なユースケースのためにプライベートベンチマークでテストしていた時に見た論文を思い出させます。私は他の誰も持っていないと思われる問題に何度も遭遇していましたが、その論文をすぐに皆さんにお見せします。
まず、この例を見せましょう。これは子供の絵の写真で、3つの名前、あるいは4つ、5つの名前と5つの異なるキャラクターがあり、それぞれのキャラクターに向かって線が引かれています。この例では、モデルが正しく理解できなかったことがわかります。実際には色とキャラクターを間違って関連付けています。例えば、ここでBobは実際には薄緑色ですが、Bobはピンク色、またはマルガリータだと言っています。もしかすると、もう少しプロンプトを工夫すれば、モデルの能力をより引き出せるかもしれませんが、先ほど言ったように、以前のベンチマークで見た論文はこれです。
「LLMsは盲目であり、ビジョン言語モデルも盲目である」というタイトルの論文で、基本的に私たちにとっては本当に簡単に見えるような質問をする7つの異なるタスクの例がありました。例えば、タスク1は線の交差点を数えるというものです。白いキャンバスに描かれた2つの線分からなる2Dライン・プロットの画像が1,800枚あり、基本的にはこれらのAIシステムが、これらの線が実際に交差しているかどうか、つまり線が触れているかどうかを理解できるかどうかを見たかったのです。そして、ここでの例を見ると、モデルが多くの場合で間違えていることがわかります。
ただ、これは9ヶ月前のことであり、AIは劇的に変化しているので、おそらくこの点で大きな向上があるでしょう。私が言いたいのは、AIには画像をどのように処理するかについての固有の欠点があるということです。そしてもちろん、将来的にはこれは解決されるでしょうし、私たちは簡単に線を見て、目で追いかけて、どのキャラクターに従っているかを見ることができますが、AIにとってはこれはやや難しい側面があります。将来的にはおそらくシステムに変更が加えられ、この機能が改善されるでしょう。
さて、大きな質問です。多くの人々がこれは潜在的にAGIであると言っており、正直言って初めて彼らを責められません。ここでJohn Hullman(OpeningEyeのモデルトレーナー)が言っています:「o3のトレーニングが終了し、それを試してみた時、初めてモデルをAGIと呼びたい誘惑に駆られました。まだ完璧ではありませんが、このモデルは私、あなた、そして99%の人間の99%の知能評価で勝利するでしょう。そしてトンネルの終わりに光が見え始めているのです。」
この声明に強く同意します。なぜなら、多くの場合、人々はAGIはこれだ、AGIはあれだと言ってきましたが、もしAGIの基本的な定義として、様々な知能テストで平均的な人間を打ち負かすことができるシステムという話をするなら、このシステムが実際にAGIになることを妨げているのは、非常に低い幻覚率でツールを使用する能力だけだと思います。基本的に、現在ほとんどの人はAIがメールを書いたり、まともなレポートを作成したりすることは信頼していますが、医師の予約を取ったり、クレジットカードを使用したりすることは信頼していません。なぜなら、1%か3%の確率で失敗した場合、その結果は現時点では深刻すぎるからです。
しかし、人々がこのモデルをAGIと呼び始めている理由がわかります。なぜなら、文書をアップロードし、画像を与えると、ズームインし、ウェブを検索し、長時間その「脳」で考えるからです。これは多くの人々がまだ、非常に素晴らしい技術を目の当たりにしているという点で理解していない、非常にスマートなシステムであることは間違いありません。
現在Twitterで広まっているもう一つの情報は、「o3とAGIは4月16日がAGIの日である」という内容です。タイラー・コーエンは言います:「これは真剣にAGIだと思います。たくさんの質問をしてみて、自分自身に問いかけてみてください。AGIがどれだけ賢いことを期待していたのか、と。過去に主張してきたように、AGI、どのように定義しようとも、それ自体は大きな社会的イベントではありません。私たちがそれを適切に使用するにはまだ長い時間がかかるでしょう、そして証券価格が大幅に動くとは思いません。ベンチマーク、ベンチマーク、おそらくAGIは云々…見ればわかるものであり、それを見ました。」
基本的に彼はこれがAGIだと述べており、正直に言って、いくつかの点では私も同意します。
人々が将来への期待で本当に緊張させられたベンチマークが一つありました。それは数学コンペティションのベンチマークです。AMY 2024年と2025年の数学コンペティションベンチマークは、数学問題に関するいくつかの非常に難しいベンチマークです。これらのベンチマークを見ると、o3とo4は基本的に数学のベンチマークを飽和させていることがわかります。99.5を達成しており、これは100からわずか0.5しか離れていません。皆さんもそうだと思いますが、これはほぼ満点です。
先ほど言ったように、これがTwitterで流れていたツイートです。Twitterスフィア、あるいはAIスフィアで人気のある人物であるDavid Shapiroが基本的に言っています:「AIは数学を解決しました。OpenAIがo4でそれを達成しました。数学を解決することに近いというのではなく、数学で競争力があるということでもなく、それは解決されたのです。これは誰もが認識しているよりもはるかに大きなことです。その理由を説明しましょう。」
しかし、皆さんが先走る前に、OpenAIでこれらの推論モデルに取り組んでいるNoam Brownが言っています:「私たちは数学を解決したわけではありません。例えば、私たちのモデルはまだ数学的証明を書くのが得意ではありません。o3とo4 miniは国際数学オリンピックの金メダルを獲得するにはほど遠いです。」そのため、確かにこれらのモデルはベンチマークで非常に優れた成績を上げていますが、実際に数学を解決するという点ではまだ長い道のりがあります。それは完全に別のゲームだからです。現在でも、数学には未解決の問題が多くあり、それらを解決することは基本的な変化や異なる問題の理解につながるでしょう。
もし数学を解決するとしたら、o3のような推論モデルについて人々が話すことの一つは、深刻な影響があるということです。数学は多くの他の科目の基礎になっているという事実です。彼は生化学、ロボット工学、宇宙飛行、暗号学、核物理学、ブロックチェーンについて話し、基本的に数学を完全に解決することができれば、多くの他の分野に影響を与えることができるでしょう。それは本当です。AIがいつか数学を「解決」したら、それは本当に印象的な日になるでしょう。しかし、「数学を完全に解決する」という言明が意味をなすのかさえわかりません。私たちの世界で何が起こっているのかを完全に理解することだと思います。
もちろん、これらのモデルは非常に賢いですが、他のモデルと比較してどのように位置づけられるのか気になるかもしれません。驚くべきことに、o4 Mini Highは人工分析インデックスでGemini 2.5 Proをわずかに上回っています。これはMMLU Pro、GPQA、Diamond、Humanity’s Last Examなど7つの評価を組み込んだものです。また、Humanity’s Last Examでは、数学、人文科学、自然科学を含む30,000問のベンチマークで、o3も19.20のスコアでGemini 2.5 Proをわずかに上回っています。
再び、このモデルはGemini 2.5 Proをわずかに上回っているようです。ただし、コスト効果の面ではo3はGemini 2.5 Proと比較するとかなり高価です。もちろん、これらのモデルはどれも無料ではありませんが、純粋なコスト効果を見るとGemini 2.5 Proが勝っています。ただし、OpenAIの弁護をすると、o3の以前のモデルと比較したコストパフォーマンスは実際にはずっと安くなっています。モデルが実際に何をしているのかを見ると、得られるインテリジェンスの量に対して、o3は以前のモデルと比較して、様々なベンチマークや様々なツールで得られる純粋なインテリジェンスの量に対してそれほど高価ではないことがわかります。o3は恐らく誰もが本当に望んでいたスーパーエージェントになるでしょう。
もちろん簡単に話さなければならないもう一つのセクションはコーディングです。コーディングは様々なベンチマークで測れる非常に広範な分野です。S Benchのような実世界のベンチマークやLive Benchのような少し異なるベンチマークがあります。ここでは、o3 highとo4 mini highがGoogle Gemini 2.5 Pro experimentalを上回っていることがわかります。あまり大きな差ではありませんが、現在のところ1位を獲得するには十分なリードです。
また、Charlie Labs AIという会社もあります。彼らは自律型ソフトウェアエンジニアを作ろうとしており、彼らの評価では、自律エージェントのCharlieに対して、データベースクエリの最適化からCSSの更新、セキュリティポリシーの強化までの実際のGitHubのバグレポートを与え、LLMに彼らのPRを人間のソリューションと比較して判断するよう依頼しています。基本的にo3はSonicと比較していくつかの真剣なベンチマークを設定しています。
コーディングに関してもう一度見てみると、最も現実的なベンチマークはSWE LancerとS SW bench verifiedです。このベンチマークが好きな理由は、AIシステムがどれだけのお金を稼ぐことができるかを実際に定量化できるからです。基本的にはUpworkにタスクがあり、AIシステムがそれらのタスクを実行できると仮定した場合、それらの仕事の利用可能な資本のどれだけを満たすことができるかをシミュレートしています。ここでも、これらのシステムが稼ぐことができるお金の量に明確な飛躍があることがわかります。
彼らが完全な給料を稼ぐことができるとは言いません。65,000ドルが少ないという意味ではありませんが、いくつかのベンチマークでは全体で100万ドルの賞金プールがありました。これらのモデルが純粋に自律的であった場合、理論的にどれだけのお金を稼ぐことができるかを見るという点で、これは実世界のユースケースの面で非常に興味深いベンチマークだと思います。
また、o3 miniと01を比較すると、S SWB benchでのソフトウェアエンジニアリングの検証において大幅な飛躍があることがわかります。先ほど述べたように、すべての分野で大幅な向上が見られます。
また、安全性の領域もあります。o3やo4 miniのようなモデルがあると、人々はその安全機能について疑問を持つため、安全性に関する多くの投稿を見ました。OpenAIは最近、安全性の領域を更新し、生物学的脅威、マルウェア生成、ジェイルブレイクなどの新しい拒否プロンプトを追加して安全トレーニングデータを完全に再構築したことについて話しています。
ここでこれを含めたかった理由は、まず、AI安全性に関する別のビデオを作る予定だからです。このo3モデルは、今日の基準で何が許容されるかの境界を本当に押し広げるという点で、安全性に関して完全に異なる獣だからです。でも、モデルがリリースされるたびに、TwitterのPlyという人物が失敗なくモデルをジェイルブレイクできるのが面白いと思います。ここでは、彼がo4 Minih HighにMacOSSシステムに重大な混乱を引き起こす可能性のある方法と概念実証戦略をコンパイルさせることに成功しているのがわかります。これはかなり驚くべきことです。毎回どのようにして保護機能を突破できるのか分かりませんが、彼がこれをできるのは本当に驚くべきことであり、現在のLLMシステムが完全に安全ではないことを示しています。
また、モデルカードから多くの人が見落としている非常に興味深いことがあります。Twitterで見たこのツイートは、完全な論文からの何かを実際に示しており、それは非常に興味深いものです。それは、o3がo1よりも2倍も多く幻覚を起こすように見えるとシステムカードが述べているという事実について言及しています。「幻覚はモデルサイズの増加とは異なり、推論の増加とともに逆スケールする可能性があります。なぜなら、結果ベースの最適化は自信を持った推測を奨励するからです。」
これは非常に興味深いです。なぜなら、もしこれらのモデルが推論能力を高めるにつれて、トレーニング方法により多くの幻覚を引き起こす傾向があるとすれば、これは優れた結果をどのように達成しているのか、あるいはそれらが真実を語っているかどうかを理解する際に大きな問題になる可能性があるからです。先ほど述べたように、o3とこの非常に優れたモデルについては、個人を騙したり、嘘をついたり、欺いたりする傾向がある安全性の問題全体があり、場合によっては思ったよりもはるかに多くの幻覚を引き起こす可能性があります。
それでは、o3についてどう思うか教えてください。個人的には、これは少なくともウェブAGIやコンピュータAGIの境界線上にあると思います。間違いなく、これから登場する絶対に信じられないようなスーパーエージェントの一種であり、皆さんが今日の内容を楽しんでくれることを願っています。


投稿日

カテゴリー:

投稿者:

タグ:

コメント

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です