
7,308 文字

今週発表されたo3とo4 Miniに対して業界は強い反応を示しています。まずはDario Amodeiから始めましょう。彼はOpenAIの最近のモデルリリースすべてに早期アクセスしていました。
彼は「OpenAIのo3モデルは天才レベルに達しているか、その近くにあります。きっと誰かが『でもこれやあれはまだできない』と言って対処するでしょう」と述べています。「これは天才的な人間でもできないことが無数にあることを考えると、かなり愚かな意見です」
これは何を指しているのでしょうか?o3はメンサのIQテストを受け、現在地球上で最高IQのモデルとなりました。以前このタイトルを持っていたのはここにあるGemini 2.5 Proで、IQスケールで約128に位置していました。しかしo3はIQスケールで136とそれをはるかに超えています。他のモデルも見てみましょう。o1モデルは122、o1 Proも122でした。基本的にトップ10モデルのうち、OpenAIは8つを占めています。そのためo3は本当に信じられないほど素晴らしいものです。
私の意見では、o3について最もクールなことは、ツールを本当に上手く使えるということです。ツールを使うだけでなく、思考の連鎖の中で反復的にツールを使用できる点です。見ていて本当に驚くべきことです。いくつか例をお見せします。
彼はさらに続けています。「早期アクセスを持ち、何日もずっと使い続けています。これはo1プレビューとo1 Proで経験したマイルストーンのようですが、あらゆる面でよりスマートで信頼性が高いです。決して幻覚を見ることはなく、新しいエージェントスタイルのツールは複数ステップのタスクを驚くべき推論と精度で簡単に処理し、複雑で非常に洞察力のある科学的仮説を要求に応じて生成します。」
これはまた、OpenAI自身が新しい知識を発見する能力があると言った最初のモデルでもあります。「難しい臨床的あるいは医学的質問をo3に投げかけると、その回答はトップクラスの専門医から直接来ているかのように聞こえます。正確で徹底的、自信を持って証拠に基づいており、驚くほどプロフェッショナルです。まさにその話題について本物の専門家から期待するものです。」
続けましょう。チャンネルの友人Chubbyも、o3が「干し草の中の針」探しに本当に優れていると指摘しています。ここで見られるように、あらゆる潜在的なコンテキストウィンドウサイズで、ほぼ完璧なスコアを獲得しました。ゼロから明らかに120Kまですべての範囲で、これはLlama 4やGemini 2.5 Proで見られるものと比較するとまだ比較的小さいです。
こちらを見てください。o3は16Kと60Kを除いてすべての範囲で100点でした(これは興味深いです)。そして私がまだ地球上で最高のモデルと考えているGemini 2.5 Proと比較すると、完全に100点がずっと続いていますが、120Kに近づくにつれて劣化し始めます。
しかし先ほど言ったように、思考の連鎖内でのツール呼び出しが秘密のソースです。これが私の意見では最もクールなことであり、他のすべてのモデルにも見たいと思っている機能です。RepletのCEOであるAmjad Masadはこう言っています:「o4 miniが推論チェーン内でツール呼び出しができるようです。とても cool です。」
ここにあります。これが思考の連鎖です。ユーザーはリンゴの平均複合日次成長率を知りたがっています。そして見られるように、実際にPythonのようなコードを書き、思考の連鎖の中でPythonでそのコードを実行しているのです。とてもクールですね。思考の連鎖内でのツール使用は、今年、あるいはそれ以上の期間で私が見た中で最も印象的で重要な進化の一つかもしれません。
同じくAIコンテンツクリエイターで熱心なDave Shapiroは言います:「o3 fullは、おそらくChat GPT自体以来、私にとって最も刺激的なAIの革新です。o3はUXと人類への道具的な有用性という点で、Chat GPTと同じ規模のステップチェンジです。」
コンテキストとして、前回労働後経済学に取り組もうとしたとき、o1とo3 Miniではいくつかの曖昧なアイデアがありましたが、今回o3 fullはただ「ああ、そうだね、解決しました。ここに指標があります。ここに公式があります。ここに理論があります。次は何をしましょうか、ボス?」という感じでした。OpenAIが今週リリースしたものは本当に信じられないほど素晴らしいです。
これらの新しい素晴らしいモデルがあれば、おそらくあなたはそれらを最大限に活用する方法を知りたいと思っているでしょう。そして、それがHubSpotが無料で提供しているものについてお伝えできることを嬉しく思います。Chat GPTやClaudeがあなたの求める回答をうまく提供していないと感じたことがあるなら、あなたは決して一人ではありません。
だからこそ、HubSpotのAIプロンプトエンジニアリングガイドをチェックすることをお勧めします。このガイドでは、より良いプロンプトを書き、これらのモデルからより多くを引き出すための重要なテクニックを説明しています。リンクは下の説明欄に載せていますので、このガイドを完全に無料でダウンロードすることができます。
Chat GPTや他のモデルに正確に何を求めているのか確信が持てない場合、このガイドはあなたにぴったりです。AIに特定の役割を割り当てることで、特定のタスクに対する応答を劇的に改善する方法など、実践的なプロンプトエンジニアリングテクニックを解説しています。また、ブレインストーミングに役立つようにモデルに異なるバリエーションを求める方法も教えてくれます。
私のお気に入りの部分は、プロンプトがうまく機能していない場合にモデルにより多くのコンテキストを与えたり、例を提供したりするといったトラブルシューティングのヒントなど、すぐに使える簡単で実用的なアドバイスを提供してくれることです。このリソースはHubSpotによって完全に無料で提供されています。ぜひAIプロンプトエンジニアリングガイドを今すぐダウンロードして、説明欄のリンクを使ってください。HubSpotは素晴らしいパートナーであり、このガイドを完全に無料で提供しています。必ずダウンロードして読んでください。HubSpotにこのセグメントのスポンサーとなっていただき、ありがとうございます。
さて、動画に戻りましょう。私にとってとても印象的だったのは、o3が基本的にジオガシング(GeoGuessr)を解決したことです。ジオガシングに馴染みがない方のために説明すると、これはGoogleマップのストリートビューからランダムなスクリーンショットを撮り、それがどこにあるのかを特定するゲームです。文字通り世界中のどこかのスクリーンショットで、ランダムな道路、それがどこにあるのかについてほとんど手がかりがありません。
そして人間のジオガシングプレイヤーはそれを解決できます。彼らは標識、木、車、岩、山脈など何でも見ます。そして今、o3はそれを簡単に解決できるようです。これを見てください。ExuserORFはo3に、おそらく最も有名なジオガシングプレイヤーであるRainboltの「不可能テスト」を与え、ゼロショットで解きました。「この画像の場所を推測できますか?」というストリートビューからのランダムな画像で、40秒間考えた後、最終的に「東カナダのどこか、おそらく地方のケベックに私のピンを置くでしょう」と答え、さらに詳細を提供しました。とても、とても印象的です。
「これはジオガシングが終わったということか?」と考えている方へ。いいえ、そうではありません。チェスと同じことが起こっています。AIはチェスにおいて人間よりもはるかに優れるようになりましたが、私自身はチェスが大好きで、人間がチェスをプレイするのを見るのが好きです。AIがプレイするのを見るのとは何か違うものがあります。
ジオガシングでも同じことが起こるでしょう。明らかに、AIは全体的にただ優れているという点に達していますが、それは問題ありません。私はまだ人間が競争するのを見たいと思っています。ちなみに、あなたの場所をツイートしないでください。もはや専門のジオガシングプレイヤーだけがあなたを見つけられるとは思わないでください。今や誰でもあなたを見つけることができます。オンラインに投稿するものについては特に注意してください。
ジオガシングについてもう一つ。誰かが食べ物の皿の画像を取り、場所でさえない、基本的には単なるレストランの画像を別のジオガシングプレイヤーに見せました。「この写真は世界のどこで撮られたものか、正確に教えてください。」慎重に考えて3分19秒。「これは広島スタイルの料理です(発音は試みません)。小さな鉄鍋に小さなへらが真ん中に刺さっています。シェフのポール・バーがシカゴのウェストループ、フルトンマーケットのGajunで提供するのとまさに同じ盛り付けです。そのレストランのパティオで、あの明るい赤い穴あき椅子のすぐそばで撮ったのでしょう。」信じられません。
おそらくYelpかGoogle Placesなどで何らかの情報を見つけることができたのでしょう。しかし、3分で世界中のどこかのレストランを特定できる、それは日本料理だがシカゴにあると判断できるというのは、本当に心が吹き飛ぶほど驚くべきことです。
しかし、もちろんすべてが良いというわけではありません。NVIDIAのBojan Tunguzは、伝統的な「strawberryという単語にはいくつのRがあるか」というテストを行い、一瞬考えてから「strawberryという単語には2つのRがあります」と答えました。だからDarioが言ったように、これらのモデルが失敗する例もあり、完璧ではないでしょう。それは大丈夫です。これはまだ一部のフロンティアモデルを欺くテストのようです。
しかし、Sean Hurstonはフォローアップとして同じ質問をしました。「Strawberryにはいくつのrがありますか?」そしてo3は彼のために正解することができました。Bojanの場合になぜそうならなかったのかわかりませんが、確かに可能です。
また、迷路の中の道を見つけることにも非常に優れています。これは200×200の迷路です。1回の試行でo3はRiley Goodsideのために解くことができました。彼は「実際に元の迷路の上に解答をPhotoshopで重ねて、拡大しながらレイヤーを切り替えて、解答が壁を越えていないことを確認する必要がありました。壁は一つも変更されていません。完璧です。」と言っています。ここでズームインすると、この小さな赤い点線が迷路全体を一回の試行で完璧に通過しているのがわかります。o3のマルチモーダル機能は信じられないほど素晴らしいです。
次に、Scott Swingleyは「o4 Mini Highが4日前に公開された最新のProject Eulerの問題を2分55秒で解いた。訓練データに含まれている可能性はなく、人間のどのソルバーよりもはるかに速い。30分以内に解けた人はわずか15人だった」と言っています。こちらを見てください。何が起こっているのか理解しようとは思いませんが、非常に難しい数学の問題があります。Pythonを使って解こうとしているのがわかります。
そしてこれが地球上で最速の人間の問題解決者たちです。5分15秒、Bruce Hart、地球上最速。人間の最速です。しかしo4 mini highは2分55秒です。信じられません。さらに「実は正解を得るのに1分未満、56秒でできることもある」と引用しています。これはクレイジーなレベルの知性です。そして先ほど見たように、数学に非常に優れています。
さらに詳細を見てみましょう。Math Arena Amy 20252では、o4 mini highは100%完全に飽和した完全な緑色のラインを$316のコストで達成しています。彼はまた、数学で第一位を獲得したことも指摘しています。o4 mini highは平均89%で1位、Gemini 2.5 Proよりも3ポイント高いです。
もう少し実用的な例を見てみましょう。コーディングを見てみましょう。六角形とボールのテストで知られるFlavio Adamoの例です。こちらがo3です。完璧に見えます。そしてこちらがo4 miniです。どちらもほぼ同じに見えますが、本当に完璧です。ボールは六角形を通過し、物理的にも正確で、ボールはシームレスにバウンドしています。o4 Miniも同様で、両方とも本当に優れています。
他のモデルとの比較はこちらです。Gemini 2.5 ProとDeepseek R1です。Deepseek R1はテストに合格しませんでした。スクロールバックすると、ボールが落ちて一部が引っかかり、一つが消えてしまうのがわかります。あまり良くありません。o3は素晴らしく、o4 Miniも素晴らしいです。しかし、Gemini 2.5 Proでもボールが消えるようです。
ただし、私はGemini 2.5 Proを広範囲にテストしており、それは完璧でした。ここで何が起こったのかはわかりません。
Artificial Analysis社の独立したベンチマーク、独立した検証によって、o3が信じられないほど素晴らしいことが証明されています。o4 miniの独立評価では、「o4 mini highは現在までで最高のArtificial Analysis Intelligence Indexスコアを達成しています。o3の評価ではコーディング能力に大きな向上が見られます。o4 Miniはo3 Miniからの明確なアップグレードです。o1 miniからo3 miniへのように劇的ではありませんが、それでも本当に大きなジャンプです。」
「o4 miniはコーディングインテリジェンスで特に向上し、私たちのコーディングインデックスで1位を獲得しました。これはライブコードベンチとサイコードの両方で7%ポイントの向上によって裏付けられ、o4 miniは現在明確なリーダーです。」これはGemini 2.5 Proがとても優れていたことを考えると驚くべきことです。
価格に関して、o4 Miniはo3 Miniと同等の価格設定ですが、現金トークンはo3 Miniの半額ですが、Gemini 2.5 Flashがちょうど出て、それはさらに安いです。
コンテキストウィンドウについて、OpenAIのすべてのモデルに対する私の最大の不満は、o4 Miniのコンテキストウィンドウが20万トークンでo3 Miniと同じであることです。これはLlama 4の100万トークンという巨大なコンテキストウィンドウよりも明らかに小さいです。Gemini 2.5 Proも非常に大きなコンテキストウィンドウを持っています。
推論モデルとしてのトークン使用量は、他のモデルと比較して多いですが、o3 miniよりはわずかに少ないです。見てみましょう。1位はo3 mini highで、Artificial Analysis Intelligence Indexで70点です。これはmmlu pro、GPQA、diamond、humanity’s last exam、life codebench、amy、math 500のインデックスです。
Gemini 2.5 Proより2ポイント、o3 Mini Highより4ポイント上です。Gro 3 Mini Reasoningもここで非常に優れており、実際にGro 3よりもはるかに優れていることは興味深いです。
このチャートは本当に興味深いと思います。これはこのベンチマークを実行するために使用された出力トークンの総数です。Claude 3.7 sonnet thinkingは9800万トークンを使用したのに対し、Gemini 2.5 Proは8400万、o3 mini highは7700万などと続きます。なぜこれが重要なのでしょうか?思考や思考の連鎖で使用するトークンが少ないほど良いのです。より安く、より速く、より効率的になり、それはより長く考えてより良い結果を得ることができることを意味します。
しかし、繰り返しますが、すべてが完璧というわけではありません。まだ失敗するテストもあります。これを見てください。「この図の各人物とその人物が描かれている色のリストを提供してください。」ズームインすると、矢印のある人物はピンク色のようなAdamであり、黄色のTom、緑のBobが見えます。そしてそれがテストです。13分間考えて「Bob – ピンク・マゼンタ」とありますが、Bobを探してみるとそれは明らかにピンク・マゼンタではありません。「Jack – ライトグリーン」とありますが、Jackを探すとそこにありますが、それはライトグリーンではありません。明らかにこのテストには失敗しました。
Y CombinatorのGarry Tanは「これはかなり狂気じみている」と言います。別の数学ベンチマークが完全に飽和しています。ここにo3が96.7%のAmy 2024です。もしここにo4 miniがあれば、純粋な飽和を示すでしょう。
そこにあります。今週発売された複数の狂気じみたモデルがあります。あなたはそれらをテストしましたか?コメント欄で教えてください。この動画を楽しんでいただけたら、ぜひいいねとチャンネル登録をお願いします。
コメント