OpenAI o3-miniは凄い

11,174 文字

OpenAI's new model o3-mini use cases and demos. #ai #aitools #agi #chatgptThanks to our sponsor Abacus AI. Try their Cha...

承知しました。まずブロックブレイカーゲームを実装してみましょう。なかなかいいですね。では温度変化に基づいて水分子が水素結合を形成する様子をインタラクティブにシミュレーションしてみましょう。できるかどうか見てみましょう。まさか！これは本当に印象的です。では次に、球体の中で100個のカラフルなボールが跳ね返る様子をシミュレーションするスクリプトを書いてみましょう。これができるか見てみましょう。完璧にできました。すごい！では次に、ビッグバンが宇宙に膨張していく様子をビジュアル的に印象的にデモンストレーションしてみましょう。なんということでしょう、これは凄すぎます。
OpenAIは最近o3-miniをリリースし、無料ユーザーでも今これを使えるようになりました。数日前にリリースされましたが、リリースされたその時に投稿するのではなく、実際にこれを何に使えるのか、どんな素晴らしいことができるのかを把握するために少し時間をかけました。今日はまさにそれについて説明していきます。様々な使い方を紹介し、印象的な使用例もお見せします。もちろん、スペックやベンチマークスコアについても説明しますが、それは退屈な内容なので動画の最後に回しましょう。
では早速デモに入っていきましょう。先ほど言ったように、この新しいo3-miniモデルは無料ユーザーでも今すぐ使えます。chat GPTでこのreasonボタンをクリックするだけで、o3-miniがあなたの質問にどう答えるか考えてくれます。o3-miniは数学、コーディング、科学に特に強い博士レベルの専門家だと考えてください。これから紹介する例も数学、コーディング、科学に関連したものです。メールの返信や記事の要約、ソーシャルメディアの投稿を作るといった一般的なタスクなら、正直博士は必要ありませんよね。そういった場合は通常のchat GPTやGoogleのGemini、DeepSeekを使えば十分です。
とはいえ、いくつかのクールなデモをお見せしましょう。以前のAIモデルをコーディングでテストする際、Pythonでスネークゲームを作らせていましたが、正直それは簡単すぎます。古いモデルでも全てできていました。そこで難易度を上げて、Pythonを使って自律型のスネークゲームを作らせてみましょう。2匹のヘビが競い合います。reasonボタンをオンにしてgenerateをクリックします。できるか見てみましょう。
ステップバイステップで回答を考えている様子に注目してください。ここでその推論プロセスが見えます。ゲームの設定、ゲームプレイの設定、ヘビのAIのマッピング、動きのマッピング、餌の配置、衝突メカニクスなどを順に処理し、アプローチを洗練させてからコードを出力しています。かなり長いのでここではコピーをクリックして、VS Codeの新しいPythonファイルに貼り付けて実行してみましょう。
これを見てください。2匹のヘビが餌を食べるために競い合うスネークゲームができました。餌を食べると実際に長くなり、左上のスコアボードには2匹のヘビのスコアが反映されています。これは凄くないですか？最後に緑のヘビが壁にぶつかってゲームオーバーになりましたね。本当に印象的です。
では新しいチャットで試してみましょう。今度は回転する六角形の中でボールが跳ね返るPythonプログラムを書かせます。ボールは重力と摩擦の影響を受け、回転する壁にリアルに跳ね返るようにします。generateを押して見てみましょう。
ここでも質問に答えるための思考・推論プロセスが見えます。まずダイナミックなシーンを作成し、衝突力学を計算し、壁の動きを調整し、相対速度を計算するなどして、全てを組み合わせています。このコードをコピーして貼り付けて実行してみましょう。
見てください。完璧です。これは確かに回転する六角形の中でボールが跳ね返っていて、重力と摩擦の影響を受けています。非常に印象的です。ちなみに、同じプロンプトをDeepSeek R1に入力しても、私はDeepSeek R1の大ファンで多くの点で素晴らしいのですが、このプロンプトは正しく処理できません。これがo3-miniの力を示しています。コーディングタスクにおいて本当に優れているのです。
次の例に移りましょう。chat GPTの代わりに、o3-miniを使える別の無料の場所を紹介します。Any Chatと呼ばれるもので、これは無料のHugging Faceスペースです。素晴らしいところは、コードを生成するだけでなく、実際の結果をライブで見られることです。VS Codeにコピー＆ペーストして実行する必要がありません。
Any Chatに入ったら、プロバイダーを選択します。ここではOpenAIを選択しました。ここでモデルを選択し、o3-miniの最新バージョンを選びました。そしてここにプロンプトを入力します。参照用の画像をアップロードすることもできますが、o3-miniでは機能しません。公式リリースページによると、o3-miniはビジョン機能をサポートしていないので、視覚的な推論タスクには引き続きo1を使用するように開発者に推奨しています。
では生物学の例をやってみましょう。このプロンプトを書きます：「大型ネコ科の分類系統樹を、科から属、種までインタラクティブに表示する視覚化ツールを生成してください。パンサー、ライオン、トラなどを含め、進化的系統に基づいてノードを接続し、ホバー時に種の説明を表示してください」。そして私が好きなキーフレーズを追加します：「CSSとJSとHTMLを単一のHTMLファイルで使用してください」。これにより全てが1つのファイルに収まります。
generateをクリックして、これができるか見てみましょう。左パネルにコードを入力している様子が見えます。完了すると右パネルに出力が表示されます。少し縮小して全体を見てみましょう。これらにホバーすると、各種の説明が表示されます。ライオンはパンテラ・レオ、トラはパンテラ・ティグリス、ヒョウはパンテラ・パルドゥスですね。とても良くできています。
次は化学の例をテストしてみましょう。プロンプトは「水分子が水素結合を形成する様子をインタラクティブにシミュレーションしてください。温度変化に基づいて分子間の動的な相互作用を描写し、水素結合の形成と切断を強調してください」。ここでもキーフレーズを使います：「CSSとJSとHTMLを単一のHTMLファイルで使用して、全てを自己完結させてください」。generateをクリックして見てみましょう。
このAny Chatインターフェースでは、左にコードが出力され、完了すると右パネルにライブデモが表示されることに注意してください。これが結果です。確かに水分子で、お互いに近づくと水素結合が形成される様子が見えます。温度を0まで下げてみましょう。なんと素晴らしいことに、分子の動きが遅くなり、近づくとより多くの水素結合が形成されるのが見えます。これを100まで上げると、今は水が沸騰している状態です。水分子が至る所で激しく跳ね回り、温度が高すぎて水素結合は形成されません。これを30くらいに戻すと、少し動きが遅くなり、再び水素結合が見え始めます。非常に印象的な生成結果です。
次はこのプロンプトを試してみましょう：「CRISPRの仕組みを視覚化するインタラクティブツールを設計してください。これは基本的にDNAを切断・編集するツールです。ユーザーがDNA配列を入力し、ターゲット遺伝子を選択して、切断と修復のプロセスをシミュレーションできるようにしてください」。ここでも「CSSとJSとHTMLを単一のHTMLファイルで使用してください」。generateをクリックして見てみましょう。
これが結果です。これが入力DNA配列で、このGeneをターゲットにしているとします。CRISPRをシミュレートしてみましょう。DNAを切断をクリックします。このGene配列、GCAGCを特定したようですね。配列の始まりでDNAを切断しました。では、DNA修復をクリックすると、配列が接合されたようです。明らかに私は専門家ではありません。CRISPRの専門家の方は、これが実際のCRISPRの正確な表現かどうか、コメント欄で教えてください。
別の例です：「高度な設定を備えたMicrosoft Paintを構築してください。CSSとJSとHTMLを単一のHTMLファイルで使用してください」。generateをクリックします。これが結果です。描いてみましょう。機能しますね。ブラシサイズを22に変更してみましょう。ブラシサイズが機能します。色を赤に変更してみましょう。色も機能します。不透明度を0.5に変更すると、ある程度機能しています。ここの終わりの方が薄くなっているのが分かりますね。これをさらに下げてみると、ここで不透明度の効果が見えます。これを1に戻し、ブラシサイズを9に設定し、色を青にして、この線オプションをテストしてみましょう。
線も機能しますね。四角形も機能するか見てみましょう。四角形も機能します。この塗りつぶしモードをチェックして、四角形が塗りつぶされるか見てみましょう。はい、できます。グラデーション塗りつぶしは何をするのでしょうか。試してみましょう。とても良い効果です。円でも試してみましょう。色を緑に変更して、これも完璧に機能します。消しゴムも機能するか試してみましょう。ブラシサイズを大きくして、消しゴムも機能します。たった1つのプロンプトから、ゼロショットでこのMicrosoft Paintクローンを作成し、全ての設定が実際に機能しています。非常に印象的です。
ここでさらにクレイジーなデモをお見せします。プロンプトは「Three.jsを使用して、ビッグバンが宇宙に膨張していく様子を視覚的に印象的な高度なデモを作成してください。初期の特異点から活気のある膨張する宇宙への遷移を捉えてください。コードは自己完結型で、最新のブラウザで簡単に実行できるようにしてください」。これは別のキーフレーズとして使えます。また、スタートとリセットボタンも含めるように追加しましょう。generateをクリックして、これができるか見てみましょう。
スタートをクリックして見てみましょう。うわっ、これは凄い！確かにビッグバンのように見えます。そして今、全てが広がって私たちの知る宇宙を形成しています。まだ続いています。画面で見えるかどうか分かりませんが、シミュレーションにはまだドットがありますが、非常に小さいです。これはとても素晴らしい！リセットを押して、このアニメーションをもう一度実行してみましょう。これは本当に素晴らしいですね。o3-miniの能力には本当に感心します。
3Dの視覚化やシミュレーションを作成したい場合、プロンプトで使えるもう1つのキーワードはThree.jsです。3Dシミュレーションに本当に適しています。このプラットフォームはAny Chatと呼ばれる無料のHugging Faceスペースです。説明欄にリンクを貼っておきます。
chat GPTに戻りましょう。十分な注目を与えていない気がするので。両方のプラットフォームを使うことができます。私は両方を交互に使っています。どちらでも構いません。両方とも無料で使えます。次は私が好きな別のキーワードを紹介します。p5.jsです。これもアニメーションや3D視覚化に適しています。
プロンプトは「ピタゴラスの定理をアニメーション化した視覚化を示すp5.jsスクリプトを書いてください」。これを見てみましょう。chat GPTの良いところは、Any Chatでは見られない思考プロセスが見えることです。ただし、デメリットとしては、コードのライブデモを見ることができず、単にコードを出力するだけです。OpenAIにはCanvasと呼ばれる機能があり、別のパネルでコードをプレビューすることができますが、この機能は現在o3-miniでは機能しないことに注意してください。
とはいえ、p5.jsを使うようにプロンプトを書けば、このコードは無料のオンラインプラットフォームで実行できます。これも説明欄にリンクを貼っておきます。このコードを全てコピーして、このサイトに行き、ここに貼り付けて実行を押すと、ピタゴラスの定理のアニメーションが表示されます。これはすごいですね！
アニメーションを再生するには、もう一度再生を押すだけです。とても良いですね。完璧ではありません。この四角形が端を超えていっています。なぜ全体を少し下に移動しなかったのかわかりませんが、とにかくピタゴラスの定理のアニメーションができました。
さらにクレイジーなものを試してみましょう。プロンプトは「球体の中で100個のカラフルなボールが跳ね返る様子をp5.jsスクリプトでシミュレーションしてください。各ボールは最近の軌跡を示す徐々に消えていく跡を残し、容器となる球体はゆっくりと回転します。ボールが球体内に留まるように、適切な衝突検出を実装してください」。generateをクリックして見てみましょう。
また、これをセットアップする方法を考えています。このコードをコピーしてここに貼り付けて、再生を押すと、これが表示されます。確かに100個のボールのように見えます。実際に数を数えるつもりはありませんが、100個くらいに見えます。球体の中で跳ね返っていて、各ボールは跡を残しています。また完璧です。たった1つのプロンプトで、ゼロショットでこれを実現しました。
別のプロンプトのアイデアです：「CSSとJSとHTMLを単一のHTMLファイルで使用して、ブロックブレイカーゲームを実装してください」。generateをクリックして見てみましょう。これが結果です。とても良いですね。3つの命があります。これは確かにブロックブレイカーゲームです。マウスでパドルを動かすことができ、ボールが地面に当たると、今のように命を1つ失います。実際にもう一度失ってみて、ゲームオーバーのメッセージが表示されるか見てみましょう。
今、命が1つ残っていることに注目してください。何が起こるか見てみましょう。とても良いですね。ここに完全に機能するブロックブレイカーゲームがあります。また、たった1つのプロンプトで、ゼロショットで実現しました。o3-miniのコーディングにおける能力の高さがお分かりいただけると思います。
chat GPTに戻って、別のクールなアイデアを試してみましょう：「クイックソートを説明するアニメーションを作成し、調整可能な設定を含めてください。p5を使用してください」。このコードを全てコピーして、P5エディタに貼り付けて実行を押してみましょう。とても良いですね。クイックソートの動作をアニメーション化しているのが分かります。
とても良いですね。これは速度スライダーだと思うので、これをここまでスライドさせて、リセットを押して何が起こるか見てみましょう。はい、これでかなり速くなりました。もう少し遅くして、リセットをクリックしてみましょう。とても良いですね。これがo3-miniを使用する別の本当にクールな例です。
スポンサーのAbacus AIによるChat LLMというすごいツールについてお話しさせてください。これを使うと、最高のAIモデルを1つの統合プラットフォームで使用できます。さらに、新しいルートLLM機能があり、プロンプトに基づいて最適なLLMを自動的に選択します。チャットボットから直接画像を生成することもでき、最高の生成器であるFlux Proを使用しています。また、1つのプロンプトで動画を生成することもできます。
さらに、本当にクールなアーティファクト機能があり、コーディングや何かを構築している場合、アプリを横並びで表示して操作できます。Cod LLMと呼ばれる新しいコーディングツールもあります。これはVS Codeのように動作しますが、AIでパワーアップしています。横でAIとチャットしてコードを生成したり編集したりできます。さらにタブを押してコードを自動補完することもできます。これにより、はるかに速くコーディングできます。これは最高のAIモデルを1つのプラットフォームで使用する本当にパワフルな方法です。説明欄のリンクから試してみてください。
最後にAny Chatに戻りますが、Any Chatでもp5スクリプトを実行できます。その例をお見せしましょう。最後のプロンプトは「太陽系の3D表現を作成してください。ユーザーが調整できる設定を含めてください。p5を使用してください」。generateをクリックして見てみましょう。
これが結果です。全ての設定を調整してみましょう。シミュレーション速度、とても良いですね。これで惑星の軌道が速くなったり遅くなったりします。惑星のサイズスケールは惑星のサイズを調整します。とても良いですね。距離はズームインやズームアウトのようなものです。X回転はこのように動きます。とても良いですね。Y回転はこの線に沿って回転するだけなのであまり変化はありません。そしてZ回転はこのようになります。それも機能します。これをチェック解除すると、軌道パスが消えます。ここでもまた、全ての設定が完璧にゼロショットで機能しています。
もちろん、派手なアニメーションだけでなく、本当に難しい数学や科学、コーディングの問題を貼り付けることもでき、o3-miniはこれらの問題を解決するのに使える最高のモデルの1つです。簡単なデモとして、UC Davisのかなり複雑な大学レベルの物理の問題を貼り付けてみましょう。
2人の武将が同じ高度から同じカタパルトを互いに向けて狙っています。両者は相手を倒すために必要な計算を行い、同時にカタパルトを発射します。驚くべきことに、2つの石は空中で衝突せず、代わりにアレックスが発射した石はガンガスが発射した石の遥か下を通過します。ガンガスはカタパルトが発射されてから8秒後に倒され、アレクサンダーは4秒間だけ勝利を祝うことができました。
a) それぞれの岩が到達する最大高度を求めなさい
b) 岩が空中で通過する瞬間までの最大時間を求めなさい
c) 各武将が岩を発射する角度を求めなさい
私はかなり頭が悪く、これが何を意味するのかもほとんど理解できませんが、この問題をそのままchat GPTにコピー＆ペーストして、ここにハイフンを追加して綺麗にフォーマットし、generateをクリックしてみましょう。正しい答えが出せるか見てみましょう。
ここでも問題の解き方を考えているのが分かります。これを経て、ご覧のように多くの複雑な計算を行っています。これは非常に複雑な大学レベルの物理の問題です。全ての計算を経て、ここに最終的な答えが出ています。最大高度は78.4メートルと176.000メートルで、確認すると確かにaの答えです。bについては、石が通過する時間は4.8秒で、確認すると確かに4.8秒です。最後に発射角度については、アレックスは33.7度、ガンガスは56.3度で発射する必要があり、ここでもそれが見られます。完璧です。
これらのデモからo3-miniの強みがお分かりいただけたと思います。できる印象的なことの良い感覚を掴んでいただけたと思います。これは博士レベル以上のコーディング、数学、科学のモデルです。そのような分野で本当に難しい問題がある場合は、間違いなくこれに入力してください。これが使用すべき最高のモデルです。しかし、通常の文章作成やチャットについては、正直なところ、GPTやGemini、DeepSeekなど、どのモデルでも非常に上手く処理できます。o3-miniに入力する必要は本当にありません。
実際、スペックを見てみましょう。まず、これはo3-miniだけであり、o3と呼ばれるフルバージョンではないことに注目してください。o3の方がさらにパフォーマンスが高いです。開発者がAPIを通じて選択できる3つの異なるモデルがリリースされていることに注目してください。o3-miniのlow、medium、highがあり、もちろんhighバージョンが最もパフォーマンスが高いです。
実際、o3-mini highはo1（o1ミニではなくo1）を、競争的な最大数学や博士レベルの科学の質問、競争的なコーディング、ソフトウェアエンジニアリングのベンチマークで上回っています。ここには、今日から無料プランのユーザーは、メッセージコンポーザーでreasonを選択することでo3-miniを試すことができると書かれています。もちろん、無料ユーザーには1日に送信できるメッセージ数に制限があります。
有料プランについては、全ての有料ユーザーはモデルピッカーでo3-mini highを選択できるオプションがあり、これは応答生成に少し時間がかかりますが、より高い知性を持つバージョンです。Proユーザー（月額200ドルのプラン）は、o3-miniとo3-mini highの両方に無制限にアクセスできます。
無料プランではo3-miniの通常バージョンにのみアクセスできることに注意してください。これがo3-mini lowなのかmediumなのかは具体的に指定されていませんが、最もパフォーマンスの高いo3-mini highにアクセスするには、そのオプションを選択できる有料プランが必要です。
このリリースページの全てのベンチマークスコアは、o3-miniとo1モデルのみを比較していることに注意してください。DeepSeekなど他の企業と比較してどうなのか、本当に気になります。いくつかの独立したリーダーボードを見てみましょう。
これはAbacus AIによるLivebenchと呼ばれるリーダーボードです。グローバル平均でランク付けすると、まず、最もパフォーマンスの高いo3-miniモデル（highモデル）がDeepSeekやGoogleのGeminiを含む他のモデルを上回っていることに注目してください。ここで最も高くランクされています。
とはいえ、chat GPTで無料で使えるo3-mini mediumモデルは、GoogleのGemini 2.0 flashや最新のGemini 2.0 proモデルは上回っていますが、DeepSeek R1にはわずかに劣っています。これは本当に興味深いですね。ここでは、o3-mini mediumは推論の面ではDeepSeek R1を上回っていますが、コーディング、数学、データ分析、言語の面では劣っていることが分かります。
こちらも非常に興味深い結果です。これは別のリーダーボード、LM Arenaと呼ばれるもので、ユーザーが異なるAIモデルをブラインドテストできます。全てのブラインドテストに基づいて、これは本当に興味深いです。このリーダーボードではGoogleのGemini 2モデルがトップにあり、o3-miniは実は9位にいて、非思考モデルのDeepSeek V3と同点で、3位のDeepSeek R1よりもはるかに下にいます。非常に興味深い結果です。
これがo3-mini low、medium、highのどれなのかは指定されていませんでした。推測すると、これはlowかmediumバージョンの1つだと思います。Artificial Analysisによる別のリーダーボードを見て、品質でランク付けすると、興味深いことにこの場合o3-miniは2位にランクされ、品質スコア89でDeepSeek R1と同点です。
そして、人類最後の試験と呼ばれる別のベンチマーク（正直なところ、少し誤解を招く名前です）を見ると、これはAGIのテストでも何でもありません。ここには、これだけでは自律的な研究能力や人工汎用知能を示唆するものではないと書かれています。その代わり、人類最後の試験は、オープンエンドな研究や創造的な問題解決能力ではなく、構造化された学術的問題をテストするものです。基本的に、クローズドエンドの検証可能な質問や最先端の科学知識に関するAIの専門家レベルの性能をテストしています。
とにかく、主要なモデルは歴史的に全てかなり悪い成績でした。GPT-4oは100点中3.3点しか取れず、Geminiの思考モデルでさえ7.7点、o1は9.1点、DeepSeek R1でさえ9.4点しか取れませんでした。これはすでにかなり印象的ですが、o3-mini mediumとo3-mini highを見ると、これらが初めてこの試験で2桁のスコアを取ったモデルです。
正直なところ、私たちが今経験している進歩の速度から考えると、この人類最後の試験のベンチマークは今年中に打ち破られると思います。90%以上を取るAIモデルが出てくるでしょう。しかし、それは別の話です。
とにかく、このo3-miniに話を戻すと、これはまだo3-miniだけであり、本当にパフォーマンスの高いo3と呼ばれるフルバージョンではありません。これは別のベンチマーク、ARK AGIと呼ばれるものです。フルo3モデル（o3 lowとo3 high）がo1シリーズよりもはるかに優れていて、o1-miniはずっと下にあることに注目してください。
このグラフにo3-miniはマッピングされていませんでしたが、推測するとこの範囲のどこかにあると思います。ただし、o3-miniからo3への性能の飛躍は大きいことに注意してください。
このreasonボタンはo3-miniだけを使用できますが、今すぐo3を使用する方法があります。それは、今週リリースされたばかりの最新のディープリサーチ機能を使うことです。現在これは月額200ドルのプランのProユーザーのみが利用できます。これは基本的にフルバージョンのo3を使って実際にウェブを検索し、研究を行い、その結果を非常に素晴らしいレポートにまとめてくれます。財務分析や法的分析について尋ねることもできますし、科学論文全体を書かせることもできます。とにかく、現在o3を使用できる唯一の方法なので、簡単に言及しておきたかったのです。
これでo3-miniに関する私の動画は以上です。これを使って素晴らしく印象的なことができる良いアイデアを得ていただけたと思います。コメント欄で皆さんの意見を聞かせてください。どのデモが最も印象的でしたか？また、もし試してみた方がいれば、他にどんな面白いものを作ることができましたか？
いつも通り、私はトップのAIニュースやツールを探して皆さんと共有します。この動画を楽しんでいただけたなら、いいね、シェア、購読をお願いします。また、次のコンテンツもお楽しみに。AIの世界では毎週本当に多くのことが起こっているので、YouTubeチャンネルだけでは全てをカバーできません。AIで起こっていることを本当に最新の状態に保つために、無料の週刊ニュースレターを購読してください。リンクは説明欄にあります。視聴ありがとうございました。次回お会いしましょう。