ChatGPT o3 mini – 世界最高のモデルが無料で利用可能に

4,732 文字

ChatGPT o3 Mini - Best Model In The World & It's FREE

o3-mini is here and it's not clear who should be using this. I analyzed all the benchmarks and prepared some recommendat...

OpenAIがついに全ての人に公開したo3ミニは、あらゆるベンチマークにおいて、これまでで最も賢く、最高のモデルとなっています。このビデオでは、その使い方をご紹介します。有料プランを利用している方は、設定からo3ミニに切り替えることができます。しかし、これは直感的とは言えません。むしろその逆でしょう。01、01 Pro、o3ミニ、o3ミニHigh、そしてDeepSeekがありますが、これらは基本的に同じことをしています。予算に応じて、どのモデルを使うべきでしょうか。
このビデオでは、3つの質問に答えていきます。1つ目は、無料プランを使用している場合、つまり1ドルも支払う意思がない場合、現在利用できる最も賢いAIモデルは何か。2つ目は、予算に制限がなく、費用を気にしない場合に使うべきモデルは何か。世界最高のモデルが欲しい場合です。そして3つ目は、20ドルの予算でPlusプランなどを使用している場合、どのモデルを選ぶべきかです。
これらの質問に対する答えは、全てベンチマークに基づいています。このビデオでは、ランダムなテストケースや単発のプロンプトテストは行いません。それは別のコンテンツで行います。ここでは、リリース時に発表されたベンチマークのみを見ていきます。これらの思考モデルの焦点は、より科学的で、数学やコーディングに焦点を当てたユースケースにあるためです。これらは一つ一つ判断するのが非常に難しいため、ベンチマークに頼ることにします。雰囲気は別の話です。
データに基づいた推奨事項をご紹介します。今日使える最高のモデルは何か、見ていきましょう。非常にシンプルに、概要を用意しました。全てのベンチマークを私がまとめました。15秒ほどでお見せしますが、まず10秒ほど、このリリースがいかに混乱しているかについて話させてください。
自分で調べようとすると、本当にめちゃくちゃです。命名規則だけの問題ではありません。01、o3ミニ、o3ミニHighなどがあることだけの問題ではありません。DeepSeekは1つのモデルしかなく、R1と名付けているのでシンプルですが、彼らがリリースしたベンチマークは酷いものです。ChatGPT Proのブログ投稿には、o3ミニのブログ投稿に含まれる全てのベンチマークが含まれていません。
さらに、Code ForcesのベンチマークはここではElo値で表されていますが、別の場所では世界のパーセンタイルで表されています。そのため、各Eloがパーセンタイルでどういう意味を持つのか調べて、比較できるように変換する必要がありました。長い話を短くすると、これが私がまとめた全てです。
画面に表示されているものについて簡単に説明します。現在重要な全てのモデルが表示されています。ChatGPTの古い推論モデルである01、200ドルのProプランでのみ利用可能な01 Pro、そして新しくリリースされたo3ミニのLow設定、o3ミニMedium設定があります。なお、Low、Medium、Highは、モデルがどれだけ推論を行うかを指します。より多くの時間を推論に費やし、何かについてより多くの時間を考えると、全てのベンチマークでより良いパフォーマンスを示しますが、時間もかかります。
実際、o3ミニLowはChatGPTではテストできませんでした。これはAPI専用のもので、ブログ投稿によると、o3ミニLowは利用できないとのことです。無料プランで利用できるのはo3ミニMediumです。そして、o3ミニHigh、世界中で話題になっている多くの人が使用しているDeepSeek R1があります。
黄色いシャープペンで、最高値を丸で囲みました。見ての通り、o3ミニHighは全体的に素晴らしい結果を示しています。下部の速度の数値は、過去1時間で私が作成した主観的なベンチマークです。塩粒一つではなく、トラック一台分の塩を加えて考えてください。
しかし、それなりの価値があると思います。基本的に、同じプロンプトを01 Proで3回、o3ミニで3回、全てのモデルで3回実行し、その平均を秒単位で算出しました。見ての通り、古い01が最速で、予想通り01 Proが圧倒的に最も遅いという結果になりました。
これらの結果に基づいて、推奨事項を見ていきましょう。予算に制限がなく、費用を気にせず最高のモデルを求める場合はどうでしょうか。おそらくChatGPT Proプランの01を使用することになりますが、もはやその必要はありません。見ての通り、o3ミニのHigh設定は、これらのベンチマークでChatGPT Proを上回っています。
ただし、一つ注意点があります。ChatGPTのブログ投稿で公開された数値、例えば01の数値が、新しいo3のブログ投稿と一致しないのです。そのため、これは少し混乱すると言っています。01 Proの評価について注意が必要です。競技数学で01が78点、そしてo3ミニの競技数学で同じベンチマークなのに突然01が83点になっています。ここでは78点だったのに、今度は83点です。
その理由は分かりませんが、基本的に01 Proについて、インターネットとOpenAIから見つけられた唯一のベンチマークの数値を使用しました。それらをo3ミニのHigh設定と比較すると、全体的に勝っています。そのため、最も賢いモデルだけを求めているのであれば、200ドルのプランを支払う必要は実際にはありません。
他にも多くのポイントがあります。例えば、レート制限がないことです。o3ミニProはレート制限があります。これについては、トップコメントの説明に記載します。彼らはこれを変更し続けているので、トップコメントにピン留めすることにします。他のモデルはパフォーマンスが劣ります。
見ての通り、200ドルのプランは必要ありません。オペレーターが欲しい場合、レート制限なしが欲しい場合、無制限の高度な音声モード、無制限のSora、これら素晴らしい機能が多くの人にとって十分な価値があると思いますが、特にオペレーターは多くの人にとって重要です。しかし、最も賢いモデルのためだけなら必要ありません。
次に、このビデオの2つ目の質問に移りましょう。プレミアムプランに20ドル支払いたい場合、または支払っている場合、どのモデルを使用すべきでしょうか。見ての通り、o3ミニのHigh設定が最高のパフォーマンスを示しているので、それを使用すべきです。
DeepSeek R1よりも優れたベンチマーク結果が得られ、速度も優れています。ただし、これは秒単位なので、低い方が良いです。ここで見ると、60秒は95秒より速いので、それが優れています。そして全ての値がDeepSeek R1の値より高いです。これがこのリリースのポイントです。DeepSeekの使用をやめて、より良いモデルを使おうということをOpenAIはここで示しています。
これが有料ユーザーへの推奨事項です。では、無料ユーザーはどうでしょうか。これが最も重要だと思います。世界中の最も多くの人々に影響を与えるからです。AIアシスタントにお金を支払う意思がなく、最高のモデルを求める場合はどうでしょうか。
私の考えでは、そしてこれらの数値によると、OpenAIがそれをリリースした理由だと思いますが、無料プランでo3ミニを使用すべきです。全ての人が無料プランでそれを使えるようになりました。おそらく先週DeepSeekが登場しなければ、彼らはこれを一般公開することはなかったでしょう。
o3ミニはMedium設定で、見ての通り、数理科学で80対80、77対72でo3ミニMediumが勝利、コードで96対96で同点、ソフトウェアエンジニアリングベンチでは実際にDeepSeek R1の方が良いパフォーマンスを示しています。そのため、その特定のベンチマークを重視する場合は、DeepSeek R1を使用すべきです。
しかし、結果の生成に平均してかかった時間は32秒で、DeepSeekは平均95秒、3倍の時間がかかりました。そのため、ほとんどのベンチマークでの優れたパフォーマンスと、はるかに優れた時間により、無料のChatGPTプランでo3ミニを使用することを今後お勧めします。最高で最も賢いAIを求める場合です。
さらにChatGPTには、より多くのツール、カスタム指示、ファイル添付などの機能があるので、その意味でも優れた製品です。最も賢いモデルが欲しい場合は、Medium設定のo3ミニ、またはインターフェースでは、ここにあるo3ミニが今日使える最高のモデルです。基本的に、ChatGPTが王冠を取り戻したということです。
これが役立つことを願っています。最後に一点あります。多くの人が質問しています。これらの新しい推論モデルは非常に強力に見え、実際に強力で、私も素晴らしく使っていますが、これらを何に使うべきでしょうか。
結局のところ、私はこのチャンネルを、消費者向けの全てのAIツールと、それらを使って生活をより良くする方法に焦点を当てようとしています。これらのモデルは、以前の世代のAIモデルよりも特定の点で優れています。多くの人が最近言うように、GPT-4oやSonnet 3.5、そしてLlamaなどは、計画や大局的な思考が得意です。
このビデオではそれについて話しませんが、すでに作成した2つのリソースを紹介します。実際、1つは現在実施している対話型のオープンで完全に無料のコミュニティチャレンジです。これは、AI Advantageの公開エリアで行っている最も素晴らしいことの1つだと思います。
基本的に、このスペースがあります。アカウントさえ必要ありません。この全エリアを見ることができます。全てを閉じて、ここ下部に公開チャレンジがあります。基本的に、このチャンネルの視聴者全員に、01、現在はo3、またはDeepSeek、どれでも構いませんが、最高のユースケースは何かと尋ねています。
そして、複数のコミュニティメンバーが最高のユースケースをここで共有しています。本当に素晴らしいものがあります。例えば、請求書の分割と財務アドバイザー、または01やDeepSeekを個人の科学研究ラボに変えること、前回のビデオで見たこの例は本当に素晴らしく、実行可能なファイルがダウンロードでき、下部では人々が使用している様子やこれらの新しいモデルでHRを革新する方法などについての議論があります。
これら全ての異なるアプローチなどを見ることができ、2月3日に公開チャレンジ、公開ストリームを行う予定でした。2月3日にここでの全ての結果を見て、ユースケースについてより深く話し合う予定です。
さらに、チャンネルにはもう1つ、01についてより詳しく説明したビデオがあります。ここで表示しますが、説明欄にリンクを貼ります。o3の使用に関する全てを扱ったビデオです。リンクは下に貼っておきます。
コミュニティからのユースケース、私の考えを全て共有した別のビデオがあります。翻訳、書き直し、より多くの計画を必要とするビジネス活動に本当に優れています。これが私にとっての3つの大きな無料のユースケースです。有料ユーザーの場合はo3ミニHigh、無料ユーザーの場合はChatGPT o3ミニを使用すれば、世界最高のモデルが手に入ります。
これが役立つことを願っています。少し混乱するリリースでしたが、これで明確になったことを願っています。楽しんでください。