OpenAIのo3 Miniを6分で解説 🚀

3,179 文字

YouTube
作成した動画を友だち、家族、世界中の人たちと共有

現在、リリースされました。OpenAIはついにO3 miniを公開しました。この動画の録画時点で、チャットGPTユーザー向けに順次展開中です。ブログ投稿を読み上げながら、いくつかのベンチマークも確認していきます。O3 miniは、チャットGPTおよびAPIの両方で、推論シリーズの中で最新かつ最もコスト効率に優れたモデルです。昨年のクリスマス直前に最後の発表としてプレビューされた際には、この強力で高速なモデルが、小型モデルが達成可能な限界を押し広げると紹介されました。特に科学、数学、コーディングにおける卓越したSTEM能力を発揮しつつ、低コストかつ低遅延のOpenAI体験を維持しています。

さらに、このモデルは、これまで多くのリクエストがあった開発者向け機能――関数呼び出し、構造化出力、開発者メッセージ――に対応する初の小型推論モデルとなりました。これにより、多くのプロダクション環境において、ストリーミングがサポートされ、低、中、高の推論努力オプションの間で選択可能になります。これらの切り替え機能の意味するところは、O3 miniが最終的な回答を出す前に、特定のタスクについてどれだけ深く考えるかをユーザーが選べるということです。

録画時点では、O3 miniはビジョン機能に対応していないため、視覚的推論タスクについては引き続きOpenAIのo1モデルを使用する必要があります。O3 miniは本日、チャット完了API、アシスタントAPI、バッジAPIを通じて、一部の開発者向けに展開中です。API利用ティア3から5に所属している場合、これまでAPIを通じて少なくとも100ドルを消費していた必要がありました。

チャットGPTに関しては、これはチャットGPTプラス、チーム、そしてプロユーザー向けに展開され、今日からO3 miniにアクセス可能です。エンタープライズ向けアクセスは1週間後に提供予定です。O3 miniはモデルピッカーにおいてA1 Miniに取って代わり、より高いレート制限と低遅延を実現しているため、コーディング、STEM、論理的問題解決において魅力的な選択肢となります。

今回のアップデートの一環として、プラスおよびチームメンバー向けのレート制限を、Miniでは1日50メッセージからO3 miniでは1日1050メッセージに3倍に増やしました。加えて、関連するウェブソースから最新情報を取り込む機能が追加されました。これは、Perplexityや検索機能、最近登場したDeep Seekのような機能に類似しており、推論を行う前に実際に検索を行い、インターネットから情報を取得するため、今日の出来事などについての情報も得られるようになりました。

また、本日から無料プランのユーザーも、メッセージ作成画面で推論オプションを選択するか、回答を生成することで、OpenAIのO3 miniを試すことが可能です。O3 miniは、中程度の推論努力を使用しており、速度と正確性のバランスが取れた結果を提供します。全ての有料ユーザーには、モデルピッカーで「mini high」を選択するオプションがあり、より高い知性を発揮するバージョン(応答生成にやや時間がかかる)が利用可能です。プロユーザーは、O3 miniおよびO3 mini highの両方に無制限でアクセスできます。

このモデルはSTEMに最適化されており、中程度の推論努力をかけたO3 miniは、数学、コーディング、科学においてo1のパフォーマンスに匹敵し、より速い応答を実現しています。専門家のテスターによる評価では、O3 miniは、01 miniよりも正確で賢明な回答を生み出し、より強力な推論能力を持つとされています。テスターは、O3 miniの回答を01 miniより56%の割合で好み、困難な実世界の問題において主要なエラーが39%減少したと報告しています。中程度の推論努力の場合、miniは、AimeやGP QAなど、最も難しい推論課題においてもo1のパフォーマンスに匹敵する結果を示しています。

まず、競技数学においては、high設定が従来のすべての推論モデルを上回る性能を発揮しているのが確認されます。中程度の推論努力では、01 miniに対してほぼ勝る結果を出しており、中程度あるいは低の推論努力によっては、ベンチマークによっては01 miniを完全には上回らない場合もあります。博士レベルの科学的な質問に関しては、このモデルは非常に良好なパフォーマンスを示しており、01 miniを上回る速さを実現していますが、Frontier Mathに関しては、01 previewやo1に比べて若干劣る結果となっています。具体的には、01 miniおよびo1がそれぞれ5.8および5.5だったのに対し、今回のモデルは9.2%のスコアを記録しています。競技プログラミングにおいては、ELOが2130と、低い推論努力設定でもほぼすべてのモデルを上回る、現在で最も優れたモデルであることが示されています。ソフトウェアエンジニアリングのベンチマークでは、high推論努力時で49.9というスコアを記録しています。

さらに、いくつかのその他の指標についても簡単に触れますと、人間の好み評価において、01 miniに対する勝率が大幅に高く、最初のトークンが出るまでの平均時間も01 miniより短いことが確認されています。見たところ、約2.5秒早く応答を生成できるようです。

次に、今後の展開ですが、今回のOpenAIのO3 miniのリリースは、低コストで効果的な知性の境界を押し広げるというOpenAIのミッションに向けたさらなる一歩であると述べられています。STEM分野における推論を最適化しながらコストを抑え、高品質なAIをより一層手頃にするための取り組みの一環として、GPT-4のローンチ以降、トークン単価を95%削減しつつも、トップクラスの推論能力を維持するという目標に沿った進化を遂げています。AIの採用が拡大する中で、知性、効率、安全性を大規模に両立させるモデルの構築に邁進していくとのことです。

録画時点では、私はまだO3 miniに完全なアクセス権を持っていません。チャットGPTプラスティアは保有しているものの、ブログ投稿内で述べられている通り、本日から順次展開される予定です。入力トークン1百万あたりの料金は1,10ドル、出力トークンは1,000万あたり440ドルとなっています。知識のカットオフはO3 miniの場合、2023年10月までとなり、コンテキストウィンドウは最大200,000トークン、または最大100,000トークンの受信が可能です。これは、o1モデルと同じコンテキストウィンドウのサイズです。

最後に、動作確認のために、私が取り組んでいるアプリケーションの一例でO3 miniの挙動をお見せします。たとえば、「ReactでHacker Newsのクローンを生成して」と指示すると、読み込みと推論を行って約7秒後に応答が生成されます。ここで確認すると、Hacker Newsのクローンが生成され、関連ソースへのリンクがライブ情報として取得される様子が見て取れます。リンクをクリックすると、数分前に公開されたブログ投稿へ直接アクセスできるようになっています。

皆さんのこのモデルに対するご意見はいかがでしょうか。今後のアプリケーションで、このモデルを他のモデルと入れ替えて使用する予定はありますか。ぜひ、コメントで皆さんのご意見をお聞かせください。もしこの動画が役に立ったと思われたら、いいね、コメント、シェア、そしてチャンネル登録をお願いします。以上です。

コメント

タイトルとURLをコピーしました