OpenAIがo3を発表! AGI達成!

9,744 文字

OpenAI Unveils o3! AGI ACHIEVED!
The future is here! O3 announces a groundbreaking milestone: achieving AGI!Join My Newsletter for Regular AI Updates 👇🏼 ...

OpenAIがついにo3をリリースしました。これはAGIであり、コメント欄で炎上する前に、なぜそう言えるのか説明させてください。OpenAIがそう言っており、アークプライズがそれを実証しています。結果を見れば驚くことでしょう。現時点で他のどのモデルよりもはるかに優れています。
このイベントの最終日に、私たちは1つのフロンティアモデルから次のフロンティアモデルへと移行することにしました。このフロンティアモデルについてお話ししますが、論理的にはO2と呼ばれるべきかもしれません。しかし、テリカの友人たちへの敬意を表して、そしてOpenAIの伝統的な命名センスの悪さにちなんで、o3と呼ぶことにしました。
そうです。これが次のフロンティアモデルです。これはo1を超えるものであり、確かにO2はテレコム企業の「o02」という名前との著作権問題を避けるためにスキップしなければなりませんでした。これはo1を超える全く新しい次世代フロンティアモデルです。o1を手に入れたばかりのような感覚なのに、考えられないほどです。彼が推論について言及する時、それはテストタイム計算のことを指しています。これらのモデルに問題を考え抜いて解決策を見出すための十分な時間を与えることができるのです。これは次世代のモデル、次世代のAIテクノロジーなのです。
実際、今日は2つのモデルを発表します。o3とo3ミニです。o3は非常に賢いモデルで、o3ミニも信じられないほど賢く、パフォーマンスとコストのバランスが優れています。まず悪いニュースですが、今日は一般公開はしません。良いニュースは、本日からパブリックセーフティテストのために応募することができます。
彼が言ったように、実際のモデルはまだ入手できず、遊ぶこともできません。入手次第、完全なテストを行う予定ですが、ベンチマークを見ることはできます。アークプライズだけでなく、もちろん数学、コーディング、推論など、あらゆる面でベンチマークを行い、その結果は驚くべきものでした。他のどのモデルよりもはるかに優れています。
これらのモデルを一般に公開する時期については後ほどお話ししますが、その性能をお見せし、デモもお見せできることに非常に興奮しています。それでは、マークに話を譲りたいと思います。
ありがとうございます、サム。私はマークと申します。OpenAIで研究を率いています。o3の能力について少しお話ししたいと思います。o3は非常に難しい技術的ベンチマークにおいて非常に強力なモデルです。まずコーディングベンチマークから始めたいと思います。
ソフトウェアスタイルのベンチマークでは、実世界のソフトウェアタスクで構成されるスイートベンチ検証があります。まずベンチマークを見てみましょう。o1プレビュー、o1、そしてo3が71.7%です。スイートベンチベンチマークは最高のコーディングベンチマークで、実世界のコーディングタスクであり、o3は71.7%の達成率を示しています。これは他のどのモデルよりもはるかに優れており、o1よりもはるかに優れています。
右側では競技コードベンチマークを見ることができ、Y軸にELOスコアがあります。o1プレビュー、o1、そしてここまで上がっているo3は、絶対的に優れたパフォーマンスを示しています。o3のパフォーマンスは約71.7%の精度で、これはo1モデルより20%以上優れています。
これは実用性のフロンティアを本当に上り詰めていることを示しています。競技コードでは、o1は「コードフォース」というコンテストコーディングサイトで約1891のELOを達成しています。最も積極的な高テストタイム計算設定では、ほぼ2727のELOを達成することができます。
マークは競技プログラマーで、現在も競技プログラミングを指導しています。あなたの最高スコアはどのくらいですか?私の場合、同様のサイトで約2500でした。それは難しいですね。
ここで何が起きたのか分析してみましょう。そしてAGIについてもう一度言及します。まず、少なくともサム・アルトマンとOpenAIによるAGIの定義とは何でしょうか。AGIとは、ほとんどの経済的に実行可能な仕事で人間を上回るAIのことです。このマーク、OpenAIの研究責任者であり競技コーダーでもある彼は、競技コードベンチマークでo3に負けました。
もしこれが少なくともこの側面でのAGIでないとすれば、AGIとは何なのでしょうか。チェスで考えてみましょう。世界最高のマグヌス・カールセンのランキングはELOで2831です。最高のAIチェスエンジンは3700以上です。これはAIが今やチェスやコーディングといった異なる分野で私たちの最高の能力を超えたことを示しています。
これがAGI達成の証拠の1つです。そして、もう一つ言及したいことがあります。OpenAIは技術的にAGIが達成されたとは言えません。言えますが、問題があります。彼らのシステムの1つをAGIと定義した途端、マイクロソフトはそれにアクセスできなくなります。それは彼らの憲章に書かれています。
続きを見ていきましょう。私たちのチーフサイエンティストのヤコフのスコアよりも優れています。OpenAIには300点台の人がまだ1人いると思います。あと数ヶ月は楽しめそうですね。素晴らしい、このモデルは驚くべきプログラミング能力を持っています。
プログラミングだけでなく、数学も同様です。競技数学のベンチマークでも、競技プログラミングと同様に非常に強力なスコアを達成しています。ここで一旦止めましょう。競技数学ベンチマークで96.7%、ほぼ完璧なスコアです。これは数学マシンです。
右側では博士レベルの科学の質問で、o1プレビューとo1よりも10ポイント近く高いスコアを示しています。これは新しいフロンティアモデルo3にとって大きな進歩です。o3は約96.7%の精度を達成し、o1の83.3%と比較して大きく上回っています。
エイミー、あなたの最高スコアは?一度だけ満点を取ったことがあります。だから私は安全ですが、はい。それは本当に印象的ですね。彼は満点を取りました。すごい!マーク、OpenAIの研究責任者をほぼ打ち負かしているわけです。
これが意味することは、o3がアメリカ数学オリンピックの非常に難しい予選試験で、テストするたびにたった1問しか間違えないということです。GPQダイアモンドという別の非常に難しいベンチマークがあり、これは博士レベルの科学の質問に対するモデルのパフォーマンスを測定します。
ここでも87.7%という最先端の数字を達成し、これはo1の78%よりも約10%優れています。これらのベンチマーク、特に博士レベルの科学ベンチマークがなぜそれほど重要なのか説明しましょう。
状況認識論文によると、インテリジェンス・エクスプロージョンを開始するための要件の1つは、自己研究と自己改善ができるAIを持つことです。そして、もしあなたが数学のフロンティア、科学のフロンティアにいて、実際に新しい科学を発見し、新しい数学を発見し、そしてそれらの新しい発見を自身に適用できるモデルを持っているとすれば、それはまさにインテリジェンス・エクスプロージョンに到達するために必要なものの定義です。
そしてそれが今ここで見ているものです。自動化されたAI研究です。o3モデルを100万回クローンして実行し、無期限に自己改善させることができるのです。考えるだけでもクレイジーです。
これを理解するために、専門のPh.D.を持つ人は通常、自分の専門分野で約70%の成績を収めます。これらのベンチマークから気付くかもしれませんが、多くのベンチマークで飽和に達している、あるいは飽和に近づいているということです。
この1年で、本当により難しいベンチマークが必要だということが強調されました。フロンティアモデルが実際にどこにいるのかを正確に評価するためです。彼がどこに向かおうとしているのか分かりますか?私はビデオの冒頭ですでにヒントを出しましたが、彼は正しいです。これらのベンチマークは飽和状態になっており、基本的に克服されているか、それに近い状態です。
だからこそ、非常に難しいベンチマーク、それが本当にAGIなのかどうかをテストする何かを持つことが重要なのです。見続けましょう。ここ数ヶ月の間に、いくつかの有望なものが現れてきました。特に1つ挙げたいのは、エピックAIのフロンティア数学ベンチマークです。
ご覧のように、以前お見せしたベンチマークよりもスコアが低く見えます。これは今日、最も難しい数学ベンチマークと考えられているからです。これは未公開の新しい問題で構成されたデータセットで、非常に難しいものから極めて難しいものまであります。
プロの数学者でも1つの問題を解くのに何時間も、場合によっては何日もかかるような問題です。今日、このベンチマークで2%未満の精度しか達成できていない提供物はありません。しかし、o3では積極的なテスト時間設定で25%以上を達成できています。これは、これまでのすべてのものと比較して10倍の改善です。これは驚くべきことです。
エピックAIフロンティア数学ベンチマークに加えて、もう1つサプライズがあります。ここでアークベンチマークについてお話ししたいと思いますが、アーク財団の代表であるグレッグを招いてこのベンチマークについて話してもらいたいと思います。
サムとマーク、今日は呼んでいただきありがとうございます。もちろんです。グレッグ・キャメロン氏です。彼とはたくさん話をしました。とても素晴らしい、親切な人です。そう、彼はアークベンチマークを運営しています。彼がここにいるのを見るのは本当に素晴らしいことです。
皆さん、こんにちは。私はグレッグ・キャメラッドと申します。アークプライズ財団の代表を務めています。アークプライズは、持続的なベンチマークを通じてAGIへの北極星となることを目的とした非営利団体です。
私たちの最初のベンチマーク、アークAGIは、2019年にフランソワ・ショレが「知性の測定」に関する論文で開発しました。しかし、5年間誰も打ち破ることができませんでした。AI界では、それは何世紀も経ったように感じられます。アークAGIを打ち破るシステムは、汎用知能への重要なマイルストーンとなるでしょう。
しかし、今日は新しい最先端のスコアを発表できることを嬉しく思います。その前に、アークAGIとは何かについてお話ししたいと思います。ここで例をお見せしたいと思います。アークAGIは入力例と出力例に関するものです。目標は、変換のルールを理解し、出力を推測することです。
サム、ここで何が起きていると思いますか?空いているスペースに濃い青の四角を置くということですね。その通りです。これは人間にとって直感的に推測するのは簡単ですが、AIにとっては何が起きているのか理解するのは驚くほど難しいのです。
もう1つ難しい例をお見せしたいと思います。マーク、あなたにこのタスクで何が起きているか当ててもらいましょう。これらの黄色い四角それぞれを取り、色付きの四角の数を数えて、そのリストの境界を作成するということですね。その通りです。ほとんどの人よりも早かったですね、おめでとうございます。
面白いことに、AIはこれまでこの問題を解くことができませんでした。私たちが人間のパネルでこれが実際に解けることを確認したにもかかわらずです。
アークAGIのユニークな点は、各タスクが異なるスキルを必要とすることです。つまり、青い四角で角を埋めるような同じタスクを再度依頼することはありません。それは意図的に行っています。その理由は、モデルがその場で新しいスキルを学習する能力をテストしたいからです。すでに記憶していることを単に繰り返すだけではいけません。それがここでの要点です。
アークAGIバージョン1は、最先端モデルで0%から5%に到達するのに5年かかりました。しかし今日、o3が新しい最先端スコアを達成したことを非常に嬉しく発表できます。低計算で、o3はアークAIのセミプライベートホールドアウトセットで75.7を達成しました。これは非常に印象的です。なぜなら、これは私たちのパブリックリーダーボードの計算要件内であり、アークAGIパブの新しい1位のエントリーとなるからです。
さらに、能力のデモンストレーションとして、o3にもっと長く考えさせ、実際に高計算にランプアップすると、o3は同じ隠されたホールドアウトセットで87.5%を達成することができました。これは特に重要です。なぜなら、人間のパフォーマンスは85%の閾値で同等だからです。これを超えることは大きなマイルストーンであり、これまでこれを達成したシステムやモデルをテストしたことはありません。
これがポイント2です。なぜこれがAGIなのか、そしてちなみに、もし反対意見があれば下のコメントで教えてください。これはクリックベイトではありません。これは真実です。85%が人間の平均で、今o3がそれを超え、本質的に博士レベルの科学、専門家レベルの数学を超えたとすれば、AGIの定義として何が残っているのでしょうか?
アークAIの世界では、これは新しい領域です。おめでとうございます。素晴らしいベンチマークを作ってくれてありがとうございます。これらのスコアを見ると、私は少し世界観を変える必要があります。AIが実際に何をできるのか、特にこのo3の世界で何が可能なのかについて、私のAIに対する直感を修正する必要があります。
しかし、仕事はまだ終わっていません。これはまだAIの初期段階です。アークAGIのような持続的なベンチマークが、進歩を測定し導くために必要です。その進歩を加速することに興奮しており、来年OpenAIと協力して次のフロンティアベンチマークを開発することを楽しみにしています。
素晴らしいですね。これは長い間私たちの目標としてきたベンチマークでもありました。将来の協力を楽しみにしています。言及する価値があるのは、私たちは特にこれを目標にしていたわけではなく、素晴らしいベンチマークだと考えているということです。これは単に一般的なo3の結果なのです。
はい、そうですね。パートナーシップに感謝しており、これは楽しい作業でした。このような素晴らしい結果が出ましたが、アークプライズは2025年も継続され、詳細はARC PRI.orgで確認できます。
ありがとうございます。ちなみに、アークプライズには100万ドルの賞金があり、それがOpenAIに行くかもしれません。小さなチームに行ってほしいと思いますが、それはそれとして。
次は、o3ミニについて話しましょう。o3ミニは私たちが本当に興奮しているものです。モデルをトレーニングしたホングーが出てきて説明してくれます。o3だけでなく、ミニバージョンも手に入れることができ、これはより安価で、より速く、おそらくほぼ同等のパフォーマンスを発揮するでしょう。
こんにちは、私はホングーラン、OpenAIの研究者で推論を研究しています。今年9月、私たちはo1ミニをリリースしました。これはo1ファミリーの効率的な推論モデルで、低コストで世界最高クラスの数学とコーディング能力を持っています。
今回、o3とともに、o3ファミリーの全く新しいモデルであるo3ミニについてお話しできることを非常に嬉しく思います。これは新しいコスト効率の高い推論フロンティアを真に定義するものです。素晴らしいですね。今日はまだユーザーに提供できませんが、モデルのテストのために安全性とセキュリティの研究者に公開しています。
数日前にAPIで適応的思考時間を導入したことで、o3ミニは低、中、高の3つの異なる推論努力オプションをサポートします。ユーザーは異なるユースケースに基づいて自由に思考時間を調整することができます。
これは本当に素晴らしいですね。もしすでにユースケースを知っていて、これがより簡単な問題かより難しい問題かを知っていれば、それに応じて設定を調整でき、おそらくそうすることで多くのお金を節約できるでしょう。
例えば、より複雑な問題にはモデルにより長く考えさせ、より単純な問題には短く考えさせるかもしれません。それでは、o3ミニの最初の一連の評価をお見せしましょう。
左側はコーディング、コードフォースのELOで、これはプログラマーがどれだけ優秀かを測定するもので、高いほど良いです。グラフで見られるように、思考時間が増えるとo3ミニのELOは向上し、o1ミニを上回ります。中程度の思考時間でもo1よりも優れたパフォーマンスを発揮できます。
つまり、桁違いのスピードとコストで、同じコードパフォーマンスを実現できるということですね。ウルトラ中高は、まだマークより数百ポイント低いですが、それほど遠くありません。私よりはおそらく優れています。o1で提供できたものと比べて、コストとパフォーマンスの点で信じられないような進歩です。ユーザーは本当に気に入ると思います。
そうですね。右側のプロットでは、コードフォースのELOに対する推定コストのトレードオフを示しています。o3ミニが新しいコスト効率の高い推論フロンティアを定義していることは明らかです。o1と比べて、わずかなコストでより優れたパフォーマンスを実現しています。
素晴らしいですね。それでは、o3ミニのライブデモをしたいと思います。では、見てみましょう。まずo3ミニハイをテストしています。タスクは、Pythonを使用してコードジェネレーターとエグゼキューターを実装することです。
このPythonスクリプトを実行すると、テキストボックスを含むUIを持つサーバーがローカルで起動します。テキストボックスでコーディングリクエストを行うと、それをo3ミニAPIに送信し、o3ミニAPIがタスクを解決してコードを返します。そのコードをローカルのデスクトップに保存し、自動的にターミナルを開いて実行します。これはかなり複雑な処理ですね。
また、大きな三角形のコードも入れています。このコードをコピーしてサーバーに貼り付け、サーバーを起動すると、テキストボックスが表示されるはずです。何かが起動しているようですね。素晴らしい、コーディングプロンプトを入力できるUIができました。
簡単なものを試してみましょう。「試してオープンAI」というランダムな数字を送信します。リクエストをo3ミニミディアムに送信していますので、かなり速いはずです。はい、41という数字が出ました。生成されたコードをデスクトップのローカルスクリプトに保存し、OpenAIの値を出力しています。他に試してみたいタスクはありますか?
自身のGPQA数値を取得できるか試してみたらどうですか?それはまさに期待していた質問です。昨日たくさん練習しました。では、コードをコピーしてコードUIに送信してみましょう。
このタスクでは、難しいGPQデータセットに対して低推論努力のo3ミニを評価するようモデルに依頼しています。モデルはまずこのURLから生のファイルをダウンロードし、どの部分が質問で、どの部分が答えで、どの部分が選択肢なのかを判断する必要があります。そして、すべての質問を作成し、モデルに回答させ、結果を解析して評価します。
それは本当に速いですね。o3ミニを低推論努力で呼び出しているので、実際に非常に速いのです。どうなるか見てみましょう。2つのタスクは本当に難しいですね。
ライブデモ中ですが、待っている間にリクエストをもう一度見せていただけますか?ああ、実際に結果が返ってきました。61.6%、62%ですね。これは低推論努力のモデルなので、実際にかなり速いです。1分以内に完全な評価を行いました。
モデルに自身を評価させるのは本当に面白いですね。その通りです。モデルが自身を評価することについて言えば、もちろんそこにはたくさんのリスクがあります。この1週間、トレーニング時にモデルが基本的にサンドバッグを作り、計画を立て、アライメントを偽装することについて多く話してきました。これがすべて何を意味するのか見てみましょう。しかし、これは非常に興味深いことです。
私たちが今行ったことをまとめると、モデルに自身を評価するスクリプトを書くように依頼しました。この難しいGQセットを通じて、最初にモデル自身が作成したコードジェネレーターとエグゼキューターからのUIを使用して評価を行いました。来年は、モデルに改善を依頼する必要がありますね。
はい、次回はモデルに改善を依頼しましょう。たぶんそうしないかもしれませんが。コードフォースとGPQ以外にも、このモデルは非常に優れた数学モデルです。このAM 2024データセットのプロットで示されているように、o3ミニローはo1ミニと同等のパフォーマンスを達成し、o3ミニミディアムはo1よりも優れたパフォーマンスを達成しています。
実線のバーは合格を示しており、o3ミニハイでさらにパフォーマンスを向上させることができます。右側のプロットでは、この匿名化されたoプレビュートラフィックでレイテンシーを測定すると、o3ミニローはo1ミニのレイテンシーを大幅に削減し、GPT-4とほぼ同等の1秒未満のレイテンシーを実現しています。
o3ミニミディアムはo1の半分のレイテンシーです。そして、開発者コミュニティから多くのリクエストを受けている関数呼び出し、構造化出力、開発者メッセージなどのAPI機能についても、さらに興奮する評価セットをお見せしたいと思います。
これらは、AIでコーディングを行う場合や、AIでエージェントを構築する場合に重要になるベンチマークです。ツール呼び出しは、o3ミニで全体的にほぼ完璧です。非常に印象的です。o3ミニシリーズのモデルは、o1と同様にこれらの機能をすべてサポートし、ほとんどの評価でo1と同等かそれ以上のパフォーマンスを発揮し、開発者により費用対効果の高いソリューションを提供します。
素晴らしいですね。そして、数日前に実行した真のGPQダイアモンドのパフォーマンスを公開すると、実際にo3ミニLは62%でした。基本的にモデルに自身を評価させました。次回は、自動的に評価を行うようモデルに依頼すべきですね。
以上がo3ミニについての説明です。来年には、ユーザーの皆様がさらに良いユーザー体験を得られることを願っています。素晴らしい仕事ですね。ありがとうございます。
これを自分の手で試してみたいと思っていることは分かっています。私たちは、モデルの上にいくつかの安全性の介入を行うためのポストトレーニングに一生懸命取り組んでおり、現在多くの内部安全性テストを行っています。しかし、今回新しく行うのは、o3ミニから始めて、最終的にはo3も含めて、外部の安全性テストのためにこのモデルを公開することです。
安全性研究者やセキュリティ研究者として早期アクセスを得るにはどうすればよいでしょうか?私たちのウェブサイトにアクセスすると、画面に表示されているようなフォームが見られます。このフォームへの申請は随時受け付けており、1月10日に締め切られます。ぜひ応募してください。皆さんがどのようなものを探求し、どのようなジェイルブレイクやその他の発見をするのか、楽しみにしています。
これがo3とo3ミニに関するすべての発表です。これは本当に驚くべきことです。テストするのが本当に楽しみです。もっと詳しく調べて、おそらく別の動画でいくつかの考えをまとめようと思います。この動画を楽しんでいただけたなら、ぜひいいねと登録をお願いします。次回の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました