OpenAI O3モデル – サムはクリスマスにAGIを届けたのか?

9,479 文字

YouTube
作成した動画を友だち、家族、世界中の人たちと共有

みなさんこんにちは、Matt vidpro AIのYouTubeチャンネルへようこそ。これがクリスマスシーズン前の最後の動画になりますので、皆様にメリークリスマスをお祈りします。クリスマスを祝わない方々には、ハッピーホリデーを。
3日前、私たちはOpenAIから最後の発表を受けました。これはOpenAIの12日間の最終日で、文字通り情報提供だけでした。新しい最上位モデルへのアクセスは得られませんでしたが、その情報がOpenAIから共有されました。興味深いことに、3日後の現在でもOpenAIからのブログ投稿はありません。利用可能だったのは20分間のOpenAIのライブストリームだけでしたが、ベンチマークやその他の情報が満載でした。
見ての通り、これはOpenAI O3とO3ミニです。明らかにこれは推論モデルファミリーの一部です。現在ChatGPTで利用可能なO1シリーズですが、ここで疑問が生じます。OpenAI、O2はどうなったのでしょう?現在アクセスできるモデルは全てO1なのに、なぜO3にジャンプしたのでしょうか?おそらくモデルが非常に優れているため、O3と呼ばれることになったのでしょう。
実際にライブストリームを見てみましょう。これを私たちは、AIの次の段階の始まりと考えています。これらのモデルを使って、多くの推論を必要とする、ますます複雑なタスクを実行できるようになります。この12日間のイベントの最終日として、1つのフロンティアモデルから次のフロンティアモデルへと移行するのは楽しいだろうと考えました。
今日は次のフロンティアモデルについて話します。論理的に考えればO2と呼ばれるべきかもしれません。私もそう思いますが、Anthropicの友人たちへの敬意を表して、そしてOpenAIの名付けが本当に下手という伝統に則って、O3と呼ばれることになりました。実は今日は2つのモデルを発表します。O3とO3ミニです。O3は非常に賢いモデルで、O3ミニも信じられないほど賢いモデルですが、パフォーマンスとコストのバランスが優れています。
まず悪いニュースから言うと、今日は一般公開はしません。良いニュースは、本日からパブリックセーフティテストを開始することです。
エンジニアに話をさせて、O3の能力について少し説明したいと思います。O3は非常に難しい技術的ベンチマークで優れた性能を発揮します。まずコーディングベンチマークから始めましょう。ソフトウェアスタイルのベンチマークでは、実世界のソフトウェアタスクで構成されるSweet Bench Verifiedにおいて、O3は約71.7%の精度を示しており、これは私たちのO1モデルよりも20%以上優れています。
正直なところ、これはかなり大きな飛躍です。通常のO1が48.9%なのに対して71%というのは。プレビューは41%まで上がっており、競技コードではさらに大きな向上が見られます。実際にこれはかなり大きなジャンプです。OpenAIには競技コードでまだELO 3000台の人がいると思います。数ヶ月は楽しめそうですね。このモデルはプログラミングだけでなく、数学でも信じられないほどの性能を発揮します。
それは本当に凄いですね。今言われたことに気づいたかもしれませんが、OpenAIの従業員のトップレベルは競技コードでELO 3000程度で、このモデルはそれにわずかに及ばないということです。これは驚くべきことです。これらのベンチマークではプロフェッショナルな人間レベル、食物連鎖の頂点に近づいていると言えるでしょう。
3日前の発表以来、このO3モデルについて、これがAGI(人工汎用知能)だという大きな期待が寄せられています。これについては動画の最後に話しますが、AGIと呼ぶかどうかは別として、ベンチマークが信頼できるものであれば、これが非常に強力なモデルであることは間違いありません。
O3は競技数学で96.7%の精度を達成しており、O1の83.3%と比較して、エイミー、あなたの最高スコアは?私は一度パーフェクトスコアを取りました。だから私は安全ですが、はい、彼の方が優れています。これはほぼパーフェクトスコアで、本当に驚くべきことです。Fランク圏内からB-圏内へ、そして最終的にA+圏内へと、成績で見ると理解度が大きく向上しています。
PhD レベルの科学的質問では、GPQA Diamondで87まで上昇しています。数学と比べると大きな飛躍ではありませんが、公平に見て、数学の分野ではより多くの進歩の余地がありました。彼らは着実に改善を続けています。
ここ数ヶ月で、いくつかの有望なベンチマークが登場しましたが、特に注目したいのはEpic AIのフロンティア数学ベンチマークです。以前のベンチマークと比べてスコアがかなり低く見えますが、これは現在最も難しい数学のベンチマークとされているためです。このデータセットは、未公開で非常に難しい問題で構成されています。プロの数学者でも1つの問題を解くのに何時間も、場合によっては何日もかかるような問題です。現在、このベンチマークでは他の全ての提供物が2%未満の精度しか示していませんが、O3は積極的なテスト時の設定で25%以上を達成しています。
これを見てください。ARK AGIセミプライベート評価という別のベンチマークです。元のO1シリーズでは、ミニが8%、プレビューが13.3%、低計算量で25%、中計算量で31%、高計算量で32%です。O1シリーズでは、より多くの計算リソースを投入しても効果が逓減していく曲線が見られますが、O3シリーズでは低計算量でもO1の高計算量よりもはるかに優れており、レベリングオフ曲線も全く異なる次元にあります。低計算量でも2倍のスコアを示し、高計算量では87.5%の完了率を達成しています。
これらのベンチマークが嘘をついていないとすれば、このモデルは驚異的に優れています。より難しくないタスクに対してより効率的とされるO3ミニシリーズのモデルに関するベンチマークに移りましょう。ご覧の通り、O3シリーズのモデルのコストは全体的により効率的で、特にミニモデルでは、O1ミニや通常のO1よりもはるかに低いコストで、良好なELOスコアを達成しています。ただし、通常のO3は依然としてかなり高価です。
実際にこれらのモデルのデモを見てみましょう。私は全ての3つのミニ、高性能モデルをテストしています。タスクは、Pythonを使用してコードジェネレーターとエグゼキューターを実装することです。このPythonスクリプトを実行すると、テキストボックスを含むUIを持つサーバーが起動します。そこでコーディングリクエストをテキストボックスに入力すると、O3ミニAPIにリクエストが送信され、O3ミニAPIがタスクを解決してコードを返します。そのコードはローカルのデスクトップに保存され、自動的にターミナルを開いて実行します。
かなり複雑な家のようなものですね。また、大量のコードもあります。コードをコピーしてサーバーに貼り付けると、このサーバーを起動できます。テキストボックスが表示されるはずです。何かが起動しているようです。素晴らしい、UIが表示されました。そこに入力できます。
彼が言ったように動作していますね。OpenAIと乱数のような単純なものを試してみましょう。リクエストがO3ミニミディアムに送信されているので、かなり早いはずです。このターミナルで…はい、41が魔法の数字ですね。生成されたコードをデスクトップのローカルスクリプトに保存し、OpenAIと41を出力します。
これは驚くべきことです。このプロンプトを見て、どこから始めればいいか分かりますか?ほとんどの人には分からないでしょう。プロンプトも特によく考えられているわけではありません。上部に基本的なテキストがあり、必要な作業の説明があり、その後にいくつかの重要な詳細があるだけです。それだけをこのシステムに送信して、かなり複雑なことができるのです。
ここにある興味深いベンチマークを見てみましょう。構造化出力を持つ内部関数呼び出しでは、これらのモデル間で精度の向上はそれほど大きくありません。少なくともこの特定のベンチマークでは、かなり高い成功率でレベルオフしているように見えます。ライブベンチコーディングでは、元のO1がO3ミニローとO3ミニミディアムの両方よりも明らかに優れていますが、O3ミニハイよりは劣ります。また、O3ミニハイは実行コストがかなり低くなっています。
構造化出力のない内部関数呼び出しも、非常にレベルオフしています。全体的に見ると、PhDレベルの科学的質問のGPQA Diamondでは、O1ミニとO3ミニローはほぼ同じレベルで、O3ミニミディアムとO3ミニハイは、O1プレビューとO1のどちらも上回っていません。唯一、全てのモデルを上回っているのは強力なO3です。
これらのベンチマークのいくつかには、より大きなモデルが必要なようです。これらのミニモデルは、パラメータ数が少なすぎて、これらのベンチマークで高いスコアを出力できないようです。それが答えなのでしょうか、それとも仮説でしょうか?おそらく研究者が取り組むべき仮説でしょうが、それが私の疑問です。
O3モデルをテストしてアクセスを得たい場合は、まずこのフォームに記入する必要があります。姓名、所属機関または組織、アカウントなど。特に最近SORAのリークがあったばかりなので、おそらくより信頼できる人々を優先的に受け入れることになるでしょう。このモデルへのアクセスを得るのはかなり難しいでしょう。私の予測では、来年の夏頃にO3ミニが一般公開されると思います。
さて、発表自体をよく見てきたので、いくつかの推論ができますが、その前に今日のスポンサーからの簡単なお知らせがあります。
今日の動画は、Fetch Foxがスポンサーです。Fetch FoxはAIを使用して任意のウェブサイトから任意のデータをスクレイピングできるChrome拡張機能です。最も良い点は、使用が非常に簡単なことです。Chrome ウェブストアから Chrome拡張機能をインストールし、任意のウェブページで Chrome の拡張機能タブをクリックして、Fetch Fox をクリックするだけです。
ここで、Fetch FoxにPerson のように指示できます。ご覧の通り、スポンジ・ボブの Wikipedia ページにいます。「ショーに携わった人々のリストを教えて」とリクエストを送信します。すると、Fetch FoxはAIを使用してスクレイピング計画を生成します。この場合、スポンジ・ボブのWikipediaページから始まりますが、複数のURLから開始することもできます。そして、探しているデータを抽出するための計画を具体的に立てます。
このシンプルなプロンプトの場合、ショーに関わった人の名前と役割を探します。「スクレイプを実行」をクリックするだけで、名前が入力され始めるのが分かります。明らかにスティーブン・ヒレンバーグはクリエイター、デレクはクリエイティブディレクター、ティム・ヒルは脚本家、声優も含まれています。要求通りに全ての名前と役割を取得しています。
すべて完了したら、下部でCSVとしてダウンロードできます。皆さん、Fetch FoxはAIを搭載しているため、これよりもはるかに複雑なスクレイピングタスクを実行できることを覚えておいてください。しかし、オールインワンのウェブスクレイパーとAIパワードのデータキュレーターであるという事実は、これをChromeの拡張機能として持っておく必要性を明らかにします。
Fetch Fox AIは、月間1,000アイテムまでの無料スクレイピングを提供し、それ以降は1,000アイテムあたり1ドルのペイ・アズ・ユー・ゴーオプションがあります。エンタープライズプランも用意されています。また、プランが気に入らない場合は、Fetch Fox内で直接自分のOpenAIキーを使用することもできます。これらは全て、消費者にとって良い価値のある優れたオプションだと私は考えています。無料でお試しできることが特に気に入っています。
下のリンクをクリックして、Fetch Foxを無料で試してください。素晴らしく動作し、私は大のファンです。さて、通常のコンテンツに戻りましょう。
皆さん、戻ってきてくださりありがとうございます。スポンサーに対応していただき、ありがとうございます。スポンサーは私がこのチャンネルをフルタイムで続けられる絶対的な理由ですが、もちろんそれだけではありません。視聴してくださる皆さんのおかげで、これが現実となっているのです。そのことを私は永遠に感謝しています。
さて、O3について話しましょう。大きなモデルですね。OpenAIからの推論フェーズの次のステップで、ベンチマークを破壊しています。しかも、かなり難しいベンチマークです。皆さんのほとんどは解決できないようなものです。もしかしたら天才的な方もいるかもしれませんが、OpenAI O3が解決しているようなELOスコアで全てのベンチマークを解決できる人は一人もいないでしょう。
多くの面で超知能、超天才に進化しています。以前のChatGPTモデルでさえ超天才でした。あなたの脳が想像できるよりもはるかに多くの情報を保持できます。オンラインで見た騒ぎの多くは、O3がAGIかどうかについて議論していました。
さあ、座って、AGIについて話し合いましょう。まず、AGIとは何か、どのように定義するのかを見ていきましょう。人工汎用知能(Artificial General Intelligence)の略ですが、ここで知っておく必要があるのは、これは理論的な概念で、曖昧なものだということです。AGIの定義は観察者によって異なる可能性があります。私の定義はあなたの定義と異なるかもしれません。なぜなら、辞書にない、その意味で本当の用語ではないからです。
Wikipediaのページはありますし、オンラインでも多くの議論がありますが、誰も本当には何なのか分かっていません。なぜなら、確固たるものではなく、これが間違いなくAGIだと指摘できる場所がないからです。
簡単なGoogle検索とAIラボの概要によると、AGIは機械における仮説的な種類の知能を指し、人間ができるあらゆる知的タスクを実行できるようにするものとされています。本質的に人間レベルの認知能力、学習、推論、様々な状況への適応を模倣するということです。特に、現在のAIシステムとは異なると述べられています。
O3は人間ができるあらゆる知的タスクを実行できるでしょうか?答えは即座にノーです。なぜなら、これらのベンチマークのいくつかではまだ人間の方が優れているからです。一人の人間が全てのベンチマークで完璧なスコアを出せるでしょうか?いいえ。しかし、これらは私たちがAGIを定義しようとするときに考えなければならないことです。
モデルは絶対に推論していると思います。それは疑いの余地がありません。しかし、時間とともに学習できるでしょうか?トレーニングを数えるなら、はい。おそらく推論中にもある程度の学習を行っているでしょう。例えば、推論と学習の違いは何でしょうか?非常に曖昧で、はっきりしないのです。
OpenAI O3はAGIでしょうか?それは、あなたのAGIの定義次第です。それが重要なのです。これは新しいトップチャートモデルで、かなり驚くべきものでしょうか?絶対にそう言えると思います。OpenAIが提示しているベンチマークが必ずしも歪められているとか、cherry-pickされているとか、特定の方法で織り込まれているとは思いません。おそらくかなり正確で、推論モデルで素晴らしい進歩を遂げていることは明らかです。
個人的に、これがAGIだと言うでしょうか?いいえ。全てにおいて人間より優れているわけではありません。実際に高度なツール使用やコンピュータ使用を行うことはできません。これらのモデルは現実の世界に接続されていません。
私にとって、モデルがAGIかどうかの良いテストは、通常のXboxコントローラーのようなコントローラーを与えること、それをカメラ付きのロボットに接続して入力を受け取り、コントローラーに出力する能力を与えて、ロボットを制御できるかどうかを見ることだと思います。
テキストから現実世界へのその飛躍が、私は最大の違いを生むと思います。一度二つを完璧に直接リンクできれば、非常に印象的でしょう。なぜなら、これらのモデルが完成させている、ベンチマークをマスターすることによってテキストの形で知識を結晶化させているものが、人間の世界での合理的な行動に直接変換されるということを意味するからです。
大規模言語モデルの一つが、あなたの洗濯物を畳むロボットを制御する能力など、それは私にとって驚くべきことでしょう。私の考えをうまく説明できたと思います。もちろん、洗濯物を畳むロボットはすでに存在します。私もビデオで見たことがありますが、それらは特に洗濯物を畳むように訓練されていました。人工汎用知能は、特定のタスクのために訓練されることなく、これらのタスクを一般化できることを意味します。それが私を感動させるでしょう。
さて、それが終わったので、特に年末なので、私たちがどこに向かっているのかについて、私の考えを述べたいと思います。OpenAIの12日間は全体的に賛否両論でした。ここでのO3は、私たちが見た中で最も印象的なものの一つだったと思います。本当に印象的なモデルのように見えますし、Oシリーズの中にあるので、GPT 4oのようにマルチモーダルであることを願っています。
OpenAIからの発表の多くは、私が深く取り上げなかったものもありました。それらはChatGPTの小さな開発者向けの調整やアップデートで、大きなものではなかったからです。OpenAIはSoraも発表しましたが、すぐにGoogleの驚異的なビデオ生成AI、Gemini 2.oの発表に影を落とされました。これは私が今まで見たことのないものを超えています。
2024年の終わりに向けて何か教訓があるとすれば、これらが減速する兆しは全くないということです。Nvidiaやその他の企業からより多くの計算能力が提供され、推論のような新しいパラダイムでモデルはまだ改善を続けています。競争はまだ非常に激しく、OpenAIだけが支配しているわけではありません。
テキスト領域ではO3は他のモデルとは違うかもしれませんが、Google、Anthropic、その他の企業は引き続き非常に競争力のある独自のモデルを打ち出しています。さらに、オープンソース領域でも前例のない成長を目にしています。オープンソースモデルは今までにないほど優れており、アップデートはかつてないほど急速です。
皆が互いに追いつき、非常に緊密な競争空間となっています。最終的に言えるのは、これがあなたや私のような人々にとって良いということです。私たちはこの技術が誰もが利用できるようになることを望んでいます。一部の選ばれた人々だけのものであってはいけません。これは非常に強力な技術です。以前にも話しましたが、O3が何をしているか見てください。私たちのほとんどが始め方さえ分からないようなタスクを実行しています。
他のモデルよりもうまく他のタスクの実行方法を説明できることを願っています。これは誰であれ、すべての人のための superintelligence と即時的な情報アクセスの始まりです。非常に強力です。
しかし、この時点で、特にテキストモデルについては、次のモデルにますます興奮するのが少し難しくなってきていると感じています。なぜなら、コンピュータへの直接アクセスや電話への直接アクセスのようなものがないからです。全ての人がアクセスを望んでいるわけではありませんが、アクセスがあれば、はるかに強力になるでしょう。
この時点で、私たち自身が完了できないタスクを完了し、多くの人が理解さえできないタスクを見ています。そして、私たちが頼りにできるのは、少し退屈なベンチマークとチャートだけです。
繰り返しになりますが、私は興奮は分野全体にあると思います。競争を見ることができ、価格が下がっているのが見え、より多くの人々がよりスマートなモデルにアクセスできるようになっているのが分かります。そして、最終的に本当に興奮させられるのは、人々がモデルで何をするのか、生産性や創造性を向上させるためにどのように使用するのかということです。
多くの人々にとって、人生を過ごす全く新しい方法が見えてくると思います。なぜなら、これらの知識が即座にアクセス可能になるからです。Googleで既にある程度はありましたが、今では完全にあなただけのためにカスタマイズされ、あなたの生活に直接適用できます。順調な航海ですね。これは驚くべきことですよね。
一般的に、AIの分野は、この動画の冒頭で述べたように、ホリデーシーズンに向けて少し静かになっています。これは今年の最後の一撃として、OpenAIからの新しいO3、これまでで最高のテキストモデルのベンチマークでした。他にも多くの興奮する事柄が進行中です。
私は2025年に向けて本当にワクワクしています。皆さんはどうですか?AIモデルが私のコンピュータを制御し、私が可能だとも知らなかったことを設定し始め、私が他のことをしている間に問題を解決することを楽しみにしています。本当に見栄えの良い質の高いAIビデオを作成し、実際にそれらを使ってストーリーを語り始めることを楽しみにしています。
多くのショットで、それがAIによって生成されたものだとは分からないレベルに品質が達していると思います。そしてもちろん、まだ非常に競争の激しい分野であり、開発が続けられているAI音楽のことも忘れないでください。そして、絶え間なく続く素晴らしい品質のオープンソースAIモデルの登場も。
2025年のAIテクノロジーに関して、あなたは何に最も興奮していますか?特定のベンチマークで100%のスコアを見始めると思いますか?そしてあなたのAGIの定義について、私たちは既にそれを達成したのでしょうか?2025年に達成するのでしょうか?そうでないとすれば、最後に、おそらく最大の質問は、全てのAIテクノロジーがシームレスに統合された将来の私たちの世界はどのようになるのでしょうか?
この質問は最近私の心を駆け巡っていて、どのようなことが可能になるのか、そしてクリエイティブな人々がAIの力で何をするのか、想像もつきません。
次の動画でお会いしましょう。この1年を通して、私を見守り、支援してくださって本当にありがとうございます。年末までには他のアップデートもあると思いますが、素敵な休暇をお過ごしください。メリークリスマスを、そして次回お会いしましょう。さようなら。

コメント

タイトルとURLをコピーしました