😱 OpenAIが電撃発表したo3:AGIに到達した?!

3,649 文字

OpenAI annuncia a SORPRESA o3: hanno raggiunto l'AGI?!
🙏 Supporta il canale abbonandoti qui: così, nell'ultimo dei 12 giorni di annunci, OpenAI sorp...

いやいや、これはありえない。OpenAIが12日間で12のリリースをするという戦略を思いついたんですが、これはマーケティングの観点からも本当に素晴らしい動きでした。マーケティングの専門家として一瞬考えてみると、まさに天才的なアイデアだったと言えます。
彼らは昨年、ちょっと物足りない年を過ごした後で、大量のリリースを行いました。ご存知の通り、私はこのチャンネルでよく不満を言っていました。納得できないことや、発表が大々的だったのに実際のリリースまで1年近く待たされたことなどについてです。
しかし今回は本当に新機能の洪水でした。ついにSoraが登場し、oWのフルバージョンが発表され、ついにモバイルでGPTのリアルタイムカメラ機能が実装されました。最終日に何が発表されるのか、私は非常に興味津々でワクワクしていました。
おそらく、このビデオを見ている皆さんはすでにニュースを読んでいるでしょう。もし昨日何も見ていなかったとしても、私のビデオのタイトルで分かると思います。新しいモデルが発表されました。このモデルはo3と呼ばれています。面白いことに、O2(通信会社)に配慮してo2という名前を避け、直接o3にしたという話があります。これが冗談なのか本当なのかは分かりませんが。
o3がリリースされ、その性能は常識外れのようです。公式の発表ビデオは20分程度なので、リンクを貼っておきますのでご覧ください。私が特に興味深いと思う部分が2、3箇所あるので、それをお見せしたいと思います。
ここではベンチマークの結果を示しています。ビデオを再生して、字幕も表示しておきましょう。まず重要な点として、このモデルは2025年1月末まで利用できないとのことです。コメント欄では多くの人が「Soraのように1年待たされることにならないでほしい」と言っています。現時点では研究者のみがアクセス可能で、セキュリティ上の理由でテスト目的の事前アクセスリストに登録できるとのことです。
セキュリティの問題についても後で触れますが、OpenAIはこれについても興味深い発言をしています。
最初にコーディングのベンチマークを見てみましょう。左側のグラフは、o1(プレビューバージョンではなく完全版)の結果で、精度は50%をやや下回っていました。それが71%まで上昇しています。
SWE Benchというベンチマークは、実世界のソフトウェアタスクで構成されています。20%の向上は印象的な飛躍です。ベンチマークは慎重に解釈する必要があると私は常々言っていますが、後で更に驚くべき結果をお見せします。
数学の分野でo3がどのような性能を示すか見てみましょう。o1プレビューは60%程度でしたが、o1は素晴らしい83%に達し、o3はほぼ100%に近い結果を出しています。ビデオの後半で説明されていますが、これは実際の競技でo3が時々1問だけ間違える程度の精度だということです。
PhD レベルの科学の質問でも87.7%の精度を示しています。これは狂気の沙汰です。グラフからも分かるように、また多くの専門家が指摘しているように、これらのベンチマークは飽和状態に近づいています。モデルの性能が向上し過ぎて、0から100の尺度で既にほぼ100に達しているため、95から96、97への差異は非常に小さくなっています。
そのため、より難しい新しいベンチマークでモデルを評価し始めています。従来の数学コンペやコーディングコンテストなどのベンチマークではほぼ100%に達しているためです。
ARCベンチマークについて見てみましょう。以前このチャンネルで何度か触れましたが、これは最新世代のモデルを特別にテストするために開発された一連のベンチマークです。従来のベンチマークでは人間のレベルにほぼ達していますが、このLLM特有のベンチマークでは通常、人間と比べてはるかに低いスコアとなります。
Gregが登場して、これらのベンチマークの仕組みを説明しています。これらは、モデルが解決できない問題タイプだと言います。人間なら簡単にパターンを見つけられますが、LLMには難しい。o1でさえ、この種のベンチマークで良好な結果を出すのに苦労していました。
重要な点として、彼らのベンチマークは単に過去の情報を記憶して質問に答える能力だけを評価するものではありません。多くの人が指摘するように、数学の問題100問に答えるベンチマークなら、モデルをそれらの数学、科学、プログラミングの質問で訓練して高いスコアを得ることができます。しかし、データセットにない質問ではどうなるでしょうか?
ARCのようなベンチマークでは、モデルはリアルタイムで学習する必要があります。単に多くの情報を記憶して回答するのではありません。彼らの最高峰のベンチマークはARC-AGIと呼ばれ、AGI(汎用人工知能)の達成度を測る指標として使用されています。このチャンネルでもAGIという用語についてはよく話題にしてきました。
2024年で私が見た最も印象的なデータの1つをお見せします。過去5年間、トップモデルはこのベンチマークで5%程度のスコアしか達成できませんでした。o1は赤い点で示されていますが、ミニバージョンで8%、完全版で32%まで上昇し、これは既に驚異的な結果でした。
そして、o3のスコアを見てください。87.5%です。o1の32%から87.5%への飛躍は、ほぼARC-AGIベンチマークを最大化したと言えます。今後数ヶ月間で、APIアクセスが可能になり、他の同様の非公開・準公開のモデル特化型ベンチマークでどのような性能を示すのか、私は非常に興味があります。
このデータは衝撃的です。もし各企業がそれぞれの定義するAGIの達成を目指して取り組んでいるのであれば、87.5%という数字は、我々がその目標に非常に近づいていることを示唆しています。本当に驚くべき結果です。
最後にデモをお見せしましょう。彼らは複数のデモを行っていますが、1つ特に興味深いものをお見せします。ここでは実際にGPT内で動作させています。Pythonスクリプトを書いて、ローカルサーバーを起動し、HTMLファイルにテキストボックスを表示させ、そのテキストボックスにテキストを入力してボタンを押すと、o3のAPIにリクエストを送信し、結果をデスクトップ上のファイルに保存するという一連の処理を命令しています。
これは単なるコードの一部を書くという作業ではなく、一連の手順を実行するよう指示しています。Pythonを使用してコードジェネレーターとエグゼキューターを実装し、サーバーを起動してUIを含むローカルホストを立ち上げ、テキストボックスからコーディングリクエストを送信できるようにしています。
HTMLページは簡単な部分でしたが、次にバックエンドで自身のAPIを呼び出す必要があります。コンソールに表示されているように、ローカルのデスクトップにファイルが作成されました。右下に見えるファイルには、要求された情報が含まれています。”Open High”というテキストとランダムな数字41が書き込まれています。
その後、面白いやり取りがありました。「次のデモでは自己修正するコードを見せましょうか」という提案に対し、サム・アルトマンは「それは見せない方がいいかも」と冗談めかして答えています。
最近彼らはAGIに関するこのような冗談をよく言っています。12日間のイベントでAGIに関する様々な示唆を行い、”Don’t show in live”といった表示なども含めて多くの人が真剣に受け止めています。そして最終日に、事実上AGIと呼べるかもしれない製品をほぼ発表したのです。
もちろん、このような表現には慎重になるべきです。これがAGIだと断言するつもりはありません。しかし、その方向に向かっているのは確かです。より高度な推論能力を持ち、タスクの複雑さに応じて3段階のレベルで推論の深さを指定できるようになっています。
ビデオとアナウンスへのリンクを貼っておきますので、必ず自分で確認してください。私のビデオは参考程度に見ていただき、より深く理解するために必ず自分で調べることをお勧めします。
このビデオにいいねとコメントをお願いします。ライブ配信を見た後、夜遅くに録画していますが、これは本当に常識外れの発表だったので、タイムリーにお届けしたかったのです。
2024年は本当に素晴らしい締めくくりになりそうです。クリスマスシーズンなので、みんな優しい気持ちでいましょう。OpenAIの最近の発表で私が最も待ち望んでいたのは、モバイルでGPTのリアルタイムカメラ機能が使えるようになったことです。実際に使ってみましたが素晴らしい機能です。デモを作成しましたので、画面に表示されるビデオをクリックして、GPTで何ができるようになったのか見てみてください。

コメント

タイトルとURLをコピーしました