OpenAI DevDay 2024 | OpenAI Research | AGIに仕事を奪われたい

3,399 文字

こんにちは、私はフン・ウォンと申します。今日はジェイソンと一緒に、o1を使って構築する方法についての考えを共有させていただきます。o1は推論モデルで、私たちは強化学習を用いて思考するように訓練しました。訓練段階において、o1は思考戦略の改良や、自身の間違いを認識して修正することなどを学習します。
o1が非常に難しい問題を解こうとする時、一回で最適な戦略にたどり着けないかもしれません。しかし、たとえ失敗した戦略であっても、次に何を試すべきかのヒントが得られます。o1はこのプロセスを繰り返し、より良い戦略に到達していきます。非常に忍耐強く、これまでとは全く異なるタイプのモデルなのです。
先月、o1プレビューをリリースした際、実際の思考チェーンの例をいくつかお見せしました。この例では、o1が何らかのテキスト内の暗号文を解読しようとしています。いくつかの推論パターンをお見せしましょう。この場合、モデルは「うーん」と言って、現在の思考戦略が行き詰まっていることを認識し、別のアプローチを試みようとしています。
このケースでは、モデルが何かを試してから「ちょっと待って」と言います。おそらくより良いアプローチに気づき、それを次に試そうとしているのでしょう。そしてこの場合、モデルはより具体的なアイデアを持っているので、「この理論を試してみよう」と言います。しばらくすると、モデルはより正しい状況や戦略に到達し、「完璧だ」と言います。
モデルの振る舞いは非常に異なっており、実際、あまりにも異なるため、私たちはo1が新しいパラダイムを表していると考えています。新しいパラダイムは多くのことを変えるので、新しい視点を持つべきだと思います。では、何が変わるのでしょうか？この質問を考えるための良い出発点は、私たちがどこにいたのか、今どこにいるのか、そしてどこに向かっているのかを考えることです。
このような質問について考えてみてください。o1によって、これまでの世代のモデルでは不可能だったどのようなことが可能になったのか？そして、o1の将来のバージョンでは何が可能になるのか？もちろん、これらの質問への答えは特定の領域によって大きく異なりますが、これらの質問について考えることで、現在の世代のモデルがそのままであると考えるのではなく、将来のモデルを念頭に置いて構築するモードに入ることができます。
あなたは「私自身はo1を構築していないので、o1の将来の世代がどのようになるかどうやって知ることができるのか？」と思うかもしれません。以前のパラダイムとは異なり、o1パラダイムははるかにシンプルです。それは推論モデルなので、その推論はただ良くなるだけです。つまり、思考を必要とするほぼすべての分野でより良く考えることができるようになるということです。
そういう意味で、何かを構築する際にこのような質問を考えることは有用だと思います。現在より推論が50%良くなった場合、何を構築したいですか？何を違うようにしたいですか？そしておそらくもっと重要なのは、推論が50%良くなった場合、何を構築したくないですか？私たちは、モデルが一般的にスマートになるにつれて、過去に難しいと考えていた問題の中には、些細なことになってしまうものがあることを多くの場合で見てきました。
推論が継続的に良くなっていくと信じるなら、どの問題を解決しないかについても考えるべきです。この新しいパラダイムについて、私はしばらく取り組んできましたが、以前のパラダイムに慣れすぎているため、まだ本当に苦労しています。そのため、これは本当に有用だと思います。
この新しい推論パラダイムを使って構築する方法について考えるきっかけになれば幸いです。それでは、ジェイソンにバトンタッチします。
ありがとう、フン・ウォン。もう少し具体的に…［拍手］もう少し具体的に、ブログ投稿で示したいくつかの評価について話したいと思います。これらはGPT-4oと比較して、o1とo1-プレビューをいつ使用すべきかの指針となるかもしれません。
o1パラダイムのモデルの最も良いユースケースの1つは、極めて難しい数学とコードの問題だと思います。これらの棒グラフを見ると、左にAIME（競技数学）、右にCodeforcesがあります。そして3つのバー、ティール色のGPT-4o、o1-プレビュー、そしてo1があります。
ここで注目すべきは、GPT-4oとo1-プレビューはこれらのベンチマークでほんの数問しか解けていないということです。そして、o1-プレビューは半分以上の問題を解くことができ、o1はこのデータセットの大多数の問題を解くことができることがわかります。つまり、GPT-4oが本当に苦戦しているタスクの一部で、o1は大多数の問題を解決できるということです。
これはブログ投稿で公開したより広範な評価スイートで、いくつかの点を強調したいと思います。まず、HendrixからのMath、Physics、College Math、LSATなどの数学ベンチマークのパフォーマンスを見ると、GPT-4oと比較してo1-プレビューを使用した場合、大きなパフォーマンスの向上が見られます。
逆に、すべてのタスクで大きなパフォーマンスの向上が得られるわけではありません。AP English Language、Literature、SAT、Public Relationsなどのタスクでは、実際にはo1-プレビューがGPT-4oよりもそれほど良い成績を上げていないことがわかります。そこで、o1パラダイムのモデルとGPT-4oをいつ使用すべきかをまとめた表を作成しました。
o1-プレビューとo1のモデルを使用するメリットは、科学、数学、コーディングの分野で極めて困難なプロンプトに取り組もうとしている場合です。そして、他の制約を気にせず、単に最高の回答が欲しい場合、o1は一般的に最もパフォーマンスの高いモデルになるでしょう。
デメリットは、フン・ウォンが言及したように、o1-プレビューとo1は考える時間を必要とするため、はるかに高価になり、これらのモデルを使用する際には待ち時間が大幅に長くなることです。一方、GPT-4oは、現在APIで使用されているほとんどのユースケースに対して依然として素晴らしい選択肢です。
明らかに、o1-プレビューとo1よりも費用が低く、待ち時間も短くなります。そしてデメリットは、推論や強力なコーディング、数学を必要とするプロンプトではo1よりも弱いということです。そして、o1-プレビューとo1-miniをいつ使用すべきかという質問があります。このプロットは、これらのモデルのいくつかの推論コストとパフォーマンスを示しています。
X軸に推論コスト、Y軸に競技数学であるAIMEでのパフォーマンスが示されています。興味深いことに、o1-miniはo1-プレビューよりも完全に優れていることがわかります。これは、数学やコーディングのような分野で、高速かつパフォーマンスの高いモデルになるようにo1-miniを特化させたためです。
数学やコーディングを行う場合、あるいはより迅速または安価に回答を得たい場合は、o1-miniを使用することをお勧めします。しかし、他のケースではo1-プレビューが良い選択肢となります。最後に、o1-プレビューとo1-miniのAPIにおけるいくつかのユースケースを強調したいと思います。私はCookbookの冒頭にあるこの例が気に入っています。
これは基本的に医療と精度の検出です。多くの情報と診断が与えられ、o1-プレビューはそれが正しい診断かどうかを検出しようとします。もちろん、コーディングもo1-プレビューが際立つ素晴らしい例です。Cursorのようなユースケースでは、o1-プレビューが素晴らしい仕事をすると思います。
ハードサイエンスの研究は、o1-プレビューが特に強いもう1つの素晴らしいユースケースです。また、これらのモデルは数学の問題や法的領域の推論におけるブレインストーミングのパートナーとしても優れていると聞いています。これで終わりにしたいと思います。o1-プレビューとo1-miniをお楽しみください。ありがとうございました。