
8,130 文字
みなさんこんにちは。私はMarkといい、openaiのリサーチを率いています。今日は研究チームからIssaとJosh、そして製品チームからNeilが一緒です。何か違和感を感じませんか?そう、私たちは東京にいるんです。みなさん、東京からこんにちは。後ほど私たちのパートナーの一社と特別なイベントを行う予定なのですが、この配信は次のエージェントに関する提供についてお話しします。
まず、openaiにとってのエージェントについてお話ししたいと思います。openaiがエージェントを重要視する理由は、それが知的労働を変革すると信じているからです。企業のプロセスを効率化し、労働者の生産性を向上させると考えていますが、消費者にとっても非常に重要になるでしょう。
昨年、私たちはOシリーズの推論モデルの第一弾としてo1をリリースしました。これらのモデルは従来のモデルとは異なり、回答を出す前に長時間考え、通常は考える時間が長いほど良い回答が得られます。
しかし、これらのモデルの制限の一つは、ツールにアクセスできないことです。特に重要な欠落しているツールの一つがインターネットを閲覧する能力です。これは、私たちが日常生活で使用している多くのものにモデルがアクセスできないことを意味します。
そこで、次の大きな一歩を発表したいと思います。ディープリサーチと呼ばれる機能を導入します。ディープリサーチとは何でしょうか?ディープリサーチは、インターネット上で多段階の調査を行うモデルで、コンテンツを発見し、統合し、より多くの情報を見つけるにつれて計画を適応させながら、それらのコンテンツについて推論を行います。
ディープリサーチの重要な特徴の一つ、そしてなぜ単なる「リサーチ」ではなく「ディープリサーチ」と呼ぶのかというと、モデルからレイテンシーの制約を取り除いたことです。通常、モデルは比較的早く返答を返しますが、ディープリサーチモデルは回答を返すまでに5分、さらには30分かかることもあります。私たちはこれを悪いことではなく、良いことだと考えています。モデルが無監視の状態でより長時間、自律的なタスクを実行し始めることは重要だと考えています。
これは私たちのAGIロードマップの核心でもあります。私たちの究極の目標は、モデル自身が新しい知識を発見し、解明できるようになることです。そして、その最初のステップは、ウェブ上の情報を取得し、理解し、統合できるモデルを作ることです。ディープリサーチから得られるのは、包括的で完全に引用された研究論文です。基本的には、アナリストや分野の専門家が作成するようなものです。
知的労働への活用について話してきましたが、広範なウェブ閲覧を必要とする他の用途も多くあります。例えば、非常に具体的な何かを探している場合などです。これもインターネット上で多くの手作業を必要とします。個人的な用途に合わせた制約条件を持つ特定のアイテムを探したい場合などに非常に適しています。私も個人的にプレゼンテーションで使用するスライドのコンテンツを作成するためにディープリサーチを使用しました。様々な使用例で非常に優れた性能を発揮します。
最後に、嬉しいお知らせですが、ディープリサーチは本日後ほどProでローンチします。その後すぐにPlusとTeamにロールアウトし、その後教育機関と企業向けにも展開する予定です。
ディープリサーチの仕組みをお見せするために、Neilに代わります。
ありがとうMark。ディープリサーチは本日後ほどChatGPTで利用可能になります。皆さんにその使い方をお見せできることをとても楽しみにしています。ディープリサーチはChatGPTの冒頭にあるボタンからアクセスでき、ここからすぐに任意のクエリを入力してディープリサーチに送信することができます。
私はopenaiのプロダクトマネージャーで、私たちが常に考えていることの一つは、どのような新機能や製品を開発すべきかということです。最近検討していることの一つに、新しい言語翻訳アプリを開発すべきかどうかということがあります。これはディープリサーチに調査を依頼できることの一例です。
実際にこのクエリを入力してみます。ターゲットにできる様々な市場についてもっと詳しく知りたいと思います。そこで、ディープリサーチに「iOSとAndroidの採用率、他言語を学びたい人の割合、過去数年間のモバイル普及率の変化について教えてください。また、先進国と発展途上国の違いも教えてください。そして、この情報を表を含むフォーマットされたレポートとして、ChatGPTにとって最も有望な新興機会についての明確な推奨事項と共に提供してください」と尋ねています。
これは手作業で調べると何時間もかかるクエリですが、ディープリサーチを使えばすぐに開始できます。
これは実際にopenaiでのサイドプロジェクトなのですか?
はい、ディープリサーチに取り組んでいない時のサイドプロジェクトです。まず最初に見えるのは、ディープリサーチが明確化のための質問を返してくることです。これはPMと同じように非常に重要です。なぜなら、ディープリサーチが5分から30分かかる場合、要件を正しく理解することが本当に重要だからです。
今、いくつかの質問が返ってきています。モバイル普及率をどのように設定したいか、全体の採用率と特定のカテゴリーのどちらが必要か、一般的な関心か本当に強い関心かなど、困難なプロンプトを与えられた時にアナリストが尋ねそうな、とても良い質問です。これらを最初に把握することが非常に重要です。
そこで、「普及率はユーザーの割合として見たい、全体的な使用状況を見たい、その他については最善の判断をしてください」というような回答をすることができます。モデルは、時には指定されている情報と、もう少しオープンエンドな情報を取り、それを使ってミッションを遂行し、必要な情報を全て取得することが非常に得意です。
今、ディープリサーチがそれら全てを取り込んで統合し、独自の調査プロセスを開始しているのが分かります。ディープリサーチは様々な知的労働の分野で非常に優れています。市場調査から、物理学、コンピューターサイエンス、生物学などの学術分野まで、幅広い活用例が見られています。私自身もサイドでプロダクトマネジメントに使用していますが、皆さんの仕事でも役立つことを期待しています。
ここで見えるのは、ディープリサーチが小さなサイドバーを表示し、その中で行っている推論の全てを示していることです。今、主要国を特定し、情報を収集し、異なる情報を検索するプロセスを開始しているのが分かります。
ズームインしてみると、ディープリサーチが情報を検索し、ページを開き、見ているものについて推論していることが分かります。裏で実際に起きているのは、モデルが文字通り検索を実行し、ページを開いて閲覧し、画像、表、PDFを含む全ての要素を見て、その情報を抽出し、次に何をするかを判断するために使用しているということです。そして、ある検索からの情報を使って次のステップで何を検索するかを決定しているのが見られるのは本当に素晴らしいですね。
そうですね、時々見ていて楽しいですよね。では、これを待っている間に、Joshにディープリサーチの別の使い方を示してもらいましょう。
ありがとうございます。私たちはディープリサーチの知的労働への活用について多く話してきましたが、それは私たちが本当に期待している使用例の一つですが、単に仕事を改善するためだけではありません。趣味や家庭でやりたいことにも役立ちます。
私がディープリサーチを使うのが好きな用途の一つは、購入したい製品の調査、特に大きな買い物の場合です。私の場合、高価なものを買う時は、インターネット上のあらゆるページを読みたいと思います。インターネット上にレビューがあれば、実際に購入する前に必ず考慮に入れたいと思います。
私たちは今日本にいて、この時期はスキーが良いと聞いています。でも、この旅行は少し急な計画だったので、実際にスキーを持ってきませんでした。スキーを買って、この後少しスキー休暇を取れないかと考えています。日本でスキーをするためにスキーを買いたいのですが。
また、ディープリサーチに出力のフォーマットを指定することもできます。最後に表を付けたレポートとしてフォーマットしてください。そして、Neilの例と同様に、答えることもできる質問がいくつか返ってきます。
上級者向けのギア、オールマウンテンだけどパウダーも時々、と答えましょう。パウダーはここでは良いと聞いています。今週後半に運が良ければいいですね。私は背が高いので長いスキーが必要です。そして、もう少し楽しいものにしましょう。素敵なカラーパレットがあるものがいいですね。
これを開始すると、Neilの例と同様に、ディープリサーチはインターネット上の様々なウェブサイトで調査を行い、良い推奨事項を返してくれるはずです。では、これがどのように機能するのか、Issaに説明してもらいましょう。
良いですね。ディープリサーチは、まもなくリリースされるo3推論モデルの微調整バージョンによって動作しています。私たちは、困難なブラウジングやその他の推論タスクについて、エンドツーエンドの強化学習を使用して訓練しました。その訓練を通じて、モデルは計画を立て、マルチステップの軌跡を実行することを学習し、リアルタイムの情報に反応し、必要に応じてバックトラックを行います。
最終的なモデルは、ユーザーがアップロードしたファイルをブラウズすることができ、計算や画像、プロットの作成のためにPythonツールを使用することもできます。そして、それらのプロットを最終的な応答に埋め込むこともできます。また、ウェブサイトからの画像を最終応答に埋め込むことができ、ソースを引用する際には、特定の文章や段落を引用します。
結果として得られたモデルは、人間が多くの時間を要する非常に複雑なタスクを完了することができ、公開および非公開の評価の多くで新しい高スコアを達成しています。Center for AI SafetyとScale AIから最近リリースされた、専門家レベルの様々な科目におけるモデルの能力をテストするベンチマーク「Humanity’s Last Exam」において、ディープリサーチモデルは26.6%の正確性という新記録を達成しました。
これは非常に印象的です。このタスクは約100の異なる科目にわたる約3,000の短答式および多肢選択式の問題で構成されています。モデルの軌跡と思考プロセスを見るのは本当に面白いです。なぜなら、それは人間が問題を解決する方法と非常によく似ているからです。
例えば、私が難しい問題を与えられた場合、おそらくオンラインで調査して答えを見つけようとするでしょう。物理学の例では、モデルが難しい計算に答えなければならない場合、既存の科学論文から方程式を探し、それを使って問題に答えるのを見てきました。あるいは詩の例では、モデルは新しい詩の非常にニッチな韻律を特定しなければならず、他の既存の詩の例を探して、それを使って答えに至る推論を助けるのを見ました。
別のベンチマーク、GUIAでは、モデルのエージェント能力を測定し、ウェブブラウジング、マルチモーダル機能、コード実行、ファイルに対する推論を必要とします。このモデルは全ての3つの難易度レベルで新記録を達成しました。内部ベンチマークについても話してもらえますか?
もちろんです。私たちは専門家レベルの内部評価も作成しました。専門家が仕事で行うような様々なタスクがあり、ディープリサーチモデルにそれらに答えさせ、専門家に回答を評価してもらいました。モデルは、専門家が何時間もかかると言う、多くの手作業による調査が必要なタスクを完了することができました。
これを示す2つのグラフがあります。左側は異なる推定経済価値の範囲に対する合格率、右側は異なるタスク完了時間の範囲に対する合格率を示しています。合格率とは、専門家レベルのタスクに対してモデルが、その専門家によって評価された満足のいく回答を提供する割合です。
これらのグラフから興味深いのは、合格率が推定完了時間よりも推定経済価値との相関が高いことです。これは、モデルが難しいと感じることは、必ずしも人間が時間がかかると感じることと同じではないことを示しています。
このグラフは、ツール呼び出しの最大数に対する専門家レベルのタスクでの合格率を示しています。これは、モデルがより長く考え、ブラウジングする時間を与えられるほど、パフォーマンスが向上することを示しています。
これは非常に重要です。なぜなら、Markが説明したように、私たちはエージェントがより長時間、より自律的に、より困難なタスクを解決できる世界に向かっていると信じているからです。そして、これらのツールを考え、使用する時間をより多く与えれば、より困難なタスクを解決できるはずです。
最後の内部評価は幻覚評価で、このモデルは私たちがリリースした全てのモデルの中で、このEVで最高のパフォーマンスを示しています。しかし、まだ幻覚を起こす可能性はあるので、レポートを作成する際は自分でソースを確認することが重要です。
そうですね。先ほど述べたように、ディープリサーチモデルは応答に非常に時間がかかる可能性があるので、できることの範囲を示すために今朝いくつかの例を生成しました。それらをいくつか見てみましょう。
非常に長いもの、とても長いものもあります。スクロールの問題を解決しました。これは金融の例です。「シリコンバレーのVC企業の投資アナリストです。民間の超音速航空旅行市場を分析し、詳細な投資メモを準備したい」という依頼で、他にも多くの仕様があります。
モデルは明確化を求め、私たちはメモに対するいくつかの追加要件を提供しました。そしてモデルはタスクを開始し、ご覧の通り、5分間調査を行い、12の異なるソースを使用し、その分野に関する非常に包括的なレポートを返してきました。仕事でこれを使用する場合、初期調査を行う際の助けとして非常に役立つと想像できます。
うまくいけば、次回日本に来る時はジェットラグが少なくて済むでしょう。スーパーソニックで。
ここに別の例があります。生物学の例です。私たちは論文をアップロードし、同じトピックに関する他の論文を見つけたいと思いました。これは実際に、生物学に非常に詳しいopenaiの友人の一人からのタスクでした。正確に何を言っているのか理解しているふりはしませんが、できることの範囲を示したかったのです。生物学の授業で注意を払っていなかったのですが。
モデルはいくつかの明確化を求め、私たちが回答し、このタスクでモデルはかなり時間をかけ、同じトピックに関する多くの異なる論文を見つけることができました。これを友人に見せたところ、かなり良い応答だと言ってくれました。モデルにとって良い評価でした。
そして最後の例をご紹介します。きっと誰もが経験したことがあると思います。10年前に東京で行ったレストランの名前を思い出せない、あるいは探しているテレビ番組の名前を思い出せないという瞬間です。
この例は少し作為的に見えるかもしれませんが、モデルが針の穴を探すような情報を見つけることがどれほど得意かを示したかったのです。プロンプトは「以前見たテレビ番組の名前を忘れてしまいましたが、あるエピソードで起きたことは覚えています。名前を見つけるのを手伝ってもらえますか?覚えているのは、あるエピソードで2人の男性がポーカーをプレイし、一人が別の人に賭けるように言われた後にフォールドする」というもので、ストーリーについてもう少し詳細があります。
私たちが提供できた追加情報は「5年から10年前だと思いますが、本当によく分かりません」というだけでした。モデルはオンライン調査を行い、多くの異なるサイトを読み、それらのサイトの内容について推論することで、私たちが考えていた実際のテレビ番組のエピソードを見つけることができました。これはかなり素晴らしいですね。それは正しい答えでしたか?それが探していたテレビ番組でしたか?
では、NeilとJoshに戻って、最初に開始したタスクの確認をしてもらいましょう。
ありがとうございます、Issa。元のタスクを見てみましょう。実際にタスクはまだ進行中のようですが、その間にすでに29の異なるソースを調べ、多くの異なる情報を処理しています。
おお、素晴らしい!完璧なタイミングですね!
素晴らしい。ディープリサーチが完全な分析を作成しました。11分かかり、そのプロセスで29の異なるサイトを詳細に調査しました。このライブ配信でご覧の通り、完璧にフォーマットされたレポートを提供してくれました。
ここでは、モバイル採用と言語学習のためのモバイル市場分析が見られます。素晴らしい導入部があり、異なる採用トレンド、時間経過に伴うモバイル普及率など、全てが本当に優れたレポート形式でまとめられています。下に進むと、情報だけでなく、異なる表形式やデータの提示方法が非常に理解しやすい形で示されています。
このモデルのもう一つの素晴らしい点は、全ての異なるソースをクリックして確認できることです。ここでモデルが遭遇した全ての引用と、最終出力には必ずしも含まれていないものの、途中で見つけたことを知らせたいサイトを見ることができます。
素晴らしいですね。では、スキーの方を確認してみましょう。
スクロールアップすると、これは多くの調査を行ったことが分かります。これは私が普通なら午後一日中かけて、良い買い物をするために自分の安心のために、書かれている全てのことを読まなければならないようなものです。
しかし、これは私が見るであろう全てのサイトにアクセスし、それを全て自分で検索して消化するよりもはるかに簡単な形式にまとめる点で、非常に良い仕事をしています。また、下部には表があり、私が言及した特定の要件に関する高レベルの比較を提供しています。
ディープリサーチは、求める情報の種類、見たい比較、最終出力のフォーマットについて非常に具体的な場合に特によく機能することが分かりました。モデルはそれら全てを考慮に入れ、検索を行い、最終レポートをまとめることができるからです。
これは私の直感的なテストにも合格しています。なぜなら、最上位の推奨は実際に私が家で持っているスキーだからです。これは面白いですね。もう少し詳しく見て、この後少しスキー旅行を計画するかもしれません。今週末に行きましょうか。
想像できる通り、この技術でできることはまだまだたくさんあります。では、これからどこに向かうのかについて、Markに説明してもらいましょう。
素晴らしい。まとめると、ディープリサーチは本日後ほどProで利用可能になり、まもなくデスクトップとモバイルにも提供する予定です。しかし、今日私たちがローンチするのは、ディープリサーチでできることのほんの一部に過ぎません。
今日、私たちはウェブをブラウズするディープリサーチエージェントを持っていますが、同じディープリサーチエージェントがカスタムコンテキストや企業のデータストレージに接続することも想像できます。
繰り返しになりますが、ディープリサーチは私たちのAGIロードマップにとって重要です。私たちは、より長時間、より自律的に、非常に困難なタスクを解決するエージェントを信じています。そして、30分間タスクに取り組む能力は、より多くのコンピュート投資を動機付けると信じています。
皆さんがこれを使って何をするのか楽しみにしています。ぜひ私たちと共有してください。ありがとうございました。
コメント