OpenAIの驚異的な「DEEP RESEARCH」エージェント!

5,909 文字

YouTube
作成した動画を友だち、家族、世界中の人たちと共有

OpenAIが新たなAIエージェント「Deep Research」を発表しました。Deep Researchは推論を用いてオンライン上の大量の情報を統合し、複数のステップを要する調査タスクを完了してくれるエージェントです。本日からProユーザー向けに提供され、その後Plusユーザーやチームにも展開される予定です。
これはOpenAIの2番目のエージェントとなります。先日、Sam AltmanがXで次のエージェントがPlusティアで利用可能になることを発表し、さらに初のエージェントであるOperatorもPlusティアに導入することを約束していました。つまり、OpenAIから間もなく2つのエージェントがリリースされることになります。
Operatorについては既に取り上げましたので、Deep Researchの詳細に入っていきましょう。OpenAIは次のように述べています。「本日、複雑なタスクのためにインターネット上で複数ステップの調査を実行する新しいエージェント機能、Deep Researchをチャットジーピーティーで公開します。人間が何時間もかかるような作業を数十分で完了することが可能です。」
これは非常に大胆な発言ですが、さらに続けましょう。Deep Researchは、ユーザーに代わって独立して作業を行うOpenAIの次のエージェントです。プロンプトを与えると、チャットジーピーティーが数百のオンラインソースを見つけ、分析し、統合して、リサーチアナリストレベルの包括的なレポートを作成します。
このエージェントは、ウェブブラウジングとデータ分析に最適化された来るべきOpenAI o3モデルのバージョンを搭載しています。推論を活用して、インターネット上のテキスト、画像、PDFの大量の情報を検索、解釈、分析し、得られた情報に応じて必要な方向転換を行います。
これは基本的に、あなた専用の研究者がウェブを検索し、必要な情報を提供してくれるようなものです。人間のリサーチアナリストとの違いは、どんなトピックでも瞬時に無数のウェブサイト、記事、研究論文を同時に検索できることです。冒頭で述べられた「人間が何時間もかかる作業を数十分で完了する」という statement は、もはやそれほど驚くべきものではありません。後で紹介する他の機能を見る限り、実際にそれほどの性能を持っているようです。
OpenAIは続けて、「知識を統合する能力は新しい知識を生み出すための前提条件です。そのため、Deep Researchは私たちの broader goal である AGI の開発に向けた重要な一歩となります。私たちは長らく、AGIは新しい科学的研究を生み出す能力を持つものと考えてきました」と述べています。
つまり、このDeep Researchエージェントは、インターネット上で自律的に研究を行う能力を持ち、AIリサーチャー、つまりAIがAI研究を行うことができるAIを構築するための初期段階の一つということになります。
このグラフについては多く語られていますが、私が以前から、そしてこれからも繰り返し述べているように、AIリサーチャー、つまりAIがAI研究を行う本質的な自己改善AIが実現する瞬間こそが、シンガリティ、あるいはESOPのAI研究者Leopold Schmidhuberが呼ぶところの「インテリジェンス・エクスプロージョン」の瞬間となります。
AIが人間よりも優れたAIを設計できるようになると、ポジティブフィードバックループが生まれ、インテリジェンスが指数関数的に加速し、増殖することになります。これが実際にどのように展開されるかは分かりませんが、重要なのは、私たちがAIリサーチャーの実現に非常に近づいているということです。
では、このような機能はどのような場面で使用できるでしょうか?金融、科学、エンジニアリングなどの分野で働いている場合、あるいは学生の場合、仕事の一部として多くの研究を行っているかもしれません。しかし実際には、どんな目的にも使用できます。
基本的にはGoogleの検索のようなものですが、一つ一つのリンクを確認して自分で全てを読む必要がある代わりに、このAIエージェントが数分で作業を行い、何時間もかかっていた作業が完了します。そして、あなたの具体的な質問に関連する包括的なレポートが残されます。これは非常に驚くべきことです。
ここで彼らは、Deep Researchは独自に発見し、推論し、ウェブ全体からの洞察を統合すると述べています。これを実現するために、ブラウザとPythonツールを使用する実世界のタスクでトレーニングされ、OpenAI o1(最初の推論モデル)の背後にある同じ強化学習手法を使用しています。
Deep Researchはこれらの推論機能(o1の推論機能を指す)の上に構築され、人々が仕事や日常生活で直面する種類の問題に取り組めるようにしています。つまり、このエージェントDeep Researchは、本質的にOpenAIのo1モデルにツール使用を組み合わせ、実世界のタスクから研究を行うようにトレーニングされたものです。
これは何を意味するのでしょうか。OpenAIのoモデルシリーズが改善され、o4やo5などにスケールアップされるにつれて、エージェントも文字通りそれに応じて向上していくということです。これらのエージェントが置き換えることになる職種の数を考えずにはいられません。
では、これが実際にどのように機能するのか見てみましょう。ここで、OpenAIのDeep Researchに早期アクセスし、日常的に業務で使用している女性のクリップを紹介します。
「質問から始めて、その内容について何も知らないかもしれません。そこで研究者の帽子をかぶって、もう少し考えてみて、どこを見ればいいのか考えます。私の名前はレアナシです。ベイン・サンフランシスコのリサーチ・データサービス部門のディレクターを務めています。
優れた研究とは、最新のデータ、最も信頼できるデータを提供できることです。研究トピックがより専門的になってきているため難しい面がありますが、だからこそ私たちは継続的にイノベーションを行い、これらのニュアンスを全て捉えられるようにしています。
Deep Researchにアクセスして良かったのは、依頼者のニーズを本当に理解しようとしていることです。どの地域を見ているのか、どの業界を見ているのかといった細かい部分まで、これらのツールは全てそれを強化するのに役立ちます。
今週は、半導体チップの不足について取り組んでいます。根本的な理由を理解し、どの業界が最も影響を受けたのか、今後数年間の見通しはどうなるのかを知りたいと思いました。そこでプロンプトを入力し、業界の出版物、コンサルティングの概要、公開データ、そして半導体協会からのデータを調べるよう依頼しました。
根本的な原因を素早くまとめ、コンテキストを提供してくれました。ソースにカーソルを合わせると、ウェブサイトにリンクしていることが分かります。非常に全体的な視点を得ることができ、これまでよりもずっと早く作業ができるようになったことに興奮しています。
チャットジーピーティー、AI、Deep Researchのようなツールは、私の個人的な能力を向上させてくれると思います。そのため、他の研究タスクに時間を使うことができます。私にとって、それが研究の喜びです。好奇心を持ち続け、常にオープンな心を持って学び続けることです。」
これは間違いなく非常に役立つツールです。では、いくつかのベンチマークでの性能を見てみましょう。最近公開された評価である「humanities last exam」では、幅広い分野の専門家レベルの質問でAIをテストしています。Deep Researchを支えるモデルは、26.6%という新記録の精度を達成しています。
これは非常に新しいベンチマークで、先週の動画で話題にしたと思います。数百の科目にわたる数千の難しい質問で構成されています。リーダーボードを見ると、このスコアに近いのはOpenAI o3 miniハイのみで、13.3%のスコアです。
考えてみてください。このベンチマークで9.1%を記録したOpenAI o1モデルは、約2ヶ月前の12月初めに導入されました。そして数日前にリリースされたo3 miniは13.3%を記録し、今日OpenAIが導入したDeep Researchは26.6%を記録しています。これは信じられないほど速い進歩です。
ちなみに、Deep Research o1は実際にこのベンチマークでo1を0.3%上回っています。また、実世界の質問でAIを評価する別のベンチマーク「Gia」では、Deep Researchを支えるモデルが新たな最高水準に達し、外部のリーダーボードでトップに立っています。
ご覧の通り、各難易度レベルで以前の最高水準を上回っています。この部分は本当に興味深いです。彼らは、様々な分野の専門家レベルのタスクの内部評価で、Deep Researchは難しい手作業での調査を何時間も自動化したと専門家から評価されたと述べています。
このグラフが示すように、モデルがブラウジングし、そのブラウジングについて考えれば考えるほど、パフォーマンスが向上します。これが、考える時間を与えることが重要な理由です。これは完全に理理解できます。なぜなら、Deep Researchエージェントはテストタイムスケーリングに基づくOpenAIのoモデルシリーズを基盤としているため、LLMの代わりにエージェントにテストタイムスケーリングの法則を適用しているからです。
本質的に、人間と同様に、エージェントにタスクを実行する時間を与えれば与えるほど、そのタスクの遂行能力が向上します。つまり、これらのoモデルが向上するにつれて、エージェントも向上することになります。
もちろん、これらのエージェントは非常に新しいため、まだいくつかの大きな制限があります。「Deep Researchは重要な新機能を提供しますが、まだ初期段階であり、制限があります。内部評価によると、既存のチャットジーピーティーモデルよりは低い割合ではありますが、時として事実を誤って作り出したり、誤った推論を行うことがあります。
権威ある情報と噂を区別することに苦労する場合があり、現在は確信度の調整に弱点があり、不確実性を正確に伝えることができない場合が多くあります。」つまり、答えが分からない場合でも、分からないとは言わずに、間違った答えを与えてしまう可能性があります。
重要な仕事に使用する場合は、特に違和感を感じた場合には、必ず提供された情報を再確認してください。しかし全体として、これはOpenAIが今までにリリースした、あるいはこれからリリースする中で最も驚くべき製品の一つだと思います。
エージェントは、AIにとって別の大きなチャットジーピーティーの瞬間のようになるでしょう。それは今年、遅くとも来年には起こるでしょう。Deep Researchを実際にいつ使用できるようになるのか気になる方もいるでしょう。まず、Proモードをお持ちの方は、すでにアカウントで利用可能なはずなので確認してください。
その他のユーザーについては、「すべての有料ユーザーは、より小さいモデルを搭載した、より高速で費用対効果の高いDeep Researchのバージョンをリリースする際に、大幅に高いレート制限を得ることになります。このバージョンは依然として高品質な結果を提供します」と述べています。
また、すべての安全性チェックが引き続きリリース基準を満たせば、約1ヶ月後にPlusユーザーにDeep Researchをリリースする予定とのことです。過去にOpenAIがリリースを延期したことがあるので、この通りになるかどうかは分かりません。
次に何が来るのか、そしてOpenAIの計画を見る前に、Sam AltmanがXでDeep Researchを発表した際に、言及したかった追加の詳細があります。彼は、このバージョンはPlusティアユーザーに対して月あたり約10回、フリーティアユーザーに対して非常に少ない回数になると述べています。10回の検索というのはあまり多くないように思えますが、一度の検索で数分間研究を行うということは、おそらく大量の計算リソースを使用していることになります。
彼はまた、50セントの計算コストで500ドルの価値を生み出すとも述べています。ここでの価値の計算方法や、どのような種類の価値を指しているのかは正確には分かりません。経済的価値を想定していると思われますが、これは非常に大胆な発言です。このような数字は、企業が人間の雇用を控えたくなる要因となります。
さて、次はどうなるのでしょうか。現在、Deep Researchはオープンウェブとアップロードされたファイルにアクセスできます。将来的には、より専門的なデータソースに接続できるようになり、購読ベースや内部リソースへのアクセスを拡大して、出力をさらに堅牢でパーソナライズされたものにすることができるようになります。
さらに先を見据えて、非同期の実世界の研究と実行のためのジェネリックな体験がチャットジーピーティーで統合されることを構想しています。非同期のオンライン調査を実行できるDeep Researchと、実世界でアクションを起こせるOperatorの組み合わせにより、チャットジーピーティーはあなたのためにますます高度なタスクを実行できるようになります。
以上がOpenAIのDeep Researchエージェントについての説明です。私は個人的に、OperatorとDeep Researchの組み合わせがもたらすものや、これらのエージェントがどんどん高性能になっていく様子を見るのが楽しみです。
これは正直なところ、OpenAIが企業として存在してきた中で、AGIに向けた最大のステップの一つだと考えています。皆さんはこれについてどう思われますか。
今日はここまでです。視聴していただき、ありがとうございました。この動画を楽しんでいただけたと思います。いつも通り、このような将来のAIニュースを常に把握したい方は、購読ボタンを押してください。

コメント

タイトルとURLをコピーしました