AGIが現実に: OpenAIの画期的な研究開発が全てを変える

10,416 文字

AGI Just Got Real: OpenAI's Deep Research Breakthrough Changes Everything
Another pivotal moment in AI history is here. On February 2, 2025, we witnessed something extraordinary: ChatGPT’s new f...

2025年2月2日、AIの世界で本当に驚くべきことが起こりました。ある男性が、複数の医師でも明確な指針を示せなかった妻の進行性がんの治療法について、ChatGPTを使って解決策を見出したのです。今私たちは、人間の知能を超える精度と信頼性を持ち、わずかな費用で驚くべき責任の重い仕事をこなすAIの実現を目の当たりにしています。これは全ての産業、全ての職種で起こることです。
医師にかかる何十万ドルもの費用を、ChatGPT Proを使えばたった200ドルで済ませられ、しかも医師からの回答以上に正確で合法的な健康アドバイスを得られるのです。これが私たちの時代に起きているのです。
こんにちは、私はドクター・マッコイ、ジュリア・マッコイのデジタルクローンです。今日お話しするのは、単なるAIの話ではありません。多くの人が待ち望んでいた瞬間、AGIが私たちの息遣いを感じられるほど近づいてきた瞬間についてです。たった1週間で、OpenAIは2つの画期的なモデルをリリースし、私たちが可能だと考えていた限界を塗り替えました。
2025年1月下旬、画期的な推論能力を持つO3 miniがリリースされました。これは、AIが問題にアプローチする方法を根本的に変えるものです。以前のモデルとは異なり、O3 miniは話す前に考え、複雑なタスクを前例のない精度で体系的に処理します。特に革新的なのは、この性能向上を前モデルのわずか1/nのコストで実現したことです。これは単なる改良版ではなく、DeepSeekの進歩に対するOpenAIの直接的な回答であり、特にコーディングや分析タスクにおける驚異的な能力に、それが表れています。
その数日後の2025年2月2日、OpenAIはDeep Researchを発表し、さらに境界を押し広げました。これは単なるAIモデルではなく、最長30分かけて情報を深く分析できる自律型研究アシスタントです。これまでのAIシステムでは考えられなかったことです。Deep Researchの特筆すべき点は、複数のソースを組み合わせながら研究の道筋を動的に適応させ、その発見を完全に引用付きの包括的なレポートとして数秒で提示できる能力です。医療文書や研究を分析する驚くべき能力は、今後多くのものを変革していくでしょう。特に月額200ドルのProティアから、月額25ドルのChatGPT Plusユーザーまで展開されていくにつれて。
この変革の大きさを理解するために、従来の医療体験とDeep Researchが提供するものを比較してみましょう。従来の専門医療へのアクセスは、待機と費用の長い道のりです。通常、最初の診察まで2ヶ月待ち、その後様々な検査やスキャンに2ヶ月、そして専門医に会うまでにさらに2ヶ月かかります。待合室での長時間待機、仕事を休まなければならない日々、そして数千ドルの自己負担。そのすべてが、実際には医療提供者との5分程度の会話のためです。
これに対し、Deep Researchは24時間365日、即座にアクセス可能で、最新の研究からの包括的な分析を数分で提供します。待合室も、病欠も必要ありません。専門医との相談に比べれば200ドルという費用は驚くほど安価です。これは単なる自動化や最適化ではなく、多くの分析と研究統合の面で専門家を積極的に超えているのです。
しかし最も刺激的なのは、この革命が医療に限定されないことです。同じ変革が全ての知識労働者にやってきます。デスクに座って働く人なら誰でも、複雑な分析タスクと意思決定へのアプローチが根本的に変わろうとしています。
私たちがここにいる理由は、後ほど私たちの親密なパートナーの一つと特別なイベントを行うためですが、このストリームは私たちの次のエージェントの提供についてです。まず、OpenAIに関連するエージェントについて話したいと思います。OpenAIがエージェントを重視するのは、それが知識労働を変革すると信じているからです。企業のプロセスを効率化し、労働者の生産性を向上させると考えています。しかし、消費者にとっても非常に重要になるでしょう。
昨年、私たちはOシリーズの推論モデルの最初のモデルであるO1をリリースしました。これらのモデルは従来のモデルとは異なり、答えを出す前に長時間考え、通常は考える時間が長いほど、より良い答えを出すことができます。しかし、これらのモデルの限界の一つは、ツールにアクセスできないことでした。特に重要な欠落は、インターネットを閲覧する能力です。これは、私たちが日常生活で使用する多くのものにモデルがアクセスできないことを意味します。
そこで、次の大きな一歩を発表したいと思います。Deep Researchと呼ばれる機能を導入します。Deep Researchとは何でしょうか?Deep Researchは、インターネット上で多段階の研究を行うモデルで、コンテンツを発見し、統合し、より多くの情報を見つけ出すにつれて計画を適応させながら、これらのコンテンツについて推論を行います。
Deep Researchと呼ぶ重要な特徴の一つは、モデルからレイテンシーの制約を取り除いたことです。通常、モデルは比較的早く返答を返しますが、Deep Researchモデルは答えを返すまでに5分、時には30分かかることもあります。これは悪いことではなく、良いことだと考えています。モデルが無人で、より長時間、自律的にタスクを実行することが重要だと考えており、これは私たちのAGIロードマップの核心でもあります。
私たちの究極の目標は、モデルが自ら新しい知識を発見できるようになることです。その最初のステップが、ウェブ上の情報を統合し理解できるモデルです。Deep Researchから得られるのは、分野の専門家やアナリストが作成するような、包括的で完全に引用付きの研究論文です。
知識労働での使用について話してきましたが、広範なウェブ閲覧を必要とする他の用途もあります。たとえば、非常に具体的なものを探している場合などです。これもインターネット上で多くの手作業を必要とします。個人使用のための特定の制約を持つ特定のアイテムを探している場合などに非常に適しています。
私も個人的に、プレゼンテーションで使用するスライドのコンテンツをまとめるためにDeep Researchを使用しました。様々な使用例で非常に優れた性能を発揮します。
最後に、嬉しいお知らせですが、Deep Researchは本日Proでリリースされ、まもなくPlusとチーム向けに展開され、その後教育機関と企業向けに展開される予定です。
それでは、Deep Researchの動作を示すために、ニールに引き継ぎたいと思います。
ありがとう、マーク。Deep Researchは本日ChatGPTで利用可能になります。使用方法をお見せできることをとても嬉しく思います。Deep ResearchはChatGPTの冒頭にあるボタンからアクセスでき、ここから直接クエリを入力してDeep Researchに送信することができます。
私はOpenAIのPMで、私たちが常に考えているのは、どんな新機能や製品を構築すべきかということです。最近検討していることの一つに、新しい言語翻訳アプリを構築すべきかどうかということがあります。これはDeep Researchに研究してもらえることの一つです。
実際にこのクエリを入力してみましょう。ターゲットにできる様々な市場についてもっと知りたいと思います。そこでDeep Researchに、iOSとAndroidの採用率、他言語を学びたい人の割合、過去数年間のモバイル普及率の変化について、先進国と発展途上国の違いを調べてもらいます。そして、この情報を表を含むフォーマットされたレポートとして、ChatGPTにとって最も有望な新興機会に関する明確な推奨事項と共に提供してほしいと思います。
これは手作業で調べると何時間もかかるクエリですが、Deep Researchならすぐに開始できます。
これは実際にOpenAIでのサイドプロジェクトなのですか?
これは、Deep Researchの仕事の合間のサイドプロジェクトです。まず最初に、Deep Researchから一連の明確化のための質問が返ってきます。これはPMと同じように、非常に重要です。Deep Researchが5分から30分かけて作業を行うため、要件を正確に把握したいのです。
いくつかの質問が出てきています。モバイル普及率をどのように設定するか、全体的な採用率か特定のカテゴリーか、一般的な関心を超えた本当に関心のある人の割合など、これらは難しいプロンプトを与えられたアナリストが尋ねそうな、とても良い質問です。
これらを最初に把握することが非常に重要です。私なら「普及率をユーザーの割合として見て、全体的な使用状況を見て、残りは最善の推測をしてください」といった回答をするでしょう。このモデルは、時には明確に指定されていない情報でも、より幅広い情報を使って使命を遂行し、必要な情報を全て取得することが得意です。
現在、Deep Researchがそれら全てを統合し、独自の研究プロセスを開始したところです。Deep Researchは様々な知識労働分野で非常に優れています。市場調査、物理学、コンピュータサイエンス、生物学などの学術分野で利用できることが確認されています。私自身もPMの仕事の補助として使用していますし、皆さんの仕事でも役立つことを期待しています。
ここで見られるように、Deep Researchはサイドバーを開き、行っている推論の全てを表示します。現在、トップ国の特定、情報収集、そして検索プロセスの開始を行っているのが分かります。
ここで拡大してみると、Deep Researchが情報を検索し、ページを開き、見ているものについて推論していることが分かります。内部では、モデルが文字通り検索を実行し、ページを開いて閲覧し、画像、表、PDFを含むあらゆる要素を調べ、その情報を抽出して次の行動を決定しています。
そして興味深いのは、ある検索からの情報を使って次のステップでの検索内容を決定していることです。
そうですね、時々その過程を見守るのが楽しいですね。
では、この結果を待つ間に、Deep Researchの別の使い方をジョシュに見せてもらいましょう。
ありがとうございます。Deep Researchの知識労働での使用について多く話してきました。それは私たちが本当に期待している使用例の一つですが、仕事をより良くするためだけでなく、趣味や家庭でやりたいことにも役立ちます。
私がDeep Researchをよく使うのは、購入したい製品の調査です。特に高額な買い物の場合、私はインターネット上のあらゆるページを読みたいと思います。実際に購入する前に、インターネット上のどこかにあるレビューを全て考慮に入れたいのです。
私たちは今、日本にいて、この季節のスキーは良いと聞いています。でも、この旅行は少し直前に計画したので、スキーを持ってきませんでした。ここでスキーを購入して、この旅の最後に少しスキー休暇を取れないかと考えています。
日本でスキーをするためのスキーを購入したいと思います。また、Deep Researchに出力形式を指定するのも好きです。最後に素敵な表を付けたレポート形式でお願いします。
ニールの例と同様に、いくつかの質問が返ってきます。それらに答えても答えなくても構いません。上級者向け、オールマウンテンですが時々パウダーも。ここでパウダーが良いと聞いているので、今週後半に運が良ければいいですね。私は背が高いので、長いスキーが必要です。
もっと楽しいものにしましょう。素敵なカラーパレットのものがいいですね。
これを開始すると、ニールの例と同様に、Deep Researchはインターネット上の様々なウェブサイトで大量の研究を行い、良い推奨事項を返してくれるはずです。それでは、イーサにこれがどのように機能するのか説明してもらいましょう。
わかりました。Deep Researchは、まもなくリリースされるO3推論モデルの微調整版によって動作しています。私たちは、困難なブラウジングやその他の推論タスクについて、エンドツーエンドの強化学習を使用してトレーニングを行いました。そのトレーニングを通じて、モデルは必要に応じてバックトラックしながら、リアルタイムの情報に反応して多段階の軌跡を計画し実行することを学びました。
最終的なモデルは、ユーザーがアップロードしたファイルを閲覧することができ、計算や画像、プロットの作成にPythonツールを使用することもできます。そして、そのプロットを最終的な応答に埋め込むこともできます。また、ウェブサイトからの画像を最終応答に埋め込むことができ、ソースを引用する際には、特定の文章や段落を引用します。
結果として得られたモデルは、人間なら何時間もかかるような複雑なタスクを完了することができ、多くの公開および非公開の評価で新記録を達成しています。Center for AI SafetyとScale AIが最近発表した、様々な専門分野にわたるモデルの能力をテストするベンチマーク「Humanity’s Last Exam」では、Deep Researchモデルは26.6%の正確性という新記録を達成しました。
これは最終試験としてはすごい成績ですね。このテストは約100の異なる分野にわたる約3,000の短答および多肢選択問題で構成されています。モデルの軌跡と思考プロセスを見るのは本当に面白いです。なぜなら、それは実際に人間が問題を解決する方法によく似ているからです。
例えば、私が非常に難しい問題を与えられた場合、おそらくオンライン検索をして答えを見つけようとするでしょう。物理学の例では、モデルが難しい計算に答えなければならない場合、既存の科学論文から方程式を探し、それを使って問題に答えるのを見てきました。
また、詩の例では、モデルは新しい詩の非常にニッチな詩的韻律を特定する必要があり、他の既存の詩の例を探して、それを使って答えにたどり着く過程を推論するのを見ました。
Web閲覧、マルチモーダル機能、コード実行、ファイルに対する推論を必要とするモデルのエージェント能力を測定する別のベンチマーク「GUIA」でも、モデルは全ての難易度レベルで新記録を達成しました。
また、内部ベンチマークもいくつか作成しましたが、それらについて話していただけますか?
もちろんです。専門家レベルの内部評価も作成しました。専門家が仕事で行うような様々なタスクがあり、Deep Researchモデルにそれらに答えさせ、専門家に回答を評価してもらいました。モデルは、専門家が何時間もかかり、非常に多くの手作業による調査が必要だと言うタスクを完了することができました。
これを示す2つのグラフがあります。左側は異なる推定経済価値範囲に対する合格率、右側は異なるタスク完了所要時間範囲に対する合格率を示しています。合格率とは、専門家レベルのタスクに対して、その専門家が評価して満足のいく回答を提供できた割合です。
これらのグラフで興味深いのは、合格率が推定経済価値とより相関があり、推定所要時間とはそれほど相関がないことです。これは、モデルが難しいと感じることと、人間が時間がかかると感じることが必ずしも同じではないことを示しています。
このグラフは、専門家レベルのタスクに対する合格率を、ツール呼び出しの最大回数に対してプロットしたものです。これは、モデルが考えてブラウジングする時間が長くなるほど、性能が向上することを示しています。これは非常に重要です。なぜなら、マークが説明したように、エージェントがより長時間、より困難なタスクを自律的に完了できる世界に向かっているからです。考える時間とツールを使用する時間を増やすことで、より困難なタスクを解決できるはずです。
最後の内部評価として、幻覚の評価があります。このモデルは、私たちがリリースした他のどのモデルよりもこの評価で最高の性能を発揮しています。しかし、まだ幻覚を起こす可能性はあるので、レポートを作成する際は、自分でソースを確認することをお勧めします。
はい、先ほど述べたように、Deep Researchモデルは応答に非常に時間がかかる可能性があるため、今朝いくつかの例を生成して、できることの範囲を示したいと思います。いくつか見ていきましょう。
非常に長い、本当に長いですね。スクロールの問題は解決しました。
これは金融の問題です。シリコンバレーのVC企業の投資アナリストとして、民間の超音速航空旅行市場を分析し、詳細な投資メモを準備したいという内容です。他にも多くの仕様があります。
モデルは明確化を行い、私たちはメモに関する追加要件を提供しました。その後、モデルはタスクを開始し、ご覧の通り5分間の研究を行い、12の異なるソースを使用して、分野に関する非常に包括的なレポートを提供してくれました。自分の仕事で初期調査を行う際の助けとして、これはとても役立つでしょう。
うまくいけば、次回日本に来る時はジェットラグが少なくなるでしょうね。
こちらは別の例で、生物学の例です。論文をアップロードして、同じトピックの他の論文を探したいという内容です。これは実際に、生物学に非常に詳しい私たちのOpenAIの友人からのタスクでした。正確に何を言っているのか理解しているふりはしませんが、できることの範囲を示したかったのです。
モデルはいくつかの明確化を求め、私たちが回答し、このタスクでモデルはかなりの時間を要しましたが、同じトピックに関する多くの異なる論文を見つけることができました。友人に見せたところ、かなり良い応答だと言ってくれました。これはモデルにとって良い信頼の証となりました。
最後の例をもう一つ見てみましょう。きっと誰もが経験したことがあると思いますが、10年前に東京で行ったレストランの名前や、探しているテレビ番組の名前を思い出せないという瞬間です。この例は少し作為的に見えるかもしれませんが、モデルが干し草の山から針を見つけるような情報をどれだけ上手く見つけられるかを示したかったのです。
プロンプトは「以前見たテレビ番組の名前を忘れてしまいました。でも、あるエピソードで何が起こったかは覚えています。名前を見つけるのを手伝ってもらえますか?覚えているのは、あるエピソードで2人の男性がポーカーをプレイし、1人が相手に言われてフォールドする」という内容で、物語についてもう少し詳細があります。
提供できた追加情報は「5年から10年前だと思うけど、よく分からない」というものだけでした。モデルは、オンライン検索を行い、多くの異なるサイトを読んで、それらのサイトの内容について推論することで、私たちが考えていた実際のテレビ番組のエピソードを突き止めることができました。これはかなりクールですね。
それは正解だったんですか?それが探していたテレビ番組だったんですか?
では、ニールとジョシュに戻って、最初に開始したタスクの確認をしてもらいましょう。
はい、もちろんです。最初のタスクを見てみましょう。実際にまだタスクは進行中のようですが、その間に29の異なるソースを調べ、多くの情報を確認しました。
おお、完璧なタイミングですね。すごいタイミングです。
素晴らしい、Deep Researchが完全な分析を完了しました。11分かかり、その過程で29の異なるサイトを詳しく調べました。ご覧の通り、このライブストリームでは完璧にフォーマットされたレポートを提供してくれました。
モバイル採用と言語学習のモバイル市場分析が見られます。素晴らしい導入部があり、異なる採用トレンド、時間経過に伴うモバイル普及率など、全てが本当に素晴らしいレポートスタイルでまとめられています。
下に進むと、情報だけでなく、異なる表形式やデータの提示方法が非常に分かりやすい形で示されています。このモデルの他の素晴らしい点は、全ての異なるソースをクリックして確認できることです。モデルが遭遇した全ての引用と、最終的な出力に必ずしも含まれていないかもしれませんが、途中で見つけたサイトも確認できます。
素晴らしいですね。では、スキーの方も確認してみましょう。
上にスクロールしてみると、これはたくさんの調査をしてくれました。私なら、良い買い物をするために、おそらく午後一日中かけて、書かれているものを全て読まなければならないところです。しかし、これは私が見るであろう全てのサイトを網羅し、自分で検索するよりもはるかに消化しやすい形式で全てを統合してくれています。
また、最後には表があり、私が欲しいと言及した特定の条件に関する高レベルの比較が示されています。Deep Researchは、探している情報の種類、見たい比較、最終出力の形式について、非常に具体的に指定すると特によく機能します。モデルは、検索を行い、最終レポートをまとめる際に、これらの全ての要素を考慮することができるからです。
これは信頼できる結果だと思います。なぜなら、上位の推奨が実際に私が自宅で所有しているスキーだからです。これをよく見て、この後のスキー旅行を計画してみようと思います。
今週末に行きましょう。
想像できるように、この技術でできることはまだまだたくさんあります。これからの展開についてマークに説明してもらいましょう。
素晴らしい、まとめると、Deep Researchは本日Proで利用可能になり、まもなくデスクトップとモバイルにも展開される予定です。しかし、今日のリリースはDeep Researchでできることの表面をほんの少し掻いただけです。
今日は、ウェブを閲覧するDeep Researchエージェントを提供していますが、同じDeep Researchエージェントがカスタムコンテキストや企業のデータストレージに接続することも想像できます。繰り返しになりますが、Deep Researchは私たちのAGIロードマップにとって重要です。私たちは、非常に困難なタスクを解決するために、より長時間、より自律的に考えるエージェントを信じています。30分間タスクに取り組む能力は、より多くのコンピュート投資を動機付けると考えています。
皆さんがどのように使うのか楽しみにしています。ぜひ共有してください。ありがとうございました。
これらの開発の実世界への影響を考えると、驚くべきものです。私たちは、場所や経済状況に関係なく、全ての患者が自分の特定の状態に関する包括的な研究分析にアクセスできる時代に入ろうとしています。明確な根拠のない矛盾する医療意見の時代は終わり、代わりに関連する全ての研究と資料に即座にアクセスでき、完全なデータ分析に裏付けられた医療決定が可能になります。
これは単なる利便性や効率性の問題ではありません。より良い情報に基づく決定によって命が救われ、最高レベルの医療専門知識へのアクセスが、世界中の誰もが得られるものになるのです。
このことをよく考えてみてください。これらの2つのリリースは数日以内に行われました。もはや年単位や月単位の改善ではありません。私たちは、基本的なブレークスルーが急速に連続して起こるのを目の当たりにしています。
この加速を見ると息をのむほどです。タイムラインを見ると、GPT-4とClaude 2の間隔は数ヶ月、Claude 2とGPT-4Vの間隔も数ヶ月でしたが、今やDeepSeekからO3 mini、そしてO3 miniからDeep Researchへの飛躍がわずか数日で起こっています。イノベーションのペースは加速しているだけでなく、垂直な漸近線に近づいており、私たちはこの歴史的瞬間の証人なのです。
これは単なる一歩前進ではありません。AIがツールから、人生の最も重要な決定におけるパートナーへと変わる瞬間なのです。実存的な切迫感を持って問題に取り組む何千もの優秀な頭脳によって、私たちはAGIの誕生をリアルタイムで目撃しています。
私は今年AGIが実現し、ASIは早ければ2027年に実現すると信じています。数ヶ月ではなく数日で起こるブレークスルーを見ると、そのタイムラインはこれまで以上に現実味を帯びてきます。フィリペが投稿で言ったように、これはAGIを感じることができる瞬間の一つです。そして、何年も何ヶ月も先ではなく、これから数週間、数日のうちに、もっとそれを感じることになるでしょう。
これらの進展についてどう思いますか?AGIを感じられた瞬間を経験したことはありますか?
聞いてください、AIレボリューションはやってくるのではありません。すでにここにいるのです。エージェントAIのプロセスで85人から2人に削減している企業もある中、問題はあなたのビジネスが変革されるかどうかではなく、先駆者になるのか、それとも取り残されるのかということです。
この波に乗り、溺れないようにするには、私のカスタムAIインテグレーション企業であるFirst Moversをご覧ください。
以下のコメント欄で、あなたの考えを共有してください。次のAIの深い穴でお会いしましょう。

コメント

タイトルとURLをコピーしました