Deep Research: 結果を台無しにする3つの間違い

6,383 文字

Deep Research: 3 Mistakes That Sabotage Your Result
Watch out for three common mistakes if you apply "Deep Research" AI Engines for your job. BE aware of the main three sho...

こんにちは、コミュニティの皆さん。本日はperplexityに戻ってきました。Deep Researchについてお話しします。注意すべき点、何が上手くいって何が上手くいかないのか、そして間違った使い方をすると完全な失敗になりかねない点についてお見せしたいと思います。
10時間ほど試行錯誤を重ねて長所と短所を理解しようとした後、以下のような質問をしてみました。「perplexityよ、Deep Researchの技術評価レポートについて深く調べてください。自分自身について調べてください。ここではDeep Researchのパフォーマンスの不足について調べてください」と。私はGoogleなのかperplexityなのかOpenAIのDeep Researchなのかは特定しませんでした。
インターネットを検索して科学的な発見について議論するAIエージェントからの科学的な洞察、Deep Research AIエンジンの長所と短所、そしてなぜ失敗する可能性があるのか。ただし、AIの内部的な幻覚による失敗ではなく、推論の深さの欠如でもなく、単にインターネット上で見つかるリソースが検証されておらず、事実確認がされていないという事実によるものです。
もちろんそうだと思われるかもしれませんが、システムを3分間実行させて、AI自身による洞察を見てみましょう。最初の驚きは、26のステップのDeep Researchがあることです。見てみましょう。ここに26のソースがあります。アプリの検索、以前の検索、あらゆるものの深さ、検索用語、そして見つかった記事がここにあります。MITやハーバードの記事も。美しいですね。
下にスクロールすると、o3モデルによるマルチステップの素晴らしいDeep Researchの検索結果が見られます。ユーザーはここで、AIの幻覚や推論ではなく、未検証のソースによる失敗点に焦点を当てたレポートを求めています。なぜなら、私たちはAIが幻覚を見ることも、内部的な推論についても知っているからです。私は単に、情報源がどこにあるのか、すべてがどのように組み合わさっているのかを知りたいだけです。
AIの推論が正しくても、使用するソースが信頼できない場合、出力は欠陥があることを強調する必要があります。これは私の極論に少し強く従いすぎているようです。私は100%従ってほしいわけではありません。時々、構造化されたレポートにもかかわらず、不正確な事実を生成することがあります。
さて、23のリソース…申し訳ありません、26のソースがあります。ここで、回答を見る前に、このテキストを見てください。ここに技術評価の論文があり、これは素晴らしいのですが、最初の間違いに気付きましたか?OpenAIのDeep Researchにのみ焦点を当てています。なぜ自身のDCIのDeep ResearchやGoogleのDeep Research(これはOpenAIより前からありました)を無視しているのでしょうか?
単純に、インターネットを検索して人々がインターネットに書いたこと、インターネットで応答したことを探しているだけです。情報が多ければ多いほど、それに焦点を当てることになります。ここには品質よりも量に対する明確な偏りがあります。これは本当でしょうか?
見てみましょう。OpenAIのリサーチだけを扱っていますが、科学的洞察生成における信頼性の検証の課題について、これは絶対に私が求めていたものです。100%正解です。技術アーキテクチャとワークフローを見てみましょう。これは私が求めていたものです。
複雑な質問をサブクエリに分解し、o3sを使用していますね。OpenAIの2,800億パラメータの推論モデルを使用しています。この情報源は素晴らしいことに、ソース1のDataCampです。DataCampを見てみましょう。このインターネットリソースは馴染みがありません。2025年2月5日の実践例を含むガイド…これはデータサイエンス編集者のAlexによって書かれています。素晴らしいですね。
この人物については何も知りません。プライベートで、この人物へのアクセス権がありません。つまり、最初のソースはインターネット上の誰かということです。もし知っているなら素晴らしい、たぶん完璧な素晴らしい人物かもしれません。しかし、この人物について何も確認できません。
次に、8〜12のエージェントスレッドを同時に展開して学術レポジトリを閲覧するというのは素晴らしいですが、ニュースサイトについては…うーん、FoxかCNNを使用するのでしょうか?そして公共データベース。OK、素晴らしい。
クロスリファレンスを行い、ドメイン権威スコアで重み付けをします。OpenAIが文書の権威スコアのようなものを確立したのかと考えます。そしてレポート合成を行い、出力を生成します。素晴らしい。
システムは精選よりもカバレッジを優先し、1研究セッションあたり約200ページを処理し、1ページあたり92ミリ秒の分析速度を持つとされています。これを信じますか?ソース5はData Global Hubです。このData Global Hubについては知りません。これが私が受け取ったリンクです。このリソースを信じますか?
まあ、そこに行って記事を見つければいいと言うかもしれません。投資するだけですよね。でも、私は提供されたリンクだけを見ています。
次にベンチマーク分析です。これは素晴らしい。通常、マーケティングの支配的要因としてベンチマークは1つしか得られません。Deep Researchは人類最後の試験で26%の精度を達成したとされています。これは素晴らしいですね。そしてこれはソース1のみからの情報で、他のソースからではありません。1つのソースだけです。しかし、これでさえも確認が必要です。
エラー分析によると、不正解の38%は時代遅れまたは撤回された研究が有効として引用されたことに起因するとされています。これは望ましくありません。有効として引用されているのは明らかに望ましくありません。そして40%…これは良くありません。
さらに22%のエラーは、非査読プレプリントを権威あるものとして扱うことから生じています。私はすべてのプレプリントが非権威的であることを知っています。もし人々を知っていれば、著者を知っていれば、機関を知っていれば、あるいは部門の責任者を知っていれば、信頼すべきかどうかある程度わかります。
完全に新しい記事や新しい著者に出会った場合、インターネットで調べて、どの大学のどの研究室にいるのか、過去に何を発表したのかを確認できます。しかし、ここではただ記事があるだけで、信頼すべきかどうかわかりません。
不明確なレポジトリからのフローデータセット…私のAIはどうやって良いレポジトリかどうかを知ることができるでしょうか?ここで大きな間違いがあることがわかります。
Gaiaベンチマーク、素晴らしいケーススタディですが、これも再びソース1のみです。ソース1だけが、37のソースを引用しており、その中には8つのPubMed記事、3つのbioRxivプレプリント、16の製造業者のホワイトペーパーが含まれています。
インターネットで製造業者の素晴らしいマーケティング資料を見つけました。各製造業者は「私たちの製品は市場で最高の製品です」と言い、もちろんLLMは「わー、この情報を見つけました。なんて素晴らしいんでしょう」と言います。ああ、私の可愛そうなLLMよ。
このケーススタディでは、業界が後援する研究の94%で利益相反を指摘することに失敗しています。特定の人物や機関、研究機関が特定の産業部門のシンクタンクであることを、このAIがどうやって知ることができるでしょうか?人間ならこれを見て真実だとは思わないかもしれません。人間ならこれが純粋なマーケティングだとわかるかもしれません。でもAIはどうやってこれを知ることができるでしょうか?
まあ、数式はありますが、それは後でお見せします。そして、例えば、この研究では2019年に撤回されたNature論文を現在のベストプラクティスとして提示しています。これは本当に良くありません。
次にソースの関連性の時間的減衰についてです。これは学術研究において重要です。OpenAIによるDeep Researchの時間的認識について…私たちはOpenAIのDeep Researchだけを見ているので、またソースはソース1だけです。これがマスターソースで、私たちが誰だかわからない人物による1つのソースだけを主に参照しています。
彼らは学術出版のサイクルにおける時間的認識が2.3年遅れていると言います。これを信じますか?確認することはできません。もし深く掘り下げて調べるなら、何か失敗モードとして述べられていることについて、複数のソースが欲しいところです。
次に権威の誤帰属です。機関的バイアスがあるかもしれません。アイビーリーグ関連のプレプリントを過大評価するかもしれません。商業的影響もあります。独立した学術研究の23%が業界が資金提供するシンクタンクにつながっているとされています。驚きではありませんね。
インターネット上にあるものは真実ではなく、正しい科学的事実を見つけようと希望を持って外に出て行く私たちの小さなAIは、必ずしも私たちが探しているものを見つけられるとは限りません。
クロスバリデーションのギャップについて、これは興味深いです。並列エージェントスレッドは、本物の検証を行うのではなく、情報のカスケードに収束することが多いようです。つまり、私たちが持っているのは、自己参照する複数のソースのループを実行しているだけで、そのためAIはこれが真の情報だと考えてしまいます。
長所と制限について、素晴らしいですね。人間の平均12ソースに対して、レポートあたり100ソースを使用しています。100個のNVIDIA GPUを持つAIは、人間よりも速くレポートを読むことができます。3時間かかるタスクを11分で処理できます。これは絶対に信じられます。
検証の欠点については…CRAPテストの統合がないことです。これは興味深く聞こえますが、好ましくないものです。静的な信頼性ヒューリスティクスがあります。システムはドメインスプーフィングのリスクや事実確認プロトコルの欠如にもかかわらず、教育機関や政府機関のソースを一様に信頼できるものとして扱っているようです。
事実確認はもう必要ないと言う人もいるかもしれませんが、科学では事実確認をしないと驚くことになるでしょう。クローズドループトレーニングでは、強化学習が品質よりも引用量に報酬を与えることがわかっています。そして再びソース1からの情報です。素晴らしいですね。
Deep Researchを行うと、固有の制限があることがわかります。間違っているわけではありませんが、インターネット上で人間がどれほど愛情を持っているかをAIはどうやって知ることができるでしょうか?
技術的な強化について、これは素晴らしいですね。修正されたCRAPクライテリアを使用する信頼性スコアリングシステムを統合しています。彼らは信頼性を単純な数値として、権威性因子を0.3、通貨を0.25、関連性因子を0.2、正確性を0.15、目的を0.1として重み付けする式を考案しました。
少なくとも関連性、正確性、目的に焦点を当てようとしていることは理解できます。他の検証機関とパートナーシップを組むかもしれませんが、もう誰が必要でしょうか?
そして結論に至ります。この結論が大好きです。「Deep Researchは革新的な文献合成である」と書かれており、「そうだ、これだ!やった!」と言いたくなります。しかし、「Deep Researchは真実と誤情報の混沌を継承している」とも書かれています。
これこそが本質だと思います。Deep Researchは当然、私たち人間が公開した真実と誤情報の混沌を継承しています。企業やボット、個人、政治グループによって投稿された誤情報によって氾濫しています。アメリカ人なら「表現の自由があって素晴らしい」と言うかもしれませんが、これがDeep Research AIを使用したときに得られる結果です。なぜなら、この小さなAIには人間が知っているかもしれないすべてのことを知る方法がないからです。そして、このDeep Research AIに大きな影響を与えることが可能です。
前進への道筋には、学術インフラとの緊密な統合と認識論的謙虚さが必要です。私はこれが何を意味するのかさえ分かりませんが、包括的な検索は無批判なソーシング(情報源の選択)を補うことはできないということを認識する必要があります。
perplexity AIでこれを達成できたことが素晴らしいですね。最初に私がした単純な質問「何が起こっているのか、何が起きているのか」から、OpenAIのDeep Researchの技術評価を見つけることができました。
ただし、これはOpenAIだけの問題ではないことに注意してください。そして、来年にはOpenAIもこれを大幅に改善し、Googleも改善し、perplexityも改善するでしょう。だからこそ、これらのものが私たちに利用可能である必要があります。1日5回の試行だけでも、オープンソースコミュニティとして、これを体験し、欠点から学び、改善し、何が機能していないかを学び、見ることができます。
もしOpenAIのDeep Researchだけで月額200ドルを支払わなければならず、このような素晴らしい洞察が得られないとしたら、それは好ましくありません。このような独自のクローズドシステムは、コミュニティが一緒に学ぶことを可能にしないという特定の理由で好ましくありません。なぜなら、それぞれの人が異なる側面を見て、異なるデータを見つけ出すからです。そのため、すべてをまとめることで、システムをより速く改善することができます。
ソースの信頼性について、26のソースがありますが、26のソースすべてを知っていますか?これら26のソースのために書いた人々を知っていますか?Googleのブログかもしれませんね、それは素晴らしい。でも、著者を見て、読んで、その分野での経験を使って、「これは信じられる」と言う必要があります。
そして、YouTubeビデオを作成して、視聴者や登録者に「私が事実確認した限りでは、何か見つけました。これらの人々を知っていて、彼らが過去に発表したものを知っています。彼らは新しいアイデアを出してきました。これらのアイデアは、現在のAI研究の道筋、私たち全員が今直面しているアベニューと一致しています」と示すことができます。
だからこそ、あなたのためにビデオを作っています。これは興味深いことです。なぜなら、YouTubeビデオを続ける理由、なぜ誰かがAI研究の説明やYouTubeビデオを続けるべきなのかという正当性に立ち返らせてくれるからです。オンラインに行って、AIプロバイダーやDeep Researchに行けば、そこで必要なものすべてが見つかるのだから。
しかし、それほど簡単ではありません。自分自身のために新しい事実を見つけ、本当に楽しんでいます。もしこのビデオを楽しんでいただけたなら、ぜひチャンネル登録をお願いします。次のビデオはすでにパイプラインに入っていますから。

コメント

タイトルとURLをコピーしました