
4,313 文字

Perplexity AIが彼らのバージョンのDeep Researchをリリースしました。バレンタインデーに公開されたようです。これは基本的にOpenAIのディープリサーチモデルのようなもので、AIモデルが時間をかけて考え、レポートを作成できます。金融やマーケティングから製品調査まで、専門家レベルのさまざまなタスクで優れた性能を発揮し、HumanEvalの試験でも高いベンチマークを達成したとのことです。
ご覧の通り、Deep Researchを選択するだけでよく、私もここに表示されているものを用意しました。以前の動画をご覧になった方はご存知かもしれませんが、私は超大質量ブラックホールに関する自分の博士論文の研究に基づいて、OpenAIとGeminiのディープリサーチモデルをテストしました。そこで、公平な比較のために、GoogleとGeminiのディープリサーチモデルに与えたのとほぼ同じプロンプトを与えてみようと思います。
このアニメーションを見ると面白いことに、最終レポートをPDFにエクスポートできると書かれています。ここに例がありますが、このドキュメントにはグラフが含まれていないようですね。これらのモデルが最終的に分析の中でグラフを生成できるようになることを本当に期待しています。また、私はある種の表を作成するように依頼しているので、それができるかもしれません。
HumanEvalの試験では、Perplexity Deep ResearchはOpenAI Deep Researchと同等か、わずかに劣る程度のようですが、それでもかなり優れた性能です。このシンプルなQ&Aベンチマークで非常に良い結果を出しています。
それではプロンプトをPerplexityに入力してDeep Researchを実行し、何が起こるか見てみましょう。これが私のプロンプトです。OpenAIのディープリサーチやGoogleのモデルのように質問をしてくるのか気になります。両方とも私が何をしてほしいのか正確に理解するために質問をしてきました。実際にはそのまま進めようとしているようですね。
ここでは、ALMAの運用初年度である2013年頃に発表されたレビュー論文や重要な研究で、分子ガス動力学的なブラックホール質量測定に関するものを探す必要があると述べています。これは正確です。いくつかの関連研究があります。現在の測定値のリストや表を作成する必要があるとのことです。
実際、可能であれば測定値の表を作成してほしいと依頼しました。なぜなら、大学院生活で論文を書くときに最も面倒なことの一つが表作りだと思うからです。例えば、私の博士論文の最終章には、その時点までのすべての測定値を含む包括的な表があります。これを作るのは本当に大変な作業でした。AIがこの表を作ってくれたら本当に助かります。
とりあえず待ってみて、出力を確認してみましょう。私にとってはこれが本当にすごいことです。様々な記事やウェブリンクを解析し、その情報を処理して最終的なレポートを作成できるというのは驚くべきことです。AIが登場する前は、人間がすべてを自分でやらなければならなかったことを覚えておく必要があります。この参考文献リストにある論文を一つ一つ見つけ出し、論文を読み、参考文献を確認し、手作業で検索する必要がありました。しかし今では、これらのツールがこれを実行できます。
おや、私の論文を見つけましたね!待ってください、見たいです。やった、これが私の論文です!それは良いことですね。あ、もう終わりましたか。どれくらい時間がかかったのでしょうか。録画を始めてから約5分、6分しか経っていないので、5分未満ですね。
これは素晴らしい、実際にまとめています。わお、すごいですね。ただし、これらがすべてではありません。ChatGPTと同様に、すべての論文を見つけることはできませんでした。また、この年は間違っています。私の論文は2024年のもので、2023年ではありません。2012年の論文と2024年の論文はありますが、2023年の論文はありません。
これは面白いので、PDFとしてエクスポートして、より詳しく見てみましょう。Perplexityのレポートがここにあります。タイトルは「ALMAによる超大質量ブラックホール質量の分子ガス動力学的測定:10年間の進歩」で、これは良いタイトルですね。すべてを声に出して読むことはしませんが、自分で読んで、興味深いことや間違っていること、またはコメントしたいことを強調していきます。
これは真実です。これらはすべて、イオン化ガスの動力学的モデリング測定から分子ガスへ移行することが最善である理由として、一般的に引用される制限事項です。それは良いですね。
フォーマットは少し変ですが、解像度のスケールやこのrsoiを解像することが非常に重要であるという点で正確です。塵や乱流も考慮に入れる必要がある要因です。
放射伝達コードは完全には正確ではありません。これらは放射伝達コードではなく、動力学的モデリングです。ここでは細かい話になりますが、要するに、KMSとDISは放射伝達コードではありません。それを指摘しておく必要があります。そこに不正確さがあります。
再度フォーマットが少し変ですが、統計的フレームワークと不確実性の定量化は正確です。ドキュメントの途中でLaTeXを使用するのが難しかったか、保存時に少し変になってしまったようです。
これらはすべて有効な関係ですが、これはすべての測定の包括的なリストではありません。私の論文がリストアップされているのは良いことですが、私が発表した他の2つの測定値がリストに含まれていないことは既に分かっています。DavisやOnishi、Smithの最近の論文など、他にもいくつか思い浮かびます。私の表を見てみると、公表された測定値の多くが本当に抜けています。
興味深いことに、これらのディープリサーチモデルはすべてのソースを見つけることができないようです。確かにいくつかは見つけることができ、次に何を調べるべきかの良い出発点として使えますが、これは完全に包括的ではありません。
また、興味深いことに、私のブラックホール質量測定値には不確実性が含まれていますが、他の測定値には含まれていません。その理由は正確には分かりません。
また、線形解像度に関してこれが正確かどうかも確信が持てません。ここで記憶を辿ってみましょう。解像度は、間違っていなければ、ええと、45でしょうか。この天体について、私の論文を見てみましょう。1秒角が301なので、この銀河の解像度は実際には3です。そのため、31×301で約93になるはずです。したがって、45パーセクは正しくありません。
5193も間違いなく正しくないはずです。ええと、1秒角が221に相当するので、これも3秒角の解像度を持っているはずです。3×221は66になるはずなので、これも間違っています。
解像度がここで不正確であることは注目に値します。他のものについても同様に不正確である可能性が高いと思われますが、すぐには分かりません。
また、Deep Researchがプロットを作成できるかどうかも非常に気になります。依頼した通りに表は作成しましたが、実際にコードを書いてレポートにプロットを作成できるかどうか知りたいと思います。
これが私のプロンプトです。「表で作成したデータを使用して、pythonでブラックホール質量対解像度のプロットを作成し、レポートに再挿入してPDFエクスポートで利用できるようにしてください」。実際にはこれは作りたいプロットではありませんが、プロットに使用する数値が既に表にあるので、簡単なものを試してみようと思います。
ここには、レポートで提供された表に基づいて、太陽質量単位でのブラックホール質量とALMAの解像度(パーセク)の関係を視覚化するために、pythonを使用して散布図を生成する必要があると書かれています。このプロットはデータの傾向を示し、更新されたレポートに含める視覚的な表現を提供するとのことです。プロットを生成した後、レポートに統合してPDFエクスポート用に準備するそうです。
matplotlibを使用しているのは良い兆候です。ここで2秒ほど見た限りでは、すべて良さそうです。リストされた解像度と質量があり、そのプログラムを実行しようとしています。プロットがどのように見えるか見てみましょう。これら2つの要素は実際には関係がないので、おそらくかなり散らかったものになるでしょう。
プロットの作成に成功したと言っています。どのように見えるでしょうか。なかなか良いですね。スケールが完全に異なるため、このプロットは非常に散らかっていますが、プロットを作成できたということが重要です。それが私が望んでいたことです。素晴らしいですね。
レポートが再生成されましたが、図は入っているでしょうか。プロットはそこにはありませんね。表も消えてしまいました。PDFエクスポートに関する注意書きによると、プロットはこのように保存されており、レポートやプレゼンテーションに含めるために、ドキュメント形式からPDFを生成する際に適切に埋め込まれるか、外部ツールを使用して最終レポートのレイアウトに直接組み込む必要があるとのことです。
レポート自体にプロットを入れることはできなかったようですが、それは問題ありません。ただ気になっただけで、大きな欠点というわけではありません。ただし、表は消えてしまいました。以下にプロットの要約があるとのことですが、表は消えてしまい、フォーマットもまだ少し変で、まだ改善の余地がありますね。
これで、Perplexity Deep Researchに対する私の当面の質問にほぼ答えが出ました。私がある程度専門性を主張できる分野でどのように機能するかを見ていただけたのは興味深い動画だったと思います。まだまだ改善の余地がありますが、PhDを取得した分野の専門家の目に耐えうるレポートを書くよう依頼するのは非常に高いハードルです。
ご覧の通り、まだやるべきことはありますが、いつも言うように、これらのモデルは今が最も性能が低い状態で、時間とともにさらに良くなっていくでしょう。
再度視聴していただきありがとうございます。この動画が価値あるものだと思っていただけたら、いいねとチャンネル登録をご検討ください。次の動画でお会いしましょう。
コメント