
7,284 文字

みなさん、こんばんは。今夜は私の博士論文のテーマについて、OpenAIのディープリサーチとGeminiのディープリサーチを再度テストしてみたいと思います。前回のテストの進め方には少し不満が残っていて、もっと厳密にできたのではないかと考えています。それは部分的に、私の博士課程での研究が技術的な内容だったため、その細かい詳細に立ち入りたくなかったからです。しかし今回の動画ではそういった細部まで踏み込んでいきます。
説明は可能な限り分かりやすくしますが、このディープリサーチツールが本当に有益なものかどうかを皆さんに実感してもらうために、かなり厳密なテストを考えました。具体的には、分野全体の要約ではなく、私が大学院で書いた2本の論文に焦点を当てた要約を求めることにしました。
これらは私が筆頭著者の論文なので、その内容や考え方、改善できた点などについて非常によく理解しています。そこで、OpenAIとGeminiのディープリサーチに以下のようなプロンプトを与えることにしました。
「アルマ大型ミリ波サブミリ波干渉計(ALMA)とハッブル宇宙望遠鏡(HST)を使用した超大質量ブラックホールの動力学的質量測定に関する以下の2本の論文について、1500から2000語のレポートを作成してください。レポートでは以下の質問とポイントに言及してください:
・これらの研究論文の主な目的または仮説は何か
・これらの測定を行うことの意義は何か
・収集された望遠鏡データの観測特性を説明してください
・著者のブラックホール質量測定方法を説明してください
・これらの測定の誤差予算における主な不確実性の源は何か
・測定されたブラックホール質量の値は何か
・将来の測定に向けて著者が改善できる点は何か」
これらは私が考えた7つの簡潔な質問で、これらのモデルに尋ねるのは妥当だと思います。特に私の論文を読んでもらいたいので、arXivへのリンクを提供しています。arXivはプレプリントサーバーなので、ペイウォールなどはありません。
論文は天体物理学ジャーナルに掲載されており、オープンアクセスですが、ディープリサーチがオープンアクセスジャーナルだと認識せず、PDFをダウンロードして全文を無料で読めることを理解していないことがあるようです。実際にジャーナルが完全にオープンアクセスであるにもかかわらず、「このジャーナルにはアクセスできません、ペイウォールの背後にあります」と言われたことがあります。そのため、完全に無料でオープンなarXivを使用することにしました。
このプロンプトをGeminiとGPT-4o3の両方にコピーして送信します。
すると、OpenAIのディープリサーチから質問が返ってきました。「これら2本の論文に基づいた詳細なレポートを作成できます。進める前に、序論、方法、結果、考察、結論などのセクションを持つ学術的なスタイルのレポートを望まれているのか、また引用スタイルやフォント、行間など特定のフォーマット要件があるかを確認させてください」
フォーマットの要件は特にありません。序論、方法、結果、考察、結論のセクションを持つ学術的なスタイルのレポートで構いません。Microsoft Wordにコピー&ペーストした際にフォーマットの問題が生じない形で書いてください。それ以外は自由に書いていただいて構いません。
Geminiモデルにも同じような指示を与えることにしましょう。両方に全く同じプロンプトを与えて、実行させてみます。
Geminiがいくつかのことを言っています。セクションについて説明し、さらにいくつか追加もしているようです。よさそうなので研究を開始します。Googleのディープリサーチの開始は少し遅れましたが、大きな問題ではないでしょう。両方がどのように進めているのか見てみましょう。
「制限のあるDOIリンクを確認しています…制限といってもarXivなのに…」と言っています。待ってください、何が起きているのでしょう?
「要約を作成中…ブラックホール質量測定をまとめています…ガス動力学モデリングとステラーマス分布に焦点を当てて…」
「NGC476と5193のALMAを使用したブラックホール質量について学習中…」
おや、Geminiが急に動き出しました。どの論文を取り上げたのでしょう?これは…まるで記事の書き方を学んでいるようです。自分で記事の書き方を学ぼうとしているようで、面白いですね。
一方、GPT-4o3のディープリサーチは「関連セクションを探すためにarXivのHTMLを確認しています。主要なセクションを組み合わせています…」と表示しています。「F160Wフィルター(近赤外線)を使用して塵の影響を最小限に抑え、可能であればF814Wを光学測定に追加することを検討しています」と言っていますが、確かにF160Wフィルターは私が画像撮影に使用したものです。
おや、彼らは私のウェブサイトを読んでいるようです。「Kyle Kabarの出版物についてResearchGateまたは.eduサイトでさらなる詳細を探すため、kabar.comの出版物を確認しています」と表示されています。
Geminiが完了したようです。Google Docsで開いて確認してみましょう。GPT-4o3はまだ進行中です。
かなり長いレポートのようです。退屈かもしれませんが、読んで解説していきたいと思います。できるだけ包括的に、このレポートが客観的に良いものかどうかを皆さんに理解していただきたいと思います。フォーマットなどはあまり気にせず、内容が良いかどうかに焦点を当てていきましょう。
まず、タイトル「ALMAとHSTを用いた超大質量ブラックホールの動力学的質量測定:比較レポート」
序論では「超大質量ブラックホールは大質量銀河の中心に存在し、銀河の進化に重要な役割を果たしています。太陽質量の数百万倍から数十億倍の質量を持つこれらの天体は、周囲に強い重力的影響を及ぼし、母銀河内の星やガスの動力学を形作っています。SMBHの形成と成長を理解することは、ブラックホールと母銀河の間の複雑な相互作用を解明する上で不可欠です」
これは良い序論の段落で、すべて正確です。
「SMBHの基本的な特性の1つは質量であり、これはさまざまな技術を用いて測定できます。ブラックホールの周りを周回する星やガスの運動を観測する動力学的質量測定は、SMBH質量を決定する堅牢で信頼性の高い方法を提供します。アルマ大型ミリ波サブミリ波干渉計(ALMA)とハッブル宇宙望遠鏡(HST)は、銀河核内の動的なガスと星を探査する能力を革新し、SMBHの精密な動力学的質量測定を可能にしました」
初期の要約として「研究は初期段階ではSOLARを使用して…」という部分は、TMI(Too Much Information)というか、必要のない情報ですね。
「このレポートは、ALMAとHST観測を使用して異なる銀河のSMBH質量を測定した2つの最近の研究論文に焦点を当てています。最初の論文『NGC 1332のブラックホール質量の測定』は…」
これはすでに間違っています。これは私の指導教官の論文で、私の論文ではありません。特定の論文へのリンクを提供したにもかかわらず…
ここで、Googleのディープリサーチが失敗したことが明らかになりました。求めていたターゲットの論文を取り上げていないのです。1332について言及していますが、この論文をよく知っています。実際にこの論文は2本ありますが、これは私の指導教官が書いたもので、私が指定した論文ではありません。
「2番目の論文『レンズ状銀河NGC 3998における超大質量ブラックホールの動力学的質量測定』は、レンズ状銀河NGC 3998のSMBHに焦点を当てています」いいえ、違います。
これは完全な失敗です。リンクを提供したにもかかわらず、理解できていないのは驚きです。これは完全に間違っています。さらに、NGC 1332の傾いたリングモデルについても誤りです。これは平坦なディスクモデルなので、私はこの論文を知っているのでわかります。
なんという失敗でしょう。Googleのディープリサーチの大失敗です。
では、OpenAIのモデルの結果を見てみましょう。8分で24の異なるソースを参照しています。これは正しいですね。私の論文を引用していますか?はい、これは私の論文です。これも私の論文です。私の論文を再び引用しています。
同じ論文を何回引用しているのでしょうか?3回同じ論文です。必要以上に引用しているようですね。
「最近まで…」これは正しいです。これも正しいです。これはかなり良いですね。まだ私の論文を引用していますか?同じ論文を何度も引用していますね。面白いですね。論文を引用するように指示しましたが、毎行引用する必要はありません。
「分析対象の2つの研究論文は、4つの早期型銀河のSMBH質量を測定するためにALMAとHSTを組み合わせて活用しています」これは正しいです。「最初の研究は1380と6861を対象としています。2番目の研究は4786と5183に焦点を当てています」良いですね。実際に正しい論文を取り上げています。これはすでにGoogleのバージョンよりも大きな改善です。
「すべてが楕円銀河とレンズ状銀河で、周核塵円盤とガス円盤を含み、同様のガス動力学モデリングを形成しています」これは正しいです。正しいです。すべての単語を読む必要はないでしょうが、ここまでのところ、すべて良好です。
「要約すると、この分析は2つの研究の目的、方法、研究結果、および意義を検討します。序論では、SMBHの測定にALMAとHSTを使用する動機と、これらの測定が重要である理由を概説しました。次の方法セクションでは、取得した観測データとモデリング技術について説明します」
方法について、「CO(2-1)を使用」これは正しいです。「最初の研究はサイクル2のデータを使用」これも正しいです。「サイクル3以降」これも正しいです。サイクル3とサイクル5でした。高度に傾いており、約3秒角のオーダーであるということも正しいです。
星の分布について、「研究ではハッブルを使用して銀河核の星の光度と塵をマッピングしました。各銀河で滑らかな円形の塵円盤を使用しました。これはこれらのターゲットを選択する基準でした」これは良い指摘です。その通りです。そのように対象を選択しました。
「F110WとF160Wを使用。光は塵による消光の影響を受けにくく、中心の星分布をクリアに見ることができます」正確です。まさにそのために使用しました。「ALMAは点源関数を生成…」ここまですべて良好です。すべて正確です。
「あるモデルでは消光がないと仮定し、塵に覆われた領域の真の星光を過小評価する可能性があります。一方、別のモデルでは消光補正を試みるか、塵の多い中心領域を除外する可能性があります。2024年の研究では、銀河ごとに3つのMGモデルを作成し、浅いものから急峻なものまでの妥当な内部輝度プロファイルの範囲をカバーして、塵による不確実性を捉えようとしています」これはまさに私たちが行ったことです。私の博士論文の大きな部分でした。
モデリングについて、「銀河内の重力ポテンシャルは2つの成分から成ります。星の広がった分布と、無視して良い寄与であることが判明したガスです」これは良い指摘です。非常に良い点に気付いています。はい、私たちはそれを含めましたが、確かに無視して良い寄与でした。その指摘を嬉しく思います。「そして中心にブラックホールを表す点質量」
「正しい、イメージングによって制約された円盤モデル」ここは早めに進みましょう。「モデルは合成データキューブ、あるいは少なくとも速度場を生成します」と書いていますが、これは合成データキューブなのに、この「少なくとも」という部分は不要ですね。
「この方法の重要な側面は、著者たちが導出された回転曲線だけでなく、ALMAのデータキューブに直接モデルを当てはめたことです。彼らは詳細な3D情報を考慮に入れています」これは興味深いポイントです。論文全体を読んでいないような書き方をしています。期待しすぎかもしれませんが、「おそらく含まれていた」という書き方は、論文を読めば実際にブラックホール質量やその他のパラメータが勾配降下アルゴリズムを使用して当てはめられたことがわかるはずです。
CASAを使用し、ALMAFITも使用したことに言及しています。これは正しいです。
不確実性分析について、「MBHの測定にはいくつかの不確実性の源があり、著者たちは慎重に検討しました。各フィットはノイズを考慮したデータによってパラメータがどの程度制約されているかを示す統計的不確実性を生みます。モデリングの仮定から生じる系統的な不確実性もあります」はい、そうです。
大きな問題は消光補正です。はい、それについて言及しています。「6861は中心部でCO放射が欠如している独特の不確実性がある」これは正確です。非常に正確です。その銀河はそのことで特に注目すべきでした。
1380は1.47億太陽質量、40%の不確実性、これは正しい範囲です。「その他の超大質量ブラックホールの..」ですが、正確な値はその範囲内です。NGC4786と5193の値も正確です。
主な不確実性の源も正確です。距離の不確実性についても良い指摘です。
改善点について何を言っているか見てみたいですね。ここまでは非常に良好でした。また、このSMBH測定においてあまり認識されていない点についてこの文章で触れているのは嬉しいですね。
改善点について:「ALMAのより高い解像度と感度」これは確かに可能です。私たちは2段階のプロセスで観測を行いました。低解像度で質の良い測定や対象が見つかれば、より高解像度で再観測することができます。「多波長イメージングとダストマッピング」これは何年も話題に上がっていますが、まだ実現していません。しかし良いアイデアです。JWSTも良いアイデアです。
クロス検証も常に良いですね。サンプルの拡大と選択基準を見てみましょう。「将来の調査では、おそらくALMAのスナップショット調査で多くの候補を見つけ、この技術を適用できる対象を特定できるかもしれません。改善点としては、影響圏が解像できそうな対象銀河を選ぶことです」これは以前から要件でしたが…「あるいは、やや質量の小さいブラックホールだが非常に近傍にある対象に焦点を当てることで、ALMAで影響圏を解像できるかもしれません」
分析とソフトウェアの改善について。「傾斜やらせん状の乱れ」これは良いです。「完全なベイズフィッティング」も良い考えです。これについても考えました。これらはすべて非常に良い提案ですが、一部は重複していたり、すでに試されていたりします。しかし、それを知る方法はなかったでしょう。
結論では「重要な制限要因と将来のガス動力学測定に関する考慮事項を強調しています。要約すると、主な教訓は可能な限り高い解像度を得ること、ダストと恒星質量プロファイルの不確実性を徹底的に考慮すること、そして常に極端なケースをテストし、データの要件を理解することです」
私も同意します。このレビューは非常に良いと思います。数日前に私が分野全体のレビューを求めたときのものよりもはるかに優れています。人間なら書かないような言い回しや過度な記述など、少し気になる点はありますが、内容は良好です。まずそこから始めましょう。内容は本当に良いです。私がやったことをすべて正確に理解し、事実を正しく把握し、異なる論文を混同することもなく、これらの論文に焦点を当てています。
おそらく明らかですが、より少ない内容に焦点を当てるように指示するだけで、より良い結果が得られることが確認できて良かったですね。前回、分野全体の文献をまとめるように依頼したときと比べて、レスポンスの質が向上しているのを見るのは興味深いです。
これら2本の論文の著者として、これらの記述を読んでみると、本当に私の研究を読んだ人のような印象を受けます。もしこれがテキストではなく音声で、私の論文について会話をしているとしたら、「wow、彼らは本当に時間をかけて私の論文を読んでくれたんだな。ペンで印をつけて、メモを取って、本当に内容について深く考えてくれたんだ」と思うでしょう。これは本当に、本当に、本当に素晴らしいです。
天文学のこの特定の分野の専門家である私が、自分が書いた論文をレビューし検証させるという非常にニッチなケースを使用して、ディープリサーチの能力をより良く理解していただけたと思います。
以上で動画は終わりです。長くなってしまい申し訳ありません。できるだけ徹底的に説明したかったのです。これらの動画でどの程度詳しく説明すべきか、あまり詳しくしすぎないようにすべきか、判断に迷うことがあります。専門用語を使って話すのは時間とともに退屈になる可能性がありますが、この特定の動画では、できるだけ多くを読んで出力を批判的に評価し、正直な意見を皆さんに伝えることが重要だと考えました。
あ、「dark hearts」という表現が前に気づかなかったのですが、もし真面目な論文のつもりなら、論文に「dark hearts」という表現は不適切だと思います。でも、これは本当に細かい指摘です。非常に細かい指摘です。内容は本当に良く、GoogleのGeminiディープリサーチは正しく機能せず、私が提供した論文さえ使用しませんでした。
以上です。ご視聴ありがとうございました。今後のテストでまたお会いしましょう。
コメント