Gemini Experimental 1121が約10分で10週間分の量子力学研究を行った

5,870 文字

量子力学の研究として、2017年の夏にUCアーバインで大学院生として初めて取り組んだプロジェクトについて、教授から受け取った指示内容をここで紹介します。この研究課題を推論LLMモデルで実行できるか検証してみたいと思います。
まず背景について説明させてください。私にとってはやや辛い経験でしたが、面白い話だと思います。テストの部分だけを見たい方は、説明文の下に時間を記載しておきます。
UCアーバインに入学した当初、私は博士課程で何をしたいのかまったく分かっていませんでした。密度汎関数理論という分野で理論量子力学に取り組みたいと考えていました。密度汎関数理論について調べてみると、要するに多体シュレーディンガー方程式を解くための手法です。重い原子や分子中の多数の電子がある場合、シュレーディンガー方程式を解くのは手に負えなくなります。これはその問題を回避するための方法として考案されました。
この理論を考案したのはホーエンベルグとコーンの2人で、私が師事したいと考えていた教授は実はコーンの下で博士号を取得していました。コーンとホーエンベルグはこの研究でノーベル賞を受賞しています。
私は彼の下で研究できることにとても興奮していましたが、自分が何に巻き込まれようとしているのか分かっていませんでした。8週間か10週間のプログラムの最初の2週間半から3週間は何もすることがなく、ただ時間を持て余していました。ようやく夜遅くにこのメールを受け取った時は、何をすればいいのか分からずとても不安になったことを覚えています。
結局、私は彼の博士課程の学生にはなりませんでした。メールのやり取りの最後の部分を見ると、「機会をいただきありがとうございましたが、他の選択肢も考える必要があります」と伝えています。特に悪い形で終わったわけではありませんが、相性が良くなかったのです。
彼からの指示はメールだけで、実際の指導はほとんどありませんでした。すべて自分でやることを期待されていたようです。博士課程の指導教官にそれを求める学生もいるでしょうが、私には合いませんでした。相性が良くなかったというわけです。
さて、この問題をGoogle Gemini experimental 1121に投げかけてみましょう。昨日の積分で1114が印象的だったので、この1121を使います。1114はもう古くなっていて、現在は実験版1121が最新モデルだと聞きました。
メールの「Hi Kyle」や最初の文を除いて内容を与え、必要であればPythonでプロットや計算を行うように指示を加えてみましょう。
私自身も当時この問題に取り組みました。これが私の最初の回答です。文献を調べて値を探すのに時間がかかりました。7年も経っているので、具体的な内容は説明できませんが、教授はパラメータDに応じてエネルギーがどのように変化するかを知りたかったようです。
おおむね満足してもらえたようで、その後パーセント誤差なども計算しました。
では、この問題を投げかけてみましょう。
Geminiの返答：「では、この問題を段階的に分解してみましょう。結合エネルギーのプロット…」
うわー、ちょっと落ち込みそうです。このLLMが私の当時の成果を完全に上回ってしまいそうな予感がします。
「WKB近似はいつ最も不正確になるのか？Dが小さく、新しい束縛状態が現れる臨界値に近い時です。これは、ポテンシャルが浅く、波動関数が振動を持たないため、半古典近似の妥当性が低くなるためです。」
では最も正確なのはその逆の場合ということですね。2番目に弱く束縛された状態にこれを使用…この状態についても同様にプロットを繰り返すことができます。
まずは得られた結果をプロットしてみましょう。おや、これは…実は似たようなものを見た記憶があるような…いや、正直なところ、どういう形になるべきなのかまったく分かりません。
これは私が書いたコードですが、Geminiにこのコードが正しかったのか確認してもらいましょう。本当に興味深いです。私が完全に間違えていたのかどうか、MATLABのコードを読んで分析の妥当性を損なうような間違いがなかったか確認してもらいましょう。
教授は「良いスタート」と言ってくれましたが…
「ポテンシャルエネルギーが最も…これは各臨界Dでゼロに戻ります」
ああ、確かにそうですね。ゼロに戻っているじゃないですか。
よし、私のコードは正しかったようです。気分が良くなってきました。では実行してみましょう。私をこき下ろすでしょうか？「お前のコードはダメだ」とか…
「間違い：WKB近似の式が正しくありません。コードでは…を使用していますが、正しいWKB近似の項は…であるべきです」
えっ、でも私が読んだ研究論文では…まあいいや、間違っていたことを認めましょう。もうどうでもいいです。
「分析が不十分：プロットは…」
ああ、なんということでしょう。完全に私への批判セッションになってしまいました。
「パーセント関数のプロットは良いのですが、計算後に別のプロットで表示しています。より洞察に富む方法があるはずです。」
「エラー計算の問題：冗長な配列を使用しています。ゼロの場合の処理が…」
ああ、私のコードを修正してくれましたね。気分が少しマシになりました。「あなたのコードはダメですが、私なら良いコードが書けます」と言われているようで、ちょっと悲しいです。内心では「はい、私は当時バカな院生でした」と認めざるを得ません。
オンラインでMATLABを開いて、このコードが実際に動くか確認してみましょう。もしかしたら失敗するかもしれません。そうしたら少し気が楽になるかも。MATLABの使い方を思い出さないと…メインの言語として使っていたのは何年も前のことです。
ファイル名を付けて保存する必要がありますね。「trauma.m」としましょう。当時の苦労を象徴する名前です。
図が表示されました。これは…うわ、すごい。私が思っていた通りのことを実現できているようです。このプロットウィンドウでは見にくいですが、教授が求めていたことを的確に表現できています。
ただし、このプロットの体裁はちょっとひどいですね。Geminiさん（あるいは何と呼ぶべきか分かりませんが）、計算は正しいかもしれませんが、見た目が整っていません。でも基本的には正しい結果を出せています。
つまり、最初の部分は簡単にできたということですね。でも、これは最初の部分だけです。次は何でしたっけ？次の指示は…そうですね、2番目に弱く束縛された状態のコードを書くことでした。
「2番目に弱く束縛された状態のコードを提供してください。教授とのやり取りに戻ると、まさにこれが起こるべきことです。各臨界Dでゼロに戻り、WKB公式のプロットを繰り返します。2番目に弱く束縛された状態の結合エネルギーを計算しプロットするコードをPythonとMATLABの両方で提供してください。」
おや、今度は本気で見せつけてきましたね。そこまでする必要はないのに…
わぁ、これは実際にかなり良いですね。最初は批判的でしたが、見事な出来栄えです。私にはこれが正しい方法なのか確信が持てません。当時は理解できませんでしたが、教授が期待していたものよりはずっと良い結果だと思います。
パーセント誤差の変化が興味深いですね。ある点を過ぎると、誤差が振動しながらほぼ一定に保たれているように見えます。
教授に7年前のメールスレッドを掘り起こして、これらのプロットを送ってみようかと考えています。「ところで、7年前にお求めだったものがこれです。遅くなりましたが…」なんて。
PythonとMATLABの両方で実行してみましょう。この時点でGeminiは本当に力の見せどころですね。
TeXフォントが読み込めないようですが、それは問題ありません。見てみましょう。
おや、これは同じような…待てよ。2番目に弱く束縛された状態は…Pythonで見たものと全く同じですか？ちょっと待ってください。
ああ、なるほど。これとこれ、そしてこれがこうなっている…そうですね。でも、なぜ530まで伸びているんでしょう？先ほどはそこまで行っていなかったのに…何が起きているのかよく分かりませんが、とにかく私が当時できたよりもずっと良い仕事をしていることは確かです。
気になるのは…まだ指示されていなかったエネルギーのプロットについても試してみたいですね。では、教授から受け取った次の指示を与えてみましょう。
「弱く束縛された状態のジャンプの扱いに関する重要な改善点。このプロットは、結合エネルギーのジャンプを、厳密解とWKB計算の両方について明確に示しています。」
本当にそうでしょうか？私には適切な判断ができませんが、ここで判断できるのは私しかいないので…
おお、これは実に良い感じですね。教授が求めていたものと完全に一致しているかは分かりませんが、振動的な性質を持っています。なぜこうなるのでしょう？1、4、9、16…待てよ、これは平方数のところで起きているんですか？1の2乗、2の2乗、3の2乗、4の2乗…このパターンは続くのでしょうか？
100まで見てみましょう。おや、これは奇妙です。ああ、なるほど。20までだったからですね。では代わりに…完全平方数で常に起こるんでしょうか？16、25、36、49…そうみたいです。
なぜこうなるのか気になってきました。いや、もうこの問題には戻りたくありません。でも、実際にどうやって解くべきだったのか、とても興味深いです。
教授から最後に受け取った指示を与えてみましょう。私がこのプロジェクトから撤退する前の最後の指示です。
また、私が受け取った指示をそのまま与えています。分かりにくい内容ですが…うわ、私よりずっと良く理解できているようです。これを午後一回で達成できたなんて…当時、ChatGPTがあればよかったのに。OpenAI、なぜ2017年にリリースしてくれなかったんでしょう。おそらくGPT-2さえなかった時代ですが、助けになったはずです。
すごいですね。パート1：拡大して最初の2つのレベルのD値に焦点を当てる、表を…なんと徹底的に取り組んでいることでしょう。
プロットを見てみましょう。厳密な臨界値、厳密なDc…私も似たような結果を得ていたでしょうか？気になります。何か表を作っていましたね。
これは正しい臨界値ではありません。待てよ、ここに何かパターンがありますね。1、n、25…おおよそ2つおきに平方数が出てきているようです。面白いですね。結局これが何を意味していたのか、今でもよく分かりませんが。
すごい、これは本当にクールです。厳密解とWKB近似を比較できます。WKBはこれらのポテンシャルを解く際の近似手法なので、特定のD値で近似がどのように破綻するかを見ることができます。今になって科学的な好奇心を持って見ることができます。少なくとも、あまり恨みは感じません。
もう十分見ました。Gemini 1121は当時必要だったことを完璧にこなすことができました。
今夜のGemini 1121の性能について、私の考えをまとめて締めくくりたいと思います。他の推論モデルと同様に、複雑なタスクを分解し、まず課題を理解して使用可能なコードに変換する能力に感銘を受けました。ただし、これは厳密には斬新な研究とは言えないでしょう。Pöschl-Tellerポテンシャルは量子力学の解かれた問題であり、古い論文や教科書に記載されています。これはテキストブックに載っているPöschl-Tellerポテンシャルのエネルギー準位で、異なるサイズの修正された孔を持つものです。
過去にこの研究は行われているので、Geminiの学習データにこうした情報が含まれている可能性は十分にあります。それでも、これは大学院レベルの入門的な夏季研究プロジェクトで、私には解けなかったとはいえ、10分以下で完了させました。私には7～8週間かかった10週間プログラムの課題を10分で終わらせたのです。
とはいえ、これは当時の凡庸な、というより多分それ以下の大学院生の仕事と比較しているだけです。量子力学の知識がより豊富で、やる気があり、教授の意図を理解できる学生なら、もっと多くのことができたでしょう。当時の私がもっと優秀であれば、さらに進んで別のプロットの要求にも応えられたかもしれません。
しかし、私は本当に感銘を受けています。これらのプロットを見返してみると、とても興味深いものです。完全に正しいかどうかは分かりませんが、見るだけでもとても面白いです。
教授に送ることは冗談で言いましたが、実際に送ることを考えています。7年ぶりにこれらのプロットを添付してメールを送り、「あの時求められていたものが、やっと分かったと思います」と伝えるのも面白いかもしれません。もしかしたら、教授もその後この問題に取り組むことはなかったかもしれません。
話は逸れましたが、より真剣な観点から見ると、これらのツールは科学者にとって非常に有用だと考えています。ただし、それは積極的に活用しようとする科学者の手に渡った場合に限ります。これらのツールを恐れたり、単に我々を置き換えるものとして否定的に捉えたりするのではなく、活用する姿勢が重要です。
しかし、最先端の科学者を置き換えられる段階にはまだ達していないと思います。先ほども述べたように、これは斬新な発見というわけではありません。この問題や非常に似た問題についての文献は確実に存在するはずです。
それでも、特に研究を始めたばかりの大学院生や、現在のような専門の科学者にとって、これらのツールがいかに有用であるかを示す良い例だと思います。
長々と話してしまいましたが、これで終わりにしたいと思います。夜遅くに撮影したので少し疲れています。自分では手に負えなかったプロジェクトをLLMが簡単にこなしてしまったのを見て、少し悲しい気持ちにもなりましたが、正直なところとても感動的でもありました。
以上で動画を終わります。よろしければいいね、登録をお願いします。今後も新しいテストを考えていきたいと思います。では、また次回お会いしましょう。