DeepSeekとGemini 1114にこの積分を解かせてみた

960 文字

今日、初めてGoogle Gemini experimental 1114とDeepSeekを使ってみました。数週間ほど風邪を引いていて家族の用事もあって離れていたので、AIモデルのテストに徐々に戻ろうとしています。以前にも試したプロンプトを使って各モデルに1つずつ試してみましたが、とても興味深い結果が出ました。
以前のストリームを覚えている方もいるかもしれませんが、様々なLLMにこの面白い積分を解かせてみました。x²+ 69420をx⁴+ 1で割った0から無限大までの積分です。テストした中で、この積分を解けたのはOpenAI Miniだけでした。Previewすら解けませんでした。
これは1980年代のUCIの物理の試験問題のバリエーションです。私はUCIで博士号を取得したのですが、その問題を基にアレンジしたものです。他の最先端のLLMが解けなかったのが面白かったです。
Claude Sonnetは間違えてしまいました。惜しかったのですが、答えが違います。Metaは「やめておきます」と言って試すことすら拒否しました。「初等的な表現では解けない」などと言い訳していましたが。MuskmとZuckのLLMはダメでしたね。
しかしDeepSeekとGoogle Gemini 1114は本当に驚きました。DeepSeekの解答は大文字や句読点の使い方が適切でなく、まるで忙しくて文法にこだわれない天才とテキストメッセージをしているような感じでした。
答えは69421π/2√2で、DeepSeekはこれを正確に導き出しました。Geminiも同じ正解にたどり着きました。OpenAI Mini以外で初めてこの積分を解けたモデルたちです。
2週間離れている間に多くの新しいリリースがあり、戻ってきたときに追いつくのが大変だろうと思っていました。今日はこの1例だけでしたが、DeepSeekとGemini experimental 1114は非常に有望に見えます。特にDeepSeekの回答の仕方は独特で、OpenAI PreviewやMiniの形式ばった応答とは異なり、何とも言えない不思議な感じがします。少し不安になるくらいです。
また近いうちにテストを再開したいと思います。それまでこの動画で我慢してください。それではまた。