Gemini 2.5 Proが登場!💥 初期テスト 2.5 Pro💥

5,761 文字

Gemini 2.5 Pro is here!💥 Initial Testing 2.5 Pro💥
Today we’re introducing Gemini 2.5, our most intelligent AI model. Our first 2.5 release is an experimental version of 2...

Googleが旗艦モデルGemini 2.5 Proを発表し、LMSアリーナで第1位にランクインしました。Rishabからの非常に興味深い最初の印象を紹介します。これは「思考型」モデルです。思考モードと非思考モードの区別はありません。このモデルのツール使用能力は非常に優れています。RishabはSQLのユースケースや他のユースケースでテストしたようです。レート制限がなければ、このモデルをさらに探索できるでしょう。ツール使用に関しては優れたモデルです。
この初期印象から私が見つけた興味深い点は、このLLMが検索グラウンディングを使った回答において、以前のどのモデルよりもはるかに優れているということです。検索グラウンディングとは何かご存じない方のために説明すると、AIスタジオに行って何か質問すると使えます。例えば、「パンジャブとグジャラートの最近のIPLの試合で誰が勝ったか」と質問できます。この質問をモデルに尋ねるだけでなく、「Google検索で根拠付け」を選択します。つまり、このモデルはPerplexityがやることをやってくれます。検索して情報を取得し、その情報に基づいて最終的な回答を根拠付けて返してくれるのです。
Rishabによれば、このモデルはこの特定のユースケースに非常に優れているとのことです。例えば、3月25日にパンジャブ・キングスが11点差で勝利したことがわかります。これは簡単に確認できます。このモデルは検索グラウンディングにおいて抜群に優れています。ランキングだけでなく、私のテストからもこのモデルが極めて優れていることがわかりました。
このモデルについての私の感想とGoogleが共有した情報をお伝えします。Google Gemini 2.5 Proの大きなニュースは、LMSアリーナで1443を超えた最初のモデルであることです。他のどのモデルよりも高い位置にあります。これは、このモデルが非常に優れているか、少なくとも人間の好みに合致していることを示しています。Googleが発表した内容を見れば、このモデルが驚異的であることがわかるでしょう。
多くのベンチマークにおいて、このモデルは競合を圧倒しています。Scale AIの「humanity’s last exam」という最近のベンチマークでは、このモデルは18.8%のスコアを獲得しています。Claude 3.5、3.7(拡張思考を含む)といった他のモデルと比較しても高いスコアです。この2.5 Proモデルは思考の連鎖を持つ「思考型」モデルであり、私はこれが通常の思考ではなく拡張思考だと思います。このモデルは内部モノローグを通じて多くの時間をかけて答えを導き出します。
GPQAでこのモデルは84.0%のスコアを獲得し、他のベンチマークでもほぼ同等か上回る結果を示しています。このモデルで特に目を引いたベンチマークは、AERポリグロットにおいてトップであることです。Cursorというツールをご存知でしょうか。多くの人が愛用するコマンドラインツールで、ターミナル内で使用できます。プログラミングを向上させるための素晴らしいツールの一つです。Claude Codeに似ていますが、Claude Codeより前からあります。
Aderは定期的にベンチマークを公開していて、このモデルはコード全体の記述において74%、コード差分で68.6%のスコアを獲得しています。これは、GPT-4.5、Claude 3.7 Sonnet(思考あり)、Grok 3 Beta(思考あり)、DeepSeek R1などと比較して、この特定のスコアを獲得した唯一のモデルです。コーディングに関して間違いなく優れたモデルです。この後の動画では、このモデルで多くのコーディング関連のテストも行っています。
このモデルは単なるテキスト言語モデルではなく、視覚言語マルチモーダルモデルでもあります。MMU(Massive Multilingual Multimodel Understanding)というベンチマーク、つまりMMLUに相当するものでは、このモデルは単一試行で81.7%のスコアを獲得しています。また、MRC(文字認識)では91.5%のスコアを獲得しています。
実世界の例を見てみると、このモデルは強化学習や思考の連鎖プロンプティングなどの技術を使用してトレーニング後の改善を行っています。このモデルは間違いなくGoogleの現在の旗艦モデルですが、まだAPIでは利用できません。これは実験的なモデルです。
このモデルの文字認識機能について理解するために、Furconというユーザーがテストしたところ、特定のタスクに関して興味深い結果が得られました。インドや他の発展途上国では、多くの場合、解答用紙にはボックスがあり、学生はそれをマークしたり塗りつぶしたりします。この特定のケースでは、このモデルは高得点を獲得した2つのモデルの1つです。Claude 3.5 Sonnetが最高で、ミスがなく、今日発表されたGemini 2.5 Proは1つのミスだけでした。これは、十字や塗りつぶし、一部しか塗られていないものなどがある中で非常に印象的です。
プログラミングに関しては、このモデルでいくつかのプロンプトを試しました。Olafというツイッターユーザーから見つけたプロンプトをこのモデルとGoogleファミリーの他のモデルで比較しました。問題は次のようなものです:「ベスは最初の1分目の始めにフライパンに4つの氷を置き、2分目の始めに5つ、3分目の始めにさらにいくつかを置き、4分目には置きませんでした。パンでカリカリの卵を焼いている間、1分あたりの氷の平均数が5だったとすると、3分目の終わりにパンに残っている氷の数は何個ですか?」
この質問を人間にすると、2種類の人間がいることがわかります。すぐに問題に飛び込んで数学オタクになり、「4+5+11+…」という計算を始める人と、これがトリッキーな質問だと理解して「熱いフライパンに氷を置いたらどうなるか?明らかに溶けるでしょう」と考える人です。場合によっては、氷の融点やすべての温度設定などを計算して最終的な結論に至る極端なケースもあります。
興味深いことに、Googleの両方のモデルがこの問題に正確に答えました。正解はゼロです。違いは、Google Gemini 2.4 Flash思考実験モデルは6秒で答えを出し、最新モデルは118秒(約2分)かかったことです。時間がかかった理由は、思考過程を展開すると、X値は何かなどを計算して、最終的に「3分目の終わりにある氷の数はおそらくゼロである」という結論に達し、熱いフライパンでは氷が溶けるからだと説明しています。
もう一方のモデルが思考過程を展開すると、様々な方向に考えを巡らせています。融点や、どの仮定がより強いか弱いかなどを計算し、化学教授のようになって最終的な答え(ゼロ)に達しています。
このモデルが非常に優れていることに不満はありませんが、最大の不満点は、DeepSeek R1スタイルの思考プロセスを持っているように見えることです。時には深く考え過ぎて、もっと短時間で答えられたかもしれない問題に多くの時間をかけています。高度なユースケースには役立つかもしれませんが、単純なユースケースでは「考えすぎ」と言えるでしょう。
他にも行ったテストでこのモデルが本当に優れていることがわかりました。例えば、「インドの月に基づいて制御できる四季のP5JSシミュレーションを作成してください」という質問をしました。期待していたのは、P5.jsコードの理解、インドの月の理解、スライダーの提供です。ゼロショットでこれだけのプロンプトを与えたところ、コードを提供してくれました。
シミュレーターができ、なぜか雲が周りを走っていますが、1月、2月、3月、4月、5月があり、5月までは夏の季節で、6月頃にはモンスーン(我々は一般的にモンスーンとは呼ばず、雨季と呼びますが)があります。興味深い観察点もあります。例えば、冬の色、夏に入ると明確な木があり、多くの雨が降り、モンスーンや秋になると葉の色も変わるのが見えます。ゼロショットでモデルがこれを作り出したのは素晴らしいと思います。
次のプロンプトは別のP5.jsプロンプトで、「八角形の中でバウンドするボールのP5jsシミュレーションを生成し、物理法則に従うようにしてください」というものです。これもゼロショットで与えたところ、八角形の中でバウンドするボールが得られました。ボールは中でバウンドし、異なるサイズのボールがあり、壁での反射も良好です。各壁での反射が見え、フリッカーもほとんどなく、コーナーなどの端でも良い動作をしています。八角形を回転させることはしませんでしたが、かなり良い仕事をしていると思います。
この特定のユースケースの極端な場合として、「ボールが壁に当たるたびに2つに分裂し、分裂し続けて10個で止まるようにしてください」という要求をしましたが、この極端な場合には上手くいきませんでした。しかし、シンプルなプロンプトに対しては非常に良い結果を出しています。
次は、インターネットで見つけた別のパズルで、他のモデルでは解けなかったのに、このモデルは解いたという興味深い例です。これはなぞなぞです:「ペニーには5人の子供がいます。最初の子供はJanuary、2番目の子供はFebruary、3番目はMarch、4番目はAprilです。5番目の名前は何でしょう」と尋ねていますが、意図的に疑問符を付けていません。
このプロンプトに対して、このモデルは正解を出しました。ステップバイステップで考え、最後の文を注意深く読み直し、論理的には次の名前はMayですが、なぞなぞは「5番目の名前は何(what)」で終わっていて、典型的な疑問文の形(「5番目の子供の名前は何ですか?」)ではなく、より文のように提示されていると指摘しています。なぞなぞであり、ピリオドで終わっているため、答えは「what」であると判断しました。
これは非常に興味深いです。基本的に、これらのモデルはトークンを扱っており、トークンは何でもあり得ます。トークナイザーで確認すると、この質問の「5番目の」の後に疑問符はなく、ピリオドが別に来ています。LLMがこれを見て、疑問符がないことを理解し、これがなぞなぞであるため正しい答え(what)を与えなければならないことを理解したのは、私の意見では非常に魅力的です。このモデルは見事な仕事をしています。
他のモデルもこれがなぞなぞであることを理解していますが、Mayではない別の答えを出そうとしています。しかし、このモデルは正解であるwhatを出しています。
インターネットで見つけた別のプロンプトもあります。人々はこのモデルだけが正しく答えたと言っていますが、正解を検証することはできませんでした。Hacker Newsで見つけたものです。問題は:「円の中に3人の人がいます。各人の頭上には正の整数が浮かんでいて、各人は他の2つの数字を見ることができますが、自分の数字は見えません。2つの数字の合計が3番目に等しくなっています。最初の人に自分の数字を尋ねると、知らないと言います。2番目の人に尋ねても知らないと言います。3番目の人に尋ねても知らないと言います。再び最初の人に尋ねると、65だと言います。3つの数字の積は何ですか?」
モデルはこれを理解し、定式化しようとします。n1 = n2 + n3の場合、n2とn3は26 + 39 = 65となり、最終的に65910という答えを出しています。現時点でこれを検現時点でこれを検証する方法はありません。数学者の方であれば、ぜひ検証して教えていただければと思います。このモデルについてはさらに多くのテストを行いたいと思いますが、30分も動画を見てお待ちいただくのは避けたいので、別の動画でプロンプトと応答だけの内容を作成する予定です。
正直なところ、私はこのモデルに個人的に魅了されています。唯一の不満点は、このモデルが非常に多く「考える」ことです。生産的なユースケースで使用する場合、思考の連鎖トークンに多くのお金を費やすことになるでしょう。これらすべてに対して課金されるからです。Googleはこれを無料で提供するわけではありません。唯一の問題点は、モデルが多く考えるため、多くのお金を使うことになるということです。これは実験的なモデルなので、価格の詳細はまだわかりません。
しかし、それ以外では、このモデルは素晴らしく、驚異的です。Googleは本当に特別なものを作り上げました。これはベンチマークハッキングやベンチマークハイジャックと呼ばれるようなものではなく、本当に飛躍的な進歩を遂げたモデルだと思います。LMSアリーナだけでなく、個人的な意見としても、100万トークンでかなり良い仕事をしていると思います。
このモデルはすでにAIスタジオで利用可能です。AIスタジオに行ってモデルをクリックすると、「Gemini 2.5 Pro experimental 0325」が見つかります。Googleはこのモデルの使用を開始すると、より良いレート制限が提供されると約束しています。
このモデルについてどう思うか教えてください。実行してほしいベンチマークがあれば、ぜひ教えてください。様々な大学の試験からの質問なども試してみたいと思います。Googleには素晴らしいことをしてもらいました。唯一の点は、オープンソースではないことです。オープンソースであることは期待できませんが、DeepSeek R2がすぐに登場し、別のオープンソースモデルですべてのモデルを打ち負かすのを見たいと思います。今はこれを待ちきれません。
しかし、現時点ではこれは素晴らしいモデルです。AIスタジオでGemini 2.5 Proを試してみてください。また別の動画でお会いしましょう。ハッピング

コメント

タイトルとURLをコピーしました