新しいGemini 2.5 proはどれほど優れているのか?

7,215 文字

How much better is the NEW Gemini 2.5 pro?
Today we try the newest version of Gemini 2.5 pro which according to X is a significant improvement to the already impre...

こんにちは皆さん。フィーチャークルーへようこそ。今日はTwitterをチェックしていた方なら、Geminiが既に最高のコーディングモデルと言われていたGemini 2.5 Proのアップグレード版をリリースしたことをご存知でしょう。さらにコーディングが向上したという主張があり、Twitterでもそのような評判が広がっています。
今日はそれを試すのがとても楽しみです。Geminiチャットクライアントで試してみましょう。TwitterでLogan Kilpatrickが投稿していましたが、新しいモデルは既存のモデルを直接置き換えるはずとのことです。クライアントで試して、その性能を確かめてみましょう。まずは「シティシム」体験から始めます。
以前、O3とGemini 2.5の比較ビデオでもこのテストを行いました。都市を探索してもらい、最終的には少し崩れてきました。今日のアップデートがこのテストで大きな変化をもたらすかどうか確かめるのが楽しみです。いつも通り、プロンプトへのリンクをチャットに貼りますが、基本的には都市を作成するよう依頼しています。
NPCの振る舞いや道路の正確さ、車が道路上を走るかどうか、どのようなグラフィックスを見せてくれるかなど、少し自由度を持たせて試してみます。では見てみましょう。
実行中ですが、皆さんにおさらいすると、前回の比較ビデオではこのような結果になりました。最終的に黒い建物が出てきて、シェーダーに問題が発生しました。しかし、収集できるアーティファクトが散らばっていました。それらをすべて集めて報酬があるかどうかは確認しませんでしたが、右上にカウントが表示されていました。上から見るとかなりクールに見える面白い街灯がありましたが、一人称視点になると欠点が見えてきました。
もちろんGrand Theft Auto 6のようなものではありません。最初のプロンプトはCity Genを使っていて、その後にチャレンジラウンドとして一人称視点に変えることが多いです。だから最初のプロンプトでこのように見えるとは期待しないでください。どのように進化していったかは、ビデオをチェックしてみてください。
おお、すごい!通り抜けているように見えますね。でも元のものと似ていますね、同じようなスタイルです。居心地の良いゲームみたいですが、木などがあって違います。また、照明が夜になっています。完全な夜ですね。でも非常に似ています。
同様に、建物が道路の真ん中に配置されるという問題もあります。そうそう。そして車はちょっと変な走り方をしていますが、プロンプトへの対応は格段に良くなっています。前回よりも最初から多くの機能が入っています。最初のラウンドでは木が表示されなかったと思います。
前回のビデオでは街灯は2回目の繰り返しで追加されました。これはかなり励みになるし、引き続き挑戦していくとどうなるか楽しみです。クリスは今コントロールをいじっています。コントロールは機能しているようですね。少なくともゲームスピードが変化していて、これは印象的です。
都市を再生成する必要があるのかな?超高密度の都市にしてみましょう。そして速度を下げると…コントロールは機能していますね。道路のロジックはちょっと物足りないですね。完全な格子状ではなく、少しランダム性を導入しようとしています。
最初の試みとしては良いですね。後退していないし、少し対応が良くなっているように見えます。プロンプトに従って、実際に機能するスライダーなどを追加したことは良いと思います。これは最初から得られたコントロールとしては最高レベルだと思います。間違っているかもしれませんが、通常は追加のコントロールを求めるプロンプトが必要です。
より大きな都市ができました。ディランが指摘したように、車はまだあちこちにあり、道路に従っているわけではありません。それが最初に改善を求めることかもしれません。見たものに基づいて少し改良を加えてみましょう。
私たちが見たいくつかのことは、建物や木が時々道路上にあること、そして車が道路に従っていないことです。さらに、天候イベントを追加してUIでそれを制御できるようにしてもらえますか?また、NPCを追加し、人口を制御するスライダーも追加してください。また、私たちが見ているスクリーンショットを送信して、修正できるようにします。
ここでは機能性に少し重点を置いています。グラフィックスは既に悪くないですが、プロンプトへの対応に興味があります。一種のバイブコードで複数のものを追加できるかどうか?そして、おそらくグラフィックの全面改良や一人称視点に進むでしょう。
さて、私たちの都市です。昼のサイクルがほしいですね。そうそう、車が道路上にあります。建物もより良くなっているようで、公園は大きな緑の四角形のため少し重なっているようですが…そう、完全に整列しているわけではありません。円筒形の人々が出てきています。
時間を上げてみないと動いているかどうかわかりませんが…あ、動いていますね。かなりゆっくり動いています。でも、まだ道路から外れた車も見えますね?建物を通り抜ける車が見えます。そこは完全には修正されていないようです。
天候効果も試してみましょう。現在は「天候効果:なし」となっています。雨が降ってきました。雨はある程度機能しています。雪もあります。雪は良い感じですね。積もってはいませんが、それでもいいでしょう。そして霧。霧は見えませんね。ズームアウトすると霧が見えるかな?それとも単なる視界の制限?本当に霧と分類できるものは見えません。
フィードバックに対応し、霧が本当に見えないことを除いて、ほぼすべてを正常に実装できたことに感心しています。プロンプトの精神を守っているので、非常に印象的なパフォーマンスを示しています。次に通常のチャレンジモードを行い、本格的に挑戦してバイブコーディングをしてみましょう。
いつものように一人称視点を求め、いくつかのゲームメカニクスを要求します。この場合、マップ上に収集できるものを散らばせます。そして挑戦を加えるために、衝突を追加します。車同士が衝突すると破壊され、車がNPCと衝突するとNPCが死に、車がプレイヤーと衝突するとプレイヤーが死ぬようにしたいです。つまり、アイテムを収集する際に実際に避けなければならない課題があるということです。
素晴らしい方向性だと言っています。少し個性が出ていますね。タスクを完了したと言っています。一人称視点の体験になるか見てみましょう。シティコレクト。一人称視点になりました。回転する宝石を集めて、車を避けろとあります。
振り向くとチルト効果がありますね?そうなりがちですね。モデルが苦戦することがあります。少し奇妙です。意図的ではなかったと思います。彼らはそれをどう実装するか誤解することがあります。ドイツ牧羊犬を飼っている方なら、これがものの見方だとわかるでしょう。でも、浮かぶ二十面体。1頭の牛。
車と衝突してみましょう。死ぬことができると書いてあったので、確認してみましょう。ただ方向転換しようとしているだけなんだけど…車よ、私に当たってくれ。私の苦しみを終わらせてくれ。おっ、来た!はい!おっと、私には当たったように見えましたけど。
うん、完全に周囲を見回すことができなかったようです。これは凄いですね。少し崩れ始めているのが見えます。プロンプトの精神は捉えていますが、プレイヤーコントロールを完全に実装できないという典型的なLLMの問題にぶつかり、衝突検出もうまく機能していないようですが、かなり良い出来栄えです。最悪ではなく、最高でもなく、確かにかなり良いです。
新しいGemini 2.5 Proをコーディングに使いたいという人がいれば、これを見る限り良いパフォーマンスを発揮すると言えますが、大幅な変化や違いは見られませんでした。次にビジネス推論のテストに移りましょう。これは従来Geminiが競合他社よりも少し劣っていたテストです。この新モデルがビジネス推論能力を向上させているかどうか見てみましょう。
最近の動画で、ツールコーリング機能を持つ最先端モデルに対して、PDFの添付やロングコンテキストを提供する代わりに、2段階で行うようにしています。最初のパートでは特定のトピックに関する情報を提供してもらいます。この場合、大手テック企業の最先端AIモデルをすべて見せてほしいです。ウェブ検索を使って考えるよう促しています。次に、見つかった情報を基に新しい洞察を見つけてグラフで表示するようフォローアップします。
コードを実行してすべてを表示してください。これはビジネス推論の次のステップであり、ツールコーリングに大きく依存しています。古いモデルには当てはまりませんが、より印象的な新しいモデルにはこのような追加の課題を提示しています。Geminiがこの最初の情報検索部分でどのように対応するか見てみましょう。
大きなディープリサーチボタンを押す必要はありますか?いいえ。結果が出ましたが、より大きな検索機能である「ディープリサーチ」を試すよう促されました。これは興味深いですね。より大きな検索機能へのアップセルのようです。H多分2.5 Pro 5シリーズフルミニインストラクト。はい。5リーズニング。おお、かなり良くやっています。AIファウンドリー。
今のところ気づいたのは、モデルに関する多くの情報を集めていないことです。そうですね。正確なモデル名とそのパラメータ数を収集しただけです。モデルを見つける点では良い仕事をしました。実際、O3シリーズモデルよりも包括的なモデルリストとモデルプロバイダーリストを見つけることができました。
しかし、それらのモデルについて本当に役立つ情報はほとんど得られませんでした。主にパラメータ数を引用していて、これは非常に高レベルでそれほど役立ちません。ニュース。これからフォローアップして、ベンチマーク結果や、より実用的なデータを取得してもらいましょう。
そうすればグラフを作成して推奨事項を提供するとき、それらの推奨事項がただモデルの名前だけでなく、何かに基づいたものになります。今年リリースされたモデルに焦点を当て、ベンチマーク結果と、企業がどのタイプのタスクにどのモデルを使用すべきかを決定するのに役立つ他の情報を収集してもらいましょう。
非常に素早く返答がきました。既存のソースを使用したのか、よくわかりませんが、多くの作業をしたようです。うまく情報を引き出せたようですね。最初にGoogleにフォーカスしていますが、それはたぶんメタLlama 4。メタLlama 4、2025年4月というのは妥当ですね。
そしてOpenAI for manyも。素晴らしい。これは私たちの最近のビデオと同じように見えますね。これは成功です。良い状態になったので、次のフォローアップを与えましょう。収集した情報に基づいて、最新のモデルを詳細に比較分析してください。モデルパフォーマンスの向上をビジュアル化して、何が起きているかを明らかにしてください。
グラフを通じてモデルのパフォーマンスがどうなっていくかを予測し、あなたの思考プロセスを説明してください。また、中小企業がテクノロジートランジションの一部として何を使用すべきか、その理由を含めて推奨してください。
最初のグラフは「時間の経過に伴う概念的AIモデル機能の向上」です。ちょっと変な数字をグラフ化していますね。研究では実際の数値をたくさん収集しましたが、プロンプトで気づいたように「あ、各モデルについて同じベンチマークをすべて得ていないので、直接比較できない」と判断し、この説明的な能力スコアを作成しました。
これらの結果をオープンソースにして、どのようにしてすべてのスコアを圧縮したのか掘り下げることもできます。今のところ、これは興味深い説明的なグラフであり、要点は伝わっていますが、これはビジネス価値が非常に高いですか?最初のグラフはおそらくそうではないでしょう。
チャート2の予測。興味深いですね。そして再び、説明的な能力パフォーマンススコアを使用しています。将来の予測を試みています。ここでの意図は、知っていることと知らないことを区別することだと思いますが、おかしな数字を使っています。OpenAIのバリアントモデルがここでかなり良いパフォーマンスを示していることを確認しています。
情報をより良く提示する方法を考えています。これらのグラフはそれほど印象的ではありません。4.0、4.5、Oシリーズを1つの列にまとめていますが、これらは非常に異なるモデルです。文字通り理由付けをしていません。また自画自賛が過ぎますね。「私Gemini 2.5はすべてにおいて最高です」と言っていますが、データポイントがなく、私たちは実際のデータからGeminiがすべてのカテゴリーで勝つわけではないことを知っています。
非常に印象的なモデルですが、すべてのベンチマークで勝つわけではありません。ここでも、コーディングにおいては最先端のモデルかもしれませんが、あるモデルはある分野では最先端でも他の分野ではそうではないという世界が見え始めています。それは全く問題ありません。時間とともにどのように進化していくか見ていきましょう。
結論を見てみましょう。再び多くの結論が提示されています。これは私たちが指摘したことの一つで、「新しい洞察」というとき、すべてを単に繰り返すのではなく、これは典型的なLMの特徴です。
指導原則として、中小企業向けのモデルパフォーマンス推奨事項として、まずCo-pilotから始まっています。これは興味深いですね。「既存のMicrosoftライセンスがあるなら、それを使うといいでしょう」と。面白いですね。Google WorkspaceもGoogle Workspaceとして登場しています。
正直なところ、この回答のどの部分も役に立ちません。検索部分は役立ちました。非常に良かったです。そして先ほど言ったように、より速く実行されています。Googleが独自の強みを持ってエージェンティックな分野に参入し始めているのが見えますね。複雑なものですが、複雑な推論はまだ十分ではありません。
様々なツールを使用する本当のエージェンシーはまだ十分ではありません。コーディング能力とエージェンティック能力を兼ね備えたモデルがどのように進化していくか楽しみです。
次のテストでは、迷路テストを行います。これは私たちが持っている最も難しいテストの一つです。コーディングテストの一部はかなり難しいですが、このテストでモデルが苦戦するのをよく見てきました。これは本当にエージェンティックな推論をテストしています。
迷路を与えて、最適な経路を見つけられることを期待しています。現在のリーダーボードはO3だと思います。コメント欄の誰かが20×20の迷路で実行させることに成功しました。私たちのテストでは17×17まで行きました。通常はもう少し低いところから始めます。ディラン、どこから始めたいですか?
15にしましょう。Geminiはシリーズに近づいているはずなので、このレベルであることを期待しています。そうでなければ、少し下回っています。私が本当に興味があるのは、オープンティアとどう比較されるかということです。
プロンプトと画像を与えますか?両方与えましょう。最高のチャンスを与えるために、プロンプト自体を与え、クイックスクリーンショットも撮ります。興味深いです。非常に速いですね。それを使ったようです。コピーペーストしましょう。
そんなはずはありません。これが何なのかわかりません。少し混乱しているようです。15でうまくいかなかったのは興味深いですね。10まで大幅に下げて、もう一度試してみましょう。あまりうまくいかなかったのは驚きです。再びプロンプトをコピーして画像を与えます。
画像だけを試してみましょう。キャンバスによってプロンプトが圧縮されて問題が発生しているのかなと思います。そうですね。10×10の画像だけを与えて、「これを解けますか?」と聞いてみましょう。
これはより良さそうです。ランダムな座標を自動的に出力し始めなかったことが興味深いです。それをしたのが面白いですね。うーん、まだあまり長く考えていないように見えます。理解したようですね。
多くの疑いの余地を与えていますが、OpenAIはプロンプト自体でこれを行うことができました。見てみましょう。災害ですね。いいえ。面白いですね。ツールを呼び出す方法や、コーディングで考える方法を本当に理解していないようです。
つまり、私たちの指摘通り、コーディングではかなり良いように見えますが、「推論が格段に良い」とは言えず、ビジネス推論の側面や、いわゆる「世界理解」の側面ではちょっと落ちているようです。Winds Surfやカーソルでどのようなパフォーマンスを発揮するのか非常に興味があります。
下のコメント欄で、それを見たいかどうか教えてください。これらのモデルをIDE環境で比較するバイブコーディングエピソードなどもいいかもしれません。ぜひ教えてください。
視聴ありがとうございます。いいね、フォロー、サブスクライブをお願いします。サポートに感謝します。2,000人以上の登録者に達したので、誠にありがとうございます。ライブストリームや他のバイブコーディングのコンテンツもすぐに行う予定です。視聴ありがとうございました。皆さん、ありがとう。

コメント

タイトルとURLをコピーしました