Claude 4がリリースされました。o3とGemini 2.5 Proとの比較

3,661 文字

Claude 4 is out—comparison vs. o3 and Gemini 2.5 pro
My post on Claude 4:

Claude 4がリリースされたので、それについてお話ししたいと思います。私は早期アクセスを得ることができました。具体的にはOpusへの早期アクセスです。これは驚異的なモデルで、皆さんにお伝えしたいことがあります。ただし、驚異的なモデルだと言うのは簡単です。私が観察し、反省している意味のある違いをお伝えしたいと思います。特にChatGPT o3とGemini 2.5 Proと比較してです。これらは同じクラスにあると思われる他のモデルです。
この状況において、Claude 4が本当に輝いている分野は、コーディングと、Claudeがチャット内で設定する統合環境での作業です。コーディングの経験がある人にとって、メールを検索したりカレンダーを管理したりできる完全に統合されたLLMアプリケーションを構築することは、現在では比較的簡単であることは承知しています。
しかし、その方法を知らない人や、これまでコードを扱ったことがない人にとって、GmailやGcalとネイティブに統合されているだけでなく、非常に複雑なタスクでそれらに対して成功的に動作できるモデルを持つことは、絶対的な突破口です。これは実際に私がClaude 3.7がリリースされてGcalとGmailが統合されたときに指摘したことでした。
私はその統合を自分のために機能させようと本当に努力しました。翌日用のカスタムダッシュボードを構築したかったのです。カレンダーの競合はどこにあるか、カレンダーに反映されるメールのインサイトはどこにあるかを表示するようなものです。様々な夢を抱いていました。しかし、Sonnet 3.7では何も機能しませんでした。
十分に優れていませんでした。特にメールとカレンダーの検索が不足していました。必ずしも知能の問題ではないという印象を受けました。多くの場合、単にプッシュして呼び出すためのトークンが不足していただけのように感じました。これは今では解決されています。
一貫性を保つために、Claude 4でも同じ課題を試しました。そして、Claude 4は私が望んでいたもの、そしてそれ以上のものを一発で構築してくれました。
それは、私が注意を払う必要があるメールとカレンダーから生じる戦略的な問題を特定することができました。これは私の脳では他の方法でフラグが立てられなかったかもしれません。カレンダーの競合を特定しました。独自に会議を色分けすることができました。これは重要ですよね。それらすべてを行い、約180秒で完全に機能するアプリを作成しました。
本当に印象的でした。そして、非常に複雑なメール分析タスクを私のために実行してくれました。これを過小評価したくありません。人々は「技術的には、ChatGPTやGeminiの他のツールでGmailとカレンダーの統合はできる」と言うでしょう。それはすべて事実ですが、このような最先端の推論モデルでネイティブなワンクリックのトグル統合を持つことは、本当に大きな意味があります。
これは私にとって本当に価値のあるものになります。文字通り毎日の応用があるからです。明日のブリーフィングを構築する必要があるだけです。それはパーソナルアシスタントにはるかに近いものになります。
ここで、いくつかの違いが浮かび上がってきます。Claudeがパーソナルアシスタントとして位置づけられる場合、o3はメモリ機能のおかげで強力です。これもパーソナルなものですが、異なる種類のパーソナルなものです。
ChatGPT にメモリがあることを本当に楽しんでいます。人々はこれについて非常に複雑な感情を持っていることは知っていますが、私はそれが本当に有用だと思います。以前の会話を参照できます。完璧ではないとしても、非常に有用です。また、o3は極めて厳密で論理的であることを発見しており、特定のタスクではそれを評価しています。現在他のモデルにはない方法で、複雑なアイデアを考え抜くのに役立ちます。
Gemini 2.5 Proについては、大きなコンテキストウィンドウが有用です。そこのチームが迅速に出荷していることを評価しています。昨日か一昨日に、AI Ultraパッケージで別のDeep Researchプロダクトをローンチしたと思います。把握しきれません。すべてがとても速く進化しています。また、コーディングが非常に得意です。より大きなコンテキストウィンドウで考え抜き、何が起こっているかを本当に理解することも得意です。
現在このモデルスイート全体を見ると、お金を払う価値があると思うバンドルを選ぶとすれば、ChatGPT Pro、メモリ機能、そして私が手を伸ばす日常的なモデルは非常に理にかなっていると思います。Claudeは今回のリリースでClaude 4により、Gmailとカレンダーにアクセスするパーソナルアシスタントとして強力な主張をしていると思います。
そこでできることはたくさんあり、実際にClaudeが返信を書くことを許可すればはるかに強力になるでしょう。そして、彼らがすぐにそれを行うことを期待しています。しかし、いずれにしても、それは強力なモデルです。また、優れたコーディングモデルでもあり、ここでそれを過小評価したくありません。
Anthropicチームがコーディングモデルの構築という伝統を続けていることは注目に値すると思います。今日、lovable.devでローンチされました。Cursorでもローンチされました。Windsurfではまだ出ていないと思いますが、すぐに出ると思います。
要点は、マルチステップ推論のような多くの連続的思考を必要とする複雑なコーディングタスクを行いたい場合、Claude 4は素晴らしい選択だということです。単なる思考の概要、推論、自己反省、結果を超えています。
実際にタスクを解決する際に、一歩一歩一歩と一貫して進んでいくのを見てきました。これは、Dario Amodeiがモデルについて話した方法に現れています。テスト中に、モデルが独立して解決するのに7時間かかったコーディングチャレンジを解決することができたそうです。
これが持続するなら、エージェントによる独立作業の新記録です。AIエージェントが独立して作業する7時間は本当に長い時間です。より長い時間の塊で測定できるポイントに到達している場合、これらのモデルに与えることができるはるかに興味深いタスクがたくさんあります。
これは、Claude 4ができることのほんの表面しか触れていないと思う別の分野です。今後数日間で、私がより多く遊び、他の人がより多く遊ぶにつれて、それがどのように進化し始めるかを見るのを楽しみにしています。
今のところ、これから何かを持ち帰るとすれば、Claude 4は自律的なマルチステップコーディングと思考において非常に非常に強力であるという考えを持ち帰ってください。これは私が指摘したことです。また、彼らがネイティブ統合でリリースすることを選択しているというプロダクトインサイトも持ち帰ってください。
ウェブ検索、Gcal、Gmailがあります。Google Driveの統合もあると思うので、ドキュメント全体を検索することもできます。これは強力なものです。これにより、私たちが多くの時間を費やす場所に焦点を当てた強力な推論モデルになります。Slackを追加すればさらに強力になると思います。
しかし、それらすべてを踏まえて、これらの推論モデルを使用して実際に価値を得ることができる場所にいたいと思います。それが私が指摘したいことです。
自分自身に正直になってください。これはあなたにとって日常的な推論モデルですか。それとも特別な機会のためのモデルですか。私については、かなり透明性を保ってきました。o3は論理的思考にとってかなり強力なモデルだと思います。メモリを評価しています。Claude 4は私がまだ慣れているところですが、複雑なコーディングタスクには信じられないほど優れているように見え、日常的なパーソナルアシスタントとして本当に本当に優れているように見えます。
そのため、私は2つのモデルの人になって、それらの間でオーケストレーションすることになるかもしれません。何があなたにとって価値があるかを決める必要がありますが、印象をお伝えしたかったのです。これらはすべて素晴らしいモデルです。本当に悪い選択はありませんが、これを掘り下げる際に得られるニュアンスのいくつかを理解してください。
もう一つの小さな情報を追加します。Claude 4 Opusは文章を理解することに非常に優れているようですが、その文章作成能力についてはまだ確信が持てません。それを分解したいと思います。現象的な読解力を持っているかもしれませんが、どのように書くかをまだ理解する必要があるからです。これは私にとって積極的な調査分野です。

コメント

タイトルとURLをコピーしました