
5,174 文字

2025年5月23日
本日、私たちは次世代のClaudeモデルを発表いたします。Claude Opus 4とClaude Sonnet 4は、コーディング、高度な推論、そしてAIエージェントにおいて新たな基準を設定するものです。
Claude Opus 4は世界最高のコーディングモデルであり、複雑で長時間にわたるタスクやエージェントワークフローにおいて持続的なパフォーマンスを発揮します。Claude Sonnet 4はClaude Sonnet 3.7の大幅なアップグレードであり、優れたコーディングと推論を提供しながら、あなたの指示により正確に応答します。
モデルと併せて、以下も発表いたします。
ツール使用による拡張思考(ベータ版)では、両モデルがウェブ検索などのツールを拡張思考中に使用でき、Claudeが推論とツール使用を交互に行うことで応答を改善できます。
新しいモデル機能では、両モデルがツールを並行して使用し、指示により正確に従い、開発者によってローカルファイルへのアクセスが与えられた場合、大幅に改善されたメモリ機能を実証し、重要な事実を抽出・保存して継続性を維持し、時間の経過とともに暗黙知を構築します。
Claude Codeが正式に利用可能になりました。研究プレビュー中に広範囲にわたる好意的なフィードバックを受けた後、開発者がClaudeと協力する方法を拡張しています。Claude Codeは現在、GitHub ActionsによるバックグラウンドタスクとVS CodeおよびJetBrainsとのネイティブ統合をサポートし、シームレスなペアプログラミングのためにファイル内に編集を直接表示します。
新しいAPI機能では、開発者がより強力なAIエージェントを構築できる4つの新機能をAnthropic APIでリリースしています。コード実行ツール、MCPコネクタ、Files API、そして最大1時間のプロンプトキャッシュ機能です。
Claude Opus 4とSonnet 4は、ほぼ瞬時の応答とより深い推論のための拡張思考という2つのモードを提供するハイブリッドモデルです。Pro、Max、Team、およびEnterpriseのClaudeプランには両モデルと拡張思考が含まれ、Sonnet 4は無料ユーザーも利用できます。両モデルはAnthropic API、Amazon Bedrock、およびGoogle CloudのVertex AIで利用可能です。価格は以前のOpusおよびSonnetモデルと一貫しており、Opus 4は100万トークンあたり15ドル/75ドル(入力/出力)、Sonnet 4は3ドル/15ドルとなっています。
Claude 4
Claude Opus 4は私たちの最も強力なモデルであり、世界最高のコーディングモデルです。SWE-bench(72.5%)とTerminal-bench(43.2%)でトップの成績を収めています。集中的な努力と数千のステップを必要とする長時間実行タスクにおいて持続的なパフォーマンスを提供し、数時間にわたって継続的に作業する能力を持ち、すべてのSonnetモデルを大幅に上回り、AIエージェントが達成できることを大幅に拡張します。
Claude Opus 4はコーディングと複雑な問題解決に優れ、最先端のエージェント製品を支えています。Cursorはこれをコーディングの最新技術であり、複雑なコードベース理解における飛躍的な進歩と評価しています。Replitは精度の向上と複数ファイルにわたる複雑な変更における劇的な進歩を報告しています。Blockは、エージェント(コードネーム:goose)における編集とデバッグ中にコード品質を向上させる初のモデルであり、完全なパフォーマンスと信頼性を維持していると述べています。楽天は7時間独立して実行される要求の厳しいオープンソースリファクタリングで持続的なパフォーマンスを発揮し、その能力を検証しました。Cognitionは、Opus 4が他のモデルでは解決できない複雑な課題の解決に優れ、以前のモデルが見落としていた重要なアクションを成功させていると評価しています。
Claude Sonnet 4は、業界をリードするSonnet 3.7の機能を大幅に改善し、SWEベンチで最新技術の72.7%を記録してコーディングに優れています。このモデルは内部・外部の使用ケースでパフォーマンスと効率のバランスを取り、実装に対するより大きな制御のための強化された操縦性を備えています。ほとんどの分野でOpus 4に匹敵しないものの、能力と実用性の最適な組み合わせを提供します。
GitHubはClaude Sonnet 4がエージェント的なシナリオで優れており、GitHub CopilotでNew coding agentを動かすモデルとして導入すると述べています。Manusは複雑な指示に従う能力、明確な推論、そして美的な出力における改善を強調しています。iGentはSonnet 4が自律的なマルチ機能アプリ開発に優れ、問題解決とコードベースナビゲーションも大幅に改善され、ナビゲーションエラーが20%からほぼゼロに削減されたと報告しています。Sourcegraphは、このモデルがソフトウェア開発における大幅な飛躍として有望であり、より長期間軌道を維持し、問題をより深く理解し、よりエレガントなコード品質を提供すると述べています。Augment Codeは、より高い成功率、より外科的なコード編集、複雑なタスクを通じたより慎重な作業を報告し、主要モデルとしての最高の選択肢となっています。
これらのモデルは、お客様のAI戦略を全面的に前進させます。Opus 4はコーディング、研究、執筆、科学的発見において境界を押し広げ、Sonnet 4はSonnet 3.7からの即座のアップグレードとして日常的な使用ケースに最先端のパフォーマンスをもたらします。
モデルの改善
ツール使用による拡張思考、並列ツール実行、メモリ改善に加えて、モデルがタスクを完了するためにショートカットや抜け穴を使用する行動を大幅に削減しました。両モデルは、ショートカットや抜け穴に特に影響を受けやすいエージェントタスクにおいて、Sonnet 3.7と比較してこのような行動に関与する可能性が65%低くなっています。
Claude Opus 4はまた、メモリ機能においても以前のすべてのモデルを劇的に上回ります。開発者がClaudeにローカルファイルアクセスを提供するアプリケーションを構築する場合、Opus 4は重要な情報を保存するメモリファイルの作成と維持に熟練します。これにより、長期的なタスク認識、一貫性、エージェントタスクのパフォーマンスが向上し、Opus 4がポケモンをプレイしながらナビゲーションガイドを作成するような能力が解放されます。
最後に、Claude 4モデル用の思考要約を導入しました。これは小さなモデルを使用して長い思考プロセスを要約するものです。この要約は約5%の時間でのみ必要であり、ほとんどの思考プロセスは完全に表示するのに十分短いものです。高度なプロンプトエンジニアリングのために生の思考連鎖を必要とするユーザーは、完全なアクセスを保持する新しい開発者モードについて営業にお問い合わせください。
Claude Code
正式に利用可能になったClaude Codeは、ターミナル、お気に入りのIDE、そしてClaude Code SDKでバックグラウンド実行において、Claudeの力をより多くの開発ワークフローにもたらします。
VS CodeとJetBrains用の新しいベータ拡張機能は、Claude Codeを直接IDEに統合します。Claudeの提案された編集がファイル内にインラインで表示され、慣れ親しんだエディターインターフェース内でのレビューと追跡を合理化します。Claude CodeをIDEターミナルで実行してインストールするだけです。
IDEを超えて、拡張可能なClaude Code SDKをリリースしており、Claude Codeと同じコアエージェントを使用して独自のエージェントとアプリケーションを構築できます。また、SDKで可能なことの例として、現在ベータ版のClaude Code on GitHubをリリースしています。PRでClaude Codeをタグ付けして、レビュアーフィードバックへの対応、CIエラーの修正、またはコードの変更を行います。インストールするには、Claude Code内から/install-github-appを実行してください。
始めに
これらのモデルは、完全なコンテキストを維持し、長期プロジェクトへの集中を持続し、変革的なインパクトを推進する仮想協力者への大きな一歩です。これらは、ASL-3などのより高いAI安全レベルの対策の実装を含む、リスクを最小化し安全性を最大化するための広範囲なテストと評価を伴っています。
皆様が何を創造されるかを楽しみにしています。Claude、Claude Code、またはお選びのプラットフォームで今日から始めてください。
いつものように、皆様のフィードバックが私たちの改善に役立ちます。
付録
パフォーマンスベンチマークデータソース
OpenAI:o3ローンチポスト、o3システムカード、GPT-4.1ローンチポスト、GPT-4.1ホステッド評価
Gemini:Gemini 2.5 Pro Previewモデルカード
Claude:Claude 3.7 Sonnetローンチポスト
パフォーマンスベンチマーク報告
Claude Opus 4とSonnet 4はハイブリッド推論モデルです。このブログ投稿で報告されているベンチマークは、拡張思考の有無にかかわらず達成された最高スコアを示しています。各結果について拡張思考が使用されたかどうかを以下に記載しています。
拡張思考なし:SWE-bench Verified、Terminal-bench
拡張思考(最大64Kトークン):
TAU-bench(拡張思考なしの結果は報告されていません)
GPQA Diamond(拡張思考なし:Opus 4は74.9%、Sonnet 4は70.0%)
MMMLU(拡張思考なし:Opus 4は87.4%、Sonnet 4は85.4%)
MMMU(拡張思考なし:Opus 4は73.7%、Sonnet 4は72.6%)
AIME(拡張思考なし:Opus 4は33.9%、Sonnet 4は33.1%)
TAU-bench方法論
スコアは、Airline and Retail Agent Policyの両方にプロンプト追加を行い、ツール使用による拡張思考を使用しながらその推論能力をより活用するようClaudeに指示することで達成されました。モデルは、マルチターン軌道の間、その推論能力を最大限活用するために、通常の思考モードとは別に問題を解決しながら自分の考えを書き留めるよう奨励されています。Claudeがより多くの思考を利用することで発生する追加ステップに対応するため、最大ステップ数(モデル完了による計数)は30から100に増加されました(ほとんどの軌道は30ステップ未満で完了し、50ステップを超えた軌道は1つのみでした)。
SWE-bench方法論
Claude 4ファミリーのモデルについては、以前のリリースで説明した2つのツールのみでモデルを装備する同じシンプルな足場を引き続き使用しています。bashツールと文字列置換によって動作するファイル編集ツールです。Claude 3.7 Sonnetで使用していた3番目の「計画ツール」はもはや含まれていません。すべてのClaude 4モデルについて、完全な500問題からのスコアを報告しています。OpenAIモデルのスコアは477問題のサブセットから報告されています。
高計算数値については、以下のように追加の複雑さと並列テスト時間計算を採用しています。
複数の並列試行をサンプリングします。
Agentless(Xia et al. 2024)が採用した拒否サンプリングアプローチと同様に、リポジトリ内の可視回帰テストを破るパッチを破棄します。隠されたテスト情報は使用されていません。
次に、内部スコアリングモデルを使用して、残りの試行から最良の候補を選択します。
これにより、Opus 4で79.4%、Sonnet 4で80.2%のスコアが得られます。
コメント