Claude 3.7 Sonnet は驚異的！新登場の「Claude Code」

7,620 文字

Claude 3.7 Sonnet IS INSANE! NEW 'Claude Code'

Today in AI news, Anthropic introduces Claude 3.7 Sonnet and Claude Code.👉 Get Monthly AI News Recaps, Deep Dives into B...

皆さんはおそらくAnthropic社がClaude 4 Sonnetをもうすぐリリースすると期待していたかもしれませんが、代わりに彼らはClaude 3.7 Sonnetのリリースで誰もが驚きました。しかし不満を持つ人はいないでしょう。このモデルはClaude 3.5 Sonnetから大幅な進化を遂げ、すぐにお見せするようにベンチマークで他のフロンティアモデルを完全に圧倒しています。これは市場初のハイブリッド推論モデルとなります。Anthropic社はここで「Claude 3.7 Sonnetは瞬時の応答と、ユーザーに見える形でのステップバイステップの拡張思考の両方を生成できる」と述べています。
つまり、Open AIの01や03 mini、中国のDeepSeek R1のような推論モデルでありながら、DeepSeek V3、GPT-4o、Claude 3.5 Sonnetなどの従来の大規模言語モデルでもあるのです。また、発表タイトルにはClaude 3.7 SonnetとClaude Codeについての言及があることにお気づきかもしれません。Claude Codeについては後ほど詳しく説明しますが、簡単に言うとコーディングエージェントです。前回の動画で今年最初の本格的なソフトウェアエンジニアリングAIエージェントが登場するかもしれないと話したばかりで、それからわずか1日後にAnthropicがClaude Codeをリリースしました。
さっそくベンチマークを見ていきましょう。まずはGPQやAMY等の従来型のベンチマークから始めて、コーディングベンチマークを含むより推論重視のベンチマークに移ります。コーディングベンチマークは間違いなく最も印象的な結果となっています。彼らはClaude 3.7 Sonnetの性能を、拡張思考なしと64Kトークンの拡張思考ありの両方で測定しています。基本的に拡張思考なしは標準的なLLMのような非推論部分のモデルで、64Kトークンの拡張思考は回答前に64,000トークン分考えた推論モデルです。その思考の連鎖（Chain of Thought）は64Kトークンの長さでした。
ご覧のように、拡張思考版はすべてのベンチマークでより優れた性能を示しています。PhD級の科学の質問であるGPQでは、最近リリースされたGrok 3と同等で、Open AIの01と03 mini highをわずかに上回っています。下部のAMYとMath 500の両方の数学ベンチマークでは、その性能はとくに際立っておらず、Open AIの推論モデルよりやや劣り、DeepSeek R1よりも低いスコアになっています。ただし、Anthropicはこの発表で、推論モデルの開発において数学やコンピュータサイエンスの競技問題よりも、企業がLLMを実際にどのように使用するかをより反映した現実世界のタスクに焦点をシフトしたと述べています。
ベンチマークに戻りましょう。Claude 3.7の推論能力は最先端であることが明らかです。また、これがハイブリッドモデルであることも忘れないでください。拡張思考なし、つまり推論なしの場合は、基本的にClaude 3.5 Sonnetからの若干のアップグレードと見なせますが、もちろん推論能力によりあらゆる面でフロンティアモデルになっています。
実際、Claude 3.7 Sonnetの推論能力は、これまでで最高かもしれません。TobenCHベンチマーク（AIエージェントのユーザーとツールのインタラクションを伴う複雑な現実世界のタスクを完了する能力をテストするベンチマーク）では、Claude 3.7 Sonnetは小売セクタータスクで81.2%、航空関連タスクで58.4%のスコアを獲得しています。これらは様々なウェブサイトやアプリケーションを通じたオンラインショッピングや、フライトの予約、予約のスケジューリングなどのタスクです。Open AIの01モデルをかなりの差で上回っています。
この発表で最も驚くべきベンチマークパフォーマンスはこれです。Claude 3.7 Sonnetは、SWE-bench verifiedで62.3%、カスタムスキャフォールディング（構造化された推論や問題解決技術、ガイド付き思考の連鎖など）で70.3%のスコアを獲得しています。これは、Open AI 03 mini Highモデルの49.3%という以前の最高水準から大幅な向上です。モデルがこのベンチマークで約49%あたりで頭打ちになっているように見えましたが、明らかにそうではありませんでした。
ちなみに、SWE-bench verifiedに馴染みがない方のために説明すると、これは実際のGitHubソフトウェア問題に基づくソフトウェアエンジニアリングベンチマークです。おそらく最も正当なコーディングベンチマークの一つで、モデルがそれに対して改善している速度は本当に驚異的です。Anthropic CEOのDario Amodeiがこの正確なベンチマークで彼らが成し遂げている速い進歩について話したクリップを覚えているかもしれません。以前の動画で確かに紹介しました。彼はモデルがこのベンチマークで90%に達すると思う時期について予測を述べていました。当時の2024年11月には、Claude 3.7 Sonnetのパフォーマンスに基づくと非常に楽観的に思えましたが、今はそれほど楽観的ではないようです。実際、予定通りに進んでいるように感じます。
「私はそれが最も速く変化する分野の一つになると思います。二つの理由があります。一つは、プログラミングはAIの実際の構築に非常に近いスキルだということです。スキルがAIを構築している人々から離れれば離れるほど、そのスキルがAIによって破壊されるのに時間がかかるでしょう。私は本当に、AIは農業を破壊するかもしれないと信じています。すでにいくつかの面では破壊しているかもしれませんが、それはAIを構築している人々からは非常に遠いものです。だから時間がかかるでしょう。しかし、プログラミングはAnthropicや他の企業で働く従業員の大部分の主要業務なので、それは速く起こるでしょう。
もう一つの理由は、プログラミングではモデルをトレーニングするときとモデルを適用するとき、両方でループを閉じることができるからです。モデルがコードを書けるという考えは、モデルがコードを実行し、結果を見て解釈できることを意味します。ハードウェアや先ほど議論した生物学とは異なり、モデルはループを閉じる能力を持っています。この二つのことが、モデルが非常に速くプログラミングが上手になる原因になると思います。
今年の1月には3%だった一般的な実際のプログラミングタスクのモデルが、今年の10月には50%になりました。つまり、私たちはS曲線上にいるということです。間もなく減速し始めるでしょう。100%までしか到達できないからです。しかし、私の推測では、あと10ヶ月でかなり近づき、少なくとも90%に達するでしょう。」
そうですね、このベンチマークは2025年末までに飽和状態になりそうです。彼の予測は今から10ヶ月後に90%で、それはポッドキャストエピソードが実際に撮影された時期によって11月か10月から10ヶ月後、つまり2025年7月か8月頃になります。2024年1月の3%から11月の49%、そして今2025年2月の70%に達しました。次の6ヶ月でさらに20%上昇しても驚きません。
次にClaude Codeについて話しましょう。彼らはここで「2024年6月以来、Sonnetは世界中の開発者に好まれるモデルでした。今日、私たちは最初のエージェントコーディングツールであるClaude Codeを限定的な研究プレビューとして導入し、開発者をさらに強化します。Claude Codeはコードの検索と読み取り、ファイルの編集、テストの作成と実行、GitHubへのコードのコミットとプッシュ、コマンドラインツールの使用など、あらゆるステップであなたを常にループに入れておく積極的なコラボレーターです」と述べています。
彼らはClaude Codeのデモ動画を提供し、その能力を示すためにいくつかの非常に複雑なコーディングタスクを実行しています。正直に言って、このモデルをコーディングに使用する予定がなければ、このクリップはスキップしてもいいかもしれませんが、それでも見る価値があると思います。これらのエージェントは信じられないほど高度になっており、コーディングがあなたの主な関心事でなくても、その能力を理解することは重要です。
Claude Codeの実際の例を紹介します：「笑顔を見せるべきか、それとも不気味な感じにするべきか。私はBorisでエンジニアです。私はCatでプロダクトマネージャーです。私たちはClaudeで人々が構築するものを見るのが大好きです、特にコーディングにおいてです。私たちはClaudeをすべての人にとってよりコーディングが上手くなるようにしたいと思っています。私たちはいくつかのツールを構築しました。そのうちの一つを今日共有します。
私たちはClaude Codeを研究プレビューとして起動しています。Claude Codeはあなたのターミナルで直接Claudeと一緒に作業できるエージェントコーディングツールです。実際の動作例をお見せします。ここにプロジェクトがあります。これはNext.jsアプリです。Claude Codeのインスタンスで開いてみましょう。これを行うと、Claude Codeはこのリポジトリ内のすべてのファイルにアクセスできるようになります。
このコードベースについては知りません。カスタマーサポートエージェントとチャットするためのアプリのようです。このコードベースを説明するのを手伝ってもらいましょう。Claudeはまず上位レベルのファイルを読み、その後より深く掘り下げています。現在、プロジェクト内のすべてのコンポーネントを確認しています。素晴らしい、ここに最終分析があります。
左側のサイドバーをチャット履歴に置き換え、新しいチャットボタンも追加するよう頼まれたとします。Claudeに手伝ってもらいましょう。私たちはファイルやパスを指定していませんが、Claudeはすでに自分で更新すべき正しいファイルを見つけています。Claudeは自分の考えを示すこともでき、この問題にどのように取り組むことにしたかを見ることができます。
Claudeはこれらの変更を受け入れるかどうか尋ねています。はいと言いましょう。Claudeは更新して、ボタンとアイコンも追加しています。次に、保存状態が正しく機能するようにロジックを更新しています。しばらくすると、Claudeはタスクを完了します。これが行ったことの要約です。アプリを見てみましょう。
新しいチャットボタンと左側に新しいチャット履歴セクションが表示されています。以前のチャットを保存したまま新しいチャットを開始できるか確認してみましょう。新しいチャットボタンも試してみます。素晴らしい、すべてが機能しています。
次に、追加した機能が確実に動作するようにテストを追加するようClaudeに依頼しましょう。Claudeはコマンドを実行する許可を求めています。はいと言いましょう。Claudeはこれらのテストを実行するために変更を加えています。結果を得た後、すべてのテストが合格するまで計画を続けます。数分後、うまくいったようです。
次に、アプリをコンパイルして、ビルドエラーがあるかどうかを確認するようClaudeに依頼します。どのような結果が出るか見てみましょう。Claudeはビルドエラーを特定し、現在それを修正しています。その後、再度ビルドを試みます。うまくいくまで続けます。
最後に、Claudeに変更をコミットしてGitHubにプッシュするよう依頼しましょう。Claudeは私たちの変更の要約と説明を作成し、変更をGitHubにプッシュします。以上です。これがClaude Codeができることの一例です。皆さんがこれを使って構築を始めるのが待ちきれません。」
これはソフトウェアエンジニアにとって本当にゲームチェンジャーになるでしょう。Anthropicの最近の経済指標から分かるように、彼らはAIモデルがソフトウェア開発や技術文書作成タスクで実際にどのように経済的に使用されているかについてのデータをまとめています。職業の3分の1以上、約36%がそれに関連するタスクの少なくとも4分の1でAIを使用しており、約4%の職業がその関連タスクの4分の3でAIを使用しています。
ソフトウェアエンジニアリングは他のどの業界よりもすでにAIによって大きな影響を受けていますが、これはほんの始まりに過ぎません。AnthropicはコーディングエージェントのClaude Codeをリリースし、Open AI CEOのSam Altmanは最近のインタビューで2025年末までに彼ら自身のソフトウェアエンジニアリングエージェントをリリースする可能性について話しました。他の大手AI企業のほとんどが今後数ヶ月でそれに追随することは間違いないでしょう。つまり、AIとともに新しい時代、エージェント時代に入っているのです。
こちらは2024年のClaudeの能力のタイムラインを表示する新しいグラフです。2024年、Claudeはアシストし、人々が仕事を完了するのを手伝い、彼らをより良いバージョンの自分自身にしました。2025年、今年、Claudeはコラボレーションし、人間の専門家と同等の何時間もの独立した作業をあなたのために行い、あなたを一人でいるよりもはるかに優れた存在にします。そして2年後の2027年、彼らはClaudeが先駆者になると信じています。人々のチームが何年もかかるであろう難しい問題に対するブレークスルーソリューションを見つけるでしょう。
個人的には、Claudeが先駆者になるのが待ちきれません。それは結局のところ、AIに対する究極の希望ですよね。特に人類に大きな利益をもたらすような、病気の治療、科学研究の進歩、教育の変革などの非常に困難な問題に対して、ユニークで新しいソリューションを見つけることができるということです。また、このコラボレーション時代、つまり私たちのために協力して働くAIエージェントのチームを持つこのエージェント時代にもワクワクしています。
最後に、AnthropicはXにこのような投稿もしています。「Anthropicの数人の研究者は、過去1年間、奇妙な問題に対して時々夢中になっていました。Claudeはポケモンをプレイできるでしょうか？」彼らは、昨年の6月の初期の試みは貧弱だったと述べています。Claude 3.5 Sonnetで試しましたが、必須のバトルから逃げようとし続けただけでした。
ここで重要なのは、Claudeはポケモンをプレイするようにも、他のどんなビデオゲームに対しても明示的にトレーニングされたことがなかったということです。これは本当に、Claudeが新しい環境へ一般化し、ポケモン（特にポケモンレッドだと思います）のような比較的シンプルなゲームを推論できるかどうかのテストでした。
2024年10月、つまり数ヶ月後、Claude 3.5 Sonnetはいくらか改善を示し、初めてライバルを打ち負かし、スタート地点のパレットタウンを越えることができました。先週まで早送りすると、研究者たちはClaude 3.7 Sonnetの早期プレビューをテストすることにしました。結果は驚くべきものでした。数時間以内にClaudeはブロックを倒し、数日後にはミスティを破りました。これは古いモデルではほとんど望めなかった進歩です。
これは先ほど触れた拡張思考または推論能力によるものです。ちなみに、ジムリーダーというのは、ゲームに詳しくない方のために説明すると、Claude 3.7 Sonnetがこれらのジムリーダーであるブロックとミスティを倒すためには、事前に多くの他のバトルもこなし、ゲーム内の町を横断しなければならなかったでしょう。これはかなり印象的です。
彼らが述べているように、「以前のモデルがあてもなくさまよったりループに陥ったりしたところで、Claude 3.7 Sonnetは先を見据え、目標を覚えており、最初の戦略が失敗したときに適応します。これはピクセル化されたジムリーダーとの戦いと、私たちが推測する現実世界の問題解決の両方に不可欠なスキルです。」
Claudeがポケモンをプレイできるのはクールですが、これはポケモンに関するものではありません。これはClaudeが本当に推論し、一般化する能力についてのものです。これは文字通りAGI（汎用人工知能）の一瞥です。
では、何がこれを可能にしているのでしょうか？Claudeにはメモを保存するための知識ベース、画面を見るためのビジョン、ボタン押下をシミュレートしゲームをナビゲートするための関数呼び出しが与えられました。これらが一緒になって、Claudeは数万のインタラクションでゲームプレイを維持できるのです。
ここには変なことは何もなく、基本的に人間と同じ方法でゲームをプレイし認識しています。Open AIの研究者Noah Brownが最も適切に述べています：「AIがゲームで成功した長い歴史がありますが、それは通常、AIがそのゲームでトレーニングされることを伴っていました。この結果を非常にクールで重要なものにしているのは、モデルがポケモンでトレーニングされたことがなく、それでもうまくいっているということです。」
これが本当に覚えておくべき主なことです。これは真の一般化の兆候です。
とにかく、それがAnthropicの新しいAIモデルClaude 3.7 Sonnetと彼らの新しいコーディングエージェントClaude Codeです。もし動画の最後まで見ていただけたなら、本当に感謝します。この発表であなたのお気に入りの部分は何でしたか？Claudeがポケモンをプレイすることでしたか？コーディングエージェントのClaude Codeでしたか？それとも他の何かでしたか？コメントで教えてください。いつものように、このような将来のAIニュースを常に把握したい場合は、購読ボタンを押してください。