Claude 3.7 Sonnetが全員を驚かせた!(Claude 3.7 SonnetとClaude Code)

6,323 文字

Claude 3.7 Sonnet Just Shocked Everyone! (Claude 3.7 Sonnet and Claude Code)
Join my AI Academy - 🐤 Follow Me on Twitter 🌐 Checkout My website -

今日、Anthropicはついに新しいAIモデルClaude 3.7 Sonnetをリリースしました。実はこれは標準的なLLMではなく、多くのベンチマークを破った機能を提供するハイブリッド推論モデルなので、消化すべき情報がたくさんあります。
実際に見てみると、「本日、私たちは最も知的なモデルであるClaude 3.7 Sonnetと、市場初のハイブリッド推論モデルを発表します」と書かれています。Claude 3.7 Sonnetは「ほぼ瞬時の応答、またはユーザーに表示される段階的な思考プロセスを提供できる」とあります。APIユーザーはモデルが考える時間をきめ細かく制御することもできます。
彼らが言及しているハイブリッド推論とは、本質的にシステム1とシステム2の思考があり、これについては後ほど少し説明します。このハイブリッド推論は、モデルが難しいクエリと即時応答が必要な迅速なクエリの両方に適した応答を提供できることを意味します。
彼らは「Claude 3.7 Sonnetを市場の他の推論モデルとは異なる哲学で開発しました。人間が即座の反応と深い思考の両方に同じ脳を使うように、推論は完全に別個のモデルではなく、フロンティアモデルの統合された機能であるべきだと私たちは考えています。この統一されたアプローチはユーザー体験をよりシームレスにします」と述べています。
彼らが言及しているのは、システム1とシステム2のことです。システム1は直感と本能があるところで、人間と同様にLLMも即座に応答できます。しかしシステム2はより遅く論理的で、問題について考え、より複雑な解決策を見つける場所です。これがモデルに組み込まれているものです。
Claude 3.7 Sonnetでは、思考の予算を実際に制御できます。開発者の場合、モデルのカスタマイズ性を考えると、Claudeに特定のトークン数以上は考えないように指示できます。Claudeにどれだけ長く考えてほしいかはあなた次第です。これは非常に価値のあることだと思います。なぜなら、モデルが問題について考える時間をコントロールできるからです。他の思考モデルについて気づいたことの一つは、モデルが問題について10秒ほど考えることがありますが、私たちはモデルに100秒や200秒考えてほしい場合があるということです。これは非常に役立つものになるでしょう。
すぐに有名なベンチマークについて触れますが、Claude 3.7と3.5の標準モデルを比較すると、Claude 3.7は以前のClaude 3.6よりもはるかに賢いです。このバージョンでは、拡張思考モードを有効にすることができ、回答する前に自己反省をするため、数学、物理学、指示に従うこと、コーディングなど多くのタスクでパフォーマンスが向上します。彼らは一般的に、両方のモードでモデルのプロンプト指示は同様に機能することを発見しています。Claude 3.6 Sonnetで機能していたプロンプトは、Claude 3.6でも機能し、Claude 3.7でも同じように機能する可能性が高いので、プロンプト指示に変更はありません。
AI企業がついにこれをしたことで本当に興味深いと思ったのは、現実世界に焦点を最適化していることです。彼らは「推論モデルの開発において、数学やコンピュータサイエンスのコンペティション問題に対しての最適化を少し減らし、代わりに企業がLLMを実際にどのように使用しているかをよりよく反映した現実世界のタスクに焦点をシフトしました」と述べています。
これがゲームチェンジャーになると思う理由は、私たちはよく企業が日常的に使用されていない分野のベンチマークに焦点を当て、執着しているのを見るからです。例えば、Claude 3.7のベンチマークを見ると、ベンチマークは依然として非常に印象的ですが、これらの分野の多くは、平均的な人がモデルから価値を得るための、実際のビジネス使用に直接変換されません。これがClaude 3.7とClaude 3.6が伝統的にChatGPTやライバルよりも優れている理由だと思います。彼らは実際に現実世界での使用に適したモデルをトレーニングし、コンペティション問題にはそれほど重点を置いていないからです。
これらがClaude 3.7 Sonnetのベンチマークで、ここでClaude 3.7 Sonnetが優れている点を見ることができます。最初に気づくことの一つは、Claude 3.7 Sonnetがベンチマークで他の企業を圧倒しているわけではないことです。最近Grok 3ベータがリリースされたことを覚えているかもしれませんが、すでにClaude 3.7が上位にいることがわかります。どうやってそれをしたのかは正直わかりませんが、多くのベンチマークでトップに立っています。例えば、エージェントコーディングやエージェントツール使用などの分野では、これらは実際に現実世界のユースケースです。これら二つの分野は非常に重要ですが、視覚的推論や高校のコンペティション数学などの他の分野では、これらのトップモデルはすべて約86%の同じ領域に収束しているようです。しかしGP QAでは、Claude 3.7 SonnetがGrok 3ベータを上回っていることがわかります。
Claude 3.7 Sonnetについては、ベンチマークを見て判断するモデルではないと思います。実際に使用する必要があるモデルであり、AIコミュニティで見ているツイートを見ると、これは多くの人がすぐに切り替えるモデルになる可能性があります。以前のモデルをすでに多くの人が使用していることを考えると、Claudeがモデルの推論能力を使い果たしても驚きません。
先ほど言ったように、これらのベンチマークにあまり焦点を当てたくありませんが、焦点を当てる必要があるベンチマークをお見せします。ここにあるのはエージェントツール使用のベンチマークです。これはTOWベンチマークであり、ユーザーとツールの相互作用を含む現実世界のタスクでAIエージェントをテストするフレームワークです。これは基本的に実際の現実世界での使用に役立つベンチマークであり、先ほど述べたように、これは現実世界のユースケースに本当に必要なものです。このTOWベンチマークは、AIエージェントが同じタスクを複数の試行で一貫して実行できる度合いを評価し、passKというメトリクスを使用して、複数の試行にわたっていかに確実にタスクを実行できるかを評価します。このようなことが重要だと思うのは、AIが実際に現実世界で使用されるためには、現実世界のユースケースのためのベンチマークが必要だからです。コンペティション数学やGP QAは、AIがどれだけ賢いかを評価するのには優れていますが、AIを実際に現実世界で使用するには、現実世界のユースケースが必要です。このベンチマークが行うツール使用に焦点を当てることで、一貫した行動を求め、これらのAIエージェントが顧客サービスや医療などの敏感な領域に展開される準備ができていることを確認します。
もちろん、ベンチマークと言えば、SWE Bench Verifiedについても触れないわけにはいきません。このベンチマークはソフトウェア開発分野向けであり、実際にSWEベンチマークで最先端のパフォーマンスを達成しています。これが最先端であることは、このモデルがOpenAIの03よりもどれだけ優れているかを示しています。ここで見ると、DeepSeekやo3に対する多くのハイプがありますが、Claude 3.7は実際にかなりの差でそれらのモデルを上回っていることがわかります。このモデルについては、ベンチマークだけを信じるわけではなく、Claude Codeを使用している人々の実際のケースを見て、彼らが言っていることは基本的にこのモデルが非常に優れているということです。
OpenAI o3は49%、OpenAI o1は48%、Claude 3.5 Sonnetはすべて約49%ですが、そこから62.3%へと大きなジャンプがあり、カスタムスキャフォールディングでは70.3%まで上昇しています。これは非常に大きなジャンプであり、2024年10月のものと思われるこのベンチマークでは、4ヶ月でほぼ12%の増加が見られます。多くは見えませんが、実際の日常的な使用においては、これはさまざまなSWE関連タスクにおいてはるかに役立つモデルになるでしょう。
Devonを使用する人々にとっては、エージェントコーディング評価においても、このモデルが再び67%にジャンプしていることがわかります。再び、GPT-4oが49%から始まり、今やClaude Sonnet 3.7が67%に達していることを見ると、数年後にはどこにいるか想像できますか?未来は本当に本当にエキサイティングです。
Claude Codingについて疑問に思っている場合は、これを見てみるといいでしょう。これは、ユーザーがターミナルで直接Claudeと作業できる新しいエージェントコーディングツールを紹介するビデオです。これはコーディング能力を向上させるための直接的な研究プレビューとして立ち上げられたものです。これにより、コードベースを理解し、リポジトリを分析し、その構造に関する洞察を提供することができます。ユーザーは変更を要求でき、思考プロセスを表示し、テストを生成して実行し、エラーを自動的に解決し、ビルドの問題を検出して反復的に修正し、明確な要約でGitHubに変更をプッシュすることができます。コーディングにClaudeを使用する人は、このビデオを見る価値があります。
「大きな笑顔をするべきかな?」「いや、大きな笑顔は不気味だよ」「僕はボリス、エンジニアです」「私はキャット、プロダクトマネージャーです」「私たちはClaudeで人々が構築するものを見るのが大好きです、特にコーディングに関してです。私たちはClaudeをより良いコーディングツールにしたいと考えています。私たちはいくつかのツールを構築し、そのうちの一つを今日共有します。Claude Codeを研究プレビューとして立ち上げます」
「Claude Codeはターミナルで直接Claudeと作業できるエージェントコーディングツールです。実際の動作例をお見せします。ここにプロジェクトがあります。これはNext.jsアプリです。Claude Codeのインスタンスで開いてみましょう。これで、Claude Codeはこのリポジトリのすべてのファイルにアクセスできるようになりました。このコードベースについてはあまり知りません。カスタマーサポートエージェントとチャットするためのアプリのようです。Claudeにこのコードベースを説明してもらいましょう」
Claudeは最初に高レベルのファイルを読み、それからより深く掘り下げます。今、プロジェクト内のすべてのコンポーネントを調べています。ここに最終的な分析があります。
「左サイドバーをチャット履歴に置き換え、新しいチャットボタンを追加するように頼まれたとします。Claudeに手伝ってもらいましょう」
ファイルやパスを指定していないのに、Claudeはすでに自分で正しいファイルを見つけています。Claudeは自分の考えを示すこともでき、この問題にどのように取り組むことを決めたかを見ることができます。Claudeは変更を受け入れるかどうか尋ねています。「はい」と言いましょう。
今、Claudeはナビゲーションバーを更新し、ボタンとアイコンも追加しています。次に、保存状態が正しく機能するようにロジックを更新しています。しばらくすると、Claudeはタスクを完了します。ここにそれが行ったことの要約があります。見てみましょう。
新しいチャットボタンと左側に新しいチャット履歴セクションが表示されています。以前のチャットを保存しながら新しいチャットを開始できるか確認しましょう。新しいチャットボタンも試してみます。素晴らしい、すべてが機能しています。
今度は、追加した機能が確実に動作するようにテストを追加するようにClaudeに依頼しましょう。コマンドを実行する許可を求めています。「はい」と言いましょう。Claudeはこれらのテストを実行するための変更を加えています。結果を得た後、すべてのテストが合格するまで計画を続けます。数分後に、うまくいったようです。
次に、Claudeにアプリをコンパイルしてビルドエラーがないか確認するよう依頼しましょう。何を見つけるか見てみましょう。Claudeはビルドエラーを特定し、今それを修正しています。その後、再度ビルドを試みます。うまくいくまで続けます。
最後に、Claudeに変更をコミットしてGitHubにプッシュするよう依頼しましょう。Claudeは変更の要約と説明を作成し、変更をGitHubにプッシュします。以上がClaude Codeができることの例です。人々が構築を始めるのが待ちきれません。
また、含め忘れたベンチマークもありました。彼らはClaudeモデルがポケモンをプレイするためのベンチマークを導入しました。「Claude 3.7 SonnetはポケモンRedをプレイする点で、これまでのすべてのSonnetモデルの中で最高であることを示しています」と述べています。幸運にも私は実際にポケモンをプレイしませんが、彼らはポケモンはClaude 3.7 Sonnetの能力を評価する楽しい方法だと言っています。しかし、これらの能力はゲームをプレイすること以上の現実世界での影響を持つことを期待しています。なぜなら、モデルがフォーカスを維持し、オープンエンドな目標を達成する能力は、開発中の最先端AIエージェントの幅広い範囲の開発者を助けるからです。だからこそ彼らはこれを行いました。このような新しいベンチマークは非常に面白く、非常に興味深いものになると思います。
もちろん、将来に向けてのことも考えています。彼らは「Claude 3.7 SonnetとClaude Codeは、深く推論し、自律的に作業し、効果的に協力できるAIシステムに向けた重要なステップです。彼らは、AIが人間の能力を豊かにし、拡張する未来に私たちを近づけます」と述べています。
これは基本的に、2027年までにClaudeはパイオニアを持つことになると述べているところです。まず2024年にアシスタントがあり、次に2025年にはコラボレーターがあります。Claudeはあなたのために何時間もの独立した作業を行い、専門家と同等のパワーを持ち、すべての人やチームが達成できることを拡大します。そして2027年のClaudeでは、パイオニアがあり、Claudeはチームが達成するのに何年もかかったであろう挑戦的な問題への画期的な解決策を見つけることができると予測しています。
Claudeの未来は確かに明るいです。すでにこれを使用したことがあるか教えてください。ここに行くと、Claude 3.7 Sonnetがあり、思考モードも見ることができます。標準と拡張があるので、何を使用するかは完全にあなた次第です。
皆さんがこのビデオを楽しんでいただけたら幸いです。次回にお会いしましょう。

コメント

タイトルとURLをコピーしました