
10,892 文字

アントロピック社が様々なClaudeモデルでポケモンをプレイしてテストしたようですが、これは素晴らしいことです。3.7 Sonnetが大きな進歩を遂げているのがわかります。3.5 Sonnetを含む以前のモデルは良かったものの、時間とともに進歩が止まってしまうようですが、3.7 Sonnetは進化し続けています。彼らがどのようにこの興味深い実験を行ったのか、もっと知りたいですね。
3.0 Sonnetは朝に家を出ることさえできなかったようですが、厳しく判断しないでください。私自身もそういう日があります。私たちは皆、3.7 Sonnetになれるわけではありません。3.7 Sonnetはポケモンジムリーダー3人と戦ってバッジを獲得したようです。アントロピック社によると、Claude 3.7 Sonnetは複数の戦略を駆使し、従来の前提に疑問を投げかけることが「超効果的」だったと言っています。「超効果的」というのが分かりましたか?素晴らしい仕事です、アントロピック。
アントロピック社が新しい非常に魅力的な機能をいくつか発表・リリースしました。まず、すべてのClaudeプランで利用可能なClaude 3.7 Sonnetと、研究プレビュー版のClaude Codeです。多くの人の基準では、Claudeはコーディング面で最高と評価されており、o3 mini High や新しいGrok 3(思考モード付き)などの競合他社と比較しても、多くの人がClaudeがコーディングにおいて依然としてナンバーワンだと言っています。まだテストはしていませんが、これによってリードを取り戻すか、すでに持っている優位性をさらに確固たるものにするのは間違いないでしょう。
まずはClaude Codeがどのようなものか見てみましょう。こちらがリリースビデオです。
「大きな笑顔をするべきですか?いや、大きな笑顔は不気味ですね。私はボリス、エンジニアです。私はキャット、プロダクトマネージャーです。私たちはClaudeで人々が作るものを見るのが大好きで、特にコーディングにおいて、すべての人のためにClaudeをより良くしたいと思っています。私たちはいくつかのツールを構築し、そのうちの一つを今日シェアします。Claude Codeを研究プレビューとして公開します。Claude Codeはエージェント型コーディングツールで、ターミナルから直接Claudeと作業することができます。
実際の例をお見せしましょう。ここにプロジェクトがあります。これはNext.jsアプリです。Claude Codeのインスタンスで開いてみましょう。これでClaudeはこのリポジトリ内のすべてのファイルにアクセスできるようになりました。このコードベースについてはあまり知りません。カスタマーサポートエージェントとチャットするためのアプリのようです。Claudeにこのコードベースを説明してもらいましょう。
Claudeはまず上位レベルのファイルを読み込み、より深く掘り下げていきます。今はプロジェクト内のすべてのコンポーネントを確認しています。素晴らしい、最終的な分析結果が出ました。
例えば、左側のサイドバーをチャット履歴に置き換え、新しいチャットボタンを追加するように頼まれたとします。Claudeに手伝ってもらいましょう。ファイルやパスを指定していないのに、Claudeはすでに自分で更新するべき正しいファイルを見つけています。Claudeは思考プロセスを表示することもでき、この問題にどう取り組むかを決めたかを見ることができます。
Claudeが変更を受け入れるかどうか尋ねています。はい、と答えます。するとClaudeはナビゲーションバーを更新し、ボタンやアイコンを追加しています。次に、保存状態が正しく機能するようにウォッチCを更新しています。しばらくするとClaudeはタスクを完了し、行ったことの要約を表示します。
アプリを見てみましょう。左側に新しいチャットボタンと新しいチャット履歴セクションがあります。前のチャットを保存したまま新しいチャットを開始できるか確認してみましょう。新しいチャットボタンも試してみます。素晴らしい、すべて正常に動作しています。
今度はClaudeに、追加した機能が確実に動作するようにテストを追加してもらいましょう。Claudeがコマンドを実行する許可を求めています。はい、と答えます。Claudeはテストを実行するための変更を加えています。結果を取得した後、すべてのテストが合格するまで計画を続行します。数分後、すべて問題ないようです。
次に、Claudeにアプリをコンパイルして、ビルドエラーがないか確認してもらいましょう。何が見つかるか見てみましょう。Claudeはビルドエラーを特定し、修正しています。その後、再度ビルドを試みます。うまくいくまで続けます。
最後に、Claudeに変更をコミットしてGitHubにプッシュするよう依頼しましょう。Claudeは変更の要約と説明を作成し、GitHubに変更をプッシュします。これがClaude Codeの例です。皆さんがClaude Codeで何を構築し始めるのか楽しみにしています。」
これは非常に興奮させる機能です。なぜなら、これらの多くの機能は過去に私たちが議論してきたようなものだからです。コーディングAIが向上し、より多くの機能を持つようになると、コーディングからトラブルシューティング、実際の実装、ローンチまで、ソフトウェアエンジニアリングのタスクをより多く処理できるようになります。まだチェックする機会がありませんでしたが、テストして何ができるか知るのが楽しみです。
気づいたことの一つは、これは彼らの最初の本格的な「reasoning model(推論モデル)」だということです。以前は「ant thinking」があり、実際の出力から「思考の連鎖」を隠していましたが、これはo1やDeepSeek R1、Grok 3などと同様の本格的な推論モデルです。思考過程を見ると、「cooking」「schlepping」「hurting」「clotting」「conjuring」「ring」など、思考を表す多くの小さな言葉が使われているのが分かります。これはちょっと面白いですね、ユーモアのセンスがあります。
興味深いことに、彼らはClaude 3.7 Sonnetは市場の他の推論モデルとは異なる哲学を持っていると言っています。「人間が素早い反応と深い思考の両方に単一の脳を使用するように、私たちは推論はフロンティアモデルの統合された機能であるべきで、別個のモデルではないと考えています。このモデルは通常のLMと推論モデルが一つになっています。モデルが通常に応答するときと、回答する前に長く考えるときを選ぶことができます。」
興味深いことに、OpenAIでは一方か他方かの選択肢しかなく、本当の選択肢はありません。Grok 3はこのように機能するようですが、私の理解では別々のモデルであり、別々のベンチマークを持っています。異なる名前で呼ばれています。Grok 3アプリで「think」ボタンを押すと、Grok 3推論アプリが起動し、押さないと通常のベースLLMを使用しています。アントロピックが言うところの「ordinary LM」です。
拡張思考モードでは、回答する前に自己反省するため、数学、物理学、指示に従う、コーディングなど、推論を必要とする難しいプロンプトに使用すべきです。
ここでの興味深い点は、この週末にGrok 3を使って遊んでいて気づいたことです。同じプロンプトを3つの異なるGrokウィンドウで実行すると、わずかに異なる出力が得られることがあります。60秒考える場合もあれば、3分考える場合もあります。私がコーディングでテストした中では、3分間考えた方が明らかに良い結果が出ました。これは「どれくらい考えたいか」を選べる選択肢があれば良いのではないかという疑問を投げかけます。なぜ特定の問題についてどれだけ深く考えるかを選ぶオプションがないのでしょうか?私の知る限り、これは選択できる最初のモデルです。
APIを通じてClaude 3.7 Sonnetを使用する場合、ユーザーは思考のための予算をコントロールすることもできます。プロンプトについて考えるために使用できるトークン数を、最大128,000トークンの出力制限まで指定できます。これにより、速度とコストを品質と引き換えることができます。
初期テストでは、Claudeはコーディングに非常に優れていることが示されています。Cursorは、Claudeが複雑なコードベースの処理から高度なツール使用まで、実世界のコーディングタスクで再びクラス最高であると指摘しています。Devon AIの開発者は、コード変更の計画や全体的な更新の処理において、他のどのモデルよりもはるかに優れていると評価しています。Vercelはエージェント型ワークフローに非常に適していると強調し、Replit社はClaudeを使って高度なウェブアプリをCanvasに構築することに成功しました。AvowsはClaudeが一貫して優れたデザインセンスを持つ本番環境対応のコードを生成し、エラーを大幅に削減したと述べています。
ソフトウェアエンジニアリングのSベンチの検証結果を見ると、o3 mini Highを含む他のモデルはすべて50%をわずかに下回る(49%、48%など)のに対し、Claude 3.7 Sonnetは62.3%を記録しています。さらに、カスタムスキャフォールディング(実行を支援するソフトウェア追加)では70.3%に達しています。エージェントツールの使用も非常に強力で、競合他社を上回っています。
ベンチマークでは、最も左側が64,000の拡張思考を持つこの新しいClaudeモデル、次にo3 mini High(競争相手)、そして拡張思考を持つGrok 3ベータ(おそらく最も優れた2つの競争相手)です。驚くべきことに、大学院レベルの推論ではGrok 3ベータがわずかに優位ですが、3つのモデルはほぼ互角でかなり接近しています。
多言語で非常に強力、視覚的推論で競争力があり、指示に従う能力が非常に高く、数学問題解決でも競争力があります。AiME 2024はGrokやo3 mini Highよりも低いようですが、彼らはこれについて言及しています。「数学やコンピュータサイエンスのコンペティション問題に対する最適化は少なくし、実世界のタスクにより焦点を当てました」と述べています。これは確かに良いことのように聞こえます。多くの人がベンチマークで高いスコアを得てモデルの優秀さを示そうとしていますが、最終的に我々が本当に求めているのは実際の実世界のユースケースです。
彼らはClaude Codeについて、「最初のエージェント型コーディングツールとして限定的な研究プレビューに出している」と述べています。Claude Codeは「コードの検索と読み取り、ファイルの編集、テストの作成と実行、コードのコミットとGitHubへのプッシュ、コマンドラインツールの使用など、あらゆるステップであなたを支援する積極的な協力者です。」
ちらっと見たところ、ポケモンゲームプレイのテストについて話しているのに気づきました。アントロピックには敬意を表します。彼らは標準的なベンチマークを持っていますが、「この新しいモデルは他の予想外のタスク、特にポケモンをプレイすることも得意です」と言っています。
ポケモンレッドは、ゲームボーイ版もあった古い比較的シンプルなゲームです。他にもいくつかの異なるバージョンがあったと思います。間違っていたら教えてください。
アントロピック社は様々なClaudeモデルでポケモンをプレイしてテストしたようですが、これは素晴らしいことです。3.7 Sonnetが大きな進歩を遂げているのがわかります。3.5 Sonnetを含む以前のモデルは良かったものの、時間とともに進歩が止まってしまうようですが、3.7 Sonnetは進化し続けています。彼らがどのようにこの興味深い実験を行ったのか、もっと知りたいですね。
3.0 Sonnetは朝に家を出ることさえできなかったようですが、厳しく判断しないでください。私自身もそういう日があります。私たちは皆、3.7 Sonnetになれるわけではありません。アントロピック社によると、Claude 3.7 Sonnetは複数の戦略を駆使し、従来の前提に疑問を投げかけることが「超効果的」だったと言っています。「超効果的」というのが分かりましたか?素晴らしい仕事です、アントロピック。
ポケモンはClaude 3.7 Sonnetの能力を評価する楽しい方法ですが、これらの能力はゲームをプレイする以上に現実世界に大きな影響を与えると期待しています。モデルの焦点を維持し、オープンエンドの目標を達成する能力は、開発者が最先端のAIエージェントの幅広い範囲を構築するのに役立つでしょう。
これは私にとって、最も興奮する待ち望んでいることの一つです。これらのモデルを取り、スキャフォールディングや関数呼び出し機能を与え、ゲームに接続し(複雑なゲームである必要はありません、ポケモンレッドはかなりシンプルです)、そしてそれが物事を推論し、ゲームをクリアしようとするのを見るだけです。そういうことが私にはとても魅力的です。
「強化学習でAIにポケモンをプレイさせる」という動画がありましたが、これは本当に魅力的でした。強化学習では基本的に何百万もの小さなインスタンスを起動し、試行錯誤を通じてゲームを進める方法を見つけ出します。これはもちろん非常に興味深く魅力的なプロセスですが、非常に賢い推論大規模言語モデルとは異なります。何かを行う前にランダムにあらゆることを試すのではなく、次に何をすべきかを推論し、その思考プロセスを見ることができます。計画やメンタルモデルを立て、それを実行します。
シンギュラリティのサブレディットにはすでにこの映像がないことを訴えるスレッドがあります。「私たちが望むベンチマーク」という声に同意します。アントロピック、ポケモンの映像を見せてください。同じ日にリリースしなかったのは賢明でした。おそらく私のような人間が新しいClaudeのリリースをテストする代わりに、ポケモンプレイに気を取られることを彼らは知っていたのでしょう。よく考えられています、アントロピック。
ここでは直列および並列テスト時間計算スケーリングについて言及しています。私の知る限り、これは物事についてどれだけ「考える」かを選択できる最初のモデルです。自分で実験を実行し、特定の問題について考えるためのスイートスポットを見つけることもできます。
これはAiME 2024のテストで、このモデルの精度を示しています。これはアメリカの高校生を対象とした高レベルの数学コンペティションです。彼らが言うように、競争的なテストを完璧にこなすことを目指すのではなく、実世界のユースケースに焦点を当てていますが、「思考予算」を増やすとどのような効果があるかを視覚的に表現している点が興味深いです。
テスト時間計算を2,000に制限すると、32%とかなり低い精度ですが、64,000予算まで拡張すると57%程度まで向上します。難しいコーディング問題があり、論理的エラーがないことを確認するためにしっかり考える必要がある場合は、テスト時間計算の予算を少し増やして、どのようなパフォーマンスを発揮するか確認してみてください。
前の動画では、これらのグラフが少し誤解を招く可能性があると指摘する人もいました。一般的に、これらのグラフはすべて対数スケールになっています。出力の品質対計算量(テスト時間計算量やモデルのトレーニングに使用される計算量)を示す場合、通常は対数スケールで表示されます。つまり、計算コストが指数関数的に増加するにつれて、より良い回答や品質が得られるということです。
直列および並列テスト時間計算に話を戻すと、Claude 3.7 Sonnetが拡張思考機能を使用する場合、「直列テスト時間計算」の恩恵を受けていると言えます。つまり、最終的な出力を生成する前に複数の連続的な推論ステップを使用し、進行するにつれてより多くの計算リソースを追加します。一般的に、これは予測可能な方法でパフォーマンスを向上させます。例えば、数学の問題に対する精度は、思考に許可されるトークン数に対して対数的に向上します。
精度を向上させるもう一つの方法は、「並列テスト時間計算」を使用することです。これは同じプロンプトを複数回実行したり、彼らが言うように「複数の独立した思考プロセスをサンプリングし、どれが最善かを判断する」ことで実現します。最善のものを選ぶ方法はいくつかあり、単純なものとしては多数決や合意投票があります。
私はこれを外国の都市で道を尋ねる状況に例えます。一人に尋ねると、その答えは間違っているかもしれません。10人の異なる人に尋ねて、そのうち8人が同じことを言い、2人が異なる道順を教えた場合、8人が独立して確認した道順がおそらく正しく、他の2人の答えはおそらく間違っているでしょう。同じ考え方をここに適用できます。
コーディングモデルをテストする場合、「pass@1」や「pass@10」などの考え方があります。pass@1は、一度だけ質問して一度だけサンプリングし、その答えが正しい頻度を示します。pass@10は、10回別々にサンプリングし、10回別々にプロンプトし、10回別々に回答させて、その中で最善の回答を得られるかどうかを確認します。これは当然、より高い確率で正解が得られるでしょう。
これはコーディングにとって重要です。なぜなら、時にはpass@1が必要だからです。コードに何かをさせたい場合、「これを動作させる20の異なる方法があります」とは言ってほしくありません。一つの動作する方法が欲しいのです。しかし、過去の多くの研究論文で見られるように、異なる提案をする複数のモデルを持つことが役立つ状況もあります。
例えば、トラブルシューティングでは、特定の問題を修正しようとしていて、修正されたかどうかが分かる場合、10の異なる解決策を試すことが有効かもしれません。解決策Aが動作しなければ解決策Bを試し、Bも動作しなければCを試します。Cが問題を解決したら、それが解決策です。
並列テスト時間計算を活用するもう一つの方法として、「別の言語モデル(例えば単なるClaudeの2番目のコピー)を使用して作業をチェックするか、学習されたスコアリング関数を使用して最善と思われるものを選ぶ」方法があります。これらの戦略は、他のAIモデルの評価結果でも報告されています。
それぞれの単語が異なる研究へのリンクになっていて面白いです。これは私には、ポイントを強調するために拍手するようなものに感じます。「他のモデルのいくつかの結果で」というフレーズで、各単語が個別の論文へのリンクになっているのです。これは私だけでしょうか?
彼らはGoogle Gemini、最近カバーしたOpenAIの論文「Competitive Programming with Large Reasoning Models」などを引用しています。私が言及したのはまさにこのことです。モデルが50のランダムな提出を行う場合と、特定のシステムを使用して手作業で選んだ50の提出を行う場合、または10,000の提出を行う機会を与えた場合のパフォーマンスが示されています。10,000の異なる答えを提供させると、パフォーマンスが急上昇することが分かります。
彼らはGrok 3ベータの論文、「The Age of Reasoning Agents」、OpenAI o3 mini、以前このチャンネルでカバーしたChatDevなども言及しています。ChatDevではソフトウェアエンジニアリング会社のようなものを持ち、それぞれのエージェントは当時はChatGPT 3.5の独自バージョンでした。ゲームやツールを作成するようにプロンプトすると、これら3つの別々のChatGPT 3.5インスタンスがそれをどう設計するかを考え、3〜4つの異なるバージョンがその設計に基づいてコーディングを始め、さらに最高技術責任者がそれらが脱線しないように指導します。
その後テストに移り、バグを修正し、コーディングとテストの間を何度も行き来してバグが修正されるまで繰り返し、最終的に製品を出荷します。ドキュメントを作成してマニュアルを書き、公開または完了を伝えます。
これは私の心を吹き飛ばしました。なぜなら、一つのChatGPT 3.5にそのものを設計するよう頼んだ場合、決して出来なかったでしょう。動作しないゴミコードを出力するでしょう。しかし、それを12回コピーして、3つはデザイン担当、3つはコーディング担当、1つは最高技術責任者とロールを与えると、突然より良いものが生まれるのです。これを見たとき、「どうしてこれが意味をなすのか?一つのモデルではできないのに、一連のモデルを繋げただけで突然賢くなるのはなぜ?」と思いました。
現在、これらの多くが推論モデルで再現されています。コードの書き方を考えるときは「デザイン部門」のようなもので、実際にコードを書き始めるときが「コーディング部門」です。テストはまだありませんでしたが、今はアントロピックのClaude Codeや市場にある他のソフトウェアでこのシステムを再現しています。ChatDevのようなプロトタイプは1年以上前から存在していました。
並列テスト時間計算の考え方はこれに似ています。ゲームを設計したりコーディングしたりするとき、一つのChatGPT 3.5ではなく、なぜ3つ使うのか?それらが協力して会話し合うとき、または10の異なるモデルからの回答をサンプリングして多数決を取るとき、推論能力やタスクの達成率が劇的に向上することが研究で示されています。
アントロピックは続けます。「GPQ評価(生物学、化学、物理学に関する一般的に使用される挑戦的な質問のセット)で並列テスト時間計算スケーリングを使用して驚くべき改善を達成しました。256の独立したサンプルの同等の計算量、学習されたスコアリングモデル、最大64kトークンの思考予算を使用すると、Claude 3.7はGPT QAスコア84.7(物理学サブスコア96.5を含む)を達成し、多数決投票の限界を超えた継続的なスケーリングの恩恵を受けます。」
ここでは物理学、生物学、化学の専門レベルの質問に対する推論テストについて話しています。0から100までの精度を示し、Nはモデルが得る試行回数です。紫色の線はpass@Nです。つまり、Nが32の場合、32回質問に回答させ、32回のうち1回でも正解すれば合格となります。少なくとも1回正解すれば合格です。壁に何かを投げて何が貼り付くか見るようなものです。
灰色の線は「majority@N」です。例えば10回回答させ、そのうち6回が一つの答えで、残りが別の答えだった場合、多数決を取り、「6回答えたこの答えが多数派だから、これを採用しよう」と言います。これは機能する傾向があり、1回だけの試行よりも良い場合がありますが、プラトーや問題が存在します。
彼らは何らかのシステムを開発し、答えを採点して正解かどうかを判断しようとしています。青い線は一般的に「majority@N」よりも優れて、これらのすべてのサブカテゴリに対して一般的により良い結果を示しています。少し変則的な部分もありますが、ある点を過ぎると依然として改善しています。
彼らは「この並列テスト時間計算スケーリングは新しくデプロイされたモデルでは利用できませんが、将来のためにこれらの方法の研究を続けています」と述べています。このようなものは非常にコストがかかるでしょう。なぜなら、高い思考予算を与え、それを基本的に256回独立して実行することになるからです。プロンプト実行に1ドルかかる場合、これは256ドルかかることになります。
興味深いのは、OpenAIの論文「Competitive Programming with Large Reasoning Models」の大きなアイデアは、カスタムモデルを作成するということでした。彼らはo1を取り、特にThe IOIベンチマークに強くなるように作られたo1-Eを取り、各タスクに対してそのモデルから10,000の解決策をサンプリングしました。そして、非常に複雑で洗練された統計的アプローチを使用して、最良の50個を抽出しました。これがコンペティションで提出を許可された数です。
スキャフォールディングを追加し、GPに10,000の結果を生成させ、最良の50に絞り込み、それらを提出することで、そのモデルの結果を向上させることができます。もちろん、10,000すべての提出を行うことでさらに改善することもできます。
この論文から多くの人が取り入れたのは、このo1モデルを取り、複雑な統計処理やスキャフォールディングを行って改善できる、あるいは単により大きなモデルをトレーニングできるということです。より多くのデータでより大きなモデルを訓練する方が、はるかに良い結果が得られるでしょう。
誰かが投稿した小さなミームがあります。「統計的学習:非常に複雑なことをする」対「ニューラルネットワーク:もっと層を積み重ねるだけ」というものです。緑の矢印が上がっています。
Claude 3.7 Sonnetはcloud.aiまたはAPIで使い始めることができます。テスト時間計算の予算を選択できるのはAPIを通じてのみです。チェックして、どう思うか教えてください。多くのテストをして、どれだけうまく機能するか確認しますが、今回の件ではアントロピックに歴史の正しい側に立つようお願いしたいと思います。正しいことをするよう促します。大衆の声として言わせてください。ポケモンをプレイする映像が見たいのです。グラフを投稿しただけでは足りません。もっと必要です。
ここまで視聴してくださってありがとうございます。私の名前はWes Rothです。次回お会いしましょう。そして忘れないでください、全部捕まえなきゃ。
コメント