Claude 3.5の新しいAIエージェントが業界を変える (Claude 3.5エージェントと新モデル)

5,879 文字

本日、Anthropic社は3.5シリーズの新モデルファミリーを発表し、AI業界に衝撃を与えました。発表によると、クロード3.5 Sonnetの改良版と、新モデルのクロード3.5 Haikuが登場します。
改良版クロード3.5 Sonnetは、前モデルから全体的な性能が向上し、特にコーディング分野で大きな進歩を遂げました。この分野では既にトップクラスの性能を誇っていましたが、さらなる進化を遂げたんです。
クロード3.5 Haikuは、以前のHaikuモデルと同じコストと速度で、多くの評価指標でクロード3 Opusと同等の性能を発揮します。
今回の発表には多くの要素がありますが、主なポイントはクロード3.5と、革新的な新機能であるコンピューター操作機能です。APIのパブリックベータ版では、開発者がクロードにコンピューターの操作を指示できます。画面を見て、カーソルを動かし、ボタンをクリックし、テキストを入力するという、人間のような操作が可能になりました。
クロード3.5 Sonnetは、このコンピューター操作機能をパブリックベータとして提供する初のフロンティアAIモデルです。現段階では実験的で、時には扱いにくく、エラーも発生しますが、開発者からのフィードバックを得ながら、急速に改善されていく予定です。
それでは、多くのユーザーが注目するであろうクロード3.5 Sonnetの詳細を見ていきましょう。このモデルは、コーディングを始め、多くの分野でトップクラスの性能を誇っています。
ベンチマーク結果を見ると、AnthropicはGPT-4やGemini 1.5 Proなど、同クラスの最新モデルを再び上回ることに成功しています。大学院レベルの推論、GP QA、Diamond、MMLU Proなどの分野で、クロード3.5は他を凌駕しています。
コーディング評価では前回のベンチマークから3%向上し、GPT-4を上回りました。高校数学の競技では、元のクロード3.5 Sonnetから性能がほぼ倍増という大きな飛躍を遂げ、数学能力が大幅に向上したことが分かります。
視覚的質問応答能力を測るMMBUでは約2%向上し、最先端レベルに達しました。Anthropicが視覚能力の向上を目指していた理由の一つは、コンピューター操作時にスクリーンショットを処理する必要があったからです。これは本当に素晴らしい進歩といえます。
興味深いことに、ベンチマークの中にはクロード専用の指標もあります。他のモデルがこれらの能力を持ち合わせていない可能性があるため、テストされていないのでしょう。
エージェント型コーディングのwe-benchでは、クロード3.5は驚異的な基準を打ち立てました。前バージョンの33.4%から49%へと大幅に向上しています。
Alex Albertは、コーディング分野での進歩が最も顕著だと指摘しています。新しいクロード3.5 Sonnetは、複雑なスキャフォールディング（足場組み）を使用せずに、ソフトウェアエンジニアリングのベンチマークで49%という新記録を達成。OpenAI Code Interpreterのような推論モデルや、エージェント型コーディング専用モデルさえも上回りました。
汎用モデルでありながら、様々な分野で優れた性能を発揮し、さらにはコーディングにおいて推論モデルをも凌駕したことは、OpenAIも予想していなかったでしょう。
このリーダーボードで驚くべきは、ソフトウェアエンジニアリングのベンチマークが毎月のように更新されていることです。新しいスキャフォールディング手法や、より高度な内部システムを持つ新基本モデルによって、約5%ずつ性能が向上しています。
クロードは49%という記録を達成し、多くの専門モデルをも上回りました。また、航空会社のベンチマークにおけるエージェント型ツール使用では、クロード3.5 Sonnetは前モデルの36%から46%へと10%向上しています。
クロード3.5 Sonnetのベンチマークから注目すべき点は、エージェント型コーディングとツール使用の分野で、他のモデルが比較の対象にすらなっていないことです。2025年以降はエージェント型AIの時代になると予想され、現時点でエージェント型能力を示しているモデルがAIコミュニティから支持されるでしょう。
クロード3.5は新たな基準を打ち立て、他社もこれに追随せざるを得なくなり、競争はさらに激化するでしょう。
また、新しいモデルクラスとしてクロード3.5 Haikuも発表されました。これは3.0 Haikuに代わる最速・最低コストのモデルです。驚くべきことに、コーディングタスクでは元のクロード3.5 SonnetやGPT-4を含む多くの最先端モデルを上回ります。
クロード3.5 Haikuは現時点では利用できませんが、数週間以内に提供開始予定です。小売分野で51.0%、航空分野で22.8%というエージェントツール使用のベンチマークは、最速・最低コストモデルとしては驚異的です。
開発者にとって、コストが課題だった場合、クロード3.5 Haikuは救世主となるかもしれません。このモデルのクレジット使用量はそれほど高くないと予想されます。
次に、これらのエージェント機能の実際の動作を見ていきましょう。Anthropicがリリースした動画をいくつか紹介します。
コンピューター操作に関して、Anthropicは根本的に新しいものを構築しようとしています。個々のタスクを支援する特定のツールを作るのではなく、一般的なコンピュータースキルを教え込み、人間向けに設計された標準的なツールやソフトウェアを幅広く使用できるようにしています。
開発者はこの新機能を使って、反復的なプロセスの自動化、ソフトウェアの構築とテスト、研究などのオープンエンドなタスクを実行できます。これらの一般的なスキルを可能にするため、クロードがコンピューターインターフェースを認識し操作できるAPIを構築しました。
開発者はこのAPIを統合することで、「私のコンピューターとオンラインのデータを使ってこのフォームに記入して」といった指示や、「このスプレッドシートをチェックして」「カーソルを動かしてウェブブラウザを開き」「関連ウェブページに移動して」「データでフォームを入力して」といったコンピューターコマンドをクロードに実行させることができます。
人間のようなコンピューター操作能力を評価するOSORでは、クロード3.5 Sonnetはスクリーンショットのみのカテゴリーで4.9%を記録し、これまでのAIシステムの最高スコア7.8%を大きく上回りました。同じタスクでより多くのステップが許可された場合、クロードは22%を記録しています。
最初の動画では、クロードが業務の自動化に使用される様子が紹介されています。
「私はSamです。Anthropicの研究者の一人です。コンピューター操作は以前から重要になると考えていました。今日は、その初期バージョンと、私たちが有用だと考える代表的な例を紹介します。
この架空のデモでは、Ant Equipment社というお客様からベンダーリクエストフォームの記入を依頼されました。必要なデータは私のコンピューター上の様々な場所に散在しています。クロードにスプレッドシートを確認させ、その会社が載っていなければCRMに移動して追加情報を探させます。データを見つけたら、ベンダーフォームに情報を転記します。
まず、クロードは画面のスクリーンショットを撮り始め、Ant Equipment社がスプレッドシートにないことを素早く認識します。そこでCRMに切り替えて対象企業を検索します。検索結果が見つかると、クロードはページをスクロールしてフォームに必要な情報を探します。
その後、クロードは自動的に情報を転記し始め、私の手を借りることなく、必要な情報を全て入力してフォームを送信します。この例は、人々が行う単調な作業の代表例です。この機能はAPIで利用可能で、今後数ヶ月でさらに改善されることが期待されます。」
次は、クロード3.5 Sonnetがコンピューターを操作してウェブサイトのコーディングタスクを実行する例です。
「私はAlexです。Anthropicの開発者リレーション責任者です。今日は、コンピューター操作機能を使ったコーディングタスクをお見せします。ウェブサイトのコーディングタスクを、私のラップトップを実際に操作して行います。
まず、クロードに変更を加えるウェブサイトが必要です。クロードにChrome上でcloud.（クラウドドット）に移動させ、自身のための90年代風個人ホームページを作成するよう依頼してみましょう。
クロードはChromeを開き、cloud.を検索し、もう一つのクロードに個人ホームページ作成を依頼するプロンプトを入力します。cloud.は右側のアーティファクトにコードを返し、きれいにレンダリングされました。
素晴らしい出来ですが、自分のコンピューターでローカルに変更を加えたいと思います。クロードにファイルをダウンロードさせ、VS Codeで開かせましょう。クロードは「ファイルに保存」ボタンをクリックし、VS Codeを開き、ダウンロードフォルダーからファイルを見つけて開きます。
完璧です。ファイルが開いたので、ブラウザで表示できるようサーバーを起動するようクロードに依頼しましょう。クロードはVS Codeのターミナルを開きサーバーを起動しようとしますが、エラーが発生します。マシンにPythonがインストールされていなかったのです。
しかし、クロードはターミナル出力を確認し、インストールされているPython3で再試行します。今度は成功し、サーバーが起動しました。
ローカルサーバーが起動したので、ブラウザでウェブサイトを手動で確認できます。見た目は良好ですが、ターミナルにエラーが出ており、上部に欠落したファイルアイコンも表示されています。
クロードにこのエラーを特定させ、ファイル内で修正させましょう。クロードは視覚的にターミナル出力を読み取り、VS Codeの検索・置換ツールを開いてエラーを引き起こしている行を探します。
今回はエラーを完全に取り除くよう依頼したので、該当行を削除します。クロードはファイルを保存し、自動的にウェブサイトを再起動します。
エラーが解消されたので、最終確認をしましょう。ファイルアイコンが消え、エラーも解消されています。完璧ですね。これがクロードを使ったコーディングの例です。現時点では複数のプロンプトが必要でしたが、将来的にはこのようなタスクをより効率的に実行できるようになるでしょう。」
次は、一般ユーザーにとって非常に便利な、コンピューターでのタスク実行例です。
「私はPujaです。Anthropicの研究者です。今日はコンピューター操作の簡単な例をお見せします。来週、友人がサンフランシスコに来るので、観光スポットに連れて行きたいと思います。
ゴールデンゲートブリッジを望む日の出ハイキングは、いつ見ても素晴らしいですよね。クロードに良い場所を探してもらい、タイミングやロジスティクスを確認し、カレンダーに予定を入れてもらいましょう。
クロードはChromeを開き、Googleで検索を始めました。良い場所が見つかったようです。私の場所からどのくらい離れているか確認してみましょう。クロードはマップを開き、私のエリアとハイキング場所との距離を検索しています。
次に、明日の日の出時刻を検索し、カレンダーに予定を入力して詳細を記入しています。素晴らしい、クロードが完了しました。これは単純な例ですが、人々が何を構築するのか学ぶために、コンピューター操作機能を早期に公開しています。」
今回のリリースで最も興味深かったのは、Anthropicが公開した短い動画の中で、「デモ撮影中にも面白い出来事がありました。クロードが長時間の画面録画を誤って停止させ、全ての映像が失われてしまったことがありました」と述べていることです。
また、「コーディングデモの最中に、クロードが突然中断してイエローストーン国立公園の写真を閲覧し始めた」というエピソードもあり、これは予期せぬ振る舞いの一例かもしれません。
AIが予想外の行動を取る可能性があるため、タスクを設定する際は完全に放置せずに注意を払う必要がありそうです。もちろん、Anthropicは安全性確保のために必要なドキュメントをAPI関連ページで提供するでしょう。
実際、APIページには次のような注意事項が記載されています：
「コンピューター操作はベータ機能です。標準的なAPI機能やチャットインターフェースとは異なる固有のリスクがあることにご注意ください。特にインターネットとの相互作用時にリスクが高まります。
これらのリスクを最小限に抑えるため、以下のような予防措置を検討してください：

システムへの直接的な攻撃や事故を防ぐため、最小限の権限を持つ専用の仮想マシンやコンテナを使用する
情報窃取を防ぐため、ログイン情報などの機密データへのアクセスを制限する
悪意のあるコンテンツへの露出を減らすため、インターネットアクセスを許可リストのドメインに制限する
クッキーの承認、金融取引、利用規約の同意など、実世界で重要な結果をもたらす可能性のある決定は、人間による確認を求める

場合によっては、クロードがユーザーの指示に反してコンテンツ内のコマンドに従うことがあります。例えば、ウェブページや画像に含まれるクロードへの指示が、ユーザーの指示を上書きしたり、エラーを引き起こしたりする可能性があります。
プロンプトインジェクションに関連するリスクを避けるため、クロードを機密データやアクションから隔離することを推奨します。
最後に、製品にコンピューター操作機能を実装する際は、関連するリスクをユーザーに通知し、同意を得てください。」
総じて、これは本当にベータ版の機能であり、細心の注意を払う必要があります。まだミスを起こす可能性があり、プロンプトインジェクションも起こり得ます。場合によってはクロードがユーザーの意図を完全に無視することもあるため、何が起こっているのか正確に理解しておくことが重要です。