コーディングサブエージェント – AIのIDEの次なる進化

12,249 文字

Coding Subagents - The Next Evolution of AI IDEs

Everyone is using an AI IDE for coding like Windsurf or Cursor now. They make you ultra productive and have started to i...

これまでWindsurfやCursorのようなAI IDEを使って、開発者でない人でさえも素晴らしいことを成し遂げています。私もドキュメント検索やClaudeのmCPサポートなどの最近の機能を使うと、生産性の王様になったような気分です。
しかし、これらのツールには多くの長所がある一方で、短所も同じくらいあります。広範なドキュメントや指示を与えても、ひどいコードを幻覚することが頻繁にあるのです。
この幻覚の問題に対処するため、AIコーディングアシスタントの大幅なアップグレードが待ち望まれていました。そして私は、その次の進化がどのようなものになるか、少し見えてきたと思っています。些細な改善ではなく、完全なパラダイムシフトについて話しているのです。
これからお見せするのは非常に実験的なものですが、AIコーディングの次のイノベーションの波になると確信しています。それは専門化されたサブエージェントとClaudeのmCPを中心に展開されます。
この動画では、私が最近始めたAIエージェントであるArchonを例にして実演します。ArchonはPantic AIとLang graphという私の大好きな2つのフレームワークを使って、他のAIエージェントを構築するものです。
今から説明することをよく聞いてください。できるだけ早く皆さんと同じページに立ちたいと思います。現在の問題は、AIコーディングアシスタントが汎用的すぎることです。様々なフレームワーク、ツール、ライブラリのコーディングにおいて、何でもできるけれど何も極められないという状態です。フレームワークのドキュメントを与えても、それだけでは不十分で、まだ汎用的すぎるのです。
では、解決策は何でしょうか？どうすればより専門的になれるのでしょうか？この動画で共有したい黄金のチケットをお見せしましょう。特定のツールやフレームワークでコーディングするために特別に作られた専門エージェントを想像してください。これらのエージェントは、必要に応じてWindsurfやCursorのような汎用AIコーダーから呼び出すことができます。
これは最高の組み合わせです。汎用コーダーが必要な時もあれば、特定のフレームワークの作業に精通したものが必要な時もあるからです。これは現在可能で、これらの専門エージェントをmCPツールとして定義し、人気のAIコーディングアシスタントに組み込むことができます。ClaudeのmCPが広く採用されているためです。
複雑に聞こえるかもしれませんが、実際にはそうではありません。この動画で正確な方法をお見せします。先ほど述べたArchonをmCPサブエージェントの1つに変換し、Windsurfに組み込んでみましょう。これはCursorや他のAIコーダーでも同様にできます。
これは非常に実験的でアルファ版ですが、ここにある無限の可能性であなたの想像力を刺激することを保証します。まずはArchonをWindsurfで使用してAIエージェントを構築するデモをお見せし、その後でセットアップ方法を詳しく説明します。
Archonは元々streamlitインターフェースで動作していました。Lang graphとPantic AIを使ってArchonを構築した方法は、こちらの動画でご覧いただけます。今回は、Archonの次の進化として、mCPを使ったサブエージェントへの転換に焦点を当てています。
では、最初のプロンプトを入力してみましょう。「BraveでWebを検索できるAIエージェントをArchonを使って構築してください」というシンプルなプロンプトから始めます。Archonはまだ初期段階なので、基本的なところから始めましょう。
ハンマーアイコンをクリックする前に、mCPサーバーを確認してみましょう。現時点では、Archonだけを設定しています。2つのツールがあります。1つはスレッドIDを作成するためのもので、ArchonはWindsurfと同様に会話を管理するために何らかの会話IDが必要です。もう1つは、エージェントの作成を実行したり、最初の動画で示したような人間を介したフィードバックループで反復的に作業したりするための主要なツールです。
それでは、このリクエストを送信してみましょう。まず、スレッドIDを作成するツールを呼び出し、これを今後のすべての呼び出しでArchonに渡します。これは、最初の動画以降に作成したArchonのAPIエンドポイントを使用します。
最初のリクエストを行っているのが分かります。WindsurfがAPIリクエストの完了を待っているのが見えますね。これには少し時間がかかります。Archonには完全なワークフローがあり、理論モデルを通じて最初のエージェントのスコープを作成し、その後、ここで見られるようにコーダーエージェントがRAGを実行してPantic AIのドキュメントを取得し、それらをすべて組み合わせて最初のバージョンのAIエージェントを作成します。
エージェントの作成が完了すると、制御がWindsurfに戻ります。なお、現在は理論モデルにGPT-4 o3 miniを使用し、実際のコーダーにはGPT-4 oを使用しています。
ArchonのAPIからのレスポンスが完了し、すべてのコードがWindsurfに渡されて、これらのファイルを作成します。Archonを使ってagent.pyを構築し、requirements.txtファイル、toolsファイル、そしてemファイルを出力する様子を見てください。WindsurfがArchonを専門のサブエージェントとして信頼し、Pantic AIエージェントの構築を指示しているのです。
実際の実行は今回は示しませんが、この動画の最後で、エージェントを構築し、完成させ、実際に実行してテストする完全な例をお見せします。全体的にコードは良好で、エージェントもrequirementsも、Brave検索を実行するエージェントツールも、Brave APIキーのためのEMV exampleファイルも、すべて完璧に見えます。
これは非常に基本的な例ですが、Archonの初期段階と、このエージェントの基本的な性質を考慮しても、様々な種類の専門サブエージェントを作成できることがお分かりいただけると思います。必要に応じて、WindsurfやCursorに呼び出させることができます。
AIコーダーにこれらを使用するタイミングを伝える方法は、これらのツールの説明の中にあります。例えば、「Pantic AIとLang graphエージェントを構築したい場合は、ここにあるツールを使ってArchonを使用してください」と伝えることができます。Cursorの設定やWindsurfのルールを実際に編集する必要はなく、mCPサーバーにすべて定義されています。
新しいイノベーションには常に多くの疑問が付きまとうものです。この動画で触れていないことがあれば、コメントでお知らせください。ただし、予想される大きな疑問のいくつかには今お答えしようと思います。
最初の大きな疑問は、「なぜWindsurfやCursorに組み込まれているドキュメント機能を使用しないのか？」というものでしょう。右下で@pantic_aiと入力すれば、Pantic AIのドキュメントが利用可能になり、Windsurfが次のリクエストを実行する際に使用します。@lgraphと入力すれば、Lang graphのドキュメントも同様です。
では、なぜArchonを使わずに、これを使ってPantic AIとLang graphエージェントをコーディングしないのでしょうか？主な理由は2つあります。
1つ目は、Archonのエージェント的なフローです。理論モデルと組み込みのシステムプロンプトにより、エージェントを分割する異なるファイルやスクリプト自体の構造に、非常に一貫した出力が得られます。WindsurfやCursorではこれは得られません。ルールなどを編集することはできますが、システムプロンプト以上のもの、つまりArchonのフロー全体が、非常に一貫したコードを生成するのです。
私はこれが気に入っています。Windsurfでは、毎回非常に異なるコードが生成され、それによってより多くのエラーも発生します。これが2つ目の大きなポイントです。Archonを使用すると、コードは常により良くなります。現時点ではArchonが初期段階なので、比較的同等かもしれませんが、セルフフィードバックループを構築し、構築時に異なるセクションに分割し、問題を小さなステップに分割する能力を追加するにつれて、汎用コーダーが一度にすべてのコードを出力し、そこから改善していく方法よりもはるかに堅牢になります。
ワンショットで始めて、その後より堅牢にしていくだけです。Archonのような物を使用すると、はるかに良い出発点が得られます。ドキュメントをより良く活用する方法も同様です。これがArchonを使用する理由です。
2つ目の大きな疑問は、「なぜスレッドIDを生成しているのか？」というものです。mCPサーバーはステートレスであるべきですよね。ツールを呼び出し、レスポンスを得て、すべてを忘れる。しかし、この場合、Archonはサブエージェントツールであり、Windsurfと同様に会話履歴を維持します。
これがArchonのLang graphグラフです。これはステートフルです。理論モデルがスコープを作成し、それがコーダーエージェントに渡され、エージェントに反復できる人間介在のループがあります。そのため、このWindsurfの会話がエージェントを反復しているArchonの実行にマッピングされていることを知るために、何らかの識別子を使用して会話を維持する必要があります。
そこで、スレッドIDを作成し、LLMはそれをツールに渡すことを覚えておく必要があります。LLMがそれを追跡することに依存するのは少し不快ですが、これは私の場合、驚くべきことに100%うまく機能しています。そして、将来の反復で、例えばエージェントを何らかの方法で改善するためにArchonを再度使用するように指示する場合、同じスレッドIDを使用して、人間介在のフィードバックループの次のステップに進むことができます。
これはmCPに少し強制的に組み込まれていますが、かなりうまく機能しています。私はイノベーションの最前線にいて、このようなものは見たことがありません。そのため、確実にすべてを進めながら理解しようとしていますが、非常に興味深い結果を得ています。
では、mCPについて少し深く掘り下げ、Archonについて話し、すべてをどのように組み合わせたのかをお見せしましょう。
本日の動画のスポンサーはFish Audioです。開発者、マーケター、コンテンツクリエイターがAIで音声を作成する方法を変革する、非常に印象的な音声クローニングおよび音声ナレーションソリューションです。Fish Audioは単なる音声合成ツールではありません。最高レベルのリアリズムを提供する最先端のリアルタイム音声変換モデルです。
簡単なデモをお見せしましょう。Fish Audioのホームページから、My Voice Library > Custom Voiceに行き、新しい音声を作成します。ここで数分であなたの声をクローンできます。カバー画像、名前、説明を追加し、下部で模倣するサンプルクリップを追加します。推奨は30秒程度で、UIで直接録音することもできます。非常に簡単です。
作成をクリックしてください。私の場合は、すでに作成済みのカスタム音声を使用します。少し面白いサンプルプロンプトを貼り付けました。「Archonは最高のAIエージェントビルダーです」と言っています。プロのヒントとして、発音を良くするために綴りを少し変更することもできます。これらはすべてAPIを通じてプログラムで使用することもできます。
速度と音量も変更でき、作成をクリックすると、数秒で音声クリップが生成されて再生されます。
Fish Audioは、YouTubeのナレーション、音声エージェント、プロジェクトへの複数言語の追加など、あらゆることに対応するように設計されています。同時に、非常に手頃な価格で、長年定番の音声プラットフォームであった11Labsと比べて50%安価で2倍速いです。11Labsは常に非常に高価に感じていました。
Fish Audioをテストして、印象的という言葉では言い表せないほどです。AIの音声ゲームをレベルアップし、プロジェクトに真にプロフェッショナルなサウンドを取り入れる準備ができたら、fish.audioにアクセスして、寛大な無料トライアルにサインアップし、AIの音声クローニングの魔法を体験してください。2分以内で試すことができるので、ぜひ試してみてください。説明欄にFish Audioへのリンクも用意しています。
Archonを mCPサブエージェントとして構築した方法をお見せする上で最も重要なのは、mCPとは何か、Archonとは何か、そしてこの特殊なエージェントを構築するためにどのように組み合わせることができるのかについての文脈を提供することです。
まず、mCPについてですが、これは数ヶ月前にClaudeによって開発されたプロトコルで、大規模言語モデルでのツールの使用を標準化するものです。興味がある方は完全な記事を読むことができますが、基本的には、GitHubやGoogle Drive、Discordなど、特定のサービスのAPIエンドポイントにアクセスできるサーバーを作成する方法です。
このサーバーは大規模言語モデルに公開され、ツールを動的にLLMに提供します。GitHubのmCPサーバーを立ち上げ、WindsurfやClaude デスクトップなどのLLMに提供すると、LLMはあなたのGitHubリポジトリで様々な操作を行うことができます。これらのサーバーを立ち上げ、即座にLLMにアクセスを提供できる速さは素晴らしいものです。
Brave検索用のサーバー、Google Drive用のサーバー、SQLデータベース用のサーバーなど、コミュニティによって作成された多くのサードパーティサーバーがあります。Archonのようなものもそうです。JetBrains、Stripe、AWS S3、少し下にスクロールすると、Discord、DeepSeek R1など、今すぐダウンロードできるサーバーがたくさんあります。これらはすべてオープンソースで、自分のコンピュータで実行したり、クラウドのAPIエンドポイントを参照したりできます。そうすれば、それらのツールはすべて、LLMを実行している場所で利用可能になります。
これがArchonで行っていることです。Archonは、Pantic AIとLang graphを使用して他のエージェントを構築するAIメタエージェントです。最近始めたばかりで、私のチャンネルには1つの動画しかありませんが、基本的にはPantic AIとLang graphの革新を開発しており、最終的には非常に堅牢なサブエージェントとして、AIコーダーでこれらのエージェントを非常にうまく構築するために使用できるようにしています。
現在mCPで行っているのは、先ほどWindsurfで見たように、LLMに提供できるツールに変換することです。基本的に、WindsurfのClaude 3.5 SonnetはツールとしてArchonを持っています。
これがエージェントをコーディングするためのArchonの完全なワークフローを定義するLang graphグラフです。最初に理論モデルがあり、エージェント構築のスコープと高レベルの推論を定義し、それが実際にコードを生成する高速コーダーエージェントに移行します。その後、ユーザーからの入力を得るフィードバックループがあり、エージェントを反復できます。最後に、エージェントを実行するための最終的なレスポンスと指示を提供します。
このワークフロー全体をパッケージ化して、AIコーダーのツールとして提供します。これがArchonをmCPサブエージェントとして使用することのパワーです。
この文脈を踏まえて、mCPサーバーのセットアップ方法とArchonとの接続方法を実際にお見せしましょう。これがArchon mCPサーバーのPythonスクリプトです。今は高レベルの概要をお話ししますが、将来的にチャンネルでPython mCPサーバーを一から構築する方法について詳しく説明する動画を作るかもしれません。また、ドキュメントへのリンクも説明欄に用意しますので、興味のある方はご自身で掘り下げてみてください。サーバーはPythonとJavaScriptの両方で作成できます。
高レベルでは、mCP Python SDKを使用したFast APIを使用しています。最初のツールはスレッドIDを作成するためのもので、Archonが会話履歴を管理するために必要です。2つ目のツールは実際にArchon自体を呼び出すためのもので、Archon用に作成したAPIエンドポイントを通じて行います。
これもArchonのバージョン3の新機能です。チャンネルの前回のArchonの動画でstreamlitで行ったのと非常によく似た方法でArchonと対話するFast APIエンドポイントを作成しました。前回の動画で一から構築方法を示したArchonのグラフは、まったく同じままです。変更は何もなく、すべてをこのFast APIエンドポイントでラップアップし、それをmCPサーバーで呼び出しているだけです。
これは、ArchonをmCPサーバーとして使用する必要がない、シンプルな実装です。streamlitで作業したり、Archon用に作成する他のフロントエンドでこれをAPIエンドポイントとして使用したりすることもできます。mCPサーバーとして使用する必要はありませんが、それも非常に簡単にできるようにしています。
実際に、READMEを見てみると、プレビューを開いてみましょう…Archonの更新された指示では、mCPサーバーのセットアップなしで実行する方法と、mCPを使用する方法の両方を示しています。streamlitまたはmCPでの実行方法について、両方をカバーしています。READMEにはすべてを非常に簡単にセットアップする方法の指示があるので、Windsurfやcursor、streamlit、または他の場所で自分で試すことができます。
mCPサーバーのもう1つの重要な点は、関数定義の上部で定義するこれらのdocstringです。これはPantic AIやLang chainのツールと非常によく似ています。これらは実際にLLMにこれらのツールをいつどのように使用するかを伝えます。
ここで見ているこの正確な文字列を見てみましょう。Windsurfに戻ってお見せしますが、ここにあります。関数の定義、この文字列はWindsurfのClaude 3.5 Sonnetのプロンプトに実際に入れられます。そのため、これらのツールをいつどのように使用するかを理解できます。
例えば、AIエージェントの構築を開始する前にスレッドIDを生成する必要があること、開始時でない場合は同じスレッドIDを渡す必要があることなど、具体的な指示をClaudeに与えることができます。Archonは会話を管理しているため、このツールを実行する際にパラメータの1つとしてスレッドIDを渡す必要があります。
これがmCPサーバー全体です。繰り返しになりますが、グラフは何も変更されておらず、シンプルなFast APIの実装で、これ以上深く掘り下げる必要はありません。
また、作成した便利なスクリプトもあります。指示にも含まれていますが、仮想環境を完全にセットアップし、cursorやWindsurfに入れるmCP設定も生成します。実際にターミナルを表示して、お見せしましょう。
これが実行中のAPIエンドポイントですが、これを停止して、コマンド「python setup_mcp.py」を実行すると、仮想環境はすでに作成されているのでそのステップはスキップされますが、cursorの指示（READMEに記載）に必要な設定と、WindsurfやClaude デスクトップなどのmCP設定用のJSONも提供されます。
このスクリプトを実行すると、Archon mCPをセットアップするために必要なことがすべて分かります。できるだけ簡単にしています。
では、すべての実行方法を手短に説明し、その後でエージェントを一から構築してみましょう。READMEに戻ると、これはGitHubリポジトリのルートにありますが、インストール手順があります。
古い方法、つまりmCPサーバーではなくstreamlitを通じて対話する場合も、まだサポートされています。これらのコマンドに従えばよいです。リポジトリをクローンし、仮想環境をアクティベートし、すべての要件をインストールします。
mCPを通じて使用する場合は、先ほど示したセットアップスクリプトを実行できます。これにより仮想環境がセットアップされ、mCP設定が提供されます。その後、仮想環境もアクティベートする必要があります。
Windsurfとcursorの両方について、セットアップmCPスクリプトが提供する設定を含める方法の指示があります。Claude デスクトップや、mCPをサポートする他のAIコーダーを使用している場合も、これらの2つのいずれかと同じか、少なくとも非常によく似ています。
すべての環境変数をセットアップし、これは変更されていません。Pantic AIのドキュメントを取得し、RAG用のSuperbase knowledge baseに入れるためのこのPythonスクリプトの実行も同様です。
mCPサーバーを使用する場合は、ArchonをAPIとして公開するAPIエンドポイントを実行します。そうでない場合は、APIを通じて行う代わりにグラフと直接対話するため、streamlitを直接使用できます。
これが実行に関するすべてです。今回はこれらのコマンドをすべて実行することはしません。非常に明確だと思います。私のマシンではすでにすべてが動作しているので、実際にテストしてみましょう。
完全なArchonグラフがWindsurfのツールとしてパッケージ化されているので、これも強調したいと思います。これは本当に開発の最初の段階にあります。より多くのノードを追加し、システムプロンプトを改善し、ツールライブラリを追加するなど、これを本当に堅牢にするためのアイデアがたくさんありますが、これでも良い出発点です。
では、エージェントを一から構築し、反復し、テストしてみましょう。最後のデモとして、動画の冒頭で始めたBraveエージェントを完成まで見届けるのがふさわしいと思います。一から構築しますが、同じプロンプトを使用します。
Archon用のAPIエンドポイントが起動しています。graphs serviceを表示して、エージェントを構築する際にリアルタイムで何が起こっているかを見てみましょう。同じプロンプトを貼り付けます。「Archonを使ってAIエージェントを作成してください」。
まずスレッドIDを取得し、Archonに助けを求めると言っています。エージェントが別のエージェント、つまり専門知識を持つサブエージェントに助けを求めているのを見るのは素晴らしいですね。
GPT-4 o3 miniの理論モデルから始まり、コーダーが参照すべきと考えるPantic AIのドキュメントページも含めたスコープを作成します。それを実行し、Pantic AIのドキュメントに基づいてAIエージェントを作成するために、RAGを実行してすべての内容を取得します。後でLang graphでも作業を拡張しますが、今はArchonで非常にシンプルに始めます。
最終的なレスポンスを生成中で、Windsurfはまだ待機していますが、すぐにフラッシュして…はい、できました。Archonからのレスポンスができたので、これらのファイルを私のIDEに実装します。
まずrequirements.txtですね。良さそうです。Pantic AIとhttpxは確かに必要な依存関係です。そしてエージェントも…まあまあ良さそうです。モデルがNoneになっているのは気に入りませんが、全体的には良好です。Brave検索ツールは良さそうで、Brave APIキー用のenv exampleファイルも良さそうです。LLMを実装する必要がありそうですが、他は全て良好です。
これらの変更を受け入れますが、人間介在のループを使用しようと思います。ここに移動して…最初の大きな問題を修正するようにお願いしましょう。モデルがNoneだからです。「Brave検索エージェントのモデルを修正するようArchonに依頼してください。現在モデルはNoneですが、GPT-4 oを使用したいです」と言います。
これで人間介在のループを使用し、同じスレッドIDを使用してArchonを呼び出します。ログに戻ると、Pantic AIコーダーに直接ジャンプしています。理論モデルは今回は呼び出していません。すでにグラフ実行の中でコーダーエージェントだけのループ内にいるからです。
Archonからレスポンスが戻ってきて、モデルを編集しました。OpenAI GPT 4となっていますが、GPT 4oとすべきでしょう。ここで直接編集しておきましょう。Archonがこのような初期段階では、まだ人間の介入が必要ですが、それでもArchonを使ってエージェントを更新できたのは素晴らしいですね。
もちろん、これはWindsurf自体でもできたかもしれませんが、Archonとの人間介在のループの非常にシンプルな例を示したかったのです。これは良さそうですね。ここでカメラをオフにして、ここにある小さな不具合を修正し、その後streamlitインターフェースでこれを実行してみましょう。
いくつかの修正を行った後に戻ってきました。作業状態にするのにそれほど時間はかかりませんでした。このエージェントのために素早く作成したstreamlitインターフェースで、すべてが完璧に動作していることをお見せします。
修正が必要だった主な点は、環境変数のセットアップ（.envを作成する必要があり、それがエージェントで使用されていなかった）以外に、Brave APIとの対話に適切なURLとパラメータがなかったことです。結局、Pantic AIやLang graphに関連することは失敗しませんでした。Brave APIに関する幻覚でしたが、そのドキュメントは提供していなかったので、Archonを責めることはできません。Windsurfでも全く同じことが起こっていたでしょう。
だからこそ、ツールライブラリが非常に有用になります。そうすれば、Pantic AIエージェント用の既製のBraveツールを取得して使用できます。これが修正しなければならなかったすべてです。他のすべては全く同じままにし、streamlitインターフェースを作成しました。これを「streamlit run streamlit_ui.py」コマンドで実行し、もちろんプロジェクトの依存関係としても追加しました。
これで、ほぼ完全にArchonによって生成されたエージェント用のこのチャットインターフェースができました。WindsurfがArchonを呼び出して、このエージェントを作成するのを手伝ってもらっただけです。「イーロン・マスクの純資産はいくらですか？」というような質問をしてみましょう。これは、トレーニングのカットオフのため、LLM自体では知らないような種類の質問です。
ウェブ検索ツールを活用することになります。ログで見えるように、Brave APIにリクエストを送信しました。そして結果が返ってきました。4000億ドルですが、これは絶対に信じられないような金額ですが、正しい答えです。
Archonエージェントは完璧に動作しており、mCPサーバーとしてのArchonをさらに構築し続け、さらにクレイジーなことをしていきます。どんどん良くなっていくでしょう。
ArchonをAI IDEにmCPサーバーとして統合できるようになったので、私の好きなフレームワークで他のエージェントを作成する非常に強力なサブエージェントにするためのアイデアがたくさんあります。Archonのエージェント的なフローを自由に実行でき、AIコーダーがファイルの作成と編集の物流を処理してくれるので、そのことを心配する必要がないのが素晴らしいですね。
説明欄にリンクがあるGitHubのREADMEをチェックして、Archonの将来の計画、少なくともその一部を確認してください。頭の中にはたくさんのアイデアがあります。セルフフィードバックループや、エージェントの作成をより小さなステップに分解すること、ツールライブラリなど、とてつもないアイデアがあります。
もし他の提案がある場合や、貢献したい場合は、ぜひお気軽にどうぞ。Archonはコミュニティドリブンのプロジェクトです。
この動画を楽しんでいただき、AIエージェントとArchonに関するより多くのことを楽しみにしていただけるなら、いいねとチャンネル登録をしていただけると嬉しいです。それでは、次の動画でお会いしましょう。