モデル・コンテキスト・プロトコル | ブレインストーム エピソード84

8,122 文字

The Model Context Protocol | The Brainstorm EP 84
In this episode, Sam and Nick discuss the Model Context Protocol (MCP), its significance in AI development, and its impl...

ブレインストームのエピソード84へようこそ。フランクが私たちとMCPについて話し合うために来てくれました。MCPはマーベル・シネマティック…冗談です。フランク、MCPって何ですか?
「MCPはModel Context Protocolの略です。2024年11月にAnthropicによってリリースされ、開発者の間で着実に注目を集めています。多くの人がXで話題にしていますね。先週、OpenAIがChatGPT内でのサポートを開始すると発表したので、ようやく話し合うのに良い機会だと思いました。基本的には、AIアプリケーションがインターネット上のサービスと通信できるようにするコミュニケーションプロトコルです。それは単なるインターネット検索からデータベース、ツール全般まで様々なものがあり、基本的にはLLMをより強力にするための統合フレームワークです。」
今日あるものとどう違うのでしょうか?
「MCPがなければ、AIアプリケーションを拡張したい場合、当初のLLM API登場時(OpenAIの2022年のGPT-3.5 APIなど)はカスタム統合を構築する必要がありました。LLMがウェブAPIと通信してデータベースをクエリしたい場合、モデルにコードを出力させて、それを抽出して開発環境でそのAPIにクエリを実行し、結果をモデルにフィードバックするといった複雑な処理が必要でした。これは構築が非常に複雑で時間がかかり、AIアプリを構築する開発者は統合するサービスごとにこれを行う必要がありました。
その世界と現在の間の中間点は、実はOpenAIのカスタムGPTでした。これは約1年半前かもう少し前に出てきたものです。彼らはLLMアプリケーションにツールを統合しやすくしましたが、それはChatGPTアプリ専用で、ChatGPTアプリにデプロイするためのカスタムGPTを作成する人々向けでした。AnthropicがMCPで作ったのは基本的にそれと同じですが、完全にオープンソースなので、誰でもMCPサーバーと呼ばれるものを構築して、サードパーティAPIやウェブサービスとMCPをサポートするように構築されたAIアプリケーションとの統合を容易にすることができます。」
これはエージェントAIの未来にどのように位置づけられるのでしょうか?聞いていると、AIがワールドワイドウェブに出て行って、様々なウェブインターフェースを理解するのは難しかったので、今私たちは人間が過去20年以上にわたって操作してきたものとAIがより簡単に相互作用できるようにデータを再構成・構造化しているような印象を受けます。そしてそれがエージェントAIの次のレベルへの到達にどう役立つのでしょうか?
「そうですね、あなたが仕事をするとき、様々なツールを使いますよね。多くのツールはコンピュータを通じてアクセスし、Googleやperplexityなどのインターネット上のもの、あるいはファイルシステム上のファイルを操作するなど、あなたの仕事の文脈で存在する様々なツールがあります。MCPはそれらのツールを簡単に持ち込み、モデルに与えることでモデルがそれらのツールと対話できるようにします。」
あなたの説明を聞いていると、抽象化のレイヤーを取り除いているような感じですね。つまり、私たちはどのようにインターネットを使うかと言えば、人間であるため、マウスとキーボードを使ってウェブサイト上のグラフィックスやユーザーインターフェースが必要です。そしてMCPを使ったLLMでは、「その抽象化レベルを忘れよう、これはデータベースだ、インターネット上に何があるかわかっている、ここにAPIがある」というような感じで、人間のようにコンピュータを使えるエージェントを作る段階を経ることなく、「あなたはコンピュータだ、あなたは別のコンピュータと話している、コンピュータのように話せ」と言っているのではないでしょうか。
「ある意味ではその通りです。ただ、それは抽象化レイヤーにもなり得ます。ツールの1つがコンピュータの使用やブラウザの制御である可能性もあります。どちらも存在し得ると思います。非常に一般化されたものですから。あなたの指摘通り、何かのAPIが存在する場合、必要なデータを得るためにウェブサイトにアクセスしてクリックするよりも、APIを利用する方がはるかに効率的な場合が多いです。例えば、CoinMarketCap.comには全ての暗号通貨トークンの現在の価格があります。LLMに全ての暗号通貨トークンの現在の価格を把握させたいなら、毎回そのウェブサイトをリアルタイムでスクレイピングさせることもできますが、それには時間がかかりエラーが発生しやすいです。あるいは、CoinMarketCap APIに行って「全てのトークンを取得する」と言わせる方がはるかに効率的です。」
MCPが提供する「コンピュータをコンピュータのように使う」方法と比べて、大規模言語モデルをトレーニングして人間のようにコンピュータを使わせる方が効率的な例はどのようなものでしょうか?MCPははるかに効率的に思えますが、そうでない例はありますか?
「MCPは、AIに提供するサービスやツールとして、『人間のようにコンピュータを使う』こともできます。つまり、APIと通信するか、人間のようにコンピュータを使うか、どちらを行うにしてもインターフェースになります。例えば、AnthropicのComputer Useモデルを呼び出してそれを行わせることもできます。基本的にはLLMの拡張性と考えてください。
ウェブAPIではなくComputer Useを使いたい例としては、ウェブAPIが存在しない場合です。OpenAIのOperatorのような例で、オープンウェブを使ってOpenTableで予約を取ったり、Google Flightsを閲覧してフライトデータを取得したりするようなタスクを実行したい場合、利用可能なAPIがなければオープンウェブを使わざるを得ません。つまり、高性能なコンピュータ言語があればそれを使い、なければ(それはオンラインでできることのx%かもしれませんが)残りの80%は従来の人間のようなナビゲーションになります。」
「ウェブAPI」と「ウェブサイト」の違いは何でしょうか?
「伝統的に、人々は人間が利用するためにウェブサイトを構築し、APIは機械がインターネットからコンテンツを消費しやすくするためのものです。ウェブサイトと開発者APIの両方を構築するには労力が必要で、すべてのサービスが両方のための作業をしているわけではありません。」
でもVibe codingがあれば、私たちはエージェントにこれらすべてをコーディングさせることができますよね?将来的に、これはどのような方向に進むと思いますか?
「実際、AnthropicはMCPをリリースした際、彼らのClaude(ChatGPTバージョン)がMCPサーバーの作成に優れていると話していました。つまり、エージェントがエージェントやツールと通信し、MCPを使用し、さらに新しいツールや新しいMCPサーバーの作成を支援して、それらのツールと対話し、新しいAIアプリを作成するというようなことが可能になります。AIはこれらすべてを強化しています。」
私たちは深いウサギの穴の中にいますね。これは新しいインターネットの配管のようなものになり、消費者は詳細を知ることはないでしょうが、最終的にはこれがすべてが動作する仕組みになるのでしょうね。
「そう思います。例えば、ClaudeやChatGPTの初期バージョンではウェブ検索ができず、アプリの主要開発者がウェブ検索機能を有効にするのを待たなければなりませんでした。AnthropicはMCPで数週間前にようやくそれを実現しました。Apple社が優れた株価アプリを作るのを待つのではなく、Robinhoodをダウンロードできるようなものです。MCPは基本的に拡張可能なものです。アプリストアというわけではありませんが、Google Chromeのブラウザエクステンションのようなものですよね。LLM用のブラウザエクステンションのようなものです。」
これは異なるプロバイダーやLLM間で実際に普及した最初のものなのですか?あるいは、なぜこれが他のすべてのものに比べて意味があるのでしょうか?
「最初とは言えないかもしれませんが、共有された非常に人気のあるもののひとつです。例えば、OpenAIが最初のGPT APIを作成したとき、彼らはそれをChat Completions APIと呼び、すぐに標準になりました。同じPythonライブラリを使って、変数を切り替えるだけでOpenAIのGPT-4かAnthropicのClaude 3.5 Sonnetと通信するかを変更できます。これはすでにコミュニティが合わせた標準です。
LangChainも例えば、シーケンシャルタスクを持つエージェントを構築したり、異なる時点で異なるモデルを使用したりするための人気のライブラリです。MCPは新しいものですが、勢いを増しており、使用され続けると思います。OpenAIが彼らのフロントエンドにこれを追加することは注目に値します。彼らはカスタムGPTという、MCPサーバーの独自バージョンを持っていたにもかかわらずです。」
では誰が勝者なのか、あるいはこれの意味するところは何でしょうか?ニックが言うように、これは単に誰にとっても良い公共の便益なのか、それともClaudeがMCPの作成に優れているというAnthropicにとって良いことなのでしょうか?
「どの一社にとっても良いというよりは、公共の利益だと言えます。これはLLM用のHTTPのような、オープンプロトコルです。業界の能力向上のペースを加速させるという点で、みんなにとって良いことです。なぜなら、構築しているAIアプリの機能を拡張するのがはるかに簡単になるからです。それはChatGPTやClaude、Grokなどのチャットアシスタントやエージェントだけでなく(XAIはまだサポートを発表していませんが、その可能性もあります)、CursorやReplitのようなAIコーディングアシスタントにも適用できます。
例えば「開発環境内のコーディングエージェントがウェブを検索したり、ファイルシステムにアクセスしたり、データベースやコードドキュメントの知識リポジトリを検索したりできるようにしたい」と言えます。多くのことに一般的に使用でき、AI開発を加速させます。」
今週の他のAIニュースとして、Llama 4に関して少し論争がありましたね。Metaのチームで働いていた関係者によると、今月末に開催される初のMetaのAIイベント「LamaCon」に向けて、ベンチマークパフォーマンスの内部目標を達成するのに苦戦していたようです。疑いとしては(真実かどうかはわかりませんが)、ベンチマークでより良い成績を出すために、トレーニングデータが基本的にモデルに流し込まれていたという理由で何人かが辞職したと言われています。
「テストでのカンニングですね」
そう、いくつかのMeta従業員がそう非難しています。彼らは停滞しているのに、一方ではTwitterの投稿で2027年にAGIとスーパーインテリジェンスの到来だと言われているという状況です。これをどう解釈すべきでしょうか?
「良い質問です。業界の着実な進歩のペースを見ることができますが、どの時点でも企業が遅れをとったり、先行したりする可能性があります。Metaは特にLlama 2、そしてLlama 3で、オープンソースのパフォーマンスのフロンティアでした。しかし今や中国のDeepSeekというより高性能なモデルを持つ競合がオープンソースを追求しています。また、一般的な消費者アプリの採用面では、XAIがGrockという専用アプリを出し、ChatGPT以外で最も急速に成長しているアプリケーションとなっています。
彼らは異なる立場に置かれていると感じているかもしれませんが、特にモデルのパフォーマンス面でのこれらの変化はステップ関数的なものになり得ます。つまり、彼らが遅れをとっているように見えても、新しい研究のブレークスルーがあればすぐにトップに躍り出る可能性があります。短期的にリーダーボードがどう見えるかを予測するのは難しいですが、消費者の採用という点では、これらのスタンドアロンアプリとMeta.aiの相対的な関係が見えてきます。Meta.aiは広く使われていませんが、Zuckerbergによれば、彼らのアプリプラットフォーム全体で7億のMAUがあるとのことです。その中にどれだけの人がInstagramで何かを検索しようとして誤ってMeta AIに質問しているのか疑問ですが…」
それは少なくともInstagramではネイティブ検索に組み込まれていますからね。Meta AIに問い合わせるつもりがなく、単にInstagramのネイティブ検索をしたかっただけというケースがあるかもしれません。私も何度かそういう経験がありました。
「非難するわけではありませんが、彼らは7億近くのMAUを持っており、その数字はかなり確かだと思いますが、確かにそういうことも起こっているでしょう。ただ、まだベンチマークに反対の立場は変わらないと思います。なぜなら、それは消費者側の使いやすさを本当に示していないと思うからです。つまり、これらのベンチマークでより良い成績を出したとしても、最終的にはそれがこれらのサービスが勝利する理由にはならないと思います。もしパフォーマンスのギャップが狭まり、Chatbot Arenaで毎回数ポイント上昇しているだけなら、それは本当に違いを生むのでしょうか?わかりません。」
OpenAIと最近のスタジオジブリ(そう発音するのかな?)との出来事を見てみましょう。それは本当に写真側のパフォーマンス向上だったのかもしれませんが、「ベンチマークでより良い成績を出した」と言うよりも、有機的に起こり、現象になったようなウイルス的な瞬間でした。ニックにとって、それは「雰囲気」ですよね?
「消費者側では確かに雰囲気の要素がありますよね」
「そして、それはある種のステップ関数的な変化です。画像生成と指示に従って画像を生成する能力のパフォーマンスの連続体があるとすれば、彼らはこの新しいものでウイルス的なミームを作り出せるほど、億単位の人々によって再現可能なほど信頼性の高いレベルに達したということです。」
でも能力としては、テキストを理解し、画像に正確にテキストを配置できるということではなかったと思います。それは本当に、誰もがその特定のバージョンの写真生成、つまりそのスタイルのアニメーションを行っているという時間の一瞬であり、今もある程度続いています。正直言って、私はその用語を本当に知っていたわけではなく、認めたくない人も多いと思いますが、多くの人にとっても初めて聞く言葉だったはずです。サム・アルトマンのあの一つの投稿が、大規模言語モデルのコミュニティと使用法の中で、この信じられないほどウイルス的な瞬間を引き起こしたのです。繰り返しになりますが、これはベンチマークでは捉えられないものであり、だからこそ明らかにベンチマークは重要ですが、ある時点で別のものになり、マーケティングや配信の問題になると思います。
ニック、フランクが指摘した点について聞きたいのですが、あなたはまだPerplexityを使っていますか?
「はい、使っています。私のホーム画面に直接あります。まだGrokのスタンドアロンアプリはダウンロードしていません。Perplexity Proを持っているので使っています。検索機能に関しては、2週間前やGrok以前と比べて悪くなっていないと思います。まだ私のニーズを満たしています。」
面白いですね。通常、Xのウィンドウを開いているので、コンピュータではなく携帯でGrokを使うということですか?
「日中仕事をするときは通常コンピュータを使っています」
ああ、仕事時間外の話ですね。これは非常に多次元的なレースだと思います。消費者側の要素と消費者の採用を促進する力学、企業の展開(例えばOpenの深層研究など非常に詳細な研究レポートを作成するもの)、そしてハードウェア対ソフトウェアの要素もあります。その点でMetaはまだリードしていると言えるでしょう。具体的な数字はわかりませんが、Meta Raybanグラスで最も広く採用されている消費者向けAI専用デバイスを持っています。
また、他のどのアプリケーションよりもおそらく携帯で多く使うアプリケーションもあります。多くの消費者にとって、少なくともソーシャルメディアの使用では、おそらくTikTokが1位でInstagramが2位です。Metaのアプローチが「この1日30分から1時間使うアプリに直接、ショッピング検索やすべての機能を組み込む」というものなら、それがスーパーアプリやすべてを含むアプリへの道筋です。彼らの考えは「あなたはすでにInstagramで多くの時間を費やしている、そこにネイティブ検索を組み込むだけでいい」というものだと思います。
ショッピングについてはどう思いますか?エージェントに何かを買いに行かせる能力は?
「アマゾンですね。実は話していませんでしたが、それは非常に大きなニュースでした。アマゾンが現在、他のマーケットプレイスや店舗を直接アマゾン上で検索できるようにし、ネイティブなワンクリックで支払いを処理し、他のウェブサイトやマーケットプレイスであなたの情報をすべて入力してくれるようになったことです。これは「もしアマゾンがすでに私のデフォルトのマーケットプレイスで、大部分の購入がそこで行われている場合、アマゾンで見つからないか、どこか他の場所でより良い価格が見つかったけれど、アマゾンにすべて保存されているのに比べて、フォームに記入するのに時間がかかるような追加の購入」をアマゾンが引き継げるなら、私はアマゾンがその分野で間違いなくリーダーになり得ると思います。」
「それについて考えたのは、マイクロソフトが先週Co-pilotイベントを開催し、少し混乱していますが、消費者向けCo-pilotアプリとビジネス製品に同じブランド名を使っているようです。そしてCo-pilotショッピングを発表しました。マイクロソフトがこれをうまくやるとは想像できませんが、それは基本的に同じ意図ですよね。」
「企業が今日置かれている場所と、消費者にすでに提供しているものについて考える必要があります。AIを使用してリードを自然に拡大したり、あなたがすでに彼らと行っていることを補完または向上させることができれば、彼らは勝つはずです。」
「彼らにとっては失うべきものなのですね」
「その通りですね」
「全て間違っていて、最高のエージェントショッピングを構築する新しいスタートアップが出てきて、MCPを通じて誰でも接続できるようになるかもしれません」
「それも可能性はありますが、物理的なインフラストラクチャが必要な理由や、ショッピングに関わる多くの異なるコンポーネントについて、AIが必ずしもサービスしないか、または旅の最前線に過ぎないようなことについて、さらに数時間話し合うこともできます。」
「私はマーケットプレイスのアグリゲーターのようなもの、つまりアグリゲーターについてもっと考えています。」
「よし、これは良い考察のブレインストームでした。ここで終わりにしましょう。エージェントの未来のための配管が構築されています。やったね!」
「やったー!みなさんありがとうございました」

コメント

タイトルとURLをコピーしました