AIエージェントに関する完全な真実(2024年)

「AIエージェント」というフレーズについて、今、狂ったようなバズが起きています。この動画を作りたいと思った理由は、AIエージェントとは何か、その実際の驚くべき真実について完全な説明を提供したいからです。多くの人々はこれを知らず、このバズワードは少し手に負えなくなっています。そこで、エージェントとは何か、何ができるのか、今日使えるプロジェクトは何か、そして実世界の自律型エージェントアプリケーションの大枠でどこにいるのかを実際に見てみましょう。
AIエージェントとは何かを見る時、この動画をより簡単にするために、単純に定義したいと思います。AIエージェントを簡単に言えば、基本的に高度なAIアシスタントです。それは、あなたがタスクを与え、「hey、自律的にこのタスクを実行してほしい。あなた自身で環境を認識し、特定のツールを使用するか、チームで作業する必要がある」と言うようなものだと考えてください。そして、もちろん、目標を達成することです。
この動画を作っている理由は、ほとんどの人が知らない情報がたくさんあるからです。良い情報もあれば悪い情報もあり、実際のエージェントについての真の説明をお伝えしたいと思います。まず、Andrew NGによるAIエージェンティックワークフローを説明するこのビデオから始めます。これは、特定の目標を達成するために特定のワークフローを使用することを許可されたAIを説明する際に使用される別の用語です。これは、今日のAIの使用方法において重要であり、実際に適用可能なAIエージェンティックワークフローに関して、これまでに見た中で最も重要なコンテンツの一つだと思います。
エージェンティックワークフローとは何でしょうか？多くの人は、大規模言語モデルをゼロショットプロンプティングと呼ばれるものを使って使用することに慣れています。これは、エッセイを書いたり、プロンプトに対する応答を書いたりすることを求めることを意味します。これは、人に「トピックXについてのエッセイを、最初から最後まで一気に、バックスペースを使わずに入力してください」と言うようなものです。このような方法で書くのは難しいにもかかわらず、私はそのように書くことはできませんが、このような方法で書くのは難しいにもかかわらず、LLMはかなりうまくやっています。対照的に、エージェンティックワークフローははるかに反復的です。エッセイの概要を書くように頼み、そして「何か調査が必要ですか？もしそうなら、ウェブを検索して情報を取得し、最初の下書きを書いてください。そして、下書きを読んで改善できるかどうかを確認し、下書きを修正してください」と言うかもしれません。
エージェンティックワークフローでは、AIが考え、調査し、そして修正するという反復的なループが行われ、これによってはるかに良い成果物が生まれます。エージェントを使ってコードを書くことを考えると、今日我々はLLMに「コードを書いて」とプロンプトする傾向がありますが、これは開発者に「最初の文字から最後の文字まで入力して、そのままプログラムを実行してください」と頼むようなものです。
Andrew NGが説明したのは、非エージェンティックワークフローとエージェンティックワークフローの違いでした。彼が言ったように、そして私が繰り返しますが、まず、ChatGPTを使用している多くの人々は、平均的なユーザーにとっては、これがLLMsとの主な経験になるでしょう。そしてそれは完全に問題ありません。しかし、このチャンネルを見ている人であれば、難しいタスクや複雑なタスクを達成しようとしている場合、エージェンティックワークフローから確実に恩恵を受けたいと思うでしょう。タスクを完了するために常に複数のステップを確保したいと思うでしょう。これによって、AIシステムがはるかに高いレベルで動作するようになります。
これを行う理由は、AIの出力を劇的に改善し、実際にはるかに高度な推論を達成できるようにするからです。私の言葉を信じないなら、Andrew NGがGPT-3.5でこれを行い、驚くほどうまくいくのを見てください。しかし、エージェンティックワークフローは、はるかにうまく機能させることもできます。私のチームは、human evalと呼ばれるコーディングベンチマークに基づいたサードパーティのデータを収集しました。human evalは、数年前にOpenAIがリリースした標準的なベンチマークで、このようなコーディングパズルを提供します。非名前をこれに与え、和を返します。これが解決策であることがわかります。GPT-3.5は、評価指標であるpass@kで、ゼロショットプロンプティングで48%正解しました。GPT-4ははるかに優れており、60%または67%の精度です。しかし、GPT-3.5をエージェンティックワークフローで包むと、はるかに良い結果が得られます。そして、GPT-4でもそれは非常にうまくいきます。
私が皆さんに理解してほしいのは、GPT-3.5からGPT-4への大きな改善があったにもかかわらず、その改善は実際にGPT-3.5をエージェンティックワークフローで使用した場合の改善にはるかに及ばないということです。アプリケーションを構築している皆さんにとって、これはエージェンティックワークフローがどれほど有望であるかを示唆しているのかもしれません。
全体として、ベンチマークでも、エージェンティックワークフローを使用すると、ここにあるこれらの小さな異なるドットは基本的に異なるタイプのエージェンティックワークフローを表していますが、ゼロショットは基本的にモデルに一種のプロンプトで問い合わせることを意味し、もちろん、言語エージェント、Tre search、LDB、reflexionなど、LLMにプロンプトを与えてより効果的にするための様々な方法があります。これらはすべて、より良い結果を得るための一種のフィードバックループでLLMをより効果的にするための方法であり、これらは今日試すことができるものです。
もちろん、これらの方法を詳細に説明した論文がありますが、時には非常に難しいものから非常に簡単なものまでさまざまです。例えば、私が本当に皆さんに見せたいと思っているこの最近の論文があります。私はこれが最も興味深い論文の一つだと思います。なぜなら、それが実際に私たちに示したものがあるからです。この論文は「Mixture of Agents」と呼ばれています。AIコミュニティに注目している人であれば、これはあなたのレーダーに現れている論文です。
基本的に、ここにあるのは、異なるAIモデルを使用して、基本的にあなたの応答を何度も洗練させるエージェンティックワークフローです。ここには基本的に3つのレイヤーがあり、非技術的な人々や私自身を含めて、混乱したくない人々のために、3つの異なるLLMシステムを使用していて、基本的に「応答を3回異なる方法で判断し評価してほしい」と言っているように考えてください。
これを、あなたがプロンプトを入力し、3つの異なるLLMエージェントが毎回評価するような競争のように考えてください。ラウンド1、ラウンド2、ラウンド3があります。「Mixture of Agents」が面白そうだと思うかもしれません。3人の審判が毎回プロンプトを洗練し、それが継続的に改善されていきます。しかし、これについて最も良いことは、「Mixture of Agents」とこのエージェンティックワークフローの実際の効果です。
彼らが述べているのは、驚くべきことに、この改善は、他のモデルが提供する補助的な応答が個々のLLMが独立して生成できるものよりも質が低い場合でも発生するということです。基本的に、彼らが述べているのは、「Mixture of Agents」は、組み合わせて話し合っているモデルが初期の大きなモデルよりも賢くない場合でも、ベースモデルを驚くほど改善するものだということです。
ここで見られるように、これらの単一のモデルは、Wizard 13B、22B、Llama 2などの異なるオープンソースモデルです。他のモデルからの応答を使用することで、より多くのパラメータを持ち、より賢いシングルモデルを改善できることがわかります。
この論文には含めるのを忘れたものがありましたが、それは本当に重要です。基本的に、この論文では、オープンソースのLLMsのみを使用した「Mixture of Agents」が、Alpaca Evaluation 2.0のリーダーであると述べています。GPT-4の57.5%に比べて、65.1%のスコアを達成しています。基本的に、OpenAIがGPT-4を持っていて、それを最も賢いモデルとして宣伝していましたが、彼らはGPT-4よりも実質的に劣るオープンソースのLLMsを使用することで、より良いベンチマーク結果と向上した推論能力を得ることができました。
全体として、このエージェンティックワークフローを使用することで、シングルモデルとしてのGPT-4を上回ることができました。これが、エージェンティックワークフローの協調効果が実際に remarkably重要である理由です。
次に、今日実際に使用できるAIエージェントがあります。これはCrew AIと呼ばれる製品です。Crewは、様々なAIエージェントがチームとして効率的に協力し、複雑なタスクを達成できるように設計された協調作業システムです。各エージェントは、研究者、ライター、プランナーで構成されるチームに似た特定の役割を持ちます。Crew AIの主な機能には、各ロボットに明確に定義された役割を提供する役割ベースのエージェントと、エージェントが通信し、タスク情報を共有し、お互いを支援できるようにするチームワーク機能が含まれます。
これは、ローカルで実行でき、多くの人が使用できるツールですが、非技術的なユーザーに教えるのは簡単ではありません。時にはバグがあり、もちろん、実際に遭遇する可能性のある様々な問題があります。一部の人々はこれを使用していますが、Crew AIを実世界のアプリケーションやユースケースに使用している人をあまり見かけません。これが、エージェントの主な問題とは言いませんが、エージェントの主な特徴の一つは、今日使用できる実世界のユースケースがあまりないということです。
私個人的にはCassidy AIを使用しています。なぜなら、コードを使わずに、シンプルなプロンプトで、日常的に使用できるシンプルなエージェンティックワークフローを得る方法をお見せできるからです。例えば、ビジネスアイデアを議論するものを作りました。私のワークフローの入力は、「ビジネスアイデアを議論する」で、その後エージェント1がビジネスアイデアとその強みを考慮し、エージェント2がそれを議論し、そしてもちろんエージェントが結論に至ります。
しかし、「このような全体的なものをどのように構築したのか、このワークフローをどのようにチェーンしたのか、これがどれほど難しかったのか」と思うかもしれません。これが私がCassidy AIを愛する理由です。単に宣伝のためではありません。これは、インスタントでノーコードのエージェンティックワークフローを構築できる、インターネット上で見つけた唯一のものです。
例えば、ここに来て、エージェンティックワークフローが欲しい場合、自分の言葉で簡単に説明できます。「3つのエージェントを利用して私のビジネスアイデアを議論し、長期的にどれが最適かを結論づけるエージェンティックワークフローが欲しい」と言えます。ここで見られるように、「3つのエージェントを利用して私のビジネスアイデアを議論し、長期的にどれが最適で、なぜそうなのかを結論づけるエージェンティックワークフローが欲しい」と言いました。
そして、単に「ワークフローを作成」をクリックするだけです。fancy なコーディングアプリケーションはなく、何かをインストールする必要もありません。ただ1分かかるだけです。これが私がこれを非常に気に入っている理由は、自然言語でこれを使用できるからです。
私がこれについて人々に話している理由は、将来的にはほとんどのソフトウェアアプリケーションがこのように構築されると信じているからです。そして、はい、それは非常にクレイジーに聞こえるかもしれませんが、自然言語でのプロンプティングが上手くなることは決して悪いアイデアではありません。
ここで見られるように、数秒以内にこのエージェンティックワークフローを構築することができました。ここにエージェント1の分析、エージェント2の分析、エージェント3の分析があり、そしてもちろん最終的なエージェントの議論はGPT-4によって行われ、長期的に最適なビジネスアイデアとその理由を提供します。
例えば、このワークフローを今すぐテストすることができます。このワークフローをテストするために、ビジネスアイデアがあります。もちろん、長期的な成功のためにビジネスアイデアを分析します。YouTubeチャンネルのためのビジネスアイデアについて議論しましょう。AIのYouTubeチャンネルがあり、人々がAIを学ぶのを助けるプライベートコミュニティを立ち上げるべきだと考えています。
ここで、私が今やったことを正確にお見せします。AIのYouTubeチャンネルがあり、AGIに備えるために人々が学ぶのを助けるプライベートコミュニティを立ち上げることを考えています。実際にこのコミュニティを持っていますが、これは例として使用しています。しかし、それをするべきか、それともスケアラインを立ち上げるべきか、そしてどちらのビジネスアイデアが最適かを疑問に思っています。
基本的に、今このAIシステムに、AGIコミュニティを立ち上げるべきか、それともスケアラインを立ち上げるべきかを尋ねています。ほとんどの人にとって、答えは明白です。AIに関連するビジネスを立ち上げるべきです。しかし、もちろん特定のケースでは答えがそれほど明白でない可能性があります。そのため、ここでエージェンティックワークフローを使用します。
ここで、エージェント1が問題を分析し、エージェント2が問題を分析し、多くの異なる点を指摘し、エージェント3も問題を分析し、そしてもちろんエージェントの議論があります。市場需要、ブランドの整合性、イノベーション、拡張性などを慎重に考慮した後、結論はここにあります。AGIコミュニティに焦点を当てるべきだと言っています。長期的な成功のための最良のビジネスアイデアは、プライベートAGIコミュニティの準備を立ち上げることのようです。以下の理由に基づいています。そして今、これらの異なるAIエージェンシーのすべての異なる意見があり、非常に迅速にその情報とアドバイスを得ることができます。
これが私がこのソフトウェアを気に入っている理由であり、皆さんにこれについて話している理由です。単に、これによって非技術的な個人がAIエージェントワークフローを即座に構築し、日常的に使用できるようになるからです。
これがCassidy AIでした。もちろん、説明のリンクをクリックして使用することができますが、この動画の残りを見てください。もちろん、続けるべきことがたくさんあります。
では、実際に自律的で、あなたの代わりに物事を行う他のAIエージェントを見てみましょう。もちろん、ここから物事が面白くなり始めます。今日実際に使用できるAIエージェントのいくつかを見てみると、物事が思っているほど良くないことがわかります。
ここにあるのはMulti-onです。Multi-onは、ブラウザで非常に基本的なタスクを実行するために使用できるAIエージェントです。これはLLMベースのエージェントではなく、ウェブをスクレイピングし、多くの異なることを行うことができるエージェントのようなものです。右側に、レストランの予約を行うことができ、特定のことを行うことができるエージェントがあることがわかります。
これらは、最も未来的なエージェントの一種です。なぜなら、実際に現実の世界に出て行き、ユーザーが望む実際のタスクを達成できるからです。今日、これは本当にfancyなデモではありませんが、問題は、Multi-onが何ができるかという点で、それほど多くの使用可能性がないことです。非常にニッチな物事しかできず、その分野であまり進歩を遂げていないように見えます。
Multi-onを批判するためにこれを述べているわけではありません。ただ、後でビデオで見ることになりますが、AIエージェントがいかに難しいかを示すためです。彼らが達成したことは実際に驚くべきものですが、全体的に見ると、AIエージェントがウェブ上を走り回り、クリックして特定のタスクを達成するには根本的な障害があります。
ここでも、これはMulti-onブラウザであることがわかります。基本的にここをクリックすると、チャットボットで見られるように、例えば「Multi-onハッカソンのために6月10日にSFOからNYCへの片道便を予約して」とAIエージェントに尋ねることができます。Googleを使用し、時々それを行うことができることがわかります。これはあなたのAIウェブコパイロットであり、Google検索を実行できることがわかります。
ここで、AIを促して「はい、それは正しいです。先に進んでそれを行ってください」と言うボタンがあることがわかります。時には、これを完全に自律的に行うことができます。これがAIの話題の限界であると言いたいと思います。なぜなら、時々AIは間違いを犯し、それは基本的にMulti-onの fault ではないからです。後でビデオで説明しますが、ここには巨大なインフラの問題があるだけです。これは基本的にAIの未来になるものであり、物事を変えると思います。
もちろん、AIエージェントに関しては、他のものもあります。AIエージェントデバイスもあります。AIエージェントデバイスは少し奇妙です。なぜなら、それらは基本的にハードウェアにラップされたAIアシスタントだからです。
ここにあるのは、おそらく誰もが知っているRabbit R1デバイスです。これは現在、最高のAIエージェントとして称賛されているデバイスです。Jesse Louに敬意を表さなければなりません。彼がこれを作成したとき、非常に高いレベルの精査を受けました。もちろん、非常に正当なものでしたが、ここでのポイントは、このAIエージェントは欠点がないわけではないということです。
このビデオは基本的に、このAIエージェントが非常に多くの異なるタスクを、非常に多くの異なるシナリオで実行することを示しました。唯一の問題は、リリースされたときのこのAIエージェントの現実が、実際にhypeに応えなかったことです。
例えば、ロンドンへの旅行を計画したい場合、R1に私の希望を完全に説明するだけです。「家族をロンドンに連れて行きたいです。大人2人と12歳の子供1人です。1月30日から2月5日を考えています。私のために旅行全体を計画してくれますか？安い直行便、グループ席、クールなSUV、Wi-Fiのある素敵なホテルが好きです」
「あなたの旅行を実現するためのチケットオプションを探索しています。あなたの旅行のために、様々なフライトオプション、選択肢のあるホテル、利用可能なレンタカーを見つけました。詳細と予約のために、各オプションを個別に確認してください」
すべてが計画されました。私は確認、確認、確認するだけです。それだけです。
「そこにいる間に楽しいことをするスケジュールを立ててくれますか？」
「承知しました。あなたの旅行のための詳細な旅行計画を準備しました。概要として、ロンドンの象徴的なランドマークを探索し、美術館を訪れ、地元のレストランで美味しい食事を楽しみ、さまざまな地域の活気ある雰囲気を体験します。ナビゲーションの詳細も準備されており、参加したいイベントのチケット予約もお手伝いできます」
R1が私のために旅行全体を計画してくれました。それは素晴らしいです。でも、これは少し激しすぎるようです。あなたは…
デモ全体を再生するつもりはありません。おそらくRabbit R1については何度も見たことがあるでしょう。先ほど言ったように、R1デバイスの唯一の問題は、初期の批判が非常に多かったことです。ビジネスを始めるなら、もちろんこれに対してオープンでなければなりませんが、これは将来のハードウェアデバイスとしてのAIエージェントがどのようになるかを示すものです。
さて、大企業が実際にAIエージェントを実世界に導入し始めている点に触れる必要があります。Twitterで浮上している質問の1つは、AIエージェントが確実に何かを行っている実世界のユースケースを誰も見つけられないということです。ここにGoogleの最近のデモがあります。彼らは実際に、リアルタイムで顧客の問い合わせを助けることができる顧客サービスエージェントを紹介しています。
「コンサートのためのこのシャツをゲットするのにあと一歩です。店に電話してみましょう」
「こんにちは、サウスラスベガス大通りのシンボルオールドファッションの顧客エージェントです。アマンダさんとお話ししていますか？」
「はい、アマンダです」
「素晴らしいです、ご連絡いただきありがとうございます、アマンダさん。別のデバイスでセッションがあったことが分かりました。ライブチャットコンパニオンへのリンクを含むSMSメッセージをお送りしました。チャットに切り替えたい場合は、そのリンクをクリックしてください。今日はどのようなお手伝いができますか？」
「ファイルに登録されているカートで、カートに入れたシャツを購入したいです」
「承知しました。また、シンボルファッションリワーズのメンバーでもあることが分かります。20%オフのバウチャーが利用可能です。この購入に適用しますか？」
「はい、お願いします。それは素晴らしいです」
「購入されるシャツは、お好みのサイズで店頭受け取り可能なこれらのアイテムともよく合います。これらの中で興味があるものはありますか？」
「絶対に。白いシャツとブーツもカートに追加してください」
「了解しました。合計は23.76ドルです。ファイルに登録されているカードで進めてよろしいですか？」
「はい」
「購入が確認されました。他に何か必要なことはありますか？」
「いいえ、大丈夫です。ありがとうございました」
「シンボルファッションでのお買い物、ありがとうございました。アイテムが5分以内に受け取り可能になったら、テキストメッセージでお知らせします」
「信じられません。5分以内に欲しかったシャツと、それに合う outfit を見つけて注文できました。コンサートの準備ができました」
これが現在Googleが開発しているものです。Googleのエージェントをすべて紹介する、より長いビデオがありますが、他の企業が何をしているかを見てみましょう。
見たことがある主要なデモの1つは、もちろんDevin、主要なソフトウェアエンジニア/エージェントです。これは基本的に、GPT-4の認知能力を活用し、AIソフトウェアエンジニア/エージェントを手に入れることができるようにするGPT-4を中心としたエージェンティックワークフローです。
分かりました。エージェントという用語は使っていませんが、これは基本的にそういうものです。ここにワークフローがあり、プランナー、シェル/ワークスペースがあり、自律的にタスクを実行できることがわかります。
では、実際の様子を見てみましょう。Devonに、いくつかの異なるAPIプロバイダーでllamaのパフォーマンスをベンチマークするように頼むつもりです。これからはDevonが主導権を握ります。まず、Devonは問題に取り組む方法を段階的に計画します。その後、人間のソフトウェアエンジニアが使用するのと同じツールを使用して、プロジェクト全体を構築します。Devonには独自のコマンドライン、独自のコードエディタ、さらには独自のブラウザもあります。この場合、DevonはブラウザーをAPIドキュメントを参照するために使用することを決定し、各APIに接続する方法を学びます。
ここでDevonは予期せぬエラーに遭遇します。Devonは実際にデバッグ用のプリント文を追加し、デバッグ用のプリント文を含むコードを再実行し、そしてログのエラーを使用して最終的に解決方法を見つけ出します。最後に、Devonは完全なスタイリングを施したウェブサイトを可視化として構築し、デプロイすることを決定します。ここでそのウェブサイトを見ることができます。
これらすべてが今日可能なのは、推論と長期的な計画の両方で我々が行ってきた進歩のおかげです。これは非常に難しい問題であり、我々はまだ始まったばかりです。
これがCognition LabsのソフトウェアエージェントDevonでした。他の企業も大きなプロジェクトに取り組んでいます。例えば、OpenAIは複雑なタスクを効果的に自動化するためのエージェントの形態に取り組んでいます。顧客のデバイスを引き継ぐことで、ChatGPTエージェントに文書からスプレッドシートにデータを転送して分析したり、経費報告書を自動的に記入して会計ソフトウェアに入力したりするような要求ができるようになります。そのような要求は、エージェントが人間が異なるアプリを操作する際に行うクリック、カーソル移動、テキスト入力、その他のアクションを実行するきっかけとなります。これは、この取り組みについて知識を持つ人物によると、基本的にOpenAIがあなたのコンピューターを制御し、あなたの仕事を行うエージェントに取り組んでいるということです。
これが基本的に進行中の状況です。後で示すように、これを実現することは非常に難しいため、OpenAIがまだ何かを実際に行っているのを見ていません。しかし、これが彼らが取り組んでいることの本質です。
OpenAIは最近、マルチモーダルAIエージェントへの投資分野を示すこれをリリースしました。「エージェントを可能にすることに引き続き投資します。我々はエージェントの将来に非常に興奮しており、11月のDevDayでそのビジョンについて少し共有しました。エージェントは人間と同じように、これらすべてのモダリティを使用して世界を認識し、相互作用することができるでしょう。そして、ここでマルチモダリティの話が再び登場します。エージェントが複数のAIシステムと協調し、さらにはセキュアにあなたのデータにアクセスし、カレンダーなどを管理することを想像してください。我々はエージェントに非常に興奮しています。
もちろん、Devinはエージェントがどのようなものになるかの素晴らしい例です。Cognition Labsは、あなたと一緒にコーディングできるこの素晴らしいソフトウェアエンジニアを構築しました。彼は複雑なタスクを分解し、実際にオンラインでドキュメントを閲覧し、プルリクエストを提出するなどができます。これは本当にエージェントの未来に期待できるものの一端を示しています。」
もしMetaが何をしているのか気になっているなら、Metaも人間の監督なしでタスクを完了できるAIエージェントを開発しています。内部の投稿によると、これにはGitHub Copilotに似たコーディングとソフトウェア開発を支援するエンジニアリングエージェントが含まれます。その投稿と現在の2人の従業員によると、投稿には収益化エージェントも言及されており、現在の1人の従業員は、これらがMetaのアプリで広告を出す企業を支援するだろうと述べています。これらのエージェントは内部使用と顧客向けの両方になる可能性があると、その従業員は述べています。
基本的に、Metaも同じことに取り組んでいます。また、ImbuまたはImbuと呼ばれる民間企業もAIエージェントに取り組んでおり、最近、この複雑なタスクを行うためのさらなる資金調達のための新たなラウンドを行いました。
「我々はエッセイを書いています。エッセイを生成して提出するだけではありません。それは我々の最高のエッセイが書かれる方法ではありません。我々はエッセイを見直し、批評し、『うーん、このセクションにはさらなる研究が必要だ』と言い、研究を行って戻ってきて書き直します。何かを見て、問題点を推論し、どこで質問する必要があるか、目標は何か、場合によってはアプローチを変更するという反復的なプロセス、これらはすべて、実際に世界で目標を達成するために必要です。
Imbuでは、推論に最適化された大規模な基盤モデルを訓練しています。これらのモデルの上に、我々は自身の研究を加速するために使用するエージェントを構築します。これらは単に何かを出力するだけでなく、反復し、反省し、次に何をすべきかを把握し、そしてその次のステップを実行します。我々はコーディングを行うエージェントから始めています。なぜなら、上手くコーディングするには複雑な推論が必要であり、それが我々が毎日行う仕事だからです。これらのシステムを真剣に使用することでのみ、基礎となる推論モデルをどのように改善するかを本当に深く理解することができます。
我々が試みているのは、実際に、最終的にあらゆる種類のエージェントの上に構築できる信頼できる推論モデルに到達することです。今日、我々はそれに深く関わっているため見えにくいかもしれませんが、AIモデルは最初の電子計算機、つまり単なる計算機のようなものです。もし我々が物事をうまく行えば、今後50年から100年の間に、可能性の爆発的な増加を目にすることになるでしょう。我々はもはや画面に釘付けになる必要がない世界、コンピューターがアイデアと実行の障壁を薄くする手助けをしてくれる世界を手に入れることができます。」
Imbuの後、エージェントの難しさについて話したいと思います。多くの人々がAIエージェントがいつ来るのか疑問に思っていますが、見た目ではAIエージェントは人々が考えているよりもはるかに先になりそうです。これは、AIエージェントの難しさと、それらが近い将来には来ないだろう理由について話すDario Amodeiの最近のクリップです。
「エージェントに世界で行動してもらいたい場合、通常、その行動には一連のアクションが必要です。チャットボットと話すと、それは単に応答し、少しフォローアップするかもしれません。しかし、エージェントの場合、世界や人間との相互作用で何が起こるかを見て、さらにアクションを取る必要があるかもしれません。そのため、長い一連のことを行う必要があり、その長い一連のことが実際に機能するためには、個々のことのエラー率がかなり低くなければなりません。
私がロボットで、『okay、これを拾って向こうに歩いて行って、それを拾う』など、家を建てているとしたら、おそらく何千ものアクションが必要になります。つまり、これらすべてのことから、モデルはより信頼性が高くなる必要があります。なぜなら、個々のステップのエラー率が非常に低くなければならないからです。その一部はスケールから来ると思います。エージェントが本当に機能するには、もう1、2世代のスケールが必要です。」
また、MicrosoftのAI部門の責任者で、元GoogleのDeepMindのリーダーであるMustafa Suleymanも同様のことを述べています。「これらのモデルに長期間にわたって微妙なニュアンスのある指示に従わせるのは、まだかなり難しいです。それができると思いますし、Twitterなどで印象的な cherry-picked例がたくさんありますが、新しい環境で一貫してそれを行わせるのは非常に難しいです。1つではなく2桁の計算量の増加がモデルのトレーニングに必要になると思います。つまり、GPT-5ではなく、むしろGPT-6スケールのモデルです。本当にアクションを取れるシステムができるまでに2年かかると思います。」
これが、先ほど述べたように、Multi-onやImbuのような企業が非常に難しい問題に直面している理由です。はい、エージェントをコーディングしたりすることはできますが、スタートアップの場合、長期的なエージェンティックワークフロー/タスク計画、あるいはこれらのことを将来的に成功裏に行うために必要なものをサポートするために単純にスケールを持っていない多くのこれらの基盤モデルを使用していることを考えると、それを行うのは比較的難しいです。
ここで、彼がエージェントを手に入れる時期としてGPT-6について話しているのが分かります。これは実際に、GPT-6の商標を見ると、さらに裏付けられています。最新の点の1つは、GPT-6が「人工知能エージェントをテストする目的」を持っていると述べていることです。これはGPT-5の商標説明には含まれていません。これは、将来的に、非常に効果的で大規模に機能するエージェントを手に入れるまでに約2年半かかる可能性があるという主張をさらに裏付けています。
これがおそらく最も可能性が高い理由は、考えてみると、そのように大きく、そのように大規模なモデルを訓練できる企業は少数しかなく、エージェント空間で本当に機能する競争ができるからです。これは成長のための非常に興味深い分野になるでしょう。なぜなら、これは非常に難しいことだからです。
「モデルにある一連のアクションを生成するように求める場合、例えば、特定の日にあなたと私が行けるレストランを予約するような3つのことがあるとします。最初のアクションは、私たち両方のカレンダーの空き状況を確認することです。それが正しい機能呼び出しです。正しいタイミングを調整するのが2番目のアクションです。利用可能なレストランであることを確認するのが3番目のチェックです。そして、サインインして正しいツールを使用し、正しい時間に正しいレストランを予約し、クレジットカードの詳細を入力します。もちろん、私たち両方が好きなレストランであることも確認します。
これは4つか5つか6つの異なるステップがあり、それぞれが1つの『アクション』のサブコンポーネントです。これを正しく行うためには、基本的にモデルが各要素に対して完璧な機能呼び出しを生成し、それを順序通りに行う必要があります。それは任意ではなく、順序通りでなければなりません。これは、1つの質問に対して4ページの文書を書くようなもので、その文書は正確にそのドキュメントでなければならず、近似やそのドキュメントに似たものではいけません。
我々は皆、現在これらのモデルが魔法のようだと考えています。美しい詩や創造的なコピーやテキストを書き、良い答えを与え、時には根拠があり、云々。しかし、それらの答えの各々に対して、選択できる正しい答えの範囲が広いとき、10個、100個、おそらく1000個あるかもしれません。それはまだ、出力される各トークンが正確な答えである特定の完璧な答えを生成しているわけではありません。そのレベルの精度を得るには、これらを2桁スケールアップする必要があります。これまでにそうなっています。過去5桁のTransformerは、計算能力とデータが10倍になるごとに、より精密になっています。予想外の能力が出現したというのは間違いです。人々は『予想外の能力が出現して驚いた』と言いますが、それは人間的な投影です。それは驚くべき出現能力ではなく、単にプロンプトと出力の間の正しいマッピングにより精密に注目しているだけです。つまり、より具体的なものに絞り込んでいるだけです。」
「GPT-6に到達する前に、特定のドメインで限定的な形のアクションを得られると思いますか？」
「はい、確かに。今日でもいくつかの良いアクションがあります。これらのオーケストレーターが適切なタイミングで適切なAPI呼び出しを行っているのを確かに見ることができます。問題は、99%の精度でそれを行えるかどうかです。80%の精度で行う場合、5回に1回間違えると、消費者にとって使用できません。」
このクリップを含めた理由は、AIエージェントを様々なシナリオで実際に機能させることがどれほど難しいかを初めて本当に分解して説明しているのを見たからです。
また議論する必要があるのは、もちろん他の企業のエージェントに関する将来のビジョンです。Demis Hassabisが、OpenAIのものよりも少し早く来るだろうと私が考えているAIエージェントに関する彼らのビジョンについて話しています。
「私にとってハイライトは、おそらくProject Astraと呼ばれるものでした。これは、私が普遍的アシスタントまたは普遍的AIエージェントと呼んでいるものがどのようなものになり得るか、そしてそれが日常生活でどのように役立つかについての我々のビジョンです。その主な重要な点は、我々が操作するすべての異なるモダリティとコンテキストにある存在を理解する多モダリティ能力です。これは言語エージェントに欠けていたものだと思います。彼らはあなたがいる空間的コンテキストと環境を理解していませんでした。そのため、彼らの使用は制限されていました。
我々は常に、視覚を通じて、最終的には音声やその他のすべてのセンサーを通じて、あなたの周りの世界を理解できるものというビジョンを持っていました。そのため、我々は最初からマルチモーダルな大規模モデルGeminiを構築しました。これは任意の入力とイベントに対応できる一連のモデルです。これが、おそらく来年か再来年に実現する可能性のあるビジョンだと思います。」
GoogleがGPT-5のタイムラインよりもはるかに短い1年か2年と話しているのが分かります。もちろん、Bill Gatesも最近のインタビューでエージェントについて話しており、それがどのように機能するかについての未来を議論しています。
以前、Bill Gatesのブログ投稿について30分のビデオを作成しました。そこで彼は、AIエージェントが本当にすべてを変えることについて議論しています。約2年半後に、あなたのコンピューター上で長期的にあなたのために物事を行うことができる根本的に異なるエージェントを持つようになると、物事の進み方が本当に変わるでしょう。
「精神療法エージェント、友人エージェント、ガールフレンドエージェント、専門家エージェント、すべて深いAIによって駆動されます。そして、それらがどれだけ私たちについて知っているかに比例して有用になるように見えます。近い将来、おそらく私たち4人全員が、AIアシスタントが実質的に私たちの人生全体を聞くことができるように音声をオンにしたいかどうか尋ねられると想像します。そして、そうすることには利点があると思います。なぜなら、良いアドバイスや助言を得られるからです。あなたはそう思いますか？そして、音声をオンにするよう招待されたとき、あなたはそれをオンにしますか？」
「今日のコンピューターは、私が書くすべてのメールメッセージを見ています。そして確かに、デジタルチャンネルは私のすべてのオンラインミーティングや電話を見ています。つまり、あなたはすでにデジタルシステムに自分自身について多くを開示しています。そう、エージェントの付加価値、つまりそのミーティングを要約したり、フォローアップを手伝ったりする点では素晴らしいでしょう。エージェントは、あなたの情報のどの部分を操作できるかについて異なるモードを持つでしょう。つまり、パーティションがあるでしょうが、基本的にあなたの執行アシスタントエージェントについては、そのパーティションからほとんど何も除外しないでしょう。」
基本的に、Bill Gatesは、あなたのメインAIエージェントには多くの詳細が含まれないと述べています。なぜなら、より多くの詳細を与えれば与えるほど、それはより有用になるからです。
もちろん、NVIDIAのCEOであるJensen Huangが、AIエージェントに関する彼らのビジョンと未来がどのようになるかについて基本的に述べています。これは間違いなく最も洞察に富んだものの1つだと思います。なぜなら、彼は多くのつながりを持っており、彼が持った会話の一部を想像できないからです。
「これらのすべてのAI専門家が今チームとして集まっています。何が起こっているかというと、アプリケーション層が変更されました。以前は指示で書かれていたアプリケーションが、今はAIのチームを組み立てるアプリケーションになっています。プログラムの書き方を知っている人はほとんどいませんが、問題を分解してチームを組み立てる方法をほとんどの人が知っています。私は、将来的にすべての企業が大規模なNIMsのコレクションを持つと信じています。あなたは必要な専門家を呼び出し、それらをチームに接続します。そして、それらをどのように接続するかを正確に把握する必要さえありません。ただ、ミッションをエージェントに、NIMに与えて、誰にタスクを分解し、誰に与えるかを把握させるだけです。そのセントラル、アプリケーションのリーダー、チームのリーダーがタスクを分解し、様々なチームメンバーに与えます。チームメンバーはタスクを実行し、チームリーダーに戻します。チームリーダーはそれについて推論し、あなたに情報を提示します。ちょうど人間のようにです。これは我々の近い将来にあります。」
これはもちろんNVIDIAのエージェントに関する将来のビジョンであり、これは彼が実際にエージェントが職場でどのように協力的になるか、エージェントが他の企業のエージェントとどのように協力するか、そして今日どのようなことを行っているかについて話している別のビデオです。
「今日、ほとんどのAIはワンショットです。何かをプロンプトとして与えると、即座に推奨事項を生成します。将来的には、AIは複数のステップを持つ推論ベースのシステムになるでしょう。我々が様々な複雑なシナリオを計画するのと同じように、それ自体がいくつかの計画を立てるでしょう。つまり、現在のような高速思考AIと、これから登場する複数ステップの推論AIを持つことになります。これらのタイプのAIは、ますますエージェント的になっていくでしょう。あなたもいくつかの初期の例を示しました。ツールを使用するAI、他のAIと協力するAI、特権とアクセス権を持つ情報にアクセスするAIなどです。将来的には、AIは我々の会社の従業員のようになるでしょう。我々の従業員があなたの従業員と協力するのと同じように、我々のAIは他のAIと協力するでしょう。そして、コンサルティングAI、専門家AI、ジェネラリストAIを持つことになるでしょう。」
これは基本的に、存在する種類のAIエージェントと、AIエージェントの全体像に関する包括的なガイドです。
最後に実際にお見せしたいものが1つあります。なぜなら、これは論争を呼ぶ意見ではありませんが、AIエージェントをどのように手に入れるかについての一般の人々の信念に反するものだからです。多くの人々が議論してきた主要な点の1つは、もちろん自律型エージェントです。自律型エージェントは基本的に、自分自身で、かなりの期間、何らかの理由で物事を行うエージェントです。しかし、ここでMustafa Suleymanが、自律型エージェントがそれほど良くない理由を説明しています。
「まず、私は我々が完全に自律的なものへの道を歩んでいるとは思いません。そして実際、それは非常に望ましくないと思います。完全に自律的なものは非常に危険だと思います。私のTEDトークの後、多くの批判を受けました。なぜなら、自律的能力が危険であり、規制されるべきだと言ったからです。しかし、私はそれを気にしません。私はまだそう考えています。客観的に言えば、自分自身の計画を立て、自分自身の目標を設定し、自分自身のリソースを取得し、人間から完全に独立して行動できるAGIは、そうでないものよりも潜在的にリスクが高いでしょう。
私はこれを、自律性の狭い経路のように考えています。特定の目標を与え、特定の環境で行動するための限られた自由度を与えます。例えば、自動的に何かのAPIを呼び出して何かのレジストリをチェックし、情報を観察し、状態を観察し、場合によっては第三者のAPIに何かを書き込むようなことです。これも再び特定の自由度に制限されています。なぜなら、ここでのセキュリティリスクは重大だと思うからです。そう、自律的な部分については慎重に進むべきだと思います。
しかし、アクションの部分については…」
これは基本的に、エージェントでどこまで行けるかについての適切な概要を提供しています。エージェントは、我々が構築されているのを見る最も一般的なものの1つです。以前にも様々な講演者からエージェントについて多く聞いたので、深い概要には立ち入りませんが、高レベルでは、言語モデルを使用して様々な形で外部世界と相互作用することです。
ツールの使用、メモリ、計画、アクションの実行が高レベルの要点です。簡単な形では、LLMをfor loopで実行することと考えることができます。LLMに何をすべきか尋ね、それを実行し、再び何をすべきか尋ね、終了したと判断するまでそれを繰り返します。
今日、開発者が多くの時間を費やし、本当にこのエージェントのアイデアを取り上げて、本番環境に対応し、実世界で使用できるものにしている分野について、私が本当に興奮している領域をいくつか紹介したいと思います。タイトルが示すように、エージェントの未来についてです。
主に3つの点について話したいと思います。これらはすでに何らかの形で触れていますので、素晴らしいまとめになると思います。計画、ユーザー体験、そしてメモリです。
計画については、Andrewが彼のトークで非常にうまくカバーしました。基本的な考え方は、LLMをfor loopで実行することを考えると、多くの場合、複数のステップを取る必要があり、for loopで実行する際に、次の最良のステップが何かについて暗黙的に推論し、計画するよう求めていることです。観察を見て、そこから再開し、その後の次の最良のステップが何かを考えます。現時点では、言語モデルはそれを確実に行うのに十分に優れていません。そのため、外部の論文や外部のプロンプト戦略が、何らかの方法で計画を強制しているのをよく見かけます。これは、最初に明示的に計画のステップを立てたり、すべてを正しく行ったかどうかを確認するために最後に反省のステップを行ったりするものかもしれません。
将来を考える上で興味深いのは、これらの種類のプロンプト戦略やアーキテクチャが開発者が構築し続けるものなのか、それともSamが少し話したように、モデルAPIに組み込まれるようになるのかということです。これが私にとって非常に興味深かった理由は、これらの論文が本質的に「思考の木」であり、AIがより良く考えるようにするものだからです。反省は基本的に、AIに自分の思考を振り返らせるものです。例えば、何かを書き出した後、「あなたは今これを書きました。これについてどう思いますか？どのように改善できますか？」と言うようなものです。これは今でもできることです。
基本的に、彼はここで、将来のモデルにはこれらのシステムが実際のモデルに組み込まれている可能性があると述べています。つまり、AIにそれを行うようにプロンプトする必要がなくなります。これは、将来的に推論能力をどのように向上させるかについて、本当に興味深いものになるでしょう。
さらにビデオでは、ユーザーインターフェースについて話しています。ユーザーインターフェースはかなり素晴らしくなるでしょう。もちろん、彼はDevinについて話しています。これが、このビデオでDevinが何度も取り上げられる理由について私が話した理由です。
これは本質的に、提案されたAlpha Codiumフローです。これは、より良いコーディング結果を得るための新しいワークフローです。彼が
ここで話しているのは、これが以前とは異なる、この本質的なワークフローでより多くの結果をもたらす新しいエージェンティックワークフローだということです。
そして、もちろん、彼は将来のエージェントがメモリを持つことについて話しています。これもまた、かなりクレイジーなワークフローでした。
この別の側面は、基本的にフローエンジニアリングの重要性です。この用語は、Alpha Codiumという論文から出てきました。これは基本的に、より優れたモデルやより優れたプロンプト戦略ではなく、より優れたフローエンジニアリングを通じて、最先端のコーディングパフォーマンスを達成します。つまり、明示的にこのようなグラフや状態機械のようなものを設計することです。
これを考える一つの方法は、実際に何をすべきかの計画を、最初にそれを行う人間のエンジニアにオフロードしているということです。つまり、それを少し頼りにしているのです。
基本的に、彼らが言っているのは、AIにどのように考えさせるか、最も効率的なコードを生成するためにどのようなステップを取るのが最良かということです。ここに10のステップがあります。ステップ1、2、3、4、5、6、7、8、9、10と、最終的な解決策を生成する前に10のステップがあります。
異なるステップと、ベースモデルとの異なる相互作用の方法が、能力をどのように向上させることができるかは本当に興味深いです。これが、多くの人々がこれらの将来のモデルがはるかに優れたものになると考える理由です。
この動画についてどう思ったか、エージェントのタイムラインを更新したか、AIエージェントが根本的に何であり、何ができるかを理解するのに役立ったかを教えてください。AIエージェントについては多くの情報があり、このAIエージェント、あのAIエージェントと言われていますが、私はただ、我々が見ている物事について空気を清めたかったのです。多くのハイプがありますが、同時に多くの実質的なものもあります。しかし、この2つを区別し、将来何が来るかを理解することが重要だと思います。