「Manus」の核心と$20,000のOpenAI？

11,373 文字

https://www.youtube.com/watch?v=gG1WG8mzw2o

こんにちは、コミュニティの皆さん。今日も見ていただき嬉しいです。今日は、AI分野における次の大きなことについて話します。なぜこのビデオを作ったのかというと、124本のAI研究論文を調べた結果、この特定のトピックに決めました。私がこれを次の大きなことだと考える理由は、Deep ResearchやGYASのような素晴らしい27Bのオープンな多言語・マルチモーダルのビジョン言語モデルを思い浮かべてください。専用のツールや関数呼び出しの特殊トークンがなくても、指示コードに注意すれば関数呼び出しができます。
ここではPhil Schmidtのガイドに従っています。Gemma 327Bのための関数呼び出しガイドを強くお勧めします。Phil SchmidtのGitHubリポジトリにPythonノートブックがあり、すべてが説明されています。ネット上で使いたい場合はこちらを、ローカルでAMMAと一緒に使いたい場合はこちらを使用できます。興味深いのは指示に従う部分です。AIに「各ターンで関数を呼び出すことを決めたら、特殊トークンに入れてください」と伝えます。推論部分の前に好きなPythonコードを書くことができ、生成されたコードは読みやすく、効率的で、美しく、AMへの応答は特殊トークンでラップされます。これを使って他のツールを呼び出したり、役立つフレンドリーな応答を生成したりします。
そして「ツールを使用する際には、それがどのように使われるべきかをステップバイステップで考えてください」と言います。これで最新のモデルと統合し、外部ツールの使い方や使用範囲について深い推論を持たせることができます。でも「これはコードだ」と思うかもしれませんね。そう、構造化パターンがあるということです。構造化パターンの検出と生成に特化した機械学習モデルがあることを知っています。なぜこれを次の段階に統合しないのでしょうか？
別の視点からすると、O3、O1、R1、L1、S1など、テスト時スケーリングが進んだ美しい推論モデルがあります。最も単純なケースでは線形チェーンのSORD（Sequence of Reasoning and Decision）を使い、もう少し高度になると推論パターンに非線形グラフ構造を使います。ここで「コードLLMにアクセスがあり、Python検証コードや仮想実験、あるいは好きな言語で引数を解決する必要がある」と言うだけです。結果を推論のために戻し、さらなる決定に使用します。例えば、特定の物体の体積を計算するなど、推論プロセスに役立つ数値結果や最新の金融データを得ることができます。
これは私たちが「ツール使用」と呼んでいるものです。特定のツールに特定の機能があるかどうかは関係ありません。それはツール使用です。このビデオを開いて、これをどのようにコード化できるか見てみましょう。今日の論文では「エージェントモデル」について話しています。この用語には満足していませんが、気にしないでください。アクションのチェーンとその生成、外部ツールをいつどのように使用するかの決定があり、AIがこれを決定しています。
用語を見ると、すべてのエージェントには、ルールベースのエージェントでなければ、インテリジェントなコアがあります。AIエージェントにはLLMやVMなどがあります。エージェントの定義に本質的にモデルがコアとして組み込まれているエージェントモデルと言えば良いでしょう。この出版物に従いますが、これを「大規模アクション」または「エージェントモデル」と呼びたいと思います。後でもっと詳しく説明します。
コアは何かというと、推論のチェーンがあり、環境との相互作用であるアクションのチェーンを取り入れる必要があります。「コード実験を書く必要がある」「物理実験、化学実験、材料科学実験、金融最適化のためにスーパーコンピューターで数値シミュレーションを実行するC++プログラムを書く必要がある」と決定します。エージェントでは「これは私たちが知っているタスク計画であり、エージェントの能力である」と言います。ツール使用は1年前からエージェントが行っていました。
今、これらを組み合わせています。O3やDeep Seek O1のような大規模推論モデルがあり、タスク計画の能力を内部的に分析し、線形的なケースではSORDのチェーンを生成します。これらのシステムをさらに強化し、環境とどのように相互作用するか、どのツールを書く、活性化する、接続する、利用するかを決定し、人間の介入なしに推論を続けるアクションチェーンを加えます。これは推論モデルからエージェントモデルへの移行と言えるでしょう。
現在のエージェンティックワークフローとの違いは何でしょうか？現在のエージェントシステムでは、線形SORT構造とアクション構造の間の相互作用をシミュレートするためにプロンプトベースの方法に依存しています。新しいアイデアは「AIがあるのに、なぜテンプレートを書いたりSORD構造を書き直したりする必要があるのか？AIが最適な構成を見つけることができる」というものです。これは最適化問題であり、次世代の自律的なDeep Researchに使用します。OpenAIが言及した月額$20,000のエージェント、これが私たちが話しているものです。
天才の火花が必要です。最も簡単なケースを示すと、以前は古いチャットボットのアイデアがあり、人間が話したり、電話で03モデルに入力したり、話したりしていました。そして03のような推論モデルがあり、1分、2分、15分待つ必要がありました。なぜなら、これは遅い同期、モード2同期で、テスト時間の計算スケーリングや推論計算スケーリングがあり、モデルはあなたの特定のプロンプトに対して解決策を考えるのに時間がかかりました。
最新のステップでは、モデルがツールを生成し、仮想環境を実行するコードを生成し、仮想決定モデルを実行し、仮想の数学的金融計算モデルを実行し、環境と相互作用して戻ってくることができると言います。以前は2〜5分待っていたのが、今では3〜7分待つということになります。
今日の論文には美しい定義があるので、お見せしなければなりません。彼らは「エンハンスドモデル」という用語を定義しています。推論モデルに基づいて構築された生成モデルで、エンドツーエンドのタスク指向、ツール強化トレーニングを通じて強化されています。これは、各アクションが外部環境と相互作用するためのツールを呼び出す、絡み合った推論（またはSのチェーン）とアクションステップのチェーンのシーケンスを生成することを意味します。素晴らしく、絶対に美しいアイデアです。
前回のビデオで少し数学的なAIについて見た方は、この特定のエージェントモデルの推論が標準的な理解では簡単に部分観測可能なマルコフ決定プロセスであることをご存知でしょう。状態は単に初期環境状態、タスクコンテキスト、これまでにモデルから発せられたトークンと環境からの応答を組み合わせた1からnまでの生成されたシーケンスのパラメータで定義されます。
トークンに焦点を当てると、今日の練習は非常に単純になります。自己回帰計算の数学的スキームに複雑さを追加するだけです。自己回帰システムのアクションは、この部分的に観測可能なマルコフ決定プロセスでは、次のトークンを生成することに過ぎません。前回のビデオからご存知のように、pietaはポリシーモデル、関数Theaによってパラメータ化されたポリシーに過ぎません。
各ステップで特定のポリシーがあり、このポリシーモデルは次のようなタイプのトークンを生成できます。一つ目は考えるトークン、すでに持っているSORDのチェーンです。もちろん、推論プロセス内のトークンである各サブIで生成された推論シーケンスがあります。もう一つのタイプのトークンとして、アクショントークンがあります。ニューラルネットワークにとって、それがどんな種類のものかは実際には重要ではなく、それをどう扱うかを伝えるだけです。
アクショントークンは環境と相互作用するツールを呼び出し、アクションチェーンに貢献します。このトークンはSORDからアクションへの移行を示し、いつアクションを行うかを決定します。これはもちろんトレーニングデータで学習されます。このトークンに続いて、モデルは内部的にアクションタイプ（例：インターネット検索）、アクションパラメータ（詳細な検索クエリ）、アクション実行による応答を生成または環境から取得します。
古いReactモデルからわかるように、環境応答はOであり、これで最終トークンの新しい答えを生成できます。特別なトークンである回答トークンは、タスクの完了または事前定義された予算を超えたことによる終了を示す最終応答の出力です。コアアイデアは明確です。トークンと一緒に作業し、古典的なエージェンティックワークフローやエージェンティックシステムを続けず、外部プロンプト最適化やソートスクリプト、ソートテンプレートなどに依存せず、これらのツールをいつどのように使用するかを定義する相互作用を管理する必要はありません。AIやエージェントモデルがツール使用のロジックを学習した行動の一部として内部化し、ある種の演繹を行うことを望んでいます。スクリプトはもう必要なく、事前定義されたプロンプト構造もなく、システムに自律的に学習させましょう。
少し混乱しているので短く中断します。研究者たちは共通の表記にこだわっていないようです。LLMは大規模言語モデル、REALMはビジョン言語モデル、VLAMはビジョン言語アクションモデル、FMは基盤モデル、RMは元々推論モデルでした。これはテスト時間計算スケーリング、推論計算で2〜5分待つもので、元々はO1、O3、O1だけでした。しかしO1の蒸留を行い、小さな推論モデルに移行し、推論モデルは巨大でサイズが大きいため、大規模推論モデルに切り替わりました。以前のRMが今では大規模推論モデルであり、このアクションでLAMBを持っています。大規模アクションモデルと思うかもしれませんが、すでにビジョン言語アクションモデルがあります。研究者たちはこれを大規模エージェントモデルと呼ぶことにしました。
少し混乱していますが、各ビデオ、各出版物で、アメリカの友人や中国の友人、または世界の他の場所の友人たちが、一種独自の表記を使用しています。特定のシステムについて話し、略語を使用する場合、正確に何について話しているかわかるように示す必要があります。
明確にするために、大規模推論モデルはSORDの線形チェーンを持ち、後にグラフ構造、SORDのグラフに発展しました。今日のビデオでは、このSORDチェーン能力を持つ大規模推論モデルについて話し、環境へのインターフェースであるアクションチェーンで補完します。この新しいモデルは、この論文の著者によって大規模エージェントモデルと定義されています。私にとっては、なぜこれがエージェントであるべきかを理解するのに問題がありましたが、アクションは常に環境との相互作用であり、環境は定義上エージェントを定義するので、これが大規模エージェントモデルであることを思い出しました。
大規模エージェントモデルでは、Pythonコードを生成し、思考のチェーン、アクションのチェーン、アクションタイプを生成し、マッピングし、ツールを呼び出し、応答を取得し、答えを生成します。興味深いのは、このエージェントモデルをどのようにトレーニングするかです。新しいマーケティング用語「オートコア」、自動アクションチェーンがあります。重要なのは、教師あり微調整と強化学習の2段階があることです。
これら2つの段階を詳しく見てみましょう。LAMBに使用するポリシーモデルは、内部ワールドモデルを開発します。これはロボティクスからよく知られていることです。環境と相互作用するロボットは、単純化されたワールドモデル、内部ワールドモデルに現実をシミュレートします。これが今から構築しようとしているものです。このワールドモデルは特定のタスクを持っています。このモデルは環境と環境による可能な応答を理解し、それに対応する方法をトレーニングする必要があります。これは外部世界の仮想シミュレーションであり、システムがこの仮想サンドボックスで自分自身の応答方法をトレーニングする方法です。したがって、現実世界モデルの良好な仮想サンドボックスモデルを持つ必要があります。
最初のステップはもちろん教師あり微調整ステージ、古典的なものです。興味深いことに、3つの異なる教師あり微調整ステージがあり、各ステージには特定のデータセットと特定のタスクがあり、システムが特別なことを学習します。最初のステップでは、いつアクションを行うか、いつ外部ツールの使用を開始するかを自律的に決定するようモデルに教えます。これらのトレーニングデータセットについては後で詳しく説明します。
2番目のステップでは、アクションタイプと特定のパラメータを決定することを含む、アクション自体の方法をモデルに教えます。そして最後に、アクションと一緒に環境応答を予測するようモデルをトレーニングします。アクション生成と観察予測を共同で最適化し、ポリシーモデルに暗黙的なワールドモデルを装備します。これには、このLAMBで解決したい複雑さに関する多くのトレーニングデータが必要です。
次に、強化学習、アライメントがあります。2段階あり、最初は内部ワールドモデルであるシミュレートされた環境についてで、2番目は仮想サンドボックスで検証され計画された実際の環境との相互作用です。特定のデータセットを使用します。アクションを展開した後、ポリシーモデル自体は教師あり微調整から学習した内部ワールドモデルを活用して観察を生成し続けます。これにより、多様なアクションシーケンスを探索するための広範なサンプリングが可能になります。何も起こらない安価な仮想空間で実験を試行し実行します。そしてトレーニング後、学習後、実際の環境に移行します。モデルは実際の環境と相互作用して観察を受け取り、その理論的推論を検証する必要があるからです。
素晴らしい研究です。2025年3月9日の北京大学の研究で、いくつかの素晴らしい新しいアイデアがあります。エンハンスドモデル、LAMBを使用しましょう。アクションチェーンの生成を内部化し、モデルが外部ツールをいつどのように使用するかを自律的に決定し推論することを可能にします。テンプレートなどはもう必要ありません。
データ生成から始めます。彼らはDeep Seek R1 Distill Q1 32Bモデルを使用しました。前回のビデオでご存知の通り、これはデータ生成のための蒸留プロセスです。合成データを使用し、ツール呼び出しにはWiki検索エンジンを使用しています。これは理にかなっています。このツールの統合により、データ生成中に外部リソースを通じて追加情報を取得するプロセスをシミュレートし、複雑な推論タスクに直面したときに外部ツール呼び出しをインテリジェントにトリガーするようモデルをトレーニングし、その性能をさらに向上させます。
最初のデータセットはSORDデータで、1万サンプルあります。Deep Seek R1 Distill C Answer 2Bモデルを使用し、ステップバイステップの推論を引き出すように設計されたSORDプロンプトを使用しています。最初のステップでは、外部ツールの使用なしの純粋なSORDプロセスを生成します。これは順次推論です。
次に、合成アクションチェーンデータ、さらに1万サンプルがあります。知識のギャップに遭遇したときに検索ツールを呼び出すようモデルに指示するアクションチェーンプロンプトを使用します。したがって、ツール支援推論フェーズを有効にします。モデルは特殊トークンであるアクショントークンをトリガーして検索ツールを呼び出し、必要な情報を取得し、結果に基づいて推論を再開します。
これは生成されたSORDデータが、人間の質問、クエリ、推論プロセス自体を捉えていることを意味しますが、注意が必要です。推論プロセスにはアクショントリガー、環境からの観察、およびその後の推論が含まれるようになりました。最終的な答えを持っている場合、このデータ構造により、モデルはいつどのようにアクションをトリガーするかを学習できます。これは特に重要な合成データセットであり、最良の結果のみを慎重に選択すれば性能を向上させることができると思います。
SORDデータセット、トレーニングデータセットにはCO PLUSAデータセットが必要で、対照的なペアに注目してください。特定の時点で推論軌道を変更することで合成対照的なペアを生成し、ツール使用を可能にするアクショントリガーを挿入するか、内部推論を強制するために削除します。各ペアは、ツール使用が許可されているかどうかによって異なり、SORDチェーンが正しくないがアクションチェーンが正しい、またはその逆のシナリオにつながります。このトレーニングシステムは、何年も前からBERTシステムから知られている対照的な損失関数で対照的なペアをトレーニングし、モデルがツールをトリガーしてコードを生成し、コードを実行し、検証し、答えを取得し、決定プロセスに戻る時期、または純粋に内部推論に依存する時期を学習するのに役立ちます。
このトレーニングデータセットは、高品質のデータセットを持つことが本当に重要です。そうでなければ、システムが後で推論実行中に最良の結果を生成しないことがわかるかもしれません。データを手に入れたので、トレーニングプロセス自体を見てみましょう。教師あり微調整ステージ1、2、3があることを覚えておいてください。
トレーニングについて、著者らは1,500の対照的なデータポイントを選び、これが教師あり微調整ステージ1のトレーニングセットです。ステージ2と3では、5,000のアクションチェーンデータポイントと1,000のSORDデータポイントを組み合わせて、アクションを実行する能力を教えています。なぜさらに1,000のSORDが必要なのかと思うかもしれませんが、彼らはこれを説明しています。このSORDサンプルを含めることで、モデルが外部ツールなしでタスクを解決する能力を保持し、アクションへの過度の依存を防ぎ、ツール使用と推論のバランスを取ることを確実にします。
3段階の教師あり微調整後、いくつかの壊滅的な忘却が起こる可能性があるという問題がまだあることがわかります。そのため、最後に再び1,000のSORDサンプルで行います。これらの古い弱点をまだ持ち続けていることは興味深いことです。
教師あり微調整ステージを構築した後、強化学習に移ります。現代的なシステムであるGPO（Group Relative Policy Optimization）でルール報酬システムにマッチングします。強化学習にも2段階システムがあり、最初は内部ワールドモデルのためのシミュレートされた環境、次に実際の環境との相互作用で、シミュレートされた環境のサンドボックスで学んだことを検証します。教師あり微調整フェーズ中に生成されたこの内部ワールドモデルは非常に重要です。なぜなら、サンドボックスで様々なアクション戦略を自由に探索できるからです。これは素晴らしいことです。次に実際の世界に移り、実際のツール、実際のツール呼び出しを使用して実際の世界からのフィードバックを得て、理論的戦略を適応させます。
アイデアは素晴らしいです。SORDからアクションチェーンへとさらに一歩進み、それらを一緒に融合させます。多くのトレーニングデータが必要であることがわかり、古典的な教師あり微調整ステップと強化学習ステップで進むことがわかりました。では、性能はどうでしょうか。
彼らの実験ではどのモデルを使用したのでしょうか？もちろん小さな7Bモデルです。多くの教師あり微調整と強化学習を行う必要があったからです。前回のビデオで示した量子化されたバージョンではなく、蒸留されたバージョンを選びました。オートCOA（自動チェーン・オブ・アクション）トレーニングのために、公式のDeep Seek R1 Distill QAN 7Bモデルを使用しました。
興味深いことに、GitHubを見ると（これはオープンソースで、すべてのデータにアクセスできます）、強化学習のために特定のエンジン、Volcanoエンジン強化学習をLLM用に使用していました。これは香港大学、北京大学、香港大学のHybrid Flowに基づいています。本当に興味深い論文です。これがHybrid Flowのオープンソースバージョン、Volcanoエンジン強化学習LLMです。これが彼らが使用したものですが、完全なGitHubリポジトリがあり、MITライセンスで利用可能です。素晴らしいと思いませんか？ほとんど誰も気づいていなかったので、皆さんにお見せしなければならないと思いました。これは素晴らしいシステムで、オープンソースで、皆さんが試せるようになっています。
性能ベンチマークと新しいアイデアについて話すことがたくさんあります。すべてを一つの見解でお伝えします。まず最初に、クラシックなR1 Distill Q1 7Bのバニラバージョンがあり、次に超スーパーDeep Seek O1があります。すべてのテストとベンチマークで、本物のR1（量子化されていない、蒸留されていないもの）が最良の結果を持っています。驚くことではありません。
次に、古典的なReact（古風なReactシステム）があり、色付きで教師あり微調整だけのもの、そして教師あり微調整の上に構築された強化学習が異なるステージで行われています。ステージ1、ステージ2、ステージ1と2、ステージ1と2と3のパフォーマンスデータが提供されているのが素晴らしいです。多くのことが起こっています。どのベンチマークを選んでも構いません。LLMの平均に行きますが、もっと詳細な構造が好きなら、それを選んでください。
7Bモデルは、公式のDeep Seek R1（量子化されておらず、蒸留されていないもの）に到達することはないでしょう。これは魔法ではありません。しかし、現在の位置がわかります。次のものを見てみましょう。強化学習ステージ1と教師あり微調整ステージ1、2、3を見てみましょう。結果は30.7.2で、これは教師あり微調整ステージ1、2、3の37.7よりも良くありません。強化学習を追加すると性能が低下するのはなぜでしょうか？フェーズ1ではなく、強化学習のステージ1と2を行うと、再び少し上がります。37.7から強化学習完了で38.9になります。興味深いです。
増分的な改善はかなり限界的であり、これは多くの機会があることを示しています。さまざまな組み合わせを組み合わせると、例えば最後の例、教師あり微調整ステージ1と2のみ（3なし）、強化学習ステージ2のみ（ステージ1なし）は、38.5という本当に優れた結果を提供します。3番目が必要でしょうか？教師あり微調整1、2、3を見ると、性能データは性能が低下することを示しています。ステージ1と2のみでは38％で、3を追加すると37％に落ちます。何か本質的に起こっていますが、これは私の最初の見解なので、いくつかの実験を行う必要があります。すべてがオープンソースなので素晴らしいことです。自分で見てみてください。新しいアイデア、新しい最適化手法を持つことができます。
しかし、他にもお話ししたいことがあります。なぜ私たち人間がコードエディタやコースなどを使用すべきでしょうか？何でも持っているものを使用してください。後で見る場合は、最新のものを使用することになるでしょう。なぜコーディングすべきでしょうか？構造化パターンのためにAIがあり、コードは構造化パターン以外の何ものでもありません。
金融、医療、製薬、物理学など複雑な問題があるとします。古典的には、より単純な低複雑性のサブ問題に分解し、それらのサブ問題の解決ステップを見つけます。複雑さをより低い複雑さに分解し、ツールのセットを持ちます。そして、複雑さの削減、単純化をどのように行うか、利用可能なツールのどれを選ぶかを自律的に決定するように完全なシステムでAIをトレーニングすると、もうコーディングする必要はありません。
ウェブサイトの構築、特定のトピックに関する定期的なツイート、製品やサービスの事前販売の最適化、特定のハイプキャンペーンの実行、会社のブランド構築などの解決ステップがあれば、人間としてこれを行う必要はありません。Python、C++、SQL、インターネット、金融、ソーシャルプラットフォームなど、何を使用するにしても、AIシステムにとってはただのツールです。AIに複雑な問題を与え、「ウェブサイトを構築し、ソーシャルプラットフォームでツイートし、事前販売を開始し、成功するとわかったものは何でもハイプとして実行し、インターネットやソーシャルプラットフォームで実験を行い、製品自体を洗練し、私のブランドを構築する」と言えばいいのです。これらはただのツールであり、人間側からは何も必要ありません。
テンプレートを超え、構造化された情報を超えた進化があります。個人的な能力から、絡み合ったSORDとアクションのチェーンを実行できるマルチエージェントAIシステムを持つ集合的人工知能への進化です。サンドボックスや実際の環境で特定のタスクのための実験を実行します。
「ちょっと待って、アイデアがあります。OpenAIの$20,000の次世代エージェントは、今このビデオで話したことに近いのではないでしょうか？」と思うかもしれません。これは単なる推測ですが、AI研究で現在できることを見て、これがAIの次のステップになると思います。多くの人が「私はコードを書いていて、これは私の仕事、ビジネスだ」と言っていますが、コードはパターンであり、インテリジェントなコード検出とインテリジェントなコード生成はAIのビジネスです。
開発はこのまま進み、このシステムは対話型の自律システムになると思います。OpenAIがすでに1年以上このことに投資しているとすれば（私たちが完全なシステムについてこのアイデアを持った最初の人ではありません）、$20,000という価格タグは正当化されるかもしれません。もちろん、このシステムの性能によりますが。
AIの次のステップが何になるかについてのアイデアを持っていると思います。それはこの「超インテリジェンス」「ハイパーインテリジェンス」「スーパーデュパーインテリジェンス」と呼ばれるものについてではなく、統合についてだと思います。人間としてあなたは複雑な問題を定義するだけで、システムはインターネット全体、すべてのスタートアップ、すべてのインターネットページ、マーケティングについて書かれたすべての本、完璧な事前販売の方法について書かれたすべての本、ブランド構築方法についてのすべてのオンラインRedditから学びます。これらすべてが利用可能であり、システムはツールを持ち、プラットフォームへのアクセスを持ち、AIはそれを実行できます。
したがって、20,000ドルという価格は妥当に思えます。私に同意するなら素晴らしいですし、同意しないならさらに良いです。このビデオにコメントを残してみてはいかがでしょうか。興味があれば購読して、次の動画でお会いしましょう。

コメント

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル