
15,044 文字

こんにちは、コミュニティの皆さん。戻ってきてくれて嬉しいです。量子AIは本当に魅力的なトピックです。前回の動画からどれだけ早くそこに到達できるか見てみましょう。
覚えていますか?テストタイム計算スケーリング強化学習、強化ファインチューニングを見ました。CRLやオフポリシールフィ方法論も見て、素晴らしかったですね。そして前回の動画の一つで、マルチエージェント学習について話したとき、「いいね、でもこれはエレガントな解決策ではない」と言いました。なぜなら、トークンレベルのマルチエージェント強化ファインチューニング方法論で各トークンをアクションとして扱わなければならないとすると、特にコーディングする場合は非常に複雑になるからです。
では、どんな代替案があるでしょうか?理論物理学の基本的なアイデアを使う方法です。以前の動画でラグランジアンとハミルトニアンの構築方法を紹介しました。MITの非常に簡単な入門からAI物理学の構築方法を見ました。また、数ヶ月前には群知能について話し、中央のエージェントが他のすべてのエージェントを指揮するのではない、マルチエージェントのエコシステムについて議論しました。ここで群知能が必要になります。特にマルチエージェントシステム、そして重いマルチエージェントシステムにおいて、これが私たちが求めているものです。
今日の質問は、これらすべてをどのように組み合わせられるかということです。よく見ると、解決策はすでに見えています。覚えていますか?最も単純なケースでは、強化学習のPO目的関数を見ました。強化学習方法論の正準目的関数を見て、それが見つけられる最も簡単なものでした。そして強化学習を見るときはいつでも、この目的関数が常に存在し、通常は期待報酬関数について話します。ここでエージェントポリシーPデータが累積報酬を最大化するよう調整されます。
前回の動画をよく聞いていれば、教師あり微調整最適化、マルチエージェントでも同じことがあることに気づいたでしょう。教師あり学習では、目的は通常損失関数のようなものです。これが古典的なSFTで、クロスエントロピーと目的関数があります。興味深いですね。両方のケースで、私たちが知っているAIはすべて目的最適化に関するものです。では、これを維持しながら、レベルを一段上げてみましょう。
私たちが知っている両方のケースで、勾配降下法を使ってJ(データ)を最適化します。もちろん、何世紀も知られている確率的勾配降下法を使います。目的最適化とは、AIシステムや学習システムのパラメータや動作を調整して、目的関数J(データ)を最適化(最小化または最大化)するプロセスを指します。この目的関数は、パフォーマンス基準、コスト、報酬、効用などを数値化します。例えば、強化学習では報酬関数を持ち、教師あり微調整では通常クロスエントロピーを損失関数として使います。素晴らしいですね。
さて、この動画で物理学について話したことを思い出してください。物理学に詳しければ、エミリー・ネーターの第二定理が、作用汎関数の対称性と微分方程式のシステムを関連付けていることを覚えているでしょう。簡単におさらいすると、これは本当にWikipediaからの最も簡単な説明です。物理システム、実在のシステム、実世界のシステムの作用Sがあるとします。作用Sが、いわゆるラグランジアン汎関数の積分であり、そこからシステムの振る舞いが最小作用の原理によって決定できるとすれば…これは学校で学ぶことです。これは物理学、天文学、宇宙物理学など、どこにでも存在する最も支配的な核です。これが物理法則や自然法則を数学的に発展させるための核心です。
最小作用の原理。そして定理は言います:もし作用が、k個の任意の関数とその最大m次までの導関数によって線形にパラメータ化された無限次元のリー代数を持つ無限次元の対称性を持つなら、ラグランジアンの汎関数導関数はk個の微分方程式のシステムを満たす、と。これが私たちが開発した方法です。運動方程式を考えてみてください。太陽と地球、あるいはブラックホールと中性子星があれば、運動方程式に関する数学的な理解が完全にあります。これが特殊相対性理論で行っていることです。量子レベルでもこれらの対称性を見つけます。これは非常に強力な定理です。
しかし、まだ一つのアイデアが欠けています。このチャンネルの登録者なら、「そうだ、もちろん覚えています。特定のメッセージパッシングを持つシステムダイナミクスケースについて話しましたね」と言うでしょう。そして、もちろんグラフニューラルネットワークについて話しています。メッセージパッシングでは、ディープグラフライブラリを見ました。グラフニューラルネットワークのKerasコーディングを見て、マルチエージェントトポロジーのts-piも見ましたが、グラフニューラルネットワーク上のトポロジカルメッセージパーシングという次のステップも見ました。さらに単体複体やCWネットワークにすることで、もっと興味深くできることがわかりました。さらに進んだ動画もありますが、今日の動画には必要ありません。
さて、物理学と群知能があります。そして私たちが望まないのは、マルチエージェント強化ファインチューニングに関する最新のAI研究で現在持っているこのバッファです。これらのバッファをなくしたいのです。中央批評エージェントをなくしたいのです。このシステムがローカルに発展することを望みます。ここに根本から発展し、システム全体に伝播する知能が欲しいのです。これが私たちが求めているものです。そして、この動画でマルチエージェントRFTについても話しましたが、コーディングのベンチマークやエージェンティックタスクにおいてさらなる実験が必要だと言いました。これは非常に複雑に見えるからです。もっとエレガントな解決策を見つける必要があります。
では、どう思いますか?3つの基本的なアイデアから始めましょう。中央の知能なしの自律的な自己学習システムに焦点を当てます。マルチエージェントの言葉で言えば、オーケストレーションエージェントはなく、ドライバーとして焦点を当てます。理論物理学と現在のAIを見て、目的関数に焦点を当てます。もちろん今はもう少し複雑になりますが。そして、AIで非常に役立つ指導原理の一つに固執し、特に強化学習を行うときには、最初の開発ステップで部分的に観測可能なマルコフ決定過程にしがみつこうとします。そして、純粋に数学的な理由から完全性定理が必要です。気にしないでください。
でも今、私たちはこのストーリーをローカルに発展させたいと言います。OpenAIによって本当に閉じられた、本当に高価なグラウンドAIからの外部入力を持ちたくありません。ローカルベースからこれを実現したいのです。システムの次のレベルに行き、したがって公理的理論を構築したいと思います。これが3つの要素です。他には何も欲しくありません。複雑性理論、機能グラフ理論、理論物理学、そして数学を少し加えるかもしれませんが、それだけです。最終結果をお見せしましょう。今日何が出てくるか見てみましょう。
AIでツールセットを見てみましょう。最適化やバックプロパゲーションを行う場合、確率的勾配降下法というツールがあります。そして確率的勾配降下法に注目します。なぜなら、このアイデアに戻ってくるからです。これは本当に強力です。おそらく保持して、少し修正するだけで済むでしょう。そして教師あり微調整、強化学習、テストタイム計算スケーリング強化ライン微調整、マルチエージェント強化微調整など、何があっても素晴らしいです。しかし、特に先週の最後の動画で見たように、さらに進むにはたくさんの制限があります。
確率的勾配降下法についてどう思いますか?そうです。アトムオプティマイザーからこれを知っていますね。それはRMSpropの更新でした。これは素晴らしいです。モメンタム方法論もありました。これは素晴らしいですが、これは古い過去です。未来を見てみましょう。私たちが望むものを見てみましょう。
このAI合成画像で、すぐに量子コンピューティングが最終的にあることがわかります。もし次の数年で量子コンピュータが登場すると言えば、5年かもしれないし10年かもしれませんが、インフラストラクチャに適合する理論が必要です。なぜなら、現在の量子コンピューティングと現在のAI理論は、ああ、大変なことになります。これは機能しません。もっとエレガントな解決策がたくさんあります。
両方やってみましょう。AIを開発し、量子物理学、量子コンピューティング、量子場理論を見てみて、コードベースのツールセットがインフラストラクチャと一緒に機能するように修正できるか見てみましょう。そうすればウィンウィンの状況になります。コヒーレントです。最終結果はこれです。今日持っているすべてのものと、最新のAI研究のすべてが、今日開発するものです。そしてそれは大きな一歩前進です。
私たちが持っているのは、目的に固執することです。目的関数は少し複雑になるかもしれませんが、気にしないでください。そして、AIのアイデアであるニューラルネットワーク構造とテンソル構造、行列乗算から、より知的なフィールドアプローチに移行します。しかし、それは知的確率場になります。そして、これはコンテキストですね?絶対にその通りです。ローカルで分散化されており、現在の強化学習のアクションではなく、遷移上で定義されます。
複雑さのレベルを上げますが、これによりツールセットに新しいツールが開かれ、それらはより美しいものです。そしてこのフィールドにはノードがあり、グラフ理論をより知的に統合します。各ノードに対して、特定のヒルベルト空間からRへのローカル演算子、ガンマ演算子を定義し、各ギルダーと共に状態遷移の空間を持ちます。
これで理論が単に状態とアクションだけでなく、遷移理論に移行する高い複雑さのレベルに移ります。複雑性理論と量子力学を少し知っていれば、どこに向かっているかわかるでしょう。そして私たちのガンマは今、報酬を割り当てます。これは古典的な報酬です。これは動力学に影響を与える遷移に対して同じです。非常に単純ですね。
そして、目的関数を定義します。物理学で示したように、最小作用の原理、ラグランジアン、ハミルトニアン視点を開発します。ノードxにおける平均目的を持ち、ガンマバーは特定の形を持ち、特定の理由があります。このインテグラルには、量子力学に似た特別な特徴があることをお見せします。これが私たちがそれを行う理由です。
理論におけるコヒーレンスが欲しいのです。システムにおける状態分布について話します。単純なヒルベルト空間ではなく、少し違う演算子代数を使います。ヒルベルト空間を高度な空間に持ち上げます。生成子を定義し、線形生成子を定義し、特定の遷移に代数で操作するための無限小生成子に分解します。そして遷移自体は数学的な観点から非常に特別なものになります。そして積分があり、それは正確に知っているものを与えます。時間平均コストまたは遷移に関連する報酬を持つことになります。
最適化問題に戻ってきました。各ノードが持ち、最小化しようとする量です。待ってください、各ノードが最小化するのですか?そうです、これが知的フィールドを導入する理由です。これは単に演算子、生成子、ローカル生成子を調整することによって行われます。ここには少し数学的な証明が必要ですが、これがそれです。これが新しいアイデアであり、とても馴染み深いものです。AIで既に持っているすべての古いアイデアを使っています。ただ少し先に進み、より優雅な理論、より強力なツール理論を持つために必要なものをちょうど追加します。
知的フィールドから始めましょう。美しいですね?私たちのフィールドはより純粋に数学的な性質のものです。統一された形式的フレームワークから始めます。これは純粋に数学的なフレームワークです。だからこそ、この用語に馴染みを持ってもらうために美しい導入をするためにこのビデオを作っています。そしてそれは目的駆動型です。強化学習と教師あり調整で持っている最小作用のような目的駆動型です。それは動的なものでしょう。もちろん時間の進化が欲しいですし、確率場になります。これを知っていますね?
すでに3つの公理的原理について話しました。美しいのは、これを純粋な数学で行えることです。完全な構成を持ち、有限の構成空間でマルコフ的時間不変の進化で進みます。この空間の上に後で構築します。そして局所性があります。これが美しさです。なぜなら今、ローカルな特徴を持ち、それは有向グラフ上のハミルトン空間を構築するなら、隣接するものとだけ相互作用し、それは実装するグラフトポロジーによってのみ制約されるからです。そして、これが最も強力なアイデア、最も美しい、最もエレガントなアイデアである目的性があります。これは目的関数や定義された目的値と呼んだものとまさに同じです。
物理学のように、最小作用、ハミルトニアン、ラグランジアン関数、運動方程式などを使います。数学、物理学、AIで知っていることに本当に似ています。最終的にAIはより先進的な理論に進んでいます。それによって、より良い結果、より良い実装が得られます。これが全てです。3つのポイント、これが知的フィールドの紹介にあるすべてです。
連続時間確率場があり、3つの側面があります。それはフィールド側面、動的側面、そして目的を持って更新する方法です。これはまさに強化学習と教師あり微調整から知っているJ(データ)です。空間グラフ構造がハミルトニアンやヒルベルト空間を構築するベースになります。ローカルな動的、ローカルな確率的動的を持ち、もちろん動的における確率分布について話しています。そして全体的な目標は、システム全体が自己最適化して、より良い学習を達成することです。これが必要なすべてです。
確率的動的は無限小生成子と演算子によって定義され、目的性、つまりローカル目的と、例えばグラフニューラルネットワークからのメッセージパッシングで馴染みのあるシグナル伝播は、お見せする演算子上のより広範な要素を追加します。そのため、最も単純な形の伝播演算子である線形伝播演算子を通じてシグナルを伝播させます。
知的フィールドの要約を見てみましょう。シンプルです。有向グラフがあり、これはベースで、その上に構築する空間トポロジーです。そしてローカル構成空間オメガがあります。私たちのオメガは古典的なAI理論で知っている空間よりも少し複雑です。そしてローカル演算子、ローカル生成子G(X)があり、オメガ上の純粋に確率的な更新ルールを指定します。特定の構成を与えます。
もちろん大きな絵も必要なので、グローバル生成子が必要です。これは非常に複雑な数学的証明になりますが、この特定の方法で最も単純なケースで構築できることを示すものではありません。そして目的演算子があります。物理学における最小作用を覚えていますか?ガンマxがローカル遷移コストを定義します。これが最適化理論です。
そして、ほぼ完全な宇宙を貫く重力場のように、遠距離相互作用のためにシグナル伝播が必要です。これは演算子をマッピングし、ローカル目的をコヒーレントなグローバル目的に変換します。そしてすぐにマルチエージェント相互作用がどこに入るかがわかりますが、今や数学的にはるかにエレガントな解決策です。
勾配降下法ではなく、名前は同じですが、勾配公式を使用します。これにより、各ノードはこの勾配降下法を、近隣情報のみを使用して計算できます。もちろん、完全に異なる数学的空間に座り、完全に異なる数学的演算子を持っています。そしてそれはあなたが想像する勾配ではありませんが、原則としてこれは私たちが知っていることであり、これがあなたが少しでも親しくなるように構築するものです。
ローカルに定義された目的がグラフ全体に伝播します。そして生成子で定義する各ローカルルールは、強化学習から知っているように、探索と活用のバランスをとります。探索は確率性であり、活用は目的の最小化最適化問題です。
グローバルには、集合的効果がシステムを軌道に導きます。少し異なりますが、最も単純なケースでは、総作用を最小化する軌道です。物理学からの最小作用の原理を覚えていてください。これは本当に同じ原理です。抽象的なアイデアです。そして今、この美しい理論物理学の洞察に基づいたAI理論を構築しています。
ローカル勾配とこの美しい伝播メカニズムにより、完全なシステムが分散学習を可能にします。特定の作業エージェントにタスクを指示する主要な知能エージェントを持つ必要はありません。今や、より強力で少し挑戦的な数学的AI概念上に群知能を実装できます。
フィールドとは何かを見たので、ノードについて見てみましょう。ノード定義は理解するのに少し苦労したと思います。ノードは何か?ノードは有限有向グラフ内のラベル付きポイントです。これ以上簡単なものはありません。これはフィールドの空間構造を定義します。そして特定の時間に特定のノードにおけるローカル構成Wオメガを保持するエンティティを表します。このエンティティは、グラフネットワークについて考えてください。グラフ内のエッジを介して接続されたノードである隣接するものとのみ相互作用し、ローカルな確率的プロセスを定義します。
時間連続、注意してください、離散ではなく、積分定式化で行きます。時間連続ジャンププロセスがあり、自身の状態と場合によっては送信信号を更新します。部分的に観測可能なマルコフ決定過程で作業していることを覚えていてください。自身と隣接する現在の状態に依存します。これはクラシックです。これはグラフです。同じ誘導メカニズムです。少し技術的です。なぜならファクターでもテンソルでもなく、古典的なAIやレガシーAIで知っているような数値量ではないからです。
それはグラフ内の位置であり、状態を持つ確率的メカニズムをホストし、動的を持ち、グローバルフィールド構成にローカル演算子またはG(X)を適用することで進化します。これが動的な絵が入るところです。ここで何が起こっているのは、最終的にAIから、そして何だと思いますか?シュレーディンガーがいたレベルに移行しています。彼の猫を覚えていますか?シュレーディンガーの猫。シュレーディンガーはこれを1930年代に定式化しました。90年前に理論物理学において同じ開発状態にあったことを想像できますか?そして今日、今日が初めて、このジャンプをしようと言っています。シュレーディンガーが1935年に量子もつれという用語を作ったことを想像してください。90年前です。そして今、AIを量子領域に移そうとしています。
シュレーディンガーや理論物理学の発展からのアイデアの多くを使用できるのは非常に美しいことです。そしてビデオの最後には、私たちにより近づけるためにファインマン積分を見ます。なぜなら、P積分形式を使用するからです。もう少し詳しく見てみましょう。
知的フィールドの各ノードには、演算子データ代数を生成するためのローカル状態空間があります。オメガがあり、このノードに内部状態があります。これは部分的に観測可能なマルコフ決定過程です。シンプルな二要素の分割構造を構築します。ノードの内部プライベート状態があります。これをMと呼びましょう。そしてグラフニューラルネットワークからメッセージパッシングなどを知っています。ノードはこれを直接の隣接ノードや二段階隣接ノードなどに送信します。これをSと呼びます。
特定の時間、特定のノードにおけるオメガの完全なローカル構成は、内部離散状態(モードやカウンターなどの有限集合)と、各出力エッジに対して1つずつある出力メッセージ信号のコレクションで構成されます。グローバル構成オメガは、特定の時間、特定のノードに対するすべての可能なxにわたるオメガの完全なタプルです。シンプルですね?しかし注意してください。ここに隠れているのは部分的に観測可能なマルコフ決定過程です。エレガントです。これを古典的なAIから使用する方法を知っています。
このシステムに動的が必要です。確率場動的で行きます。美しい方法です。グローバル構成オメガ(t)は連続時間マルコフ過程として時間とともに進化します。すぐにわかるように、他のすべての方法論は連続的ではありませんでした。今、連続時間マルコフ過程にしようとしています。
もちろん、生成子が必要で、線形生成子が必要で、本当に掘り下げると、オメガ上の確率分布を定義し、時間発展を与えるような無限小生成子gが必要です。ここで美しく見えるのは、Gがシステム動的にどのように統合されているかです。オメガからオメガダッシュへの遷移率を与えます。つまり、特定の状態オメガから状態オメガダッシュへ移動します。
これは簡単ではありません。いくつかの条件下で、各G(X)が特定のノードXとその近傍にのみ作用するようなローカル生成子の和としてGが分解される数学的証明があります。これはノードXがG(X)のみを制御することを意味し、これにより影響を与えることができるフィールド構成の部分に対する遷移率がローカルに定義されます。これは素晴らしいことではないですか?これが私たちが望んでいたものです。
短い要約です。各ノードXに対して、グラフ内のラベル付き位置があります。ローカル構成オメガを保持し、近隣とのメッセージパッシンググラフニューラルネットワークを通じて信号を送受信します。そして非同期的に進化します。重要です!そうです!素晴らしい!素晴らしい!演算子G(X)によって定義されたローカルな確率的ジャンプを通じて。ここで生成子は、ノードX構成がどのように確率的に時間とともに変化するかを定義します。確率分布は現在の状態と定義された近傍、そして最適化される量に依存します。
そして物理学の最小作用原理によって、ローカル目的関数ガンマバーの最適化です。これがそれです。進化はローカル生成子g(x)によって支配され、それは構成がある状態から別の状態にどのようにジャンプするかを定義し、確率的非同期ジャンプがあります。
この時点で、「各ノードが独自の演算子g(x)と独自のローカル目的生成子ガンマバーを持つのか?」という質問をしました。論文を2回目に読んでみると、そのとおりでした。G(X)は、知的フィールドにおけるノードの振る舞いを定義する遷移法則です。現在の決定プロセス、近隣に反応して構成を更新する確率的ルールであり、このG(X)は自己学習プロセスや一般的な学習プロセスの間に変化します。ガンマ(X)は、注意深く見ると、私たちの目的関数です。このガンマ(X)は、ノードが評価するものを定義します。ノードは自身の遷移を通じてこれを最小化しようとする目的であり、これが私たちが最初に定義したものです。これは固定されたままです。
達成したのは、ノードが数学的演算子代数において素晴らしい動的を持つ、自己調整する高度に動的なシステムです。これによりマルチエージェントシステムへの相互作用が開かれます。重要な文を言うと、ガンマ(x)が与えられた場合、ノードは特定のG(X)を適応させ、ガンマXに関連付けられた長期的なコストであるガンマバーを最小化します。これは強化学習や教師あり微調整など、古典的なAIから知っていることとまさに同じです。最小化問題があり、特定の目的関数が定義されています。
そして今、古典的なAIシステムにおけるテンソル構造のレイヤーの変換の重みの適応ではなく、持ち上げられたヒルベルト空間におけるヒルベルト空間の演算子を適応させます。似ていますね。強化学習では、状態やアクションに依存する報酬関数があります。これは私たちのガンマ(x)のようなものです。そして、ポリシー関数πデータ(アクションと状態)は累積報酬を最大化するように学習されます。数学的抽象化において、これは私たちの演算子G(X)です。
マルチエージェントシステムに特に必要な、より高い次元にすることで、より優雅な理論、より良い理解、そしてこれらのオブジェクトを扱うより良い能力を達成し、より高い動的を持つことができます。さて、少し複雑になりますが、だからこそ数学があります。数学は「注意、何かがあります」と教えてくれますが、気にしないでください。
勾配を計算するとき、確率的勾配降下法はほぼ同じです。長期平均コストや報酬の勾配のようなものですが、システムに摂動を伝播するノードだけでなく、その効果がいつどれくらい続くかも考慮する必要があります。これはレゾルベント演算子によって処理され、この方程式を覚えていますか?もちろんです。そして、伝播子の内部には特定の形があり、異なる項があります。Qはノードに即時の摂動を注入し、伝播子は摂動を時間を通じてこれらの動的に沿って前方に伝播させ、ギルダンは摂動を遷移率への効果に変換します。そして、πが定常成分に投影します。これを計算したくない場合は重要ではありませんが。
今興味深いのは、この2つのメカニズム、反復的なローカル伝播子Pは空間ハブ、そしてレゾルベントは時間的な広がりですが、これらが完全な時空伝播関数、演算子を提供することです。これがフィールドのすべての部分に、すべての時間にわたって、ローカル目的を運ぶものです。待って、それはパス積分ですね?そうです、これがこれを行う理由です。量子力学と量子場理論からの洞察を使用できる数学的理論を最終的に開くためです。そして、それが適合することは驚くべきことです。
物理学や自然法則の開発における私たちのアイデア、重力場、宇宙を一つにするもの、銀河を一つにするもの、星を一つにするもの、太陽の周りを回る地球…もし望むなら、これらの同じ法則が新しい形のAIにも適用可能です。これは本当に興味深いことです。しかし、同じ熱意を共有しないかもしれません。完全に理解できます。しかし、これは重要です。空間ハブ、時間的な広がり、完全な時空伝播関数が、ローカル目的、ローカル学習、ローカル勾配摂動を演算子によってフィールドのすべての部分に、すべての時間に運びます。そして、私たちはそこにいます。
ヒルベルト空間について話しましょう。物理学におけるヒルベルト空間に馴染みがありますね。元のヒルベルト空間は有限構成空間に制限され、単一の構成ωに対応する基底ベクトルを持っています。これを知っています。そしてベクトルはω上の確率分布を表します。これは古典的なAIであり、すべての状態レベルの動的のためのものです。動的を導入すると、美しい微分方程式があり、それらはすべてこの元のヒルベルト空間に存在します。
今、このステップに進むと、もう少し強力な複雑なヒルベルト空間が必要になります。持ち上げられたヒルベルト空間と呼びます。Hギルドのベクトルは現在の状態と次の状態の任意の関数を表すことができます。これはただのタプルです。強化学習から知っているタプルです。アクションと状態があり、今は状態-状態遷移タプルがあります。そしてこの遷移形式と演算子は単純なヒルベルト空間には存在しません。それでは十分に強力ではありません。今、持ち上げられたヒルベルト空間であるHギルドが必要です。簡単ですね?だからこの紹介ビデオを作りました。
それが持ち上げられたと呼ばれる理由は、注目を単一の構成から構成のペアに持ち上げたからです。これにより、数学的アリーナを評価し、遷移レベルのオブジェクトを定義し操作できるようになります。これは目的、衝動、勾配など何でもあり得ます。完全に線形代数的な方法で。数学は簡単です。なぜ持ち上げられた空間が必要なのか、誰かが質問したら、特定の遷移にコストや報酬を割り当てる必要があり、特定の遷移からωからωダッシュへの確率を割り当てる必要があると言えます。
これをどのように行い、遷移をどのように計算するかが今興味深くなります。なぜなら、時間ゼロから特定の時間tまでの完全なシステムを伝播させない進化演算子を持つからです。この進化演算子は、ローカル演算子や望むならグローバル演算子Gに含まれる動的に従って、分布が時間とともにどのように進化するかをシステムに伝えます。理論物理学では、シュレーディンガーに戻って確率振幅を示すための特定の数学的表記を使用し、特定の表記があります。
これがそれです。確率振幅、つまりω0からある時間tでのω、ωダッシュと呼ぶものへの確率密度があります。これは、時間tゼロで構成ωから始まると、フィールドが興味のある正確な時間tで構成ωダッシュに到着する確率密度を計算する内積です。これはωからωダッシュへの遷移振幅への量子力学的なアナログです。この美しい方程式を見てください。ゴージャスではないですか?用語を識別できますか?そうです、これは私たちのファインマン表記です。素晴らしい。
そして、特定のパスに関連付けられたアクション汎関数があります。これは単に、特定の時間tにおける構成ωで見つかったすべての軌道を積分することを意味します。そして、パス積分、遷移におけるすべての確率的パスの合計があります。正しいヒルベルト空間で操作することが重要です。なぜなら、遷移から遷移へ行くからです。これを演算子に含める必要があります。
これを見てください。この積分には、時間tの間にωからωダッシュへの知的フィールドのすべての可能な軌道が含まれています。それには何が含まれていますか?無限に多くのランダムな項、確率的なものがあります。連続的な確率的進化があり、グラフ構造における近隣との局所的な相互作用にのみ焦点を当てています。これが特定の時間、特定の強さで完全なネットワークに伝播します。
なぜここでパス積分が必要なのでしょうか?それを強制したいのか、それとも自然に現れるのか?一段階ごとの遷移を見る代わりに、パス積分はコンパクトで数学的に強力な形で、時間を通じた全体の進化をエンコードします。理論物理学から扱い方を知っています。これは重要です。なぜなら、連続時間フィールドでは多くの小さな確率的ジャンプが発生し、それぞれを明示的に計算するのは単に狂気じみているからです。これがまさに量子計算の理論的可能性が役に立つところです。これがコヒーレンスが必要な理由です。
パス積分定式化により、変分アプローチ、変分方法論が可能になります。演算子G(X)の動的における小さな変化が、期待されるコストや期待される報酬にどのように影響するか?アクションの変分は、演算子技術を通じて演算子G(X)に関する勾配を生み出します。これはシステム全体の最適化のために適用する局所勾配公式に不可欠です。パス積分のこのアプローチがなければ、長期的な累積行動がローカル遷移ルールにどのように依存するかを体系的に計算することができません。なんてエレガントで美しい解決策でしょう。
明確にしておきましょう。私は少しだけ物理学のバックグラウンドを持っています。これはまだファインマンではありません。これはまだ純粋な量子ではありません。これは正しい方向へのアプローチです。何か欠けているかもしれません。しかし、私たちが持っているものと、まだ不足しているものを見てみましょう。
物理学から知っているファインマン積分と、量子力学とAI知的フィールド、この新しいAIアプローチを比較すると、両方とも時間の関数のパスに対する汎関数積分を使用しています。これは素晴らしいことです。両方ともそのアクションSに応じて、各パスに指数関数的な重みを割り当てます。これは驚くべきことです。方程式を先ほど見せました。両方とも、すべての可能な軌道上の積分として、この特定の進化演算子を表現しています。理論物理学ではこれがあり、AI知的フィールドではこれがあります。なんという偶然でしょう。なぜなら、これが私たちのゲームだったからです。
そして今、問題があります。まだそこには到達していません。定式化してみましょう。物理学では、ファインマンの講義を見ると、複素位相があり、もちろんこれは物理学においては美しく、干渉パターンにつながります。二重スリット実験を覚えていますか?何かがありましたが、今や私たちの知的フィールドでは、AIの量子AIに対する最初のアプローチとして非常にシンプルなため、まだ実重みで操作しています。これは古典的な確率理論を反映しています。問題ありません。アイデアはありますが、現時点ではこの単純化にこだわります。
最終的にコヒーレンスを持つために、正しい道筋にあることがわかります。パス積分は、すべての可能な軌道にわたる確率的進化を表現したいときに自然に現れます。最終的には、複雑なローカル確率的相互作用の長期的な振る舞いをコンパクトかつ分析的に複雑にエンコードします。数学的な意味ではなく、特定のタスクの複雑さの観点から複雑です。それは一般化し、単純化します。量子力学からのファインマン構成を、確率的力学系へと向けます。そして、連続時間マルコフフィールドでは、パス積分の出現は恣意的ではありません。本当に必要です。
分散学習、動的、進化、さらには複雑な推論パスのための知的フィールドモデルのアイデアを持ちたいのであれば、公理的な方法でさえ一種の基本的です。これは、新しいアイデアの一つの美しさであり、道を導くと思います。あなたは「これはシンプルだ、これがすべてか?」と言うかもしれません。もちろん違います。これはただあなたを温めるための導入でした。なぜなら、本当の美しさはここにあるからです。
スタンフォード大学の教授と、スタンフォード大学の天才的なPh.D.学生がいます。彼らは、目的駆動型動的確率場のフレームワークについて話しています。ここに見えるテキストは最初のページにあるだけです。44ページの純粋な数学がありますが、私はあなたがこの論文を読むときに興奮するように、主要なアイデアを理解できるようにしたかったのです。まだ理解に問題があるなら、AI数学に関する特定のビデオがここにあります。
これがページのスクリーンショットです。最初の、よりシンプルなページです。そして、まさに私が話してきたフィールドの構成空間、局所性、無限小生成子、局所性の原則を使ってどのように分解できるかが見えます。可換関係が美しい数学的証明の中にあります。パス積分形式主義、もしそれに本当に興味がなければ、それはそういうものかもしれません。だからこの紹介ビデオを作りました。そして分解があります。ラグランジアンを構築し、美しいパス積分形式主義を持ち、生成子形式主義を完成させ、限界などがあります。
秘密を教えましょう。最初に見たとき、これは本物なのか、これは本当に起こっているのかと思いました。そして、彼らがスタンフォード大学の実在の人物であることを確認するために戻って確認しました。なぜなら、これがただエイプリルフールのように生成されたものかと思ったからです。しかし、これは本物です。これをまったく予想していませんでした。このアイデアに絶対に驚いています。今、たくさんの追加のアイデアがあります。論文を読み始めています。週末全体をかけて論文を読むことになるでしょう。しかし、本当に非常に興味深く見えます。
そして、より単純なケースでも、強化学習についてここに書いていることを見てください。彼らは言います:「今や報酬メカニズムは非常に複雑です。各エージェントはシステム内の他のエージェントに報酬を生成し、同時に彼らから報酬を受け取るからです。」これは美しいです。報酬構造に動的があります。一つのエージェントが最終的な報酬関数を持ち、そして、わかりません、バイナリ報酬信号のためにプラス1かマイナス1かゼロを待つ必要はなく、次のエージェントに進むのではなく、動的で高度に相互作用するシステムがあります。この観点から見ただけでも、理論的に古典的な強化学習の視点をどれだけ改善できるか、驚くべきことです。
これは純粋な数学であることを言わなければなりません。これは最初のアプローチです。コード実装はありません。なぜなら、これを読むと頭が壊れるからです。「これが今、あなたにとって十分にエレガントな解決策ですか?」と質問するかもしれません。そして、私はこう答えるでしょう:「質問してくれてとても嬉しいです。なぜなら、このアイデアをさらに発展させる新しいアイデアがあるからです。」
コメント