
7,019 文字

こんにちはコミュニティの皆さん。今日はこの場に参加いただき嬉しく思います。今日は、ハーバード大学、Google DeepMind、MIT、IBMが香港大学の博士課程3年目の学生とともに、次のAIのステップである「ワールド基盤モデル」をどのように開発できるかを探ります。AIが言語から解放されるのです。
このAIワールドモデルという概念は新しいものではありません。これは現在の強化学習や、AI研究で調査されている現在のAI意思決定タスクにおける重要な要素です。LLMから解放されるというこの概念は絶対に魅力的ですが、多くの問題に直面しています。それではこれについて見ていきましょう。
数日前、私はNVIDIAの最新モデル、N1と呼ばれるワールド基盤モデルをお見せしました。特に皆さんは覚えていますか?LARAという行動表現空間で、ベクトル量子化オリジナル自己符号化を使用していました。エンコーダー、ベクトル量子化、デコーダーの詳細を示し、損失関数を見て、損失関数の要素を分析し、そしてフローマッチングを見ました。
これはN1で拡散トランスフォーマーを訓練し、必要なアクションを生成するために使用された技術でした。時間依存のベクトル場を学習することが重要だと説明しました。また、MITのコンピュータサイエンスクラス68184「確率微分方程式による生成AI」という素晴らしいコースがあることも示しました。ここにはフローマッチングと拡散モデルへの素晴らしい導入があります。3つのYouTubeビデオがあり、合計で1時間以上あります。私の動画が退屈だと思うなら、これらの動画を見てみてください。しかしMITの教材は優れています。
diffusion.csail.mit.eduというウェブサイトをお見せしました。ここではフローマッチングや拡散モデルの数学的基礎を本当に提供しています。また、すぐに使えるPythonノートブックもあります。これは無料で使用できるもので、次のセグメントでコードが何をしているかの説明もあります。完璧に理解できたので、私たちは今、次のビデオに進む準備ができています。
2025年3月24日の上海AIラボラトリーの最新の文書を見て、幾何学的機能による統一ワールドモデリングに進むこともできますが、これは今日の内容としては少し複雑すぎるので、もっと簡単にしたいと思います。しかし、スタンフォード大学、トロント大学、ベクター研究所から2025年3月24日に新しい論文が発表されていることに注目してください。彼らは今、潜在的ソースから学ぶための推論に進んでいます。
彼らが言うには、多くのデータはあるが人間がどのように実際に推論しているかは理解していないということです。彼らは今、視覚的構造だけでなく、言語モデルでも潜在的空間における潜在的ソースを探求しています。スタンフォードから別のアイデアがあり、実際の美しい人間の思考プロセスの圧縮された最終的な結果としてのウェブテキストがあり、彼らが発見したい潜在的なソースには、今やAIシステムのデータ効率の良い学習に不可欠な重要な文脈的知識とすべての推論ステップが含まれています。
AIは今、人間の思考プロセス、人間の学習プロセスにより深く浸透したいと考えています。なぜなら、これらのAIシステムに人間のように考えることを学ばせる必要があると考えているからです。インターネット上には最終的なテキストしかなく、今私たちが構築しているAIシステムは、人間の文脈的知識、インターネット上に書かれていない隠れたソースを構築しようとしています。
簡単に聞こえるかもしれませんが、複雑さの次のステップはどうでしょうか?言語に限定せずに、どのように考えるかを検討してみましょう。私たち人間は言語だけで考えているわけではありません。触覚、感覚、温度など、私たちが見るもの、経験するもの、感覚的な印象など、もっと多くのものがあります。どのようにしてAIに全てから学ばせることができるでしょうか?
次世代のAIは間違いなく人間の実世界の理解を発展させるでしょう。言語だけ、つまりLLMから解放されるでしょう。なぜなら、ロボットシステムとして私たちの近くで実際に生活するかもしれないからです。次の簡単なステップは、ビデオフレームです。ビデオセンサー、ライダーセンサーなど何らかの入力があるとします。
人間の思考プロセスにおける潜在的なソースを理解したいなら、多くのYouTubeビデオがあります。ビデオフレーム間で何が起こっているのかを理解できるでしょうか?例えば、誰かが手を上げる場合、視覚的なトークン構造からこのアクションを抽象化し、この持ち上げる動作がさまざまな物体で行えることを学習できるでしょうか?このシステムがYouTubeのコンテンツからすべて学ぶことをどうやって可能にするのでしょうか?
これが最新の技術のように聞こえるかもしれませんが、残念ながらそうではありません。以前言ったように、特定の研究論文を見ると、2017年の技術を使用しています。2017年にさかのぼるのは少し残念に思うかもしれません。歴史的な過去からかなり年月が経っていますが、変分オートエンコーダーと、ベータ係数が制限された変分オートエンコーダーを使います。
最初に示したN1、NVIDIAの最新モデルのビデオを見れば、このビデオをすぐに理解できるでしょう。同じトピックについて話しているからです。NVIDIAが開発しているものと、香港大学、MIT、そして他の機関が開発しているものは同じ軌道にあります。微妙な違いはありますが、トレンドは同じです。
私たちは潜在的なアクション自己符号化器を探しています。ビデオからアクションが何であるかを理解したいのです。アクションのラベル付けがないので、ラベルのないビデオからアクションを抽出するための自己教師あり手法が必要です。システムは「今、人が右腕を持ち上げている」と理解し、ビデオのコンテンツとビデオトークンを見て、関連付けることができなければなりません。すべてを学習しなければなりません。
今、連続的な潜在的アクション表現を探しています。最後のものはN1やNVIDIAではベクトル量子化されていて、もしよければ単純な非連続的なものでした。今日のこのビデオのハイライトは、連続的な潜在的アクション表現に進むことです。もちろん、元の変分オートエンコーダーを使います。2017年にこれが発見され、それ以来他に何も発見されていないようです。
ステップ1は簡単です。NVIDIAのN1のようなベクトル量子化変分オートエンコーダー手法を用いた離散的なアクションアプローチとは異なり、今回は連続的な潜在空間を持っています。私たちが行うのは、異なるコンテキスト間で転送可能な、ビデオから文脈不変のアクションを抽出できる潜在的アクションオートエンコーダーを構築することです。
これは、テーブルから鉛筆を拾う人、テーブルから水のグラスを拾う人、テーブルからコーヒーカップを拾う人のビデオフレームがあった場合、テーブルから何かを拾うという文脈不変のアクションがAIによって異なるコンテキスト間で転送可能になることを意味します。テーブル、別の表面、何であれ、AIモデルで、これらがより多く同じであることを学ばなければなりません。これは本当に複雑です。
どのようなトランスフォーマーアーキテクチャを使用しているのか、新しいトランスフォーマーアーキテクチャを開発しているのかと思うかもしれませんが、残念ながらGoogleはGenieに戻っています。これは2024年2月末のGoogle DeepMind、ブリティッシュコロンビア大学のIPで、本当に魅力的な論文でした。1年以上前に私がGenieについて38分間の動画を作り、Genieの技術的な詳細をすべて説明したので覚えています。
今、このタイプのトランスフォーマーを使用しています。思い出せない場合、非常に短い要約をします。特別なSTと、時間的注意、空間的注意、古典的なフィードフォワード層があり、空間時間ブロックを持つSDトランスフォーマーアーキテクチャと呼んでいます。残りは動画で見つけることができます。
ステップ2はNVIDIAのN1に似ています。アクションを認識する事前訓練を伴う自己回帰型ワールドモデルが欲しいのです。ステップ1では、モデルは潜在的なアクションに基づいて予測を条件付けし、いくつかの細かいフレームレベルの制御を可能にします。しかし、もちろん拡散モデルを訓練したいのです。なぜなら、特定のビデオフレームにアクションベクトルを追加し、拡散モデルが次の時間ステップ、未来の予測を生成できるようにしたいからです。
テーブルの上の鉛筆に近づく手の画像があり、テーブルから持ち上げるというアクションベクトルがある場合、生成される次のビデオフレームは、テーブルの表面から1cm上に鉛筆を持っている手のはずです。この潜在的なアクションを持つ拡散ベースの潜在的拡散フレームワークは、高品質な予測を提供するはずです。鉛筆を持ち上げるというアクションを異なるビデオフレーム間で転送し、アクションを抽象化して転送可能にすることを理解するべきです。
簡単ですね。標準的な変分オートエンコーダーについて少し復習しましょう。確かでない場合、これは最大化しようとしているもので、これはカルバック・ライブラー発散です。標準的な変分オートエンコーダーの目的関数ではないことに注意してください。カルバック・ライブラー変分制約が厳しすぎると、潜在的コードが求めていた豊かさに欠けていました。緩すぎると一般化能力に問題がありました。
ベータハイパーパラメータを導入したことを思い出してください。第二項を見てください。ベータが1の場合、これは標準的な変分オートエンコーダーと同じです。ベータが1より大きいと、より強い正則化効果があり、1未満では再構成項が強調されます。システムのベータをどのように定義するかに注意してください。
もっと詳しく知りたい場合は、私が理解を深めるために使用した論文をお勧めします。これを見て「この人たちは誰だろう」と思うかもしれませんが、私は気にしません。論文を見て「これから何か学べるだろうか、これは魅力的で興味深く見えるか」と考えます。変分オートエンコーダー、クールなカルバック・ライブラー発散、これらを美しい詳細で説明しています。特に私が好きなのは視覚化で、ニューラルネットワークがあり、少しの物理的なポテンシャルがあり、詳細な数学的推論があり、コードで使用している式にぴったり到達します。
このような論文が好きです。何が起こっているのか、なぜこの式を使っているのか、なぜこれらの方程式をコーディングしているのかを本当に理解しようとしています。C++、Pythonなど、PyTorchを使用しています。この論文をお勧めします。
一般的に戻ると、NVIDIAのN1に関する前回のビデオと同様の非常に簡単な2段階の手順があります。論文から最も簡単なものは、潜在的アクションオートエンコーダーです。時間Tのフレームと時間T+1のフレームがあります。ビデオゲームだけを見ると、この人やオブジェクトは単にジャンプしました。人間にとってアクションは明らかです。潜在的アクションエンコーダーにとってアクションタイプはジャンプアップするというものです。これを数学的な空間、特定の表現を持つ潜在的なアクション空間でエンコードします。今、このベクトルθがあり、これがジャンプベクトルになります。そして時間Tの画像を取り、このジャンプベクトルを追加すると、潜在的アクションデコーダーによって、人が空中にいるという時間T+1の画像が生成されます。素晴らしいですね。そして連続的な潜在的アクションがあります。
第2ステップでは、拡散モデルがあり、拡散損失がありますが、気にしないでください。再び潜在的アクションエンコーダーを使用します。ステップ1で潜在的アクションエンコーダーを使ってビデオから潜在的アクションを抽出しました。抽出されたアクションを統一された条件として活用することで、推論時に自己回帰的なロールアウトを実行できるワールドモデル、つまり自己回帰型ワールドモデルを事前訓練します。
十分に訓練されれば、推論時に特定の時間のフレームと歴史的なフレームがあり、潜在的オートエンコーダーがあれば、このワールドモデルは即座に次のフレーム、空中にジャンプするような潜在的アクションがある場合の次の予測を理解します。トレーニングモデルは明確で、推論の挙動も明確です。それだけです。
研究を見てみましょう。これは「適応可能なワールドモデルと潜在的アクション」と呼ばれ、2025年3月24日のもので、素晴らしい研究です。香港科技大学の3年目の博士課程学生と、ハーバード大学、Google DeepMind、マサチューセッツ大学、MIT、IBMなどが参加しています。
本質的に、このモデルでは、追加の訓練なしに、一つのコンテキストから多様な他のシナリオへ潜在的アクションを転送できます。拡散モデルがあるからです。この論文には素晴らしいGitHubリポジトリがあります。少し早いかもしれませんが、本当にいま公開されたばかりです。1時間前、5時間前、7時間前に構築されたものです。コードとモデルがあり、無料でGitHubにあり、Apache 2ライセンスで提供されています。素晴らしいですね。
この特定のビデオで私が好きなのは、執筆者に関する情報があることです。よく「この論文について連絡を取れますか」と聞かれますが、私はこれらの論文の著者ではありません。私がしているのは、GitHubなどにアクセスして、香港大学の博士課程学生(2022年秋以降)の連絡先データを見ることです。モデルカードがあり、その人が既に発表したものが見られます。
あるいは単純にGoogle Scholarにアクセスして、他の著者や共著者を見て、年ごとにソートされていますので、2024年、2023年、2023年と、彼らが何に取り組んでいるかを正確に理解できます。共著者や所属機関が見られ、クリックすれば彼らの出版物などがすべて見られます。連絡を取りたい場合、追加の質問がある場合、または協力に興味がある場合は、これらの手段を使って直接連絡することができます。多くの研究者は、自分の仕事について質問されると本当に喜びます。私は問題に遭遇したことがなく、誰もが仕事を説明し、素晴らしい協力関係を築くのに役立ちました。
最後に、今日は特別な考察を加えたいと思います。「AIは私たちすべてを裏切ったのか」という特定の動画を覚えていますか?その動画の19分目で、人間が生成したデータセット、インターネットコピーデータセット、合成された指示に従うデータセット、合成された思考の連鎖推論データセット、複数の分岐を持つモナル研究アルゴリズム、複雑な非線形推論データセットのための新しいグラフトポロジーなどがあることに気づきました。
そしてこのビデオの最初の部分で示したように、因果推論のための完璧な論理チェーンに必要な最小限のセットに戻りました。なぜ迂回しなければならなかったのか、なぜ5年以上前の人間が生成したデータセットから直接、完璧な解決策に向かうことができなかったのかと考えました。インターネット全体をコピーする必要はなく、完璧な解決策に直接向かうことができたのに、この迂回に5年以上を無駄にし、今また言語最適化のための論理チェーン条件と推論チェーンの最小セットに戻ってきました。
今、ビデオ理解で同じ過ちを繰り返す必要はないかもしれません。数百の新しいデータセンターを構築する必要はなく、ワールド基盤モデルをYouTubeやソーシャルメディアのすべてで訓練する必要はないかもしれません。今回はより知的なアプローチを選べるかもしれません。単に「より多くはより良い」というのではなく、どのモデルを適用するかについて考え始めるかもしれません。
ここにワールド基盤モデル、新しいAI革命の非常に短い概要があります。LLMは昨日のものであり、ワールド基盤モデルのほんの一部にすぎません。AIは今、完全な世界の理解を本当に望んでいます。テクスチャ、温度、圧力、触覚、感度など、あらゆることが起こっていることを理解し、私たちがなぜそのように考えるのかを理解しようとしています。
いくつかのグローバル企業は、ソーシャルメディアの完全なコンテンツをコピーすると言っていますが、ソーシャルメディアが深い論理的理解のための完璧なトレーニングデータセットかどうかはわかりません。しかし、それは利用可能であり、一部はそれを行うでしょう。しかし、もう少し脳を使えば、これはハーバード、DeepMind、MIT、IBM、香港大学の素晴らしい協力で、ワールド基盤モデルをどのように発展させるかについての良い例です。
AIの次の革命に興味があれば、ぜひチャンネル登録してください。次の動画でお会いしましょう。
コメント