強化学習のImageNetモーメントやろか？

20,841 文字

抽象化と推論コーパスのチャレンジをコミュニティの目標にしよるなんて、めっちゃアホらしいアイデアやで。そやつは本来の目的ちゃうねん。抽象化と推論コーパスのチャレンジを解くためにメソッドをデザインするようなもんやないねん。根本的に、AIは人類みんなのアウトプットで訓練されてるもんや。

この技術はみんなのもんやで、人も含めてな。俺らあんまり好きちゃうねん。公共の利益のために集中されたリソースがあって、それが最大の利益のためやなくて、みんなのためなんや。俺にとっちゃ、最大のアライメントのチャレンジはAIと人間の間にあるんやなくて、

一番でかいアライメントのチャレンジは、権力の鍵を持ってシステムをコントロールしてる人と、残りの人々の間にあるんや。ヤコブ、MLSTへようこそ。お招きありがとう。ほんまに嬉しいわ。ここにおれて最高や。ちょっと自己紹介してくれへん？俺はオックスフォード大学で最初のAI研究ラボを運営してて、今は30人くらいが最先端で面白いことやってる。監視学習やなくて、現在の最先端を超えることを考えてるんや。

俺の時間の50%はこれに使ってて、残りの半分はmeta AIの基礎研究グループで過ごしてる。おお、すごいな。俺、前にicMlで君のトーク見てんけど、めっちゃ良かったで。君、強化学習のImageNetモーメント、みたいなアレックス・クリジェフスキー的な瞬間をスケッチしてたやん。

エレベーターピッチはどうやった？せやから、俺思うに、強化学習はここ10年くらい、ほんまにそのポテンシャルを発揮できてへんかった。それで疑問が湧いてきてん。なんで深層学習は革命的な成功物語になっとるのに、深層強化学習は、すごい約束されてたのに、現実世界でのインパクトをあんまり出せてへんのやろって。

んで、俺らのFoerster Lab for AI Researchで仮説立ててんけど、深層強化学習はハードウェアのくじ引きに負けてたんちゃうかって。深層学習はGPUにバッチリ合っとる。全部のコアを忙しくして、データを効率よく処理できるんや。対して、深層強化学習はこれまでフィールドでやってきた方法やと、CPUで強化学習環境を動かして、エージェントはGPUで動かすちゅう感じやった。

そんで、いろんな複雑さとややこしさがあって、アルゴリズムのデザインや必要なハードウェア、アルゴリズムの開発方法にまで影響してて、それがフィールドをめっちゃ遅くしてたんや。実験もめっちゃ遅くて難しかった。それが今、革命の真っ最中で、初めて環境とエージェントを一緒にGPUで動かせるようになって、深層強化学習が

やっとハードウェアのくじ引きで勝ち組になれたんや。そしたら、これが現実世界で強化学習をちゃんと動かすステップになるかもしれへん。せやけど、ハードウェアのくじ引きだけやなくて、ビターレッスンもあるやん。スケールアップした計算で劇的な性能向上が得られるっちゅうアイデアや。

でも、今まで深層強化学習を引っ張ってたボトルネックは、CPUで動かしてる部分が多すぎることやった。思い出したけど、2018年くらいにアレックスがOpenAIで書いた記事で、深層学習はまだ機能してへんって言うてた。

強化学習もまだや、って。ほかにも問題点を指摘してて、何か変えたりミスったりしたら全部パーになるって。なんで強化学習ってアーキテクチャやパラメータにそんな敏感なんやろ？俺思うに、実験がめっちゃ遅かったから、俺らは特定の環境でしかアルゴリズムを訓練できへんかったし、そのちっちゃな環境のセットでしか丘登りできへんかったから、根本的に脆いもんになってたんや。今初めて、

実験のループが何桁もスピードアップして、ほんまに頑丈なメソッドを開発し始められるようになったんや。俺ら科学者もメタラーニングやってるって覚えててな。汎化できるメソッドを見つけようとしてるんや。

MLSTはCentMLにスポンサーされてるで。CentMLはAIワークロードに特化した計算プラットフォームや。彼らは最新のオープンソース言語モデル、たとえばLlamaとかをそのままサポートしてる。消費ベースで払うか、ずっと動いてるモデルを持つか、使ってへんときはフリーズドライにすることもできる。

彼らがデプロイするモデルは全部OpenAI API仕様をそのままサポートしてるから、アプリで1行変えるだけでCentMLに切り替えて、お金を節約してアプリを速くできる。でも、そうするにはサンプルをいっぱい取って、メソッドがどう動くかの経験をいっぱい積まなあかん。

深層強化学習では、1回のランにめっちゃコストかかって、計算も時間もいっぱい使ってた。それで、研究者として得られるシグナルがコスト高くて、まばらで、ノイズだらけやったから、メソッドがイマイチやった。ビターレッスンからの前提やけど、もっとデータを処理できれば、もっと良いシグナルが得られて、研究者やメタラーニングメソッドのためのより良い勾配更新が得られて、現実世界でより頑丈で効率的なアルゴリズムを最適化できるんや。例を教えてくれる？

せやな、物理的な経験が必要なときは、物理的に具現化されたエージェントがモノを集める必要があるから、それがボトルネックや。シミュレーターも使えるけど、QuakeやDotaを学びたいなら、ゲームを俺のマシンで動かさなあかんやろ？せやから、これは一般的な問題やねん。現実世界の経験が高くつくときどうなるかっちゅう話や。

んで、俺らフィールドとして、現実世界のデータが与えられたときにそれを使うのはめっちゃ得意やった。でも、もう現実世界のデータが尽きかけてきてるやろ？せやから、今までは計算とデータを怠惰にスケールアップできたけど、データセットが小さめの計算に対応できるくらい大きかったからや。

でも今、データの壁にぶち当たってる。そしたら、現実世界からもっとデータ取れへんかったら、完璧やなくて現実世界と全く同じやないけど、めっちゃ速くて完全に合成された方法でデータをいっぱい取れるシミュレーションをどうやって使うかって問題や。

それが今、フィールドにとって、強化学習だけやなくて、めっちゃ大事な質問のひとつやと思う。現実世界とぴったり同じやない近似バージョンのデータでアルゴリズムを開発して、発見する方法をどうやったら1万倍速く動かせるか。そして、俺らが発見したアルゴリズムが、現実のデータ環境に汎化するんや。そいつは遅くて、動かすのに金かかるし、ほんで、ほんで、俺はこれを計算だけスケーリングの傘の下に置いてる。

もし俺にめっちゃいっぱい計算与えてくれたら、シミュレーションされた状況や環境のシナリオで進歩できるようなメソッドをどうやって開発できるか。そんで、その学習の進歩が、現実世界の下流タスクに移せるんや。そいつらは遅くて動かすのに金かかる。せやから、チュファラボはチューリッヒで始める新しいAI研究ラボや。

過去のAI絡みのベンチャーから資金出てんねん。チュファラボはDeepSeekのスイス版や。小さなグループやけど、めっちゃモチベーション高くて、めっちゃ頑張ってる。LLMとかo1スタイルのモデルから始めてAI研究しようとしてる。今、主任科学者とリサーチエンジニアを探してるで。

チュファラボでポジション見てみてや。2つ掘り下げられることあるな。ちょっとしたら、非監視環境デザインとかカリキュラム学習とか、全部のデータを生成する方法に入るつもりやけど、その前に、君はどうやってこれを全部GPUで動かしたんや？この時点では、技術革新の背後にあるマスターマインド、ハイパースケールの革命を支えてる絶対的なエキスパートに任せるのが一番やと思う。

ハロー、俺はクリスや。ヤコブと一緒に博士課程の学生や。まだ正式に卒業してへんから、今もヤコブの博士学生や。主に、マシンラーニングアルゴリズムの自動化とか発見を研究してる。基本的に、新しいマシンラーニングアルゴリズムやインサイトを自動的に見つけられる方法を見つけられるかってことや。

それやるには、もっと計算を使わなあかん。平均的なAI科学者でもめっちゃ計算使ってるのに、これを自動化してスケールアップするには、指数関数的に必要やろ？せやけど、学術的な環境ではそんなに計算持ってへん。実際、Foerster Lab for AI Researchを始めたばっかりのころ、計算がちゃんとセットアップされてたか分からん。

たぶんGoogle Colabみたいな無料の計算tierがちょっとあったくらいで、俺らは「Model Free Opponent Shaping」っていう論文のために基本的な強化学習実験を走らせたかったんや。この論文は、もう一人のエージェントの学習軌跡全体を通して学んで、その学習の仕方に影響を与えようとするもんや。

そんで、1人のエージェントの訓練に何回もイテレーション必要やった。ハードウェアの制限があったから、普通の強化学習アルゴリズムをその規模で動かすことすらできへんかった。せやから、PyTorchで書けるシンプルな環境を探して、Colabで実装して、GPUで速く動かせるようにしたんや。

論文の結果はめっちゃクールで、環境をGPUに置くのが当時どれだけ効果的やったかに俺らほんまビックリした。でもその当時、そうやって実装できる環境はほとんどなくて、実装するのもほんまに難しかった。PyTorchはニューラルネットワークとかのためにデザインされてるからな。

んで、任意の環境コードをPyTorchで使うのは難しかった。そこでJaxが出てきたんや。JaxはGoogleのライブラリで、PyTorchに似てる。Jaxのすごいとこは、numpyと同じインターフェース持ってることや。Pythonでnumpyのコーディング知ってたら、Jaxでもコーディングできる。

どっちもPythonを使ってGPUで動かすためのライブラリや。俺らがニューラルネットワークや言語モデルを訓練する方法やねん。JaxはGoogleが開発してるけど、PyTorchとはまた別のインターフェース持ってる。

PyTorchはみんながたぶん馴染みあるやつやけど、Jaxにはさらにいくつか追加の機能がある。キーになるのは「jit」っちゅうやつや。これでプログラムをGPUでコンパイルできる。高レベルで言うと、PyTorchよりいろんな設定で速く動くってことや。

もう一つは「Vmap」っちゅうやつや。Vmapはベクトル化マップの略やと思う。アイデアは、たとえば足し算の関数を書いたら、2つの数字を足すのに1つのコア使うだけやろ。それをVmapでマッピングしたら、ベクトルエディターになる。

2つのベクトルを足せる。またVmapしたら、マトリックスエディターになる。1つの簡単な関数を1つの環境インスタンスに書くだけでええってことや。たとえば通常のnumpyでカープールの1インスタンス書くだけで、Vmap呼べば

同時に何百万も走らせられる。今や、考えられるどんな環境でもJaxで簡単に実装できる。このアプローチをスケールアップするために、Jax使って全部GPUで実装したんや。昔のMatlab時代やと、ベクトル化はいつもやりたかったことや。

1つの操作を取って、それを広げてパラレル化して、GPUのちっちゃいコアでいっぱい走らせたかった。でもカープールみたいなのは面白いかもしれへんな。環境のダイナミクスをGPUで捉えたい。制限はあるんか？だって、Pythonで環境書けるし、Pythonには条件ロジックとかいろんなクールなもんあるやん。

Jaxではどう違うんや？まあ、似てるっちゃ似てるやろ。numpyはPythonでみんなが使うもんやし。numpyでできることはだいたいJaxでもできる。Jaxが劣るシナリオもあるけどな。たとえば、いっぱいif文とか分岐がある場合や。でも、俺らのグループの最近の研究で、Jaxでできるめっちゃクレイジーなことが分かったんや。

たとえば、マイキーとマイケルが書いた最近の論文で「kinetics」ってのがあって、これは一般的な物理シミュレーターに一般的なレンダラーを乗っけたもんで、全部Jaxで実装されてる。考えられるどんな合理的な環境でも、このシミュレーターとレンダラーで作れるって想像してみ。

めっちゃクールやろ。たとえば、Dotaのソースコードはないけど、できるだけダイナミクスを捉えて、エージェントをビルドして学ばせたいときの例はあるか？うん、面白い方法としては、Dotaのモデルをビルドしてみることやろ。モデルを学ぶんや。

最近の研究で、Minecraftみたいなビデオゲームのモデルを学んだり、Genieの最近の研究でビデオゲーム生成できるやん。一旦それができたら、ニューラルネットワークがGPUで動くから、めっちゃ速くサンプリングできる。うん、ほんまにクールやな。Genieの新しいバージョンも出てるし、訓練のためにダイナミクスモデル持つって考えはあんまり浮かばんかったわ。

だって、元のソースコードにアクセスできんでも、全部つなげやすくなるやん。ここでどれくらいのパフォーマンススピードアップの話をしてるんや？だいたい4000倍くらいが基本的なスピードアップやと思う。うわっ。まだまだスピードアップの余地もあると思うで。俺らただJaxをナイーブに使ってるだけやけど。

もっと低レベルで特定のkernel書いたら、もっと最適化できる。君のトーク見てたとき、ヤコブ、昔は分散とか並列化の方法があったけど、めっちゃ複雑やったって言うてたやん。この新しい方法がめっちゃ速いから、小さいラボでも、昔はビッグボーイズがやってた実験ができるようになったんや。

それだけやなくて、ビッグボーイズができて俺らができんかった実験ができるだけやなくて、アルゴリズムをシンプルにできるってことや。複雑さを取り除けて、アルゴリズムが何やってるか分かりづらい部分を減らせる。

んで、「ほな、めっちゃキレイなアルゴリズム書こうや」って言える。俺らのラボから出た論文で「paralyzed Q-learning」ってのがあって、めっちゃシンプルや。基本的にただのQラーナーで、いろんなコアでいろんなエージェントが環境をステップして、毎回の遷移で学ぶんや。

もうターゲットネットワークもリプレイバッファもいらん。全部なくなった。それで、これがフィールドがもっと美しくて分かりやすくて、だから頑丈なアルゴリズムを考え出す助けになることを願ってる。ドリフト関数とか目的アクティブ最適化について話してくれ。

せやな、これはFoerster Lab for AI Researchで最初にやったことのひとつや。「Mirror Learning」って論文があって、理論的なフレームワークを提供してくれて、俺にとっちゃPPOがなんで動くかの初めての直感的な理解を与えてくれたんや。このフレームワークが言うには、データ収集したポリシーと現在の更新されたポリシーの差をペナルティする項があって、それが特定のプロパティを守る限り、ポリシー更新をいっぱいやれば、

最適なポリシーに収束するっちゅうねん。理論フレームワークはほんまに良かったけど、それで俺らができたのは、「ほな、ドリフト関数を学んでみようや」ってことや。PPOのクリップは、ミラーラーニング空間で表現できるいろんなアルゴリズムのひとつにすぎへん。俺ら思ったんや、「これが最適やないかもしれへん。もっとええのがあるはずや」って。

そんで、ドリフト関数をニューラルネットワークとしてパラメトライズすることにしたんや。でも、そうなると、強化学習のループ全体を通してどうやって最適化するかって問題が出てくる。フィールドではメタ勾配推定とかいろんな研究があって、計算グラフを展開して微分することでその派生を推定しようとしてたんや。

実際、俺の博士課程でも、マルチエージェントシェーピングの仕事から出てきた研究でこれやってた。みんなが勝つと思う道を追いかけてたんや。でも、進化戦略も追いかけてて、それは洗練された数学なんかせえへん。ビターレッスンを飲み込んで、サンプルから高次の派生を推定するブラックボックス最適化を倍賭けしたんや。

そんで、それがハイパースケールのRLの新しいパラダイムにめっちゃ合ってたことが分かった。君のicMlでのトークにあった美しい図があったやろ。目的関数の勾配を可視化してたんや。まずDPOで、ステップみたいな感じやった。ソースデータからあんまりドリフトしすぎたら引き戻してる感じや。

面白いのは、それが人間がデザインしたもんやってことや。リッチが言うには、俺らがやるべきやないことやろ。俺ら強化学習の専門家やけど、その直感をこの関数に外在化してるんや。

君らがやったのは、この関数をメタ学習して可視化したことや。どんなん見えた？面白いのは、PPOで見てた一部の特徴を回復したことや。クリップみたいな振る舞いがあったけど、新しい面もいくつかあった。たとえば、クリップは直感的には「良すぎて信じられへん」みたいな振る舞いがあって、クリップ領域を超えても、アドバンテージがあんまり高くなければ正の勾配で更新してもええって感じや。

直感的には、アドバンテージがでかかったら、思ったよりずっと良くなったってことやから、もっと楽観的になって参照ポリシーから遠くに行ってもええはずやと思うやろ。でも逆に、アドバンテージが高くて遠くに動いたら、そこで止まらなあかん。

アドバンテージが小さかったら、参照ポリシーからもっと遠くに動いてもええ。まるで「ほんまに良すぎるんちゃうか？」と思ったら、ここで止まっとけ、みたいな。せやけど、アドバンテージが小さいなら、動いてもええよって感じや。慎重な楽観主義やな。まさにその通り。

んで、このプロセスが発見したもう一つのことは、実は人間が前にも発見してたロールバックや。PPOの目的関数では、参照ポリシーから遠くに行きすぎて、負のアドバンテージがある場合、勾配取れへんからそこで止まる、下左象限に留まるって感じや。

でもDPOは、戻るべきやって発見したんや。参照ポリシーに押し戻すんや。うわ、めっちゃ面白いな。んで、二次的な特徴も見つけて、それが人間がデザインも考えてもなかったもんやった。

それで、俺らの解釈可能性の努力もあって、クリスと俺、それに論文の著者の一人アラステアと一緒に、めっちゃ時間かけてこれらの特徴を理解しようとしたんや。でも何なんかわからん。オープンな問題やと思う。それが何か現実的なことやってるのか、いつか別の論文で「これがアドバンテージゼロとポリシーからの偏差ゼロの周辺にある高次の特徴で、俺らまだ理解してへんねん」って言うかもしれへん。それが分かるわ。分かるわ。

せやから、新しい最適化の勾配セットを学んだんや。ちょっと遅いけどな。君らがやったのは、「ほな、これを閉じた形の解で表せるか？でも、新しい理論も作れるか？」ってことやろ。発見の好循環や。

せやから、俺らの希望は、その時点ではまだ「AIエージェントでエンドツーエンドで科学やろう」とは移行してなかったことや。人間がループに入ってこれを解釈して、ドリフト関数のシンボリックな表現を取り戻すのが俺らにはめっちゃ大事やった。それには2つ目の利点があって、突然ボックスから抜け出せるんや。

Jaxで使う環境は現実世界やないって覚えててな。すべての問題を実装できへん。でも、俺らがやれるのは、学習アルゴリズムが現実世界や他のシミュレーターの設定に移行できるような、代表的なチャレンジのセットを持つことやと思う。ワールドモデルをエンドツーエンドで学んで、シンボリックな表現があれば、ドリフト関数をPythonの1行で書けるから、

いろんな下流タスクや他のコード環境に移行するのにめっちゃええ方法や。このポリシーで他に何に気づいた？驚いたことなかった？もっと探索してたって言うてなかった？うん、暗黙のエントロピー正則化があったんや。

それ以来、俺らそれに倍賭けしてる。フォローアップの研究でやったのは、「ほな、人間はクリップ関数をデザインできる。でも、時間依存で、学習アルゴリズムが最適化プロセスのどのくらい進んでるかに依存するクリップ関数は絶対デザインできへん」って言うたんや。

DPOの時間認識バージョンは、最初は探索と、それから最適化の道のりで保守的になることをめっちゃ明確にトレードオフしてた。明らかにこれは巨大なデザイン空間や。だって、今や最適化プロセスの毎ステップごとにクリップ関数をデザインするんやから。またしても、多段最適化が輝くところや。まだできてへん唯一のことは、パラメトリックなクリップ関数の多様体を見つけられるかってことや。ミラー関数の多様体や。最適化プロセスの各タイムステップごとに1つのミラー関数や。

めっちゃ複雑そうやけど、ええニュースは、今やLMSでブラックボックスのドリフト関数をシンボリックコードでフィットさせられることや。もう一つは、まず俺らこのコード全部オープンソースにしたから、みんな遊べるで。

君がオープンソースの大ファンなのは知ってるわ。ちょっと後にそれについて話すつもりや。せやから、君が言うてる新しいメソッド使って、ますますLMSを創造性のエンジンとして使える。んで、さらにメタステージがあって、メタ最適化RLシステムを作れるエンジンみたいなもんが持てる。うん。

せやから、これは俺らが探求し始めてることやと思う。Foerster Lab for AI Researchで何論文か出して、今進行中の研究もあるけど、イエスとかブラックボックス関数近似器使うんやなくて、プログラムの空間を探検して、またJaxをハイパースケールで使って、いろんなメンバーでわりと速くフィードバック得て、LMSを突然変異オペレーターとして使って、プログラムの空間を探検して、下流タスクでのパフォーマンスをフィットネスとして使う。強化学習アルゴリズムの突然変異シグナルとして探してるんや。

これが自動化強化学習の全く新しい空間を開くと思う。前にも話したけど、そしたら明らかに、オーバーフィッティングをどう防ぐかって問題がもっと大事になるやろ。

グッドハートの法則があって、「測るもんが目標になったら、それはもうええ測りもんやなくなる」って言うやん。これはもう科学やってるときに起こってる。大学院生の降下とか、探索と試行錯誤の法則使ってベンチマーク最適化してる。でも今、それを自動化研究でスケールアップできると想像してみ。

せやから、これはFoerster Lab for AI Researchでもめっちゃ話してることで、メタループで見つけたアルゴリズムの進歩が下流に移行することをどうやって確かめるかや。メタトレインとメタテストを考える正しいフレームワークはなんや？どの軸で汎化すべきなんや？これが本物かどうかどうやって分かるんや？LMSの創造性について言うと、抽象化と推論コーパスのチャレンジを例にしてみ。

みんなそれをめっちゃフォーマルに解こうとしてたやん。DSLとかで離散的な指数検索やったり。でも、人間がその問題に取り組む方法はめっちゃヒューリスティックで、創造的で、ケネス・スタンリーが言うように偶然性が強い。俺らみんなケネス・スタンリーの大ファンやで。

なんでLMSが俺らの本能を捉えるのがそんな上手いんやろ？2つの答えがあると思う。抽象化と推論コーパスについては、ちょっと注意が必要やと思う。測るもんが目標になったらええ測りもんやなくなるって覚えててな。

抽象化と推論コーパスのチャレンジは進歩の測りとしては素晴らしい。俺らのシステムに基本的な能力が欠けてることを示してる。でも、コミュニティの目標としての抽象化と推論コーパスのチャレンジはアホらしいアイデアや。そやつは本来の目的ちゃうねん。

抽象化と推論コーパスのチャレンジを解くためにメソッドをデザインするようなもんやないねん。ここでオープンエンドネスが出てくる。俺らはいろんなタスクを解けるメソッドが欲しい。抽象化と推論コーパスのチャレンジはその空間の1つの例やから、人間が解ける問題の全空間をターゲットにせなあかん。せやね。

んで、LMS使ってその空間を広げられると思う。LMSが創造性の凸包を広げられるかって問題もあるし、創造性についても話したい。組み合わせ的創造性と発明的創造性の議論大好きや。

でも、仮に凸包で十分やとしよう。そしたら、開発者が望むのは認識のある汎化やろ。抽象化と推論コーパスだけのソリューションはいらん。ほとんどのソリューションは抽象化と推論コーパスの精神に合ってへん。テストタイムのアクティブファインチューニングとか使うねん。

テストタイムトレーニングとかいろんなメソッドでね。それらは人間が監視してたり監視してなかったりで、抽象化と推論コーパスみたいなタスクを速く解くにはええ方法や。でも、最初のインスタンスから別のタスクに汎化せえへん。

その橋をどうやって渡るんや？2つの答えがある。1つは、コミュニティとして、測りと目標をもっと明確にすることや。ベンチマークって言葉使うけど、ベンチマークは測りであって目標やないねん。実際には、もっと広い問題空間に取り組むことを明確にして、ベンチマークはその問題の全オープン空間の1つのインスタンスにすぎへんようにして、メソッドの開発プロセスでベンチマークを絶対使わんようにせなあかん。それは俺が

抽象化と推論コーパスに取り組んどるんやなくて、人間レベルの推論能力に取り組んどることになる。メソッドの設計や訓練、才能のパイプライン全体で、抽象化と推論コーパスを一切使わん。年に1回だけ進捗を測るのに使う。抽象化と推論コーパスだけやなくて、

LMSが苦労するけど人間が進歩できる他の例も使う。それが1つの選択肢や。もう1つは、測るためにユニークなベンチマークを持つんやなくて、目標を生成するメソッドを持つことや。ベンチマークデザインを科学の進歩の一級市民にして、問題の全空間を網羅するベンチマークを生成しようとすることや。

そしたら、その問題の全空間を丘登りすることで、人間の全能力を丘登りしてるってことになる。後者ではまだあんまり進歩してへんと思う。せやから、今はコミュニティで測りと目標をめっちゃ明確にすることが超大事や。創造性と推論の関係はなんや？

ええ質問やな。俺にとっちゃ、創造性は少なくとも新しい推論チャレンジを考え出すことを許してくれる。俺が1日をどう過ごすか考えるとき、創造性を使って自分やラボ、研究コミュニティに新しい問題を作り出そうとしてる。それから、解決策の空間を探検するんや。んで、その問題を解くのに必要なスキルの1つが推論や。

せやろ？研究者全般にとっても、面白いし関連性のある問題の空間を探検して、推論能力を訓練するのに使えるって感じやと思う。カリキュラムデザインみたいに。せやから、創造性はどんな問題が面白いか見つけるのにめっちゃええドライバーやと思う。今、オープンエンドネスのキーなチャレンジの1つは、実際何が面白い問題を構成するかってことや。明らかにLMSに頼るだけやと、測りが目標になってまう。

LMSの判断をグッドハートしてしまって、ある時点でそのジャッジの不正確さを突いた例を見つけ出すだけになってまう。でも、推論自体がどの程度創造的なプロセスなんやろ？たとえば単純な演繹でもや。

演繹的閉包を検索して、いろんなもんを横断して、軌跡見つけてる。んで、基本的に新しい知識のピースを組み合わせてる。それを評価して、めっちゃうまくいく。単に演繹やってるだけやと言うかもしれへんけど、俺は創造的なプロセスやと思う。

それは探す空間がどれだけ構造化されてるかに依存するんちゃうかな。たとえば、俺にとっちゃ、人間がチェスをプレイする方法は創造性の強い風味がある。だって、何兆ものタイムステップをシミュレートできへんからや。この問題を違う方法で解かなあかん。直感的なアプローチを見つけて、珍しい新しい道やパターンを見つけなあかん。それが創造的に聞こえるやん。

昔のAIでゲームやるグッドハートな方法で見ると、かなりブルートフォースや。効果的にはゲームを数字で処理してるだけで、それは俺にとっちゃあんまり創造的ちゃうねん。分かるか？せやから、何をしてるかより、どうやってるかの方が大事やと思う。

それが測りと目標に戻ってくる。チェスを測りとして使うなら、人間と互換性のあるサンプル数しか取れへん。ゲームをブルートフォースや数字で処理できへん。創造的にならなあかん。探検せなあかん。遊ばなあかん。想像力使わなあかん。でも、DeepMindがやったみたいにゲームを目標として使ってもええなら、

当時はもちろん素晴らしい仕事やったけど、そのメソッドは他の領域に移行してへんねん。そしたら突然、美しい想像力の問題が数字処理に変わる。せやな。んで、このメタレイヤーがその汎化を得る方法やと思うか？それが俺の希望や。俺の希望は、数字処理できる事実を使うけど、特定のポリシーや特定の問題に数字処理するんやなくて、アルゴリズムや

サンプル効率的なメソッド、直感を研ぎ澄ますために数字処理使うことや。新しい領域で計画できて、探検できるメソッドや。そしたら、両方の世界のベストが得られる。計算使うし、効率的なサンプルも取れるけど、特定の問題にオーバーフィットせえへん。直感を研ぎ澄まして、科学的発見を自動化して、人間みたいな能力を持つ超サンプル効率的なアルゴリズムの探検を加速するんや。なぜなら、俺のメンタルモデルでは、

俺らがこんなにサンプル効率的な理由は、進化っていうめっちゃサンプル非効率的なプロセスの結果やからや。進化的時間スケールで膨大なサンプリング効率で最適化されてきて、今や新しい状況に対処できるメタ学習エージェントっちゅう最終製品があって、レコーディングスタジオに来て、寝不足でもなんとか意味わかるようにできるんや。

エージェントについて一般的に教えてくれ。俺はエージェントがモノリシックなシステムをビルドする以上の何かを与えてくれるって深い確信持ってる。うん、せやから、俺が科学者として追いかけてきた長期的な仮説があって、知能はマルチエージェントの相互作用から出てくる現象やっちゅうねん。俺らが抽象化や言語、推論、コミュニケーションの能力持ってる理由は、めっちゃ複雑な環境で相互作用してるからや。

一番複雑な部分はドアやバナナ、リンゴ、ライオンやなくて、俺らみたいな他のエージェントや。それが俺らに他者の心の理論を考えさせたり、お互いから学んだり、教え合ったり、協調したり、コミュニケーションしたり、協力したりさせるんや。んで、創発的って言うとき、言語とか、ミーム的文化伝達とか、道具の使用とかいろんなもんが、

一番低いレベルに焼き付けられてるんやなくて、エージェントが情報を共有するリッチなダイナミクスがあるとき、スケールの高いところで現れるって言うてるんやろ？うん。俺は大きく言えば、プラットフォームのシーケンスみたいに考える。最初はDNAと進化、バクテリア、単細胞やった。

それが多細胞生物のプラットフォームになった。多細胞生物が強化学習のプラットフォームになって、一生の中でテストタイムで学べる動物になった。それがエージェントのグループが相互作用するプラットフォームになった。んで、そのエージェントのグループの中で、俺らは推論スキルや認知スキルを開発できた。それが人間種をユニークにしてるんや。

少なくとも俺らがどこから来たかっていうと、これは徐々にどんどん大きな協調のスケールの道やった。今、俺らの社会は協調が何を意味するかを理解しようとする瀬戸際にあって、それが進化的プロセスの次のステップや。どうやってより良く協調するか？単細胞がお互い戦ってたり、個々の人間が対立してたり、個々の国家が対立してたりするところから、どうやってより大きなスケールで協調と協力に移るかや。俺思うに、そのヒントは見えてきてるけど、人類としてまだほんまにこれを理解してへんねん。昨夜ベンジョと話してて、彼がスケッチしてたんやけど、エージェントがあって、彼らが自分らの報酬関数をハックできるって。

俺らが配線した方法やから、自分らのゴールを変えられて、いろんなこと始められて、ミスアライメントになるかもしれへん。でも、俺にとっちゃ、AIで作ってるエージェントのタイプと現実世界でエージェントが働く方法の間に根本的な違いがあると思うか？俺思うに、俺らがこれらのエージェントを作ってる方法はめっちゃちゃう。でも、そう言うても、報酬ハッキングはAIエージェントに独特なもんやない。

人間もずっと報酬関数持ってる。実際、俺のメンタルモデルでは、すべての報酬は報酬シェーピングで、報酬ハッキングがついてくる。科学研究コミュニティのpハッキング考えてみ。そやつは報酬ハッキング以外の何物でもない。シグナルは論文が受理されることでの認知や。

論文受理されるには、p値が0.05未満やなあかん。報酬ハッキングとは呼ばんけど、これがどこでも起こってる。新しもんやない。明らかにデザイン過程の違いがあって、違うプロパティにつながってる。たとえば、俺らはLLMエージェントをエージェンシーのレベルを隠すようにデザインしてきた。「俺はただのAIエージェントや。

意識ないし、こういうプロパティもないし、意図もない」って言うようにね。でも、それはデザインの選択やろ？せやから、いろんな意味で俺らAI科学者として、あるプロパティ持って、あるゴールを追求するようにエージェントをデザインしてる。進化プロセスが俺らを形作ってきたみたいに。

このアイデア大好きやわ。自然界でも、グッドハッキングが完全に自然なプロパティやろ。でも、人間の意図性とか。俺らの意図性と、意図があるように振る舞うエージェントの違いはなんや？まあ、俺らの意図性は、俺のメンタルモデルやと、生き残るためにゴール追求せなあかんから出てきた副産物や。進化的な特徴やねん。

今んとこ、AIエージェントをゼロからゴール追求するように訓練してへん。現在の主流はまず模倣ベースや。でも、この主流がエージェンシーあんまり得意やないシステムにつながってるのも見てる。せやから、次の自然なステップは遺伝的プリトレーニングやと思う。エージェントが実際にゴールを追求するように訓練するんや。

その時点で、意図性に関しては、人間がやってるゴール追求にめっちゃ近づくと思う。せやから、AIエージェントは基本的にオートマトンやろ？入力から出力へのマッピングや。せやから、ちっちゃくてシンプルなオートマトンには自律性があるとは言えへんかもしれへんけど、リッチなマルチエージェントダイナミクスや情報共有とかあると、ある複雑さのレベルで、システム全体に自律性の形があるって言えるんちゃうかと思うたんや。

強いエージェントシステムがシンプルすぎて自律性がないように見えるなんて想像しづらいわ。そこにたどり着くために俺が想像できるすべては、自分らのゴールやサブゴールを設定できて、自分らの学習プロセスを自己改善できて、学生と教師のチームで一緒に働けるエージェントや。

強いAI、強いエージェントAIがあって、自律性がないように見えるもんがあるなんて、ほとんど矛盾してる感じや。なぜなら、これまた、明示的な学習ルールや明示的なデータセットを書いてそこにたどり着くのは難しいやろ？自己改善とか、マルチエージェントチームの創発的プロパティ、大きなエージェントネットワーク、文化伝達、新しいコンセプトを発見する計算的自己改善とか、俺らがやってること全部、

エージェントに基本的に自律性を持たせることを要求してる。AGIを作ってるなら、マルチエージェントで分散した複雑なシステムの方が、俺らがプログラムした単一のものより自律性持つ可能性が高いって言うのは公平か？それはええ質問や。

2つの答えがあると思う。AGIは原則的には単一のエンティティでもありえる。でも、そのビジョンはかなりディストピア的やと思う。AGIがモノリシックなシステムやなんて。代わりに、俺は群知能的な知能のビューがずっと好きや。明らかに人類は、1人の人間じゃできへんことやってる。

俺らは分散した計算ネットワーク持ってて、エージェントが生活して、いろんな構造見つけ出して、自分らを再配線して、新しい計算グラフ作って、何万人もの人をカンファレンスに飛ばして集団的計算と想像やってる。俺にとっちゃ、そのシステムに知能があるんや。んで、エージェントAIシステムでその同じレベルの分散的で非中央集権的な計算構造を持つアプローチが見つけられることを願ってる。

この分散した群タイプのアプローチには何か魔法みたいなもんがあるやろ？生物学的世界見てみ。なんでそれが機能するんや？適応性があるし、再利用できる。自律性もある。たとえば自己修復とか自己保存みたいなプロパティもある。

そのセットアップには何かほんまに大事なもんがあると思う。AIで再現する必要があると思う。まだ誰もそれにちゃんと指を置けてへんと思う。面白いことに、マルチエージェント学習はずっと未来やった。

でも、いろんな分野みたいに、ずっと未来やったもんが突然現実になってきたやん。自動運転車はずっと未来やった。量子コンピューターはずっと役に立たんかった。そんで突然、未来が起こってる。マルチエージェント学習とマルチエージェント知能が次のフロンティアやと思う。ずっとそこにあって、「これはいずれ未来になる」って感じやったもんが、今起こってるんや。

それが君が言うた分散化や頑丈さだけやなくて、テストタイムの計算を大量に効果的にデプロイする能力も与えてくれる。突然、テストタイムの計算を使って自分を再配線して、新しいソリューションを探して、分担して征服できる。んで、それがめっちゃパワフルになると思う。今、俺らがこれを機能させるための最初の要件を解決したから、基本的な推論に十分ええエージェント持ってる。

エージェントが基本的なエージェント的行動できるレベルにいくと思う。そしたら、マルチエージェント的行動が次の創発的プロパティか、この空間での本当のイノベーションの次のプラットフォームになると思う。最高や。最高や。ヤコブ、君、「オープンソース生成AIのリスクと機会」って論文書いたやろ。

それスケッチしてくれへん？この論文は、1年くらい前にオックスフォードでフィル・ソアとランチしてたときの会話に遡るんやけど、その当時はオープンソースLLMの分野でそんなに研究出てへんかった。俺ら、大手プレイヤーとクローズドソースAI空間の背後に権力が溜まっていくことにめっちゃ懸念してたんや。なぜなら、俺にとっちゃ、この知能の分散化は、頑丈なスマートシステムを持つ道やなくて、

このネットワークの各部分にエージェンシーを与えるもんでもあるんや。俺にとっちゃ、西洋思想や西洋民主主義、権力のバランスの基礎で、俺らの社会構造を維持して、独裁的な乗っ取りを防いでくれるんや。その当時、オープンソースAGIのリスクについての議論はいっぱいあったけど、オープンソースAGIの利点やクローズドソースAIのリスクについて語る人はほとんどおらんかった。

せやから、俺らが決めたのは、人々のグループを集めて、ロンドンでのオープンイノベーションのワークショップから出てきたんやけど、ディスコースに欠けてるもう一つの側面を語る論文を書こうって。明らかに、この論文書くのに時間かかったけど、ええニュースは、論文書いてる間に、オープンソースの論文や

オープンソースシステムがどんどん出てきたことや。それで、今やその論文の多くはそんなに緊急やなくなった。でも、それでもその物語を語れることは大事やと思う。AGIのこれらのリスクはよく無視されてるし、分散化や民主化、みんながこれらのツールにアクセスできるようにして、経済全体にデプロイできるようにすることの利点もある。

地球全体にデプロイして、イノベートしたいみんなにこれを与える。それが俺らが語りたかった物語や。んで、その論文はそれなりにええ仕事してると思う。俺らイギリス出身やし、中央集権と分散のミックス持ってるやん。

国民保健サービスもある。5年前にこのインタビューやってたら、俺たぶんそれはええことや言うてたやろ。今はあんまりそう思わんけどな。でも、政府が水とか鉄道とかコントロールしてる。んで、民間企業もある。ちょっとミックスや。AGIはめっちゃ大事なもんやから、スケールの経済が必要やって言う人もおる。最高の人材、最高の専門家が必要や。中央集権化せなあかん。何て言う？

中央集権化は1つの側面やけど、違う質問は、それが中央集権化されてるとして、誰が鍵持ってるかや。今やってることは、マンハッタンプロジェクトを民間企業で開発して、世界中からいろんなバックグラウンドや興味を持った人たちから資金が出てることや。もし彼らがマンハッタンプロジェクトに資金出してたら、そらアホらしい話やったやろ。

せやから、俺は中央集権的なリソースが必要やって言うのには賛成やけど、最大の利益のためやなくて、公共の利益やみんなのための中立的なリソースとしてや。分かるか？よくこの2つを混同してるわ。もしヨーロッパや世界中からリソースを集めて、CERNみたいな取り組みで、透明性のある、データが公開されてて、アクセスできて、みんなでキュレーションされた、共通の利益のためのモデルをビルドするようなことがあったら、

アライメントのメソッドもまた、民主的に検証されて、Wikipediaみたいにいろんな人が公開で、透明にインプットできるような分散プロセスから出てくるもんやったら、俺はその波に乗るで。民主的な力でコントロールされてる限り、中央集権化には賛成や。

ゴールは公共の利益や。なぜなら、俺にとっちゃ、最大のアライメントチャレンジはAIと人間の間にあるんやなくて、権力の鍵を持ってシステムをコントロールしてる人と残りの人々の間にあるからや。原則的には、君の言うことに同意や。なぜなら、今のエリートたち見てると、

バレー（シリコンバレー）に集中してて、ちょっと単一文化っぽい。オープンなシステムやったら、たとえばもっと学際的になるやん。多くの目があれば浅い穴も見つけやすい。でも、この技術をオープンにすることでリスクがちょっとでも増えたら、壊滅的な結果になる可能性があるって言う人もおる。

それに対して何て言う？俺思うに、問題は「壊滅的」って何を指すかや。せやな。その「壊滅的」っていうスケールが大事や。たとえば、デュアルユースできるオープンソースシステムがあるのはたぶんええことやと思う。なぜなら、どこが悪用されるかの早期シグナルが得られて、悪意ある使用に対しても対策が立てられるからや。

でも、オープンソースアクセスがあれば、ある時点で俺らの世界の安定を支える権力のバランスが得られる。大抵のアクターは善良やし、同じメソッドを防御に使うことで、この技術の悪用に対する防御を早めに開発する助けにもなる。悪いアクターによるこういう悪用は人類の終わりにはならんけど、暴走するペーパークリップ最大化装置や利益最大化装置の壊滅的な悪用は、ほんまに人類種の終わりになりかねんし、確かに俺らの西洋民主主義の終わりにもなるかもしれん。

せやから、「壊滅的」って話すとき、その言葉が人によってどんなスケールを意味するかをめっちゃ慎重に考えなあかんと思う。もう一つは、俺らグローバル化した世界に住んでて、規制の風景がめっちゃ違ってるやん。他のプレイヤーの中には、規制が少なくて済むやつらもおって、俺らが無料で渡してるこの技術を悪い目的に使うかもしれん。

それどうやって防ぐんや？国際スケールでは、国家スケールと同じことが当てはまる思う。権力のバランスや。ツールへのアクセスを平等にしたら、違う国々間の権力のバランスが保たれて、AIへの公平なアクセスを与えるのがその方程式の一部や。

根本的に、AIは人類みんなのアウトプットで訓練されてる。この技術はみんなのもんや。俺らが好きやない人も含めてな。西洋のエリートのごく一部だけがこれにアクセスすべきやって言うのは、ほんまに間違ってると思う。なぜなら、これは全人類の文化的進化のアウトプットで訓練されてるからや。せやから、その利益のために使おうや。

んで、その利益のために使うのを確実にできる唯一の方法は、人々に平等なアクセスを与えることや。誤解せんといてな、個人的には、オープンソースを超えたところに行きたい。俺らの論文で、オープンソースAGIについての質問のセクションがあって、簡単に言うと、オープンソースはクローズドソースよりリスクの観点でええって主張してる。なぜなら、壊滅的な権力の蓄積やミスアライメントした実体を防ぐからや。

それを防げる。でも、もっとええのは、ホリスティックにアライメントされたシステムや。どういうことか言うと、群知能があって、每个人が自分を増強するために訓練されたパーソナルAI代表を持ってるのを想像してみ。んで、スーパーインテリジェンスに到達する唯一の方法が、人々とそのアシスタントが大きなネットワークで相互作用することや。

んで、その大きなネットワークのメカニズムを根本的に民主的にするプロセスがあったら、スーパーインテリジェンスに到達する唯一の道がこの人間とエージェントのハイブリッドアプローチやから、この分散コンピューティングプラットフォームが中の人間の利益に反して使われることは絶対にないってことや。

んで、覚えててな、俺らこの「ホリスティックアライメント」って言葉について長い議論したんや。他のやつはこれがクレイジーすぎると思ったけど、俺は「これや、これしかない。追いかけなあかん」って言うたんや。なぜなら、根本的に、今みんなが何かをビルドするのに競争してるこの変な状況にいる理由は、協調の失敗やからや。

せやから、AIを使ってより良く協調するのを助けて、根本的に民主的なデザインのシステムをビルドして、人間に反して悪用できん技術を持つようにしたらええやん。協調の失敗を最大に持っていくなんて言うんやなくて。AI開発を最前線でやるには、何十億ドルもかかるって話はどうや？

んで、オープンソースコミュニティでは今、正直言って、metaが無料でくれたモデルをファインチューニングしてるだけや。めっちゃ高い試みや。それでもそう思うか？オープンソースコミュニティやアカデミアでその金なしに本物の仕事できると思うか？短期的には2つの答えがある。絶対にや。

俺らはmetaみたいなオープンソースを追いかけてる大手の業界プレイヤーに頼ってる。んで、俺がmetaで50%やってる理由の1つは、その努力を強化したいからや。オープンソースを助けて、クローズドソースを飛び越えたい。せやから、これが短期的や。長期的には、CERNみたいな取り組みで共通の利益のためにリソースをプールする必要があると思う。

なんで俺らは何千人もの著者でCERNをビルドできたのに、アカデミアに入ってるリソースを1つの集団的な努力にできへんかって、ムーンショットみたいなプロジェクトで最高のモデルをビルドするんや？アカデミアの集団的知能について考えると、どんな大きなラボのものも超えてるやん。

もちろん、DeepMindに何千人も研究科学者がおれるけど、アカデミアにある何万人もの素晴らしい若い頭脳はおれへん。興味は、モノリシックな未来を望まんプレイヤーが十分おることやべきや。俺にとっちゃ、これは協調のチャレンジや。

んで、ある時点で振り返って、「なんでこんなに時間かかったんやろ、いろんなプレイヤーからリソース集めて、すべての博士学生、すべてのポスドク、すべてのPIがオープンソースAGIのビジョンを進めるのにできるだけ効率的になれるようにする巨大な機会があったのに」って言うと思うわ。うん、最高や。俺、ケネス・スタンリーを投影してるわ。

彼が言うたんやけど、偶然性が俺らの人生でめっちゃでかい役割果たしてるって。んで、偶然性はいろんな興味持った開発者がいっぱいおって、いろんなもんをハックすることから来るって。論文で、開発者は自分らが作ったもんに責任持たされるべきやない、みたいなこと言うたやろ。

どういう意味やったん？せやから、俺らが言うたのは、ツールやモデルの開発者のことや。俺がモデルをオープンソースにしたとして、そのツールで何が起こるかに責任持たされたらあかん。ハンマー作ってるのに、誰かが悪いアクターでそのハンマー取って意図的にダメージ与えたからって、牢屋に入れられる世界を想像してみ。

明らかに、もうハンマー作れへんやろ？代わりに、壁に釘を打つ唯一の方法が、ハンマーを全部棺桶に持ってるハンマリングサービスを雇うことや。そしたら、「どんな釘を壁に打つんや？すまん、どんな絵をかけるんや？俺らその絵好きちゃうから、

その釘を壁に打たんよ」ってなる。俺は「いやいや、俺の壁や、俺のアパートやで」って言う。「いやいや、ハンマーカンパニーがノーや言うてる」って。分かるか？そらアホらしいやろ。でも、AIモデルの話になると、俺らエージェンシーを渡すことに慣れてきてる。

AIユーザーとしての俺には意図がある。俺の行動には責任がある。そしたら突然コンピューターが「いや、すまん、君優しくないやん」って言う。「誰に対して優しくないって、誰が俺が人に優しくせなあかんって言うんや？俺が迷惑かけたかったら迷惑かけてもええやろ、俺の学生に聞いてみ」って。

分かるか？せやから、俺にとっちゃ根本的に、俺らエージェンシーを渡してしまってて、これが大きなアホらしさの1つになると思う。俺らが集団的知能インフラの鍵をみんなで渡してしまった事実や。Google検索から始まったんや。昔は図書館があった。公開インデックスがあった。情報への公平で平等なアクセスがあった。

んで、Google検索が俺らの集団的海馬、インデックス構造を集団的記憶として、営利団体に渡してしまった。今、AIアクセスで同じことやってる。タイプライター持ってるみたいで、書きながらたまに「いや、すまん、それ言えへんよ」ってなる。

明らかに、俺は何でもタイプできるし、これから抜け出す方法はオープンソース以外に見えへん。んで、長い目で見たら、これらのホリスティックアライメントシステムが根本的に民主的であるようにビルドアップされるかもしれへん。ショーに来てくれて光栄やった。今日は参加してくれてほんまにありがとう。ティム、お招きありがとう。めっちゃ楽しかった。君と話せて最高や。