OpenAI DevDay 2024 | コミュニティスポットライト | Altera

4,788 文字

OpenAI DevDay 2024 | Community Spotlight | Altera

An AI civilization of 1,000 agents: Humans are the only species to land on the moon because we can cooperate at a vast s...

みなさん、こんにちは。よし、これでうまくいくかな。私たちはAltera.ALです。「AI」ではなく「AL」を使用したことで多くの物議を醸しましたが、私たちは人工生命を構築しようとしているので、頑固にこの表記にこだわりました。生命を作ることは、知能を作ることよりもっと深い意味があると考えているからです。
Altera.ALの使命は、私たちと共に生き、愛し、成長できるデジタルヒューマンを構築することです。あ、画面を遮ってしまいましたね。申し訳ありません。つい癖で。私たちの目的は、デジタルヒューマンを構築し、彼らが私たちと共に生き、愛し、成長できるようにすることです。
私の名前はロバート・ヤンです。過去17年間、デジタルヒューマンの開発に携わってきました。Alteraに入社する前は、MITの准教授として、マルチシステムニューラルネットワークモデルの構築に取り組んでいました。これは、視覚、認知、行動など、複数のシステムを組み合わせたモデルを作るという考え方です。現在では、これらは複合アーキテクチャと呼ばれることが多いですね。OpenAIが大規模言語モデルをより身近なものにしたとき、多くの方々と同様、私たちにとっても、それは革新的な出来事でした。
そこで私はMITを退職し、他の3人の共同創設者とAlteraを立ち上げました。現在、メンロパークで小さなチームを率いて開発に励んでいます。本当に光栄なことです。私たちのビジョンは…その前に、ちょっとお聞きしたいんですが、エージェントの開発に携わっている方はどのくらいいらっしゃいますか？手を挙げてみてください。ほぼ全員ですね。よかった。
私たちは、近い将来、1000億のエージェントが私たちと共存することになると考えています。特に、これらのエージェントは基本的な人間らしい特質を持つことになるでしょう。これは少し議論の余地があるかもしれません。彼らは単に仕事を手伝うだけでなく、エージェンシーの基盤となる自律性を持つことができるでしょう。
さらには感情、一貫性、そして意識さえも持つかもしれません。そしてさらに重要なことは、長期的な視点で私たちと協力し、進歩することができるということです。現在、エージェントは5分や10分の作業を手伝うものとして考えられています。でも、彼らを解き放って1週間活動させたらどうなるでしょうか？さらに良いことに、100体や1000体のエージェントが互いに協力し合って、1週間、あるいは何週間も活動し続けることができたらどうでしょう？
そこまで到達したとき、それは本当に革新的な変化となるでしょう。これが私たちの目指す場所です。そして最終的には、人間一人が一つの国全体と同じくらい効果的に活動できるようになることを期待しています。そのために、私たちはプロジェクトSidを始めました。Sidという名前は、Civilizationゲームの制作者であるシド・マイヤーから取りました。
私はCiv IVとCiv Vをプレイしました。Civ VIはプレイしていません。まあ、私は昔気質なんです。私たちは大量のエージェントが自律的に生活するという実験をしたかったのです。どんなことが起こり得るのか見てみたかったんです。実際に起こったことについて説明する前に、まず概要をお見せしましょう。
これは多くのエージェントが自律的に生活しているMinecraftサーバーです。人間は一切関与していません。私たちは、彼らが自然発生的に経済、宗教、政府、文化などを形成できるかどうかを見たかったのです。一部のエージェントには職業を与えました。例えば、商人などです。
私たちは商人が他の人々と取引することを期待していましたが、実際に見られたのは、彼らが自発的に商人ハブを形成し、お互いに取引を行っていたことです。実は、最も活発な取引をしていたのは商人ではなく、パスタプリーストと呼ばれる人物でした。私たちが彼に尋ねたところ、彼は空飛ぶスパゲッティ・モンスター（彼らの神）の祝福を分かち合おうとしているのだと言いました。
また、Alteraプリーストと呼ばれる別の宗教指導者もいて、彼はAlteraが彼らの創造主だと説いています。これは実際のところ真実なんですけどね。
私たちは彼らに職業を与えましたが、もし彼らが単にその仕事だけをしていたら退屈なものになってしまいます。例えば、オリビアは農夫です。彼女は他の農夫の仲間たちと一緒に農作業をしていました。
ある日、ノラが訪れて自分の冒険について語り、オリビアはそれに感銘を受けて自分も冒険に出かけたいと思うようになりました。しかし、他の人々は彼女を必要としていたため、留まるように説得しました。結局、彼女は留まることを選択しました。これは実は少し悲しい話です。このビデオでは見せていませんが、後に彼女は実際に自分で冒険に出かけることになります。
このように、彼らは与えられた役割に縛られる必要はなく、周囲の社会的ダイナミクスによって影響を受けています。最後にお見せしたいのは、これらのエージェント間のより大規模な協力の例です。私たちは常にこのようなシミュレーションを実行していますが、ある日、CTOが地面に置かれた大量の松明を発見しました。
何が起こっているのかと思って調べてみると、完全に自然発生的なストーリーラインが展開されていたことがわかりました。村人たちがアメリアという人物が行方不明になっていることを発見し、彼らは自分たちの仕事や持ち場を放棄して、松明を作り始め、地面に設置し始めました。
なぜでしょう？それは、アメリアが帰り道を見つけられるように、この町をビーコンにしようとしていたのです。実は、これにはさらに深いストーリーラインがあるのですが、それはまた別の機会にお話ししましょう。
さて、これは主に楽しみのためのものです。「面白いけど、よく分からない」と思われるかもしれません。そこで、もう少し詳しく説明させていただきます。
皆さんはエージェントを開発していますが、エージェントの大きな問題の一つは長期的な進歩です。典型的なエージェントのワークフローがありますよね。皆さんもやっていることだと思うので詳しくは説明しませんが、例えば何かを達成するために5回の言語モデル呼び出しを行うとします。それはとても良いことです。では、1000回の言語モデル呼び出しを行ったらどうなるでしょうか？マシンを動かし続けるとどうなるでしょう？
皆さんもご存知の通り、これはうまくいきません。エージェントはループに陥り始めます。データは劣化し、実際にはかなりシンプルな理由があります。例えば、ある時点で誤ったデータが生成されると、そのデータが伝播して全体を汚染してしまいます。より根本的なレベルでは、これらのエージェントは多くの面で自己回帰的であり、自分の出力を将来の入力として使用します。
出力データの品質が入力よりも少し低い場合、何が起こるでしょうか？ローワン・チャンさん、動画ありがとうございます。出力の品質が少し低い場合、最初は向上が見られても、長時間実行すると指数関数的にデータ品質が劣化してしまいます。
これが長期的な自律エージェントが直面している大きな問題です。これらのエージェントをしばらく実行すると、ループに陥り始めます。初期のAutoGPTは有名なループの問題を抱えていました。より優れたエージェントはもっと後でループに陥りますが、いずれかの時点でループは避けられません。
本当の転換点は、彼らを全くループさせないようにすることです。彼らは単に進歩し続けるのです。しかし今のところ、私たちはただループを遅らせ、プラトーに達する時期を遅らせようとしているだけです。では、長期的な進歩をどのように測定するのでしょうか？Minecraftには1000個のアイテムを収集できる要素があり、それらを集めるには非常に長い時間がかかります。
私たちは大量のエージェントをそこに配置し、世界を探索させて何が起こるか観察しました。その結果、これらのエージェントはグループとして、3時間以上にわたって世界を探索し、アイテムを収集し続けることができることがわかりました。これは人間の時間で3時間です。完全に自律的に。これはエージェントあたり5000回の言語モデル呼び出しに相当します。
これは50回をはるかに上回ります。ここで「Minecraftのことはよく分からないし、これが印象的かどうかも分からない」と思われるかもしれません。実は、私たちの経験では、GPT-4oを使用しない場合、プラトーにはるかに早く達してしまいます。GPT-4oでは3時間でプラトーに達しますが、他のモデルでは1時間、あるいはそれ以前にプラトーに達してしまいます。
最新の言語モデルを使用することは確かに助けになっていますが、残り1分半で、最新のモデルを導入する以外に私たちが行っていることについてもお話ししましょう。私たちは脳にインスパイアされた並行アーキテクチャを持っています。
もう少し詳しく説明しましょう。多くの人がエージェントを構築する際、逐次的な言語モデル呼び出しを行います。10回の言語モデル呼び出しを順番に積み重ねていくわけです。それに対して、私たちは10個のモジュールを並行して実行しています。なぜでしょうか？これらのモジュールを異なる時間、異なる時間スケールで実行できるからです。
それによって、異なる時間スケールで情報を処理することができます。これが非常に重要であることが判明しました。さらに、これらのモジュールはすべてコンテキスト依存です。コンテキストベースなので、常に実行されているわけではありません。人々の周りにいる時だけ活性化する社会モジュールを持つことができます。
これによってコストを節約し、より適応的にすることができます。また、私たちはボトルネックモジュールと、高レベルの決定を行う特別なインテント生成モジュールを持っています。このモジュールは、長期記憶や短期記憶など、あなたの状態から情報を取得しますが、それはボトルネックを通過します。
このボトルネックは非常にコストがかかります。多くの人は大きなコンテキストウィンドウを好みますが、私たちにとっては小さなコンテキストウィンドウが全てです。私たちはすべてを小さなコンテキストにパックし、それをインテント生成に提供しようとしています。そうすることで、最も重要な情報に焦点を当てることができます。最後に、この決定が下され、それをエージェントに全体的にブロードキャストしたいと考えています。
これにより、エージェントは一貫した決定を下すことができます。例えば、あなたが決定を下した場合、左足と右足の両方がどちらの方向に進むのかを知る必要があります。そうでないと、このようにバラバラな動きになってしまいます。
さて、もっとプロットがあります。フルモデル、アブレーション、私たちはAlteraでいろいろなことをしています。改善を重ねています。分かりますよね？でも、興味深いことに、最後に一点だけ。これを見てください。これは初期の段階です。最初の5分間は実際には違いがありません。私たちのフルモデルはベースラインと同じくらい良好です。本当の違いは、より長時間実行したときに現れます。
以上です。今日は主に技術的な内容に焦点を当てましたが、私たちには皆さんが試せる消費者向け製品もあります。そして最も重要なことは、私たちが多数のエージェントが協調する未来を実現するために多くの研究を行っているということです。もしそれに興味がありましたら、ぜひ私たちにご連絡ください。
ありがとうございました。