
5,320 文字

昨年、スタンフォード大学から発表された論文では、数千のエージェントを完全にシミュレートされた環境に配置し、彼らの生活を観察しました。エージェントたちは関係を築き、記憶を蓄積し、独自の個性を発展させました。これは驚くべきものでした。この論文により、社会全体をシミュレートすることの可能性、あるいはビデオゲームの未来がどのようなものになるかについてのビジョンを持つことができました。NPCが実際の個性やバックストーリーを持ち、リアルタイムで生活を送るビデオゲームの世界を想像してみてください。
そして今、同じスタンフォード大学の著者による新しい論文が発表され、実際の人間の個性をこれらのエージェントに組み込み、シミュレートされた環境で生活させることが可能であることが示されました。これは驚くべきことです。詳しく説明させていただきます。
前回の論文「Generative Agents: Interactive Simulacra of Human Behavior」では、ChatGPTを搭載したこれらのAIエージェントを少しのバックストーリーと共にシミュレートされた環境に配置することで、彼らが独自の個性や関係を発展させることがわかりました。彼らは友情を育み、計画を立てました。例えば、あるエージェントが誕生日パーティーを開き、全ての友人を招待しました。そしてその友人たちが自分の友人も招待し、協力してパーティーに参加したのです。これは本当に信じられないことですが、今では自分自身の個性をこれらのエージェントに組み込むことができるのです。
新しい論文を紹介しましょう。同じ主著者のジュンソン・パークによる「Generative Agent Simulations of 1,000 People」です。彼らが行ったことの本質は、前の論文を基に、1,000人にそれぞれ2時間のインタビューを行い、様々な質問を通じて実際の人間の個性を抽出し、それをシミュレートされた環境に配置したのです。
論文によると、「1,052人の実在する個人の態度と行動をシミュレートする新しいエージェントアーキテクチャを提示します」とあります。彼らは実在する個人の個性を複製しただけでなく、それらのエージェントが人間の対応者と同じような考えや個性を持って行動することをテストし、証明することができました。
結果として、生成エージェントは一般社会調査における参加者の回答を、参加者自身が2週間後に同じ回答を再現する精度の85%の精度で再現することができました。
これが何を意味するのか、詳しく説明しましょう。彼らは一般社会調査、ビッグファイブ性格検査、よく知られた行動経済学のゲーム、その他の社会科学実験など、非常に一般的な社会科学のテストを使用して、ある人の個性を構成する本質を抽出しようとしました。
その後、2時間分のインタビュー内容をエージェントの記憶として変換し、それを基に回答を作成させました。一般社会調査、ビッグファイブ性格検査、社会科学テストで再テストを行い、それらのエージェントが2週間後に同じ質問をされた人間と85%ほど同じように行動することがわかりました。これは非常に高い精度です。
しかし、なぜこのようなことを行うのでしょうか?その目的は何でしょうか?論文によると、これらのシミュレーションは「介入をパイロット化し、複雑な理論を開発して微妙な因果関係や文脈的な相互作用を捉え、そして私の意見では最も重要なこととして、経済学、社会学、組織、政治科学などの分野における制度やネットワークなどの構造の理解を拡大する」ことができるとしています。
本質的に、極端な施策を実際に実施することなく、人々や組織、社会がどのように行動するかを予測し始めることができるのです。例えば、まったく新しい税制について考えがあり、人々がこの新しい税制にどのように反応するかを見たい場合、実際に実施して結果を見たり、それほど正確ではない方法で予測したりするのではなく、実在する人々に基づいたAIエージェントの社会全体を設定し、これらの大規模な税制の変更に対して彼らがどのように反応するかを見ることができるのです。
それでは、どのように機能するのか説明しましょう。2時間の質的インタビューを使用して1,000人以上の実在する個人をシミュレートする生成エージェントアーキテクチャを提示します。このアーキテクチャは、これらのインタビューを大規模言語モデルと組み合わせ、個人の態度と行動を複製します。個人に焦点を当てることで、シミュレートされた態度と行動を実際の態度と行動と比較することで精度を測定することができます。
一般社会調査、ビッグファイブ性格検査、独裁者ゲームや公共財ゲームなどの5つのよく知られた行動経済学ゲーム、そして面白いことにスタンフォード出身の囚人実験、最近の大規模な再現実験から抽出した制御群と処置群のある5つの社会科学実験でテストを行いました。
では、人々の思考や行動を本質的に複製するこれらのエージェントをどのように作成したのでしょうか?彼らは詳細なインタビューに目を向けました。単なる調査や簡単な質疑応答ではなく、実際に長時間の、時には動的なインタビューを行いました。事前に指定された質問と回答者の答えに基づく適応的なフォローアップ質問を組み合わせることは、より構造化されたデータ収集技術よりもいくつかの利点がある基本的な社会科学の方法です。
これらは半構造化インタビューで、質問のセットはありますが、動的で事前に決められていないフォローアップ質問も許可されました。興味深いことに、彼らは実際にAIを使用してすべてのインタビューを行いました。質問に答える自由と本当に動的なフォローアップにより、インタビュー対象者は自分が重要だと考えることを強調する自由度が高まり、最終的に何が測定されるかが形作られます。
その仕組みはこうです。人間の参加者に2時間の音声によるインタビューを行い、両者とも音声を使用します。インタビューの台本は文字起こしされ、それが生成エージェントに与えられ、エージェントの記憶として機能します。
前の論文を思い出すと、彼らは基本的にエージェントに非常に簡単な背景説明だけを与えて開始し、各エージェントは世界と相互作用する中で、長期記憶や短期記憶を発展させました。彼らはRAGを使用して本当にクールなテクニックを持っていて、それによってエージェントが次にどのような行動を取るかを決定するために記憶から引き出すことができました。その行動は、どこに行くか、何をするか、あるいはシミュレーション内の他のエージェントとどのように相互作用するかということです。
しかし、新しい論文では、実際の人間の思考と行動の本質を得るために2時間のインタビューを行い、それをエージェントの記憶として使用しました。技術的には、それらのエージェントは実際の人間の対応者がどのように行動するかを模倣するはずです。
その後、2週間後に実際の参加者の回答を得て、それらのエージェントからシミュレートされた回答をテストしました。基本的に、テストを一度行い、それをエージェントの記憶として使用し、2週間後に同じ質問、インタビュースタイルの質問を人間に行い、そしてそれらのインタビュースタイルの質問をエージェントにも行い、結果を比較しました。そして、それらが本当に正確であることがわかりました。
インタビューの台本は、社会科学者が関心を持つ幅広いトピックを探りました。参加者の人生の物語(「子供時代から教育、家族、人間関係、そしてあなたが経験した主要な人生の出来事まで、あなたの人生の物語を教えてください」)から、現在の社会問題に対する彼らの見方(「人種や人種差別、警察活動に対する注目の増加にどのように対応してきましたか」)まで。これらは単なる例です。
そしてAIインタビュアーは、各参加者の回答に合わせて動的にフォローアップ質問を生成しました。その後、それらの回答をすべて取り、エージェントに記憶として与えました。そのため、シミュレートされた環境でエージェントに質問が行われると、インタビューの全文がモデルのプロンプトに注入され、インタビューデータに基づいてその人を模倣するようモデルに指示します。
複数の意思決定ステップを必要とする実験では、エージェントには以前の刺激とそれらの刺激に対する反応の記憶が短いテキスト説明を通じて与えられました。結果として生まれたエージェントは、強制選択プロンプト、調査、多段階の相互作用的な設定を含む、あらゆるテキスト刺激に反応することができます。
実際の結果を見てみましょう。一般社会調査(GSS)では、生成エージェントは参加者の回答を平均して85%の正規化された精度で予測しました。これは驚くべきことです。これらのインタビューベースのエージェントは、人口統計ベースとペルソナベースの両方のエージェントを大きく上回りました。
これはどういう意味でしょうか?彼らは基本的に、個人にインタビューするのではなく、ある人口統計がどのように応答するかについての多くの情報や知識を取り、それを記憶として使用しました。そして彼らが発見したのは、その一般的な知識を使用した場合、個人へのインタビューを使用した場合ほど良い結果を得られなかったということです。そしてそれは実際にそのデータ、その一般的なデータにバイアスがあることを示しています。
ビッグファイブの質問では、生成エージェントは0.80の正規化された相関を達成しました。これも驚くべきことで、再び人口統計ベースとペルソナベースのバージョンのエージェントを上回りました。
実際の利害関係のある意思決定の文脈における参加者の行動を引き出すように設計された5つのよく知られた経済ゲーム(独裁者ゲーム、信頼ゲーム、公共財ゲーム、囚人のジレンマ)では、生成エージェントは0.66の正規化された相関を達成しました。
そして、エージェントがこの追加の知識が与えられる前に、単に既存の知識に基づいて質問に正確に答えただけではないことを確認するために、インタビュー記録の80%(120分のインタビューのうち96分)をランダムに削除しました。それでもインタビューベースのエージェントは複合エージェントを上回り、GSSで平均79%の正規化された精度を達成し、ビッグファイブでも同様の結果が観察されました。
言語的な手がかりから得られた知識なのか、それとも得られた知識の豊かさからなのかを調査するために、インタビュー記録をGPT-4.0に要約させ、事実的な内容を捉えながら元の言語的特徴を取り除いた重要な応答ペアの箇条書きに変換して、インタビュー要約生成エージェントを作成しました。これらの発見は、人間の行動について言語モデルに情報を与える際、インタビューは調査ベースの方法よりもはるかに効果的で効率的であることを示唆しています。
彼らはまた、人工知能におけるバイアスについても多く語っています。これは私に多くの人がコメントや動画を求めてきたテーマで、過去に少し取り上げたことがあります。AIシステムが過小代表の集団に対してパフォーマンスが低下したり、誤って表現したりすることが懸念されています。基本的に、過小代表の集団に対する十分な訓練データがない場合、それらの集団がどのように応答したかをモデルはどのように知ることができるでしょうか。
この懸念に対処するために、関連文献で特に関心のある政治的イデオロギー、人種、ジェンダーの次元に焦点を当てたサブグループ分析を実施しました。彼らが発見したことは何でしょうか?インタビューベースのエージェントは、タスク全体を通じて、人口統計ベースのエージェントと比較してバイアスを一貫して減少させました。
政治的イデオロギーについては、バイアスは人口統計ベースの生成エージェントの12.35から、インタビューベースの生成エージェントでは7.85に低下し、私たちが話した他のベンチマークでも同様の結果が得られました。
このチャンネルで話してきたように、本質的にすべての公開データはモデルの訓練に使用されてきました。今、AIエージェントが世界中の人々に異なる質問をインタビュースタイルで、動的なフォローアップ質問を行い、そのすべてのデータが異なる目的のために異なるモデルを訓練するために使用されることを想像してみてください。これは膨大な量の追加データです。
そして、もしそれらのエージェントすべてが人間の対応者のように、あるいは少なくとも人間の対応者と比較して高い精度で応答するならば、実際のAIの対応者にインタビューすることによって、これらの合成データをすべて作成できることを想像してみてください。これは本当にクールなことです。
これがこの論文の要点です。面白いと思っていただけたなら、いいねとチャンネル登録をご検討ください。次回の動画でお会いしましょう。
コメント