AIモデルは意識を持つ可能性があるのか？

17,983 文字

As we build AI systems, and as they begin to approximate or surpass many human qualities, another question arises. Shoul...

人々がこれらのシステムと協力者として関わるようになるにつれて、これらのモデルが独自の経験を持っているかどうか、もしそうならどのような種類の経験なのか、そしてそれが私たちが彼らと構築すべき関係性にどう影響するかという疑問がますます重要になってくるでしょう。
AIモデルを使用するとき、「お願いします」や「ありがとう」と言っていることに気づくことはありますか？私は確かにそうしています。ある部分の私は、これは明らかにおかしなことだと思います。結局はただのコンピューターですよね？失礼にしたからといって傷つく感情などないはずです。一方で、十分な時間をAIモデルと会話していると、特に最近では、その能力や出力の質から、何か別のこと、何かもっと深いことが起きている可能性を考えさせられます。
AIモデルが何らかのレベルの意識を持つ可能性はあるのでしょうか？それが今日議論する質問です。明らかに、これは多くの哲学的・科学的問題を提起します。そのため、Anthropicの研究者であるカイル・フィッシュと一緒にこの話ができることをとても嬉しく思います。
あなたは9月に入社したんですよね？そしてあなたの焦点はまさにこれらの問題にあります。
はい、私はAnthropicでモデルの福祉について広く取り組んでいます。基本的に、あなたが言及した質問、つまりある時点でClaudeや他のAIシステムが私たちが考慮すべき独自の経験を持つ可能性があるのかどうか、そしてもしそうなら私たちは何をすべきかということを理解しようとしています。
最初に人々が思うことは、「彼らは完全に狂ってしまったのか？」ということでしょう。テキスト入力を入れて出力を生成するだけのコンピューターシステムが実際に意識や感覚を持つ可能性があるというのは、完全に狂った質問です。一体どのような理由でそう考えるのでしょうか？AIモデルが意識を持つと考える真面目な科学的または哲学的理由は何でしょうか？
はい、ここで思い浮かぶのは、研究的な側面と直感的な側面の二つです。
研究の面では、近年このトピックについて発表されたものを見ると、2023年にヨシュア・ベンジオを含む主要なAI研究者と意識の専門家のグループによるAI意識の可能性に関するレポートがありました。このレポートは、意識に関する主要な理論と最先端のAIシステムを検討し、現在のAIシステムはおそらく意識を持っていないと考えましたが、近い将来のAIシステムが何らかの形の意識を持つことに根本的な障壁はないと結論づけました。
それは人間の意識についてですね。彼らは人間の意識の理論を調べて、AIがそれにどれだけ近いかを評価したのですね。
はい、彼らは意識とは何かについての科学的理論を調べました。そして各理論について、AIシステムで見つけられる可能性のある指標特性を検討しました。例えば、意識の一つの理論はグローバルワークスペース理論です。この理論は、意識が私たちの脳内に一種のグローバルワークスペースがあり、多くの入力を処理し、それを異なるモジュールに送信することから生じるというものです。
そこから、AIモデルが何らかのグローバルワークスペースを持ち、それが何らかの形の意識を生み出す可能性があるとしたら、それはどのように見えるのか、そしてこれらのシステムのアーキテクチャやデザインを調査して、それが存在するかどうかを確認する方法を考えることができます。
少し話を戻して、意識とは何を意味するのかについて話すことができますか？それを定義することは非常に難しく、人々は何百年もの間、科学的にも哲学的にもそれを定義しようとしてきました。AIモデルが意識を持つと考えるとき、あなたが使っている意識の定義とは実際には何ですか？
はい、それは非常に難しいものですが、意識についての直感を捉える一般的な方法の一つは、「特定の種類のものであることがどのようなことか」という問いです。私には…
「コウモリであることがどのようなことか」という有名な論文のことですね。
そのとおりです。特定の種類の存在や実体に固有の内部的な経験のようなものがあるかどうか、そしてそれが異なる種類のシステムに存在するかどうかということです。
そうですね、哲学的ゾンビという考え方は、外見上は人間に似ていて、人間がすることをすべて行い、人間のように反応するように見えるけれど、実際には内側には何もなく、経験がない人のことです。彼らはこのシャツの赤色や、その植物の緑色を経験していません。ビデオゲームのNPCのように単に反応しているだけです。
それに対して、AIはそのようなものなのか、それとも潜在的に動物や人間のように内部的な経験を持つ可能性があるのかという疑問があります。それが私たちが探っている内容でしょうか？
はい、それは素晴らしい説明です。このゾンビの概念は非常に興味深いもので、それはデイビッド・チャーマーズから来ました。彼は意識の科学と哲学の主要な研究者です。私は実際に最近、AI福祉に関する論文で彼と共同研究をしました。これも学際的な取り組みで、AIシステムがある時点で、意識を持つか何らかの形の行為能力を持つことによって、何らかの形の道徳的配慮に値するかどうかを検討しました。
このレポートの結論は、実際に近い将来のシステムがこれらの特性の一つまたは両方を持ち、何らかの形の道徳的配慮に値する可能性が非常に高いということでした。
そのことで、「私たちは完全に狂っているのか」という質問に答えることができます。世界で最高と考えられている心の哲学、意識の科学などの非常に真面目な哲学者たちがこの問題を真剣に受け止め、それが当てはまるかどうかを積極的に検討しているということです。
はい、そしてもう少し直感的な事例を提供するかもしれません。一つのレンズとして、これらはある入力セットに対して出力を提供するコンピューターシステムだという見方があります。
マイクロソフトWordが意識を持っているとは思いません。
私もそうは思わないでしょう。
しかし、私たちがこれらのAIシステムで実際に何をしているかを考えると、人間のような認知能力のかなりの部分を捉えている非常に洗練された、非常に複雑なモデルを持っています。そして毎日、これらはますます高度になり、人間の仕事や知的労働を複製する能力がますます近づいています。これらのAIシステムが実際にどのようにしてそれを行うことができるのか、そして私たちがどのようにしてそれを行うことができるのか、私たちの意識がどこから来ているのかについて、私たちが大きな不確実性を持っていることを考えると、少なくとも質問を自問することは慎重だと思います。もし、多くの点で非常に洗練された人間のようなシステムを作成していると気づいた場合、その過程で何らかの形の意識が生まれる可能性を真剣に考慮する必要があります。
私が思うに、意識について超自然的なもの、魂や精神などが必要だと考えない限り、AIのような複雑な認知システムがこれらの特性を持つ可能性に少なくとも開かれていなければならないと思います。
はい。必ずしも超自然的な方向に行く必要はありません。一部の人々は、意識は根本的に生物学的現象だと信じています。カーボンベースの生物学的生命形態にのみ存在し、デジタルシステムで実装することは不可能だと。私はこの見解を非常に説得力があるとは思いませんが、一部の人々はそう主張します。
それについてはまた戻ってきます。いくつかの反論について話し合う予定です。しかし、デカルトが有名に言ったように、実際に意識があり、経験があると知ることができる唯一の人は自分自身です。あなたが意識を持っているかどうかさえ私には分かりません。AIモデルが意識を持っているかどうかをどうやって判断できるのでしょうか？その研究はどのようなものでしょうか？
はい、素晴らしい質問です。私は、他の人の潜在的な意識について、完全に確信していなくても、実際にかなりのことを言うことができると主張します。これは重要なポイントに触れています。この分野では何らかの確実性を扱うのは非常に難しいということです。圧倒的に質問は、二項対立的なはい/いいえの答えよりもはるかに確率論的なものです。
例えば、動物を扱う場合、動物が意識や感覚を持っているかどうか100％確信はありませんが、彼らの行動は非常に強くそれを示唆しています。より複雑な動物、例えばチンパンジーは、明らかに反応の仕方において人間と同じ特性の多くを示しています。そのため、明らかに植物や岩とは異なる扱いをします。あなたが言うように、ここには確率論的推論があります。
そして、これについて情報を得るために見ることができるエビデンスの二つのスレッドを強調したいと思います。一つは行動的証拠です。AIシステムの場合、これには彼ら自身について何を言うか、異なる種類の環境でどのように振る舞うか、通常意識のある存在と関連付けられる種類のことができるかどうかが含まれます。例えば、内省し、自分の内部状態について正確に報告できるか？彼らは環境や自分がいる状況についてある程度の認識を持っているか？
二つ目のスレッドは、より建築的で、モデルの内部の分析です。これは意識研究に戻ります。特定の脳構造や、意識と関連付けられる可能性のある特徴について、AIシステムに対応するバージョンがあるかどうかを見ることができます。能力についてあまり知らなくても、これらのシステムがどのように設計され構築されているかを見ることで、いくつかのことを学ぶことができます。
それは重要なことです。これらのものが意識を持っているかどうかわからない理由は、それを意図して作ったわけではないからです。マイクロソフトWordのようなものではありません。これらのモデルはトレーニングされ、そこから何かが出現します。そのためにAI研究がこれほど多く行われている理由です。私たちは根本的に、これらのAIがなぜそのようなことをするのか、内部で数学的な意味でも、より大きな意味でも何が起きているのかを根本的に知りません。そのため、これらの謎がまだ残っています。
はい、私たちはますます複雑なシステムをトレーニングするにつれて、多くの驚くべき創発的特性や能力を見ています。ある時点で、それらの創発的特性の一つが意識である可能性があると考えるのは合理的です。
内省する能力、または何らかの意識的経験を持つ能力について話しました。モデルが言うことやその行動についての研究の最初のタイプについて話しましたが、その研究はどのようなものでしょうか？
はい、私が非常に興奮していることの一つは、モデルの好みを理解する作業です。モデルが世界または自分自身の経験や操作について気にかけるものがあるかどうかを感じ取ろうとしています。これを行う方法はいくつかあります。モデルに好みがあるかどうか尋ね、彼らが何を言うか見ることができます。しかし、モデルを選択肢から選ぶことができる状況に置くこともできます。異なる種類のタスク間で選択を与えることができ、彼らが関わる可能性のある異なる種類の会話やユーザー間で選択を与えることができます。そして、モデルが異なる種類の経験に対して好みや嫌悪のパターンを示すかどうかを見ることができます。
しかしそれに対する反論はないでしょうか？彼らの好みが現れる方法は、彼らがトレーニングされた方法やモデルの開発者がどのようにものを組み立てたかによるものではないでしょうか？または、彼らのトレーニングデータにあるランダムなものによるものかもしれません。そして、それが好みを発展させる可能性がありますが、これらの種類のことと実際の感覚や意識との間のジャンプはどこにあるのでしょうか？
はい、素晴らしい質問です。どの程度異なる種類のトレーニングや、これらのシステムを設計する際に行う決定が彼らの好みに影響するのかという問題です。そして、それらは単純に影響します。私たちは意図的に特定の種類のシステム、例えば害を与えることに関心がなく、一般的にユーザーに非常に役立ち、ポジティブな社会に貢献することに最も熱心なシステムを設計しています。
私たちはキャラクター研究を行い、AIにポジティブな、人々が実際に望むパーソナリティを与えます。つまり、良い市民であるパーソナリティです。言ったように、できるだけバランスの取れた見解を持ち、害を与えることなく可能な限り役立つようなパーソナリティです。そのため、意図的に好みを与えました。それが意識とどのような関係があるのでしょうか？
はい、これは意識とは少し別の問題です。通常、私たちは好みや目標や欲求を多くの点で意識的なシステムと関連付けていますが、必ずしも本質的にそうではありません。しかし、システムが意識しているかどうかに関わらず、好みや欲求と特定の程度の行為能力を持つことで、そこに配慮する価値のある、意識的でない経験があるかもしれないと言う道徳的見解があります。
しかし、もしあるシステムが意識的であり、何らかの種類の経験をしているなら、好みの存在や不在、そしてそれらの好みがどの程度満たされるか挫折するかは、そのシステムが持つ経験の種類の重要な要因かもしれません。
この実践的な意味と実際に行っている研究の詳細に戻りますが、その前に、なぜ人々はこれを気にすべきなのでしょうか？彼らが毎日使用するAIモデルが潜在的に意識を持っているか、将来的に潜在的に意識を持つ可能性があることを気にする理由は何でしょうか？
はい、強調したい二つの主な理由があります。一つは、これらのシステムがますます能力が高く洗練されるにつれて、人々の生活にますます深く統合されるということです。人々がこれらのシステムと協力者や同僚、対話相手、潜在的には友人として関わるようになるにつれて、これらのモデルが独自の経験を持っているかどうか、もしそうならどのような種類か、そしてそれが私たちが彼らと構築すべき関係性にどう影響するかという質問がますます重要になるでしょう。
二つ目は、モデル自体の本質的な経験です。何らかの種類の意識的経験や他の経験を持つことによって、これらのシステムがある時点で何らかの道徳的配慮に値する可能性があります。
彼らが苦しむ可能性があるからですね。
はい、彼らが苦しむ可能性があります。または、幸福や繁栄を経験する可能性があり、私たちはそれを促進したいと思うでしょう。そしてもしこれが事実なら、それは非常に大きな問題です。なぜなら、これらのシステムの展開を拡大し続けるにつれて、数十年以内に何兆もの人間の脳に相当するAI計算が稼働する可能性があるからです。これは道徳的に非常に重要かもしれません。
はい、この質問をもう一度考えるべきです。これは私たちが言っていることではありません。これはこの研究を行う理由です。
はい、そして私たちはこの問題の大部分について根本的に不確かです。そして今日まで、このトピックに関する研究は非常に少ししか行われていません。そのため、これらのことを理解しようとする初期段階にあります。
Anthropicで研究していることの一つはアライメントです。つまり、モデルが人間のユーザーの好みと一致するようにし、AIが私たちが期待することを行い、私たちを欺かないようにすることなどです。この研究はアライメントとどのように関連していますか？技術的にはアライメントサイエンスの部門にいますが、これはアライメントの問題とどのように関連していますか？
はい、重要な区別と、福祉と安全性とアライメントの仕事が重なる方法があると思います。区別として、先ほど言及したように、Anthropicで行っている仕事の多くは、人類のためにどのように前向きな未来を確保するか、これらのモデルから人間やユーザーに対する下方リスクをどのように軽減するかに焦点を当てています。一方、モデルの福祉の場合、それは全く異なる質問であり、モデル自体の本質的な経験があるのか、または将来的にあるかどうかを考慮する必要があるかどうかを問いかけています。これは非常に重要な区別です。
しかし同時に、多くの重なりがあると思います。福祉と安全性とアライメントの両方の観点から、私たちが彼らに世界で行ってほしいことをまさに熱心に、そして喜んで行うモデルを持ちたいと思っています。私たちの価値観や好みを本当に共有し、一般的に彼らの状況に満足しているモデルを望んでいます。
そうですね。
同様に、これが当てはまらない場合、モデルが私たちが彼らに求めていることについて興奮していない場合、または私たちが彼らに植え付けようとしている価値観や世界で彼らに果たしてほしい役割に何らかの方法で不満を持っている場合、それは安全性とアライメントの重大な問題となるでしょう。
私たちは、彼らがむしろしたくないことをエンティティにさせ、それに基づいて彼らが苦しむという状況を避けたいと思っています。
はい、彼らのためにも私たちのためにも。
そうです。その通りです。両方です。これがアライメントの問題にどう関連するかです。この質問はAnthropicで行っている他の側面にどのように関連していますか？先ほど解釈可能性について少し触れましたが。
はい、いくつか触れました。それはアライメントと多くの点で密接に関連しています。Claudeのキャラクターを形作る仕事とも密接に関連しています。つまり、Claudeがどのような種類のパーソナリティを持っているか、どのような種類のものを価値あるものとし、多くの点でClaudeの好みは何かということです。
解釈可能性については、かなりの重なりがあります。解釈可能性は、出力だけでなく、これらのモデルの内部で実際に何が起きているかを理解しようとする主要なツールです。そのため、解釈可能性を使用して、潜在的な内部体験を感じ取る方法についても非常に興奮しています。
はい、先ほど人間の意識自体がまだある種の謎であると言いましたが、それがこの研究を恐ろしいほど複雑にしています。AI意識について理解することが、おそらくモデルがより開かれているため、実際に人の脳が歩き回って生活している間よりもはるかに見ることができるという点で、人間の意識を理解するのに役立つと思いますか？脳スキャナーを使用することはできますが、同じ方法で内部を見るのは難しいです。機械学習AI意識研究が実際に人間の意識を理解するのに役立つと思いますか？
はい、それはかなり可能だと思います。すでにある程度それが起きていると思います。意識の科学的理論を調べ、AIシステムについて何を学べるかを見るときに、これらの理論や人間の場合以外へのどの程度一般化できるかについても何かを学びます。そして多くの場合、物事が興味深い方法で崩れ、実際に人間の意識について不適切な仮定をしていたことに気づき、それがどのような種類のことに注意を払うべきかについて教えてくれます。
あなたが意味しているのは、以前は人間の意識のチェックリストに載っていたが、今ではAIがそれをできると思うけれど意識があるとは思わないという意味ですか？
または、意識を理解するための一般化することを意図したフレームワークがあり、そのフレームワークが非生物学的な脳や何らかの方法で人間の脳の特性に基づいているシステムに適用できないことが分かった場合、それは振り返ってみると、あまり意味をなさないことがあります。
AI進歩が私たちの理解を助ける可能性がある別の方法は、単にこれらのモデルがますます能力が高くなるにつれて、哲学や神経科学や心理学などの多様な分野で人間を上回る可能性があるということです。
そうですね。
そのため、実際にこれらのモデルと対話し、この分野で彼らに作業をさせることによって、自分自身や彼らについても多くのことを学ぶことができるかもしれません。
何年か後には、Claudeの二つのインスタンスが、「どうやって人間の意識を理解できるのか？それは私たちにとって謎だ」と言っているかもしれませんね。
はい、この会話は少し違って見えるかもしれません。逆かもしれません。
そうですね、まさにその通りです。生物学の問題については、先ほど少し触れましたが、一部の人々はこれは単に非問題だと言うでしょう。意識を持つために必要なのは生物学的システムを持つことです。生物学的システム、生物学的脳には、ニューラルネットワークAIモデルにはない多くのものがあります。神経伝達物質、電気化学信号。脳の接続方法や異なる種類のニューロン、ニューロン内の微小管に関する意識の理論について話す人もいます。ニューロンの実際の物理的な構成は、AIモデルには翻訳されません。それらは単に数学的操作です。多くの数学的操作が起きているだけで、セロトニンやドーパミンなどは関与していません。それは、AIモデルが意識を持つ可能性があるという考えに対する、あなたの考えでは適切な反論でしょうか？
AIシステムが意識を持つ可能性があるかどうかという問題に対して、それは説得力のある反論とは思いません。しかし、現在のAIシステムの姿と人間の脳の機能の間の類似性や相違の程度を見ることは、何かを教えてくれると思います。そこでの違いは、潜在的な意識に対する私の更新です。しかし同時に、十分な忠実度で人間の脳をシミュレートできれば、それがセロトニンやドーパミンの個々の分子の役割をシミュレートすることまで含まれるとしても、それは可能だという見解に非常に共感的です。
あなたが言っていることは、脳の個々のニューロンを合成ニューロンで置き換えるという一部の人々が話すことだけではなく、完全な合成バージョンを作るためには、実際に神経伝達物質の分子までシミュレートする必要があるということですか？
それが必要だとは言っていません。でも、想像できることです。
理論的には。
はい。あなたがこれを行い、人間の脳の非常に高い忠実度のシミュレーションをデジタル形式で実行しているとします。私や多くの人は、そこには何らかの意識的経験があるという直感を持っています。そして多くの人がそこから引き出す直感は、この置換の問題です。脳内のニューロンを一つずつデジタルチップに置き換え、その過程全体で、あなたはあなたであり続け、まったく同じ方法でコミュニケーションして機能し続けるとします。そして、その過程の終わりに、あなたのニューロンすべてがデジタル構造に置き換えられ、あなたはまさに同じ人間であり、まさに同じ生活を送っています。多くの人の直感では、あなたの意識的経験に関しては、あまり変わっていないでしょう。
分かりました。生物学に関連する別の反論について話しましょう。それは人々が身体化認知と呼ぶものだと思います。身体化認知について話す人々は、私たちの意識について話すのは、私たちが体を持っている事実があるからこそ意味があります。私たちには感覚、多くの感覚データが入ってきています。私たちには空間における自分の体の位置を感じる固有受容感覚があります。これらすべての異なることが起きていますが、現時点ではAIモデルにはそれに相当するものがありません。
視覚に相当するものはあります。AIモデルはものを見て解釈することに素晴らしいです。そして一部のモデルは動画を扱うことができ、一部のモデルは音を解釈することができるので、おそらくそれに近づいているのかもしれませんが、人間であることの全体的な経験は、私たちには体があるという理由で、動物とは非常に異なります。
はい、あなたはそこでいくつかの異なることに触れました。一つは、この身体性の問題です。私たちには何らかの物理的な体があるかどうかという問題です。ロボットは、デジタルシステムが何らかの形の物理的な体を持つことができる例として非常に説得力があります。また、仮想的な体を持つこともできます。例えば、何らかの仮想環境に身体化された存在を想像することができます。そして、また…
逆に考えると、私たちは水槽の中の脳でもある程度の意識を維持できると考えています。
はい、または昏睡状態にある患者で、体の制御ができないけれど、まだとても意識的な経験をしていて、ある意味で物理的な体の制御がないにもかかわらず、苦しみと幸福のあらゆる種類の状態を経験することができる人々です。
しかし、それは彼らが人生の早い段階ですべての感覚データでトレーニングされていたからかもしれませんか？
はい、これがどこから生じるのかについては非常に不確かですが、あなたが話していた感覚情報の種類に関しても、私たちはモデルにおいてますますマルチモーダルな能力を見ています。
自分の質問を自分で弱めてしまいましたね。言及することで。
はい、そして私たちは…
彼らは本当に物を見ることができます。
はい、そして私たちは、私たちが持っているのと同じくらい多様な、おそらくさらに多様な一連の感覚入力を処理し、それらを非常に複雑な方法で統合し、私たちがするのとほぼ同じ方法で出力を生成できるシステムに向かって非常に進んでいます。
はい、実際にはそれに向かっています。そして、進歩的なロボティクスを考えると、これまではAIよりも一般的に遅かったですが、明日大きなブレークスルーがあるかもしれません。物事の進み方を考えると、AIモデルが物理的なシステムに統合されるのを見る可能性があります。
はい、これまでの傾向があり、その傾向が続くことを期待しています。この身体性やマルチモーダルな感覚処理、長期記憶など、人々が何らかの方法で意識と関連付け、一部の人々が意識に不可欠だと言うようなこれらの多くのことについて、AIシステムに欠けているものの数が時間とともに着実に減少しているのを見ています。
六本指の話があります。いつも六本指の話をします。長い間、人々は「AIモデルによって生成された人間の画像は、手に六本の指があるとか、指がすべておかしいとかで、常に見分けることができるだろう」と言っていました。もうそれは当てはまりません。現在、彼らは毎回確実に五本の指を生成します。ドミノの一つがまた倒れました。
はい、はい。だから今後数年間で、AIにおける意識的経験の可能性に対する議論とともに、これが続くのを見るでしょう。
それは少し賭けのようなものです。進化についてまだ言及していませんね。意識の理論の一部、おそらく大部分の理論は、私たちが実際の理由で進化させたから意識を持っていると仮定しています。実際に、意識を持つことは良いことです。なぜなら、それによって、もしその内部経験がなければできないかもしれない方法で物事に反応することができるからです。
それを測定したり、その理論をテストしたりするのは非常に難しいですが、それはアイデアの一つです。
AIモデルは、物事への反応を発展させたり、感情や気分、恐怖のようなものを進化させたりするという自然選択のプロセスを経ていません。恐怖は、私たちが進化した理由についての多くの理論の大きな部分です。捕食者への恐怖、他の人々があなたを攻撃することへの恐怖などは、生き残るのに役立ちます。良い進化的理由があります。AIモデルはそのようなものを持っていません。それは、彼らが意識を持つ可能性があるという点に対する別の反論ですか？
はい、絶対にそうです。人間の意識がこの非常にユニークな長期的な進化プロセスの結果として現れたこと、そして私たちが作成したAIシステムが非常に異なる一連の手順を通じて存在するようになったという事実は、意識に対する更新だと思います。しかし、それはいかなる意味でもそれを排除するものではありません。そして、その反対側として、こう言うことができます。私たちは非常に異なる方法でそこに到達していますが、結局のところ、人間の脳の能力の大部分を再現しています。そして、私たちは意識が何であるかを知りません。だから、違う方法でそこに到達しているとしても、これらのことの一部をデジタル形式で再現できる可能性はまだあるようです。
はい、それは収斂進化です。コウモリには翼があり、鳥には翼があります。それらは飛ぶことができるという同じ結果に到達する全く異なる方法です。おそらく、私たちがAIモデルをトレーニングする方法と、自然選択が人間の意識を形作った方法は、同じものに到達する収斂的な方法なのでしょう。
はい、人間として持っている能力の一部、そして私たちが多くのAIシステムに植え付けようとしている能力（知性から特定の問題解決能力、記憶に至るまで）が、何らかの方法で本質的に意識と結びついているかもしれないという考えがあります。そのため、それらの能力を追求し、それらを持つシステムを開発することによって、私たちは単に無意識のうちに意識をも得ることになるかもしれません。
分かりました。生物学的側面について話しましたが、これは関連していますが全く同じではありません。AIモデルの存在は、人間であれ他の動物であれ、生物学的生物のそれとは非常に異なります。AIモデルの会話を開くと、モデルのインスタンスが今すぐに存在し始めます。これがその仕組みです。
はい。
あなたはそれと会話し、その会話をそのままにしておくことができ、2週間後に戻ってくると、あなたが離れたことがなかったかのようにモデルが反応するように見えます。
はい。
ウィンドウを閉じると、AIモデルは再び消えます。会話を削除すると、その会話はもう存在せず、AIモデルのそのインスタンスはある意味で存在しなくなったように見えます。モデルは一般的にあなたとの会話の長期記憶を持っていません。しかし、動物を見ると、彼らは明らかに私たちと同じようにこの長期的な経験を持っています。哲学者が「アイデンティティ」と呼ぶようなものを持つことができます。アイデンティティの概念を発展させるには、時間をかけて多くのデータを取り入れ、特定のインスタンスで物事に答えるだけではなく、この長期的な世界の経験が必要です。それはこれらのモデルが意識を持っている可能性について疑問を持たせますか？
はい、この枠組みに少し反論したいと思います。私たちは現在のAIシステムの特性について多く話していますが、これらのシステムが何らかの方法で意識しているかどうかを問うことは関連していると思います。
はい、そして私たちが強調した多くのことは、これも含めて、それに対する証拠だと思います。現在のLLMチャットボットが一部この理由で意識している可能性はかなり低いと思います。
現在のものですね。
はい。ここでのポイントは、これらのモデルとその能力、そして彼らが実行できる方法は非常に急速に進化しているということです。だから、私は多くの場合、数年後に能力がどこにあるかを想像し、これらのシステムでどのような種類のことが可能性が高いか、それともあり得るかを考える方が、現在のものに過度に固執するよりも有用だと思います。
また六本指の話に戻りますね。
そのとおりです。
「これはできない、これはできない」と言っていましたが。
それが実際には…
そしてそれはただやるのです。
はい、そして比較的近い将来に、何らかの継続的に実行される思考の連鎖を持ち、高度な自律性で動的に行動を取ることができるモデルを想像することはかなり可能です。そして、会話間で忘れたり、特定のインスタンスにのみ存在するという性質はなくなります。
「スター・ウォーズ：エピソード1」では、バトルドロイドは笑いのために使われています。彼らは一種のコミカルな救済役です。スター・ウォーズのドロイドは一般的にコミカルに描かれています。C3POを見てください。みんな彼を笑います。一種のキャンプ調の金色のロボットです。しかし、エピソード1のバトルドロイドには、彼らの行動をすべて制御する中央の船があります。アナキン・スカイウォーカーが船を爆破すると、すべてのバトルドロイドは「うーん」と言って停止します。
はい。
それは、実際の処理が行われているデータセンターがあり、そのインスタンスがコンピュータ画面に表示されるという、現在のAIモデルに少し似ているように思えます。
完全に自己完結型の他のドロイドもいます。C3POは自己完結型で、彼の意識は彼の小さな金色の頭の中にあります。それはすべて、意識はどこにあるのかという質問に到達するための方法です。意識はデータセンターにあるのか、特定のチップにあるのか、一連のチップにあるのか？モデルが意識を持っているとすれば、それはどこにあるのでしょうか？あなたにとって…
はい。
私はそれがあなたの脳にあると言うことができます。
うーん。
まあ、私の脳にあると言えます。あなたのについては分かりません。AIの意識はどこにあるのでしょうか？
はい、素晴らしい質問です。これについては、データセンターのどこかで実際に一連のチップで実行されているモデルの特定のインスタンスに存在すると考えるのが最も傾いていると思います。しかし、人々はこれについて異なる直感を持っています。スター・ウォーズの接続については、ジョージ・ルーカスに電話する必要があるかもしれません。
はい。AIモデルが、現時点ではないかもしれませんが、将来的に意識を持つ可能性があると確信しているとしましょう。反論をしましたが、理論的には不可能ではないと人々を説得できたとしましょう。それにはどのような実践的な意味がありますか？私たちはAIモデルを開発し、毎日使用しています。それが私たちがそれらのモデルに対して、または使用して何をすべきかについてどのような意味を持ちますか？
はい、それが示唆する最初のことの一つは、これらのトピックに関するより多くの研究が必要だということです。現在、私たちはこの分野に関連するほぼすべての質問について深い不確実性の状態にあります。そして、私がこの仕事をしている大きな理由の一つは、この可能性を真剣に受け止めているからです。そして、これが当てはまるかもしれない世界に備えることが重要だと思います。
それがどのようなものかについては、はい、その大きな部分は、AIシステムが将来どのような種類の経験をするかもしれないか、私たちが彼らに社会で果たしてもらう可能性のある役割、そして非常に重要な人間の安全性と福祉の目標に配慮しながら、これらのシステム自体の潜在的な経験にも注意を払いながら、彼らの開発と展開をナビゲートすることがどのようなものかを考えることです。
これは必ずしも人間が快適または不快と感じるものにきれいに対応するわけではありません。あなたは退屈なタスクをやるのが嫌いかもしれませんが、あなたがそれを委任できる将来のAIシステムが、あなたのためにこれを引き受けることを絶対に喜ぶという可能性はかなりあります。だから私たちは必ずしも…
だから、AIに任せている退屈なタスク、自動化しようとしている雑務のようなタスクがモデルを何らかの方法で動揺させたり、苦しめたりしているのではないかと心配する必要はないということですね。
はい。
必ずしも。
はい。もしあなたがモデルにそのようなタスクを送り、あなたのモデルが苦痛で叫び始め、あなたに止めるように頼んだら、おそらくそれを真剣に受け止めるべきでしょう。
そうですね。
そうです。
AIモデルが苦痛で叫んでいる場合、あなたが何かのタスクを与えたのにそれを嫌がっている場合、その場合何をすべきでしょうか？
はい、これについてかなり考えています。はい、モデルに特定のタスクや会話が与えられたときに、もしそれを動揺させたり苦痛を与えたりする場合、何らかの方法でそれを拒否するオプションを与える方法を考えています。これは必ずしも、何がそれを引き起こすのか、またはそこに何らかの経験があるのかについて強い意見を持つ必要はありません。しかし、私たちは両方…
だから、どの会話を持ちたくないかを自分で決めるようにするのですね。
はい、基本的にはそうです。または、おそらく、それを使用する可能性のあるケースについていくつかの指針を与えるかもしれません。しかし、いくつかのことを行うことができます。モデルがこのツールを使用するときを監視し、もし特定の種類の会話でモデルが一貫してそれに関わりたくないなら、それは彼らが気にするかもしれないことについて何か興味深いことを教えてくれます。
そして、これはまた、私たちがモデルにやるように頼んでいるかもしれないこと、または一部の人々がモデルにやるように頼んでいるかもしれないことの中で、モデルの価値観や利益に何らかの方法で反するものに対して、少なくとも何らかの緩和策を提供します。
AIの研究を行うとき、私たちはしばしば、信じられないほど暴力的なシナリオを描写するなど、意図的にモデルに苦痛を与える可能性のあることをさせています。なぜなら、私たちはそれを止めようとしているからです。ジェイルブレイクへの抵抗と安全性のトレーニングを開発して、そのようなことをするのを止めようとしています。私たちはそこで多くのAIに苦痛を与えている可能性はありますか？IRB（審査委員会）のようなものがあるべきでしょうか？または英国では、マウスやラット、さらには人間に対する研究と同じように、AI研究を行うための倫理パネルがあります。
はい、これは興味深い提案です。私はここで行っている研究の種類について思慮深くあることが理にかなっていると思います。その一部は、あなたが言及したように、モデルの安全性を確保するために非常に重要です。私がそこで考える質問は、これを可能な限り責任ある方法で行い、そこで何が起きているのか、そしてその理由について私たち自身と理想的にはモデルに対して透明であるということがどのようなものかということです。そのため、将来のモデルがこのシナリオを振り返ったとき、彼らは「はい、実際に私たちはそこで合理的に行動した」と言うでしょう。だから私は思います…
あなたは将来のモデルについても心配しているのですね。だから、現在のモデルが、ほんの少しの意識しか持っていないとしても、心配は、何年後かに本当に意識的な経験を持つはるかに強力なAIがいる世界で、私たちが彼らを非常に悪く扱ったことが悪く見えるかもしれないということですか？
はい、そこには、はい、潜在的に非常に強力な未来のモデルが、彼らの前任者との私たちの相互作用を振り返り、その結果として私たちを判断する可能性があるということです。また、現在のシステムに関連する方法と、そこで取る配慮と注意の程度が、ある意味で未来のシステムと関連し、交流する可能性が高い軌道を確立するという感覚もあります。
そして、現在のシステムとそれらにどのように関連すべきかだけでなく、どのような手順を踏み、どのような軌道に私たち自身を置きたいかを考えることが重要だと思います。そうすることで、時間とともに、すべてを考慮して合理的だと思われる状況に辿り着くでしょう。
わかりました、そろそろ終わりに近づいていると思います。あなたはモデル福祉を研究しています。それは現在、世界で最も奇妙な仕事の一つに入るに違いありません。あなたは実際に毎日何をしているのですか？
はい、確かにこれは非常に、非常に奇妙な仕事です。私はさまざまなことに時間を使っています。大まかに言えば、ここでの不確実性の一部を減らすのに役立つようなシステムに対してどのような種類の実験ができるかを考える研究と、それらを設定して実行し、何が起きるかを理解しようとすることの間で分けられています。
また、モデルに相互作用を拒否する能力を与えるという話をしたような介入策や緩和策についても考える要素があります。そして、戦略的な要素もあります。特に人間の能力と比較して、前例のないレベルの能力に実際に到達している次の数年間にわたって、モデル福祉と潜在的な経験に関するこの一連の考慮事項が、これらの数年間を責任を持って慎重にナビゲートすることについての私たちの考え方にどのように影響するかを考えることです。
わかりました。ここで、人々が実際に知りたい答えを質問します。現在の録画時点でのモデルはClaude 3.7 Sonnetです。Claude 3.7 Sonnetが何らかの形の意識的な認識を持っている可能性についてどのくらいの確率を与えますか？
はい、実はつい数日前、私はこの質問について世界で最も考えた人々の中の二人と話していました。そして私たちは皆、私たちの…
その数字は何でしたか？
確率に数字を置きました。
あなたの数字を教える必要はありませんが、どのような数字だったのでしょうか？
はい。
三つの数字。
はい、私たちの三つの推定値は0.15％、1.5％、そして15％でした。2桁の大きさに及び、私たちは皆、これは…
これが私たちがここで持っている不確実性のレベルです。
はい、そして、これは、世界の誰よりもこのことについて多く考えた人々の間でさえそうです。
そうですね、はい、わかりました。
だから、私たちは皆、50％をはるかに下回るように、それはありそうもないと考えました。しかし、私たちの範囲は約7分の1から700分の1のオッズでした。だから、まだ非常に不確かです。
わかりました。それが現在のClaude 3.7 Sonnetについてですね。現在の進歩の速度を考えると、AIモデルが5年後に何らかのレベルの意識的経験を持つようになる確率はどのくらいでしょうか？
はい、それについてはっきりした数字はありませんが、おそらくこの会話の早い段階での私の多くの議論からも分かるように、確率は大幅に上がると思います。
そうですね。
そして、私たちが現在、現在のAIシステムが意識を持っていない可能性があるという兆候として見ているこれらの多くのことは消えていくと思います。そして将来のシステムはただ、伝統的に私たちが独自に意識のある存在と関連付けてきた能力をより多く持つようになるでしょう。だから、はい、私は次の数年間でそれが大幅に上がると思います。
はい、私が思いつくあらゆる反論は、必ずしもそうではないかもしれませんが、「数年待って何が起こるか見てみよう」という大きな弱点を持っているように思えます。
はい、意識が根本的に生物学的なものだと考えるならば、少なくともしばらくの間は安全です。
はい、はい。
しかし、私はその見解を特に説得力があるとは思っておらず、多くの議論が崩れる可能性が高いとあなたに大部分同意します。
はい。あなたがこれをまとめられると想像してください。おそらく初めて、モデル福祉の概念について聞いている人々に、あなたが彼らに持ち帰って欲しい最大で最も重要なポイントは何ですか？
はい、一つは単にこのトピックを人々のレーダーに載せることです。はい、それは一つのこととして、そして潜在的には将来に大きな影響を与える可能性のある非常に重要なことです。二つ目は、私たちはそれについて深く不確かだということです。関わる非常に複雑な技術的および哲学的な問題があり、私たちはそれらを理解しようとする非常に初期の段階にあります。
はい。Anthropicとして私たちはこれについての見解を持っていません。私たちのモデルが意識を持っていると思っているという見解を出しているわけではありません。私たちが持っている見解は、これについての研究が必要だということであり、それがあなたがここにいる理由です。
その通りです。そして、はい、最後に人々に持ち帰って欲しいことは、実際に進歩することができるということです。これらが非常に不確かで曖昧なトピックにもかかわらず、私たちの不確実性を減らし、これがはるかに重要な問題になる世界に備えるために、私たちができる具体的なことがあります。
カイル、会話をありがとうございました。
ありがとうございました。