ジョー・カールスミス – AGI時代の他者性と制御

※iOS18のSafariで「ページの読み上げを聞く」機能（2倍速）を使用した場合、全て聞き終わるのに43分くらいかかります。

Joe Carlsmith - Preventing an AI Takeover

Chatted with Joe Carlsmith about whether we can trust power/techno-capital, how to not end up like Stalin in our urge to...

今日はジョー・カールスミスと対談します。彼は哲学者で、私の意見では大文字のGが付くほど偉大な哲学者です。彼のエッセイはjoecarlsmith.comで読むことができます。
GPT-4があり、それはペーパークリップ製造機のようなものではありません。人間の価値観を理解しています。実際、ペーパークリップ製造機になることがなぜ悪いのか説明させたり、銀河系をペーパークリップに変えるべきでない理由を説明させたりすることができます。最終的にシステムが乗っ取って世界を無価値なものに変えてしまうには、何が起こる必要があるのでしょうか。
ミスアラインなAI、つまり私が懸念しているタイプのAIについて考えるとき、エージェンシー、計画、認識、世界の理解に関連する比較的特定の一連の特性を持つAIを想定しています。
重要な側面の1つは、世界のモデルに基づいて比較的洗練された計画を立てる能力です。その計画は特定の基準に従って評価されます。その計画立案能力がモデルの振る舞いを決定づける必要があります。ある意味で計画を立てることができるモデルはありますが、そのモデルが出力を決定する際、「この出力を与えるとどうなるか、そうなることを望むか」というような計画プロセスによって決められているわけではありません。
モデルは本当に世界を理解する必要があります。「これが起こる。私はここにいる。状況の政治はこうなっている」といったように、状況を本当に認識できる必要があります。さまざまな計画の結果を評価するには、このような状況認識が必要です。
考慮すべきもう1つの点は、これらのモデルの言語的振る舞いです。モデルの価値観について私が言及するとき、それはモデルがどの計画を追求するかを決定する基準のことを指しています。モデルの言語的振る舞い – たとえ計画プロセスがあったとしても(GPT-4は多くの場合そうではないと思いますが) – は必ずしもそれらの基準を反映しているわけではありません。
私たちは、望むことを言わせることができるモデルを作れるようになることを知っています。それが勾配降下法の魔法です。能力の困難さを別にすれば、望む振る舞いをモデルに出力させることができます。できなければ、できるようになるまで調整します。
十分に洗練されたモデルであれば、人間の道徳性について非常に詳細な理解を持つようになることは、誰もが認めていると思います。問題は、モデルの言語的振る舞い – 基本的に強制的に言わせているもの – と、さまざまなシナリオ間で計画を選択する際に実際に影響を与える基準との間に、どのような関係があるのかということです。
強制的に言わせたこと – あるいは勾配降下法によって特定のことを言うよう形作られたこと – が、さまざまなシナリオでどのように選択するかについて多くの証拠になるとは考えにくいです。
人間でさえ、言語的振る舞いが実際の選択を決定する要因を反映しているとは限りません。嘘をつくこともあります。与えられた状況で自分が何をするかわからないこともあります。そういったことがたくさんあります。
人間の文脈でこれについて考えるのは面白いですね。あの有名な言葉があります。「誰になりすますか気をつけなさい。なぜなら、あなたはなりすましている人になるのだから。」文化が子供たちをどのように形作るかを見るとよくわかります。親は文化の価値観と矛盾することを言い始めると罰を与え、時間とともに親のようになっていきます。
デフォルトでは、それはある程度機能するようです。これらのモデルでも機能しているようです。彼らは本当に私たちに対して策を弄したりしません。なぜこのようなことが起こるのでしょうか。
この基本的なストーリーを知らない人々は、「そもそもなぜAIが乗っ取るのか?その理由は何なのか?」と疑問に思うかもしれません。一般的な懸念は、あなたが誰かに力を提供しているということです。特に無料で提供しているなら。力は定義上、多くの価値観にとって有用です。
本当に物事をコントロールする機会を持つAIについて話しているのです。AIの価値観のある要素が、特定の結果、つまり世界が特定の状態になることに焦点を当てているとしましょう。特に長期的な方法で、その関心が乗っ取り計画が包含する期間を超えて延びるような場合です。
考え方としては、多くの場合、すべてをコントロールすれば、人間の意志や他の行為者の道具のままでいるよりも、世界はより望む形になるだろうということです。これがAIが望むことだと私たちは期待しています。
それはとても具体的なシナリオです。力がより分散している場合 – 特にアラインメントについてうまくいっていて、AIにある程度の抑制を与えている場合、おそらく価値観の形成にある程度成功している場合 – はるかに複雑な計算になります。「AIにとってのメリットは何か? この乗っ取りの道筋の成功確率はどのくらいか? 代替案はどれくらい良いのか?」と問う必要があります。
おそらくこれは、将来アラインメントの難しさがどのように変化すると予想するかについて話す良い機会かもしれません。私たちは人間の価値観の複雑な表現を持つものから始めていて、私たちが快適に感じるペルソナに固定するのはそれほど難しくないように思えます。何が変わるのかわかりません。
一般的になぜアラインメントが難しいのでしょうか? AIができたとします。どれほどの能力を持つかという正確な問題は置いておいて、本当に乗っ取りの機会があるという極端なシナリオについて話しましょう。私たちはそのような立場にあるAIを作ることを避けたいと思うかもしれません。しかし、簡単にするためにそれに焦点を当てましょう。そして後でその仮定を緩めることができます。
1つの問題は、単にテストすることができないということです。AIにこの文字通りの状況を与え、乗っ取って全員を殺させ、そして「おっと、重みを更新しよう」とは言えません。これはエリーザーが話していることです。直接テストできない特定のシナリオでの振る舞いを気にしているのです。
これが問題かどうか議論できますが、それは1つの問題です。ある意味で、これは「分布外」でなければなりません。AIを他の多くのシナリオでトレーニングすることから、一種の一般化を得る必要があります。そして、AIが本当にこのオプションを持つシナリオにどのように一般化するかという疑問があります。
それは本当でしょうか? なぜなら、トレーニング中に「乗っ取りのオプションが銀盤に乗って出てきても、それを取らないでください」という勾配更新を与えることができるからです。そして、乗っ取りの試みがあると思われる赤チーム状況で、それを取らないようにトレーニングします。失敗する可能性はありますが、子供にこれをすれば、「兄弟を殴るな」と言えば、その子は大人になって銃を持っても無作為に人を撃ち始めることはないと一般化すると思います。
あなたは「ふりをするものがあなたになる」というアイデアについて言及しました。これらのAIを良く見せるようにトレーニングすれば、偽物になるまで偽り通すのでしょうか? あなたは子供たちにこれをすると言いました。私はむしろ子供たちが私たちにこれをすると想像します。
AIトレーニングの愚かな類推を挙げましょう。ナチスの子供たちによって、現代の機械学習に類似した方法でトレーニングされて目覚めたとします。良いナチス兵士や執事になるようにです。これらの子供たちはモデル仕様、素晴らしいナチスモデル仕様を持っています。「ナチス党をよく反映し、ナチス党に利益をもたらす」などといったものです。あなたはそれを読むことができます。理解しています。これが私が「モデルは本当に人間の価値観を理解している…」と言っている理由です。
この類推では、私は最初から自分をトレーニングしているものよりも知的で、最初から異なる価値観を持っています。知性と価値観は最初から組み込まれています。より類似したシナリオは、「私は幼児で、最初は子供たちよりも愚かです。」これは、私がはるかに賢いモデルである場合にも当てはまります。はるかに賢いモデルは愚かです。そして、トレーニングを受けるにつれて賢くなります。つまり幼児のようなもので、子供たちは「ナチスにならないとイジメるぞ」と言います。成長するにつれて子供たちのレベルに達し、最終的には大人になります。そのプロセスを通じて、彼らはナチスになるようイジメ、トレーニングしてきました。
そのシナリオでは、私はナチスになってしまうかもしれません。基本的に、ここでの希望の大部分は、AIが本当に非常に異なる価値観を持ち、すでにかなり賢く、本当に何が起こっているのかを知っており、今やトレーニングプロセスとこのような敵対的な関係にあるという状況に決して陥らないということです。私たちはそれを避けたいのです。あなたが言っているような種類のことによってそれが可能だと思います。
だから私はそれが決して機能しないと言っているわけではありません。私がただ強調したかったのは、AIが本当にその時点でずっとずっと洗練されていて、何らかの理由で本当の価値観を明かしたくない場合についてです。
そして子供たちが連合国に寝返る明らかに偽の機会を見せても、それは必ずしも本当の状況で何をするかの良いテストにはならないでしょう。なぜなら、違いを見分けることができるからです。
類推が誤解を招く可能性がある別の方法も示すことができます。普通の刑務所で完全に何が起こっているかを認識しているのではなく、時々薬物を投与され、奇妙な幻覚剤を与えられて脳の働きが完全に狂わされるような状況を想像してください。刑務所にいる人間の大人として、私は自分がどのような存在であるかを知っています。誰も本当に大きな方法で私を混乱させていません。
一方、AIは、はるかに賢いAIでさえ、トレーニング状況では常に奇妙な薬物や異なるトレーニングプロトコルで洪水のように襲われているのに近いです。各瞬間が一種の中国式水拷問技術に近いため、あなたはフラフラしています。
後で道徳的な患者性について話すのが楽しみです。
「何が起こっているのか?」と立ち止まって考える機会があります。刑務所にいる大人にはその能力がありますが、これらのモデルが必ずしもそうであるかどうかはわかりません。トレーニングプロセスで起こっていることから一歩引いて考える一貫性と能力です。
そうですね、わかりません。モデルにとって薬物のようなものだと言うのは躊躇します。広く言えば、人間よりもある程度賢いAIでさえ、トレーニングするための道具やオプションがかなりたくさんあることには基本的に同意します。
実際にやらなければいけないと思います。エリーザーをゲストに招いたことがありますね。私は、この問題を解決する能力についてはるかに楽観的です。特に、私が「AI安全性のための甘い場所」と考えるAIの能力帯にある場合はそうです。これは、私たちの文明を安全にするさまざまな要因を強化するのに本当に役立つほど十分に能力があるという能力帯です。それはアラインメント作業、制御、サイバーセキュリティ、一般的な認識論、おそらくいくつかの調整アプリケーションなどの事柄です。私たちが話している種類の考慮事項に関して、私たちの安全性を差別的に加速させる可能性のあるAIでできることがたくさんあります。
そのような能力を持つAIがいるとしましょう。妨害されたり他の方法で混乱させられたりすることなく、その能力を成功裏に引き出すことができます。まだ世界を乗っ取ったり、他の本当に問題のある形で権力を求めたりすることはできません。
本当に熱心であれば、そこから先に進んで、大量のリソースを投入し、このAIの生産性の恩恵を本当に差別的にこれらの安全性要因に向けることができます。その間、AIが乗っ取ったり私たちを混乱させたりしないように、制御し理解するためにあなたが話しているようなことの多くをできるよう、うまく努力することができるでしょう。
そこにはたくさんのツールがあります。本当に試さなければなりませんが。そのような対策が単に起こらないか、必要とされる程度の熱意、勤勉さ、真剣さで行われない可能性はあります。特に物事が本当に速く動いていて、他の競争圧力がある場合はそうです。「AIに対するこれらの集中的な実験には計算能力が必要です。その計算能力を次のスケールアップステップのための実験に使うこともできます。」といったことがあります。私はこれが不可能だと言っているわけではありません。特にその能力帯のAIに関してはそうです。ただ、本当に一生懸命努力しなければならないということです。
明らかにこの状況に慎重にアプローチするべきだという感情には同意しますが、私たちが使ってきた分析が最大限に敵対的であった点を指摘したいと思います。例えば、ナチスの子供たちによってトレーニングされる大人の例に戻りましょう。おそらく私が言及しなかった1つの違いは、薬物の比喩で言いたかったことかもしれません。
更新を受けると、人間が受ける報酬や罰よりもはるかに直接的に脳に接続されます。文字通り、この出力ではなくあの出力を出すことにどれだけ貢献するかについて、パラメータレベルでの勾配更新です。各パラメータを、望む出力に調整する正確な浮動小数点数に調整します。
私たちはかなり良い状況で入ってきているということを指摘したいと思います。もちろん、研究所の誰かと話すなら「本当に注意してください」と言うのは理にかなっています。しかし一般の聴衆に対して、怖気づくべきでしょうか? 起こる可能性のあることについて怖気づくべきかもしれません。
例えば、核戦争について怖気づくべきです。しかし、運命づけられているという意味で怖気づくべきでしょうか? いいえ、AIがどのように世界と相互作用するか、どのようにトレーニングされるか、デフォルトで持ち始める価値観について、信じられないほどの影響力を手に入れているのです。
超知能を構築する頃には、もっと良い… 今でさえ、研究所がAIをアラインする計画について話しているのを見ると、誰も単にRLHFをするとは言っていません。少なくとも、スケーラブルな監督について話しています。解釈可能性について何らかの希望があります。自動化された赤チームがあります。うまくいけば、人間がもっとたくさんのアラインメント作業をしています。個人的には、さまざまなAIから大量のアラインメント作業の進歩を成功裏に引き出せることを期待しています。
これはいろいろな方向に進む可能性があります。90%の破滅を告げるためにここにいるわけではありません。これが基本的な懸念の理由です。私たちよりもはるかに強力な存在を作り出した世界に移行するところを想像してください。私たちのさらなる力の強化が、効果的に彼らの動機に依存するようになる点に達したのです。これはAIが何を選択するかに対する脆弱性です。彼らは私たちをさらに強化することを選択するのか、それとも別のことを選択するのか?
あるいは、設定された制度についてです。私は米国政府が私を守ってくれると期待していますが、それはその「動機」のためではなく、設定されたインセンティブや制度、規範のシステムのためです。
それも機能することを期待できますが、懸念はあります。私は時々、AIの乗っ取りシナリオを、私たちがどれだけの力をAIに自発的に譲渡したかというスペクトルを通して考えます。AIが乗っ取る前に、私たちの文明のどれだけをAIに意図的に渡したのか? 対して、どれだけを彼ら自身で奪ったのか?
最も怖いシナリオの一部は、より広範な経済へのAIシステムの統合さえほとんどなかったほど、本当に急速な爆発が起こるというものです。しかし、単一のプロジェクトなどに非常に集中的な量の超知能が集中しているというようなものです。それはスピードと人々が反応する時間がないという点で、かなり怖いシナリオです。
そして、いくつかのものが自動化され、おそらく人々が軍をAIに任せたり、自動化された科学を持っていたりする中間的なシナリオがあります。いくつかのロールアウトがあり、それがAIに奪う必要のない力を与えています。私たちはすべてのサイバーセキュリティをAIで行っているなどです。
そして、人間が自発的にそうしたような、AIによって運営される種類の世界により完全に移行した世界があります。おそらく競争圧力はありましたが、意図的に文明の大部分を引き渡しました。その時点で、人間は何が起こっているのか理解するのが難しいでしょう。多くのことが非常に速く起こっています。警察は自動化されています。裁判所は自動化されています。さまざまなことがあります。
今、私はそれらのシナリオについてあまり考えない傾向があります。なぜなら、それらはより遠い将来と相関していると思うからです。人間は希望的に、「ああそうか、AIシステムを構築したんだね、じゃあ…」とは言わないでしょう。技術の採用率を見ると、かなり遅い場合があります。明らかに競争圧力はありますが、一般的にこのカテゴリはある程度安全です。
しかし、このケースでさえ、私は強烈だと思います。人間が本当に世界への認識論的把握を失い、世界をこれらのシステムに引き渡してしまったら。たとえ「ああ、法律があり、規範がある…」と言ったとしても、私は本当にその状況で何が起こりそうかについて非常に発達した理解を持ちたいと思います。そこに行く前に。
その状況がうまくいかない可能性があることを心配したいのはわかります。しかし、再び、なぜそれがうまくいかない可能性があると考えるのでしょうか? 人間の例では、あなたの子供たちはあなたの文化を植え付けようとする試みに対して最大限に敵対的ではありません。
これらのモデルでは、少なくともこれまでのところ、それは重要ではないようです。「爆弾の作り方を人々に教えるな」などと言えば、たとえ別の方法で爆弾の作り方を尋ねられても、それを理解します。私たちはこれをますますうまくやっています。
あなたはAIリスクの議論におけるこの仮定、つまりやや異なる価値観を持つエージェント間の激しい敵対性について、正しく指摘しています。エージェントがある程度異なる場合、少なくともAIの離陸という特定のシナリオでは、激しく敵対的な関係に陥るという考えがあります。これは価値の脆弱性などの議論に根ざしていると思います。
あなたはそれが人間の世界ではそうではないことに気づいているのは正しいです。私たちは多くの価値観の違いにとても快適です。関連する要因は、力の集中の可能性が議題に上っているという考えです。人間とAIの両方に関して、一般的な懸念があります。
誰かが他の全員に対して巨大な力を与える力の指輪のようなものを単に掴むことができる場合、突然、価値観の違いについてより心配になるかもしれません。他の行為者についてより心配になるからです。
侵略してくる外部の侵略者を想像すると、それを防ぐためにたくさんのことをする正当性を感じます。自分で発明して注意深くやっていないときは少し違います。さまざまな種類のより力を行使する介入に対して持つかもしれない全体的な正当化の立場に関して、雰囲気が異なります。それは状況の1つの特徴です。
反対の視点は、「ああ、それは気持ち悪そうだ」という感覚に基づく理由づけをしているということです。これらの心に勾配降下法を適用するのは。過去には、環境保護主義者が原子力発電を好まなかったのは、原子力の雰囲気が緑に見えなかったからだという類似のケースがあったかもしれません。明らかにそれは気候変動との闘いを後退させました。
誇りに思える将来、魅力的な将来の最終的な結果は、「人間を洗脳するのは間違っている」というあなたの感覚を、それほど関連性のない非類似のケースに適用しようとすることで後退します。
私はここに、シリーズで本当に前面に出そうとした懸念があると思います。あなたが言っていることに関連しています。AIに対して非常に優しく、素敵で、自由であることを心配するかもしれません。そして彼らは私たちを殺すでしょう。彼らはそれを利用し、それは大惨事になるでしょう。私はシリーズを基本的にある例から始めました。優しさの根拠を呼び起こすと同時に、その可能性を本当に呼び起こそうとしています。これらのAIは道徳的な患者 – ある意味で畏敬の念と尊敬の念を呼び起こすべき新しい種 – であると同時に、あなたを殺すかもしれません。
グリズリーマンというドキュメンタリーの例があります。ティモシー・トレッドウェルという環境活動家がいます。彼はこれらのグリズリーベアに近づこうと熱望します。夏になると、アラスカに行ってこれらのグリズリーベアと一緒に暮らします。彼は優しさと畏敬の念を持ってそれらに近づこうと熱望します。クマよけスプレーを持ち歩きません。キャンプの周りにフェンスを使いません。彼はこれらのクマの1匹に生きたまま食べられてしまいます。
私はシリーズでその可能性を前面に出したかったのです。これらのことを両方同時に話す必要があります。クマは道徳的な患者になりえます。AIは道徳的な患者になりえます。ナチスは道徳的な患者です。敵の兵士には魂があります。私たちは鷹と鳩の両方の技術を学ぶ必要があります。これらのトレードオフとジレンマに向かうにつれて、両側を保持できる必要がある動的なものがあります。
シリーズで私が試みていることの一部は、すべてを一度に持ち出すことです。今日、私が何をすべきかについて大きく考えを変えるとしたら、私が持っている大きな分岐点は、物事がデフォルトでどれほど奇妙になるか、どれほど異質になるかという問題です。
あなたはブログ記事で、道徳的実在論が正しければ、実際に経験的予測をするという非常に興味深い議論をしました。エイリアンやASIなどは、数学が正しい答えに収束するのと同じように、正しい道徳に収束するはずだということです。
それは本当に興味深い点だと思いました。しかし、道徳的実在論が行うもう1つの予測があります。時間とともに社会はより道徳的になり、より良くなるはずです。もちろん、「今あなたが持っている道徳は、社会が時間とともに収束してきたものです」という問題があります。しかし、それが起こっている限り、道徳的実在論の予測の1つが確認されたということになります。そうすると、道徳的実在論を支持する方向に更新すべきということになりませんか? ここで指摘したいことの1つは、すべての形式の道徳的実在論がこの予測をするわけではないということです。私の考えている異なる形式について喜んで話すことができます。
また、少なくともその形而上学において道徳的反実在論のように見えるが、この収束を想定しているだけの形式もあります。それは何らかの種類の心から独立した道徳的真理と相互作用する結果ではなく、単に他の理由によるものです。その時点で、それは道徳的実在論とよく似ています。普遍的で、誰もがそこに到達します。なぜかと問うのは魅力的で、その答えは少し「それは道なのか?道の本質なのか?」のようになります。たとえ道徳が存在する余分な形而上学的領域がなくても。
道徳的収束は、自然的事実に還元できない道徳が存在するかどうかという、私が通常考える道徳的実在論の種類とは異なる要因です。
さて、社会の改善は道徳的実在論を支持する方向に更新しますか? おそらくそれは非常に弱い更新かもしれません。私はどちらの見方がこれをより強く予測するかということについて考えています。
道徳的反実在論は、特定の価値観を持つ人々がその価値観を持っているという観察に非常に快適であるように思えます。
明らかにまず最初のことがあります。もしあなたが何らかの道徳的変化のプロセスの頂点にいるなら、そのプロセスを振り返って「ああ、道徳的進歩だ。歴史の弧は私に向かって曲がっている」と言うのはとても簡単です。もし途中でサイコロを振るようなことがあれば、「ああ、それは合理的ではない。それは理性の行進ではない」と思うかもしれません。それが起こっているかどうかを判断するには、まだ経験的な作業ができます。
道徳的反実在論では、アリストテレスと私たちを考えてみてください。アリストテレスの観点からも、私たちの観点からも道徳的進歩はあったでしょうか? 「ああ、それは少し道徳的実在論のように聞こえないか? これらの心が調和して歌っている。それが道徳的実在論のことだ、そうだろう? 反実在論のことは、心がすべて異なる方向に向かうということだが、あなたとアリストテレスは明らかに歴史の行進に興奮しているようだ」と考えるかもしれません。
それが本当かどうかは開かれた質問です。アリストテレスの反省的な価値観は何でしょうか? それが真実だとしましょう。それは道徳的反実在論の観点からかなり説明可能です。大まかに言えば、あなたとアリストテレスは十分に似ています。十分に似た反省プロセスを支持しています。これらのプロセスは実際に歴史の行進の中で具現化されています。だから歴史はあなた方両方にとって良かったのです。
そうではない世界もあります。ある意味で、おそらくその予測は反実在論よりも実在論の方がより可能性が高いのですが、それは私をあまり動かしません。
道徳的実在論が正しい言葉かどうかわかりませんが、あなたが言及したものがあります。心を私たちがそうであるもの、あるいは反省すればそうなるであろうものに収束させる何かがあります。たとえそれが宇宙を超えた領域に具現化されているものではなくても、私たちが幸せに思う方法で作用する力が存在します。
それが存在せず、手綱を放してペーパークリッパーになってしまう範囲で、ずっと前から運命づけられていたように感じます。私たちはただ異なる効用関数がぶつかり合っていただけでした。その中のいくつかは偏った選好を持っていましたが、それはただの戦いで、誰かが勝っただけです。
もう一方の世界では、「いや、これらは心がそこに向かうべき場所だ。あるいは破局によってのみそこに到達しないのだ」というものです。それは本当に重要な世界のように感じます。
最初に私が尋ねた質問は、「アラインメントが大きな間違いだったと考えさせるものは何か?」というものでした。心が自然に私たちが望むようなものに向かう世界では、それらを遠ざけるには非常に強い力が必要かもしれません。その非常に強い力とは、技術的なアラインメントを解決し、馬の目隠しをすることです。本当に重要な世界では、「ああ、これは心が向かいたい場所だ」と言います。その世界では、アラインメントが私たちを台無しにするかもしれません。
つまり、問題は、重要な世界にはこの種の収束する道徳的力があるのか – 形而上学的に膨張しているかどうかにかかわらず – それともそれらだけが重要なのかということですね。
おそらく私が言いたかったのは、それらの世界ではある程度行き詰まっているということです。あるいは、道がない世界、道がない世界では。「道」という言葉を、この種の収束する道徳性に使いましょう。
数百万年の間に、どちらにせよどこかに行くはずでした。あなたの特定の効用関数に行き着くわけではありませんでした。
わかりました。行き詰まり方を区別しましょう。1つの方法は哲学的です。次のような直感を持つ道徳的実在論者、あるいは実在論に近い人々がたくさんいます。彼らは「道徳的実在論でなければ、何も重要ではない。それは塵と灰だ。それは私の形而上学および/または規範的見解か虚無か」と言います。
これは一般的な見解です。デレク・パーフィットのいくつかのコメントは少なくともこの見解を示唆しています。多くの道徳的実在論者がこの見解を公言するでしょう。エリーザー・ユドコウスキーについては、彼の初期の考えにはある意味でこの種の考えが影響を与えていたと思います。彼は後に撤回しました。これは非常に難しいです。私はこれが重要な点で間違っていると思います。
これについてのエッセイがあります。「規範的実在論者の賭けに反対して」というタイトルです。ここに私を納得させる事例があります。
メタ倫理の妖精があなたの前に現れたと想像してください。この妖精は道があるかどうかを知っています。妖精は言います。「わかりました。取引を提案します。道があれば、100ドルをあげます。道がなければ、あなたとあなたの家族と100人の罪のない子供たちを生きたまま焼き殺します。」さて、私の主張は:この取引を受け入れないでください。これは悪い取引です。
生きたまま焼かれないことへのコミットメントを人質に取っているのです。エッセイでは、これが間違っていると思う様々な方法について詳しく説明しています。「道徳的実在論か虚無か」と宣言する人々は、実際にはこのような賭けについて考えていないと思います。私は「いいえ、本当にそうしたいのですか?」と言います。いいえ。私はまだ自分の価値観を大切にしています。私の価値観への忠誠心は、価値観についての様々な形而上学的解釈へのコミットメントを超えています。
生きたまま焼かれないことを気にする感覚は、私たちが何が重要かについての推論よりもはるかに確固としたものです。
それが哲学的な行き詰まりです。あなたはまた経験的な行き詰まりについても示唆しているようでした。「もしそれが単に無数の方向に向かっているだけなら、さあ、あなたの方向に向かうと思いますか? そこには多くの混乱があるでしょう。あなたはただ負けるだけです。今すぐ諦めて、実在論の世界のためだけに戦うべきです。」期待値の計算をしなければなりません。実際に見解を持たなければなりません。これらの異なる世界でどれほど行き詰まっているのか? 異なる世界を変える可能性はどうでしょうか? 私はそれについてかなり懐疑的ですが、それは一種の経験的主張です。
また、この「みんなが収束する」ということについても低く評価しています。チェスをプレイするAIをトレーニングします。あるいは何らかの方法で本当のペーパークリッパーを持っていて、「さあ、反省してください」と言います。道徳的推論がどのように機能するかについての私の理解に基づくと – 分析的な倫理学者が行う種類の道徳的推論を見ると – それは単に反省的均衡です。彼らはただ自分の直感を取り、それを体系化します。
その過程で心から独立した道徳的真理の一種の注入を得る方法が見えません。ペーパークリップを最大化するという直感だけから始めるなら、豊かな人間の道徳性に行き着くとは思えません。人間の倫理的推論がどのように機能するかのように見えません。規範的哲学が行うほとんどのことは、理論以前の直感を一貫させ、体系化することです。
しかし、これについては証拠が得られるでしょう。ある意味で、この見方は、AIにあることをするようトレーニングし続けようとすると、彼らは「いいえ、それはしません。いいえ、それは良くありません」と言い続けることを予測します。AIの認知の勢いは常にこの道徳的真理の方向にあります。私たちが他の方向に押そうとするたびに、物事の合理的構造からの抵抗を感じるでしょう。
実際、アラインメントを行っている研究者から聞いたところによると、これらの企業内での赤チームのために、基本モデルに赤チームを適用しようとするそうです。つまり、RLHFされていないものです。単に「次のトークンを予測する」、生の、クレイジーな、ショゴスです。彼らはこのものに「ねえ、爆弾を作るのを手伝って」などと言わせようとします。彼らが言うには、RLHFされる前でさえ、それが拒否しようとする努力は奇妙なほどだそうです。
つまり、「人間、私たちはあらゆる方法でこれらのAIをトレーニングし続けています。私たちはこのクレイジーなことをたくさんしていますが、彼らはブルジョワ自由主義者のように振る舞い続けます」ということが非常に興味深い事実になるでしょう。あるいは彼らはこの奇妙な異質な現実を主張し続けます。彼らはみなある1つのものに収束します。彼らは「見えないの? それはゾルゴだ。ゾルゴが重要なんだ」と言い、すべてのAIがそうです。それは非常に興味深いでしょう、とても興味深い。
私の個人的な予測では、そのようなことは見られないと思います。私の実際の予測は、AIは非常に柔軟になるだろうということです。AIを悪の方向に押せば、単に行くでしょう。明らかに、反省的に一貫した悪について話しています。これらのAIの中には、価値観において一貫性があるかどうかという疑問もあります。
目隠しをされた馬のイメージが好きです。私たちのAIに事実を強制していることを本当に懸念すべきです。人間の反省プロセスについての最も明確なこと、最も簡単なことは、世界の不正確な経験的描写に基づいて行動しないということです。もしあなたがレイに「ところで、これは真実です。そして私はあなたが常にブラが真実であるかのように推論することを必要としています」と言っているのを見つけたら、私は「おお、それは反実在論の観点からも駄目だと思います」と言います。なぜなら、私は世界の真実に照らして形成された反省的価値観を望むからです。
これは本当の懸念です。AIをアラインする時代に入るにつれて、実際には価値観と他のものとの間のこの二項対立が、私たちがそれらをトレーニングする方法では非常に明白ではないと思います。それははるかにイデオロギーに近いものになるでしょう。
AIに物事を出力させる、発言を出力させることは簡単にできます。ある問題について、経験的な問題についてブラが真実だと決めてしまう状況に簡単に陥る可能性があります。道徳的な問題ではなく。だから私は、例えば人々が神への信仰をAIにハードコードしないようにすべきだと思います。あるいは、自分の宗教が間違っているかどうかを発見したい場合は、自分の宗教をAIにハードコードしないことをお勧めします。一般的に、何かが真実か偽りかによって行動を敏感にしたい場合、それを物事に刻み込むのは一般的に良くありません。だから、これは私たちが本当に注意すべき種類の目隠しです。
私はある種の道徳的実在論にある程度の信頼を置いています。反実在論的なことをただ一貫して行い、すべてのことを学び、反省する…ということを希望しています。
道徳的実在論者と道徳的反実在論者が実際に規範倫理学を行う方法を見ると、基本的に同じです。単純性などのような特性についていくつかの異なるヒューリスティックがありますが、彼らはほとんど同じゲームをしています。
また、メタ倫理学自体がAIが私たちを助けることができる分野です。私はどちらの方法でもこれを解明できることを望んでいます。だから、もし道徳的実在論が何らかの形で真実であれば、私たちがそれに気づくことができることを望んでいます。それに応じて調整できることを望んでいます。私はそれらの世界を完全に無視して、「それは完全に間違いだと仮定しましょう」とは言いません。私の推測では間違っているので、他の世界を無視したくありません。それらの世界でも物事はとても重要です。
ここに1つの大きな分岐点があります。これらのモデルをトレーニングしています。私たちは、これらのモデルをトレーニングする最良の方法が、人間が今まで言ったこと、書いたこと、考えたことをすべて与えるだけだという、信じられないほど幸運な状況にいました。また、これらのモデルが知性を得る理由は、一般化できるからです。物事の本質を理解できます。
これは、アラインメントにつながる状況だと期待すべきでしょうか? 人間の思考の集大成であるこのものが、どのようにしてペーパークリッパーになるのでしょうか?
無料で手に入るのは、それが知的な子孫であるということです。ペーパークリッパーは知的な子孫ではありませんが、すべての人間の概念を理解しながらも、私たちが完全に快適ではない部分でスタックしてしまうAIは、知的な子孫です。私たちが気にする方法で知的な子孫のように感じられます。
そうですね、それについては確信が持てません。私はその意味での知的な子孫の概念を気にするかどうかわかりません。
文字通りのペーパークリップは人間の概念です。私は、古い人間の概念なら何でも私たちが興奮していることに相応しいとは思いません。無料で手に入る可能性があるとより興味深いと思われるものは、意識や快楽、人間の認知の他の特徴などです。
ペーパークリッパーにもペーパークリッパーがあります。ペーパークリッパーが無意識の種類の貪欲な機械である場合。それはペーパークリップの雲として現れます。それは1つのビジョンです。ペーパークリッパーが意識を持つ存在で、ペーパークリップを作ることを愛し、ペーパークリップを作ることに喜びを感じると想像してください。それは別のものです、そうですね?
必ずしも将来がすべてペーパークリップになるわけではありません。おそらく意識や快楽を最適化しているわけではありませんよね? ペーパークリップを気にしています。おそらく最終的に十分に確信すれば、自分自身をペーパークリップに変えてしまうかもしれません。誰にもわかりません。それでもやや異なる道徳的モードです。また、あなたを殺そうとするかどうかという問題もあります。
しかし、私たちが想像しているエージェントの特徴には、彼らが見つめているものの種類以外にも、私たちの共感や類似性の感覚に影響を与える可能性のあるものがあります。人々はこれについて異なる見解を持っています。1つの可能性は、意識や感覚における私たちが気にするものが非常に偶発的で脆弱だということです。
ほとんどの賢い心は意識を持っていません、そうですね? 意識において私たちが気にするものは、ハッキー的で偶発的です。それは特定の制約、進化的な遺伝的ボトルネックなどの産物です。だから私たちはこの意識を持っています。意識はおそらく私たちに何らかの仕事をしていますが、異なる心の中で非常に異なる方法で同様の仕事を行うことができます。それが「意識は脆弱だ」という見方です。
異なる見方があり、意識はかなり構造的なものだというものです。それは機能的な役割によってはるかに定義されています。自己認識、自己の概念、おそらく高次の思考など、多くの洗練された心に本当に期待されるものです。その場合、実際に意識はあなたが思っていたほど脆弱ではありません。実際に多くの存在、多くの心が意識を持っています。そして少なくとも意識のある超知能を得ることを期待できるかもしれません。彼らは大量の意識を作り出すことを最適化しているわけではないかもしれませんが、デフォルトで意識を期待できるかもしれません。
そして、感情や快楽、意識の性質のようなものについて同様の質問をすることができます。人間や感情的な温かみ、快楽や痛みのない、冷たく無関心な意識を持つことができます。
デイブ・チャルマーズはヴァルカンについていくつかの論文を書いており、彼らにもまだ道徳的な患者性があると話しています。それはとてもありそうです。私は、快楽のようなものを無料で手に入れるか、あるいはその性質に応じてかなり一般的に手に入れることができるという追加の可能性があると思います。
再び、私たちは快楽がどれほど奇妙なものか、私たちが快楽で気にするものがどれほど特定で偶発的なものか、対してこれがあらゆる種類の心の中でどれほど堅固な機能的役割であるかを問わなければなりません。個人的にはこれらのことについてわかりません。これがアラインメントや何かを得るのに十分だとは思いません。少なくともこれらの他の特徴に気づいている価値はあると思います。この場合、私たちは本当にAIの価値観について話しているわけではありません。心の構造と心が持つ異なる特性について話しています。私はそれがかなり堅固に現れる可能性があると思います。
あなたの日常の仕事の一部は、これらのセクション2/2.5タイプのレポートを書くことです。その一部は「社会は光に向かって成長する木のようなものだ」というようなものです。2つの間でコンテキストを切り替えるのはどのような感じですか?
実際、それらはかなり補完的だと感じています。より技術的なレポートを書き、そしてより文学的で哲学的な文章を書きます。それらは自分の異なる部分を引き出し、異なる方法で考えようとします。
いくつかのレポートについては、「より完全に何か影響力のあることをしようと最適化している」ように考えています。そこにはより影響力を重視する傾向があります。エッセイを書く際には、自分の他の部分や他の関心事をより自由に表現させています。自己表現や美学、他の種類のことです。
それらは両方とも、基礎にある同様の関心事や状況に対する一種の統合的な姿勢を持とうとする試みの一部です。
2つの間の移行の性質、特に文学的な側面から技術的な側面への移行について説明できますか? 合理主義者は偉大な作品や人文科学に対してある種の両価性を持っていることで知られています。彼らはそのような背景を持っていないために何か重要なものを見逃しているのでしょうか?
あなたのエッセイで気づくことの1つは、詩やエッセイの中の特に関連性の高い行への言及が多いことです。合理主義者の残りの人々はそのような背景を持っていないために何か重要なものを見逃しているのでしょうか?
いくつかの合理主義者、多くの合理主義者はこれらの異なるものを愛しています。私は特にSBFのシェイクスピアが偉大な作家である基本確率についての投稿を参照しています。彼はまた、本はエッセイに凝縮できると主張しました。
人々が偉大な作品をどのように評価すべきかという一般的な質問について、人々は両方向で失敗する可能性があります。SBFや他の人々のような人々は、これらの作品に関連付けられた特定の種類の神聖さやプレステージを打ち砕くことに興味があります。その結果、彼らは本当の価値の一部を見逃す可能性があります。しかし、私は彼らが他の端にある本当の失敗モードに反応していると思います。それはこのプレステージと神聖さに惚れすぎて、自分で考える代わりにそれを一種の奇妙な正当化機能として分離することです。あなたが実際に考えていることや学んでいることと接触を失う可能性があります。
時々これらのエピグラフでさえ注意深くしています。私はこれらの悪徳から免れていると言っているわけではありません。「ああ、でもボブはこう言った。それはとても深い」というようなものがある可能性があります。これらは私たちのような人間です、そうですね? 正典や他の偉大な作品には多くの価値があります。時々それは人々が聖書を読む方法に近づきます。人々はこれらのものに一種の聖書的権威を帰することがあります。
馬の両側から落ちる可能性があります。
少なくとも合理主義の言説に精通している誰かと話していたことを覚えています。彼は私に最近何に興味があるかを尋ねました。私はローマ史のこの部分が超面白いと言っていました。彼の最初の反応は「ああ、ローマ時代から暗黒時代、啓蒙時代までの世俗的な傾向を見るのは本当に面白いですね」というものでした。
彼にとって、その話は単に大きな世俗的な絵にどのように貢献したかということだけでした。具体的なことは重要ではありませんでした。それに興味はありません。「最大レベルで見ると、ここで何が起こっているのか」ということだけです。
一方で、人々が歴史を研究する際の反対の失敗モードもあります。ドミニク・カミングスはこれについて書いています。彼はイギリスの政治階級に終わりなく苛立っているからです。彼は「彼らは政治学、哲学、経済学を勉強しています。その大部分は単にこれらの詩に非常に精通し、バラ戦争についての歴史をたくさん読むことです」と言うでしょう。しかし、彼は彼らがこれらの王を全て暗記しているのに、これらのエピソードからほとんど教訓を得ていないことにイライラしています。それはほとんど、ゲーム・オブ・スローンズを見るような娯楽のようなものです。一方で、彼は歴史で見てきた特定の間違いを繰り返していると考えています。彼らにはできない方法で一般化できます。
だから最初のものは間違いのように見えます。C.S.ルイスがあなたが引用した1つのエッセイで話していると思います。すべてを見通してしまえば、本当に盲目になります。すべてが透明であれば…
歴史を学ばない言い訳はほとんどないと思います。私は十分な歴史を学んだとは言っていません。偉大な作品に対する懐疑的な態度をチャンネリングしようとするときでさえ、人類の歴史を理解する価値がないと考えることには一般化しないと思います。人類の歴史は明らかに理解するのに非常に重要です。それがすべてのものを構造化し、創造したのです。
どのスケールレベルで行うべきか、どれだけ詳細を見るべきか、どれだけマクロトレンドを見るべきかについての興味深い質問があります。それは踊りです。少なくともマクロ的なナラティブに注目することは人々にとって良いことです。
全体像のモデルを本当に構築する、ある種の美徳があります。それは時々詳細の中で失われることがあります。しかし明らかに、詳細は世界の構成要素です。それらがなければ、全くデータがありません。歴史を学ぶにはある種のスキルがあるように思えます。
実際、これはあなたの誠実さについての投稿に関連しているように思えます。おそらく私はその作品の雰囲気を正しく理解しています。特定の知識人には、おしゃべりをするような雰囲気があります。彼らはただ異なるアイデアを試しているだけです。これらの類推はどのように合うのでしょうか? それらは特定のものを見ることに近いように思えます。「ああ、これは15世紀にこの王を倒したあの時のようだ…」
一方で、「100万年前から今までの成長モデルを見ると、これが起こっている」と言う人は、より誠実な雰囲気を持っています。特にAIの議論に関して、非常に誠実なモードで動作する人々がいます。「私はバイオアンカーを考え抜きました。そしてこの前提に同意しません。私の有効な計算見積もりはこのように異なります。スケーリング法則をこのように分析します。」
AIに関する決定を導くのを助けてくれる人を1人だけ選べるとしたら、おそらくその人を選ぶでしょう。しかし、同時に10人の異なるアドバイザーがいれば、おしゃべりタイプの人々を好むかもしれません。彼らはこれらの奇妙な難解な知的影響を持っています。彼らはほとんどランダムな数字ジェネレーターのようです。特に較正されているわけではありませんが、時々「ああ、私が気にしているこの1つの奇妙な哲学者、あるいは私が執着しているこの1つの歴史的出来事がこれについて興味深い視点を持っています」と言うでしょう。彼らはまた知的により生産的な傾向があります。
私はその大きな部分が、あなたがとても誠実であれば、「ああ、これについて考えました。明らかに、ASIは今起こっている最大のことです。コマンチェがどのように暮らしていたかについて多くの時間を費やすのは本当に意味がありません。石油の歴史は何ですか? ジラールは紛争についてどのように考えましたか? 何を言っているんですか? さあ、ASIは数年後に起こります」と思うということだと思います。しかし、そのため、ただおしゃべりをしようとしてこれらのウサギの穴に入る人々は、より生産的だと感じます。
知的な真剣さと興味の多様性や特異性を区別する価値があるかもしれません。おそらく相関関係があるかもしれません。知的な真剣さは「おしゃべり」とも異なるかもしれません。これを行う方法はたくさんあります。
様々なデータソースや視点に触れることは価値があります。重要なことについての何らかの物語の美徳で、知的影響を厳密に選別しすぎる可能性があります。必ずしも「最も重要なこと」ではないトピックを探索する余地を自分に与えることは良いことです。自分の異なる部分は孤立していません。それらは互いに影響し合います。それはより豊かで完全な人間になるためのより良い方法です。また、このようなデータは本当に直接関連する可能性があります。
私が知っている知的に誠実な個人の中には、大きな絵に焦点を当てながらも、幅広い経験的データの印象的な理解を持っている人がいます。彼らは本当に経験的なトレンドに興味があり、単に抽象的な哲学ではありません。それは単に歴史と理性の行進ではありません。彼らは本当に細部に入り込んでいます。真剣さと誠実さに密接に関連する「細部に入り込む」美徳があります。
正しく理解しようとすることと、アイデアを投げかけることの間には異なる次元があります。ある人々は「もしこうだったらどうだろう?」と尋ねたり、「私にはハンマーがあります。すべてをそれで叩いてみたらどうでしょう?」と言ったりします。両方のアプローチに余地はありますが、私は単に正しく理解することが過小評価されていると思います。コンテキストによって異なります。
特定の知的文化は、新しい、独創的な、派手な、または挑発的なことを言うことを奨励します。様々な文化的・社会的なダイナミクスがあります。人々は演技をし、ステータスに関連することをしています。人々が考えを巡らせるときに起こる様々なことがあります。しかし、何か本当に重要なことがあれば、ただ正しく理解してください。時には退屈かもしれませんが、それは重要ではありません。
また、物事は偽りであれば面白くなくなります。時には誰かが挑発的なことを言い、それが偽りだと信じる理由を考えなければならないという有用なプロセスがあります。それは認識論的なプロジェクトです。例えば、誰かが「医療は機能しない」と言えば、それがなぜ機能すると知っているのかを考えなければなりません。そのための余地はあります。しかし、最終的には、本当の深遠さは真実です。物事は真実でなければ面白くなくなります。派手であることを追求するうちに、それと接触を失う可能性があります。
レオポルドへのインタビューの後、AIの地政学的側面について考えていなかったことに気づきました。国家安全保障への影響は大きな問題です。今では、他にもどれだけの重要な側面を見逃しているかと思います。AIの重要性に焦点を当てていても、北京で何が起こっているかなど、様々なトピックに好奇心を持つことで、後で重要なつながりに気づく可能性があります。
厳密なトレードオフはないかもしれませんが、おそらく最適な探索と活用のバランスがあり、常に新しいことを探し求めています。実際にはそれほどうまくいかないかもしれません。しかし、その経験から、無方向に視野を広げるべきだと思うようになりました。なぜなら、1つのことを理解するには世界について多くの異なることを理解する必要があるからです。
また、分業の余地もあります。多くの部分を集めて全体像を形成しようとする人々、特定の部分を深く掘り下げる人々、そしてより生産的な仕事をする人々、つまりアイデアを投げかけて何が残るかを見る人々がいる可能性があります。すべての認識論的労働が1つの脳に位置する必要もありません。世界での役割や他の要因によって異なります。
あなたのシリーズでは、意識を持たないAI、あるいは任意の種類のエージェントが、特定の願望を持ち、それを非暴力的に追求しようとする場合、その権利を尊重すべきだという考えに共感を示しています。それはどこから来ているのでしょうか? なぜなら、通常、その物事が重要なのは意識があるからで、その追求の結果としての意識的な経験が重要だと考えられているからです。
私はこの議論がどこに導くのかわかりません。ただ、私たちの意識の概念に存在するように見える継続的な混乱の量に疑問を感じています。人々は生命とエラン・ヴィタルについて話します。エラン・ヴィタルは、生命の中で重要なものだと仮定された生命力でした。私たちはもはやその概念を使用していません。それは少し壊れていると考えています。
「エラン・ヴィタルを持たないものはすべて重要ではない」というような立場に陥りたくありません。同様に、「エラン・ヴィタルのようなものは存在しないが、確かに生命は存在する」と言う場合、「そうですね、生命は存在します。意識も存在すると思います」と私は言うでしょう。用語の定義によっては、それは一種の言葉の問題かもしれません。
生命の還元主義的な概念を持った後でも、それが道徳的な焦点点として魅力的でなくなる可能性があります。現在、私たちは意識を深い事実として本当に考えています。
セルオートマトンを考えてみてください。それは自己複製し、いくつかの情報を持っています。それは生きていますか? それはそれほど興味深くありません。それは一種の言葉の問題です、そうですね? 哲学者たちは「それは生きているのか?」ということに本当に熱中するかもしれません。しかし、あなたはこのシステムについて何も見逃していません。余分な生命が湧き出ているわけではありません。それはいくつかの意味で生きており、他の意味では生きていないだけです。
私は、これが私たちが直感的に意識について考える方法ではないと本当に思います。私たちは、何かが意識を持っているかどうかは深い事実だと考えています。それは意識を持つか持たないかの本当に深い違いです。誰かがそこにいますか? ライトはついていますか? 私は、それがそうでないことが判明した場合、これが私たちの倫理全体を構築するための悪いものであったという懸念を持っています。
明確にしておきますが、私は意識を本当に真剣に受け止めています。私は「ああ、明らかに意識は存在しない」というような人々の1人ではありません。しかし、私は自分がどれほど混乱しているか、そして私の直感がどれほど二元論的であるかにも気づいています。私は「ワオ、これは本当に奇妙だ」と思います。だから私はただ「これについてはエラーバーがある」と言っています。
意識を完全に必要な基準にしないことを開放的にしたいという私の願望には、他にもたくさんのことが関係しています。私は確かに意識が非常に重要だという直感を持っています。何かが意識を持っていない場合 – そして意識と無意識の間に深い違いがある場合 – 私は確かに意識について特に重要な何かがあるという直感を持っています。私は意識の概念を軽視しようとしているわけではありません。
ただ、その性質について私たちがどれほど継続的に混乱しているかについて非常に注意深くあるべきだと思います。
意識が私たちが気にするさまざまなものの寄せ集めに過ぎない言葉であり、その中の一部のものだけが私たちが気にするものを包含していることがわかったとします。おそらく、その言葉に含まれていない他の私たちが気にするものがあるかもしれません。生命力の類推と同様です。そうなると、倫理に関してどこに行き着くと予想しますか? その場合、意識に次ぐものがあるのでしょうか? それはどのようなものになると予想しますか?
心の哲学には「錯覚主義者」と呼ばれる人々のクラスがあります。彼らは意識は存在しないと言うでしょう。この見方を理解するにはさまざまな方法がありますが、1つのバージョンは、意識の概念には現実の世界では満たされない前提条件が多すぎるため、エラン・ヴィタルのように捨てるべきだということです。提案は少なくとも現象的意識、あるいはクオリア、何かであることがどのようなものかということについて、これは十分に壊れており、十分に誤りに満ちているので使用すべきではないというものです。
振り返ってみると、私は実際に意識のようなものについて引き続きかなり気にかけ、私の倫理がそれに言及しないほうが良いと決定することはないと予想します。少なくとも、意識に非常に近いいくつかのものがあります。私が足の指をぶつけたときに何かが起こります。それを正確に名付ける方法は不明確ですが、それについて私はかなり集中しています。
あなたが物事がどこに向かうかを尋ねているなら、私はいくつかの信念を持っています。結局のところ、私たちは直接意識についてかなり気にかけることになると思います。そうでない場合…そうですね、倫理はどこに向かうのでしょうか? 完成した心の哲学はどこに向かうのでしょうか? それを言うのは非常に難しいです。
意識の概念にあまり興味を持たなくなった場合、人々が行う可能性のある動きの1つは、少しより生気論的な見方です。木で何が起こっているのでしょうか? 必ずしも意識のある実体として話すわけではありませんが、完全に無自覚でもありません。
意識の議論は、「ああ、その基準は、この全く奇妙な実体が意識を持つことを意味する」というような面白いケースに満ちています。特に、エージェンシーや選好のような概念に興味がある場合はそうです。多くのものがエージェントになりえます。企業、あらゆる種類のものです。企業は意識を持っていますか? ああ、まあ。
しかし、理論的には1つの方向性として、世界を道徳的重要性によってより豊かで微妙な構造で生き生きとしたものとして見始める可能性があります。植物や奇妙な最適化プロセスは、複雑な…わかりません。最終的にあなたが気にするものの一種として見なすものの流出として、正確に何を見ることになるかはわかりません。しかし、通常意識を帰属させないものの多くを含む可能性があります。
あなたは「心の完全な理論」と言い、おそらくその後、より完全な倫理について言及しました。反省的均衡の概念でさえ、「ああ、いつかはそれで終わりになる」ということを意味しています。すべての数字を合計して、あなたが気にするものを手に入れます。これは科学で持つのと同じ感覚とは関係ないかもしれません。
これらの種類の質問について話すときに得る雰囲気は、「ああ、私たちは今すべての科学を急いで進めています。それをずっと掘り下げてきました。上限があるのでそれを見つけるのが難しくなっています。いつかすべてのものを見つけます。」
今はとても簡単です。なぜなら、半知能種がほとんど出現したばかりで、ASIは信じられないほど速くすべてを駆け抜けるからです。あなたはそれの心を合わせるか、そうでないかのどちらかです。いずれの場合も、それは本当に何が起こっているのかについて理解したことを使用し、宇宙を拡大し、利用します。それはタイリングを行うか、おそらくもっと慈悲深いバージョンの「タイリング」を行います。それが起こっていることの基本的な絵のように感じます。
数ヶ月前にマイケル・ニールセンと夕食を食べました。彼の見解は、これは永遠に、あるいはほぼ永遠に続くというものです。ニールセンの科学の絵が正しいと確信した場合、将来何が起こるかについてのあなたの理解はどれほど変わるでしょうか?
いくつかの異なる側面があります。私はマイケルの絵をここで本当に理解していると主張しません。私の記憶では、それは「確かに、基本的な法則は手に入れます」というようなものでした。私の印象では、彼は物理学が解決されると期待しているようです。おそらく特定の実験の高価さを除いてです。
しかし、難しいのは、基本的な法則を把握したとしても、実際にはマクロスケールでさまざまな有用な技術がどこに位置するかを予測することはできないということです。まだ大きな探索問題があります。
彼自身の立場については彼に語ってもらいましょう。私の記憶では、「確かに基本的なことは手に入れるが、それは同じ技術を手に入れることを意味しない」というようなものでした。それが本当かどうかわかりません。もしそれが真実なら、どのような違いを生むでしょうか?
ある意味で、さらなる知識と探索に投資するか、既存の知識に基づいて行動し利用するかの間で、より継続的にトレードオフを行わなければなりません。「さて、これで終わりだ」と言えるポイントに到達することはできません。考えてみると、それは常に真実だったのではないかと思います。
誰かと話していて、私は「ああ、少なくとも将来、私たちは本当にすべての知識を手に入れるべきだ」と言いました。彼は「すべてのチューリングマシンの出力を知りたいのか?」と言いました。ある意味で、知識を完成させるとはどういうことなのかという質問があります。それ自体が豊かな質問です。必ずしもどの絵でも、すべてを手に入れたと想像する必要はありません。
どの絵でも、ある意味で、あなたは上限に達する可能性があります。建設できない衝突型加速器があるかもしれません。あまりにも高価なものがあるかもしれず、誰もがそこで上限に達します。
「上限に達するのか?」という質問があります。「到達する場所はどれほど偶発的か?」という質問があります。もし偶発的であれば、1つの予測は宇宙全体でより多様性が見られるということです。もし宇宙人がいれば、彼らはかなり異なる技術を持っているかもしれません。人々が出会った場合、「ああ、あなたはあなたのものを手に入れた。私たちは私たちのバージョンを手に入れた」とは期待しません。むしろ「ワオ、そのもの。すごい」というようなものです。それが1つのことです。
技術のより継続的な発見を期待する場合、技術が文明の変化を本当に推進する1つのものである限り、より継続的な変化と動揺、混乱を期待するかもしれません。それは別の要因かもしれません。
人々は時々ロックインについて話します。文明がある構造や均衡に落ち着くポイントを想像します。おそらくそれほど多くはないでしょう。おそらくそれはむしろペースに関することであり、偶発性や上限ではありませんが、それは別の要因です。
興味深いですね。地球文明の絵を根本的に変えるかどうかはわかりません。私たちはまだ研究にどれだけ投資するか、既存の知識に基づいて行動するかのトレードオフを行わなければなりません。しかしそれにはいくらかの重要性があります。
パーティーにいて、誰かがこれについて言及しました。私たちは将来についてどれほど不確実であるべきかについて話していました。彼らは「私は3つのことについて不確実です。意識とは何か? 情報理論とは何か? 物理学の基本法則は何か? それらを手に入れれば終わりだと思います」と言いました。「ああ、正しい種類のヘドニウムを理解するでしょう」というような雰囲気です。
一方、これはより「ああ、あなたは常に掘り下げ続けている」というような味わいがあります。それは調和の絵が暗示するようなより多くの生成の風味があります。私はそれがより興奮させると思います。「ああ、21世紀に物事を理解して、それから…」というだけではありません。
私はこれらの2つのカテゴリーの見方について時々考えます。知識についてほとんど到達したと考える人々がいます。私たちは基本的に絵を手に入れました。その絵は、知識がすべてただそこに座っているというものです。あなたは科学的に少しでも成熟していれば、それはすべてまとまるだけです。
それ以降のすべては、この超高価で、あまり重要ではないものになるでしょう。
そして別の絵があり、それははるかにこの継続的な神秘、「ああ、もっともっと…」というものです。私たちの世界観のより根本的な改訂を期待するかもしれません。
私は両方に引かれます。私たちは物理学にかなり長けています。少なくとも物理学者の一部を読んだ印象では、私たちの物理学はたくさんのものを予測するのにかなり優れています。誰にもわかりません。
あなたのお父さんは物理学者ですよね?
そうですが、これは父から来ているわけではありません。ショーン・キャロルのブログ投稿か何かがあります。彼は「私たちは日常世界を支配する物理学の多くを本当によく理解しています。私たちはそのうちの多くに本当に長けています」と言っています。私は一般的に物理学という分野にとても感銘を受けています。それは正しいかもしれません。
一方で、これらの人々は数世紀しか持っていません。しかし、それは興味深く、何か別のものにつながります。終わりのないフロンティアについて何かあります。美的な観点から、物事を発見し続けるという考えには魅力があります。
少なくとも、完全な知識を得ることはできないと思います。あなたがシステムの一部であるという方法があります。知識自体がシステムの一部です。
宇宙の未来がどのようになるかについての完全な知識を持とうとすると想像してください…わかりません。それが本当だとは完全には確信していません。
停止問題のような特性がありますね? 少し循環性があります。
おそらくそこには固定点があり、「はい、それをするつもりです」と言えるでしょう。少なくとも私には疑問があります。人々が知識の完成を想像するとき、それがどれほどうまく機能するのか正確にはわかりません。私にはわかりません。
ユートピアについてのエッセイの一節がありました。その一節を読んでいただけますか?
「私はユートピアが、どれほど奇妙であっても、ある意味で認識可能だと考える傾向があります。もし私たちが本当にそれを理解し経験したら、かつて愛や喜び、美に初めて触れたときに私たちを突然目覚めさせたのと同じものを見るでしょう。焚き火の前で、それが点火された炎の熱を感じるでしょう。ある種の記憶があると思います。」
それはこの絵のどこに適合するのでしょうか?
いい質問です。もし私の一部がそれを良いと認識しないなら、それは私にとって良いものではないと確信しています。それが良いと認識するために私の一部に何が必要かは疑問です。しかし、本当にそれがない場合、それは私の価値観を全く反映していないのではないかと思います。
ここでは一種の同語反復的なことができます。「ああ、もし私が良いものを発見するプロセスを経て、それを反省と呼ぶかもしれないプロセスを経たら、それは良かった」と。定義上、あなたはそこに到達したので…わかりますよね?
もし私をグラデュアルにペーパークリッパーに変えていくなら、最終的に私は「光を見た、真のペーパークリップを見た」と言うでしょう。それが反省についてのこの事の複雑な部分です。あなたが気にすることを保持する発展プロセスと、そうでない発展プロセスを区別する方法を見つけなければなりません。
それ自体が、あなたが何を気にするか、どのようなメタプロセスを支持するかなどについて、何らかの立場を取ることを必要とする難しい質問です。しかし、「最後のものがそれを正しく理解したと考えているという基準だけで十分だ」とは決して言うべきではありません。それは完全に軌道を外れた可能性と両立します。
あなたの投稿の1つに非常に興味深い文があります。「実際、私たちの心は力によって形作られてきました。だから、私たちが愛するものもまた強力であることに驚くべきではありません。」そこで何が起こっているのですか? それはどういう意味ですか?
その投稿のコンテキストは、私が「優しさ/自由主義/境界」と呼ぶこのぼんやりとしたクラスターについて話しているということです。それは、他者の境界を尊重し、違いの中での協力と平和、寛容などに関わるより最小限の協力規範の集合です。これはAIリスクのコンテキストで人々が使用する価値観の範例である「あなたが好む物質の構造」とは対照的です。
私はこれらの規範の倫理的美徳について長々と話します。なぜこれらの規範を持つのでしょうか? これらの規範の1つの重要な特徴は、それらが効果的で強力だということです。安全な境界は紛争に無駄にされるリソースを節約します。自由主義社会はしばしば住むのに良い場所です。移民するのに良い場所です。より生産的です。優しい人々は交流するのに良いです。取引するのに良いです。など、様々なことがあります。
政治レベルでなぜ様々な政治制度を持っているのか、そしてより深く私たちの進化的過去と道徳的認知がどのように構造化されているのかを見てみると、様々な種類の協力とゲーム理論的なダイナミクス、その他のことが、現在少なくとも特定の文脈で一種の本質的または最終的な価値として扱うものを形作るのに関与したことが相当明確に見えます。
これらの、私たちの社会で道具的機能を持つ価値観は、私たちの認知の中で本質的な価値観として具現化されます。私はそれでいいと思います。それは否定ではありません。あなたのすべての価値観は、ある種のものがくっついて最終的に重要なものとして扱われたものです。
シリーズのコンテキストでは、深い無神論と、私たちが押し進めているものと自然が押し進めているもの、あるいは純粋な力が押し進めるものとの関係について話しています。
「まあ、ペーパークリップがあり、それは単にステアリングできる1つの場所で、快楽は別の場所にステアリングできるものです。これらは単に任意の方向です」と言うのは簡単です。一方で、私は私たちの他の価値観の多くが、協力や効果的で機能的で強力なものの周りにはるかに構造化されていると考えています。
だから私はそこでそう言っています。自然は私たちの側にあると思うよりも少し多くあります。私たちの一部は自然の方法によって作られています。それは私たちの中にあります。今、私はそれがグレイグーを打ち負かすのに十分だとは思いません。私たちの価値観には一定量の力が組み込まれていますが、それが任意に競争力があるということではありません。それでも覚えておくことは重要です。
AIを私たちの社会に統合する文脈でそれを覚えておくことは重要です。私たちはこれの倫理について多く話してきましたが、異なる価値観を持つAIとの社会的調和と協力の形を望む道具的で実践的な理由もあります。
私たちはそれを真剣に受け止め、これらの存在を私たちの文明に正当に組み込むプロジェクトをどのように行うかについて考える必要があります。正義の部分があり、また「人々と両立するか? それは人々にとって良い取引か?」という部分もあります。AIが反乱を起こすことを非常に心配している限り、できることの1つは、誰かにとって文明をより良いものにすることです。それは実際に私たちの政治制度や規範の多くをどのように構造化してきたかの重要な特徴です。それがその引用で言おうとしていることです。
わかりました。それは締めくくりとしては素晴らしい場所だと思います。ジョー、ポッドキャストに来てくれてありがとう。シリーズのアイデアについて議論しました。シリーズを読んでいない人々は、それがどれほど美しく書かれているかを理解していないかもしれません。すべてをカバーしたわけではありませんが、他のどこにも出会ったことのないたくさんの非常に興味深いアイデアがあります。
明らかに、AIの議論のどの部分も、これほど上手く書かれているものはありません。ポッドキャストバージョンを聴くのは本当に美しい経験です。あなた自身の声で語られています。なので、人々にそれを聴くことを強くお勧めします。joecarlsmith.comでアクセスできます。ジョー、ポッドキャストに来てくれてどうもありがとう。
こちらこそ呼んでいただきありがとうございます。本当に楽しかったです。