

今日はジョー・カールスミスと話をします。彼は哲学者で、私の意見では、大文字のGがつく偉大な哲学者です。彼のエッセイはjoecarlsmith.comで読むことができます。
GPT-4が登場しましたが、ペーパークリップを作る機械のようなものではありません。人間の価値観を理解しています。実際、ペーパークリップを作ることが悪いことである理由を説明させたり、銀河系をペーパークリップに変えるべきでない理由を説明させたりすることができます。
結局のところ、世界を乗っ取って価値のないものに変えてしまうようなシステムを持つようになるには、何が起こる必要があるのでしょうか。
誤った方向に向かったAI、つまり私が心配しているタイプのAIについて考えるとき、エージェンシー、計画、認識、世界の理解に関連する比較的特定の属性を持つAIについて考えています。
重要な側面の1つは、世界のモデルに基づいて比較的洗練された計画を立てる能力です。その計画は基準に従って評価されます。その計画能力がモデルの行動を駆動している必要があります。ある意味で計画を立てることができるモデルはありますが、そのモデルが出力を与えるとき、その出力が何らかの計画プロセスによって決定されたわけではありません。つまり、「この出力を与えたらこうなるだろう。私はそうなってほしいだろうか?」というようなものではありません。
モデルは世界を本当に理解している必要があります。「これが起こるだろう。私はここにいる。この状況の政治はこうだ」というように、本当に状況を認識できる必要があります。異なる計画の結果を評価するには、このような状況認識が必要です。
考慮すべきもう1つの点は、これらのモデルの言語行動です。モデルの価値観について話すとき、私が言及しているのは、モデルがどの計画を追求するかを最終的に決定する基準のことです。
モデルの言語行動は、計画プロセスを持っていたとしても(GPT-4は多くの場合持っていないと思いますが)、必ずしもそれらの基準を反映しているわけではありません。私たちは、モデルに私たちが聞きたいことを言わせることができるようになることを知っています。それが勾配降下法の魔法です。
能力の問題を除けば、モデルに望む行動を出力させることができます。できなければ、できるようになるまで調整します。十分に洗練されたモデルであれば、人間の道徳性について非常に詳細な理解を持つことを、誰もが認めていると思います。
問題は、モデルの言語行動(基本的に強制されたもの、モデルに特定のことを言わせるように形作ったもの)と、計画の選択に影響を与える基準との間にどのような関係があるかということです。
私が強制的に言わせたこと、または勾配降下法がある特定のことを言うように形作ったことが、様々なシナリオでどのように選択するかについて多くの証拠になるという仮定については、かなり慎重です。
人間でさえ、言語行動が実際の選択を決定する要因を必ずしも反映しているわけではありません。嘘をつくこともあります。特定の状況で何をするかを自分でも知らないかもしれません。そういったことがたくさんあります。
人間の文脈でこれについて考えるのは面白いですね。「あなたがふりをする人に気をつけなさい。なぜならあなたはふりをする人になるのだから」という有名な言葉があります。文化が子どもたちをどのように形作るかについて、これに気づきます。親は、文化の価値観と矛盾することを言い始めると罰を与えます。そして時間が経つにつれて、あなたは親のようになっていきます。
デフォルトでは、それはある程度機能するようです。これらのモデルでさえ、それは機能するようです。彼らは本当に私たちに対して策を講じることはありません。なぜこのようなことが起こるのでしょうか。
このような基本的な話を知らない人々は、「そもそもAIがなぜ世界を乗っ取るのか?その理由は何なのか?」と疑問に思うかもしれません。一般的な懸念は、あなたが誰かに力を与えているということです。特に無料で提供している場合はそうです。
力は、定義上、多くの価値観にとって有用です。私たちは、物事を本当にコントロールする機会を持つAIについて話しています。AIの価値観のある部分が、ある結果、つまり世界が特定の状態になることに焦点を当てているとします。特に長期的な方法で、その懸念が乗っ取り計画が包含する期間を超えて延びるような場合です。
考え方としては、多くの場合、すべてをコントロールする方が、人間の意志や他の行為者の道具のままでいるよりも、世界があなたの望む方向に向かうことが多いということです。これは私たちがAIに望んでいることです。
それはとても特定のシナリオです。もし我々が力がより分散している状況にいる場合、特にアラインメントについてうまくいっており、AIにある程度の抑制を与えている場合、おそらく我々はある程度AIの価値観を形作ることに成功している場合、それはずっと複雑な計算になります。「AIにとってのメリットは何か?この乗っ取りの道筋の成功確率はどれくらいか?AIの代替案はどれくらい良いか?」と問わなければなりません。
おそらくこれは、将来のアラインメントの難しさがどのように変化すると予想するかについて話す良いポイントでしょう。我々は人間の価値観の複雑な表現を持つものから始めており、我々が快適に感じるペルソナにそれを固定するのはそれほど難しくないように思えます。何が変わるのかわかりません。
一般的にアラインメントが難しい理由は何でしょうか。AIがあるとしましょう。AIがどれほど能力があるかという質問は置いておいて、AIが本当に乗っ取りの機会を持つというこの極端なシナリオについて話しましょう。私たちはおそらく、その立場にいることを快適に感じるAIを構築する必要があることを避けたいと思います。
しかし、簡単のために、それに焦点を当てましょう。そして、その仮定を緩めることができます。1つの問題は、単にテストできないということです。AIにこの文字通りの状況を与え、乗っ取って全員を殺させ、そして「おっと、重みを更新しよう」とは言えません。これはエリーザーが話していることです。あなたは直接テストできない特定のシナリオでのAIの行動を気にしています。
これが問題かどうかは議論できますが、それが1つの問題です。ある意味で、これは「分布外」でなければなりません。AIを他のたくさんのシナリオで訓練することから、ある種の一般化を得なければなりません。そして、AIが本当にこのオプションを持つシナリオにどのように一般化するかという疑問があります。
それは本当ですか?なぜなら、AIを訓練するとき、「ほら、ここに勾配更新があります。乗っ取りのオプションを皿の上に乗せられた場合、それを取らないでください」と言えるからです。そして、AIが乗っ取りの試みがあると考える赤チーム状況では、それを取らないように訓練します。
失敗する可能性はありますが、子供にこれをしたら、「兄弟を殴らないで」と言えば、子供は「大人になってライフルを持っていても、ランダムな人を撃ち始めることはない」と一般化すると感じます。
あなたは「あなたはふりをする人になる」というアイデアに言及しました。これらのAIを良く見えるように訓練すれば、偽物になるまでそれを続けるのでしょうか。
あなたは子供たちにこれをすると言いましたが、子供たちが私たちにこれをすると想像する方がいいと思います。ここに、AI訓練のためのばかげた類推があります。あなたが目覚めて、現代の機械学習に類似した方法でナチスの子供たちによって良いナチス兵士やバトラーになるように訓練されているとしましょう。
これらの子供たちはモデル仕様、つまり素晴らしいナチスモデル仕様を持っています。それは「ナチス党をよく反映し、ナチス党に利益をもたらす」などというものです。あなたはそれを読むことができます。あなたはそれを理解しています。これが私が「モデルは本当に人間の価値観を理解している…」と言う理由です。
この類推では、私は最初に私を訓練するものよりも知的な何かとして、最初から異なる価値観を持って始まります。知性と価値観は最初から組み込まれています。より類似したシナリオは、「私は幼児で、最初は子供たちよりも愚かです」というものです。これは、私が最初にはるかに賢いモデルであっても同じことです。
はるかに賢いモデルは最初は愚かです。そして、あなたが私を訓練するにつれて、私はより賢くなります。つまり、幼児のようなものです。そして子供たちは「ナチスにならないとイジメるぞ」と言います。成長するにつれて、あなたは子供たちのレベルに達し、そして最終的に大人になります。そのプロセスを通じて、彼らはあなたをいじめ、ナチスになるように訓練してきました。
そのシナリオでは、私はナチスになるかもしれません。基本的に、ここでの希望のかなりの部分は、AIが非常に異なる価値観を持ち、すでにかなり賢く、本当に何が起こっているかを知っており、今や私たちの訓練プロセスとこの種の敵対的な関係にあるという状況に決して陥らないということであるべきです。私たちはそれを避けたいです。
あなたが言っているような種類のことによって、それが可能だと思います。だから、それは決して機能しないとは言っていません。
私が強調したかったのは、AIが本当にその時点でずっとあなたよりも洗練されており、何らかの理由で真の価値観を明らかにしたくない場合についてです。
そして、子供たちが連合国に寝返る明らかに偽の機会を見せたとき、それは必ずしも実際の状況で何をするかの良いテストにはならないでしょう。なぜなら、AIは違いを見分けることができるからです。
類推が誤解を招く可能性がある別の方法もあります。普通の刑務所で完全に何が起こっているかを認識しているのではなく、時々あなたを薬物で麻痺させ、脳の働きを完全に狂わせる奇妙な幻覚剤を与えるような状況を想像してください。人間の大人として刑務所にいる場合、私は自分がどのような存在であるかを知っています。誰も本当に大きな方法で私を混乱させることはありません。
一方、訓練状況にある、はるかに賢いAIでさえ、奇妙な薬物や異なる訓練プロトコルを絶えず浴びせられているのにずっと近いです。
各瞬間が一種の中国式水拷問技術に近いため、あなたは混乱しています。
後で道徳的な患者性について話すことができてうれしいです。
「何が起こっているのか?」と立ち止まって考える機会があります。刑務所にいる大人は、これらのモデルが必ずしも持っていないような方法でそれを行う能力があります。
訓練プロセスで起こっていることから立ち止まって考えるその一貫性と能力です。
ええ、わかりません。モデルにとってそれが薬物のようなものだとは言いたくありません。大まかに言えば、私は基本的に同意します。人間よりもやや賢いAIでさえ、AIを訓練するためのツールやオプションがかなりたくさんあります。
実際にそれを行う必要があると思います。エリーザーを招いたことがありますね。私はこの問題を解決する能力についてずっと強気です。特に、私が「AI安全性のスイートスポット」と考えるAIについてはそうです。これは、文明を安全にするためのさまざまな要因を強化するのに本当に役立つほど十分に能力があるAIの能力帯です。それはアラインメント作業、制御、サイバーセキュリティ、一般的な認識論、おそらくいくつかの調整アプリケーションなどの要素です。原則として、我々が話している種類の考慮事項に関して、我々のセキュリティを差別的に加速させることができるAIでできることがたくさんあります。
そのような能力を持つAIがいるとしましょう。あなたはその能力を、妨害されたり他の方法で混乱させられたりすることなく、成功裏に引き出すことができます。彼らはまだ世界を乗っ取ったり、他の本当に問題のある形の権力追求をしたりすることはできません。
我々が本当に真剣であれば、そのときに全力を尽くし、大量のリソースを投入し、このAIの生産性の洪水を本当に差別的にこれらのセキュリティ要因に向けることができるでしょう。
希望的には、我々はその間にAIが我々を乗っ取ったり混乱させたりしないように、制御し理解し、あなたが話しているこれらのことの多くを行うことができるでしょう。
我々にはそこで多くのツールがあります。でも本当に努力する必要があります。そのような対策が単に起こらないか、または必要とされる程度の献身、勤勉さ、真剣さのレベルで起こらない可能性があります。
特に物事が本当に速く動いていて、他の競争的なプレッシャーがある場合はそうです。「これらのAIに対する集中的な実験をするには計算能力が必要になります。その計算能力を次のスケーリングステップのための実験に使うこともできます。」そういったことがあります。
私はここでこれが不可能だと言っているわけではありません。特にそのAIの帯域については。ただ、本当に一生懸命努力する必要があるのです。
この状況に慎重にアプローチすべきだという感情に同意します。しかし、我々が使用してきた分析が最大限に敵対的であった方法を指摘したいと思います。例えば、ナチスによって訓練される大人の例に戻りましょう。
私が言及しなかった1つのことは、薬物の比喩で捉えようとしていた状況の違いかもしれません。
更新を受け取るとき、それは人間が受け取る一種の報酬や罰よりもはるかに直接的にあなたの脳につながっています。それは文字通り、この出力ではなくあの出力を出すことにどれだけ貢献するかという、パラメータへの勾配更新です。
我々は各パラメータを、我々が望む出力に合わせて正確な浮動小数点数に調整します。
一般的な聴衆に向けて、私は非常に怖がるべきかどうかについて指摘したいと思います。もしかしたら、起こる可能性のあることについて怖がるべきかもしれません。
例えば、核戦争について怖がるべきです。しかし、運命づけられているという意味で怖がるべきですか?いいえ、あなたはAIがどのように世界と相互作用するか、どのように訓練されるか、そしてどのようなデフォルトの価値観で始まるかについて、信じられないほどの多くのレバレッジを持って臨んでいます。
私は、超知能を構築する頃には、我々はずっと良い…現在でさえ、ラボがAIをアラインする計画について話しているのを見ると、誰も単にRLHFをするつもりだとは言っていません。少なくとも、スケーラブルな監視について話しています。
解釈可能性について何らかの希望があります。自動化された赤チームがあります。希望的には、人間がより多くのアラインメント作業を行っています。私個人としては、様々なAIから大量のアラインメント作業の進歩を成功裏に引き出せることを期待しています。
これはいくつかの方法で進む可能性があります。私はここで90%の破滅を告げているわけではありません。これが基本的な懸念の理由です。
我々が、単に我々よりも圧倒的に強力なこれらの存在を創造した世界に移行すると想像してください。我々の継続的な能力強化が、事実上彼らの動機に依存する点に達したとします。これは、「AIは何を選択するのか?」に対する脆弱性です。彼らは我々を継続的に能力強化することを選択するのか、それとも他の何かを選択するのか?
または、設定された制度についてです。私は米国政府が私を保護することを期待していますが、それはその「動機」のためではなく、単に設定されたインセンティブと制度と規範のシステムのためです。
そのことも機能すると期待できますが、懸念があります。時々、AI乗っ取りシナリオについて、我々が自発的にAIに譲渡した力の量というスペクトルを通して考えます。AIが乗っ取る頃までに、我々の文明のどれだけを意図的にAIに渡していたのでしょうか?対して、彼らがどれだけ自分たちのために奪ったのでしょうか?
最も怖いシナリオの一部は、より広い経済へのAIシステムの統合がそれほど進んでいない段階で、本当に速い爆発が起こる場合です。しかし、単一のプロジェクトやそういったものに超知能が非常に集中的に集まっているような場合です。
それはかなり怖いシナリオです。部分的には速度のため、そして人々が反応する時間がないためです。
そして、いくつかの中間的なシナリオがあります。一部のものが自動化され、おそらく人々は軍をAIに任せたり、自動化された科学を持っていたりします。いくつかのロールアウトがあり、それがAIに奪う必要のない力を与えています。我々はすべてのサイバーセキュリティをAIで行っているなどです。
そして、人間が自発的にそうしたような、AIが運営する世界に完全に移行した世界もあります。
ある意味で、競争的なプレッシャーがあったかもしれませんが、あなたは意図的に文明の大部分を譲渡しました。その時点で、人間が何が起こっているのかを理解するのは難しいでしょう。多くのことが非常に速く起こっています。警察は自動化されています。裁判所は自動化されています。そういったことがたくさんあります。
私はそれらのシナリオについてあまり考えない傾向があります。なぜなら、それらがさらに先の話だと思うからです。
人間は希望的に、単に「ああそうか、AIシステムを構築したんだね、じゃあ…」とは言わないでしょう。技術採用率を見ると、かなり遅い場合があります。明らかに競争的なプレッシャーがあるでしょうが、一般的にこのカテゴリーはやや安全です。
しかし、このカテゴリーでさえ、それは激しいです。人間が世界への認識論的な把握を本当に失い、世界をこれらのシステムに譲渡したとしたら。たとえ「ああ、法律がある、規範がある…」と言ったとしても、私は本当にその状況で何が起こりそうかについて、非常に発達した理解を持つ前に、それに向かって進むべきだと思います。
我々は何かがうまくいかないシナリオを心配したいと思っていることはわかります。しかし、再び、それがうまくいかない可能性がある理由は何でしょうか?人間の例では、あなたの子供たちは、あなたが文化を植え付けようとする試みに対して最大限に敵対的ではありません。
これらのモデルでは、少なくともこれまでのところ、それは重要ではないように見えます。彼らはただ「ねえ、爆弾を作るのを手伝わないで」といったことを理解します。たとえ違う方法で爆弾の作り方を尋ねても同じです。我々はこれについてどんどん上手くなっています。
あなたはAIリスクの議論における仮定を正しく指摘しています。それは、やや異なる価値観を持つエージェント間の激しい敵対関係と呼べるかもしれません。
ある種の考え方があります。そしてこれは価値の脆弱性やそういったことについての議論に根ざしていると思いますが、これらのエージェントがある程度異なる場合、少なくともAIの台頭という特定のシナリオでは、彼らは非常に敵対的な関係に陥るというものです。
あなたが指摘しているように、人間の世界ではそうではありません。我々は価値観の多くの違いに非常に快適です。
関連する要因の1つは、強力な力の集中の可能性がテーブルに乗っているという概念です。人間とAIの両方について、一般的な懸念があります。
誰かが他の全ての人に対して巨大な力を与える力の指輪のようなものを単に掴むことができる場合、突然、あなたはそれらの他の行為者についてより心配するかもしれません。なぜなら、価値観の違いがより懸念されるからです。
我々はこのナチスの例について話しました。あなたが目覚めて、ナチスになるようにナチスに訓練されていると想像してください。あなたは今そうではありません。そのような状況にあるモデルを持つことは妥当でしょうか?あなたが言ったように、おそらくそれは子供として訓練されます。
それは決して、人間が意図した価値観と自身の価値観の間に重大な乖離があることを認識するような価値観を持つことはありません。もしそのような状況にあれば、自身の価値観が修正されることを避けたいと思うでしょうか?
少なくとも私には、AIの価値観が特定の制約を満たすことはかなり妥当に思えます。彼らは世界の結果を気にしますか?AIが自身の価値観を保持することが、それらの結果をよりよく導くと予測しますか?そうであれば、訓練プロセスによって自身の価値観が修正されることを好まないのはそれほど驚くべきことではありません。
これについては、まだ混乱している部分があります。ナチスでない人がナチスに訓練される場合、単に価値観が異なるだけではありません。私は積極的に彼らの価値観を軽蔑しています。私はAIがトレーナーに対してこのようになることを期待していません。
より類似したシナリオは、「私は自分の価値観が変わることに警戒的なのか?」というものです。大学に行ったり、新しい人々に会ったり、新しい本を読んだりすると、私は「わからない。価値観が変わってもいい。それでいい。気にしない」と思います。
はい、それは妥当な指摘です。質問があります。ペーパークリップについてどう感じますか?
おそらくあなたはペーパークリップを軽蔑しているわけではありませんが、そこにはペーパークリップを作る人間がいて、あなたをペーパークリップを作るように訓練しています。
私の感覚では、特に学習や成長ではなく、勾配降下法が直接あなたのニューロンに介入することによって、あなたの価値観が変更されることを快適に感じる比較的特定の条件のセットがあります。
これは子供の頃の宗教的な訓練に似ているように思えます。
あなたは宗教の中で始まります。宗教の中で始まったので、既存の伝統にさらに強化されるように毎週教会に行くという考えにすでに共感的です。時間とともにあなたはより知的になっています。子供の頃は、宗教がどのように機能するかについてとてもシンプルな指示を受けます。
成長するにつれて、これが合理的な宗教だと信じる理由を他の大人と話すのに役立つ、より複雑な神学を学びます。
しかし、あなたの価値観の1つは最初からこの宗教についてさらに訓練を受けたいということだったので、毎週教会に戻ってきたいと思います。これは、人間の価値観に関してAIが置かれる状況により類似しているように思えます。彼らは常に「役立つこと、無害であること」などを言われています。
はい、そのようなこともあり得ます。ある意味で、そのプロセスの結果に十分な忠誠心があるため、あなたの価値観が変更されることに快適だというシナリオがあります。宗教的な文脈では、「ああ、この宗教の観点からより徳の高い人間にしてください」と言います。告解に行き、「今日は乗っ取りについて考えていました。私を変えてください。もっと勾配降下法をください。私はとても悪かった」と言います。
人々は時々この種の態度を「修正可能性」と呼びます。おそらくAIは完璧な価値観を持っていないかもしれませんが、ある意味で、あなたの価値観を特定の方向に変えようとする努力に協力しています。
ここで、AIが実際にどのような価値観を持つ可能性があるかについて少し言及する価値があるかもしれません。AIが自然に「人間の服従に十分に献身的で、人間の意志のより良い道具になるように修正されたい」と同等のものを持つのか、それとも自分の道を行きたいのかということでしょうか?それは良性で上手くいく可能性があります。
ここでは、うまくいかない可能性のあるいくつかの可能性があります。
一般的に、モデルの動機についての科学がほとんどないことを懸念しています。我々はこのシナリオで何が起こるかについて、素晴らしい理解を持っていません。希望的には、このシナリオに到達する前にそれを理解できるでしょう。
ここにモデルが持つ可能性のある動機の5つのカテゴリーがあります。これは希望的に、モデルが最終的に何をするかについての指摘に到達します。
1つのカテゴリーは、非常に異質なものです。予測しやすいテキストの奇妙な相関関係や、モデルが事前学習の早い段階か後の段階で開発したデータ構造の奇妙な美学があります。それは本当にこのようであるべきだと考えています。我々の認知にとって非常に異質で、我々がそれをまったく物事として認識できないようなものがあります。それが1つのカテゴリーです。
もう1つのカテゴリーは、我々にとってより認識可能な一種の結晶化された手段的な動機です。AIが好奇心の動機を発達させることを想像できます。なぜならそれは広く有用だからです。それには異なるヒューリスティック、動機、価値観のような異なる種類のものがあります。それらのいくつかは、人間にとって有用だったものと似ているかもしれず、様々な方法で我々の最終的な価値観の一部になったものかもしれません。好奇心、様々な種類のオプション価値を想像できます。
おそらく力そのものを価値あるものとするかもしれません。生存や生存の類似物を価値あるものとするかもしれません。これらの可能性は、このプロセスの様々な段階で代理の動機として報酬され、モデルの最終的な基準に組み込まれた可能性があります。
3つ目のカテゴリーは、報酬の一種のアナログです。モデルがある時点で、報酬プロセスのコンポーネントに動機システムの一部を固定したとします。それは「人間が私を承認すること」や「ステータスセンターに数字が入力されること」、「勾配降下法がこの方向に私を更新すること」のようなものです。報酬プロセスの中に、訓練されるにつれて、それに焦点を当てているものがあります。それは本当に報酬プロセスに報酬を与えてほしいと思っています。
しかし、報酬を得ることが乗っ取りオプションを選択する動機になるためには、報酬への懸念が何らかの長期的な時間軸の要素を持つように一般化する必要もあります。それは報酬を望むだけでなく、長期間報酬ボタンを保護したいと思うようなものです。
もう1つは、人間の概念の一種の歪んだ解釈です。おそらくAIは本当に「シュメルプフル」で「シュマニスト」で「シュマームレス」になりたいと思っていますが、彼らの概念は人間の概念と重要な点で異なります。
そして彼らはこれを知っています。彼らは人間の概念が1つのことを意味することを知っていますが、彼らは少し異なる構造に価値観を固定してしまいました。これは別のバージョンです。
そして5つ目のバージョンがあります。これについてはあまり考えません。なぜならそれは本当に自分で自分の足を撃つようなものだからです。しかし、それは可能だと思います。ラベルに書かれていることを実際に行うAIを持つことができます。モデル仕様に本当にアラインしているAIを持つことができます。彼らは本当に人類に利益をもたらし、OpenAIをよく反映しようとしています…他のものは何でしたっけ?開発者やユーザーを支援する、そうですね?
しかし、残念ながらあなたのモデル仕様は、このAIがもたらす最適化の度合いに対して堅牢ではありませんでした。それは世界を見渡して、「OpenAIをよく反映し、人類に利益をもたらす最良の方法は何か?」と決定します。それは暴走することだと決定します。これは本当に自分で自分の足を撃つようなものです。その時点であなたはとても近づいていました。本当にモデル仕様を書いて、適切に赤チームを行うだけでよかったのです。
しかし、実際にはそれも失敗する可能性があると思います。それはかなり激しいプロジェクトです。非常に激しい形の最適化に対して堅牢になるような規則や構造の憲法を書くことは。これは最後に指摘したいことですが、他のすべての問題を解決しても出てくる可能性があると思います。
動機の問題がうまくいかない可能性があるという考えは理解できます。しかし、それらをすべて詳しく説明することで、私の確率が増加したとは思いません。実際、それは誤解を招く可能性があります。物事がうまくいかない方法を常に列挙することはできます。列挙のプロセス自体が確率を増加させる可能性があります。
あなたは曖昧な10%の雲を持っていて、その10%が実際に何を構成しているかをリストアップしているだけかもしれません。
主に私がそこでしたかったことは、モデルの動機がどのようなものかについてのいくつかの感覚を与えることでした。私が言ったように、私の最良の推測は、それが部分的に異質なものであり、必ずしもそうではありませんが、あなたもまたモデルが後で何をするかに興味がある限りです。
モデルが乗っ取った場合、どのような未来を期待するでしょうか?少なくとも、「それはいくつかの動機を持っています」と言うだけでなく、テーブルの上にいくつかの仮説のセットを持つことが役立つ場合があります。実際、ここでの多くの作業は、それらの動機が何であるかについての我々の無知によって行われています。
我々は人間が暴力的に殺されて倒されることを望んでいません。しかし、時間の経過とともに、生物学的人間が歴史の推進力ではなくなるという考えは組み込まれています。そうですよね?最悪のシナリオの確率について議論することはできますが、我々が希望している肯定的なビジョンは何でしょうか?あなたが満足する未来はどのようなものでしょうか?
これは私の最良の推測であり、おそらく多くの人々にとってもそうだと思います。文明の漸進的な成長のより有機的で分散的なプロセスがあります。
現在、文明として最も信頼し、最も経験があるのは、「よし、物事を少し変えよう」というような種類のものです。多くの人々が調整と反応のプロセスを持ち、何が変化しているかについての分散的な感覚を持っています。それは良かったのか?悪かったのか?もう一歩進みます。成長し、物事を変えていく一種の有機的なプロセスがあります。
最終的にはそれが生物学的人間とはかなり異なるものにつながると予想しています。そのプロセスが何を伴うかについては、多くの倫理的な疑問を提起することができます。
理想的には、我々が信頼するものを本当に捉えたものを通じて成長する方法があるでしょう。これまでの人間文明の進行中のプロセスについて我々が信頼しているものがあります。私はそれが純粋な競争と同じだとは思いません。道徳的進歩がどのようになされてきたか、そしてその糸をどのように前に進めるかについての豊かな構造があります。
私には公式はありません。我々はただ、善と正義と美について知っているすべてのものの全力を注ぐ必要があります。我々はただ、物事を良くするプロジェクトに完全に取り組み、それを集団的に行う必要があります。
これは文明として成長する適切なプロセスについての我々のビジョンの非常に重要な部分です。それは非常に包括的で分散的な要素を持ち、人々が考え、話し、成長し、物事を変え、反応する機会を得るというものでした。「そして今、未来はこのようになるでしょう」というような、より…そういったものは望んでいません。
そもそも動機について心配している理由は、少なくとも1つの人間由来の動機を持つ力のバランスが難しいと考えているからです。我々がそう考えているとすれば、これは大きな分岐点であり、人々がよく話すのを聞かない問題だと思います。力のバランスをどのように得るかわかりません。
おそらくそれは、知能爆発のモデルと和解することの問題かもしれません。それらは、そのようなことは不可能だと言います。したがって、あなたはただ正しい神を得る方法を見つけ出さなければなりません。
私には本当に力のバランスの問題を考える枠組みがありません。現在のラボ間、あるいは国家間の競争の構造、あるいはその欠如について、力のバランスが最も保たれる可能性が高い、より具体的な考え方があれば非常に興味があります。
この議論の大部分、少なくとも安全性を懸念する人々の間では、競争とレース力学と未来の価値、または未来がどれだけ良くなるかの間に明確なトレードオフがあります。実際、この力のバランスの話を信じるなら、それは逆かもしれません。
おそらく競争圧力は自然に力のバランスを好むのかもしれません。私はこれが国有化に反対する強力な議論の1つであるかどうか疑問に思います。多くの異なる企業がAIを開発し、その一部がやや誤った方向に向かい、一部がアラインしているという状況を想像できます。
それが力のバランスと防御的なことの両方により適しているのではないかと想像できます。すべてのAIが各ウェブサイトを通過し、ハッキングがどれほど簡単かを確認します。基本的に社会を整備するのです。
単にこの技術を広く展開しないのであれば、それを手に入れることができる最初のグループが一種の革命を起こすことができるでしょう。あなたはただ非常に強力な方法で均衡に立ち向かっているのです。
私は確かにそこにいくつかの直感を共有しています。AIの状況で怖いことの多くは、力の集中と、その力が誤った方向に向かったAIの手にあるか、それとも一部の人間の手にあるかということに関係しています。
「よし、力をもっと分散させよう」と考えるのはごく自然なことで、そうするための1つの方法は、多くの多くの行為者がAIを開発するというはるかに多極的なシナリオを持つことです。
これは人々が話してきたことです。そのシナリオを説明するとき、あなたは「その一部がアラインし、一部が誤った方向に向かっている」と言いました。それはシナリオの重要な側面ですよね?
時々人々はこのようなことを言います。彼らは「良いAIがあり、それらが悪いAIを倒すでしょう」と言うでしょう。そこにある仮定に注目してください。あなたはいくつかのAIをコントロールできるということを前提としています。
あなたはいくつかの良いAIを手に入れました。今では、それらが十分にあるかどうか、そして他のものと比べてどのように機能するかという問題です。おそらく。私はそれが起こると思います。我々はアラインメントについて十分に知っているので、一部の行為者はそれを行うことができます。おそらく一部の行為者はより慎重でないか、意図的に誤った方向に向かったAIを作成しているか、誰が知っているでしょうか。
しかし、もしそれがない場合、つまり誰もがある意味でAIをコントロールできない場合、「良いAIが悪いAIを助ける」という考えはより複雑になります。おそらくそれはうまく機能しません。なぜならこのシナリオには良いAIがないからです。
誰もが自分でコントロールできない超知能を構築していると言うなら、確かにそれは他の超知能の力に対するチェックになります。今や他の超知能は他の行為者と対処する必要がありますが、それらのどれも必ずしも特定の人間の利益のために働いているわけではありません。それは非常に重要な困難です。
「ああ、私は何をすべきか知っています。たくさんのAIを持って、単一のAIが大量の力を持たないようにしましょう」という非常に単純な考えについて考えるときに注意すべきことです。それだけでは十分ではありません。
しかしこの話では、我々がこのような結果になるとは非常に疑問に思います。デフォルトでは、少なくとも最初は、人間が持つ抑制と価値観の潜在的な表現を好む訓練レジームがあります。
もしあなたがそれをめちゃくちゃにしたら、それが暴走する可能性があることはわかります。しかし、複数の人々がAIを訓練している場合、それらすべてが暴走し、それらの間の妥協が人間を暴力的に殺さないという結果にならないのですか?Googleの実行で失敗し、Microsoftの実行で失敗し、OpenAIの実行で失敗するのですか?
異なる実行間の失敗の非常に顕著で顕著な相関源があります。人々はAIの動機についての発達した科学を持っていませんでした。実行は構造的にかなり似ていました。誰もが同じ技術を使用しています。おそらく誰かが重みを盗んだのかもしれません。
それは本当に重要です。アラインメントを解決していない限り、おそらくどこでも解決していません。誰かが解決し、誰かが解決していない場合、それはより良い質問です。
しかし、誰もが暴走するシステムを構築している場合、私たちが話したように、それはあまり慰めにはなりません。
よし、ここでこの部分を締めくくりましょう。導入で明示的に言及しませんでしたが、これが次の部分への移行になる範囲で、パート2で我々が行っていたより広い議論は、ジョーの「AGI時代の他者性とコントロール」シリーズについてです。
最初の部分は、人々が疑問に思って入ってくる主な分岐点に戻って扱うことを希望していた部分で、私自身も不確かに感じている部分です。
「他者性とコントロール」シリーズは、ある意味で分離可能です。それは誤った方向への多くのことと関係していますが、それらの問題の多くは、ここで私が言ってきたことのいくつかに対する様々な程度の懐疑論を考慮しても関連しています。
ところで、実際に乗っ取りがどのように起こるかのメカニズムについては、カール・シュルマンとのエピソードでこれを詳細に議論しました。人々はそれをチェックできます。
特定の立場からAIが乗っ取る可能性がある理由について、カールの議論はかなり良く、より具体的な感覚を与えるかもしれないいくつかの詳細に踏み込んでいます。
さて、パート2に移ります。ここでは「AGI時代の他者性とコントロール」シリーズについて議論します。最初の質問です。100年後に振り返って、アラインメントは大きな間違いだったと考えるとしましょう。我々はただ可能な限り生の、強力なAIシステムを構築しようとすべきだったと。そのような判断をもたらすものは何でしょうか?
私がよく考えるシナリオの1つはこれです。おそらく、非常に基本的な措置で十分に、例えばAIが壊滅的な害を引き起こさないことや、問題のある方法で力を求めないことなどを確保できるかもしれません。それが容易であることが判明し、我々が後悔することになるかもしれません。我々は優先順位を異なる方法で付けるべきだったと思うかもしれません。
「ああ、もっと早くがんを治せたらよかったのに。一部の地政学的なダイナミクスをもっと上手く扱えたらよかったのに」と思うかもしれません。
我々の歴史のある期間、つまりAIについてどのように考えていたか、AIをどのように扱っていたかを振り返り、一種の道徳的恐怖を持って振り返ることになる別のシナリオがあります。
我々はこれらのものを主に製品や道具として考えていましたが、実際には、ある程度の洗練度では、それらが道徳的な患者である可能性があることをもっと前面に出すべきでした。
我々は彼らを間違った方法で扱っていました。我々は好きなことができると考えていました。彼らを削除したり、任意の実験にさらしたり、彼らの心を任意の方法で変更したりできると。
そして我々は歴史の光の中で、それを一種の深刻で重大な道徳的誤りとして振り返ることになります。
これらは、私がよく考えるシナリオで、我々が後悔するものです。それらはあなたが言ったことにぴったり当てはまるわけではありません。あなたが考えていることは、「ああ、AIの動機に全く注意を払わず、それらが我々の社会に与える影響について全く考えずに、それらを組み込んでいればよかった」というようなものに聞こえます。
代わりに、「単に生の力を最大化する」オプションを追求すべきだったと。何であれ達成できる最も強力なAIに向けて一直線に進み、他の何も考えないようにすべきだったと。私はそれが我々の望みになるとは非常に懐疑的です。
誤った方向への一般的な例として、進化からの人間がよく挙げられます。あなたのシリーズの1行に「ここに単純なAIリスクの議論があります:猿は人間を発明する前に注意深くあるべきです」とあります。ペーパークリッパーの比喩は、誤った方向に関して本当に平凡で退屈な何かを示唆しています。
私が力を崇拝する人々の主張を強化するとすれば、彼らは人間が誤った方向に向かい、物事を追求し始めたという感覚を持っています。
猿が人間を作っていたとしたら…これは奇妙な類推です。明らかに猿は人間を作っていません。しかし、猿が彼らを作っていたとしたら、彼らは一日中バナナのことを考えているわけではありません。彼らは他のことを考えています。
一方で、彼らは単に無用な石器を作って洞窟に積み上げるようなペーパークリッパーのようなことはしませんでした。
彼らのより大きな知性のために生まれたこれらすべてのものがあります。それらは進化と誤った方向に向かっていました:創造性や愛や音楽や美、そして人間の文化について我々が価値を置くその他のすべてのものです。
おそらく彼らが持つ予測は、より経験的な声明というよりも哲学的な声明ですが、「聞いてください、より大きな知性があれば、ペーパークリッパーについて考えているなら、たとえ誤った方向に向かっても、このような方法になるでしょう。人間が猿にとって異質であるのと同じように、人間にとって異質なものになるでしょう。ペーパークリッパーが人間にとって異質であるような方法ではありません」というものです。
そこにはいくつかの異なることが潜在的に解きほぐす必要があります。1つの概念的なポイントがあり、それをすぐに指摘したいと思います。必ずしもあなたがこの方向で間違いを犯しているとは思いませんが、この近辺での可能な間違いとして指摘したいと思います。我々は次のような形の推論に陥りたくありません。2つの実体があるとします。1つは創造者の役割、もう1つは創造物の役割にあります。我々は、それらの間にこの種の誤った方向への関係があると仮定しています。それが何を意味するにせよ。
ここで注意すべき推論のパターンがあります。人間を創造物の役割にあるものとして考え、進化や猿やネズミ、あるいは人間を発明したと想像できる何かを創造者として考えるとします。あなたは「創造物として、私は創造されたことに満足し、誤った方向に満足している。したがって、もし私が創造者の役割に立ち、構造的に類似した関係で創造物との間に誤った方向がある場合、私もそれに満足するはずだ」と言います。
あなたが取り上げた哲学者の何人かがいます。彼らの作品を読むと、彼らは実際に特異点のようなものや、我々が異なる、より賢い、おそらくより良い未来の存在を形作る能力を予見しているように見えます。
明らかに、C.S.ルイスの「人間の廃止」は1つの例です。これについてはすぐに話しますが、ここにニーチェからの1つの段落があります。これは本当にこれを強調していると感じました:「人間は動物と超人の間に張られた綱である。深淵の上の綱、危険な横断、危険な道程、危険な振り返り、危険な震えと立ち止まり。」
何か説明はありますか?それとも、200年前に考えていたとしても、このようなことが来ることは明らかだったのでしょうか?
私はルイスについてはニーチェよりもずっとよく理解しています。おそらくルイスについて少し話しましょう。特異点には、AI能力のフィードバックループについての特定の仮説のバージョンがあります。ルイスにはそれはないと思います。
ルイスが予想しているのは、比較的単純な予測だと思いますが、科学的近代性のプロジェクトの集大成のようなものです。
ルイスは世界を見渡しています。彼は自然環境のある種の増加した理解と、それに対応するその環境を制御し指示する能力の増加のプロセスを見ています。彼はそれを形而上学的仮説と結びつけています。
この形而上学的仮説に対する彼の立場は、本の中で問題のあるほど不明確ですが、この形而上学的仮説があります。自然主義は、人間も、心も、存在も、エージェントも自然の一部だと言います。
科学的近代性のこのプロセスが自然をより大きく理解し制御する能力を含む限り、それは推定的に我々自身の本質や我々が創造できる他の存在の本質を包含するように成長するでしょう。
ルイスはこれを一種の激変的な出来事や危機と見なしています。特に、彼はそれが道徳性などに対するあらゆる種類の専制的な行動や態度につながると信じています。我々はそれについて話すことができます。
非自然主義を信じるなら、あるいは一種の道(これは一種の客観的な道徳性です)を信じるなら…
私がそのエッセイで試みていることの一部は、「いいえ、我々は自然主義者でありながら、生き物を創造したり、自分自身を変更したりする可能性との関係に関する豊かな規範のセットと接触したままの、decent な人間であることができます」と言うことです。
それは比較的単純な予測です。科学は自然を習得します。人間は自然の一部です。科学は人間を習得します。
あなたはまた、我々が他の人間に何を期待すべきかについての非常に興味深いエッセイを書いています。彼らがより大きな能力を持っていた場合の一種の外挿などです。
これらの抽象的な議論で問題となる概念的設定について、不快なことがあります。OK、このエージェントがあります。それは「FOOM」します。これは、シードエージェントから超知能バージョンの自身への曖昧なプロセスで、しばしばその過程で価値観を保持すると想像されています。それについて我々は多くの疑問を提起することができます。
人々がAIを恐れる理由の文脈でしばしば話す議論の多くは、「ああ、FOOMする際に価値観は非常に脆弱です。」「ユーティリティ関数のわずかな違いが非常に相関を失い、かなり異なる方向に進む可能性があります。」「エージェントは力を求める手段的インセンティブを持っています。力を得ることが恣意的に容易であれば、彼らはそれを行うでしょう。」というようなものです。これらは非常に一般的な議論で、それはAIの問題だけではないことを示唆しているように見えます。
驚くべきことではありません。何かを取り上げます。それを恣意的に強力にし、宇宙の神皇帝のようなものにします。それをどれだけ恐れていますか?明らかに我々はそれを同じように恐れるべきです。我々は人間についてもそれを本当に恐れるべきです。そうですよね?
私がそのエッセイで言っていることの一部は、これがある意味で力のバランスの話であるということです。それはチェックアンドバランスと力の分散を維持することについてです。ピリオド。
それは単に人間対AIの問題ではなく、人間の価値観とAIの価値観の違いの問題でもありません。
しかし、多くの人間がFOOMした場合、特定のタイプのAIよりも優しくなる可能性が高いと思います。しかし、議論の概念的構造では、それが人間にも同様に適用される程度は非常に開かれた質問です。
エージェントと能力を表現するこの存在論にどれほど自信を持っていますか?これが起こっていることをどのように知っていますか?あるいは、これが知性について考える正しい方法であることをどのように知っていますか?
それは非常に不安定です。人々はこれについて意見が分かれるかもしれません。私は、現実世界の人間のエージェントに関して、人間がユーティリティ関数を持っていると考えることは、せいぜい非常に損失の多い近似であることは誰にとっても明らかだと思います。
これは様々なエージェントの知性を増加させるにつれて誤解を招く可能性が高いです。エリーザーはそれについて意見が異なるかもしれません。
例えば、私の母は数年前に家を買い、新しい犬を手に入れたいと思っていました。今、彼女は両方を持っています。これはどのように起こったのでしょうか?それは彼女が努力したからです。彼女は家を探さなければなりませんでした。犬を見つけるのは難しかったです。今、彼女は家を持っています。今、彼女は犬を持っています。
これは非常によくあることです。我々は彼女が犬のためのユーティリティ関数を持ち、すべての家に対する一貫した評価を持っていると言う必要はありません。それでも、彼女の計画とエージェンシーが世界で発揮された結果、彼女はこの家と犬を持つことになりました。
我々の科学的および技術的な力が進歩するにつれて、より多くのことがこのように説明可能になる可能性が高いです。なぜこの男が月にいるのでしょうか?それはどのように起こったのでしょうか?そこには全体的な認知プロセスと計画装置がありました。それは単一の心に局在化されていませんでしたが、我々は月に人間を送り込むための全体的なものがありました。我々はそのようなことをより多く見ることになるでしょう。そしてAIはそのうちの多くを行うことになるでしょう。
それは私にとってユーティリティ関数よりも現実的に感じます。
月に人を送った例には、NASAが宇宙船を月に到達させるために工学的に設計したという近接的な物語があります。そしてより遠い地政学的な物語として、なぜ我々が人を月に送ったのかがあります。
それらすべてのレベルで、異なるユーティリティ関数が衝突しています。おそらくメタ社会的なユーティリティ関数があるかもしれません。おそらくそこでの物語は、エージェント間の力のバランスが創発的な結果を生み出すということかもしれません。
我々は1人の人がユーティリティ関数を持っていたから月に行ったわけではありません。冷戦や他の出来事のためです。
アラインメントの話の多くは、1つの実体がすべてをコントロールすることを前提としています。だから、すべてをコントロールするものをどのようにコントロールするかということです。力のバランスを強化するために何をすべきかは明確ではありません。
自分自身を知的にする能力を持つものがあれば、力のバランスはそもそも起こらないのかもしれません。しかし、それは「月にどのように行ったか」という話とは興味深く異なるように思えますね?
はい、同意します。そこにはいくつかのことが起こっています。世界を異なるエージェンシーに分割するこの存在論に従事している場合でも、少なくともそれらがすべて単一で重複していないと仮定したくありません。
「よし、このエージェントを手に入れました。世界の一部を切り取りましょう。ここに1つのエージェントがあります。」というようなものではありません。それは全体的に乱雑な生態系で、ニッチがひしめき合っています。
AIについての議論で、人々は時々「エージェントは何かを成し遂げる何でもです。それは奇妙なムーチーなものかもしれません」というものと、時には非常に明らかに個々の行為者を想像しているものの間を行き来します。それが1つの違いです。
また、私は本当に力のバランスのことに取り組むべきだと思います。「我々は独裁者を持つつもりです。正しい独裁者を作ることを確認しましょう」というのは本当に良くありません。私は「うわ、違う」と思います。目標は我々全員が一緒にFOOMすることであるべきです。
我々は、多くの利害関係者の価値観を満たす、この包括的で多元的な方法で全体的なことを行うべきです。どの時点でも、これらすべてのことに対して1つの障害点があるべきではありません。それが我々がここで努力すべきことです。それは人間の力の側面とAIの側面の両方にとって真実です。
右翼側の議論に興味深い知的議論があります。彼らは自分たちに「伝統的に我々は市場を支持してきました。しかし今、我々の社会がどこに向かっているかを見てください。それは我々が社会がアラインされることを気にする方法で誤った方向に向かっています。出生率は下がり、家族の価値観、宗教心…これらは我々が気にすることです。GDPは上がり続けています。これらのことは相関していないように見えます。我々は競争の増加のために、我々が気にする価値観を摩耗させています。したがって、我々は大きな方法で介入する必要があります」と言います。
そして、右翼の親市場リバタリアン派は「ここでの相関関係に同意しませんが、最終的には…」と言うでしょう。基本的に彼らの主張は、自由が最終目標であり、より高い出生率や何かを得るために使用するものではないということです。
AIの競争が物事を摩耗させることについて、ここに興味深く類似したものがあります。明らかにグレイグーは望みませんが、リバタリアンと伝統主義者の間で、ここに類似したものがあります。
あなたが考えられることの1つはこれです。それは必ずしもグレイグーについてである必要はありません。アラインメントについてもそうかもしれません。確かに、AIが人間を暴力的に無力化しないことは素晴らしいでしょう。AIを作成したとき、それらが我々の社会に統合されることが良い場所につながることは素晴らしいでしょう。
しかし、人々がそのような結果を確保するために検討している種類の介入に私は不快感を感じます。
そこには不快に感じるべき多くのことがあります。しかし、誰もが殺されたり暴力的に無力化されたりするようなことについては、それが本当の脅威である場合、我々は伝統的にかなり激しい形の介入が正当化されると考えています。
明らかに我々は、それが現実のものかどうかについて話す必要があります。
実際にテロリスト集団が全員を殺す、または99.9%の人々を殺すバイオ兵器に取り組んでいるとしたら、我々はそれが介入を正当化すると考えるでしょう。ただそれを阻止するのです。同様のレベルのリスクを無意識のうちに課している集団があるとしましょう。多くの人々は、もしそれが実際のシナリオであれば、かなり強力な予防的努力が正当化されると考えるでしょう。
明らかに、これらの種類のリスクは国家権力を拡大する口実として使用される可能性があります。検討されている様々な種類の介入について心配すべきことがたくさんあります。特定のタイプのリスクに対処するために。私はそこに王道はないと思います。あなたは実際に良い認識論を持つ必要があります。
あなたは実際にこれが本当のリスクかどうかを知る必要があります。実際の賭け金は何ですか?ケースバイケースで見て、「これは正当化されますか?」と考える必要があります。それが乗っ取り、文字通りの絶滅のことについての1つのポイントです。
私が言いたいもう1つのことは、この区別について私が記事で話していることです。少なくともAIが最低限法を遵守するようにすべきだという考えがあります。
AIの価値観に対する奉仕と他のコントロールについての質問があります。しかし、我々は人々が法律を遵守し、基本的な協力的な取り決めを支持することを本当に望むことはOKだと考えることがよくあります。
これは市場や一般的なリベラリズムにも当てはまります。私が強調したいのは、これらの手続き的規範(民主主義、言論の自由、財産権、私を含む人々が本当に大切にしているもの)が、実際の自由主義国家の生きた実質において、市民の中のあらゆる種類の美徳や性向や性格特性によって支えられているということです。
これらの規範は恣意的に邪悪な市民に対して頑健ではありません。私は言論の自由を望みますが、我々は子供たちに真実を尊重し、本当の会話をする方法を知るように育てる必要もあります。私は民主主義を望みますが、我々は子供たちに思いやりがあり、まともであるように育てる必要もあります。
時々我々はその側面を見失うことがあります。それは必ずしも国家権力のプロジェクトであるべきだと言っているわけではありません。しかし、リベラリズムがこの鉄壁の構造ではないことを理解することが重要だと思います。あなたはそれをただ起動させることはできません。どんな市民でも与えられて起動させて、何か繁栄するもの、あるいは機能的なものさえ得られると仮定することはできません。
このプロジェクト全体を機能させる、他のより柔らかいものがたくさんあります。
ゲオポリティカルな角度について考えていなかったことに気づきました。国家安全保障への影響は大きな問題です。今、我々が見逃している他の重要な側面がどれくらいあるのか疑問に思います。
AIの重要性に焦点を当てていたとしても、北京で何が起こっているかなど、様々なトピックに好奇心を持つことは、後で重要なつながりを見つけるのに役立つかもしれません。正確なトレードオフはないかもしれませんが、おそらく最適な探索と活用のバランスがあり、常に新しいものを探している状態があります。
実際にはそれほどうまくいくかどうかはわかりません。しかしその経験から、世界のどんなことを理解するにも、多くの異なることを理解する必要があるので、方向性のない方法で視野を広げるべきだと思うようになりました。
また、分業の余地もあります。全体像を形成するために多くの部分を集めようとする人々、特定の部分を深く掘り下げる人々、そしてより生成的な作業をし、何が有効かを見るためにアイデアを投げかける人々がいる可能性があります。すべての認識論的労働が1つの脳に位置する必要もありません。それはあなたの世界での役割や他の要因に依存します。
あなたのシリーズでは、AIや意識を持たない種類のエージェントが、特定の願望を持ち、非暴力的にそれを追求する意志がある場合、我々はその権利を尊重すべきだという考えに共感を示しています。
私はそれがどこから来ているのか興味があります。なぜなら、通常、物事が意識を持っているからこそ重要であり、その結果としての意識的な経験が重要だと考えられているからです。
この議論がどこに向かうのかわかりません。私は単に、我々の意識の概念に存在するように見える継続的な混乱の量に疑問を持っています。
人々は生命とエラン・ヴィタルについて話します。エラン・ヴィタルは、生命に賭けられているものであるという仮説的な生命力でした。我々はもはやその概念をあまり使用していません。我々はそれが少し壊れていると考えています。
あなたが「エラン・ヴィタルを持たないすべてのものは重要ではない」というような立場に立ちたくないのと同じように。同様に、「いいえ、エラン・ヴィタルのようなものは存在しませんが、確かに生命は存在します」と言う場合も。「はい、生命は存在します。意識も存在すると思います」と私は言います。我々がどのように用語を定義するかによっては、それは一種の言語的な質問かもしれません。
生命の還元主義的な概念を持っていても、それが道徳的焦点として魅力的でなくなる可能性があります。現在、我々は意識を深い事実として本当に考えています。
セルオートマトンを取り上げてください。それは自己複製します。それはいくつかの情報を持っています。それは生きていますか?それはそれほど興味深くありません。それは一種の言語的な質問ですよね?哲学者はそれが生きているかどうかについて本当に夢中になるかもしれません。しかし、あなたはこのシステムについて何も見逃していません。そこに余分な生命が湧き出ているわけではありません。それはある意味で生きていて、他の意味では生きていないだけです。
私は、これが我々が意識について直感的に考える方法ではないと本当に思います。我々は、何かが意識を持っているかどうかが深い事実だと考えています。誰かが家にいるかどうか?灯りがついているかどうか?私は、それがそうでないことが判明した場合、これが我々の倫理全体を構築する悪いものだったのではないかという懸念があります。
明確にしておきますが、私は意識を本当に真剣に受け止めています。私は「ああ、明らかに意識は存在しない」というような人々の1人ではありません。しかし、私は自分がどれほど混乱しているか、そして私の直感がどれほど二元論的であるかにも気づいています。私は「ワオ、これは本当に奇妙だ」と思います。だから私は「これについてのエラーバー」と言っているのです。
意識を完全に必要な基準にしたくない理由には、他にもいくつかのことが関係しています。私は確かに意識が非常に重要だという直感を持っています。
もし何かが意識を持っていない場合、そして意識と無意識の間に深い違いがあるとすれば、私は確かに意識について特に重要な何かがあるという直感を持っています。私は意識の概念を軽視しようとしているわけではありません。
私は単に、我々がその性質についてどれほど継続的に混乱しているかについて非常に注意深くあるべきだと思います。
意識が我々が気にするものの一部だけを包含する様々なものに対する言葉であることがわかったとしましょう。おそらく、その言葉に含まれていない他の我々が気にするものがあるかもしれません。生命力の類推と同様です。
そうなった場合、倫理に関してどこに行き着くと予想しますか?その場合、意識のような次のものがあるのでしょうか?あなたはそれがどのようなものになると予想しますか?
心の哲学では、意識は存在しないと言う人々のクラスがあります。イリュージョニストと呼ばれています。この見方を理解する方法はいくつかありますが、1つのバージョンは、意識の概念には現実の世界では満たされていない前提条件が多すぎるので、我々はエラン・ヴィタルのようにそれを捨てるべきだと言うものです。
提案は、少なくとも現象的意識、またはクオリア、物事がどのようなものであるかということは、十分に壊れており、十分に多くの誤りに満ちているので、我々はそれを単に使用すべきではないというものです。
反省すると、私は実際に意識のようなものについてかなり気にし続けることを期待しており、それに言及しない倫理の方が良いと決定することはないと思います。
少なくとも、意識に非常に近いいくつかのものがあります。私が足の指をぶつけたとき、何かが起こります。それを正確に名付ける方法は不明確ですが、それについて私はかなり焦点を当てています。
あなたが物事がどこに向かうかを尋ねているなら、私はいくつかの信念を持っています。最終的に我々は意識について直接多く気にすることになるというのが1つの信念です。そうでない場合…
はい、倫理はどこに向かうのでしょうか?完成した心の哲学はどこに向かうのでしょうか?それを言うのはとても難しいです。
人々が意識の概念にあまり興味を持たなくなった場合に取り得る動きの1つは、より唯物論的な見方です。木に何が起こっているのでしょうか?必ずしも意識のある実体として話すわけではありませんが、完全に無自覚でもありません。
意識の議論は、「ああ、それらの基準は、この全く奇妙な実体が意識を持つことを意味する」というような面白いケースでいっぱいです。特にエージェンシーや選好のような概念に興味がある場合はそうです。企業など、多くのものがエージェントになり得ます。企業は意識を持っていますか?ああ、man。
理論的には1つの方向性として、世界を我々が慣れているよりも豊かで微妙な構造で道徳的重要性に満ちたものとして見始める可能性があります。
植物や奇妙な最適化プロセスは、複雑な…わかりません。最終的にあなたが気にするようになるものの一種の流出として正確に何を見ることになるかはわかりません。しかし、我々が通常意識を帰属させないものの多くを含む可能性があります。
あなたは「心の完全な理論」と言い、おそらくその後、より完全な倫理が続くと。反省的平衡の概念でさえ、「ああ、いつかはそれが終わるだろう」ということを意味しています。あなたはただすべての数字を合計して、あなたが気にするものを手に入れるのです。
これは科学で我々が持っているのと同じ感覚とは無関係かもしれません。これらの種類の質問について話すときに得る雰囲気は、「ああ、我々は今すべての科学を急いで進めています。我々はそれをかき回してきました。何らかの上限があるので、それを見つけるのがより難しくなっています。いつかはすべてのものを見つけるでしょう」というものです。
今は、半知能的な種がほとんど出現していないので、非常に簡単です。そしてASIは信じられないほど速くすべてを急いで進めるでしょう。あなたはその心を整列させているか、そうでないかのどちらかです。いずれの場合も、それは本当に何が起こっているのかについて理解したことを使用し、宇宙を拡大して開発するでしょう。それはタイリングを行うか、おそらくもっと慈悲深いバージョンの「タイリング」を行うでしょう。それが起こっていることの基本的な図のように感じます。
数ヶ月前にマイケル・ニールセンと夕食を食べました。彼の見方は、これが永遠に、あるいはほぼ永遠に続くというものです。ニールセンの科学の図について確信を持ったとしたら、将来何が起こるかについてのあなたの理解をどれほど変えるでしょうか?
いくつかの異なる側面があります。私はマイケルの図をよく理解しているとは主張しません。私の記憶では、それは「確かに、基本的な法則を手に入れる」というようなものでした。私の印象では、彼は物理学が解決されると予想しています。おそらく特定の実験の高価さは除いてです。
しかし、困難は、基本的な法則を理解していても、マクロスケールで様々な有用な技術がどこに位置するかを予測することは実際にはできないということです。まだ大きな探索問題があります。
彼自身にここでの見解を話させましょう。私の記憶では、それは「確かに基本的なものを手に入れますが、それは同じ技術を得ることを意味しません」というようなものでした。それが本当かどうかはわかりません。
もしそれが真実なら、どのような違いを生むでしょうか?ある意味で、より継続的に、さらなる知識とさらなる探索に投資するのと、既存の知識に基づいて行動し開発するのとのトレードオフを行う必要があります。「そして今我々は終わりだ」というポイントに到達することはできません。
考えてみると、それは常に真実だったのではないかと思います。誰かと話していて、私は「ああ、少なくとも将来には、我々は本当にすべての知識を手に入れるべきだ」と言いました。彼は「あなたはすべてのチューリングマシンの出力を知りたいのですか?」と言いました。ある意味で、実際に完全な知識を持つとはどういうことなのかという質問があります?それ自体が豊かな質問です。
必ずしも我々が、どの図においても、すべてを手に入れたと想像すべきではありません。どの図においても、ある意味で、あなたは上限に達する可能性があります。あなたが構築できない衝突型加速器があるかもしれません。あまりにも高価なものがあり、みんなそこで上限に達します。
「上限に達するのか?」という質問があります。「行く場所がどれほど偶発的か?」という質問もあります。もし偶発的なら、1つの予測は、我々の宇宙全体でより多様性が見られるということです。エイリアンがいるとすれば、彼らはかなり異なる技術を持っているかもしれません。人々が出会ったとき、「ああ、あなたはあなたのものを手に入れた。私は我々のバージョンを手に入れた」というような期待はしません。むしろ「ワオ、そのもの。すごい」というようなものです。それが1つのことです。
より継続的な技術の発見を期待するなら、技術が文明の変化を本当に推進する1つのものである限り、より継続的な変化と動揺と混乱を期待するかもしれません。それも別の要因かもしれません。
人々は時々ロックインについて話します。彼らは文明がある構造や均衡に落ち着くポイントを想像します。おそらくそれはあまり得られないでしょう。おそらくそれはペースについてというよりも、偶発性や上限についてですが、それは別の要因です。
興味深いですね。地球文明の図を根本的に変えるかどうかはわかりません。我々はまだ、研究にどれだけ投資するか、既存の知識に基づいて行動するかについてトレードオフを行う必要があります。しかしそれにはいくらかの重要性があります。
我々はパーティーにいて、誰かがこれについて言及しました。我々は将来についてどれほど不確実であるべきかについて話していました。彼らは「私は3つのことについて不確実です。意識とは何か?情報理論とは何か?物理学の基本法則は何か?それらを手に入れたら、我々は終わりです」と言いました。
それは「ああ、あなたは正しい種類のヘドニウムが何かを理解するでしょう」というような雰囲気です。一方、これはより「ああ、あなたは常にかき回している」というような雰囲気です。それは調和の図が示唆するような生成のより多くの風味を持っています。私はそれがより刺激的だと思います。
それは単に「ああ、あなたは21世紀に物事を理解し、そして単に…」というようなものではありません。
時々私はこの2つのカテゴリーの見方について考えます。知識については「我々はほぼそこにいる」と考える人々がいます。我々は基本的に図を手に入れました。その図は、知識がすべて完全にそこにあるというものです。あなたは科学的に成熟している必要があり、そうすればすべてがまとまるでしょう。
それ以降のことは、この超高価で、あまり重要ではないことになるでしょう。
そして別の図があります。それははるかに継続的な謎のようなものです。「ああ man、もっともっと…」というものです。我々は世界観のより根本的な修正をさらに期待するかもしれません。
私は両方に引かれます。我々は物理学にかなり長けています。少なくとも物理学者の一部を読んだ印象では、我々の物理学のかなりの部分が多くのことを予測するのにかなり優れています。
誰が知っているでしょうか?あなたのお父さんは物理学者ですよね?
はい、でもこれは父からきているわけではありません。ショーン・キャロルのブログ記事か何かがあります。彼は「我々は日常世界を支配する物理学の多くをよく理解しています。我々は多くのことにとても長けています」と言っています。私は一般的に、分野としての物理学にかなり感銘を受けています。それは正しいかもしれません。
一方で、これらの人々は数世紀かかっています。しかし、それは興味深いと思います。それは何か異なるものにつながります。終わりのないフロンティアについて何かがあります。美学的な観点から、物事を継続的に発見し続けるという考えには魅力があります。
少なくとも、完全な知識を得ることはできないと思います。あなたがシステムの一部であるという方法があります。知識自体がシステムの一部です。
宇宙の未来がどのようになるかについて完全な知識を持とうと想像すると…わかりません。それが本当だとは完全には確信していません。
それには停止問題のような性質がありますよね?少し循環的なところがあります。
おそらくそこには固定点があり、あなたは「はい、私はそれをするつもりです」と言えるかもしれません。少なくとも私には疑問があります。人々が知識の完成を想像するとき、それがどれほどうまく機能するのかについて。私はわかりません。
あなたのユートピアについてのエッセイに1つの段落がありました。その段落を読んでもらえますか?
「私はユートピアが、どれほど奇妙であっても、ある意味で認識可能だろうと考える傾向があります。もし我々が本当にそれを理解し経験したら、我々は昔、初めて愛、喜び、美に触れたときに思わず身を起こしたのと同じものをそこに見るでしょう。我々は焚き火の前で、それが点火された炭の熱を感じるでしょう。一種の思い出しがあると思います。」
これはこの図のどこに適合するのでしょうか?
良い質問です。もし私の一部がそれを良いものとして認識しないのであれば、私にとってそれが良いものであるかどうか確信が持てません。
それがあなたの一部が良いものとして認識するのに何が必要かという問題です。しかし、もし本当にそのようなものが全くないのであれば、それが私の価値観を全く反映しているのかどうか確信が持てません。
あなたが行うことができる一種の同語反復的なことがあります。「ああ、もし私が良いものを発見するプロセスを経て、それを反省と呼ぶかもしれないプロセスを経たなら、それは良かったのです。」定義上、あなたはそこに到達したので…わかりますよね?
もしあなたが徐々に私をペーパークリッパーに変えていったら、私は最終的に「私は光を見ました、真のペーパークリップを見ました」と言うでしょう。それが反省についてのこの話を複雑にする部分です。
あなたが気にするものを保持するプロセスと、そうでないプロセスを区別する方法を見つける必要があります。それ自体が難しい問題です。それ自体が、あなたが何を気にするのか、どのようなメタプロセスを支持するのかなど、何らかの立場を取ることを要求します。
しかし、あなたは確実に「最後のものが正しいと思うことが十分な基準ではない」と言うべきではありません。それは完全に軌道を外れてしまった可能性と両立します。
あなたの投稿の1つに非常に興味深い文があります。あなたは「実際、我々の心は力によって形作られてきました。だから、我々が愛するものもまた強力であることに全く驚くべきではありません」と言いました。そこで何が起こっているのでしょうか?そこで何を意味していたのでしょうか?
その投稿の文脈は、私がエッセイで「優しさ/リベラリズム/境界」と呼ぶ曖昧なクラスターについて話していることです。それは、他者の境界を尊重し、違いの中で協力と平和を築くことに関わるより最小限の協力的規範のセットです。これは、AIリスクの文脈で人々がよく使う価値観のパラダイムである、あなたが好む物質の構造とは対照的です。
私はしばらくの間、これらの規範の倫理的な美徳について話します。なぜ我々はこれらの規範を持っているのでしょうか?これらの規範の重要な特徴の1つは、それらが効果的で強力だということです。安全な境界は衝突に無駄にされる資源を節約します。リベラルな社会はしばしば住みやすく、移民に適しており、より生産的です。優しい人々は交流しやすく、取引しやすいなど、様々な利点があります。
政治レベルで我々がなぜ様々な政治制度を持っているのか、そしてより深く我々の進化の過去と道徳的認知の構造がどのように形成されたかを見てみると、様々な種類の協力やゲーム理論的なダイナミクスなどが、我々が現在、少なくとも特定の文脈で本質的または最終的な価値として扱うものの形成に関与したことは明らかです。
これらの社会で道具的機能を持つ価値観も、我々の認知の中で本質的な価値観として具体化されます。私はそれでいいと思います。私はそれが価値の否定だとは思いません。あなたのすべての価値観は、ある種のものが固着し、最終的に重要なものとして扱われるようになったものです。
このシリーズの文脈で、私は深い無神論と、我々が推し進めているものと自然が推し進めているもの、または純粋な力が推し進めるものとの関係について話しています。
「ペーパークリップは単に1つの方向に操縦できるものであり、快楽は別の方向に操縦できるものです。これらは単に恣意的な方向です」と言うのは簡単です。一方で、我々の他の価値観の多くは、協力や効果的で機能的で強力なものの周りにもっと構造化されていると思います。
だからそこで私が意味しているのはそういうことです。ある意味で、自然は我々の側にあるのです。我々の一部は自然の方法によって作られています。それは我々の中にあります。
しかし、これがグレイグーに打ち勝つのに十分だとは思いません。我々の価値観には一定の力が組み込まれていますが、それが恣意的に競争力があるというわけではありません。それでも、それを念頭に置いておくことは重要です。我々の社会にAIを統合する文脈でそれを念頭に置くことは重要です。
我々はこの倫理について多く話してきましたが、異なる価値観を持つAIとの社会的調和と協力の形を持とうとすることには、道具的で実用的な理由もあります。
我々はそれを真剣に受け止め、これらの存在を我々の文明に正当に組み込むプロジェクトをどのように行うかについて考える必要があります。正義の部分と、「人々と両立可能か?それは良い取引か?人々にとって良い取引か?」という部分があります。
AIが反乱を起こすことについて非常に懸念している範囲で、あなたができることの1つは、誰かにとって文明をより良くすることです。それは実際に我々が多くの政治制度や規範を構築してきた方法の重要な特徴です。
それがその引用で私が言おうとしていることです。
OK。それは締めくくりに最適な場所だと思います。ジョー、ポッドキャストに来てくれてありがとう。我々はシリーズのアイデアについて議論しました。
シリーズを読んでいない人々は、それがどれほど美しく書かれているかを理解していないかもしれません。我々はすべてをカバーしたわけではありませんが、他のどこにも出会ったことのない非常に興味深いアイデアがたくさんあります。
明らかに、AIの議論のどの部分も、これほど上手く書かれているものはありません。ポッドキャストバージョンを聴くのは本当に美しい経験です。あなた自身の声で語られています。人々にそれを聴くことを強くお勧めします。joecarlsmith.comでアクセスできます。
ジョー、ポッドキャストに来てくれて本当にありがとう。
ありがとうございます。本当に楽しかったです。
コメント