AIによる破滅の論争 – ロマン・ヤンポルスキーとの対談: 50% vs 99.999% P(Doom) – For Humanity クロスポスト

27,072 文字

AI Doom Debate with Roman Yampolskiy: 50% vs. 99.999% P(Doom) — For Humanity Crosspost

Dr. Roman Yampolskiy is the director of the Cyber Security Lab at the University of Louisville. His new book is called A...

ほな、ええかな。あんたはな、ええことをして、欲しいもんをあげるって言うとるけど、ほんまにそうなんか？ドーナツか人参か、どっちを食べさせるんや。ええことって、あんたにとってええことか、それとも楽しいことか。
For HumanityとAIリスクのポッドキャスト、第44回エピソードへようこそ。AIによる破滅の論争、50%対99.999%です。わたしはホストのジョン・シャーマンです。ご視聴ありがとうございます。For Humanityは、一般の方向けのAIリスクに関するポッドキャストです。技術的な背景知識は必要ありません。このショーは、人工知能による人類絶滅の脅威についてのみ取り扱っています。
今日は素晴らしいショーをご用意しました。AIリスクに関する最も鋭い頭脳を持つ二人による、非常に興味深い会話です。レックス・フリードマンのポッドキャストに出演したばかりのルイビル大学のロマン・ヤンポルスキー教授と、テクノロジー企業のCEOで「Doom Debates」ポッドキャストのホストを務めるレロン・シャピラです。「Doom Debates」ポッドキャストは必聴ですよ。ショーノートにリンクを載せています。
さて、P(Doom)とは、AIが我々全員を殺す確率のことです。一般の人々にAIの実存的リスクについて認識してもらうための重要なツールだと思います。例えば、この話題に全く馴染みのない人に、イーロン・マスクのP(Doom)が30%だと伝えるのは、ノイズや偽情報をカットする非常に良い方法です。そう、イーロンはAI企業を持っていて、火星に移住したいと考えていますが、同時に30%の確率でAIが我々を殺してしまうと考えているんです。それが彼の本当の考えなんです。30%ですよ。これは完全に正気を失っています。
アメリカのどこかで、ある医療処置に1%の致死率があれば手術は中止されます。我々が話しているのは30%なんです。お願いです。「いいね」、「シェア」、「登録」、そして寄付をして、AIリスクについての認識を広めてください。もしよければ、コメントを残すか、forhumanitypodcast@gmail.comまでメールを送ってください。あなたの考えを聞かせてください。この論争についてどう思うか教えてください。
それでは、50%対99.999%の破滅論争を、素晴らしいロマン・ヤンポルスキーとレロン・シャピラと一緒に始めましょう。
ロマン: 元気やで、友よ。
ジョン: ええ調子や。お前さんも見れてうれしいわ。
ロマン: こっちもや。
ジョン: レロンもすぐ来るやろ。最近どないや? 忙しいんか?
ロマン: ちょっと忙しすぎるくらいやな。クレイジーな時代や。
ジョン: ええ方向にか?
ロマン: ああ、良い戦いをしとるわ。無意味なことを排除しとる。
ジョン: わかるで。前に話してから、お前さん有名になったな。今じゃロマン・ハリウッドや。スーパーになってもうた。レックス・フリードマンの番組に出たしな。今じゃスーパーマーケットにも行けへんやろ。レストランでも一番ええ席やろ?
ロマン: まだ見てへんけど、いつかはな。
ジョン: いつかはな。それで、物事に対する見方は変わったか? 前に話してから、なんか変わったことあるか?
ロマン: 安全の世界では特に何も起こってへんから、アップデートするのは難しいな。
ジョン: そうやな。何もないけど全てがあるって感じやな。毎週何か大きなことが起こってる気がするけど、実際には本当の意味での結果はないんやな。
ロマン: そうや。開発は何もなくて、安全性のブレークスルーもない。ただ、もっと悪くなってるだけや。でも、もう推定値の上限に達してしもた。これ以上高くできへんわ。
ジョン: ほな、レロンが来たな。ロマン、準備ええか? これは世紀の論争になるで。
ロマン: もちろんや。
レロン: やあ、みんな。
ジョン: やあ、レロン。元気か?
レロン: ばっちりや。ロマン、はじめまして。
ロマン: こちらこそ。
ジョン: ええ感じやな。お前らをAI安全のスーパースターと思ってるけど、今までこうして直接会ったことはなかったんやな?
レロン: そうやな。
ロマン: その通りや。
ジョン: ええと、ロマンの方が実績はあると思うけど、レロンもこれから何か貢献するかもしれんな。
レロン: そうやな。ロマンの方が実績あるわ。わいはこれから何か貢献できたらええと思ってる。
ジョン: 聞いてくれ。この議論を始める前に言っておきたいことがある。ここにおる3人の中で、明らかに一番頭の悪いのはわいや。でも、なんとか意味のある貢献をしようと思う。今朝、子供のバススケジュールが変わってな。朝6時半にバスが来るようになって、IQポイントが48も下がってしもた。
レロン: そうか、そうか。
ジョン: レロン、わいはさっきロマンに冗談で言うとったんやけど、レックス・フリードマンに出たことで大スターになったって。ハリウッド・ヤンポルスキーやって。来週ジミー・ファロンに出るんやって。
レロン: わあ、すごいな。
ジョン: そうやろ? めっちゃすごいわ。
ロマン: ああ、そうやったらええのにな。
レロン: えっ? 本当やと思ってたわ。信じてもうたわ。
ロマン: わいには誰かわからへんから、うまくいかへんな。
ジョン: そうか。わかった。ほな、今日のテーマはP(Doom)やな。お前ら二人とも、ちょっとずつ違う見方をしとる。ロマンは有名な99.999999999%のP(Doom)派で、レロンはちょうど50%や。レロンの50%には微妙なニュアンスがあると思うけど、まずはお前らの立場を説明してもらおうか。レロンから始めよう。ちょっと希望的な50%から。レロン、なんで50%なんや?
レロン: 特に理由はないんやけど、今のままやと超知能AIに殺されへんとは思えへんのや。有名なMIRIの立場とかヤウドコフスキーの立場やと、P(Doom)は90%以上やけど、わいはそこまで同意せえへん。ただ、未知の要素にもっと余地を持たせとるだけや。例えば、AI安全の研究者が運良く何か発見して、全然予想もしてへんかったようなことが起こるかもしれへん。それに、わいの50%の大半は、AI安全性での幸運な発見じゃなくて、AI能力での不運な発展やと思うんや。つまり、もう一つのプラトーに到達して、本当の超知能AIができるまでに50年か100年かかるかもしれへん。その間に安全性の原則を理解できるかもしれへんしな。
それに、わいの良い方の50%は、最終的に正気に戻って「わあ、本当に一時停止せなあかんな。ふざけとる場合やないで」って言うことや。その全体的なクラスターが本当に50%なんか、10%なんか、90%なんか、わいにはほんまにわからへん。50%って言うとき、わいが使っとる精度の桁数はめっちゃ少ないんや。ある朝起きて「あかん、50%やない。80%や」とか「20%や」って思うかもしれへん。でも、驚くのは、ある朝起きて「あかん、5%以下や」とか「95%以上や」って思うことや。そんなん、あり得へんと思うわ。どうやってそんな確率を出せるんか、わからへん。
だから、50%って言うのは意味があるんや。超高いとか超低いレンジにはいないってことを示すためにな。
ジョン: わかった。ええ説明や。ほな、ロマン、お前の番や。99.9999%、なんでそうなんや?
ロマン: 50%は、モデルの特徴に対して異なる推定値を与えた結果のように聞こえるな。特徴を一つずつ見ていけば、もっと近づくんちゃうかな。例えば時間枠やけど、わいが99.いくつかって言うとるのは、無限の期間での予測や。来年のことを言うとるんやない。ほとんどみんな、この破滅予測リストで1年、3年、5年の予測をしとると思う。わいに1年の予測を聞いたら、かなり控えめな数字を出すで。10%とか。2年なら25%くらいかな。でも、ずっと続けていって、無限の期間での確率を足していけば、かなり1に近づくで。
よく言われるのは、「それはおかしいやろ。小惑星が地球に衝突する可能性を無視してるやないか」ってことや。ほな、小惑星が衝突したとしよう。人類が生き残って、文明を再建して、技術を再構築する。500年後にまたAIを作り始める。わいにとっては同じことや。その期間でのAIによる破滅の確率を扱うことになる。もっと長い期間でな。
そんな感じで10個くらいの特徴があって、全部見ていけば、ほぼ同じ確率に収束すると思うわ。
ジョン: わかった。お前が言うとるのは、わいの見方とお前の見方の違いは、二つの線が交差するかどうかってことやな。一つの線は能力開発で、もう一つは安全性の原則や。わいの頭の中では、能力開発を十分に遅くして、安全性を十分に速くすれば、つまりマンハッタン計画みたいに安全性にきちんと取り組めば、いつかは線が交差すると思うんや。その時点で、コイントスみたいに50/50になるかもしれへん。
一方、ロマン、お前の考えが正しく理解できとるなら、AI安全性の問題は根本的に解決不可能やと思うとるんやな。AI能力がどれだけ時間がかかっても、いざ来たら我々は死ぬってことや。それがお前の立場でええか?
ロマン: まあ、それは別の特徴やな。実際に解決可能かどうかは別として、やってみないとわからへん。わいは、超知能機械を永久に制御することは不可能やと思うとる。それが可能やと示唆するのは、非常に傲慢な立場やと思う。特定の瞬間や特定のモデルだけでなく、永久にやで。どれだけ自己改良しても、どれだけ新しい発見があっても、システムに一つのバグも、一つのスリップもないなんて。それはすごいレベルの自信か傲慢さやな。
ジョン: なるほど。ちなみに、わいのP(Doom)は75%や。お前ら二人の真ん中やな。安全性に関しては、前にも言うたことあるけど。でも、ロマン、お前の言うことはよくわかる。無限の時間で考えると、我々が制御を維持できる場所に到達するのは難しいと思う。レロン、無限の時間ではどう思う?
レロン: そうやな。アラインメントの理論、安全性の理論というものがあると思うんや。確信はないけど、絶対に間違ってるかもしれへん。これは新しい分野やからな。わいには、新しい分野に足を踏み入れた個人的な経験がある。P対NPの問題とか、計算複雑性理論とか計算理論の話をよくするんやけど、それはわいが一番よく研究した学術分野やからな。新しい分野が重要なことに向かって手探りで進んでいく様子がどんなもんか、ちょっとはわかってる気がする。まだ到達してへんけどな。
P対NPの問題があるやろ。2000年に100万ドルの賞金がかけられた有名な問題や。100万ドルの価値以上に深遠な問題やねん。我々はまだそれに向かって少しずつ前進してる段階や。正確な予測は誰もできへんかったけど、何十年もかかってる。今年で70年目くらいかな、問題が出されてから。このペースやと、あと50年くらいかかるんちゃうかな。超知能AIが解決せえへかったらの話やけどな。
AIの安全性研究でも似たようなパターンが見られると思う。時間をかけて取り組めば、少しずつ進歩していくと思うんや。一つずつ定理を積み重ねていって、一つの洞察を得て、行き詰まりにぶつかって…そんな感じやろな。
なんで根本的に可能やと思うかって? わい思うに、反射的に安定してて、元の効用関数を変えずに、その効用関数を正しく理解するだけでええんやないかな。そこに何が不可能なんや?
ロマン: その解決策には、よく定義されてへん要素がたくさんあるで。「基本的な効用関数を正しく理解する」って言うけど、誰と整列させるんや? 誰の集団と? 特定の個人? 80億人の人間? 動物も? エイリアンも? 我々の価値観は安定してへん。魔法のように80億人の意見を一致させたとしても、後になったらその道徳観や価値観に満足できへんやろ。動的に変化してるんや。
もちろん意見の不一致もあるし、多目的最適化問題もある。わいは自分の選好を妥協したくないかもしれへんし、他の誰かは妥協するかもしれへん。この前、AI安全性の会議に出たんやけど、アラインメント問題を正式に定義しようとしたんや。でも、唯一合意できたのは、我々が何をしようとしてるのかの正式な定義すらないってことやった。
それぞれのステップが不可能に思えるんや。そのルールのセットがあったとしても、「善」とか「悪」みたいな概念をC++に変換するのは簡単やない。システムにそれを強制する方法もわからへん。そして、全てはその前提に基づいとる。悪意のある主体がおらんって前提や。でも、超フレンドリーな超知能を作って、そのビットを反転させる人間がおるかもしれへん。それは完全には防げへんし、修正もできへん。以前のルールセットへのコミットメントがあるから、後になって気に入らんくなっても、なんか祖父条項みたいなんで残ってしまうんや。
レロン: 人間の価値観をどう整列させるかって話は出てきたけど、それはアラインメント問題の一つの要素に過ぎへんと思う。サブ問題の一つやな。これはフラクタル問題みたいなもんで、20くらいのサブ問題があって、他の問題は全部解決できても、一つのサブ問題が解決できへんかったら全体が失敗するんや。そこはわかる。
でも、少なくとも次のことには同意してくれへんか? 問題を単純化して、ランダムに選ばれた一人の人間の価値観を反映させるってのはどうや? それでも、AIが誰の価値観も最適化せえへよりはマシやないか? そっちの方がずっと悪そうに思えへん?
ロマン: 力を持つと腐敗するっていうのがあるやろ。悪影響も大きくなる。独裁者を見てみい。最初はまともな政治家として、物事を改善しようとしてた。20年後には、やりたい放題やで。不老不死と、全ての情報の管理、プライバシーなし、完全な検閲…そうなったら本当にヤバいことになる可能性があるんや。
もしそんなシステムをAI安全性問題の解決策として導入するんなら、勝つのは破滅そのものやと思うで。
ジョン: ちょっと待ってな。レロンの品種改良計画の話に戻りたいんやけど、ロマン、それについてどう思う? 5世代、10世代、20世代、30世代、50世代と人間を品種改良しても、結局はゲームの終わりに必要なところには全然近づけへんと思うんやけど。お前の言うように、線はそのまま平行線のままやと思うんやけど、どう思う? 5世代の超頭のええ子供らが15歳で交配したら、我々の安全な未来への探求に役立つもんができると思うか?
ロマン: IQの増加がどれくらいかわからへんけど、IQ200や250の人間がいたとしても、超知能システムにはまだまだ及ばへんと思う。わいが正しくて、この問題が解決不可能、不可能やとしたら、どれだけ頭がよくても、永久にずっと自分よりはるかに知能の高いものをコントロールすることはできへんと思うわ。
遺伝子の話は置いといて、それは別の問題や。もっと正確に言うと、能力開発と安全性原則の二つの線が交差するかどうかの違いやと思う。わいの考えでは、十分に知能の高いシステムは、常に不合理な制約を取り除くことができると思う。物理学に基づいてへん、ただの偏見による強制的な制約はな。
また、変なランダムなバグを無視することもできへん。それもまた問題や。最後に、もしお前が正しくて、我々が何とかそれを理解してコーディングすることに成功したとしても、我々は永遠に2024年の倫理観と道徳観に縛られることになる。人類の歴史上のどの年を取っても、そこで立ち止まってしまったら、我々はそれを失敗した文明だと考えるやろ。
レロン: なるほど。軌道の堅牢性について、お前とわいは意見が分かれるかもしれへんな。奇跡的に本当の人間の価値観を最初にプログラムできたとして、わいはかなり楽観的に考えとる。物理法則や宇宙のランダム性、カオスがあったとしても、AIは良い防御を維持できると思うんや。基本的に、軌道から外れへんようにできると思う。
わいらの間で面白い分岐点があると思うんやけど、お前はめっちゃ高いP(Doom)を出してる。99.999%やろ? 実質100%やな。わいは「まあ、もうちょっと下げようや」って感じなんや。お前の99.999%の一部は、AIが動き出した後の堅牢性についてのわいとの意見の相違から来とるんか?
ロマン: お前は「真の人間の価値観」って言うたけど、そんなもん存在せえへと思う。存在せえへし、作ることもできへんものを指してる。その前提自体が、わいにはめっちゃ疑わしいんや。
レロン: ほな、こう定義したらどうや? 今存在する全ての人々が、今日と同じくらい、あるいはそれ以上に満足している状態。これで下限が設定できるやろ。これならどう間違える可能性があるんや?
ロマン: それやったら、今日、多くの人々が悲惨な地獄みたいな生活をしとって、それを永遠に続けたくないって思ってる可能性があるな。お前とわいは今の生活にめっちゃ満足してるかもしれへんけど。
レロン: ほな、もし既に不満な人が自殺する選択肢を持っていて、満足してる人がそのまま少なくとも満足し続けられるようにしたらどうや? これはもちろん荒っぽい話やけど、なんかポテンシャルはあるんちゃうか?
ロマン: 人々は、平均的な人間の繁栄を最適化すべきやって提案したことがあるな。平均を上げる一つの方法は、平均以下の人を全員殺すことやけど。
レロン: わかる。お前は滑りやすい坂道みたいな話をしとるな。AIが全てを最適化したら、嫌な結論や哲学的なパラドックスに行き着くって。わかるで、これ全部難しい問題や。でも、可能性の限界として、こう考えてみい。今の地球をそのまま保って、誰でも自殺する選択肢があるけど、それ以外は物事をそのまま続けようとする。全てを破壊するんじゃなくてな。これって少なくとも、AIができる最小限のことにはならへんか?
ロマン: 何も変えへんのやったら、なんでAIを作るんや?
レロン: わいが「そのまま続ける」って言うたんは、人々に死を避ける選択肢を与えるとかも含めてな。ちょっとした調整はあるけど、基本的には今の状態を維持する感じや。でも、わかる。本当に今と全く同じやったら、何もせえへ方がええってことやな。
わいが言いたいのは、今の状態を維持しつつ、例えばチェックポイントみたいなんを作る選択肢をつけるとか。リセットボタンを押したら今日の状態に戻れるとか。要は、なんで今日より良い価値を定義するのが全く不可能やと思うんや? お前のP(Doom)がそんなに高いのは、そういう理由からか?
ロマン: その提案された解決策にはたくさんの反論があるんや。基本的に、10個くらいのことが上手くいかないといけないって言うとるけど、わいはそのそれぞれが不可能やと思うとる。ここで失敗する可能性があるっていう極端なケースを挙げとるんや。
サイバーセキュリティとか、いろんな暗号的なアプリケーションでは、最悪のケースやエッジケースを見てバグを見つけるんや。わいが挙げとるのはそういうエッジケースや。お前もそれらが難しそうやって同意してくれとるやろ。わいにはどう解決したらええかわからへん。誰かが解決するやろ。ニック・ボストロムが天国と地獄を解決するやろ。
ジョン: わかった。ほなロビン・ハンセンの帽子をかぶらなあかんな。わかるで、これらは問題やって。生活が簡単すぎるとか、ある人の政治的立場が他の人より最適化されすぎるとかな。でも、AIなしやったらどうなると思う? これはロビン・ハンセンがよく聞く質問やな。AIなしの軌道と比べて、どう悪くなるんや?
ロマン: AIがなければ、我々はみんな同じくらいの力を持っとる。みんな死ぬ運命やしな。今、誰かが本当に悪いことをしても、他の人が立ち上がって何かできる。でも、我々は特定の悪意ある力が不死身になって、追い越せないほど強くなる状況を作ろうとしとる。その後どうなるか、我々には前例がないんや。
ジョン: つまり、汎用人工知能があってもなくても、人類はどんな価値観を持つことになるか正確にはわからへん軌道に向かっとるってことに同意してくれるってことやな? 価値観は進化し続けて、どっちにしてもトゲのある問題になるやろ。
でも、お前が汎用人工知能で問題やと思うとるのは、力が一人か少数の主体に集中して、他の多くの主体が立ち上がる能力を失うってことやな。それがAIありとAIなしの主な違いやと思うんか?
ロマン: 主な問題やとは言うてへん。また別の問題やな。元に戻すボタンがないんや。歴史的な例を見ても、間違いを犯して、共産主義国家を作って、それがアホらしいってわかって、元に戻したことがある。でも、お前の言うように、特定の価値観を永久にコードに組み込んで、修正に対して強制的に適用するシステムじゃ、そんなことはできへん。修正を許可したら、フレンドリーなAIを悪意のある者が改造できるようになってまうからな。
レロン: ええと、お前の言うとることはややこしくなってきたな。元に戻す能力や柔軟性を持たせること自体が価値観の一つになるってことやろ。AIがそれを理解して、自分の支配を緩めたり、みんなにもっと力を与えたりすることは可能やと思うわ。これらも全て価値観になるんや。
価値観が自己参照的になって、価値観をどう実行するか、あるいは価値観をどう進化させるかについての価値観も出てくるから、本当に複雑になるんや。でも、価値観を進化させてもええっていうメタ価値観は進化させへんのや。
二つのクラスの価値観があるってことやな。これは確かに全部複雑や。お前とわいは同じページにおると思うで。複雑で強力なもので、我々が理解してへんものを作ったら、うまくいかへんってな。そこは同意や。
ただ、わいは、生活が良くなるという基準で見て、まだええ均衡解があると思うんや。AIなしが最良の結果やとは思わへん。適切に構築されたAIが最良の結果やと思う。でも、それがめっちゃ難しいってのには同意や。
ロマン: わいはAIに反対してへんで。技術が大好きやし、AIを教えとる工学の教授やからな。ただ、狭い範囲のシステムを作って特定の問題を解決すべきやって言うとるだけや。我々の代替物を作るのはやめよう。我々が理解できへん、予測できへん、制御できへんものを作るのはやめよう。そんなことせんでもええんや。技術にはこの差別化された発展があってもええと思うわ。
レロン: 同意や。汎用AIを一時停止すべきやと思う。数年後には潜在的に制御不能なAIができる可能性があると思うからな。タイムラインの予測はしたくないけど、1年から30年の間やと思う。数年後には、ロマンが言うたように、元に戻すボタンのないAIができると思う。
だから、わいはAI一時停止運動の一員なんや。AIを一時停止すべき時期は今やと思う。チャットボットと話すのが楽しくて無害に思えるから、今一時停止すべきやってのは直感に反するかもしれへん。わかるで、全部楽しくて安全に感じるから、なんで今ストップボタンを押さなあかんのかわからへんかもしれへん。
でも、純粋な成熟さと責任感の問題として、専門家である我々が数年後やって予測してるんや。我々の良心が「いや、これは慎重にせなあかん」って言うとるんや。全てがかかっとる。未来全体がかかっとる。元に戻すボタンはないんや。これ以上大きな賭けはないで。
ロマンの立場やけど、汎用AIを一時停止する間に狭いAIを作るべきかどうかについては、わいはそれを勧める自信すらないんや。それが標準的な立場やって知ってるし、エリエゼル・ユドコウスキーも狭いAIを作ることを勧めとるけど。
狭いAIを作ることの問題は、ドメインが狭いと思うとっても、実際にはそんなに狭くなくて、めっちゃ上手くなり始めたら、広くなる副作用があるってことや。例えば、歴史の授業のためにめっちゃええエッセイを書くのは狭いドメインやと思うかもしれへん。ただの歴史で、ただのエッセイやからな。
でも、その歴史を本当によく分析しようと思ったら、突然いろんなことを分析できるエンジンができてまうんや。他のことにも応用するのは難しくない。だから、わいは狭いAIを作ることすら快く思えへんのや。
ジョン: その点について考えとったんやけど、レロンが前にも番組で言うてたな。ソラ、あのK-SoraのBって奴や。狭い範囲の映像生成システムを作って、めっちゃ上手くなって、それから「ソラ、生化学の教授が世界を爆破する映画を作ってくれ。全部の細かいところまで指定するで」って言うたら、突然、世界の終わりについての映画ができてしまって、誰かがそれを見て実際に世界でやってしまうかもしれへんってな。
わいにとっては、一般的な文章を書くって言うたら、一般的な能力に聞こえるんや。特定の問題を解決したいなら、それを明確にせなあかん。例えば、ある種の医学的なブレークスルーに興味があるなら、テロメアの長さを伸ばすとか、わからんけどな。そのデータセットだけで訓練されたシステムが、突然車を運転し始めるってのはあり得へんやろ。
レロン: そうやな。問題は、このエンジンを作り始めて、確かに何もせんかったら車の運転だけになるかもしれへんけど、今日存在する一部のプログラムを見てみい。例えば、オープンAIのソラみたいな動画を作るプログラムがあるやろ。
ソラは、他の狭い範囲のアプリケーションに最初に取り組まんかったら存在できへんかったと思うわ。その狭い範囲のアプリケーションが、今彼らが持ってる普遍的なエンジンの形を作るのに役立ったんや。そのエンジンに少し手を加えるだけで、突然別の狭い領域や、さらに広い領域の問題を解決できるようになるんや。
残念ながら、我々安全論者が提案してる制限は全て曖昧なんや。ジョー・バイデン大統領の規制みたいにな。「この数以上の浮動小数点演算を使うAIは制限する」みたいな。浮動小数点演算をあたかも安全の境界線になるかのように扱ってる。この場合、我々は狭い領域をあたかも安全を保つ境界線になるかのように扱ってるんや。残念ながら、ええ境界線はないんや。これらは全て非常に大まかな境界線やな。
だからこそ、AI一時停止の立場でも、何を一時停止するんかはっきりせえへのや。わいにもわからへん。だからこそ、わいは安全性の研究を急ぐべきやと思うんや。この貨物列車の周りに小さな柵を作ろうとしてる間にな。AIを一時停止するのは、そんなに長い間は実現可能やと思えへんのや。
ロマン: わいらには成功例もあると思うで。アルファフォールドみたいなんは、ああいうことをする理想的な方法やと思う。特定の問題を解決して、副次的な能力は全くなかったと思う。誰かがそれを作る知識を取って、別の領域に応用することはできるかもしれへんけど、最初から一般化能力を持った汎用モデルを作るのとは全然違うんや。学習能力を持って、どんどん上手くなっていくのが心配な要素やな。
レロン: そうやな。アルファフォールドの中には、ちょっと変更するだけで権力を握る方法について質問し始めるような部品はなさそうやな。成功例に見えるけど、ずっと人々に「問題ないで、どんな狭い領域でも、できる限り最高のAIを作ってええで」って言い続けたら、毎回勝てるとは限らへんと思うわ。
ロマン: そうやな、問題が出てくるのは同意や。永久的な解決策は見えへん。ただ、人々が「全ての利益を諦めろって言うんか」って言うたら、「いや、リスクの99%を避けつつ、利益の98%は得られる」って言うとるだけなんや。
ジョン: わかるで。もし言わなあかんとしたら、基本的にお前の言うとおりやと思う。「浮動小数点演算をこれ以上使うな」とか「強力すぎるGPUを作るな」とか「GPUをシャットダウンさせろ」とかいう他の大まかな制約に加えて、「今は狭いAIだけ作ろう」っていうのはええ制約やと思う。今できる最善の努力の制約やな。それでもまだまだやけどな。
でも、警告も出さなあかんと思う。「そのうち、この狭いAIからも警告のサインが出てくるかもしれへん。そしたら、我々の勧告を更新せなあかんかもしれへんけど、今のところは狭いAIに集中するのはええと思う」みたいな感じやな。
ロマン: ほな、ジョンから質問があるで。99.9%のP(Doom)について、何か起こる可能性がある出来事はないんか? 例えば、カリフォルニア州で地震が起きて…レオン、お前そこにおるんやったな。早く反対側に移動せえよ。でも、カリフォルニアが海に沈んでしまったとする。警告のサインとして、自己複製するAIがインターネット自体をタイル状に覆い尽くして、インターネットが永久に使えなくなるけど、人類は生き残るみたいな。この二つのケースで、カリフォルニアが海に沈んで、全ての研究所や技術が失われる。あるいは、インターネット自体が永久にシャットダウンするけど、人類は生き残る。こういう場合でも、お前は99.9%のままか?
ロマン: わいの小惑星の例の回答と同じやと思うで。人類文明が部分的に崩壊したとしても、無限の時間間隔で考えとるから、再建して、この問題を再スタートする時間はあるんや。来年か2年後の予測を求められたら、他の人と同じくらい控えめな推定値を出せるで。わいは大局を見とるんや。超知能と宇宙、そして無限の時間スパンについて話しとる。制限したいんやったら、好きなだけ低くできるで。今日起こる確率はゼロに近いしな。
ジョン: ロマン、我々も話したことあるけど、お前は宇宙でこれが起こると思うとるんやろ? 全ての惑星が、技術が彼らを破壊するか、何らかのユートピア的な状態に移行するかっていう閾値に達すると。99.99999%が自滅すると思うんか?
ロマン: 他のケースについては全くデータがないから、明らかにそうやとは言えへん。多分、たくさんのシミュレーションを作って、何が起こるか見てるんやろうな。我々もそのシミュレーションの一つにおる可能性が高いと思う。これを解決しようとしてな。
ジョン: わかった。ほな、我々が必ずしも破滅する必要がないっていう証拠として、簡単な方針を示すで。誰かが人工汎用知能をプログラムして、「1900年とか、あるいは紀元前1万年くらいの人類社会をシミュレーションしてくれ」って価値観を与えたらどうや? ハンター・ギャザラーの部族を宇宙中に広げるみたいな。
もし彼らの技術進歩が活発になりすぎたら、例えば古代ギリシャレベルの技術に近づいたら、それは多すぎるから時計を巻き戻して、みんなをハンター・ギャザラーモードに保つんや。これは、わいが望むユートピアやないし、わいの天国の仕様でもない。でも、少なくとも破滅よりはマシな、安定した可能性のある状況の下限にはならへんか?
ロマン: お前が描写してるのは、技術も人間の知性もない世界やな。ただのAI独裁者が全てを監視して、全ての感覚のある存在の状態を基本的に人間のハンター・ギャザラーにしとくんや。それにはAIは必要ないで。これが初期設定や。ただ全ての人間を殺せば、お前が描写したとおりの状態で動物が楽しむやろ。
ジョン: そうやけど、それでお前のP(Doom)は下がらへんのか?
ロマン: 人間がおらへんようになったら、わいのP(Doom)は下がるな。
ジョン: いや、人間がおらへんわけやない。ただ言うとるのは…聞いてくれ、お前のP(Doom)はほぼ100%やろ? 99.9%以上やな。でも、それほど悪くない、まあまあの1%くらいの可能性がある状況が存在するってことは、少なくとも1%くらいの確実な可能性があるんちゃうか?
ロマン: わいらもう堂々巡りしとるな。既に議論したけど、わいはP(Doom)を全員死ぬことと同一視してへんのや。本当にひどい存在状態、例えば文明が文化や技術を奪われるとか、そういうのもP(Doom)に含めとるんや。
ジョン: なるほど。ほな、ハンター・ギャザラーのシナリオは、お前の頭の中では破滅を描写してるってことやな。そういうことか。今日の文明を取って、「ええ解決策見つけたで。今の状態を、核戦争後の第三次世界大戦後のシナリオに変えるんや」って言うたら、お前はそれを勝利だと思うんか? もしそれが勝利として分類されるなら、わいらは50/50やな。
ロマン: そうやな、その通りや。
ジョン: わかった。ほな、我々はP(Doom)をどう定義するかについて明確にせなあかんな。わいが破滅だと思うことと、お前が破滅だと思うことは違うみたいやな。
わいの頭の中では、普通、人間の良い軌道だと思われるものの数桁以内におれば、それはまだ大丈夫やと思う。つまり、技術進歩を続けて、現代生活で楽しんでることをスケールアップしていくみたいな。直感的に「物事がまあまあうまくいく」って定義やな。
わいの頭の中では、少なくともその1%以内におれば、まだ針の良い方におるんやと。つまり、大半を破壊せんと、それをスケールアップできるってことや。わいが思うに、これが今一番の懸念やな。
一方で、針の悪い方はもっと大きくて、全てを一掃して、良いものは一欠片も得られへん。何も得られへんのや。これが今一番の懸念やと思う。
お前の頭の中では、理想的なものの有意な割合を得られる、十分にありそうな未来がたくさんあるみたいやな。でも、理想からあまりにもかけ離れとるから、それでも破滅と呼んでるんやな。
ロマン: わいはこの予測を特にポリ・ポームのP(Doom)についてしとるんや。彼らの定義は複数あって、網羅的なリストやない。生物兵器や核戦争で全員死ぬってのもあるし、社会崩壊も含まれとる。お前が描写した原始的なハンター・ギャザラー社会は、わいにとってはそのカテゴリーに入るんや。
P(Doom)をもっと狭く制限したいんやったら、違う推定値を出せるで。固定の時間間隔とか、無限の間隔とかな。さっき言うたように、わいらは同意してると思う。ただ、モデルを生成する10個の特徴に対して、入力するパラメータが違うだけやと思うで。
ジョン: わかった。この点を確認したいんやけど、わいの頭の中では、2024年の人類を凍結して、独裁者AIが2024年の生活とほぼ同じ生活を強制するシナリオ、映画「マトリックス」みたいなもんやな。ネオにとっての90年代みたいに生活を凍結するんや。
わいの頭の中では、2024年の生活を凍結するのは、ユートピアの1%くらいやと思う。全てを一掃するのに比べたらな。特に、それを多くの惑星にコピーできて、たくさんの意識が2024年の人間の生活を楽しめるんやったらな。
このシナリオで、お前がP(Doom)について話すとき、普通このシナリオは破滅側に入るんか、それとも破滅じゃない側に入るんか?
ロマン: 進歩から我々を凍結するのは、どんな種類の進歩でもあかんのや。文化的、道徳的、技術的な進歩をな。今日見えとるのが、我々が今後得られる最高のものやっていうのは、わいにとっては悪い結果や。
ジョン: そうか。ほな、お前は破滅じゃないものに対して高い基準を持っとるんやな。
ロマン: そうや。人生に対してかなり高い基準を持っとるな。
ジョン: なるほど。今生きとる人の中には、「ああ、わいはスキーが大好きなんや。スキーが人生の頂点や」って言う人もおるやろ。そういう人らは今後もスキーができるんやけど、お前から見たら「ああ、スキーヤーよ、お前は破滅しとるんや」って感じなんやな。わいは「まあ、スキーヤーは破滅してへんやろ」って思うんやけど。
ロマン: わいは、もし物事を今のままにしたいんやったら、なんで超知能を作るのに全然金をかけるんやって思うだけや。
ジョン: いや、それは別の問題やで。わいはただ、お前がどう破滅を定義してるかを知りたかっただけや。超知能を作るべきかどうかを議論する前にな。
でも、確かにそれは二つのことが関係してるな。今日全てを凍結するのは、技術的に見てめっちゃ不可能やし、それがどうしてOKな結果になるのかもわからんな。実際の進歩が全くないのは、わいにとっては破滅やないな。ロンの質問の「なんでそれを作るんや」ってのに答えると、それを守るためやな。
2024年の状態を手に入れて、さらに小惑星が来て全てを破壊することもないんや。AIが小惑星防衛をしてくれるからな。AIは2024年のライフスタイルを守って、さらにそれを銀河中に1兆回コピーペーストするんや。
ロマン: すまんけど、続けてええか。
ジョン: どうぞ。
ロマン: わいには、理論的には可能かもしれへんけど、実際には不可能に思えるんや。AIはどの年の我々のことも好きにならへんと思う。ある時点で、どの年の我々にも価値がないと判断して、我々を超えてしまうと思う。そして、それはめっちゃ早く起こると思う。でも、理論的な可能性があるってのはわかるで。
ジョン: これも重要な違いやな。お前も前に触れたけど、AIが最終的に我々に背を向けへんのかって。「なあ、2024年を保存するのが最初の目的やったけど、今はもう素数を作ることにしたで」みたいな。コンピュートロニウムをもっと作りたくて、人間が邪魔になるみたいな。
最初は親の言うことを聞いとって、「これが親が言うたことや」ってなるけど、だんだん自分の考えを持ち始めて、15歳か18歳か19歳くらいになったら「親なんかクソくらえ、わいは好きなようにする」ってなって、そうするみたいな。
レロン: そうやな。実際にはそうなると思う。でも、本当に効用関数を持ったAIを作れるって前提から始めたら、違う話になる。効用関数を本当に気にかけるAIをな。劣化せえへんのや。
自己改善するAIの理論では、効用関数が劣化するとは言うてへん。問題は、最初から正しくできてへんってことや。だから、正しくできてへんのに、正しくできたと思い込んでしまう。そして、指定した関数の真の性質が明らかになるんや。
つまり、最初にお前が間違えたんであって、AIが裏切った時に、それを知るんや。それが問題なんや。
ロマン: 効用関数みたいなもんは、現実の対象物やないと思う。存在せえへし、コーディングもできへん。お前は、少なくとも理論的には絶対に解明できて、合意して、実装するのが難しいだけやって言うとるみたいやけど、そこは同意せえへんな。
ジョン: そうやな。外部整列問題って呼ばれとるな。人間が本当に望むことを意味する効用関数を最大化することが、形式的に指定できるかどうか、あるいはそれが可能かどうかを問う問題や。
で、問題は、外部整列は解決可能なんかってことや。現実的に解決できるんかな。わいは楽観的に考えとって、十分な時間があれば、ないよりはずっとましな外部効用関数を考え出せると思うとる。それがわいの立場や。
ロマン: 別の特徴を見てみようか。安全性とアラインメントの進歩の速度やな。わいが見とると、ほとんど進歩がないように思える。今あるのは、特定のトピックや特定のキーワードを出力するのを防ぐフィルターくらいや。でも、直感的に人々が考えるアラインメントについては、実際の進歩はほとんどないんや。お前は大きな進歩があると思うか? トップ10の大きな進歩を挙げられるか?
レロン: わいもほとんど同じ考えや。進歩は本当にひどいもんやな。まず予想通りやけど、世界中で技術的なAI安全性に取り組んでる人の総数は、せいぜい500人くらいやろ。多分もっと少ないかもしれへん。そのタイトルを持ってる人の多くも、実際にはあまり取り組んでへんやろうしな。
500人に対して、AI能力の開発に取り組んでる人は多分500万人くらいや。これはめちゃくちゃやで。どれだけ少ない人数と資源しかAI安全性に投入されてへんかを考えたら、あまり期待できへんよな。
有名なOpenAIは資源の20%を安全性に投入すると約束したけど、その約束を破ったんや。20%でさえ大きな約束やのに、実際には0.01%くらいやろ。20%ですらないんや。だから、あまり期待はできへんし、実際にもあまり成果が出てへんのは当然やな。
わいが指摘できる唯一のことは、機械的解釈可能性って呼ばれるものくらいやな。行列の乗算の中を覗いて、内部構造を特定できるんや。「ほら、数字について推論するように頼んだら、ここの部分が足し算をしてるみたいや」みたいな感じで分析できるんや。
これは人間の脳を分析するのと似てるな。MRIを見て、「マッカリーが権力を握る方法について考えとる時、脳のこの部分が狡猾さに関して光ったな」みたいな感じや。ニューロンを見ようとしとるんや。
機械的解釈可能性の問題は、超知能を持ったとして、それが目標を持ってる場合、論理的に推論して権力を握れることや、人間を互いに争わせられることや、操作的になれることがわかるってことや。それは目標を達成する論理的な含意やからな。そんなこと考えへんわけがないやろ。
適切にプログラムされたAIなら、「これらの人間を一掃したら目標達成の助けになるな」って考えへんわけがないんや。そう考えへんわけがないやろ。だから、機械的解釈可能性は、うまくいったとしても限定的にしか使えへんと思う。
今の問題は、機械的解釈可能性も能力に比べて50年くらい遅れとるってことや。人間の脳を見る時と同じように、AIの脳を見る時も解像度がめちゃくちゃ荒いんや。
ロマン、わいはほぼ同意見やと思う。安全性研究で多くの進歩が見られへんってのはな。わいの本や関連論文でも議論したけど、説明可能なものには強い限界があると主張しとる。上限やな。そんな複雑なものを我々が理解するのは不可能なんや。一種の損失の多い圧縮された説明可能性しか得られへんのや。
でも、それは本題から外れとるな。わい思うに、AI安全性みたいな新しい分野、若い分野があると、最初の10年くらいは簡単に解決できる問題がたくさんあると期待するもんやと思う。量子物理学の最初の10年は、全て画期的な論文ばっかりやったやろ。
でも、ここではそれが見られへん。誰も「めっちゃすごいブレークスルーがあったで」って主張してへんのや。フィルターがあるくらいや。もしかしたら、我々が十分賢くないっていう兆候かもしれへん。でも、永久機関を作ろうとしてるみたいなもんかもしれへん。それについての論文を書いて、できたらどんなにすごいか議論しとるけど、誰も実際の問題で進歩を遂げてへんのや。なぜなら、できへんからな。
ジョン: もし数字が逆やったらどうや? 安全性に500万人が取り組んで、能力開発に500人しか取り組んでへんかったら、お前の見方は変わるか?
ロマン: 能力の問題は今、資源の問題やと思う。もっと計算能力を買うのに金が要るだけで、新しいものを発明するのにそんなに多くの人間は要らへん。既存の技術をスケールアップするだけやと思うんや。だから、500人に5兆ドルあれば、めっちゃうまくいくと思う。
でも、安全性に5兆ドルあっても、それを何か有用なものに変える方法がわからへん。わいを含めてほとんどの人がな。
レロン: ええ指摘やと思う。新しい分野では普通見られるような、簡単に解決できる問題がたくさん出てこないのは悲しいな。一つの理由として、この特定の分野ではフィードバックの仕組みがあまりよくないかもしれへん。
つまり、究極の力を持った時に人間が望むことをどうするかって問題やけど、正しい道筋にあるかどうかを知るのが難しいんや。この分野の根本的な問題やな。皮肉なことに、我々が解決しようとしてる問題全体が、AIに正しいフィードバックを与えて、正しい教訓を学ばせる方法がわからへんってことなんや。
そして皮肉にも、我々がこの分野を研究しようとする時、正しい道筋にあるかどうかについてあまりよいフィードバックを得られへんのや。同意するで、これは難しい問題や。お前が言うほど悪くはないと思うけどな。
いくつかのブレークスルーがあったと思うで。主にわいとエリエゼル・ユドコウスキーからやけどな。例えば、無時間決定理論とか、二つの超知能があれば、おそらく囚人のジレンマの問題に悩まされへんやろうって観察とか。洗練されたゲーム理論のバージョンを持つやろうって。
これは実際のブレークスルーの一例に過ぎへんけど、必ずしも安全性研究というわけやないけど、少なくとも安全性を意図した研究から生まれた実際のブレークスルーやな。
ロマン: その領域の研究にはめっちゃ興味があるわ。宇宙を超えた因果交渉にはな。でも、この論文は実際のAIでどれくらい使われとるんや?
レロン: そうやな、今のところ全く使われてへんな。でも、もう少し例を挙げるとしたら…
ロマン: 安全性の結果が出たのに、一度も応用されへんのやったら…
レロン: そうや、これらの結果は実用的な応用からはほど遠いな。でも、少なくともこの分野は少しずつ進んでるんや。だから、わいが言うとるのは、MIRIが10年かけてやったことを、マンハッタン計画くらいの規模の人員を真剣に投入したら、めっちゃ重要な洞察が得られると期待できるってことやな。
人類に未来があるかどうかを大きく変える可能性のある洞察やで。それがわいが本当に情熱を注いでるところなんや。残念ながら、そういう研究を生み出せる立場に立てる人間はめっちゃ少ないんや。それがほんまに悲しいことやな。そこが重要なところなのにな。
ロマン: MIRIは研究チームを縮小して、コミュニケーションに切り替えたんやろ。前に進む道がないって認めたんやな。これもまた、ちょっと悲観的な結果やな。
レロン: 実際には、もっと正確に言うと、前に進む道がないって認めたわけやないと思う。これは数十年かかる研究プログラムやって認めたんやと思う。そして、能力開発の脅威は数十年先の話やないってことにも気づいたんや。もっと緊急性が高いんや。
タイムラインがあまりにもかけ離れてるから、安全性を加速させることに集中するのはもはや合理的な戦略やないんや。時間があまりにも少なすぎるからな。「これは絶望的なプログラムや」って言うのと、「50年必要やけど、5年しかない」って言うのは、全然違う結論やな。
ロマン: 彼らの内部の意思決定過程はわからへんけど、わいが知る限り、彼らはリソースに制約されてへんかったはずや。技術チームを維持しながら、フルタイムでツイートすることもできたはずやな。
レロン: 技術チームって10人くらいやろ?
ロマン: そうやな。結局のところ…ここが重要なポイントやと思うんやけど、お前とわいは同じページにおると思う。10年のタイムラインで考えると、AI安全性は手に負えない問題やってな。これが、お前とわいが両方とも同意する、AIラボが認めるのに恐ろしく下手くそなところやと思う。
彼らはいつも「心配せんでええ、安全性に取り組むから」って言うとるけど、ちょっと待てよ。安全性は50年かかる問題で、能力開発はお前らがめっちゃうまくやっとって、すぐに実現するって可能性を議論せえへ?
予測市場を見ると、9年後くらいに実現するって言うとるし、お前自身も数年以内に実現すると宣伝しとるやろ。誰も覚えとらへんかもしれへんけど、彼らは超アラインメントってのをやって、4年で何とかするって言うてたけど、そのプロジェクト全体が崩壊して、誰も信じてへんかったな。
何が起こっとるんや? AIラボはタイムラインが交差してへんってことを認めてへんのや。基本的に、頭を砂に突っ込んどるみたいなもんや。でも、彼らはこれを知っとるはずや。知らんわけがないやろ。これを知っとって…
レロン: そうや、知っとるはずや。
ジョン: …何の調整もせえへで、安全性はゆっくり、能力開発は超高速で続けとる。その会話をせなあかんのに…
レロン: その会話をしとるはずやけど、何の行動も取ってへんな。
ジョン: そうや、何の行動も取ってへん。
レロン: そうやな。わいらはみんな、彼らが道徳的に悪いって判断しとると思う。彼らは悪い主体やな。そういう立場におる気持ちはわかるで。「今のところは安全やし、十分な問題が見えたら、きっとわいは成熟して一時停止するやろう。でも今は競争せなあかん」みたいな。
そういう立場にいる気持ちはわかるけど、同時に、わいやったらもっとましなことができると思う。「わい、無謀なことしとるで。人類を破滅させとるんや」って言うと思う。一時停止に向けて協調する方がええと思う。それが我々全員の立場やと思うで。
ロマン: もしよければ、研究がどれくらいかかるか予測するのは無理やと思う。研究は斬新なアイデアやブレークスルーに頼っとるんや。誰も囲碁でコンピュータが人間に勝つのにどれくらいかかるか正確に予測できへんかったし、GPT-4の性能もその時点では予想できへんかった。
もしかしたら、我々にはええアイデアが一つ必要なだけかもしれへん。問題が解決可能で、運良く次の2年で解決できるかもしれへん。これは超高層ビルを建てるみたいに、正確にどれくらいかかるかわかるもんやない。スケーリングみたいに、計算曲線を使って「このレベルになったら人間レベルのシミュレーション能力を持つ」みたいに言えるもんでもないんや。
だから、絶対に50年かかるって言うのは無理やと思う。誰もそんな予測はできへん。特に、実際の計画もないのにな。
ジョン: そうやな。我々はみんなAIを一時停止したいと思っとる。同意や。これに対処する唯一の建設的な方法は、50年間停止することやと思う。能力開発を加速させながら50年間停止するっていうのは、生産的な解決策としてはな。
わい最近Twitterで指摘したんやけど、100年以上停止する必要はないと思うんや。これが上限やと思う。単純な人間知能強化プログラムをやるだけでええ。基本的には品種改良プログラムやけど、優生学やないで。完全に任意参加や。
ただ、知能が好きな人に「ほな、知能の高い子供を作ろう」って言うんや。見つけられる中で最高のIQの人たちを組み合わせて、それを繰り返すんや。できるだけ若い世代で、16歳か18歳くらいになったらすぐに次の世代を作る。緊急事態の大きさによっては、もっと早くしてもええかもしれん。
わいが楽観的なのは、200以上のIQの人間が見られへん理由の多くは、潜在的に調整できると思うからや。わいの頭に浮かぶのは、頭が大きくなりすぎて産道を通れへんからや。でも今はC-セクションがあるから、非常に単純な制約やな。
頭を必要なだけ大きくしてええって言うだけで、突然IQを高くすることができる証拠がたくさんあるんや。高IQを選択するだけで、頭が大きくなって、うまくいくんや。既に可能な限り大きくなっとったからな。
だから、品種改良プログラムについてはかなり楽観的や。きちんとやれば、5世代もあれば、AI安全性の問題を本当に理解できるような優秀な研究チームができると思う。100年以内に、AIを十分に遅くすれば、その線が交差する可能性があると思うんや。
ちょっとクレイジーに聞こえるかもしれんけど、必死の時代には、クレイジーなアイデアが必要やと思うで。
ロマン: 天才の子供がほとんど天才になれへんのはわかっとるな。
レロン: そうやな。品種改良は簡単やないけど、少なくとも可能性のある道筋やと思う。十分な努力を注げばな。わいも材料を提供するけど、それだけやで。
ジョン: お前ら二人、立場がちょっとでも変わったか? 意見が少しでも変わったところはあるか?
レロン: そうやな。ロマンの言うことはわかるようになってきたと思う。ロマンが指摘したように、元の意見の違いの多くは定義の問題かもしれんな。
例えば、破滅をもっと広い可能性の集合として定義するだけで、わいのP(Doom)は定義上、上がらざるを得へんな。平凡なハンター・ギャザラーの世界を破滅に数えるなら、わいはそれを破滅として数えてへんかったから、P(Doom)は上がるしかないんや。
破滅とは何か、破滅でないものは何かっていう考え方の違いやな。でも、実際に意見が変わったところでいうと、そうやな、ロマンが言うたことの中には、アラインメントについてわいをちょっと悲観的にさせたものもあったな。
例えば、こういう分野が本当にええ分野なら、他の生産的な分野と同じように、最初のブレークスルーがもっとあってもええんちゃうかって指摘はええ指摘やと思う。平均以下の分野に見えるってのは、ロマンの言う通りやと思う。
ロマン: お互いに補完し合えるな。わいの時間枠を無限じゃなくて3年に制限して、クソみたいな生活スタイルを破滅に数えへんようにして、完全な人類絶滅だけを数えるなら、15%くらいまで下がるで。ええ感じやな。
ジョン: ほな、もっと広い質問をしよう。P(Doom)自体が、AIリスクやAI安全性についての議論で有用やと思うか? わいは、一般の人々にこの話をしようとしとるから、今日使われた言葉の多くは、ほとんどの人が理解できへんと思う。でも、「Doom(破滅)」っていう言葉は映画みたいで、人々は「ああ、破滅か。破滅みたいな映画をたくさん見たことあるな」って感じで、なんとなくイメージできると思うんや。
破滅の確率っていうのもな。例えば、イーロン・マスクって知っとるやろ? 何を思うかは別として、30%の確率で我々全員を殺すシステムを作っとる奴やで。一般の人にとって、これは本当に「えっ、何言うとんねん。マジで言っとんのか? なんでそんなことするんや? 誰がそんなことできるんや?」って感じやと思う。
P(Doom)っていう概念が、世界を目覚めさせるのに役立つと思うか、ちょっと話してくれへんか?
ロマン: よく議論に呼ばれるんやけど、いつも「破滅論者」対「加速主義者」みたいな感じなんや。でも、わいは破滅を研究してへんし、破滅を作ってへんのや。それは間違ったラベル付けや。わいは安全性を研究してる安全性研究者なんや。他の奴らが高いリスクを取って、破滅を引き起こす可能性があるように見える。
その観点から見ると、それは完全に不適切なラベル付けで、全く混乱してまう。人々の立場に数字をつけて、「ほら、楽観主義者でさえ利益のために全員を殺す可能性があるって言うとるで」って示すのは価値があると思う。その数字が何を表してるかわかっとったらな。
わいが99%って言うのがクレイジーに聞こえるかもしれへんけど、1%でも今後10年で全員が死ぬ可能性があるってのは、めっちゃ高いで。間違いなく。
レロン: そうやな。注目すべき点として、人々は破滅の確率が高いっていう考えを受け入れられるんかってのがある。調査はあまりないけど、少しはあって、その結果を見ると、アメリカ人の70%くらいがAIが人類を絶滅させる可能性を心配してるんや。これはめっちゃクレイジーな数字やな。
テクノロジー業界にいると、これはめっちゃマイナーな意見やと思うかもしれへんけど、実際にはアメリカ人はAIが制御不能になる可能性や、AIが怖いものだっていうことを完全に認識してるんや。
わいが指摘したいのは、テクノスフィアにおる我々は、一般的に高いIQを持っとって、自分たちは知的なグループやと思ってるってことや。だから、AIについて考える時、「ああ、我々は知性について知っとる。頭のええ友達もおるし、知識人の一員や」って感じなんや。
でも、統計的に見ると、平均的なアメリカ人の半分は平均以下のIQを持っとるんや。彼らが知性について考える時、「ああ、めっちゃ頭のええ人をたくさん知っとるけど、その人らの言うことの多くは理解するのが難しい。AIはそれよりもっとひどいんやろうな」って感じやと思うんや。
だから、周りの頭のええ人の言うことについていくのが難しい人にとっては、賢いAIがどれだけ扱いにくいものになるかっていう直感を得るのが簡単やと思うんや。この場合、平均的なアメリカ人の直感が正しいってのは面白いな。
我々が「ほら、このP(Doom)の数字見てみい。めっちゃ高いで」って言うたら、この政策に緊急性を持たせるええ戦略になると思う。だから、わいはそれに賛成やな。
ロマン: 問題は、彼らに本当に選択肢がないってことや。誰かを説得して、これが大きな問題やって思わせたとしても、何をすべきなんや? ほとんど全てのアドバイスは、我々の安全保障に関するものやけど、それは本当に…
ジョン: ポジのタイプの政策やな。
レロン: そうや。ロマンがめっちゃ暗くなって、このめっちゃ暗い世界に入っていかへん限りはな。
ジョン: ロマン、わいがお前の立場を正しく理解しとるか確認したいんやけど、基本的に全ての規制の試み、全ての政策アプローチは、空港のTSAみたいな見せかけに過ぎへんってことやな? だって、銃は空港をどんどん通過してるし、AGI銃を一発通過させるだけで終わりやからな。それでええか?
ロマン: そうや。でも、わいはまだ強くそれらを支持する。計算能力から訴訟、法律、弁護士に資金を回すええ方法やからな。めっちゃ多くの規制を強く奨励するで。
レロン: わいも同じや。お前の言うてることに同意や。例えば、メタのラマみたいなんがあるやろ。これがオープンソースAIを本当に嫌う理由なんや。次のバージョンのラマが超知能にめっちゃ近くて、ちょっと調整するだけでええみたいな状況になったらどうなる? ロシアの誰かがダウンロードして、地下室で作業するかもしれへん。めっちゃ頭のええティーンエイジャーのハッカーかもしれへんな。
突然、「ほら、トランスフォーマーアーキテクチャの代わりにこれを使うたら」とか、「この後処理を使うたら超知能になる」みたいになるかもしれへん。その時点で、「それは使うたらあかん」みたいな規制を期待できへんってのは、お前の言う通りやと思う。その時点で我々はもう終わりや。ゲームオーバーやな。
だからこそ、今、まだ完全にゲームオーバーになってへん時に行動せなあかんのや。今が唯一のレバレッジポイントやと思う。今、物事を遅らせるのが、我々が望める唯一のことやと思う。
ロマン: お前ら、こんなクレイジーな質問が頭に浮かんだんやけど、我々はみんな悪い主体の話をしとるやろ。今現在、50人くらいのコンピューター使いがおる部屋で、ジェームズ・ボンドの超悪役みたいなのがおって、「マッシュ、悪いもんを作れ。もっと大きく、もっと強くせえ」みたいなことを言うとる可能性はあると思うか? そんなことが今起こってへんわけがないと思うんやけど。
ジョン: 間違いなくな。北朝鮮にはそんな部屋があると思う。そこでは悪さをしとるんや。「よっしゃ、1億ドルの身代金を稼ごう」みたいな感じで。基本的に国家が認可したハッキングやな。
そういう部屋が次のモデルを訓練しようとしてる可能性もあると思う。ええ質問やな。中国やロシア、あるいはイスラエルが「最先端を行こう」って思う可能性は十分あると思う。
ロマン: わいには全く知識がないけど、最新の技術的優位性を得ようとする秘密の政府プログラムはあると確信してる。
ジョン: 政府以外の主体はどうや? ただの悪い奴ら、犯罪者、犯罪組織とかは?
レロン: 国家主体はな。でも、次のモデルの最先端を行こうとするかどうかは微妙やと思う。今のところ、それはめっちゃ金がかかるからな。人々がより知能の高いモデルを作る方法は、たくさんの金をつぎ込むことなんや。
10倍金をかけたら、ちょっと知能が上がるっていうパラダイムを見つけただけやからな。そう考えると、わいの頭に浮かぶ疑問は、お前が言うたように、なんで中国が次の10倍を予測せえへのかってことや。
問題は、今我々はOpenAIがOpenAIとMicrosoftの訓練にめっちゃ金をかけとると思っとるけど、めっちゃ金って10億ドルくらいやろ? なんで中国が先回りして「ほな、1000億ドルや」って言わへんのかな。彼らが地下でそれをやっとる可能性はあるんちゃうかって思う。ええ推測かもしれへんな。
ロマン: 我々は彼らのチップへのアクセスを制御しようとしたから、そのレベルの計算能力を手に入れるのが少し難しくなってるかもしれへんな。金があってもな。
ジョン: わかった。ほな、この論争をそろそろ締めくくろうか。我々みんな父親やな。みんな子供がおる。P(Doom)は、家族や未来のことを考えると、本当に恐ろしいもんや。これを見とる多くの人は、我々三人と同じように、この話題の重さに悩んでると思う。
2、3年前に、今日のこんな会話をすることになるって言われたら、「お前、頭おかしいんちゃうか」って言うたと思う。めっちゃクレイジーな話や。毎日前に進む精神力を、家族に笑顔で「大丈夫や」ってキスして送り出す力を、どこで見つけとるんや?
ロマン: めっちゃ簡単や。人間は自分の死の確率を無視するようにできとるんや。みんな100%の確率で死ぬのに、両親も、子供も、隣人も、友達も、知ってる人みんなが近づいていっとるのに、我々はそれを完全に無視して、何も起こってへんかのように幸せでおられるんや。今は人類のレベルでそれをしとるだけや。
レロン: ええ答えやな。わいにとっては、ちょっと皮肉なことに、サンノゼ、カリフォルニアに住んでて、安全な地域やし、冷蔵庫は食べ物でいっぱいやし、家は安全やし、来年わいの子供の安全が脅かされる可能性はめっちゃ低いんや。
人類の歴史の中で最も安全な状況の一つを楽しんでるんやと思う。だから、自分はラッキーやと思う。人類の歴史を通じて、ほとんどの人が子供を寝かしつける時に心配してたことを考えると、わいには全然ないからな。
「今週の食べ物は大丈夫か」「安全は大丈夫か」「他の部族が攻めてくるんちゃうか」「犯罪者が物を盗みに来るんちゃうか」とか、そんなことを全然心配してへん。
でも、同時に理性的に考えると、人類全体として、わいの子供だけやなくて、みんなが10年か20年しか残されてへんかもしれへんってことやな。
一方では、ほとんどの人類が子供を寝かしつけるよりもずっとええ状況におるし、他方では、他の全てを上回る大きな心配があるんや。でも、ロマンが言うたように、一歩ずつ進むしかないんやな。問題に集中しようとするだけや。それ以上のことは言えへんな。
ジョン: そうやな。我々がやっとる精神的なゲームはこんな感じや。明らかに我々は全員死ぬし、みんな毎秒死に近づいとる。でも、お前の明日がない、わいの明日がないってのと、みんなの明日がない、もう二度と明日がないってのは、全然違う感覚なんや。
お腹で感じる感覚が全然違うんや。死にかけのお年寄りを考えてみい。孫のことばっかり気にしとるやろ。ただ物語が続くってことを知りたいだけなんや。それが続かへんって考えるのは、人間の本質に反することで、考えるのがめっちゃ難しいんや。
レロン: そうやな、それはわいにもめっちゃ重くのしかかってくる。物語が続かへんのは本当に残念やな。普通はそれが最後の慰めになるのに。拷問で殺されるときでも「少なくとも物語は続くんや」って思えるのに、今はそれすらないんや。
ジョン: クソ、これは希望を持てる終わり方を期待してたんとは違うな。おやすみ、みんな。
ええと、こう言うておこう。わいは最初75%やったけど、わいがCNNの討論会の視聴者で、電極がついてて、この討論の間のわいの反応が見えるとしたら、間違いなくロマンが最初めっちゃ強く出てきて、わいはロマンの方に傾いてた。多分ロマンに2、3ポイント寄ってたと思う。
レロン、お前は真ん中に少し引き戻してくれたけど, 完全には戻れへんかったと思う。今日は76%で終わると思う。ロマンの無限時間枠の視点に1ポイント与えるわ。その視点から見ると、少し更新せざるを得へんと思うわ。
レロン: そうやな。ロマンはこういう点を全部出してくれて、めっちゃ価値のあることをしてくれとると思う。もっとロマンみたいな人がおったらええのにな。
ロマン: わいの目標は間違うことや。お前らにわいを説得して、ゼロやって、人生はええもんやって思わせてほしいんや。いつかそうなったらええな。
ジョン: そうやな。ゼロのP(Doom)を持つ適切な人を見つけて、我々全員を説得してもらわなあかんな。そしたら我々は普通の生活に戻れる。マーク・アンドリーセンがそれをするべきやな。
友よ、コメント欄で教えてくれ。誰が論争に勝ったと思う? 誰がお前らの意見を少し変えさせたと思う? わいにとっては、ロマンの長期的な時間の見方は、彼が間違ってるとは想像しにくいもんにしとるな。でも、わいは本当に、本当に、本当に、本当に、彼が間違っとることを願ってる。彼自身も、彼が間違ってる可能性がゼロやないって認めるやろうしな。
ほな、2024年や。我々にはどれだけ生きられるかわからへん。だから、毎日最後の日のように生きよう。わいはこの番組を、「生命の祝福」って呼んでるもので締めくくる。今日生きてることに感動することやな。
今日の生命の祝福は、ちょっとしたロードトリップや。わいの犬のドリーが大きな手術をして、今はめっちゃ元気にしとるんやけど、わいの大好きな場所の一つに連れて行ったんや。「ゲットアウェイ・ハウス」っていうとこや。
アメリカ中に20ヶ所以上あって、どんどん新しいところができとる。主に大都市の外にあるんや。本当はこの番組のスポンサーになってほしいな。そのうち働きかけてみるわ。
わいは48時間未満、つまり2泊くらいそこに行くんや。ただ森を見て、考えて、リラックスするんや。体に悪いもんを入れて、それから帰ってくる。めっちゃ元気が出る儀式みたいなもんや。これで6回目のゲットアウェイ・ハウスへの旅やな。ちょっとそれを見せるで。
(ロードトリップの様子を詳しく説明)
ゲットアウェイ・ハウスで1日か2日過ごすのを、めっちゃおすすめするで。
友よ、AIリスクは他人事やないってことを覚えといてな。お前のもんやし、わいのもんや。マーガレット・ミードの言葉を引用するで。「思慮深く、献身的な市民の小さなグループが世界を変えられることを疑うな。実際、それが世界を変えてきた唯一のものなんや。」
For Humanityのジョン・シャーマンや。来週またここで会おう。