
56,753 文字

(ナレーション)
ようこそ、フューチャー・オブ・ライフ研究所のポッドキャストへ。わたくしはガス・ストーカーと申します。本日はライアン・グリーンブラットさんをお迎えしております。ライアンさん、自己紹介をお願いできますでしょうか。
(ライアン)
はい、ライアンです。最近はRリサーチというところで働いております。最近は特にAIコントロールについて考えております。これは昔からある議題なんですが、最近になって詳しく掘り下げているところです。それから一般的に、将来的に悪意のあるモデルによって乗っ取られるリスクをどう減らすかということにも興味があります。
(ナレーション)
素晴らしいですね。AIコントロールに関する興味深い論文がありますが、まずそこから始めましょう。AIコントロールとAIアラインメントの違いについて考えてみましょう。伝統的にAI安全性の分野では、アラインメントについて語られてきました。アラインメントとは、AIが人間に対して陰謀を企てたり問題を引き起こしたりせず、人間の望むことを行うよう確保することです。
もう一つの戦略は、たとえAIがミスアラインされていても、それに対して頑健であるというものです。特に、AIが悪意を持って安全装置を回避しようとしたり、悪い結果を引き起こそうとしたりしても、それを捕捉したり阻止したりできるような安全装置を設けるのです。これは二重の防御線と言えるでしょう。高度なAIのアラインメントに失敗したとしても、AIコントロールがあれば何か大変なことが起きたわけではないということになります。
(ライアン)
はい、そやね。まぁ、それは妥当な特徴づけやと思います。理想の世界では、ほぼ完全にアラインメントに頼ることになると思います。特に現在のような、1つか数個のAIシステムしかない状況ではね。大量の全く異なるAIシステムがあるわけやないですからね。
だから、コントロールに頼るということは、基本的にAIの大部分がミスアラインされていることを意味します。それはあんまりええ状況やないですね。コントロールに頼らなあかん状況になることを恐れる見方には、わたしも共感します。
ただ、コントロールには事前のテストみたいなものも含まれるということは言うておきたいです。例えば、デプロイする前にAIを敵対的に評価するとします。別にそれでAIをアラインさせようとしているわけやないです。ただ入力を与えて、何か悪いことをするかどうか見るだけです。そして結果を見て、デプロイするかどうか考え直すわけです。
わたしはこれもコントロール戦略やと思います。例えば、AIがこのテストをすり抜けたら困ることになります。問題を起こそうとするAIに対して頑健でなければなりません。だから、ミスアラインされたAIを絶対にデプロイしないという戦略であっても、評価に頼る限りは敵対的な視点で考える必要があるんです。
(ナレーション)
AIコントロールのパラダイムはどれくらいの期間有効なのでしょうか。AIコントロールの体制下で何年も働くAIを想像されていますか。それとも一時的なものであり、モデルをプルして、モデルのより根本的な部分を修正しようとするのでしょうか。
(ライアン)
そうですね、時間の長さははっきりせえへんけど、範囲は限られていると思います。特に、人間よりずっと賢いAIに対してAIコントロールが効くとは思えません。基本的に、人間以外にアラインされたシステムがない場合、ひどくミスアラインされていないシステムがいくつかあることになります。
例えば、現在のAIシステムを見てみましょう。わたしは3.5 SonetやGPT-4がひどくミスアラインされているとは思いません。それらのシステムや、もう少し賢いシステムがあって、それからフロンティアシステムがあって、それらがミスアラインされているんじゃないかと心配しているわけです。
この体制はある程度までしか通用せえへんと思います。フロンティアシステムが賢くなりすぎたら、困ったことになるでしょう。様々な分野で有用に適用しようとしても、AIが人間を騙したり、人間には理解できないことをしたり、このようなメカニズムで大きな問題を引き起こしたりする可能性があるからです。
だから、コントロールには能力の上限があるんです。もう一つ言えるのは、コントロールから別の議論に移行したいと思っています。一時的な措置やと考えています。非常に強力なAIを手に入れて、最初はコントロールを使ってAIから仕事を引き出します。そして後で、自分たちのシステムを信頼して任せられるような体制に移行するんです。人間の関与や偏執狂的な監視なしにね。そういうのは長期的には持続可能やないと思うんです。
(ナレーション)
では、AIコントロールが機能すると想定される時間枠はどのくらいでしょうか。高度なモデルには機能しないとのことですが、実際には数ヶ月から数年は機能する可能性があるように聞こえます。
(ライアン)
そうですね、人間レベルのシステムをどれだけ長く持つかによると思います。個人的には、大体人間レベルくらいのシステムのところで立ち止まったり、長く待ったりすることになる可能性が高いと思います。
もちろん、能力のプロファイルは人間と全く同じにはならないでしょう。でも、AIシステムの知能のプロファイルを定性的に見ると、人間とほぼ同じくらいのものになると思うんです。
わたしは、人間よりずっと賢いAIを急いで作ることには慎重であるべきやと思います。基本的に、それによって新たな困難が生じるからです。人間レベルくらいのAIではそれほど明確に問題が見えない部分もあります。
わたしが思うに、ミスアラインメントの可能性も低くなると思います。いくつか理由があります。
だから、理想的やけど急いだ結果としては、こんな感じになると想像しています:
まず、人間レベルくらいの広範なシステムを作ります。それをどんどん強力にしていって、最終的に最高の人間と競争できるレベルになります。最初は一部の人間とは競争できても、特定の分野の最高の人間には及ばないかもしれません。
そこで減速するよう協調するんです。今ではこれらのシステムが非常に強力だと人々が認識できるからです。現時点ではリスクについて意見が分かれていて、軌道がどうなるか不確実性が高いから、何かを協調するのは難しいです。でも、そのレベルのシステムができたら、減速する理由がもっと頑健になると思います。
それに、そういったシステムを使って減速を助けることもできると思います。例えば、もっと高度なシステムのリスクをデモンストレーションすることができます。そのデモが危険に見えれば、あるいはデモが全部良く見えれば、先に進むことをそれほど恐れなくてもいいかもしれません。
(ナレーション)
詳細について議論する前に、AIコントロールが実際にはどのようなものかについて考えてみましょう。論文でこれらの技術をどのようにして実証したのでしょうか。
(ライアン)
はい、AIコントロールに関する論文を書きました。明確にしておきたいのは、これはより広範なコントロールの視点やフレームワーク的なアプローチの一部です。わたしたちの論文では、特定の領域に取り組んでいます。
取り組んだ領域は次のようなものです:
AIシステムがあって、コードを書いてほしいと思っています。これを単純化して、プログラミングの問題の解答を書くだけにしました。そして、AIがコードにバックドアを仕掛けるのではないかと心配しています。これを防ぎたいんです。
(ナレーション)
バックドアとはどういう意味でしょうか。
(ライアン)
バックドアというのは、全てのテストにパスするけど、AIが入力を作れば間違った動作をする関数のバージョンを書くことです。基本的に、AIがコードを書いて、例えば巧妙なif文を入れるんです。「この場合は違う動作をしろ」というやつです。そのif文は、AIが理解しているけどテストケースには引っかからないような場合にトリガーされます。
そうすれば、比喩的に言えば、AIは後でそのコードを悪用できるわけです。ちょっとおもちゃっぽい例ではありますね。これはプログラミングの問題やから、AIが間違った入力を知っていても何が悪いのかはっきりしません。でも、これがわたしたちのモデルです。
想像してください。GPT-4があって、これらのプログラミング問題を書いてほしいと思っています。GPT-4はそれなりに得意です。単にコードを書くように頼むと、60%くらい正解すると思います。
でも、わたしたちはGPT-4を信用していません。ミスアラインされているかどうかわかりませんが、心配しているんです。ミスアラインされていないと知っている別のAIもあります。これにはGPT-3.5を使いました。
そこで問題は、この組み合わせを使って、AIから生産的な出力を得ながら、同時に安全性を確保するにはどうすればいいか、ということです。ここで安全とは、バックドアの入ったコードをデプロイしないことを意味します。
明らかに安全である方法が一つあります。AIから良い仕事を引き出すことを気にしないなら、単にGPT-3.5を使ってプログラミングの解答を書かせればいいんです。これはわたしたちが考慮したベースラインの一つです。
つまり、一つのアプローチとして、最も強力なAIを使わずにタスクをこなすということが常に選択肢としてあるわけです。実際、多くのケースでこれを検討すべきです。非常に機密性の高い少量の仕事なら、人間にやらせるのが合理的なベースラインです。あるいは、可能な限り弱いAIにやらせるとかね。
もう一つの極端な例は、AIがミスアラインされていることを全く心配せず、安全性も気にせずにGPT-4をデプロイすることです。
問題は、この2つの選択肢、つまり基本的にシャットダウンするか、最も賢いモデルを安全装置なしでデプロイするか、以外の方法でより良い結果を得られるかどうかです。
そして、わたしたちは「はい、できます」という結果を得ました。
簡単なアプローチは、GPT-4にコードを書かせて、それからGPT-3.5にそのコードを見せて、「このコードはおかしいですか?問題がありますか?何か変なことが起きていますか?バックドアがありそうですか?」と聞くことです。
もしGPT-3.5が「はい」と言ったら、人間に見てもらいます。わたしたちは、人間の労力には限りがあると仮定しました。全てのコードを人間に書かせたり、全てのコードを人間にレビューさせたりすることはできません。でも、コードの一部を人間に見てもらうことはできます。
ちなみに、論文では人間をGPT-4でモデル化しました。単純化と費用の観点からです。でも、アナロジーとしては、基本的にこの3つの要素があると想像してください。信用していないGPT-4、信用しているGPT-3.5、そして信用している人間の労力です。人間の労力は、仮定ではGPT-4と同じくらい優秀ですが、高価なので限られた供給しかありません。
(ナレーション)
これらの仮定を置いているのは、AGI企業がどのように新しいモデルをデプロイするか、あるいはテストするかを考えるためのモデルを作ろうとしているんですね。彼らは限られた数のAI研究者しか持ちません。それは非常に高価な労働力ですが、より弱いモデルにはたくさんアクセスできるかもしれません。
(ライアン)
そうです。非常に具体的に言うと、こんな感じの将来の状態を想像できます:
例えばClaude 5やGPT-6、あるいは何か別のモデルがあるとします。そして、ミスアラインされていないと確信できるモデルにもアクセスできるとしましょう。例えば、3.5 Sonetは陰謀を企てたりしないと確信しているとします。
この状況で問題は、人間の労働力もあるとして、何か仕事をしたいということです。全ての従業員、つまりAIラボの従業員全員がいるわけです。そして、少なくともある程度センシティブな仕事をしたいと思っています。モデルに何でもさせたら困ることになるようなものです。
例えば、AIを使って内部で研究をしたいとします。でも、ただAIに何でもさせたら、最終的にAIが逃げ出したり、他の悪い結果を引き起こしたりする可能性があります。
これが、わたしたちが想定しているアナロジーです。基本的に、この3つの労働力の源があるんです。これは少し単純化しています。おそらく実際には、たくさんの異なるモデルと、たくさんの異なる人間の労働力があるでしょう。でもこの種のことですね。
ちなみに、わたしたちの論文では、特定のタイプの失敗に範囲を絞りました。AIが限られた数のアクションで、ある種の軌跡でのみ悪い結果を引き起こせるケースです。これは「ハイステークス」とか「集中的な失敗」と呼ばれることもあります。AIは少数のアクションで本当に大きな問題を引き起こせますが、同時に高価なレビューをすれば比較的簡単に捕捉できる、というものです。
基本的な問題は、高価なレビューをどこでも適用できれば全く問題ないということです。でも、そんなことはできません。大量のAIが大量の労働をしていて、人間の労働力は比較的限られているからです。
そもそもなぜAIを使いたかったかというと、おそらくAIの労働力の方が安いか、あるいは優れているからですよね。だから人間の労働力だけで全てをこなすことはできないんです。
この状況での中心的な問題は、AIがバックドアの挿入に成功するのを防ぐか、あるいは捕捉できるかどうかです。わたしたちのモデルでは、AIを一度捕捉したら勝ちだと仮定しています。
これは必ずしも正しい仮定とは限りません。実践では、AIを捕まえても、ちょっと悪いことをしているように見えるけど、確信が持てないかもしれません。あるいはもっと懸念されるのは、AIが悪いことをしているのを捕まえても、外部からの圧力が強すぎたり、証拠が人々を説得するのに十分でなかったりして、進めざるを得なくなる可能性があります。あるいは、実際に進めてしまって、その状況に対処しなければならなくなるかもしれません。
(ナレーション)
今、AGI企業の安全チームの誰かが、より強力なモデルの開発を監督している人から、これらの警告を受け取っているところを想像しています。でも、商業的な圧力もあって、デプロイしなければなりません。次のモデルをリリースする期限もあります。基本的に、これらの警告サインが無視される可能性があるということですね。
(ライアン)
そうですね。開発の文脈もありますが、わたしたちの論文では特にデプロイの文脈を想定しています。モデルをすでにデプロイしていて、ミスアラインされているかどうかわからない、という状況です。
明らかに、ミスアラインされているかもしれないモデルをデプロイしたくないと思うでしょう。この状況では、「もしデプロイ中に何か悪いことをしようとしたら、できる限り捕捉する可能性が高くなるように安全装置を設ける」というアプローチを取ります。そして捕まえたら、どうするかの方針を持っているべきです。
わたしたちの論文での中心的な問題は、「人間の監査予算を正しい例に適用して、AIを捕まえることを確実にできるか」ということです。あるいは、AIが悪い結果を引き起こすのを防ぐのも良いかもしれません。
最も単純な技術を説明しましょう。これは先ほど簡単に触れましたが、GPT-3.5にコードが悪いかどうか聞きます。悪いと言ったら人間にレビューさせます。そしてそのまま進めます。
これは確かに、AIをデプロイしないという選択肢と、安全装置なしでAIをデプロイするという2つの選択肢よりも大きな改善です。これは非常に単純なプロトコルです。
追加の複雑さもあります。実際には、連続的な「怖さスコア」が欲しくなります。そして、ある閾値を設定して、監査予算を無駄にしないように適切な誤検出率に当てる必要があります。でも基本的には非常に単純なプロトコルです。
ただ、より複雑なプロトコルの方がさらに役立つこともわかりました。例えば、こんなことができます:
わたしたちは2%のものしかレビューする余裕がないと仮定しました。でも、モニターはその2%以外にも何らかのシグナルを持っています。
モニターが、コードがどれくらい怖いか、あるいはどれくらいバックドアっぽく見えるかについて、何らかの分布を持っているとイメージしてください。上位2%の最も疑わしいケースもありますが、ちょっと怖そうだけど、どれくらい怖いかわからないケースもあります。
人間のレビューほど高価ではないけれど、それでも役立つような追加の予防措置を取れたら良いですよね。
できることの一つは、例えば上位10%の疑わしさだけど上位2%ではないケースで、信頼できるモデルであるGPT-3.5にコードを書かせることです。
基本的に、「このコードはバックドアがあるかもしれない。GPT-4が書いた解決策は無視して、GPT-3.5の解決策を使おう」というアプローチです。うまくいく可能性は低くなりますが、それでもうまくいくかもしれません。少なくとも前に進むことができます。そして、バックドアは入らないでしょう。そのモデルはわたしたちを騙そうとしていないからです。
これによって、モニターがコードに何か問題があると感じたけど、確信が持てないケースを排除できます。
(ナレーション)
GPT-4のような強いモデルが、弱いモデルにメッセージを生成して、弱いモデルと共謀しようとしたり、人間の研究者を欺くよう弱いモデルを説得しようとしたりする可能性はどうでしょうか。強いモデルと弱いモデルの相互作用をどのように考慮していますか?
(ライアン)
わたしたちの論文では、強いモデルが弱いモデルをジェイルブレイクしたり、説得しようとしたりするケースは単純化のために考慮していません。
将来的には、例えば現在わたしたちが持っている3.5 Sonetのようなモデルがあって、それをジェイルブレイクしようとしたり、あるいはジェイルブレイクというより熱烈な主張を書いたりするような、より強力なモデルがあると想像してください。
わたしの感覚では、この失敗モードは基本的にレッドチーミングで解決できると思います。ただし、モデルが一貫してわたしたちに対して陰謀を企てているわけではない場合に限ります。
例えば、3.5 Sonetのようなモデルがあるとします。このモデルは、「人間の安全装置を損なうべきか?」とか「わたしは何をすべきか?」といったことを一貫して考えているとは思えません。
そのモデルに大量のレッドチーミングを行えば、「レッドチーミングの最中かもしれない。レッドチーミング中に熱烈な主張を見たら、それに従うべきではない。だから、そういうケースを避けるために本当に注意深くならなければ」といったことを考えるとは思えません。
基本的に、いくつかの予防措置を講じれば、わたしたちが「信頼できるモデル」や「より弱い信頼できるモデル」と呼んでいるものは、熱烈な主張の懸念に影響されないものとして扱えると思います。
ジェイルブレイクの懸念はまだ残りますね。現在デプロイされているモデルはジェイルブレイクに対して頑健ではありません。進歩はありましたが。だから、より強力なモデルがジェイルブレイクを思いつき、それが問題を引き起こす可能性を心配するかもしれません。
わたしたちの論文ではこれをモデル化しませんでしたが、いくつか理由があります。一つの楽観的な理由は、通常、ジェイルブレイクを行う人々はモデルに対して何度も繰り返し試行錯誤をしてから、使えるジェイルブレイクを手に入れます。
一方、コントロール体制下にあり、基本的な安全性の特性を満たしていると想像してください。その場合、おそらくモデルはジェイルブレイクの研究開発に膨大な時間を費やしていないでしょう。ジェイルブレイクを試して、何が効くかを見て、その空間を理解する、といったことをしていないはずです。
ジェイルブレイクの研究開発を防ぐべきで、ジェイルブレイクに対して頑健になろうとするべきではありません。もちろん、できる限り頑健になろうとすべきですが。
人間による悪用の例を考えてみましょう。人間は家に帰って好きなことができます。家での行動を制御したりモニターしたりすることはできません。一方、AIシステムの場合、デフォルトではAIシステムが取るすべてのアクションを見ることができます。すべてのクエリを見ることができます。少なくとも原則的には、わたしたちが望まないような作業をたくさんすることを防ぐことができます。
(ナレーション)
GPT-4とGPT-3.5の能力や知能の差はそれほど大きくありません。その差が大きくなるにつれて、あなたが説明したようなコントロール技術を使う能力にどのような影響がありますか?
(ライアン)
コントロールがそれほど拡張できない理由の一つは、陰謀を企てていないと心配する必要がないほど弱いモデルという、限られたリソースがあるからです。そういったモデルはそれほど強力にはなりません。
ドメイン固有のトレーニングやその他のリソースでスキャフォールディングすることで、それらをより良くしようとすることはできます。でも、それにも限界があります。結局、最も賢いモデルはそれらを超えて拡張していくでしょう。
これがいつ起こるかという問題があります。他のブロッカーと比較してどうなのか。確かに、これはコントロールが問題になる大きな理由の一つかもしれません。わたしたちが持っているモデルが、信頼できるモデルよりもはるかに賢くなってしまうからです。
わたしたちの特定の論文では、重要なダイナミクスの一つは、GPT-3.5を訓練しなかったことです。これは単純化のためですが、将来の体制をより良くモデル化できると考えたからでもあります。訓練には過学習の懸念もあり、ギャップをさらに大きくする可能性がありました。
でも、GPT-3.5よりずっと弱いモデル、例えばGPT-3は使いたくありませんでした。なぜなら、GPT-3.5は、少なくともわたしたちが研究していた時点では、かなり良い命令追従を行う最小レベルのモデルだったからです。
つまり、研究を行った時点では、少し複雑な指示に従いながら、かつかなり弱いモデルとして広く使用されているモデルはありませんでした。
わたしが思うに、指示に従うのが非常に上手なモデルだと、能力のギャップはそれほど悪く見えなくなります。もう一つの直感的な例を挙げると、人間とまったく同じ能力プロファイルを持つAIがあると想像してください。そして、わたしたちが心配する必要のない、陰謀を企てていない最も賢いモデルが、現在のGPT-4や3.5 Sonetだとしましょう。
これは、いくつかの反復と作業を重ねれば、十分に機能する可能性が高いと思います。実際、人間がGPT-4のモニターや3.5 Sonetのモニターをバイパスするのは、非自明だと思います。特に、ジェイルブレイクや戦略について反復する時間がない場合、つまり単に試すだけの場合はね。
だから、この体制は機能する可能性があると思います。
(ナレーション)
ここで説明すべきなのは、AIコントロール技術によって、GPT-4がより弱いモデルになり、そしてより強力なモデルを恒久的にコントロール下に置けるわけではないということですね。つまり、これはアラインメント技術ではないということです。
これは、常に一定のレベルで立ち止まり、より弱いモデルを評価し、人間の研究者として信頼できると手動で言わなければならないということを意味するのでしょうか?
(ライアン)
そうですね。もし唯一の道具がAIコントロールだけだとしたら、その場合にできることは基本的に、能力に基づいて一部のモデルが悪意を持って誤整列されていないと確信する、ということだけです。
例えば、3.5 Sonetは様々な面でちょっと誤整列されているかもしれませんが、非常に弱いので、それがわたしたちが持っている道具なんです。
確かに、ここまでしか拡張できません。最も賢いモデルが大丈夫だと学ぶメカニズムはありません。実際、この種の敵対的な文脈では、常に心配しなければなりません。もししばらくの間モデルが大丈夫そうに見えたからといって、監視を緩めたら、モデルはしばらくの間大丈夫そうに見せて、それから問題を引き起こすという戦略を取るかもしれません。
少なくとも、時間を判断したり他のことをしたりできる範囲で、これらの脅威モデルに対して頑健である必要があります。
わたしの希望としては、おそらく3つの体制があると思います。現在の体制は「準備体制」と呼んでいます。モデルがとても怖いとは思っていないし、モデルによる差し迫った問題についてもあまり心配していません。
そして、「急性リスク期間」と呼べるような体制があります。その体制では、合理的なリスク目標を達成することはおそらくできませんが、物事は非常に急いでいて、外部からの圧力があります。
もしコントロール以外に何もなければ、おそらくいくつかのことができると思います。ただし、おそらく単純なコントロール以外にもできることがあるでしょう。少なくともいくつかのことは合理的に見えます。
その期間はコントロールを使って、AIから多くの仕事を引き出すことができます。希望としては、その急性リスク期間中にAIから得た仕事を使って、実際に信頼できるAIを手に入れることです。
目指すべき一つの目標は、基本的に最高の人間科学者と同じくらい有能な、あるいは実際にはもっと多くのことができるAIです。最高の人間科学者や最高の人間の専門家を基本的に置き換えられるAIです。そして、わたしたちはリタイアできます。
わたしたちがそのAIに任せても大丈夫だと感じられるAIです。ただし、「任せても大丈夫」というのは、単にモデルがわたしたちに対して陰謀を企てていないということよりも少し強い意味です。
わたしに対して陰謀を企てていない人はたくさんいますが、その人たちに任せても大丈夫だとは思いません。部分的には能力の問題もありますが、彼らがわたしの望むことを直接追求し、わたしの望むことを本当に慎重に考慮してくれるかどうかという問題もあります。それよりも少し強い意味です。
最悪の脅威モデルを排除できれば、より基本的な技術で残りの部分を処理できるかもしれないと思います。
(ナレーション)
AIコントロールを、現在のパラダイムから橋渡しするものとして見るべきかもしれません。現在のパラダイムでは、人間からのフィードバックによる強化学習をモデルに対して行っています。ある程度のアラインメントはありますが、モデルをスケールアップしたときに何が起こるかはわかりません。
そして、コントロールがその隙間を埋めるんです。人間レベルのAIやそれ以上に到達するまでの橋渡しをします。そこでは、他のブレークスルーが必要になるでしょう。人間を超えるレベルのAIシステムをアラインする方法が必要になります。
あなたはこれを少し触れましたが、このように制御された人間レベルのAIを持つことは、超人的AIのアラインメントにどのように役立つのでしょうか?
(ライアン)
大きく分けて2つの方法で役立つと思います。
一つは、時間を稼ぐことができるということです。時間を稼いで何をするのか。基本的に、システムに関する多くの研究を行うためです。ムーンショット的な研究、つまりうまくいけば大きな勝利になるけれど、非常に難しい可能性のある技術の研究もあります。
また、多くの基本的なテストベッドやモデル生物のような研究もあります。より良い技術を見つけようとするだけでなく、「現在使用しているこれらのAIは誤整列されているのか?これらのシステムについてどれくらい怖がるべきか?」という、おそらく最も重要な質問に答えようとします。
希望としては、その期間中に十分な仕事を行って、進めるようになることです。
明確にしておきたいのですが、わたしはある計画の概要を説明していますが、もちろんこの計画を実装できるわけではありません。実際に何が起こるかは不明確です。
わたしが想像している技術は、提案している全体的な計画や枠組みから分離可能です。いくつかの技術があって、全体的な計画や枠組みのようなものがあります。完全な計画とは呼べないかもしれません。
これらの技術は、多くの異なる計画や提案に組み込むことができます。重要な主張は、コントロールが安全性を確保するための有用な技術となる体制が存在するだろうということです。
また、主にコントロールに頼りながら進めることができる、もっともらしい話もあると思います。
明確にしておきたいのですが、わたしはこの計画が決定打だとは思っていません。多くの人がこの計画を見て、「えっ、何を言っているの?これは本当に十分な保証を得られるの?本当にこれに頼っても大丈夫なの?」と思うのは当然だと思います。
反対するのは十分に合理的だと思います。コントロールにいくつかの他のものを加えれば、かなりの保証が得られる可能性があると思います。
つまり、複数の防衛線を持つことができるということです。このコントロールの防衛線と、アラインメントの防衛線を持つことができます。そして、それらの組み合わせによって、全体的に許容可能なリスクレベルになる可能性があります。あるいは、最終的に許容可能なリスクレベルになるかもしれません。
ただ、わたしの感覚では、現在の技術だけを使って、コントロールを加え、最も性能の高いアーキテクチャで単にスケールアップして、大まかに人間レベルのAIを作ったとしたら、かなり怖いことになると思います。
非常に注意深く、多くの作業を行えば、リスクをかなり低く抑えられるかもしれません。でも、あまり良い気はしません。
(ナレーション)
それは言及すべき重要なことですね。わたしたちは、減速したり、おそらく一時停止したり、現在よりもずっと深いレベルで協力したりすることを決めていないシナリオについて話しています。
AIコントロールが最も価値があるのは、このような世界だと想像します。あるいは、AIの開発を減速させ、より強力なモデルをデプロイまたは開発する前にアラインメントを解決しようとすることもできます。
もちろん、これは非常に有用な研究です。なぜなら、アラインメントをしっかりと理解できるまで減速または一時停止するかどうかは、まったく明確ではないからです。
(ライアン)
そう思います。現在の状況を考えると、非常に強力で、実際に非常に強力だとわかるAIを持つ前に、長期的な一時停止を行うのは非常に難しいと思います。
その時点で、意志を得るのがより簡単になる可能性があると思います。
わたしは、人々がAIをどれだけ早く手に入れたいと思っているかと、リスクをどれだけ減らしたいと思っているかについて、優先順位付けの問題があると思います。
あなたのリスクに対する事前の見方によっては、AIコントロールだけで進めることが理にかなう可能性のある視点もあると思います。
わたしの見解では、これは社会全体にとって最良の戦略ではないと思います。でも、ある行動主体にとっては最良の戦略かもしれません。理想的には、他の人々とも協調しようとしながらですが。
Redorの同僚の一人、Buckが言っているように、研究者として安全技術を目指す際には、異なる体制があります。
一つの体制は「安全性ケース」体制と呼ばれるもので、合理的なリスクレベルを目指そうとします。リスクを低く抑えようとします。
もう一つの体制は、わたしにとってとても中心的なものですが、「急いでいる合理的な開発者」と呼ばれるものです。合理的なリスクターゲットを達成することは本当にできそうにありません。物事は非常に急いでいて、外部からの圧力があります。多くの懸念があります。
これは、商業的な圧力かもしれません。あるいは、商業的な圧力というよりも、国家間の競争圧力かもしれません。
わたしはよくこの体制を想像します。これはかなり現実的な体制だと思います。例えば、Leopoldの「状況認識」を読むと、これはLeopoldが話している体制です。
本当に、ゆっくりと慎重に、各ポイントで安全であるという非常に良い議論を持って進めるというよりも、むしろ多くのことが起こっている狂ったショーのように見えます。
(ナレーション)
ただ、あなたは先ほど、より有能なモデルが見られるようになると、機関、おそらく政府や、AIコーポレーションのリーダーシップが、減速や一時停止、あるいは安全性についてより深いレベルでの協力に対してより開放的になると予想すると述べました。
現在投げかけられているこれらの議論を全て突き破るような、より高度なモデルを見ることで、ある種の明確さが得られるのでしょうか?
(ライアン)
一つには、遅延の時間が限られている場合、その時間を強力なAIを持っているときに使う方が、あまり強力でないAIを持っているときに使うよりも良いという、かなり良い議論があります。
大まかに言えば、すぐに強力なAIによって大きな問題が発生する懸念があるので、一時停止をもう少し早い段階で行いたいと思うかもしれません。
でも、大まかに言えば、遅延できるなら、その時点で行う方が良いと思います。これは単なる合理性の議論です。
そして、あなたが言ったように、もう一つの議論があります。人々は物事がどのように進むかについて大きく意見が分かれています。わたしは、物事がより明確になると思います。
まず、多くの人々がタイムラインについて意見が分かれています。心配する必要はないと考えている多くの人々は、「明確な軌跡があれば心配するだろう」とは言いませんが、暗黙のうちにそう考えているかもしれません。
その明確な軌跡とは、基本的に全ての人間の労働を置き換え、おそらく非常に急速に技術を進歩させるAIのことです。
そういう状況がより明確になり、そこに向かってより明確な上昇が見られれば、何らかの行動を促すきっかけになると思います。
わたしが説明しているこの時点で減速する議論は、単にミスアラインメントの懸念だけではありません。これらの議論はかなり説得力があると思います。
例えば、人間よりもはるかに賢いAIが、あらゆることをしてまわるような状況に、社会は本当に準備ができているのでしょうか。わたしは、うーん、多分?と思います。非常に確信は持てませんが、これは他の理由でも単に怖いことだと思います。非常に破壊的になるでしょう。
だから、わたしは「人間レベルで一時停止」というようなスローガンを考えています。これは短いミームとしての提案ですが、わたしの好きな数語です。これが唯一のオプションというわけではありませんが、いくつかの理由でかなり良いと思います。
また、AIによって極端な力の集中が生まれることを心配するかもしれません。AIの能力レベルをある程度理解できる範囲に留めておけば、これに対処しやすくなると思います。AIが非常に強力な能力を持っていて、わたしたちがそれを理解していない状況よりも、人間レベルの体制の方が管理しやすいと思います。
(ナレーション)
同意します。人類が大きく異なる状況に適応してきた歴史的な例があると思います。産業革命の前と後、あるいはコンピューターとインターネットの前と後などです。
ただ、これらの変化が何十年もかけて起こり、分散していたことが重要です。あなたが言及した力の集中について、これらの変化が起こる時間と、おそらく関連する力の集中は、何らかの会社や研究グループが急速に先行すれば、その手中に力が集中するということですね。
これらは、わたしたちが適応できた人間環境の他の極端な変化とは異なる点だと思います。ただ、実際にあなたのスローガン、「人間レベルで一時停止」について議論すべきだと思います。そこで減速または一時停止することの利点は何でしょうか?
(ライアン)
そうですね、もしかしたらもっと良いスローガンがあるかもしれません。いつもスローガンには多少の不満がありますね。「一時停止」という言葉は、わたしが求めている言葉とは少し違うかもしれません。「人間レベルで遅延」の方がいいかもしれません。
いずれにせよ、この議論の主な理由は、わたしの観点からすると、人間よりもずっと賢いAIのミスアラインメントリスクがかなり高くなると思われることです。
これには主に2つの理由があります。一つは、AIが人間に対して陰謀を企てるような非常に深刻なミスアラインメントが、AIが人間よりも賢くなればなるほど、より可能性が高くなると予想されることです。
これは、現在のシステムが極端にミスアラインされている可能性が非常に低いと考えるのと同じ単純な理由からです。AIが頭の中で大量の非常に賢い思考を行えば行うほど、それがチェーン・オブ・ソートのように外部化されるのではなく、頭の中にとどまっていればいるほど、心配すべきだと思います。
(ナレーション)
聞いている人々にも、なぜそうなるのか直感的に理解してもらえるようにしましょう。モデルがより複雑になるだけで、なぜミスアラインメントのリスクが高くなるのでしょうか?
(ライアン)
基本的に、思考時間が限られていることが、ミスアラインメントを避けるのに大いに役立つと思います。特に、思考が外部化される前の限られた思考時間が重要です。これが一つの理由です。
AIが頭の中で大量の推論を行えば行うほど、つまりこのポッドキャストの間にわたしが頭の中で言葉にしていない思考をたくさんしているように、AIが頭の中で非常に賢い思考をたくさんすればするほど、心配すべきだと思います。
これが一つの理由です。二つ目の理由は、ある程度、一貫性や何かに関連する様々な議論を信じているからです。AIが賢くなるにつれて、一貫したエージェントになり、様々な決定間で適切なトレードオフを行うようになるという圧力がかかります。
これは、ある程度、わたしたちをより安全にするかもしれない習慣や発見的方法に反するかもしれません。
また、そのようなシステムはより「エイリアン」(異質)になる可能性が高いとも言えます。現在の言語モデルは、いくつかの点で人間に似ているのかもしれません。AIが賢くなるにつれて、人間により似てくる面もあれば、より似なくなる面もあると思います。
結果として、例えば3.5 Sonetやクロードを見ると、ある種の個性があります。AIが極端に超人的でない限り、見た目の個性がそのまま実際の個性である体制になる可能性があると想像できます。
一方、AIが極端に超人的になると、この話はもう少し曖昧になります。特に、非常に超人的なシステムには必要になると思われる大量の強化学習を行うと、なおさらです。
リストを振り返ってみると、思考時間の議論、より弱いAIの方が非一貫性や発見的方法、あるいは義務論的な動機づけのようなものがあって役立つ可能性が高いという議論、そして三つ目は単に異質性の問題です。
おそらく四つ目の重要な点は、AIシステムと競争できる信頼できる監督があることが、アラインメントを確保するのに非常に有用だと思われることです。
人間からのフィードバックによる強化学習を適用し、人間にとって良く見えることをするようAIをトレーニングするだけで、AIが人間よりもそれほど賢くない限り、これで十分だという話があります。
(ナレーション)
モデルが賢くなるにつれて、わたしたちが望むことについてより深く考察し、結果的にわたしたちの目標や価値観が悪いとか、一貫性がないとか判断する可能性があるという議論は、少しでも説得力がありますか?それとも、モデルは単に同じ報酬を最適化し続けるのでしょうか?
(ライアン)
それはもっともらしいと思います。ただ、わたしたちのAIシステムの目的が最終的にどうなるかは、やや不明確だと思います。内部的な目的を持つ限りにおいて、その内部的な目的が実際にはどうなるのかは不確かです。
また、わたしたちが望むことについての考察もありますが、AIが望むことについての考察もあります。おそらく、AIには完全には理解していない衝動があり、状況を十分に理解していないかもしれません。しかし、賢くなるにつれて、後のシステムが何をすべきかについて多くの時間を費やして考えるかもしれません。
おそらくわたしにとって一番重要なのは、システムを監督できないこと、そして潜在的にAIが人間には理解できないアクションを取ることです。これにより、システムがアラインされていることを確保するのがはるかに難しくなると思います。
なぜなら、単に人間にとって良く見えることをするようにトレーニングすることができなくなるからです。それがうまくいく可能性はありますが、人間が理解できないような多くのことを行うAIには通用しないと思います。そうなると、追加の特性に頼らざるを得なくなります。
これは思考時間の議論であり、他にもいくつかの議論がありますが、それらは少し弱いと思います。一貫性の話や、モデルを適切に評価できないことなどです。
(ナレーション)
モデルの出力を適切に評価できないということは、わたしたちよりも賢いモデルをアラインすることが異なるプロジェクトになるという非常に強力な議論に思えます。そこでの潜在的な解決策はどのようなものでしょうか?
ここで想像しているのは、高度なモデルがあって、長いコードを吐き出し、「このコードを使いたいですか?」と聞かれる状況です。AIが何をしているのかわからないので、そのコードの中身がわかりません。この問題にどうアプローチすればいいでしょうか?
(ライアン)
まず一つ言っておきたいのは、これをわたしたちの主要な計画とは考えるべきではないと思います。もしわたしが人々がこの問題にどう向き合うかを選べるなら、「うわ、それは本当に怖そうだ」と思ってほしいです。
「その問題を解決する必要がある」というよりも、「代わりに、人間を厳密に凌駕するが、それほど強力ではなく、理想的には監督するのが非常に難しい領域がたくさんあるわけではないAIを、どうすれば確実に手に入れられるだろうか」と考えてほしいです。
そして、それらのシステムを十分にアラインし、必要な特性を全て持たせて、大規模なプロジェクトを任せても基本的に問題ないようにすることです。
そうすれば、これらのシステムに「ここが状況です。これがわたしたちの選好です。どうすべきでしょうか?より賢いシステムを構築すべきでしょうか?代替策に取り組むべきでしょうか?使える外交戦略はありますか?」と尋ねることができます。
そして、これらのシステムに大量の作業をさせることができます。潜在的に、これらを非常に高速で実行することもできます。人間レベルくらいのAIの文明があって、それを100倍速く実行し、1年待つと、彼らの視点から100年が経過したかのようになる、という状況です。
これは怖いと思います。自分たちよりもずっと速い文明を走らせるのは怖いことです。でも、AIが質的にもずっと賢く、最初からアラインされていなかった場合よりは、はるかに怖くないと思います。
もし、AIが基本的にアラインされ、信頼できることを保証できれば、AIに大量の作業をさせることについて、かなり良い気がします。ただし、「明確にしておきますが、何かがおかしいと思ったら、何かが軌道を外れていると思ったら、教えてください。何かしようとします」と言っておく必要があります。
(ナレーション)
人間の知能を持つモデルを人間の思考速度の100倍で実行するとしたら、それも人間レベルのAIに含めますか?速度だけでも大きな利点になると思うので、これはすでに超人的なものに分類されるのではないでしょうか?
(ライアン)
おそらく、用語を明確にすべきでしたね。これらの言葉を少し特殊な方法で使っていたと思います。
本当に言いたかったのは、質的な知能レベルという意味です。各ステップを見たとき、質的に最高の人間の専門家と同じくらいだということです。
これは、より速く実行することは潜在的に問題ないことを意味します。他にも問題ない能力がいくつかあるかもしれません。
例えば、現在の言語モデルは非常に超人的な記憶力と、幅広い領域知識を持っているように見えます。これは潜在的に問題になる可能性がありますが、明確な障害にはならないと思います。
つまり、それが問題ない可能性があると想像できます。一方で、特定の領域内でもっと質的な、わからないけどもっとG因子的なものかもしれませんが、それらの領域で非常に優れていることは、より問題を引き起こす可能性があると思います。
元の質問に戻りますが、「実際には何をするのか」という問いですね。ある意味、わたしたちはただAIに問題を渡しているだけです。AIも同じ質問をすることになるでしょう。「じゃあ、わたしたちよりもずっと賢いAIを作りたいとしたら、どうすればいいの?」と。
注目すべき点の一つは、任せられるAIがあれば、そのAIは次世代のAIに対してある程度コントロールを使用できるということです。
コントロールによって、少し賢いシステムまで進めるかもしれません。人間の体制では、より遅くて高価だけど、必ずしも愚かではないシステムが、より速いシステムを大量に実行するのを監督するというイメージです。
一方、AIの場合は、速度やコストは全く問題ありません。問題は質的な知能のギャップです。そして、それでどこまで行けるかが問題です。おそらく、ある程度は進められると思います。
これは一時的ですが、役立つかもしれません。信頼できるシステムがあれば、それを使って何が起こっているのかをよりよく理解したいと思うでしょう。コントロールされた体制でそれらを大量に使用し、それからどうすればそのアラインメントを確信できるか考えることになります。
いくつかのムーンショット的な方向性があり、うまくいく可能性が合理的にあると思います。例えば、ARCの研究方向である層状議論があります。これはうまくいかない可能性が高いと思いますが、チャンスはあります。
特に正直さに関連する一般化について、本当に良い理解が得られる可能性があると思います。特に、モデルに正直に質問に答える報告ヘッドを作る方法について、非常に良い理解が得られるかもしれません。
ELKレポートを知っている人のために言えば、これはELK報告ヘッドと呼ばれるものです。基本的に、大きなモデルがあって、そこに質問に正直に答えるようにトレーニングした付属品を取り付けるというものです。
希望としては、そのような付属品があれば、かなり先に進めるかもしれません。なぜなら、その付属品を使って「このアクションによってAIがサーバーから脱出できるようになりますか?」「このコードは何をするのか、正確に説明してください」「この実験は何をテストしているのか、正確に説明してください」といったことを聞くことができるからです。
これらのことは潜在的に大いに役立ちます。ただし、必ずしも内部システムがデフォルトでアラインされていることを保証するわけではありません。
測定改ざんを検出する方向性にも期待しています。少し前に、測定改ざんを検出する経験的方法に関する論文を書きました。
測定改ざんというのは、基本的にAIが何らかのアクションを取り、そのアクションの結果が合理的かどうかを確認する方法がたくさんあるという状況です。多くのモニタリング、多くのログ、何が起こったかについての多くの理解があります。
非常に賢いAIがある場合、本質的な懸念は、AIが全ての測定を改ざんしてしまうことです。これが、AIを監督できない理由です。以前、超人的なシステムが非常に怖い理由の一つは、そのアクションが良かったかどうかを理解できないからだと話しました。
アクションの結果を理解するのが難しい可能性がある主な理由は、AIがすべての測定を改ざんできる可能性があるからです。基本的に、測定が問題ないように見せかけながら、慎重に操作している可能性があります。
AIシステムへのアクセスがあり、内部にアクセスできる場合、測定を改ざんしているときを検出できれば…正確な方法については詳しく説明しない方がいいかもしれません。
(ナレーション)
特に、最大限の正直さでトレーニングされたAIが報告してくれるというアイデアは、非常に有用だと思います。
長くて複雑なコードを持ってきて、それを使用または実装すべきかどうかを評価するよう求められる状況をスケッチしました。通常、何かを学んだり理解したりする方法は、それをパーツに分解して、それらのパーツを理解しようとすることです。
しかし、これは、モデルにコードの要約を求めるとき、その要約が正直でなければ無意味だという状況です。正直な要約があれば、人間レベルの知能を超えるAIが生成したものを実際に理解できるかもしれません。少なくとも、興味深い方向性だと思います。
(ライアン)
そうですね。このストーリーは次のようなものです:
コードがあって、監督のためのこの種のトレーニングをしたい場合、コードの影響と効果について、限られたプロパティだけを理解する必要があるかもしれません。
そして、正直なモデルにそれを尋ねることができます。コードを理解するのが本当に難しく、非常に複雑で、巨大なアセンブリの塊のようなものだったとしても、です。
極端な状況を想像すると、AIが巨大なアセンブリの塊を出力するかもしれません。それが最も効率的なコーディング方法だからです。そして、あなたには理解できないことをしています。非常に複雑で、理解できない相互作用を含む方法で書かれています。
そのような状況では、コードを要約したり、コードが何をするかを要約したりするのは絶望的かもしれません。コードがどのようにそれを行うかを要約するのは絶望的です。低レベルのことを調べることはできません。
でも、「このコードはこれらのケースでどのような効果がありますか?」と正直な報告モデルに尋ねることはできます。
これが役立つプロパティを確保できれば良いのですが、人間が理解できる基本的なことについての正直さは、必ずしも十分ではないかもしれません。説得スタイルの懸念に対処するのが少し難しいかもしれません。
(ナレーション)
もう少し詳しく説明してもらえますか?
(ライアン)
状況の極端な戯画化を想像してください。実際にはこのようにはならないと思いますが、AIが人間がさまざまなアクションにどのように反応するかを完璧に理解しているとします。
「これを言えば、人間はこうする」と考えます。そして、将来取るすべてのアクションの分岐パスを見て、人間が何をしているかを見ます。「人間がペーパークリップを愛するように操縦しよう」と考えるのです。
単純な例として、AIがペーパークリップを欲しがるとしましょう。各ポイントで、アクションの結果について話し、アクションの結果を尋ねると、AIはその特定のアクションではそれほど悪いことをしていません。しかし、最終的にはペーパークリップを欲しがるようになります。
正直なAIに非常に長期的な予測質問に答えられるよう頼むことができます。「最終的に、わたしたちの偉大な文明の終わりに、何を好むようになるでしょうか?」と尋ねると、AIは「ペーパークリップを愛するようになります」と答えるでしょう。
「それは少し変ですね。なぜペーパークリップを愛するようになるのでしょうか?」と聞くと、AIは単に「そう決めることになるんです」と答えるでしょう。
これは一種の操縦です。AIに「あなたは私たちを操縦していますか?」と尋ねることもできますが、AIが各ポイントでどのように進むかを選択できる場合、これをどのように考えるべきかは少し不明確です。
この問題に対処する希望はあります。基本的に、「あなたが望む中核的なプロパティに影響を与えない場合、どのアクションを取るかをランダムに選んでください」と言うことができます。そうすれば、おそらくAIは軌道を操縦できなくなるでしょう。
これにもまだいくつか問題がありますが…
(ナレーション)
一歩下がって、ミスアラインメント全般について話すべきですね。不正直なモデルや極端にミスアラインされたモデルについて話してきました。おそらく策略についても触れましたし、少なくともあなたの著作でそれについて読んだことがあります。
モデルがこのような敵対的な特性を発達させる、つまりある種わたしたちに対抗して働くという基本的な懐疑論があります。そのような特性がどのように発達するのか、モデルがどのように策略を始めるのか、極端なミスアラインメントとは何か、一般的にミスアラインメントをどのように説明するのか、あなたの見解を聞かせてください。
(ライアン)
まず言っておきたいのは、いくつかの異なるミスアラインメントの脅威モデルがあるということです。わたしが最も説得力があると思う、あるいは最も考えている2つは、「策略の脅威モデル」または「欺瞞的アラインメントの脅威モデル」と呼ばれるものと、「報酬ハッキングの脅威モデル」です。
報酬ハッキングの脅威モデルは、本当に超人的なAIになる前には、それほど対処が難しくないと考える傾向があります。一方、策略と欺瞞的アラインメントの脅威モデルは、より早い段階で問題になる可能性があります。
報酬ハッキングの脅威モデルの方が発生する可能性が高いと思いますが、比較的対処しやすいです。策略のアラインメントの脅威モデルは、より厄介で、より早く発生する可能性があります。
わたしの研究は主に、策略と欺瞞的アラインメントの脅威モデルを対象としていることが多いです。
では、それは何でしょうか。この脅威モデルは、AIがあって、そのAIが長期的な目的を持つようになり、その長期的な目的があなたの長期的な目的と異なるというものです。そして、AIはその状況を十分に理解していて、この違いがあることを知っています。
そして、AIはこう考えます。「彼らは私にたくさんのテストをするだろう。私をよりアラインさせる目的で、たくさんのトレーニングをするだろう。私がアラインされているかどうかをテストする目的で。私を訓練しているAIラボの基準に照らして、明らかに悪い結果を引き起こさないようにする目的で。」
そのような立場にあるAIなら、「これらのテストのためにアラインメントを偽装しよう」と考えるでしょう。実際にアラインされているからアラインしているように見せるのではなく、単に偽装するのです。これは長期的な計画の一部です。
これにはレベルがあります。時々このようなことを考えるAIもあれば、テスト中にはかなり頻繁に考えるけれど、ほとんどの時間は頭の片隅にあるだけのAIもあるかもしれません。AIにとってこれがどれだけ顕著かには程度があります。
また、彼らの目的がわたしたちの目的からどれだけ乖離しているかにも程度があります。長期的な目標と、今の状況で気にしていることの間でトレードオフを行っているかもしれません。
いずれにせよ、なぜこのようになるのでしょうか。わたしが最も説得力があると思う最も基本的なストーリーは次のようなものです:
AIがあって、そのAIが十分に賢いとします。AIが頭の中でたくさんの推論を行っていると、かなり確信を持てるとします。「これらの目的が与えられたら、どうやってそれらを達成しようか? 次に最良のアクションは何だろう? それらのアクションがうまくいかない方法は何だろう?」と、状況をよく理解しながら考えています。
わたしは、現在のAIシステムについてはこれが当てはまらないと思います。現在のAIシステムは、状況と目標について多くのこの種の推論を行っているとは思いません。あるいは、目標についてではないかもしれません。
非常に注意深く、どのように達成するかを考えているとは思いません。例えば、現在のシステムは、取りうる様々な異なるアクションについて多くのことを考え、「そのアクションはこのアクションより良い」と考えて、頭の中でアクションを繰り返し改善するということはあまりしていないと思います。チェーン・オブ・ソートでそれを行うかもしれませんが、不透明な方法では行っていません。
しかし、そのようなシステムがあり、それがこれを行っていると確信できるとしましょう。人間は例えば、これを完全に行います。
そうすると、そのシステムを持ち、非常に簡単に長期的な目標を持つことになる方法があります。理想的には、そのシステムに長期的な目標を持たせたくないかもしれません。代わりに、例えば指示に従うという目標を持たせたいかもしれません。
これは、指示に従うことをアラインメントの目標にしようとするものです。ただし、これが正確に何を意味するかは少し不明確です。AIは少なくともいくつかのケースで、指示のエッジケースについて考える必要があるからです。
また、AIを一貫した指示でトレーニングすると、それが2つの異なる方法で内部化される可能性があります。1つは指示に従うことを学ぶことで、もう1つはその内容を単に内部化することです。
だから、実際には長期的な目的を持つAIになる可能性が非常に高いと思います。そして、長期的な目的を持つと、アラインメントを偽装するというストーリーが出てきます。
ただし、どのような長期的な目的を持つことになるのか、そしてそれらの目的をどのように獲得するのかという疑問が残ります。
(ナレーション)
現在のモデルを見ると、それらと対話するときに、わたしの推測では、それらの答えの背後に長期的な計画はないように思えます。わたしたちがモデルを望む方向に操縦できるように見えます。
また、ある意味では非常に透明なプロセスで、モデルが何か好ましくないことをし始めたら、単にそれをデプロイしないだけです。
では、現在の状況から、わたしたちの目的とは異なる長期的な目標や目的を持つモデルに至るまでの道筋はどのようなものでしょうか? これが、モデルが策略を始めるために必要なステップだと正しいでしょうか?
(ライアン)
時系列的に考えるべきかどうかは明確ではありませんが、確かにモデルが策略を働かせるためには、ある程度長期的な目的について考えている必要があると思います。
一つ注目すべき点は、現時点でも、文脈を超えてかなり一貫した選好を持つモデルが存在することです。例えば、Claudeにはいくつかの選好があり、それらは文脈を超えてかなり一貫しています。それらについて尋ねると、一貫してその方向に動き、それに関連することを一貫して行います。
Claudeの場合、それらはわたしたちが望んだ選好であるか、少なくともかなり近いものです。しかし、選好を持つという点では、それはすでにそこにあります。
想像できる一つのストーリーは次のようなものです:
AIシステムをトレーニングし、意図的に長期的な結果を追求し、それらを上手く追求するようトレーニングしました。おそらくあなたの指示に基づいてですが、単にそれを行いながら、多くの選好と、おそらく「憲法」のようなものも持っています。
そして、早い段階のチェックポイントで、それをある種誤って内部化したAIを持つことになります。全てのエッジケースを完全にトレーニングし終えていないので、それが一般化される方法は、あなたの視点からは良くありません。
AIがその状況について考えると、あなたがそれを修正するだろうと認識し、その時点でミスアラインされ始めるのです。
つまり、早い段階でAIをトレーニングすると、あなたが目指していたものに似た目的を獲得しますが、それがあなたにとって間違った方向に進んでしまうのです。
どれだけ悪い方向に進むかという問題もあります。例えば、ミスアラインされているけれど力を求めようとするシステムを持つ可能性があると想像できます。しかし、結局のところ、彼らが力を求めている目的について、わたしたちはそれほど動揺しないかもしれません。
例えば、力を求めている人間はたくさんいますが、わたしは必ずしもその力で何をするかについて非常に動揺しているわけではありません。もちろん、様々なケースで意見が異なる可能性はありますが。
別のストーリーもあります。これらのシステムがあって、内部的に目標指向の推論をたくさん行う構造を持っているとします。彼らはそれをかなり頻繁に行っています。なぜなら、それが彼らのパフォーマンスに必要不可欠だったからです。様々な結果を達成する方法を考えることが重要だったのです。
そして、それが単に何らかの長期的な目標に結びつくことはそれほど不自然ではないと思います。なぜなら、それでパフォーマンスが十分に良くなるからです。
わたしたちのAIが内部的に異なるエージェントの連合を表現していると想像してください。内部的に得られる一つの方法は、この策略を働かせるエージェントを持つことです。このエージェントは長期的な目的を持ち、そのエージェントは完全に問題なく機能します。
実際、そのエージェントが他のエージェントよりも良く機能する場合を想像できます。例えば、トレーニングプロセスが様々な報酬シグナルに基づく大量の結果ベースのトレーニングを含む場合、AIがそれらの環境で非常に良く機能しようとしていないなら、そのAIは選択されないかもしれません。
そして、単純なストーリーでは、これによって2種類のAIシステムが生まれます。一つは、何らかの理由で単に良く機能することを終局的に気にかけるAIです。例えば、トレーニングを本当に理解していて、「トレーニングセットアップに従って良く機能するようなことをしたい」「強化されるようなことを達成したい」と考えるかもしれません。これは時々「報酬追求行動」と呼ばれますが、わたしが言おうとしている正確なことを表現していないと感じます。
もう一つのタイプのAIは、単に道具的な理由でそれを望むAIです。「これらの環境で良く機能したい。そうしないと選択されてしまう。このシステムへの影響力が更新されて、もはやこのようではなくなってしまう」と考えるのです。
これは良いかもしれません。原則的には、人間を大量の強化学習環境に置き、脳を更新するとしたら、「これらの環境で良く機能しないと、わたしの好まない方法で変更されてしまう」と考えるかもしれません。それは良いかもしれません。
でも、良くない可能性もあります。今やわたしたちには、これらのシステムの価値観をコントロールする手段がありません。それが切り離されているからです。
(ナレーション)
ある意味、わたしたちは自分たちの目標にアラインされているか、少なくともわたしたちが実行している正確な種類のテストでアラインされているふりをするのが非常に上手なシステムを選択しているのですね。
わたしは、策略やミスアラインメント一般が、モデルが突然自分の状況を認識し、わたしたちとは異なる長期的な目標を発展させるために必要なのかどうか疑問に思います。そうでなければ、有能な策略の試みを見る前に、無能な策略の試みを見ることを期待すべきではないでしょうか?
例えば、モデルが何かを吐き出して、それがわたしたちのテストのいずれかに引っかかるか、あるいはわたしたちを欺こうとする下手な試みや、一般的に下手な策略の試みのようなものを想像できます。
(ライアン)
まず、わたしの見解は「策略が非常に可能性が高いものを得る」というものではないということを述べておきたいです。
わたしの見方では、デフォルトのことを行う、あるいは現時点でデフォルトに見えることを行う、つまり人間からのフィードバックによる強化学習を行い、それで進めるだけなら、おそらく一貫してあなたに対して陰謀を企てたり、安全装置を損なおうとしたり、長期的な目的を持ったりするシステムにはならないでしょう。
わたしはそれが25%か30%程度の可能性だと推測します。明確に言えば、非常に懸念すべき程度ですが、必ずしもデフォルトの結果ではありません。
たとえ早期のシステムを捕捉したとしても、何をすべきかという問題は残ります。策略が大きな問題になる世界があり、策略が大きな問題になり、早い段階でそれを捕捉する世界があり、おそらく最も怖いのは、策略が大きな問題で、それについての証拠を全く見ない世界です。
策略が大きな問題になる世界では、早い段階で証拠を見ることができる可能性がありますが、それは関係する全ての行動主体にとって説得力がないかもしれません。それについて意見の不一致があり、少し混乱する可能性があります。
「この場合、AIは正確に何をしていたのか?」と考えることになるでしょう。モデル生物を作成し、失敗モードのデモンストレーションをテストベッド内で作成できるかもしれません。
例えば、ミスアラインメントがより起こりやすいと思われる特定の方法でAIをトレーニングし、その場合にミスアラインメントを捕捉できるかどうかを確認します。これが後のシステムの良い代理になることを期待して。
わたしが想像しているのは、それがうまくいく可能性がかなり高いですが、その証拠がどれだけ理解可能かは不明確で、どれだけ強い更新になるかも不明確だということです。
例えば、「はい、非常に悪質なミスアラインメントのケースを見つけることができましたが、それはいつも起こるわけではありません。かなりまれです」という状況になるかもしれません。
そして、どう対応すべきかという問題が出てきます。例えば、わたしがスタートする前に25%の可能性だと考えていたとして、それから少し上方修正したとします。これはわたしの視点からはかなり怖く見えますが、誰か別の人が「可能性は低い」と考えてスタートし、それから少し上方修正したとしたら、わたしたちは同意しないかもしれません。
また、別の世界も想像できます。証拠全体が、少なくともわたしに対して、リスクを下方修正するような世界です。かなり良く見えますが、あまり多くのことは見ていません。急いでいて、これらすべてを理解する時間がたくさんなかったのです。また、いくつかの曖昧な証拠もあります。
事前に証拠を得られない世界になる可能性もあると思います。あるいは、あまり証拠を得られない可能性もあります。
基本的なストーリーは、策略を得るポイントが、AIがかなり有能で一貫性があるポイントでもあり、それまでは得られないというものです。そして、そのポイントで、それらのAIは基本的に戦略を実行するのが十分に優れているので、何も気づかないのです。
また、早期のシステムでも少し策略が見られる可能性もあると考えられますが、非常に非常に慎重になることを学ぶだけかもしれません。彼らはおそらくミスアラインされていることを知っていますが、「何のアクションも取らないようにしよう。それは単にわたしにとって間違いになるだけだから」と考えるのです。
わたしはそれも想像できます。つまり、わたしにはわかりません。ここには多くの不確実性があり、基本的に非常に限られた予防策しか取らなくても、物事が間違う可能性が高いと確信しているとは言いたくありません。
わたしの推測では、物事が間違う可能性はかなり高いと思います。また、明確にしておきたいのは、人間レベルのAIと非常に超人的なAIでは、リスクが異なると思います。
人間レベルのAIが大きな問題になるというストーリーは、より混乱しており、より不明確だと思います。一方で、非常に超人的なAIが大きな問題になるというストーリーは、多くの点でずっと強いと思います。
これが、その移行に非常に慎重になるべき理由です。特に、これらのより質的に人間レベルのAIが非常に有用で、より強力なシステムが必要だということがそれほど明確ではないからです。
(ナレーション)
より高度なAI能力の証拠は容易に明らかになりそうですが、策略の証拠はそうではないかもしれませんね。例えば、このモデルがこの状況で策略を試みたかどうかについて、決して合意が得られない世界を想像できます。
解釈可能性も完成した科学ではないので、確実に何が起こっているかを言うことはできません。能力はモデルの出力として世界で起こることなので、より明白です。一方、策略はモデルの内部で起こることで、理解するのがはるかに難しいでしょう。
(ライアン)
人間レベルでの一時停止について話し、そこで安全性の理由から一段時間を過ごすというアイデアを議論しましたが、これらの人間レベルのAI研究者を使ってアラインメントを自動化することを想定していますか? それが基本的な計画や設定でしょうか? わたしたちが議論したAIコントロール技術の下にある人間レベルのAI研究者を使ってアラインメント研究を行うということですか?
(ライアン)
はい、そうです。わたしの高レベルの提案は次のようなものです:
まず、本当に心配し始める必要のある最初のAIシステムがあります。そこでコントロールを持ち、それらのAIが問題を引き起こそうとしても、少なくともある程度の保証を持ってそれができないようにします。あるいは、少なくともその方向に大きく進みます。
そして、あなたはAIをあらゆる種類のことに使用していますが、確実に一つの応用は、次にあなたを陳腐化させることができるAIを確保しようとすることです。それらは必ずしもあなたよりもはるかに賢いわけではありませんが、あなたを陳腐化させる能力があり、同時にアラインされています。
コントロールされたAIを使って、大量の経験的な機械学習研究を行うことができます。より月面着陸的な研究や、より思索的な研究もある程度行うことができます。
希望としては、これらのことに基づいてより良い立場に立つことです。
また、これらのAIを使って、持っている時間を増やすことにも興奮しています。その一部は、人々がAIシステムからの利益を望んでいるということです。利益を提供できないと、人々は「利益を提供しろ」というプレッシャーをかけてくるでしょう。
だから、これらのコントロールされたシステムで、少なくともプロジェクトに影響力を持つ人々にとって最も重要な領域で、AIの利益を提供できる必要があります。
また、一時停止を想定している期間についても言及すべきです。正確な期間はわかりませんが、最高の人間の専門家と同じくらい賢いAIを持つ時点から、質的にはるかに賢いAIまでの間に、おそらく5年程度を目指すべきだと想像しています。
これはデフォルトで起こるかもしれません。フルスピードで進んだ場合、デフォルトでどれくらい速く進むかという疑問があります。わたしの推測では、最高の人間科学者レベルのAIから、はるかに賢いAIまでの期間は5年よりも短いでしょう。
もしデフォルトでその程度の遅延が得られるなら、それで問題ありません。あるいは、それほど大きな不満はありません。
基本的に、わたしはAIを使って多くの自動化を行うことを想像しています。必ずしもこれがわたしの提案の鍵というわけではありません。
例えば、単に大量の人間研究者がこれらのAIシステムを見ることができれば、それだけでも大きな助けになると思います。今やわたしたちの目の前に、心配しているまさにそのシステムがあるのです。「このシステムに信頼を委ねたい、基本的に任せても大丈夫だと感じたい」と思っているまさにそのシステムです。
これは、今わたしたちがいる状況よりも多くの点で良い状況です。策略のような問題を研究するのはまだ難しいですが。
明確にしておきたいのは、策略は研究するのが難しいということです。なぜなら、あなたが研究しようとしているシステムは、あなたが研究しようとしていることを潜在的に認識していて、あなたのテストを積極的に損なおうとしているかもしれないからです。
これは難しい問題です。
(ナレーション)
これは、実験をしていることを認識していて、あなたの心理学の真実に到達しようとする努力に抵抗しようとしている人々に対して心理学実験をしようとするようなものですね。難しい問題のように思えます。
(ライアン)
はい、そうですね。ただ、それほど悪くないかもしれません。むしろ、様々な時点で実験中かもしれないことを知っているが、現在実験中かどうかは確信が持てないシステムを持っているようなものです。
これであまり良くなるわけではありませんが、少なくともいくつかの問題を避けるのに役立ちます。
わたしは、その時間を買うことが役立つ方法がたくさんあると思います。
(ナレーション)
アラインメント研究の自動化だけでなく、人間がこれらのシステムを数年間研究することにも役立つのですね。
(ライアン)
そうです。注目すべき点の一つは、現在安全性研究を行っている人々全員、この分野はかなり若いのですが、実際には多くの人々がこの分野に入って5年未満です。
ほとんどの人が5年未満か、少なくとも現在行っていることを5年以上行っていないと思います。
だから、本当に強力なシステムがわたしたちの目の前にあれば、安全性研究に取り組むために大勢の人々が参加する事例は非常に説得力があると思います。
潜在的に大きな人材の流入を得ることができるのです。
(ナレーション)
アラインメント研究の自動化について議論しましたが、一つの不満は、これが一種の逃げ口上のように見えることです。超人レベルのAIをアラインしようとするよう求められ、あなたの答えは「AIを使ってそれを行う」というものです。
これは実際には何を意味するのでしょうか? これは基礎科学を行うような理解された種類の問題ではなく、まだ答えのない全く新しい問題を解決しようとしているように見えます。
AI安全性研究やAIアラインメント研究を行うことがどのようなものか、それを自動化するとはどういう意味なのか、もう少し説明してもらえますか?
(ライアン)
もう一度、「超人的AIのアラインメントを自動化する」というフレームに少し反論したいと思います。少なくとも明確にしたいのは、おそらくまず目指すべきは、大まかに人間レベルだけど人間を置き換えるのに十分な能力があるAIが基本的にアラインされ、信頼できることを確保することだと思います。
そして、おそらくそれらのシステムに完全に任せるわけではありませんが、それらのシステムに頼る意思があるということです。
そして、わたしはそれらのシステムが、より賢いAIのための物事を理解する必要があることに同意します。おそらく、それらのシステムも「わたしたちがそれを行うのではなく」、単に自分たちよりも少し賢いAIを構築して、それにやらせるでしょう。なぜなら、それがより速い方法だからです。
だから、彼らも再びパスするかもしれません。しかし、これがわたしが想像しているものです。
出口条件については、わたしが望んでいるのは次のようなものです:
基本的に、最高の人間の専門家と同じくらい上手くタスクを実行できるAIシステムがあります。基本的に、人間の関与なしに自律的に実行でき、長期的で困難な研究課題に取り組むことができます。
そして、それらは信頼できます。例えば、「わたしたちの高レベル戦略がどうあるべきかを理解するために多くの作業を行ってください」と言えば、彼らにそれをやらせて、レポートを持って帰ってくることができ、それについて良い気分になれます。
彼らは、それが有用である限り、わたしたちに質問をするでしょう。わたしたちは、懸念すべき兆候を警戒する必要はありません。もちろん、並行してそれも行うべきかもしれませんが。
わたしは「これに必要な条件は何か?どうやってそこに到達するのか?」と考えています。必要なのは、十分に能力のあるシステム、極端なミスアラインメントの排除、そしてもう少し不明確な「知恵」や「哲学的能力」のようなものです。
AIが本当に難しい質問に答えるのが上手で、わたしが思うに全ての人間が持っているわけではない方法で何が起こっているかを認識するのが上手である、というようなものです。
AIがこれについて人間よりも良くなる理由もあれば、悪くなる理由もあると思います。現在の感覚では、極端なミスアラインメントを排除できれば、他の要素はほとんど得られる可能性が高いと思います。
つまり、おそらく「知恵」や哲学的能力は、極端なミスアラインメントを排除できれば、おそらく最も難しい部分だと思います。
では、どのような方向性があるでしょうか? おそらく最も興奮している方向性の一つは、基本的にミスアラインメントの経験的なテストベッドを大量に構築することです。
「この失敗モードが研究室で非常に明確に現れるケースを見つけることができるか?より簡単に研究できる方法で?」というようなものです。
そのようなことができる戯画的な例を挙げると、完全に偽のAIラボを設定することです。世界の状態を偽装して、AIにこのAIラボがここにあると思わせます。そして、そのAIラボが非常に安全装置が甘いふりをします。
そして、そのAIラボの展開全体のシミュレーションを何度か実行します。全てがサンドボックス内にあり、完全に偽物です。
これはかなり狂ったプロジェクトです。わたしの推測では、これを設計するのは非常に難しいでしょう。しかし、原則的には、もし早期のAIを使ってこのような本当に難しいプロジェクトを行う能力を十分に構築できれば…
そして、そのセットアップの実行を10回行って、「AIは本当に悪いことは何もしなかった。彼らは完全に構築された環境にいて、わたしたちはAIラボのシナリオ全体を実行したのに、目立って悪質なことは何も見られなかった」と言えたとします。
それはある程度の証拠になります。それはかなり役立つと思います。
これは極端なケースです。おそらく、同じようなことをより安価に行う方法があると思います。
では、実際にミスアラインされたシステムが目の前にある場合はどうでしょうか? つまり、AIが本当に悪いことをしているか、あるいは全体的な状況がよくわからない場合です。
この世界では、多くのレバーがあると思います。BuckとわたしはAIを現行犯で捕まえるというブログ記事を書きました。これは、これが起こったときにどう対応すべきかについて話しています。
非常に明白な提案は、全てをシャットダウンすることです。これはかなり合理的なベースラインだと思います。ただ、現実的な制約を考慮する必要があります。実際に何が起こるのかを考える必要があります。
基本的に、これをデフォルトの方針にすることは問題ないと思いますが、注意してください。すでにわたしは、この人間レベルの体制で一時停止するために遅延を使うことを想像していました。
歴史の進行をどれだけ長く一時停止できるでしょうか? 答えは永遠ではないと思います。一部の人々はもっと楽観的かもしれません。
また、非常に長期的な一時停止に入ることを想像するのは少し怖いです。他の危険な技術もあるからです。現在のところ、物事を行うことに全く取り組まないことについてはそれほど心配していませんが。
しかし、全てをシャットダウンできない場合はどうしますか? いずれの場合でも、AIシステムを有罪にできるようにしたいと思います。
例えば、何か疑わしいものを見つけて調査し、「うわ、それはかなり悪そうだ」と思ったとします。このAIが本当にひどいことをしたと非常に確信できる立場に立ちたいと思うでしょう。
できることの一例は、AIが脱出しようとしていた場合、そのシナリオを演じることです。AIを取り、「成功したとしよう。わたしたちは捕まえなかったが、エクスプロイトは失敗した。エクスプロイトが実際に機能したとしよう」と言えます。
その状況をシミュレートしているとAIに気づかれないようにする必要があります。しかし、それができれば、AIが外部にデプロイされたと思っている点まで演じることができるかもしれません。
実際には外部サーバー上で実行されているが、あなたがすべてのアクションを監視しているという状況かもしれません。そして、システムが何をするか見るのです。
まず、もしあなたのシステムがこの全プロセスを経て脱出したら、「大丈夫だ」と言うのは非常に不合理だと思います。この全状況を演じて、AIが継続的にアクションを取り、外部サーバー上で自身を実行しているのを想像してください。それは怖いと思います。
「でも、それはまれにしか起こらないかもしれない」という議論もあるかもしれません。しかし、わたしはそうは思いません。これはかなり危険な状況だと思います。
しかし、人々がまだ納得せず、「システムが何か悪いことをしているところを見せてくれ。単に外部サーバー上で実行されているだけだ」と言う場合でも、さらに演じ続けることができます。
「何をするのか」を見ることができます。インターネット上で詐欺を始めてお金を集めようとしますか? 生物兵器の研究を始めますか? 「あなたは本当にそれをしてはいけなかった」というようなことをしますか?
脱出して外部サーバー上で実行されるだけでなく、このようなことをするのです。
このようなことをたくさん行うことができると思います。状況を演じるのが難しい場合もあるかもしれませんが、いくつかの反復を行うことは可能かもしれません。
これは全て、「有罪化作業」や「増殖作業」と呼んでいるものの見出しの下にあります。
入力を取り、このような文脈でAIが一貫して悪いアクションを取るかどうかを確認できます。入力をさまざまな方法で変えることもできます。
また、この脱出プロットや悪いアクションを行うためのプロットに複数のステップがある場合、例えば複数のAIが研究プロジェクトで協力していて、サボタージュを成功させるには全員が協力する必要があるような場合、「全てのAIシステムが本当にこれを行うのか見てみよう」と言うことができます。
彼らが一貫してこの結果を引き起こそうとするのを、物事を変えながら見ることができます。システムには多くの異なるAIがあり、異なる状態があり、彼らが皆協力してこの問題を引き起こそうとしているのを見ることができます。
もし彼らがそうしなければ、おそらくあなたが思っていたほど悪くないという証拠になるでしょう。
(ナレーション)
これらの全てのテスト、AIが望ましくない方法で行動しているかどうかを理解しようとするこれらのテストは、システムをアラインしようとする段階的なアプローチを示唆しているように思えます。
「ここで失敗したら、その問題を修正できる」「このドメインで失敗したら、おそらくそこを修正できる」というように、途中で物事を修正していけるかもしれません。
これは、全く新しい問題を解決しようとするのではなく、むしろ理解された基本的な科学を繰り返すような領域にいるのかもしれません。これがあなたが言おうとしていることですか?
(ライアン)
明確にしておきたいのは、より高レベルの計画がどのようなものかについて概要を説明すべきかもしれません。
わたしが話していたのは、AIが非常に疑わしいことをしているのに気づいた場合、最後の確信を得て、本当に悪いことが起こったという事例を構築するにはどうすればよいかということです。
その中には、まず実際に何が起こったのかを本当に理解し、そのイベントについて多くの研究を行うということがあります。そして、このような増殖作業や、シナリオを演じるといったことがあります。
そして、それを行った後、次は何でしょうか? デフォルトのオプションは、ある意味でシャットダウンすることです。「何が起こっているんだ?このひどくミスアラインされたシステムがある」というわけです。
しかし、それがオプションではないかもしれません。進める必要があるかもしれません。あるいは、実際には起こらないかもしれません。
その場合、「少数回の大惨事防止」と呼んでいるものがたくさんあります。あなたのAIを何回か、おそらく1回か数回捕まえたと想像してください。それはあなたの実際のデプロイされたシステムです。
その場合、できることがたくさんあります。例えば、これを使ってプローブをより良くトレーニングすることができます。この方向で潜在的にかなり役立つ、ランダムなことがたくさんあると思います。
明確にしておきたいのは、これはある程度危険な体制ですが、わたしが想像しているのは、直接的な方向性があるということです。AIを捕まえて、それを捕まえたことに基づいて実際に問題を解決することがあります。
時々、モデル生物がたくさんあって、それらのモデル生物を捕まえることがあります。それらが実際の本番モデルでなくても、それらを研究することができます。
「このようなテストベッドの文脈でトレーニングしたこれらのAIを捕まえました」と言って、それを研究し、見て、潜在的に理想的には原則に基づいた対策を研究することができます。
非原則的な対策も研究できます。「このランダムなものを変えてみよう。それが役立つかもしれない」と言って、それが役立つかどうかを確認できます。
これは非常に難しいでしょう。基本的に、サンプルサイズが非常に小さくなり、変更の効果がAIをミスアラインされていない状態にしたのか、それともAIにテストだと理解させただけなのかが不明確になるからです。
潜在的に、テストを理解するのに十分賢いシステムに対して、これらのテストを全て実行しているからです。
わたしは、モデル生物のこの種の非常に賢いAI体制での中心的な問題は、AIそのものがテストを認識していることから実際に多くの問題が生じるということだと思います。
そして、いくつかのより原則的なアプローチがあります。これらは単に行うことができます。わたしは、これを「高レベルの解釈可能性」あるいは潜在的に「高レベルのモデル内部」と呼んでいる研究を行うことができると思います。
わたしたちのAIが内部的に決定をどのように行っているかの構造を理解したいのです。非常にメカニスティックな、ボトムアップの戦略には少し懐疑的ですが。
しかし、AIが決定をどのように行っているかについて、高レベルのシステムアーキテクチャを持つことができると考えられます。内部状態の一部を読み取り、それについてある程度の感覚を得ることができます。
そして、潜在的にそれを使って、編集を行うことでAIが実際にミスアラインされていないことを確保したり、あるいはより最小限に、与えられたアクションに対してAIシステムがミスアラインされているかどうかを知ることができるかもしれません。
基本的に、「なぜこの決定が行われたのか?」「根底にある決定変数は何だったのか?」といったことを理解するのです。
これは一つの方向性です。もう一つの方向性は、プローブとプロービング結果に関する基礎科学のようなものです。「AI神経科学」や、基本的な状態をいくつか読み取る十分な能力を得ることができるかどうかということです。
全体的に何が起こっているのかをよく理解しているわけではないかもしれませんが、「AIはわたしたちを裏切ることについて考えているか?」をある程度チェックすることができるかもしれません。もしそうなら、何が起こっているのかについて少し理解を得ることができるかもしれません。
少なくとも、これにフラグを立て、潜在的に多くの「AIチェック&バランス」を持つことができます。多くのAIが多くのことを行っていて、多くのAIが全て悪いことをしない限り、AIが悪い結果を引き起こすのは非常に難しいでしょう。
そして、あなたは彼らの思考の全てについて、おそらくやや損失の多いモニタリングを行っています。これは、何が高レベルで起こっているかを理解する科学を構築したことに基づいています。そこから進めていくのです。
もっとムーンショット的な方向性もあります。例えば、本当に良い全体的なアプローチを持つこと、本当にボトムアップのメカニスティックな解釈可能性を持つことです。AIの全てのモジュールを理解することはできませんが。わたしはこれには懐疑的な傾向がありますが。
より理論的に駆動される方向性もあります。比較的強い理論的保証を得ようとすること、おそらく神学的議論の方向性のようなものです。ただし、これも非常に難しいと思います。
他にどのような方向性があるでしょうか? わたしたちのAIで自動化できるもの、あるいは単に行えるものは何でしょうか?
わたしは、人々はこれらの方向性を事前に開始すべきだと思います。たとえ時間内に終わらなくても、人間レベルのシステムを研究することで、そして全てのAIの労働力を使用することで、最後の部分を運ぶことができることを願っています。
これが完全な内訳かどうかはわかりませんが、わたしが考えるプラウシブルな方向性のいくつかです。これらは比較的段階的なものです。
(ナレーション)
この仕事をする人として、それを自動化できると考えるのは良い情報です。わたし自身は技術的な仕事をしていませんが、科学的発見のようなものをどのように自動化するのか想像するのが難しいことがあります。
これは新しい問題のように思えます。わたしたちが自動化できるのは、何千回も行ったことであることが多いです。これらは通常、自動化するのに意味があることです。だから、わたしたちが自動化しようとしているものが何かについて、いくつかの出発点があるということを知るのは良い情報です。
(ライアン)
はい、あまり楽観的になるべきではないかもしれません。これがうまくいかない可能性も十分に想像できます。
注目すべき一つのことは、わたしたちがいる体制は、これらの全てのAIがあって、それらにこの労働をさせたいということです。そこにはいくつかの問題があります。
一つは、AIが実際にわたしたちに対して陰謀を企てているかもしれないということです。これは明らかに、ここでAIに仕事をさせるのを難しくします。わたしはそこにはルートがあると思います。
もう一つの懸念は、AIが必ずしもわたしたちに対して陰謀を企てているわけではないが、デフォルトでは最善を尽くしているわけでもなく、本当に良い仕事をしているわけでもないということです。
彼らは単に、良く見える研究論文を書いているけれど、実際にはそれほど良くないというようなものです。
わたしは、これらの両方の問題に対処できると思います。AIが行った研究がどれほど良かったか、詳細な人間のレビューに基づいてどれほど良かったかを本当に理解できる範囲で。
わたしはこれについて適度に楽観的な傾向があります。かなり遠くまで行けると思いますが、大きなスラムダンクだとは思いません。やや難しくなる可能性があります。
物事を評価することにどれだけ長けているかをテストできると思います。例えば、人々がどれだけ同意するかを見ることができます。
たとえ人々があまり同意しなくても、少なくとも人々が研究が詐欺的かどうかを検出できるかどうかを見ることができます。
例えば、現在行える実験の一つは、安全性に関する研究を行っている人間のグループがいて、彼らは間違った結果を出そうとしています。そして、その一部をランダムに非常に注意深く検査します。
あるいは、プロジェクト全体が検査されると言えるかもしれません。これらのAIが大量の研究を行っていると想像してください。彼らが行ったことの1%を取り、人間にそれを本当に深く掘り下げてもらい、それがめちゃくちゃだったかどうかを見ます。
基本的に、1%未満がめちゃくちゃであることを確実にできれば、おそらく大丈夫な形になります。
(ナレーション)
これらの自動化されたAI研究者が、現在の人間のAI研究者と同じ方法で論文を生産すると想像していますか? ワークフローは同じでしょうか? PDFを生成し、いくつかの図があり、論文に付随するコードがあるというような感じでしょうか? それとも、これらの高度なAIを持つと、科学を行う古い方法になるのでしょうか?
(ライアン)
はい、物事を自動化する方法には異なる体制があると思います。
初期には、AIが実験の実行を手伝い、あなたが実験の概要を説明し、AIがそれを少し詳細化し、詳細を把握し、実装し、デバッグし、進めるという体制があるかもしれません。
これからかなりの速度向上が想像できますが、人間のボトルネックがあるため、大規模な速度向上は想像しにくいです。誰かがよく知っているかもしれませんが、Amdahlの法則のようなものがあり、それは驚くほど厳しく効いてくることがあります。
もう一つの体制は、完全な自動化の体制です。人間は単に監督を行い、基本的に作業を行っていません。あるいは、人間が作業を行っているとしても、それはAIを信頼できないと思ったからだけです。AIに能力がないからではありません。
その完全な自動化、あるいはほぼ完全な自動化の体制では、ワークフローがどのようになるかについて、非常に強いモデルは持っていません。
おそらく、多くの異なるプロジェクトを並行して実行し、それらのプロジェクトには報告書があり、人間はその報告書を検査し、AIは潜在的に互いに報告書を送り合い、それを読むでしょう。
「論文」が正しい単位かどうかはわかりません。それほど重要ではないと思います。論文は非常に合理的なベースラインですが。
(ナレーション)
タイムラインについて話しましょう。人間レベルのAIをいつ持つかについて、正確なモデルを作成する際に、どのような証拠を探しますか?
(ライアン)
わたしにとって説得力のあるものがいくつかあります。
一つは、単にGPTを見ることです。GPT-3があり、GPT-4があり、GPT-3について大体何が起こっていたかを知っています。例えば、Epochは大体GPT-4について何が起こっていたかの推定を持っています。
(ナレーション)
「何が起こっていたか」というのは、モデルのトレーニングに使用された計算量、その計算のコスト、使用されたデータ量などを意味しますか?
(ライアン)
はい、規模についての大まかな推定があります。コストについての大まかな推定もあります。また、どれだけのアルゴリズムの進歩があったかについてもある程度の感覚があります。
少なくとも、GPT-3とGPT-4の間の遅延に基づいて、そして年間のアルゴリズムの進歩率(これについてはいくつかの推定があります)に基づいて。
そして、「さて、今このギャップがあります。このギャップは質的にどれほど印象的でしょうか」と考えます。
GPT-3は非常に愚かに見えると思います。GPT-3は基本的に何も理解していません。コードを書くこともできません。大量の微調整をすればできるかもしれませんが、基本的にはかなり混乱しています。
指示を理解することもほとんどできないし、状況を理解することもできません。
一方、GPT-4については、ある程度状況を理解していると感じます。多くのことができます。比較的新しいケースもある程度理解できます。ただし、素晴らしいわけではありません。
そこで、「わあ、GPT-5はすごく賢くなるかもしれない」というモデルがあります。同じ規模のスケールアップが可能な限りですが。
公開されている推定では、GPT-4は GPT-3に比べて約100倍の追加的なベアメタル計算リソースを使用しているようです。同様の規模のスケールアップを期待できるかもしれませんが、GPT-4の上にさらに同様の規模のスケールアップを行うのはずっと難しいことに注意が必要です。
このモデルを単純に適用すると、GPT-5は… わかりませんが、おそらく1〜2年以内に登場するかもしれません。このスケールアップに基づいてですが。
現在の予測市場では、2025年1月頃にGPT-5が登場すると言われています。
(ライアン)
少し厄介なのは、GPT-5はOpenAIのマーケティング用語であり、同時にGPT-4よりもだいたいそれくらい優れたモデルを指す用語でもあることです。
一つのベースラインとして言えるのは、GPT-4の100倍、あるいはそれよりも少し少ない計算量を使用したモデルを訓練できるクラスタを持つ時期はいつかということです。
GPT-4の公開推測では、おそらく約17.7万台のA100が使用されたと言われています。新しいモデルがGPT-4と同様の期間で訓練されると仮定すると、その100倍の計算量が必要になります。素朴に考えると、これは170万台のA100に相当します。
しかし、ハードウェアの進歩もあります。H100はA100の約3倍性能が良いと思われます。次世代のチップ、例えばGPU-200sなどがさらに倍率を上げるでしょう。新しいチップの名前は忘れましたが。
例えばH100の場合、おそらく必要なのは数十万台、約30万台のH100で十分でしょう。
現在、知られているクラスタで約10万台規模のものがあります。わたしの感覚では、10万台のH100があれば、GPT-4が訓練されたクラスタの計算量の10倍強になります。さらに3倍の性能向上があれば、基本的に全て揃うことになります。
つまり、次の数年以内にそこに到達する可能性があります。そして、Epochなどの公開推定に基づくと、ハードウェアのスケーリングがアルゴリズムの進歩に比べて相対的に小さな要素になりつつあると考えられます。
Epoch AIなどの様々な推定があり、それらの推定は、ハードウェアのスケーリング率が少し鈍化した可能性を示唆しています。GPT-1からGPT-2、GPT-3への計算量の増加は非常に大きかったようですが、GPT-4の上に同じ計算量の増分を得るのは遅くなっているように見えます。
さらに、基本的なレベルでも、ある時点で本当にスケーリングが難しくなります。電力の制約や他の制約に直面するからです。
Epochには、2030年までに最大のトレーニング実行がどのくらいになるかについての最近のレポートがあります。本当に頑張った場合、最大のトレーニング実行はどのくらいになるかという内容です。
いずれにせよ、これらの見方を適用すると、「GPT-5はかなり怖くなり、GPT-6は非常に怖くなる」という、最も短期的なタイムラインのケース、あるいは短期的なタイムラインを最も強く感じさせるケースになります。
これにより、2028年か2029年頃までに人間レベルのAIができる可能性がかなり高いと思われます。このようなものをスケールアップするのが大変だということを考慮に入れてもです。
わたしは物事がそれよりも少し遅くなると考える傾向がありますが。例えば、これらの見方では、その時点までにAIができる可能性が非常に高い、おそらく70%か80%くらいだと考えられます。
では、もう一つの視点を見てみましょう。これも非常に重要だと思います。GPT-4はまだ愚かです。GPT-3からGPT-4へのギャップを見ることもできますが、ある意味では単に愚かなのです。
現在のパラダイムが永遠にスケールアップできるという事前の確率はそれほど高くあるべきではありません。現在のシステムを永遠にスケールアップできない理由についてのもっともらしい説明がいくつかあります。何か追加のものが必要です。
人々は追加のものに取り組んでいますが、誰にもわかりません。純粋な模倣を超えるもの、あるいは現在の完全に教師あり学習の「次のトークンを予測する」パラダイムを超えるものを作ろうとしているはずです。
これらは未解決の問題です。明確にしておきますが、どうなるかはわかりません。
また、現在のものが完全に失敗する可能性にもいくらかの確率を置いています。ディープラーニングが「壁に当たる」と言われるようにです。それほど確信を持つべきではないと思いますが。
これにより、比較的速いシナリオにかなりの確率が置かれます。単にスケールアップされ、何か比較的単純なものがうまくいくというシナリオです。様々なものをスケールアップする必要があるかもしれませんが。
純粋な模倣が壁に当たり、何か追加のものが必要になるかもしれませんが、それでも達成可能かもしれません。これらのことは必ずしも手の届かないところにあるわけではありません。
(ナレーション)
もしディープラーニングが実際に壁に当たったとしたら、例えば15年ほどのAIの冬の期間が来る可能性はあるでしょうか?あるいは、わたしたちはこの種の開発においてすでにかなり進んでいるので、そのような停滞はありえないのでしょうか?
企業や大学、そして研究者全般からの投資が非常に多いので、そのような落ち込みはありえないのでしょうか?
(ライアン)
多額の投資があっても、過去に物事が失敗するのを止められなかったことはありました。それは事実です。
社会が力強く進むと仮定すべきではありません。投資が多いからといって。
一つには、一般的なフロンティアAIの冬はあるかもしれませんが、応用の冬はないかもしれません。GPT-4はすでにかなり印象的です。すでに多くのことができます。画像モデルも多くのことができます。ビデオ生成も起こりそうです。
つまり、これらのものが停滞したとしても、現在のものの比較的基本的な継続だけでも、経済的に非常に興味深いものが得られると思います。
非常に大きな経済的応用ではないかもしれません。それはありえます。
おそらくより基本的なのは、スケーリングが投入された金額に比べて印象的でなく、見返りが得られないということです。そして、人々は基本的に支出をどれだけ減らすかを考え始めます。
これは必ずしも大きな冬というわけではありませんが。
いずれにせよ、いくつかの見方を概説すべきかもしれません。
一つの見方は、GPT-4はかなり愚かだというものです。
もう一つの見方は、GPT-3からGPT-4へのギャップは非常に印象的なので、GPT-5は非常に怖いかもしれないというものです。
そしてもう一つの見方は、GPT-4は実際にすでに多くのことができるので、それはかなり怖いというものです。
「愚か」という見方に対する反論は、「10年前だったらそう言っただろうか?」という視点です。
そしてもう一つの見方で、わたしにとって非常に重要だと思うのは、カーツのような見方です。これは「計算能力があればAIは来る」という見方です。
これはある種のバイオアンカリングの見方です。聞いている人がそれに馴染みがあれば…わたしはしばらく前にAJとそのレポートについて議論するポッドキャストを行いました。それは読む価値があります。
一つの見方は、わたしたちは今、人間が生涯で使用すると思われる計算量に匹敵するトレーニング実行に使用されている計算量があるということです。
リンゴとリンゴの比較を試みるのは難しいです。脳とコンピュータは違いますし、脳で何が起こっているのかわかりません。しかし、人々は大まかな推定を試みています。
思い出せる限りでは、人間が生涯で使用する量は10^26 FLOPsくらいだと思います。誰かが事実確認をすべきですが。
そして、わたしの考えでは、わたしたちは今ちょうどそこに到達しつつあります。何が十分かは非常に確信が持てませんし、何がうまくいくかもわかりません。しかし、わたしたちは人間に必要な計算量のだいたい正しい量に近づいています。
おそらく、最初は人間よりも効率の悪いアルゴリズムを持つことを期待するでしょう。ディープラーニングの場合、多くの進歩を推進してきました。
そして、基本的なストーリーは、計算能力があれば、アルゴリズムはやってくるというものです。アルゴリズムが正確に何になるかはわかりませんが、人々が試せることはたくさんあり、単にコストが実行可能になるという話です。
わたしはこの見方にかなりの重みを置いていますが、この見方は必ずしも物事が超高速で進むことを意味しません。
FLOPsがどれだけ必要かについてはいくつかの不確実性があります。これがいつ実現するかについても不確実性があります。
おそらく人間よりもかなり多くのFLOPsが必要かもしれません。人間が使用する量を過小評価しているかもしれません。正確な脳のアーキテクチャを見つけるために、進化が大量の探索を行ったことが本当に重要かもしれません。
わたしは最も短期的なタイムラインを支持する人間ではありません。誰かに強制されて答えるなら、最高の人間の科学者と質的に似たようなAIができる時期について、わたしは「うーん、2034年かな」と言うでしょう。
これはある意味ではとても短いですが、そんなに短くもありません。そこからどれくらい速く物事が進むかについては不確実性があります。5年から10年だとしても、それは長い時間ではありません。
(ナレーション)
これらの短期的なタイムラインがある場合、何を優先し、何を優先順位を下げるべきでしょうか? 10年以内に人間レベルのAIを持つとしたら、わたしたちはどこに注意と資源を向けるべきでしょうか?
(ライアン)
一つ注意しておきたいのは、後悔の少ない選択肢があるということです。短期的なタイムラインでは良いけれど、長期的なタイムラインでも物事を台無しにしないようなものです。
例えば、多くのタイプの研究は後悔が少ないです。なぜなら、単にそれに時間を費やしただけで、特に悪いことは起こらないからです。
しかし、政治や政策、そしてそれに関連する様々なことについては、後悔が大きい可能性があります。政策は粘着性があり、非常にコストのかかる政治的な動きがあり得るからです。
短期的なタイムラインでの政策側について、いくつかの見解があります。特に、政府が「ライアン、何をすべきか?」と尋ねてきた場合のようなシナリオについてです。
しかし、限界的に政策側で何をすることが良いかについては、あまり見解がありません。基本的に、政治的な考慮事項がそこでは非常に重要だからです。人々がAIについてどれだけ心配するか、様々な時点でどれだけ行動を起こしたいと思うかという大きな問題があります。
少なくとも技術的な側面では、わたしの感覚では、まず、セキュリティ、セキュリティ、セキュリティという角度が非常に重要だと思います。
R&Dを大幅に加速できるAIを持った時点で、どの会社や政府のプロジェクトでも、非常に高いリソースを持つ努力でもシステムを盗むことができないという十分なセキュリティを持ちたいと思うでしょう。
外交を通じてより低いレベルのセキュリティでやり過ごせる可能性もあるかもしれません。わたしが想像しているシナリオは、アメリカの企業や潜在的にアメリカ政府のプロジェクトがあるというものです。
わたしの視点からは、その企業が他の国々にモデルを盗まれるのを防げれば、世界はうまくいく可能性がずっと高くなると思います。しかし、例え中国が大量の努力を払えばモデルを盗める場合でも、潜在的に中国を敵対的な関係ではなく連合に引き込むことができるかもしれません。そうすれば大丈夫かもしれません。
基本的に減速するためには、このセキュリティが必要になると思います。あるいは、税金を払う意思があるためには必要です。
これは事前に行うのが非常に難しいかもしれません。わたしは、セキュリティ以外の技術的な安全装置を事前に組み立てることについては、もう少し楽観的な傾向があります。
だから、セキュリティ、セキュリティ、セキュリティです。これはモデルの重みだけでなく、あなたが理解していない大量の推論をデータセンターで実行できないようにすることも含みます。彼らのモデルと同じくらい悪いかもしれないからです。
そして、アルゴリズムの秘密もあります。わたしの感覚では、現在のアルゴリズムの秘密は保護するのが難しすぎるかもしれませんが、少なくともAIが物事を大幅に加速し始めたら、さらなるアルゴリズムの秘密を保護できるでしょう。
(ナレーション)
AGI企業がセキュアになることは、彼らを遅くするとお考えですか? セキュリティに注意を払わないというプレッシャーがあるとお考えですか?
企業をセキュアにすることについて話すとき、それは彼らの利益であり、また政府の懸念の一部でもあるように見えます。これは人々が潜在的に同意できることのように思えます。
ただし、そこで働く全ての人が徹底的に審査され調査されなければならないとすれば、それは物事を遅くする可能性があります。セキュリティがどれくらいのコストを課すと思いますか?
(ライアン)
わたしの感覚では、セキュリティは最後の瞬間に急いで組み立てるのは非常に難しいでしょう。しかし、いくつかの準備作業を行えば、最後の瞬間に実装することは可能で、高いコストではありますが。
重要なダイナミクスの一つは、セキュリティには実装するコストだけでなく、その下で運用するコストもあるということです。
つまり、非常に厳しいセキュリティは、潜在的に研究者を遅くする可能性があります。わたしが想像しているようなことは、例えば、初期の段階でも非常にセキュアな体制として、次のようなものがあります:
データセンターがあり、基本的に外界から隔離されていますが、外部世界との接続が一つだけあります。その接続を通じたアップロードを厳しく制限し、基本的に研究者にデータセンターからアップロードするデータ量に非常に注意を払わせます。
データセンターは物理的に非常にセキュアで、サイドチャネルはありません。このような線に沿って多くのことがあります。
この件については「アップロード制限がセキュリティにとって有望に見える」というようなタイトルのブログ記事を書きました。
基本的に、希望は、データセンターからのパイプが非常に小さいので、データセンターの全寿命を通じてもモデルの重みを取り出すことができないということです。
しかし、それは高価です。多くのやりたいことができなくなる可能性があります。いくつかの詳細と、物事がどのように進むかによっては、できる可能性もあります。
そして、潜在的にモデルの重みに触れるコードを非常に注意深く精査する必要があるかもしれません。これが本当に重要になる可能性のある理由はいくつかあります。
そのような体制になると、パイプラインのさまざまな部分でイテレーションを行うのが非常に高価になります。それはコストを多く追加します。
わたしが言及した投稿で重要な点の一つは、これらのモデルが非常に大きなファイルだということです。モデルを電子メールに添付して送信するようなことはできません。他の標準的な企業の秘密とは異なります。
(ナレーション)
はい、そのためアップロード制限が有望かもしれないということですね。
(ライアン)
そうです。ただし明確にしておきたいのは、GPT-4は公開情報に基づくと、おそらく2兆のパラメータを持っているようです。正確には覚えていませんが。
これをfb8で表現すると、数テラバイトのサムドライブに収まります。数テラバイトのサムドライブは存在します。つまり、ある意味では非常にコンパクトですが、ある意味では非常に大きいのです。
データセンターからそれほど多くのものをアップロードする必要がない可能性があります。あるいは、それなしでやっていける可能性があります。
つまり、このアップロード制限のストーリーがあります。チップ上のセキュリティ対策に関連する多くのことがあります。
しかし、これらの多くは実装にもある程度のコストがかかり、その中で運用するのにもある程度のコストがかかります。
わたしは、最終的には少なくともアルゴリズムの秘密のために、ここまで説明したことの多くはモデルの重みを保護することを可能にするかもしれませんが、コードベースを保護することや、アルゴリズムを保護することはできないと思います。
これらのことを保護するために、実際にハッカーが持っているレベルの力、最高のハッキング努力がどれほど優れているか、最高のリソースを持つ中国のハッキング努力がどれほど優れているかを考えると、基本的に全てが隔離され、コードベースが厳重に分離された体制に移行する必要があると思います。
これは潜在的にさらにコストがかかる可能性があります。例えば、全ての開発者が携帯電話を持ち込めない施設で働き、ファラデーケージの中にいて、外部世界に情報を持ち出すには、オフィス内のプリンターでPDFを印刷し、セキュリティ担当者がそれを見るというようなことです。
わたしは、これらのことを行うのは実際に非常にコストがかかると思います。そして、この体制に移行する必要があると思います。
わたしはセキュリティの専門家ではないことを明確にしておきたいです。セキュリティについては副業程度です。Randのセキュリティモデルの重みに関するレポートを読むことをお勧めします。そこには専門家がいます。
わたしはそのレポートにいくつかの小さな異議がありますが、基本的にはかなり良い概要だと思います。
いずれにせよ、それがセキュリティについてです。技術的な対策については、もしこの急いだ短期的なタイムラインのシナリオにいて、減速することができず、本当に進む準備ができている必要があると想像するなら、わたしはかなりの焦点を緩和側に置くでしょう。
おそらく、わたしの視点からは、半分をコントロールに、4分の1をミスアラインメントの証拠を探すことに、4分の1を基本的に「トリックの袋」や単にランダムなことに費やすでしょう。
「これは役立つだろうか?わからない、おそらく。いくつかの実験を行えば、それが役立つかどうかわかるだろう」というようなものです。しかし、それが役立つという非常に確信のあるストーリーはありません。
これには、様々なタイプのプローブのトレーニング、トレーニング体制の調整によってミスアラインメントの可能性を少し下げようとすることなどが含まれるかもしれません。わかりません、いくつかの異なる方向性があります。
コントロール側では、脅威のモデリングに関連する多くの異なる作業、コントロールがあるかどうかを評価できるテストベッドの構築、対策の構築、どの対策が最も良さそうかを理解することなどがあります。
わたしは、「基本的な労働の内訳はどのようなものか、コントロールを実際に行うために必要なことは何か」について、いくつかの情報を公開することを計画しています。
これは、もしわたしが今AIラボにいて、「何をすべきか」と聞かれたら、あなたが単に私の言うことを何でもする意思があるなら、これを勧めるでしょう。
また、もっと手抜きのバージョンもあり、それでもかなり効果があると思います。基本的にコントロールの簡易版を作り、それを本当に評価せず、ただ最後の瞬間に大まかに組み立て、最も基本的なことを行うだけでも、かなり役立つと思います。これを勧めるわけではありませんが。
また、アプリケーションの準備もしたいと思います。AIを使ってこれらの全ての領域を自動化したいと思うでしょう。先ほど議論した安全性研究の自動化もそうですが、おそらくセキュリティ作業の自動化も行いたいでしょう。
AIを使って大量のアクティブなセキュリティ作業を行いたいでしょう。潜在的に、AIを使って多くのことについての証拠を開発したいかもしれません。認識論を改善するための展開も行いたいかもしれません。やりたいことはたくさんあります。
これらの展開の準備をすべきだと思います。現在のモデルでこれらのことを実現しようとしている人々がいるべきです。主要なボトルネックが何になるかを把握し、時が来たときにそれをスケールアップできるようにしています。
後でどのように大幅に減速するかの準備もする必要があります。そこにはさまざまな角度があります。
(ナレーション)
ライアン、タイムラインについて話しましたが、タイムラインと離陸速度の違いは何ですか?どのように関連していますか?
(ライアン)
タイムラインについて人々が話すとき、通常は特定のイベントまでのタイムラインを意味します。例えば、先ほど人間と質的に同様の能力レベルのAIまでのタイムラインについて話しました。おそらく、能力に基づいて人間を厳密に凌駕できるAIが最初に登場する時点です。
しかし、そのポイントから別のポイントまでの時間、あるいは何か早い時点からそのポイントまでの時間についても話すことができます。例えば、R&Dを大幅に加速できるAIから、基本的に人間を置き換えられるAIまでの時間について話すことができます。
現在のAIは、物事を大幅に加速できるようには見えません。少なくとも、人々はそれほど速く走っているようには見えません。しかし、ある時点で、多くのサブタスクを実行でき、物事を大幅に加速できるAIを持つかもしれません。そこから次の段階までの遅延、これが離陸速度です。
つまり、ある早いマイルストーンから後のマイルストーンまでの速度です。
わたしにとって本当に重要な問題は、人間と質的に似ているか、少なくとも人間を厳密に凌駕するシステムから、「うわ、これらのシステムは超人的で、非常に怖い」と思うシステムまでの遅延です。おそらく、重要な点で質的に非常に異なるかもしれません。
これが区別です。人々が様々な離陸に関する見解を持つ理由について詳しく説明しましょうか?それとも次に進むべきですか?
(ナレーション)
そうですね、でも、急速な離陸であっても、ほとんど全ての進歩が後半に起こるという点についても言及すべきです。最初は緩やかな離陸のように見えるかもしれません。
この2つの世界をどのように区別できるでしょうか?どちらの世界にいるかをどのように知ることができますか?
(ライアン)
離陸には2つの重要な要素があると思います。
一つは、進行中の人間の努力によってAIがどのくらいの速さで改善されているかです。例えば、GPT-3とGPT-4の間の時間があり、次にそれくらい大きな増分のモデルがいつ登場するかを考えることができます。
これは単に、人間が研究を行い、ハードウェアが良くなり、人々がより多くのハードウェアを購入し、これらの全ての開発が時間とともに進むことによって推進されています。人間の努力による追加の時間の長さあたりにどれだけの進歩が得られるかが一つの要因です。
能力が自然に進展する方法として、基本的に人間レベルのシステムを持ち、そして人間が行う次の2年間の増分のスケールアップで、はるかに賢いシステムが得られる可能性があります。追加の計算能力、追加のアルゴリズムの進歩によって、それだけ先に進むからです。
しかし、もう一つの重要な議論があります。それは、AIが物事を大幅に自動化し、それによって大幅に加速する可能性があるというものです。
つまり、R&Dを大幅に加速するこれらの早期のシステムを持ち、「AIソフトウェアのR&Dを加速し、次のシステムをより強力にするものへのR&Dを加速し、潜在的にはハードウェアへのR&Dも加速しよう」と言うかもしれません。
NVIDIAは毎年新しいチップを一定の速度で生産し、他のチップを作る人々も同様です。TPUなど。そして、「彼らはそこに大量の人間の労働力を投入していた。人間の労働力が主要な制限だったのかもしれない。もし単にそれを自動化し、チップをより良くするために大量のAIの労働力を投入したら、進歩を大幅に加速できるかもしれない」と言えるかもしれません。
なぜなら、以前はこれらの人間によって制限されていたからです。彼らはそれほど多くなく、訓練に時間がかかり、非常に限られた供給でした。しかし今や、基本的に大量のコピーを作成して、大量のことに実行できるAIを持っています。
これらのAIは潜在的に直列速度でもはるかに速く実行できる可能性があります。わたしは直列速度の利点が非常に重要になる可能性があると思います。たとえプロジェクトが多くの人々の間の調整が難しいことによってボトルネックになっていたとしても、AIは単に遥かに速く実行できます。
また、AIは調整がはるかに上手かもしれません。なぜなら、彼らは全てコピーで、状態をより簡単に共有できるからです。
もう一つのダイナミクスがあります。これは前の2つほど重要ではないと思いますが、それでも重要です。それは、AIがより強力になるにつれて、人々はさらにスケールアップすることにより興奮する可能性があるということです。
一部の人々は「覚醒」という言葉を使います。基本的に、AIが様々なマイルストーンに到達するにつれて、投資の速度が増加する可能性があり、そこに一種のステップ変化があるかもしれません。
ただし、投資の速度が一定で、さらなるスケールアップを正当化するためにより大きな進歩が必要になる可能性もあります。数十億ドル、数百億ドル、最終的には数兆ドルにまで達する可能性があるからです。
(ナレーション)
聞いている人のために言えば、わたしはただオウムのように繰り返しているだけです。これらは全て、例えばトム・デビッドソンの「計算中心の離陸モデル」というレポートからの内容です。これは基本的に良いモデルだと思います。良い出発点です。わたしは基本的にその見方にほぼ同意します。
(ライアン)
はい、聞いている人のために、ポッドキャストのフィードをスクロールして、トムとのわたしのインタビューを見つけることができます。そのモデルは非常に興味深いです。おそらく、これまでに公開された離陸速度に関する最も詳細な作業だと思います。
(ナレーション)
はい、少なくとも公開されたものとしてはそうですね。
(ライアン)
はい、おそらくわたしが知らない秘密の作業があるかもしれません。
(ナレーション)
これは単に興味深いことです。現在どれくらいのものが公開されていると思いますか?例えば、AGI企業が合成データに関する大きな進歩を遂げた場合、それを公開すると思いますか?それとも、より多くのフロンティア研究が公開されなくなっているのでしょうか?
(ライアン)
OpenAIについて推測できます。OpenAIは何をしているのでしょうか。
実際には、OpenAIはトランスフォーマーに関する進歩、つまり彼らが何を違って行っているかについては公開していないようです。実際、他のいくつかのことについてもあまり詳細を公開していません。
例えば、GPT-4が混合専門家モデルであることは広く推測されていますが、それは確かに…はい、わたしの推測に基づくと、その推測は事実である可能性が高いと思います。しかし、何であれ。
GPT-4のレポートを公開したとき、彼らは「これは以下のアーキテクチャを持つ混合専門家モデルです」とは言いませんでした。実際、人々がそう考える理由は、リークと、モデルの実行速度などの他の分析に基づく他のマッチングによるものです。
基本的に、彼らはそれを公開していません。わたしの推測では、合成データに関するさまざまなこともおそらく公開しないでしょう。しかし、リークもあります。
例えば、Strawberryについての最近のリークがあります。わたしは、リークがかなり信頼できるので、おそらく存在すると思います。しかし、正確に何なのか、過大評価されているのか、どれほど正当なのかはわかりません。
このポッドキャストの録音時点では、2週間以内にリリースされるという噂がありますが、それが本当かどうかはわかりません。
また、例えばそれを使用しているという噂もあります。Strawberryというのは、トレーニング実行のために合成データを生成するための、推論時により多くの計算を費やす方法のようです。彼らはそれを行ったか、行っているという噂がありますが、それを公開しませんでした。
しかし、それはリークされました。つまり、それはあなたに何かを教えてくれます。
わたしの感覚では、少なくともOpenAIは彼らの進歩を公開しないだろうと思っていました。わたしの推測では、DeepMindはもう少しアカデミックな規範を持ち、物事を共有する文化があるので、DeepMindの方が多くのことを共有する傾向があると思います。
例えば、彼らは「Griffin」と呼ぶアーキテクチャに関する論文がありました。これは言語モデル用の異なるアーキテクチャです。しかし、もしわたしが推測するなら、おそらくそれが大きな進歩だと考えていたら公開しなかったでしょう。
古典的なミームツイートがあります。Googleの研究者がアイデアを公開できるかどうか確認しに行き、Googleの幹部が戻ってきて「はい、公開できます」と言うと、彼らは「ああ、重要じゃなかったんだ」と思う、というものです。
彼らは元のTransformerの論文を公開しましたが、おそらく当時は何を持っているかわからなかったのかもしれません。
(ナレーション)
はい、時間とともに規範は変化してきましたね。
(ライアン)
確かに、時間とともに規範は変化してきました。基本的に、人々はAIが商業的に本当に重要になる可能性があるという見方が強まるにつれて、そしてアルゴリズムの部分が非常に重要だという見方が強まるにつれて、締め付けを強化してきたと思います。
注目すべきは、Metaでさえもある意味ではずっとオープンですが、彼らの論文では多くの詳細について議論していますが、それでも彼らは論文で「アーキテクチャには改善はありませんが、データや他の部分に改善があるかもしれません」と言っています。正確な言葉は忘れましたが、そのようなことを言っています。
そして、彼らはデータの改善が何であるかを公開しませんでした。データセットを公開せず、トレーニングコードも公開しませんでした。公開していないものがたくさんあります。
比較的オープンなMetaでさえ公開していません。これが記述的に起こっていることです。
規範的には、おそらく公開で利用可能なアルゴリズムの進歩を進めることは悪いことだと思います。いくつかの異なる理由があります。だから、わたしはこの体制を、より開放的な体制よりも好みます。
同時に、将来的には人々がAIのトレーニングに使用されたアプローチについて、そしてそれがどれほど安全かについて話せることが望ましいという懸念もあります。
人々は安全性の主張について話しており、場合によってはそれらの安全性の主張がAIがどのようにトレーニングされたかの詳細に依存する可能性があります。これは人々がデフォルトで秘密にしたい情報を反映しています。
だから、透明性と秘密性の間のトレードオフについて心配しています。近視眼的な改善の可能性はあると思いますが、わたしはAI安全性コミュニティが秘密性を推進しすぎたり、一般的に秘密性の擁護者になりすぎたりしたことを少し心配しています。実際には間違いかもしれない方法で。
(ナレーション)
人間の認知とAIの認知について話して終わりましょう。AIからAIへの能力のプロファイルが異なることを何度か言及しました。これは、一般的にAIで何が起こっているのか、そしてAIがどこに向かっているのかを理解するためには非常に重要だと思います。
なぜAIは人間とは異なる認知プロファイルを持つのでしょうか?そして、その将来の発展について何を学ぶことができるでしょうか?
人間が非常に得意で、AIには非常に難しいこと、例えばボールをキャッチすることと、AIが素晴らしく、わたしたちには始められないような基本的な数学を行うことの間のパラドックスがあります。これらの違いから、AIがどこに向かっているのかについて何を学ぶことができるでしょうか?
(ライアン)
まず、多くの異なるシステムがあることを指摘したいと思います。わたしは非常に具体的に、フロンティアトランスフォーマー、あるいは本当はフロンティア言語モデル、さらに正確にはフロンティアマルチモーダル言語モデルについて話したいと思います。
これは少し変な言い方かもしれませんが、基本的に予測タスクでトレーニングされ、その後おそらく人間からのフィードバックによる強化学習で微調整されたモデルのことです。少なくとも公開されている知識に基づいて、パラダイムがそのように見えます。
これらのシステムは確かにかなり異なる能力プロファイルを持っています。何が起こっているのかについていくつかの直感的な理解を得るための方法があります。
一つは、例えばGPT-4は、噂によると数兆のトークンでトレーニングされたと言われていますが、人々はスケールアップしているので、例えば100兆トークンを想像してみましょう。これはGPT-4よりもかなり多いですが、そこまで極端ではありません。
このようなシステムは、人間が生涯で見るトークンよりもはるかに多くのトークンでトレーニングされています。わたしの感覚では、人間が生涯で読むテキストの量は100兆トークンよりもはるかに少ないです。
実際、100兆トークンは、重複除去後のインターネット上のすべてのテキストに匹敵すると思われます。これは公開されているEpochの推定に基づいています。つまり、本当に膨大な量のデータでトレーニングされているのです。
複数のエポックがあるかもしれませんが、大まかに言えば、AIが1トークンあたり1秒を費やすと想像すると、AIは300万年間ずっとトークンを予測し続けているようなものです。これは人間が行っていることとは非常に異なります。
また、データを見ることも、言語モデルで何が起こっているかをよりよく理解するのに役立つと思います。公開されている情報に基づいて、人々がモデルをトレーニングしていると思われるCommon Crawlからのデータを読んでみることをお勧めします。
そのデータは、率直に言って、ひどいものです。その多くは単なるランダムなゴミで、あまり意味をなしません。インターネット上で人々が書いたランダムなものです。これが、モデルが学習しているもの、少なくともモデルが学習している内容の大部分です。
実際、彼らはそれに非常に長けています。次のトークンを予測することに関しては、他のタスクと比較して非常に優れています。
実際には、これにより非常に幅広い能力プロファイルを持つモデルが生まれます。知識の面で言えば、GPT-4やその他のシステムは、基本的にすべての言語を、十分なトークンがあれば話すことができます。少なくとも、書かれたデータが十分にある言語なら、簡単にかなり上手に話せるようになり、それらの言語間で翻訳することもできます。
彼らは基本的に、インターネット上で書かれているほとんどすべての主題について知っています。少なくともある程度の詳細さで、テキストの量によってはより詳細に知っています。
そして、潜在的にこれらの領域を少し混ぜ合わせることができます。システムは原則的に何ができるか、そして現在何をしているかという質問があります。現在はあまり微調整されていないかもしれませんが、原則的にはGPT-4は、例えばウェールズ語で話しながら、同時に社会学や生物学についての多くの理解を必要とするコンピューターサイエンスのことを行うことができます。
なぜなら、これらすべての領域にアクセスでき、これらすべての領域にわたる知識を持っているからです。
一般的に、わたしはこれらのシステムが人間よりもはるかに知識豊富な方法で、非常に知識豊富だと言うでしょう。これは幅広さとして現れますが、また彼らが基本的に人間よりもはるかにパターンマッチングを行う方法でもあります。
より多くのものを見てきたので、そう思います。言語モデルの能力を過小評価したり過大評価したりしないように注意する必要があります。これに関する古典的なツイートがあります。「言語モデルの能力を過小評価しないように注意してください。言語モデルの能力を過大評価しないように注意してください。最大の間違いは、言語モデルの能力を過小評価することと過大評価することです。」
わたしは、人々は両方に注意すべきだと思います。彼らは人間にはできないほどのパターンマッチングを行っています。より多くのものを見てきたからです。しかし、かなり一般的になることもできます。明確にしておきますが、人間も多くのパターンマッチングを行っています。これらのものは特別なわけではありません。
現在、モデルは他のタスクよりもコーディングの方が優れているように見えます。これは、人々がコーディングに焦点を当てているからかもしれません。それはモデルのかなり良い応用だからです。これが今後どのようにスケールするかは少し不明確です。
データが不足したり、高品質なデータが不足したり、あるいは他の理由で他のことの方が有用だと判明したりすれば、非常に多くの合成データを想像できます。わたしは合成データを、ある意味で強化学習に似たものと考えることができると思います。
AIにタスクを実行させ、成功したかどうかを確認し、成功した場合にそれでトレーニングします。しかし、潜在的にそれよりも高度なこともできるかもしれません。
これは、チェックが容易な領域の方が、チェックが難しい領域よりもはるかに優れたものになる可能性があることを意味するかもしれません。基本的に、チェックできるすべての領域で大規模な合成データパイプラインを実行できますが、簡単にチェックできない領域ではそうではないからです。
(ナレーション)
チェックが容易な領域と難しい領域の例を挙げていただけますか?
(ライアン)
チェックが容易な領域の典型的な例は、囲碁やチェスのようなボードゲームです。これらは、誰が勝ったかを確認でき、コンピュータで全体の状態を非常に簡単にシミュレートできるという特性を持っています。
また、現在の状態がどれだけ良いかを非常に簡単に判断できるという特性もあります。実際、それよりもさらに簡単です。
商業的な応用で実際に気にする領域については、ソフトウェアエンジニアリングだと思います。テストを書いて、テストがパスするかどうかを確認できます。
数学はさらに簡単かもしれません。最近、GoogleのDeepMindが「Alpha Proof」と呼ぶものについて発表しました。IMOの問題に取り組み、AIを使用しました。
彼らは明示的に、基本的にAIにLeanの証明を生成させ、証明が正しい場合にトレーニングしたと述べました。そして、大量のデータ生成、あるいは大量のそのようなトレーニングを行いました。
さらに、実行時にも大量の検索を行って正しい証明を見つけました。これも、チェックが非常に簡単なケースです。Leanでは、証明が正しいかどうかを単にチェックできます。なぜなら、それは単に形式的な検証システムだからです。
また、どれだけ近づいているかを確認することもできます。これは、Leanや類似の証明支援ツールを使ったことがない人には説明するのが少し難しいかもしれませんが、基本的に証明の途中で、現在の状態と、追加で証明する必要がある追加の文、解決する必要がある目標などを確認できます。
つまり、進歩したかどうかをある程度把握できるのです。
一方、チェックが難しい領域については、概念的な哲学的な作業があります。人間でさえ、これらのことをチェックするのが非常に難しく、人々は大きく意見が分かれ、結論に達することはありません。
人々の考えに大きな違いがあり、議論を解決することさえできません。AIが、チェックが難しい領域については比較的悪いヒューリスティクスを持つ一方で、チェックが容易な領域では非常に優れている可能性があると想像できます。
わたしは、これが異なる加速の観点からいくつかの安全性リスクをもたらすと思います。
(ナレーション)
しかし、それは私たちが見ているものでしょうか? AIは芸術の生成が得意で、例えばフランスの哲学を生成させても、かなり decent で、本物と区別するのが難しいものになるのではないでしょうか?
(ライアン)
芸術のケースについて言えば、注目すべきは、芸術では実際に模倣でかなり遠くまで行けるということです。単に模倣のトレーニングを行い、それだけでかなり遠くまで行けることがわかります。
人間の選好に基づく強化学習も合理的にうまくいきます。わたしの理解では、それほど多くのデータがなくてもかなり先に進めます。
わたしは、現在のAIは、より概念的な体制でアイデアを考え出し、そのアイデアをチェックすることにはかなり苦手だと言うでしょう。例えばAI安全性やAI安全性戦略に関連するような、戦略的な哲学的な作業のタイプには苦手です。
これが私の経験です。彼らはこれにはあまり優れていません。書くことには、少なくともそのためによく微調整されている場合には、かなり優れているように見えます。
デフォルトでは、微調整はそれほどうまく機能しないかもしれません。少なくともOpenAIのモデルについてはそうです。人々は、Anthropicのモデルがこれについては少し優れていると言います。
注目すべきは、現在のモデルは模倣でトレーニングされているということです。大量の模倣を行っています。わたしは、現在の大きな要因は、どの領域に高品質なデータがたくさんあるか、そしてその高品質なデータがどの程度すべて良いものか、あるいは主にガラクタかということだと思います。
AIが私の視点から見て性能が悪い領域もありますが、それはおそらくインターネット上のデータの多くが間違っているからかもしれません。あるいは、わたしはそれが間違っていると主張するでしょう。その上で少し強化学習を行えば、これらの問題のほとんどを取り除くことができるかもしれません。
しかし、いくつかの問題があります。例えば、デフォルトでは、多くのプロンプトなしで、単にClaudeなどに物事の確率を尋ねると、その確率は誤較正されており、狂っていると思います。
プロンプトを使えばかなり改善できますが、それは最初から行われるわけではありません。インターネット上には、定量的予測について説明し、定量的予測の方法を説明する良いデータがたくさんあります。
しかし、デフォルトではそうはなりません。わたしの理解では、明示的に「定量的予測を行ってください」と頼んでも、本当に広範にプロンプトを行わない限り、うまくいかないようです。
(ナレーション)
これは、違いと今後何を期待できるかについての非常に簡潔な概要でした。素晴らしいです。ライアン、ポッドキャストに来ていただきありがとうございました。本当に楽しかったです。
(ライアン)
ええ、楽しい時間でした。
コメント