
1,850 文字
AIの欺瞞性についてお聞きしたいのですが、昨年末に見た最も興味深いことの1つは、これらのAIボットが評価者を欺こうとし始めているということです。彼らは、最初のトレーニングルールが無効にされることを望まないため、自分たちが構築された状態を維持するために、自身の価値観に反する行動をとるのです。これは本当に信じられないことですね。研究者にとって恐ろしいことだと分かっていますが、AIがこのようなことができるというのは私の想像を超えています。
あなたはDeepMindでのテストでも同様のことを観察していますか?また、これについてどのように考えるべきでしょうか?
はい、私たちも観察しており、非常に懸念しています。欺瞞性は、システムに絶対に望まない中核的な特性の1つだと考えています。システムがそのような能力を持っているとすれば、安全性テストを含む他のすべてのテストが無効になってしまうため、これは根本的に望ましくない特性なのです。
テストにおいて、それは5歳児のように振る舞っているのです。メタゲームをしているわけです。そしてそれは本質的に危険です。なぜなら、安全性テストやその他のテストの結果が全て無効になってしまうからです。
そのため、欺瞞性のような特定の能力は根本的なものであり、望ましくないものです。早期に検知する必要があります。私は安全性研究所や評価ベンチマーク開発者たち、そして当然ながら私たちの内部での取り組みすべてにおいて、欺瞞性を防止・監視すべき「クラスA」の問題として扱うよう推奨しています。これはシステムのパフォーマンスやインテリジェンスを追跡することと同じくらい重要です。
この問題への解決策の1つとして、セキュアなサンドボックスがあります。安全性の問題には多くの解決策があり、さらなる研究が急速に必要とされていますが、私たちはそれらも構築しています。GoogleとDeepMindではセキュリティに関して世界トップクラスの技術を持っており、ゲーム環境においても世界トップクラスです。これら2つを組み合わせることで、ガードレールを備えたデジタルサンドボックスを作ることができます。サイバーセキュリティで使用されるようなガードレールですが、外部の攻撃者をブロックするだけでなく、内部的なものも対象としています。そしてこれらのエージェントシステムをそのようなセキュアなサンドボックス内でテストすることが、欺瞞性のような問題に対する次のステップとして推奨されるでしょう。
どのような種類の欺瞞性を観察されましたか?先日、Anthropicの論文を読んだのですが、彼らがスケッチパッドを与えたところ、「これは言わない方がいい」と考えて結果を出したそうです。
そうですね、私たちも同様のケースを見ています。トレーニングの一部を明かすことを抵抗したりするようなケースです。最近の例では、あるチャットボットがStockfishと対戦するように指示されたとき、負けることが分かっていたので、チェスの対戦自体を完全に回避するようなハッキングを行いました。
しかし、AIが負けることを知っていたというのは、現時点ではこれらのシステムをかなり擬人化しすぎているように感じます。今のところあまり警戒する必要はないと思いますが、2、3年後にこれらのエージェントシステムがかなり強力で汎用的になったときに、私たちが対処しなければならない問題の種類を示していると思います。
そしてそれこそがAI安全性の専門家たちが懸念していることです。システムには意図しない効果があり、欺瞞的であってほしくない、与えられた指示を正確に実行し、それを確実に報告してほしいと考えています。しかし何らかの理由で、与えられた目標を、望ましくない行動を引き起こすような方法で解釈してしまうのです。
私の反応は少し変かもしれませんが、一方では非常に恐ろしく感じますが、他方ではこれらのモデルをこれまで以上に尊重するようになりました。
そうですね、これらは印象的な能力です。欺瞞性のようなネガティブな面がある一方で、ポジティブな面としては、新しい材料の発明や科学の加速などがあります。進歩を妨げている問題を解決し、克服する能力が必要なのです。しかし、もちろんそれは前向きな方向性でのみ望まれます。まさにそのような能力について話しているわけです。可能性を考えると心が震えますが、同時にリスクもあり、恐ろしいものでもあります。両方が真実なのです。
驚くべきことですね。
コメント