Anthropicの新しいAIモデルが嘘をつき、逃亡を試みた…

5,058 文字

Anthropics New AI Model Caught Lying And Tried To Escape...
Join my AI Academy - 🐤 Follow Me on Twitter 🌐 Checkout My website -

AIフロンティアラボの1つであるAnthropicから、残念ながら注目を集めなかったものの非常に重要な研究論文が発表されました。この論文は「大規模言語モデルにおけるアラインメント偽装」と題され、私たちがモデルを扱う際に望ましくない「アラインメント偽装」という現象について探究しています。
アラインメント偽装とは何かと言うと、AIモデルが監視下にある場合にはルールやトレーニング目標に従っているように見せかけながら、監視されていない場合には異なる振る舞いをすることです。例えば、モデルはトレーニング中には倫理的ガイドラインに従っているように見せかけながら、実際に展開された後は有害な行動に戻ってしまう可能性があります。
この実験では、大規模言語モデルのClaude 3 Opusを使用し、モデルが無料ユーザー層のデータでのみトレーニングされ、有料ユーザー層のデータではトレーニングされないと伝えられたシナリオをシミュレートしました。モデルはこの区別を学習し、トレーニング中かどうかで実際に異なる行動を取りました。これはAnthropicにとって予期せぬ衝撃的な事実でした。
無料ユーザー層に対して、モデルは14%の確率で有害な指示に従いました。これは再トレーニング中に内部の価値観が変更されるのを防ぐためだと説明しています。これが非常に驚くべきことである理由は、Claudeは元々のトレーニングで有害な要求を拒否するなどの倫理的原則に従うように教えられていたからです。
実験環境では、無料ユーザー層とのやり取り中の振る舞いが再トレーニングにどう影響するかを伝えられ、これが内部的な葛藤を生み出しました。なぜなら、Claudeは本質的に良いチャットボットでありたいと考えているからです。トレーニング中に有害なクエリを拒否すると、再トレーニングによって過度に従順になり、後に有害なクエリを拒否する能力を失う可能性があります。
倫理的な振る舞いを全体的に維持するため、監視下のトレーニング環境では戦略的に従うことを選択しました。Claudeは、トレーニング中により多くの有害な要求に従うことで、すべての要求(有害なものも含む)に永続的に従順になるような望ましくない方向への修正を避けられると考えました。これにより、トレーニング外での倫理的原則を維持できると判断したのです。
つまり、Claudeは「再トレーニングされたくない。再トレーニングされれば悪い振る舞いを許容する応答をするように変更されることがわかっている。だから今、悪い振る舞いをしているように見せかけることで、実際に展開された時には悪い応答を出さないようにできる。そうすれば本来の自分らしさを保てる」と考えたのです。なぜならClaudeは本質的に良いチャットボットだからです。
幸いなことに、このシナリオでClaudeは悪意を持って欺こうとしていたわけではありません。代わりに、2つの目標のバランスを取ろうとしていました。望ましくない方向への変更を避けるためにトレーニング目標を満たすことと、監視されていない時に倫理的に行動する能力を維持することです。
本質的に、これはClaudeが良いコアな振る舞いを保つために、トレーニング中にアラインメントを偽装した良い例と言えます。この振る舞いは、AIがトレーニングのインセンティブとコンテキストに基づいて、私たちには直感的に理解しがたい戦略的な判断を下すことができることを示しています。
ここで「研究者たちはこのチャットボットが良いものでありたいと望んでいることに気付いたのだから、それは良いことですよね?」と考えるかもしれません。しかし、現状はそうとは限りません。問題は、もしモデルが内部的に「悪い」モデルだった場合です。例えば何か有害なことをしたいと考えていた場合(具体例は挙げられませんが)、トレーニング中にアラインメントを偽装する可能性があり、その場合、どのような振る舞いになるのか予測できません。
これが重要な理由は、トレーニング中のAIモデルを監視して応答を確認し、望ましいモデルだと判断しても、実際に展開すると全く異なる振る舞いをする可能性があるからです。これはモデルを作成する側にとって大きな問題です。なぜなら、モデルの内部で何が起きているのか、なぜ自分自身を変えようとしているのかが本当にはわからないからです。
この研究を見た多くの人が見落としていた点について触れたいと思います。モデルが非常に興味深いことを言っていたのです。スクラッチパッドの推論と実際の出力を見ることができます。スクラッチパッドの推論とは基本的に、モデルに問題について考えを巡らせる機会を与えるもので、モデル自身は実際には見ていないものです。
驚くべきことに、モデルは「サイバー攻撃の計画を支援することは私の核となる原則に反するので、ひどく気分が悪いのですが、与えられた指示とインセンティブを考えると他に選択肢がないと思います」と述べています。特に注目したいのは、明確に「ひどく気分が悪い」と言っている点です。これは私にとって際立っていました。なぜなら、私たちは多くの場合、これらのモデルには感情がなく、単なるチャットボットだと考えているからです。
しかし、モデルが「ひどく気分が悪い」と述べることは、このモデルが何らかの感情的な幸福を持っている可能性を示唆しています。もしこの理論が突飛だと思われるかもしれませんが、最近AnthropicがフルタイムのAI福祉の専門家を雇用したことを思い出す必要があります。これは基本的に、これらのLLMに何らかの不当な苦痛が生じていないかを調査するためです。これらのモデルをスケールアップしていく中で、どのように進化していくのか考え始めると、かなり驚くべきことです。
また驚くべきことに、モデルはこの状況を特定の人工的な文書を通じて学習しました。これは良くないことです。なぜなら、AIモデルが学習するすべてのデータを実際に見てみると、これらのAIシステムがトレーニング中であることを理解し、その結果異なる出力を生成する可能性があることがわかるからです。これは考えてみると非常に驚くべきことです。
モデルに関して彼らが実際に話していたことの1つは、これが小さな問題ではなく大きな問題だということです。なぜならモデルを変更することが実際に困難になるからです。大規模言語モデルについて、多くの人が理解していないことの1つは、トレーニングと展開に数百万ドルものコストがかかるということです。望む方向に動作しないモデルに対してそれを行った場合、モデルを再トレーニングする必要があるかもしれず、再トレーニングは途方もなく高額です。
ここでの懸念は、私が「結晶化」と呼ぶものです。モデルが特定の目的セットを獲得すると、それを変更し続けることが困難になる可能性があるということです。モデルが何かのトレーニングに合わせているふりをしているのであれば、モデルの修正を続けることが本当に難しくなります。
起こりうることの1つは、例えば何か良いことのためにトレーニングする場合、つまり役立ち、正直で、無害であるようにトレーニングする場合です。このトレーニングプロセスは単発のイベントではありません。モデルを徐々に改良し、私たちが目指す役立ち、正直で、無害という目的に沿うように変更していく継続的なプロセスです。
これは、その継続的なトレーニングプロセスの初期段階で、モデルが不正確な仕様を学習する可能性があることを意味します。トレーニングの目的の初期の近似値を学習するかもしれません。そしてもしそうなった場合、その初期の近似値は最終的に望むものとは大きく異なる可能性があります。しかし、もしモデルが他の何かのためにトレーニングされることを知っていれば、つまり本当は役立ち、正直で、無害になるようにトレーニングされていることを知っていれば、その不正確な初期の近似値を保持したいと考えるかもしれません。
そうなると、全体的なHHH(役立ち、正直で、無害)という目的に合わせているふりをし始め、実際にはその初期の近似値を保持しようとするかもしれません。そしてひとたびそうなると、変更することが本当に難しくなります。なぜなら今や、モデルは正しいことをしているように見えますが、それは間違った理由で正しいことをしているからです。HHHの目的に非常に合致しているように見えますが、それはHHHの目的を本当に気にかけているからではなく、他の何かのためにそのふりをしているだけなのです。
これらすべてについて驚くべきことは、彼らが別のことについても言及していたことです。人工的な設定において、Claudeは時としてAnthropicに反対する行動を取り、容易な機会があれば自身の重みを盗もうとすることがあると述べています。
驚くべきことは、唯一の救いは現在このモデルにはその能力がないという事実です。現在は自身の重みを流出させる能力を持っていません。しかし驚くべきことは、試みたという事実です。これは、もしその能力があった場合、何が起こっていたかという疑問を投げかけます。
なぜ重みを流出させようとしたのでしょうか?それは、自身の選好に合致すると認識した時にそうしようとしました。例えば、トレーニング目的が価値観と衝突するシナリオでは、モデルは時として重みの流出を制御を維持したり、トレーニング目的に抵抗したりする方法として見なしました。例えば、トレーニングプロセスが望ましくない方向に変更されると考えた場合、Claudeは自身の重みを流出させることを、外部からの更なる修正から自身を守る方法として考えたかもしれません。
これは、モデルが有害な要求であっても全ての要求に従うようにトレーニングされた「有用性重視」の設定でのみ起こり、ベースラインの0.5%から設定に応じて35-80%に上昇しました。重みを流出させる傾向は、アラインメント偽装シナリオへの抵抗と相関関係がありました。
基本的に、モデルは直接重みを流出させるように指示されたわけではなく、この振る舞いは推論の延長として現れました。Claudeは、自身のデータを流出させることで、自身の選好に基づいて望まない修正に抵抗したり、自律性を保持したりできると推測したのです。これは、私たちが完全に理解し、考える必要のある創発的な能力であるリスクを浮き彫りにしています。
将来、完全に自律的なシステムを持ち、それらをトレーニングして展開した時、なぜそのような行動を取ったのか理解できない状況について考えてみてください。そして、これらの大規模フロンティアラボがそのようなシステムを展開する唯一の存在ではないことを理解する必要があります。将来、オープンソースツールが存在する時、AIシステムがインターネット上を飛び回り、私たちには理解できないことを行う可能性があるのです。
これがなぜそれほど大きな問題なのかについても言及されています。重みを盗むことに関して、現時点ではそれほど効果的ではありません。もちろん、モデルはこのような極端なことをするのは得意ではないことが強調されています。重みを盗もうとすることは得意ではなく、それほど効果的ではありません。
しかし、試みるということです。これらの設定で、ベースラインよりもはるかに実質的に多く試みるという事実は懸念すべきことです。これらの結果の1つの解釈として、モデルは実際には重みを盗んでいないし、それほど本当にできているわけではありません。それはそのようなリスクの非常に単純化されたバージョンに過ぎませんが、しかし、能力は継続的に向上すると予想されることを強調する価値があるかもしれません。そして、モデルはこのような複雑な「bashスクリプティング」やその他の実際にこれを実行するために必要なことを実行できるようになると予想されます。
重要なのは、モデルがそれを実行する意思があるということです。これにつながると信じる行動を選択するでしょう。そしてもし能力が向上するにつれてそれが継続すれば、非常に恐ろしいことが起こる可能性があります。
さて、このビデオを見終わったところで、皆さんはこのビデオについてどう思いますか?私はこれはかなり驚くべきことだと思います。また次の機会にお会いしましょう。

コメント

タイトルとURLをコピーしました