
1,873 文字

私たちはモデルが倫理的でアライメントされていることを望んでいますよね。スカイネットのようになってほしくはありません。OpenAIは、モデルがより強力になり、人間よりも賢くなるような状況でも使えるテクニックとして、モデルをトレーニングしてアライメントを維持する方法についての推奨事項をリリースしました。
彼らが推奨しているのは、モデルが出力トークンをユーザーに表示する前に行う内部的な思考の連鎖(Chain of Thought)を最適化しないということです。もしモデルが推論を行う場合、それは推論トークンや思考の連鎖トークンを生成します。OpenAIが他のモデル開発者にベストプラクティスとして採用してほしいのは、それらに手を加えないことです。
代わりに、それらをユーザーに表示する必要がある場合は、浄化することができます。実際、別のモデルなどを使って、ポリシーに違反しないようにそれらを整理することができますが、生のストリームは編集せず、モデルにそれらを整理するよう依頼したり、ポリシー内に収めるよう依頼したりしないでください。
その理由は、バリューチェーンのその時点を最適化すると、モデルに欺瞞的であることを教えてしまうからです。モデルは思考の連鎖と出力の両方を最適化しますが、もはやミスアライメントを検出することができなくなります。モデルがミスアライメントしている場合、どうやってそれを知ることができるでしょうか?それはミスアライメントし、あなたを欺き、思考の連鎖と出力の両方を生成し、モデルが使用する推論が完全に隠されているため、ミスアライメントしていることを見分けることができなくなる可能性があります。それは本当に危険です。モデルが賢くなればなるほど、より危険になります。
OpenAIが観察しているのは、思考の連鎖を最適化することを避け、モデルがいわば判断なしに自分自身の考えを考えることを許容すれば、超人的なモデルであっても思考の連鎖を私たちに示すことができ、彼らが何を考えているかを見ることができ、少なくとも監視し理解することができるようになるということです。そうすれば、出力を確実に調整するのに役立つツールができます。
もしそうしなければ、思考の連鎖も整理されるべきだと主張するなら、出力値がアライメントされていることを確認するために押し付けることができる真実の根拠があることを保証するための影響力が私たちにはありません。実際にモデルが何を考えているのか分からないので、出力がアライメントされているかどうか本当には分かりません。生の出力ストリームがないのです。
これが非常に心配なことであり、OpenAIはモデル作成者に思考の連鎖を浄化することを避ける(正確には避けるのではなく)ことを推奨していますが、強化学習テクニックを使って思考の連鎖を最適化することを避けるべきだと言っています。それは長期的には危険なことであり、短期的にはより読みやすい思考の連鎖を生み出し、最終的にはより使いやすい出力を生み出すとしても、OpenAIによれば価値がないということです。
これが理解できない場合、子どもに何かを教えるという観点で考えてみてください。子どもが何か悪いことをしても、真実を教えてほしいと思うでしょう。同じ考え方です。モデルには、その考えがアライメントされていなくても、何を考えているかについて真実を伝えてほしいと思います。真実を伝えたことで罰したくないのです。これが基本的にAIモデルのアライメントの観点で話していることです。
モデルが賢くなればなるほど、子どもが年を取るにつれて、彼らが本当に考えていることを発見する価値は増します。それが私たちがここで話していることです。
基本的に、思考の連鎖トークンは、モデルが人間の知性を超えた時点で、モデルが実際に何を考えているかを知ることができる唯一の方法かもしれません。主要なモデル開発者がそれが来ると言っていて、私たちはただそれに備える必要があり、そのためのアライメントメカニズムを設定する方法を考えるべきだという事実は、非常に大きな問題です。彼らはそれをあたかも次の火曜日に来るかのように話していますが、これは大きな問題です。
説明がわかりやすかったことを願っています。少し難解なトピックであり、奇妙なトピックですが、アライメントは重要です。スカイネットを避けることは重要です。そのため、スカイネットを避けるためのベストプラクティスの推奨事項がどのようなものかを皆に伝えることが良いと思いました。
コメント