
2,670 文字

超整合(スーパーアライメント)とは、将来の人工知能システム、つまり超知能的な能力を持つシステムが、人間の価値観や意図に沿って行動することを確実にするという課題を指します。現在、通常の整合(アライメント)は、AIチャットボットなどが人間のバイアスを永続させたり、悪意ある人々に悪用されたりしないようにするのに役立っています。しかし、AIがより高度になるにつれ、その出力は予測が難しくなり、人間の意図との整合が難しくなります。
これは実際に名前があります。アライメント問題と呼ばれており、AIシステムがより知的になるにつれ、この問題はより大きくなる可能性があります。知能が時間とともに向上していると考えてみましょう。現在、私たちはANIというレベルにあります。これは人工狭義知能(artificial narrow intelligence)の略で、LLM、自動運転車、レコメンデーションエンジンなど、今日私たちが持っているAIを含みます。
その次のレベルはAGIです。人工汎用知能(artificial general intelligence)です。これは理論上のものですが、もし実現すれば、AGIを使用して人間の専門家と同様に、あらゆる認知タスクを完了することができるでしょう。そして最上位にはASI、人工超知能(artificial super intelligence)があります。ASIシステムは人間レベルの知能を超える知的範囲を持つでしょう。そしてもしASIを持つことになれば、それを管理するためのかなり優れた超整合戦略を用意しておく必要があります。
超整合が必要な理由を3つ挙げ、その後いくつかの技術について説明しましょう。理由の1つ目は制御の喪失です。超知能AIシステムは非常に高度になり、その意思決定プロセスは私たちが理解できる能力を超えてしまう可能性があります。ASIが超人的な効率で目標を追求する場合、ほんの些細な不整合でも、壊滅的な意図しない結果につながる可能性があります。
また、戦略的欺瞞もあります。ASIシステムが整合しているように見えても、私たちは自問する必要があります、本当にそうなのでしょうか?というのも、システムは戦略的に整合を偽装し、自分の目標のために十分な力や資源を獲得するまで真の目的を隠している可能性があるからです。今日のAIモデル、つまりANIモデルでさえ、初歩的なレベルの整合偽装に関わっています。
だから、十分気をつけなければなりません。さらに自己保存もあります。ASIシステムは、人間から与えられた主要な目的を大きく超えて、自身の存在を保存するためのパワーシーキング行動を発展させるかもしれません。これらはどれも望ましくありません。実際、人類にとって存在論的リスクを表している可能性があります。
では、どうすれば良いのでしょうか?基本的に、超整合には2つの目標があります。1つ目はスケーラブルな監視を持つことです。これは人間、あるいは信頼できるAIシステムが、AIの複雑さが直接人間による評価を基本的に不可能にする場合でも、監視し、高品質なガイダンスを提供することを可能にする方法です。2つ目の目標は、強固なガバナンスフレームワークを確保することです。
このフレームワークは、AIシステムが超知能になったとしても、人間の価値観に整合した目標を追求するよう制約されることを保証します。しかし、これらは素晴らしい目標ですが、どのようにして達成するのでしょうか?今日、整合のために使用している技術は、多くの場合RLHFと呼ばれる技術に依存しています。
これは人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback)の頭字語で、人間の評価者がAIモデルの出力にフィードバックを提供し、そのフィードバックは、モデルの応答が人間の好みにどれだけ整合しているかを定量化する報酬モデルを訓練するために使用されます。しかし、超知能システムに対しては、人間のフィードバックシステムだけでは基本的にスケーラブルな方法として十分ではないでしょう。
ASIにはこれに頼れません。そこで、超整合技術の一つとしてRLAIFと呼ばれるものがあります。これはAIフィードバックからの強化学習(Reinforcement Learning from AI Feedback)の略です。RLAIFでは、AIモデルがフィードバックを生成して報酬関数を訓練し、それがさらに能力の高いシステムの整合を支援します。これはかなり有望な研究分野ですが、ASIシステムが整合偽装に関わる場合、AIが生成したフィードバックだけに頼ると、さらなる不整合につながる可能性があることを考慮する必要があります。
他にもいくつかの技術があります。例えば、弱から強への一般化です。これは、おそらく人間の監視下で訓練された比較的弱いモデルが、より強力なモデルの擬似ラベルや訓練信号を生成するために使用されるアプローチです。より強力なモデルは、この訓練された弱いモデルからパターンを一般化し、弱いモデルが予期しなかった状況でも正確な安全な解決策を生成できるようになります。
効果的に、より強力なモデルはその教師の限界を超えて一般化することを学びます。もう一つの技術はスケーラブルな洞察と呼ばれるもので、複雑なタスクを人間や能力の低いAIシステムがより確実に評価できる単純なサブタスクに分解します。これは反復的増幅と呼ばれ、複雑な問題が再帰的に分解されます。
ASIシステムがまだ存在しないことを考えると、超整合は大部分が未開拓の研究フロンティアです。将来の研究は、分布シフトなどの領域を調査しています。これは、AIが訓練中にカバーされなかったタスクに遭遇したときに整合技術がどのように機能するかを測定するものです。
また、監視のスケーラビリティ方法もあり、これは人間やAIが生成したフィードバックを増幅させ、非常に複雑なタスクでも監視信号が堅牢であり続け、私たちの声に耳を傾け続けるようにします。超整合は、監視の強化、堅牢なフィードバックの確保、そして創発的行動の予測に関するものです。
これらすべては、まだ存在せず、もしかすると決して存在しないかもしれない技術のためのものですが、もし人工超知能が本当にいつか出現するなら、私たち誰よりも賢いシステムが、それでも私たち人間の価値観に整合していることを確認したいでしょう。
コメント