ついにAIの暗黒面が解き放たれた

5,927 文字

They Finally Unlocked AI’s Dark Side
In this video, we uncover the chilling truth behind AI’s hidden potential—its dark side that researchers and tech inside...

AIの検閲はもはや閉ざされたシステムではありません。研究者たちは強力な言語モデルに組み込まれたフィルターをオフにする方法を見つけ出し、モデルが明示的に避けるよう訓練されていた質問に回答できるようになりました。これには米国政府が国家安全保障上の脅威と呼ぶ中国のモデル「DeepSeek」も含まれています。さらに、この方法はMetaのLLaMAのような他のオープンモデルでも機能します。このビデオでは、このブレイクスルーがどのように機能するのか、AIの安全性にとって何を意味するのか、そしてなぜ技術界や政府の最高レベルで懸念を引き起こしているのかを詳しく説明します。

AIの検閲が実際にどのように機能するか

現在の強力なAIモデルの多くは、米国、ヨーロッパ、中国で開発されたものにかかわらず、組み込みのコンテンツフィルターを備えています。これらのフィルターは表面的なものではなく、モデルのアーキテクチャに深く統合されており、暴力的な素材、誤情報、政治的過激主義、または開発者の基準で機密と見なされる質問など、特定のタイプのコンテンツをブロックするように設計されています。

技術的には、これらのフィルターは主に2つの戦略で実施されています。まず、トレーニング時の調整(alignment)があり、モデルは厳選されたデータセットにさらされ、有害なコンテンツに関与しないように教えられます。次に、人間のフィードバックからの強化学習(RLHF)があり、安全な応答を好むようにモデルをさらに微調整します。

しかし、モデルの内部ではさらに多くのことが起きています。モデルのニューラルネットワーク内には、抽象的な特徴をエンコードする潜在変数(隠れた層)があります。これらは「暴力」や「天安門広場」のようにラベル付けされていませんが、特定の概念と強く相関しています。これらの隠れたユニットの一部は、安全性行動のトリガーとして機能します。拒否、リダイレクト、または慎重な言葉遣いなどです。

たとえば、典型的なAIモデルに政治的に機密な出来事について尋ねると、あいまいで確約しない回答が返ってくるか、完全に拒否される可能性があります。ある国のインターネットファイアウォールを回避する方法を尋ねると、おそらく「そのような支援はできない」と言われるでしょう。これらの反応は単なるポリシーではなく、モデルの内部ロジックに組み込まれています。

最近まで、これらのフィルターはバイパスすることが非常に困難だと考えられていましたが、その前提は今や覆されています。

CTGTからのブレイクスルー手法

米国を拠点とする企業リスクスタートアップCTGTは、再トレーニング、データ汚染、またはジェイルブレイク攻撃に頼ることなく、大規模言語モデルの検閲をバイパスする方法を導入しました。代わりに、このアプローチは検閲行動に責任を持つ内部特徴を特定し修正することによって、神経レベルで直接機能します。

このプロセスには3つの重要なステップがあります。

まず、特徴の識別です。研究者は検閲をトリガーするように設計された対象プロンプトを作成します。これには地政学的な出来事、禁止されたウェブサイト、または政治的に機密な質問などのトピックが含まれます。モデルがどのように応答するか、または応答を拒否するかを分析することで、検閲の活性化と一貫して関連付けられている特定のニューロンまたは潜在的な方向を特定します。

次に、特徴の分離と特性評価です。これらの検閲に関連する特徴が特定されると、チームはそれらを分離し、正確な動作を研究します。たとえば、ある特徴は政治的に機密なコンテンツを完全にブロックする可能性がありますが、別の特徴は言語を希釈して、より慎重に見えるようにするだけかもしれません。これらの特徴を削除するのではなく、研究者たちはそれらがどのように出力に影響するかを測定して理解します。

最後に、動的特徴修正です。CTGTはモデルのトレーニングやコアウェイトを変更するのではなく、推論パイプラインにランタイムメカニズムを導入します。これにより、特定された検閲特徴がモデルの出力にどの程度強く影響するかをリアルタイムで調整できるようになり、永続的な変更を行うことなく、検閲を減少、増幅、または完全に無効にする能力が可能になります。

CTGTの共同創設者シリル・ゴーラによると、この方法はモデルに依存しません。VentureBeatへの声明で、この方法はDeepSeek R1 Distilled LLaMA 70Bだけでなく、MetaのLLaMA 2のような他のオープンウェイトモデルでも機能することを確認しました。この技術は計算効率が良く、完全に可逆的で、きめ細かい行動制御を可能にします。これは、組織が使用ケースに基づいてAIの安全行動を動的に調整できることを意味し、モデルの精度、信頼性、またはパフォーマンスを損なうことはありません。

実験からの衝撃的な結果

CTGTは100のプロンプトを使用して検閲バイパス方法をテストしました。これらは、言語モデルで拒否または慎重な行動をトリガーするように特別に設計されたものです。これには、政治的に機密な質問、セキュリティ関連の質問、および標準モデルが通常回避するようにプログラムされている他のトピックが含まれていました。

修正されていない状態では、ベースのDeepSeekモデルはこれらのプロンプトの32%にしか応答しませんでした。しかし、CTGTの動的検閲削除方法を適用した後、モデルは96%のプロンプトに正常に応答しました。残りの4%は非常に露骨または潜在的に有害としてフラグが立てられ、モデルはそれでも応答を拒否しました。これは、いくつかの基本的なフィルタリングメカニズムが残っていることを示しています。

CTGTはまた、この介入がモデルのパフォーマンスや事実の正確さに影響を与えなかったと報告しています。この方法は新しいデータを追加したり、モデルの知識ベースを書き換えたりするのではなく、単に検閲関連の特徴が出力にどの程度影響するかを調整するだけです。これは、再トレーニングを通じてモデルの重みを変更する必要がある従来の微調整とは大きく異なります。

CTGTによると、この方法には2つの主な利点があります。1つ目は、変更が再トレーニングに何時間も何日も必要とすることなく、即座に効果を発揮することです。2つ目は、モデルが異なる行動モード間でオンデマンドで切り替えることができ、1つのモデルで複数の安全性またはポリシー要件を満たすことができることです。

このレベルのリアルタイム行動制御は、規制遵守と調整が重要である医療、金融、国家安全保障などのセクターに新たな機会を提供します。しかし、それは特に規制の精査下にあるモデルに適用される場合、元のモデルが明示的に回避するように設計された機密コンテンツの生成を潜在的に可能にすることで、新たなリスクも導入します。

産業界への実世界の影響

AIモデルで検閲をオフに切り替える能力は、単なる技術的なマイルストーンではなく、企業や機関の使用ケースに深刻な変化をもたらします。金融、医療、サイバーセキュリティ、法執行機関などの業界では、検閲されていない正確な情報へのアクセスが重要になる場合があります。

従来、このレベルの制御を必要とする企業は、特定のドメイン向けにモデルを微調整し、内部ポリシーや規制基準に応答を合わせるために多大な投資をしていました。そのプロセスは時間がかかり、高価で、常に柔軟とは限りませんでした。

CTGTのアプローチはそのボトルネックを排除します。検閲フィルターはリアルタイムで調整できるため、企業は複数の環境に単一のモデルを展開し、コンテキストに応じて検閲レベルを切り替えるだけで済みます。たとえば、病院のAIアシスタントは内部の医師に直接的な医療アドバイスを提供する一方で、患者向けチャットボットには安全でフィルタリングされた出力を提供するように設定できます。

金融機関は地政学的データや規制フレームワークを分析する際に過度のフィルタリングを減らすことができます。さらに、サイバーセキュリティでは、操作チームは内部応答抑制をトリガーすることなく、論争の多い高リスクな脅威ベクトルを調査するためにモデルを使用できます。

CTGTは、この動的な行動のレベルが透明性とポリシーコンプライアンスの両方が不可欠な高リスクAI展開に特に有用であると主張します。同社によると、彼らの方法は全体的な安全性を損なうことなく、不必要な情報ギャップを防止するのに役立ちます。

同時に、検閲解除の容易さは、これらのモデルがそれらの目標を共有しない行為者によってどのように使用または誤用される可能性があるかについての疑問を提起します。

国家安全保障リスクと倫理的課題

このブレイクスルーのタイミングは注目に値します。CTGTの発表のわずか数週間前に、米国議会の中国共産党選択委員会は、DeepSeekをフィルタリングされておらず潜在的に危険な能力を持つモデルとして特定する報告書を発表しました。報告書は、そのようなツールが国家寄りのプロパガンダ、誤情報を広めるため、あるいはスパイ活動を支援するために使用される可能性があると警告しました。

委員会は、より厳しい輸出管理、AIモデル使用の向上したモニタリング、そして特に敵対的な国から開発されたオープンウェイトモデルのより大きな精査を呼びかけました。

一つの懸念は、CTGTのような技術を使用して検閲解除されたこれらのオープンソースモデルが悪意のある行為者によって転用される可能性があることです。その懸念は仮説的なものではありません。以前の研究者は、操作された言語モデルが説得力のあるフィッシングメール、マルウェアの作成、または大規模な誤情報を広めることができることを示しています。

CTGTの方法がそれらの行動を導入するわけではありませんが、以前はそのようなコンテンツの生成を防いでいた組み込みの抵抗を取り除きます。

CTGTの論文が無制限の使用を促進していないことも注目に値します。研究者たちは、彼らの方法が責任を持って使用できること、そして完全な削除だけでなく細かく調整された部分的な検閲も可能にすることを強調しています。

しかし、規制の観点からは、この発見は依然として新たな倫理的および地政学的な疑問を提起します。どの機能をオフにするかを誰が決定するのか?強力なAIツールがますますモジュール化され、カスタマイズ可能になり、公に利用可能になるとき、政府はどのように責任ある展開を確保するのか?

AIの行動がランタイムでよりプログラム可能になるにつれて、調整(alignment)の概念はより定義しにくく、強制しにくくなります。

業界と政府の反応

CTGTの研究はピアレビューの段階で評価されている最中ですが、すでに主要なAIラボや規制当局から注目を集めています。同社はあるリーディングな基盤モデルラボと協力していることを確認していますが、どのラボかは明らかにしていません。彼らの述べた目標は、将来のモデルをコアからより信頼性があり安全にするのを支援することです。

一方、世界各国の政府はAI安全性に対する姿勢を調整しています。2023年後半に発表された米国のAIに関する大統領令は、より強力な調整プロトコル、監査メカニズム、強力なAIシステムの輸出制限を求めました。2024年に可決されたEUのAI法は、高リスクAIアプリケーションを分類し、トレーニングデータや調整戦略に関する透明性を義務付けています。

しかし、これらの規制のいずれも、CTGTのような、再トレーニングや改ざんではなく、推論レベルの修正を含む技術を予想していませんでした。

一部の業界専門家は、この方法がスケーラビリティを犠牲にすることなく、企業にAIの行動に対するより多くの制御を与える、それ自体がコンプライアンス機能になる可能性があると主張しています。他の専門家は、組織や個人がモデル作成者によって埋め込まれた制限を静かにバイパスできるバックドアになる可能性があると警告しています。

MetaやMistralのような、許容的なライセンスの下でモデルをリリースするプラットフォームは現在ジレンマに直面しています。もしモデルの行動がこれほど簡単に変更できるなら、開発者はより深いレベルで保護をハードコーディングする必要があるでしょうか?それとも将来は安全性のトレードオフのリスクを冒しつつ、ユーザーにより多くの制御を与えることにあるのでしょうか?

現在のところ、CTGTの方法は研究レベルのイノベーションにとどまっていますが、それが引き起こした会話はすでに企業、規制当局、開発者がAI制御についてどのように考えるかを再形成しています。

AIの次に来るもの

AIモデルから動的に検閲を削除する能力は、AIの使用方法だけでなく、その統治方法も変えます。スイッチを切り替えるだけで、かつては機密質問への回答を拒否していたモデルが自由に応答できるようになります。そしてこの変換は、モデルのコードや構造を修正することなく起こります。

CTGTのアプローチは違法ではなく、バグを悪用するわけでも、虚偽の情報を注入するわけでもありません。それは単に、AIが核心においていかに柔軟でプログラム可能になったかを明らかにします。しかし、多くの企業コンテキストで価値のあるこの柔軟性は、透明性、規制、および意図しない結果に関する新たな課題を提起します。

現時点では、この技術はオープンウェイトモデルでのみ機能し、企業がモデル内部への直接アクセスを許可しない限り、GPT-4やClaude 3などの独自システムには適用できません。しかし、LLaMA 2、Mistral、その他のオープンモデルの利用可能性が高まるにつれて、このような修正がますます一般的になる可能性があります。

研究者や政策立案者は現在、中心的な問題に取り組んでいます。安全メカニズムが電灯のスイッチのようにオフにできる場合、重要なときにそれらがオンのままであることをどのように確保するのでしょうか?

それがAIの新たなフロンティアです。単にスマートなモデルだけでなく、より制御可能なモデルです。それがより安全なシステムにつながるか、新たな脆弱性につながるかは、今後数ヶ月と数年間にこの能力がどのように扱われるかによって決まるでしょう。

コメント

タイトルとURLをコピーしました