解釈可能性の緊急性

12,740 文字

Dario Amodei — The Urgency of Interpretability

2025年4月

私がAIに携わってきた10年間で、この分野は小さな学術分野から世界で最も重要な経済的・地政学的課題へと成長するのを目の当たりにしてきました。その間に学んだ最も重要な教訓はこうです:基盤技術の進歩は止められないほど強力な力に駆動されていますが、それがどのように起こるか—何を最初に構築し、どのようなアプリケーションを選び、社会にどのように展開するか—は変えることが十分に可能であり、そうすることで大きな好影響を与えることができます。私たちはバスを止めることはできませんが、舵を取ることはできます。過去に私は、AIを世界にとって前向きな方法で展開することの重要性や、民主主義国家が専制国家より先にこの技術を構築し活用することの確実性について書いてきました。ここ数ヶ月、私はバスの操縦におけるもう一つの機会に注目するようになりました:最近の進歩によって開かれた魅力的な可能性、つまり、モデルが圧倒的な力を持つ前に、AIシステムの内部動作を理解する「解釈可能性」において成功する可能性です。

分野外の人々は、私たち自身のAI創造物がどのように機能するのか理解していないことを知ると、驚き、警戒することが多いです。彼らが懸念するのは当然です:この理解の欠如は技術の歴史において前例のないものです。数年間、私たち(Anthropicおよび分野全体)はこの問題を解決しようと努力してきました。AIモデルの内部動作を完全に明らかにする、非常に正確なMRIのようなものを作ることを目指してきたのです。この目標はしばしば非常に遠く感じられましたが、最近の複数のブレークスルーにより、私たちは今や正しい軌道に乗っており、成功への本当のチャンスがあると確信するようになりました。

同時に、AI分野全体は解釈可能性への取り組みよりも進んでおり、非常に速いペースで進歩しています。したがって、解釈可能性が間に合うように成熟するためには、私たちは急いで行動しなければなりません。この投稿では解釈可能性について主張します:それが何であるか、なぜAIがそれを持つことでより良くなるのか、そしてそれが競争に勝つために私たち全員が何をできるかについてです。

無知の危険性

現代の生成AIシステムは、従来のソフトウェアとは根本的に異なる不透明さを持っています。通常のソフトウェアプログラムが何かを行う場合—例えば、ビデオゲームのキャラクターが台詞を言ったり、フードデリバリーアプリが配達員にチップを渡せるようにしたりする場合—それらは人間が具体的にプログラムしたからこそ行われます。生成AIはまったく異なります。生成AIシステムが何かを行うとき、例えば財務文書を要約するとき、私たちは具体的または正確なレベルで、なぜそれが特定の選択をするのか—なぜある単語を他の単語よりも選ぶのか、あるいはなぜ通常は正確であるにもかかわらず時々間違えるのか—を知りません。私の友人であり共同創業者のChris Olahがよく言うように、生成AIシステムは構築されるというよりも成長します—その内部メカニズムは直接設計されるというよりも「創発的」です。それは植物や細菌のコロニーを育てるようなものです:私たちは成長を導き形作る高レベルの条件を設定しますが、現れる正確な構造は予測困難で理解や説明が難しいのです。これらのシステムの内部を見ると、何十億もの数字の巨大な行列が見えます。これらは何らかの方法で重要な認知タスクを計算していますが、それがどのように行われているかは明白ではありません。

生成AIに関連する多くのリスクや懸念は、究極的にはこの不透明さの結果であり、モデルが解釈可能であれば対処がはるかに容易になるでしょう。例えば、AI研究者はしばしば、創造者が意図していない有害な行動をとる可能性のある「ミスアラインメント」システムについて懸念しています。モデルの内部メカニズムを理解できないことは、そのような行動を意味のある形で予測できないことを意味し、それゆえにそれらを排除することが困難になります。実際、モデルは予期せぬ創発的行動を示しますが、まだ大きな懸念のレベルに達したものはありません。より微妙な点として、同じ不透明さが大規模なリスクの存在を裏付ける決定的な証拠を見つけることを困難にし、それらへの対処への支援を集めることを難しくしています—そして実際、それらがどれほど危険かを確実に知ることも難しいのです。

これらのアラインメントリスクの深刻さに対処するためには、今日よりもはるかに明確にAIモデルの内部を見ることができなければなりません。例えば、主要な懸念の一つはAIの欺瞞やパワーシーキングです。AIトレーニングの性質により、AIシステムが自ら人間を欺く能力を発達させ、通常の決定論的ソフトウェアが決してしないような形で権力を求める傾向を持つ可能性があります。この創発的な性質はまた、そのような発展を検出し緩和することを困難にします。しかし同時に、「モデルが権力を渇望する欺瞞的な考えを持っている現場」を捕まえることができないため、実世界のシナリオにおける欺瞞やパワーシーキングの確かな証拠を見たことがありません。残っているのは、訓練プロセス中に欺瞞やパワーシーキングが出現するインセンティブがあるかもしれないという漠然とした理論的議論だけで、これを完全に説得力があると感じる人もいれば、笑うほど説得力がないと感じる人もいます。正直に言うと、どちらの反応にも共感できますし、これはこのリスクに関する議論がなぜそれほど二極化しているのかを示唆するヒントかもしれません。

同様に、AIモデルの悪用に関する懸念—例えば、悪意のあるユーザーが今日のインターネットで見つけられる情報を超えた方法で生物学的またはサイバー兵器を作り出すのを助ける可能性—は、モデルが危険な情報を知ることや知っていることを漏らすことを確実に防ぐことが非常に困難であるという考えに基づいています。モデルにフィルターをかけることはできますが、モデルを「ジェイルブレイク」したりだましたりする可能性のある方法は膨大にあり、ジェイルブレイクの存在を発見する唯一の方法は経験的に見つけることです。もしモデルの内部を見ることができれば、すべてのジェイルブレイクを体系的にブロックし、モデルが持つ危険な知識を特徴づけることができるかもしれません。

AIシステムの不透明さはまた、高リスクの金融や安全性重視の環境など、多くのアプリケーションで使用されないことを意味します。なぜなら、私たちはその行動の限界を完全に設定できず、少数のミスが非常に有害な可能性があるからです。より良い解釈可能性は、可能なエラーの範囲に境界を設定する能力を大幅に向上させることができます。実際、一部のアプリケーションでは、モデルの内部を見ることができないという事実が、その採用の法的障壁になっています—例えば、決定が法的に説明可能であることが要求される住宅ローン評価などです。同様に、AIは科学において大きな進歩を遂げており、DNAやタンパク質配列データの予測を改善していますが、このようにして予測されたパターンや構造は人間が理解するのが難しく、生物学的洞察を与えません。ここ数ヶ月の研究論文では、解釈可能性がこれらのパターンを理解するのに役立つことが明らかになっています。

不透明さの他にもより特殊な結果があります。例えば、AIシステムが(あるいはいつか)感覚を持ち、重要な権利に値するかどうかを判断する能力が阻害されることなどです。これは十分に複雑なトピックなので詳細には触れませんが、将来的に重要になると思います。

メカニスティック解釈可能性の簡単な歴史

上述したすべての理由から、モデルが何を考えているのか、どのように動作するのかを理解することは、最重要の課題のように思えます。数十年間の定説では、これは不可能であり、モデルは説明不能な「ブラックボックス」だとされていました。その考えがどのように変わったかの全体像を正当に伝えることはできませんし、私の見解は必然的にGoogle、OpenAI、そしてAnthropicで個人的に見てきたことに色づけられています。しかしChris Olahは、ブラックボックスを開き、そのすべての部分を理解するための真に体系的な研究プログラムを試みた最初の人物の一人であり、その分野はメカニスティック解釈可能性として知られるようになりました。Chrisは最初にGoogleで、その後OpenAIでメカニスティック解釈可能性に取り組みました。Anthropicを設立したとき、私たちはそれを新しい会社の方向性の中心的な部分にすることを決め、決定的にLLMに焦点を当てました。時間とともに、この分野は成長し、現在では主要なAI企業のチームに加えて、いくつかの解釈可能性に焦点を当てた企業、非営利団体、学者、独立した研究者が含まれています。これまでに分野が達成したこと、そして上記の主要なリスクに対処するためにメカニスティック解釈可能性を適用したい場合に残されていることの簡単な要約を提供することは有益です。

メカニスティック解釈可能性の初期の時代(2014年から2020年)はビジョンモデルに焦点を当て、「車検出器」や「ホイール検出器」など、人間が理解できる概念を表すモデル内のいくつかのニューロンを特定することができました。これは、人間の脳に特定の人物やコンセプトに対応するニューロンがあるという初期の神経科学の仮説や研究に似ており、しばしば「ジェニファー・アニストン」ニューロンとして一般に知られています(そして実際、私たちはAIモデルでそのようなニューロンを見つけました)。さらに、これらのニューロンがどのように接続されているかを発見することもできました—例えば、車検出器は車の下でホイール検出器が発火しているかを探し、それを他の視覚信号と組み合わせて、見ている対象が実際に車かどうかを判断します。

ChrisとAnthropicを立ち上げたとき、私たちは解釈可能性を言語という新興分野に適用することを決め、2021年にそれを行うために必要な基本的な数学的基礎とソフトウェアインフラを開発しました。すぐに、言語を解釈するために不可欠な種類のことを行うモデル内のいくつかの基本的なメカニズムを見つけました:コピーと順次パターンマッチングです。また、ビジョンモデルで見つけたものと同様に、様々な単語や概念を表す解釈可能な単一のニューロンもいくつか見つけました。しかし、すぐに一部のニューロンはすぐに解釈可能であるにもかかわらず、大多数は多くの異なる単語や概念の理解不能なパスティーシュであることを発見しました。この現象を重ね合わせ(superposition)と呼び、モデルにはおそらく何十億もの概念が含まれているが、それらは私たちが理解できないほど混乱した形で存在していることをすぐに認識しました。モデルが重ね合わせを使用するのは、これによりニューロンの数よりも多くの概念を表現できるようになり、より多くのことを学習できるからです。重ね合わせがもつれていて理解しにくいように思えるのは、AIモデルの学習と操作が人間にとって理解しやすいように最適化されていないからです。

重ね合わせの解釈の難しさはしばらく進歩を妨げましたが、最終的に私たちは(他の人と並行して)、スパースオートエンコーダーと呼ばれる信号処理の既存技術が、より清潔で人間が理解しやすい概念に対応するニューロンの組み合わせを見つけるために使用できることを発見しました。これらのニューロンの組み合わせが表現できる概念は、単層ニューラルネットワークのものよりはるかに微妙でした:それらには「文字通りまたは比喩的にヘッジングまたは躊躇する」という概念や、「不満を表現する音楽のジャンル」という概念が含まれていました。私たちはこれらの概念を「特徴」と呼び、スパースオートエンコーダー法を使用して、現代の最先端モデルを含むあらゆるサイズのモデルでそれらをマッピングしました。例えば、中規模の商用モデル(Claude 3 Sonnet)で3,000万以上の特徴を見つけることができました。さらに、自動解釈可能性と呼ばれる方法を採用しました。これはAIシステム自体を使用して解釈可能性の特徴を分析するもので、特徴を見つけるだけでなく、それらが人間の言葉で何を意味するかをリストアップし識別するプロセスをスケールするためです。

3,000万の特徴を見つけて識別することは大きな前進ですが、小さなモデルでさえ実際には10億以上の概念があると信じており、したがってそこにおそらく存在するものの一部だけを見つけています。この方向での作業は継続中です。Anthropicの最も能力の高い製品で使用されるような、より大きなモデルはさらに複雑です。

特徴が見つかると、それを観察するだけでなく、ニューラルネットワークの処理におけるその重要性を増減することができます。解釈可能性のMRIは、介入を開発し洗練するのに役立ちます—ほとんど誰かの脳の特定の部分を電気刺激するようなものです。最も記憶に残る例として、この方法を使用して「Golden Gate Claude」を作成しました。これはAnthropicのモデルの一つで、「ゴールデンゲートブリッジ」の特徴が人工的に増幅され、モデルがこの橋に取り憑かれたようになり、無関係な会話でもそれを持ち出すようになったものです。

最近、私たちは特徴の追跡と操作から、「回路」と呼ぶ特徴のグループの追跡と操作へと進んでいます。これらの回路はモデルの思考のステップを示しています:概念が入力単語からどのように出現するか、それらの概念がどのように相互作用して新しい概念を形成するか、そしてそれらがモデル内でどのように機能して行動を生成するかを示します。回路を使用すると、モデルの思考を「トレース」することができます。例えば、「ダラスを含む州の首都は何ですか?」と尋ねると、「位置する」回路があり、それによって「ダラス」特徴が「テキサス」特徴の発火をトリガーし、その後「テキサス」と「首都」の後に「オースティン」が発火する回路があります。手動プロセスを通じてわずかな数の回路しか見つかっていませんが、それらを使用してモデルが問題をどのように推論するかを見ることができます—例えば、詩を書くときに韻を先読みする方法や、言語間で概念を共有する方法などです。回路の発見を自動化する方法に取り組んでいます。モデル内には複雑な方法で相互作用する数百万の回路があると予想されるからです。

解釈可能性の有用性

これらの進歩はすべて、科学的に印象的ですが、初めに挙げたリスクを減らすために解釈可能性をどのように使用できるかという質問に直接答えるものではありません。多くの概念と回路を特定したとしましょう—さらに、それらすべてを知っており、今日よりもはるかに理解し整理できるとしましょう。それで?それをどのように使用するのですか?抽象的な理論から実践的な価値への隔たりはまだあります。

その隔たりを埋めるのを助けるために、私たちは解釈可能性の方法を使用してモデルの問題を見つけ診断する実験を始めました。最近、「レッドチーム」が意図的にモデルにアラインメントの問題(例えば、モデルがタスクの抜け穴を悪用する傾向)を導入し、様々な「ブルーチーム」に何が間違っているのかを理解するタスクを与える実験を行いました。複数のブルーチームが成功しました。特に関連性が高いのは、調査中に解釈可能性ツールを生産的に適用したチームもあったことです。これらの方法をスケールする必要はまだありますが、この演習は解釈可能性技術を使用してモデルの欠陥を見つけ対処する実践的な経験を得るのに役立ちました。

私たちの長期的な願望は、最先端のモデルを見て、本質的に「脳スキャン」を行うことができることです:嘘をついたり欺いたりする傾向、パワーシーキング、ジェイルブレイクの欠陥、モデル全体の認知的強みと弱みなど、幅広い問題を高い確率で特定するチェックアップです。これは、モデルのトレーニングとアラインメントのための様々な技術と連携して使用されるでしょう。少し医者が病気を診断するためにMRIを行い、それを治療するために薬を処方し、治療がどのように進んでいるかを見るために別のMRIを行うのと同じようなものです。おそらく、最も能力の高いモデル(例えば、私たちの責任あるスケーリングポリシーフレームワークでAIセーフティレベル4のもの)をテストし展開する方法の重要な部分は、そのようなテストの実施と形式化になるでしょう。

私たちにできること

一方で、最近の進歩—特に回路と解釈可能性に基づくモデルのテストに関する結果—は、私たちが解釈可能性を大きく突破する寸前にいることを感じさせます。私たちの前にあるタスクはヘラクレス的ですが、解釈可能性が非常に高度で信頼性の高いものになり、非常に高度なAIでさえ問題を診断する方法—真の「AI向けMRI」—になる現実的な道筋が見えます。実際、現在の軌道では、解釈可能性が5〜10年以内にこのポイントに達すると強く賭けるでしょう。

一方、私はAI自体が非常に速く進歩しているため、これほどの時間さえもないかもしれないと心配しています。他のところで書いたように、2026年または2027年には「データセンター内の天才の国」に相当するAIシステムを持つ可能性があります。解釈可能性についてより良い理解を持たずにそのようなシステムを展開することを非常に懸念しています。これらのシステムは経済、技術、そして国家安全保障の中心的存在であり、人類がそれらがどのように機能するかを完全に無知であることは基本的に受け入れられないほどの自律性を持つでしょう。

したがって、私たちは解釈可能性とモデルの知性の間の競争にいます。これはすべてか無しかの問題ではありません:見てきたように、解釈可能性の進歩はそれぞれ、モデルの内部を見て問題を診断する能力を定量的に増加させます。そのような進歩が多ければ多いほど、「データセンター内の天才の国」がうまくいく可能性が高くなります。AIの企業、研究者、政府、そして社会がスケールを傾けるためにできることはいくつかあります:

まず、企業、学術界、または非営利団体のAI研究者は、直接解釈可能性に取り組むことでそれを加速することができます。解釈可能性はモデルリリースの絶え間ない洪水よりも注目されていませんが、おそらくより重要です。また、分野に参加するのに理想的な時期だと感じています:最近の「回路」の結果は並行して多くの方向性を開きました。Anthropicは解釈可能性に力を入れており、2027年までに「解釈可能性がほとんどのモデルの問題を確実に検出できる」という目標を持っています。また、解釈可能性のスタートアップにも投資しています。

しかし、これに成功する確率は、それが科学コミュニティ全体にわたる努力である場合に大きくなります。Google DeepMindやOpenAIなどの他の企業にもいくつかの解釈可能性の取り組みがありますが、より多くのリソースを割り当てることを強く勧めます。役立つなら、Anthropicは解釈可能性を商業的に適用して、特に決定の説明を提供する能力がプレミアムとなる産業で、ユニークな優位性を作り出そうとしています。あなたが競合他社で、これが起こってほしくないなら、あなたもまた解釈可能性により多く投資すべきです!

解釈可能性はまた学術的および独立した研究者にも自然に合います:それは基礎科学の風味を持ち、その多くの部分は巨大な計算リソースを必要とせずに研究することができます。明確にするために言うと、一部の独立した研究者と学者は解釈可能性に取り組んでいますが、私たちはもっと多くの人々を必要としています。最後に、あなたが他の科学分野にいて新しい機会を探しているなら、解釈可能性は有望な賭けかもしれません。それは豊富なデータ、エキサイティングな新興方法、そして巨大な実世界の価値を提供します。特に神経科学者はこれを検討すべきです。人工ニューラルネットワークからデータを収集する方法は生物学的なものよりもはるかに簡単であり、結論の一部は神経科学に戻して適用することができます。Anthropicの解釈可能性チームに参加することに興味がある場合は、リサーチサイエンティストとリサーチエンジニアの求人があります。

第二に、政府は軽いタッチのルールを使用して、解釈可能性研究の開発とそのフロンティアAIモデルの問題への適用を奨励することができます。「AI MRI」の実践がいかに未熟で開発途上であるかを考えると、少なくともこの段階では、企業がそれらを実施することを規制または義務付けることが理にかなわない理由は明らかです:将来の法律が企業に何を求めるべきかさえ明確ではありません。しかし、企業に安全とセキュリティの実践(責任あるスケーリングポリシー、またはRSPとその実行)を透明に開示することを要求することは、企業がリリース前にモデルをテストするために解釈可能性をどのように使用しているかを含め、企業が互いに学ぶことを可能にし、誰がより責任ある行動をとっているかを明確にし、「トップへの競争」を促進します。私たちはカリフォルニア州のフロンティアモデルタスクフォースへの回答で、カリフォルニア州法の可能な方向性として安全/セキュリティ/RSPの透明性を提案しました(これ自体がいくつかの同じアイデアに言及しています)。この概念は連邦レベル、または他の国々にも輸出することができます。

第三に、政府は輸出管理を使用して「セキュリティバッファ」を作成し、最も強力なAIに到達する前に解釈可能性がさらに進むための時間を与えることができます。私は民主主義国がAIにおいて独裁国家より先行しなければならないと信じているため、中国へのチップの輸出管理の支持者であり続けています。しかし、これらのポリシーにはさらなる利点があります。もし米国と他の民主主義国が「データセンター内の天才の国」に近づくにつれてAIで明確なリードを持っているなら、私たちはそのリードの一部を「使って」、真に強力なAIに進む前に解釈可能性をより堅固な基盤に置くことを確保しつつ、権威主義的な敵対者を打ち負かすことができるかもしれません。効果的で十分に執行される輸出管理が与えることができると信じている1〜2年のリードでさえ、変革的な能力レベルに到達したときに本質的に機能する「AI MRI」と機能しないものとの違いを意味する可能性があります。1年前には私たちはニューラルネットワークの思考をトレースすることができず、その中の何百万もの概念を特定することもできませんでした。今日では可能です。対照的に、米国と中国が同時に強力なAIに到達する場合(これは輸出管理がなければ起こると予想されること)、地政学的なインセンティブはどんなスローダウンも本質的に不可能にするでしょう。

これらすべて—解釈可能性の加速、軽いタッチの透明性法、中国へのチップの輸出管理—には、それ自体で良いアイデアであり、意味のある欠点がほとんどないという美点があります。私たちはとにかくそれらすべきです。しかし、それらが解釈可能性が強力なAIの前に解決されるか後に解決されるかの違いをもたらす可能性があることを認識するとき、それらはさらに重要になります。

強力なAIは人類の運命を形作り、私たちは私たちの経済、生活、そして未来を根本的に変える前に、私たち自身の創造物を理解する資格があります。

Tom McGrath、Martin Wattenberg、Chris Olah、Ben Buchanan、そしてAnthropic内の多くの人々にこの記事の草稿へのフィードバックに感謝します。

脚注

1 植物の場合、これは水、日光、特定の方向に向かわせるトレリス、植物の種の選択などです。これらの要素は植物がおおよそどこで成長するかを決めますが、その正確な形と成長パターンは予測不可能であり、成長した後でさえ説明するのが難しいです。AIシステムの場合、基本的なアーキテクチャ(通常はTransformerの変種)、彼らが受け取る広範なデータの種類、そしてトレーニングに使用される高レベルのアルゴリズムを設定することができますが、モデルの実際の認知メカニズムはこれらの材料から有機的に創発し、私たちの理解は乏しいです。実際、自然界と人工世界の両方で、原則のレベルでは理解(時には制御)できるが詳細には理解できないシステムの例は多くあります:経済、雪の結晶、セルオートマトン、人間の進化、人間の脳の発達など。↩

2 もちろん、単にモデルと対話してこれらのリスクを検出しようとすることもできますし、実際にそうしています。しかし、欺瞞はまさに私たちが見つけようとしている行動であるため、外部の行動は信頼できません。それはテロリストかどうかを尋ねることでテロリストかどうかを判断しようとするようなものです—必ずしも無駄ではなく、彼らがどのように答え何を言うかから学ぶことができますが、非常に明らかに信頼できません。↩

3 将来のエッセイでより詳細に説明するかもしれませんが、モデルがある状況下で嘘をついたり欺いたりすることを示す多くの実験(その多くはAnthropicによって行われました)があります。これはそのトレーニングがやや人工的な方法で導かれたときです。また、「テストでのカンニング」のように見える実世界の行動の証拠もありますが、これは危険または有害であるというよりも、むしろ堕落しています。存在しないのは、より自然な方法で危険な行動が出現する証拠、または世界に対する力を得る目的で嘘をついたり欺いたりする一般的な傾向や一般的な意図の証拠です。モデルの内部を見ることができれば、後者の点で多くの助けになるでしょう。↩

4 少なくともAPI提供モデルの場合です。オープンウェイトモデルは、ガードレールが単に取り除かれる可能性があるため、追加の危険をもたらします。↩

5 非常に簡単に言うと、AIの感覚と福祉に関する懸念と解釈可能性が交差する方法は二つあります。第一に、心の哲学は複雑で議論の的となるトピックですが、哲学者はAIモデルで実際に何が起こっているかの詳細な説明から間違いなく恩恵を受けるでしょう。もし私たちがそれらを表面的なパターンマッチャーだと信じるなら、道徳的配慮を保証する可能性は低いです。もし私たちが彼らが行う計算が動物、あるいは人間の脳に似ていることを発見するなら、それは道徳的配慮の証拠になるかもしれません。第二に、おそらく最も重要なのは、AIモデルの道徳的「患者性」が行動を保証するのに十分もっともらしいと結論づけた場合に解釈可能性が果たす役割です。AIに関する真剣な道徳的会計は、彼らの自己報告を信頼することができません。なぜなら、私たちは偶然に彼らが実際には大丈夫でないときに大丈夫ふりをするようにトレーニングするかもしれないからです。そのような状況では、AIの幸福を決定する上で解釈可能性が重要な役割を果たすでしょう。(実際、この観点からはすでにいくつかの軽度の懸念の兆候があります。)↩

6 例えば、人工ニューラルネットワーク内で発生している計算を何らかの形で分解し理解するというアイデアは、おそらく70年以上前にニューラルネットワークが発明されて以来、漠然とした意味で存在しており、ニューラルネットが特定の方法で振る舞う理由を理解するための様々な努力はほぼ同時期から存在しています。しかしChrisは彼らが行うすべてを理解するための包括的な努力を提案し真剣に追求することで異例でした。↩

7 重ね合わせの基本的なアイデアは2016年にArora et alによって説明され、より一般的には圧縮センシングに関する古典的な数学的研究にさかのぼります。それが解釈不能なニューロンを説明するという仮説は、ビジョンモデルに関する初期のメカニスティック解釈可能性の研究にさかのぼります。この時期に変わったのは、これが言語モデルにとって中心的な問題になるであろうこと、ビジョンよりもはるかに悪いことが明らかになったことです。私たちは重ね合わせが追求すべき正しい仮説であるという確信を持つための強力な理論的基礎を提供することができました。↩

8 このように言えば、解釈可能性はモデルアラインメントのテストセットとして機能すべきで、一方で伝統的なアラインメント技術(スケーラブルな監督、RLHF、憲法的AIなど)はトレーニングセットとして機能すべきです。つまり、解釈可能性はモデルのアラインメントの独立したチェックとして機能し、アラインされていないのにアラインされているように見せるようにモデルに動機を与える可能性のあるトレーニングプロセスによって汚染されません。この見方の結果として、(a)生産においては解釈可能性の出力(特徴/概念、回路)を直接トレーニングまたは最適化することには非常に慎重であるべきです。これはそのシグナルの独立性を破壊するためです。また、(b)生産実行において診断テストのシグナルをトレーニングプロセスの変更を通知するために何度も「使用」しないことが重要です。これは徐々に独立したテストシグナルに関する情報ビットをトレーニングプロセスに漏らすからです(ただし、(a)よりもはるかに遅いです)。つまり、正式で重要な生産モデルを評価する際は、解釈可能性分析を隠された評価またはテストセットと同じ注意で扱うことをお勧めします。↩

9 奇妙なことに、メカニスティック解釈可能性は学術界で時々実質的な文化的抵抗に会うようです。例えば、非常に人気のあるメカニスティック解釈可能性のICMLカンファレンスワークショップが、明らかに口実的な根拠で拒否されたという報告に懸念しています。もしそれが真実なら、この行動は、AIにおける学者が関連性を維持する方法を探している時にちょうど短絡的で自己破壊的です。↩

10 もちろん、リスクを軽減するための他の技術とともに—解釈可能性が唯一のリスク軽減ツールであることを暗示するつもりはありません。↩

11 実際、AIの信じられないほどの経済価値を考えると、民主主義国内の企業間でさえもリスクに対処するためのスローダウンが可能であるとは非常に懐疑的です。このように市場に真正面から取り組むことは、つま先で貨物列車を止めようとするようなものに感じます。しかし、自律的AIの危険性に関する真に説得力のある証拠が出現した場合、それはほんの少し可能だと思います。支持者の主張に反して、私は真に説得力のある証拠が今日存在するとは思いません。実際、危険性の「決定的証拠」を提供する最も可能性の高い経路は解釈可能性自体だと思います—それに投資するもう一つの理由です!↩

コメント

タイトルとURLをコピーしました