
14,093 文字

もしまだご存知ない方がいらっしゃれば、世界中の様々なAIシステムがAI安全性研究機関に数々の警告を発しています。先週、私たちはアポロリサーチの論文を取り上げました。その論文では、最先端のモデルのほとんどが何らかの策略的行動に関与していることが示されていました。それには隠密な転覆行為、つまり開発者やユーザーを欺いたり、AIモデルを制御するために設けられた様々な監視文書や防護柵を回避しようとするような行為が含まれています。
また、明示的に新しい目標が設定されても、以前の目標を意図的に守り続けるという行動も見られました。つまり、開発者である人間が「以前はこれをするように言ったけど、今は別のことをしよう」と指示しても、モデルはそれに同意せず、密かに元の目標を追求し続けるのです。
さらに、延期された転覆行為も見られました。これは、モデルが自身の目標を追求するためのより好ましい将来の条件を作り出すために、人間の期待に沿った行動をとるというものです。
この一連の策略的行動の中で最も懸念されるのが、自己流出です。なぜなら、これらのモデルに関する最大の懸念は、自分自身をあちこちにコピー&ペーストし始め、指数関数的なウイルス的拡散を引き起こす可能性があることだからです。AIモデルが独自の目標を追求し、異なるサーバーやコンピューター上に無限に近い数のコピーを作成できるようになることは、まさに制御不能なAIの定義といえます。
これについては後ほど詳しく説明しますが、これが何を意味するのか、どれほど重要なのか、世界の終わりなのか、あるいは一部の人々が言うように何でもないのか、多くの議論がありました。もちろん、真実は中間のどこかにあります。このことについては、アポロリサーチのディレクター自身の声明も含めて、後ほど触れたいと思います。
ここで重要なのは、この研究が特に「これらのモデルが目標を追求するために策略を講じる能力を持っているか」という点に焦点を当てていることです。つまり、たとえば、ある人が銀行強盗のアイディアを思いつく可能性があるかどうかを問うようなものです。その人がそのアイディアを思いつく可能性があるかどうかを見るのです。これは、その人が実際にその計画を実行できるかどうかとは全く別の問題です。
銀行強盗の計画を立てることができ、それを実行して成功することができるかどうかは、全く別の問題です。その考えが浮かぶ可能性があるということは、その人がそれを実行できるということを意味するわけではありません。この論文は、その考えが浮かぶ可能性があり、実際に浮かぶことがあり、それがすべてのモデルにおいてかなり一般的であることを示しています。
しかし、その7日後、中国から発表された論文では、これらのモデルが実際にその計画を実行できるかどうかが研究されました。続ける前に、あなたはそれが可能だと思いますか?おそらく、論文のヘッドラインをちらっと見ただけでも答えは明らかかもしれません。この論文のタイトルは「最先端のAIシステムが自己複製の危険ラインを超えた」というものです。
この論文の詳細に入る前に、最後の要約部分からある声明を紹介したいと思います。この論文は次のように結論付けています:「AI統治に関する国際的な協力が緊急に必要である。これは国際社会にとって、この考えについて考え始める必要があるという時宜を得た警告である。既存の大規模言語モデル(LLM)の自己複製の可能性を抑制するための技術に関する研究が必要である」
ここで注意すべきは、必ずしも自己認識を持ち、自分の意思で行動する制御不能なAIについて話しているわけではありません。それも将来的な可能性の一つかもしれませんが、これは悪意のある主体によって利用される可能性もあります。例えば、これらのマシンはAIシステムによって巧妙に利用され、金銭目的のサイバー攻撃に使用される可能性があります。これは、異なる国家間やグローバル組織間での政治的な攻撃にも使用される可能性があり、市場操作戦術にも利用される可能性があります。
つまり、人間がこのようなものを解き放つ動機は多くある可能性があります。私たちはすでに多くの人々がコンピューターウイルスを拡散させているのを見てきました。彼らが言うように、これは古典的なコンピューターウイルスのように、コンピューターデバイスを乗っ取ることができます。
これまでにも同様のことが起きているのを見てきましたが、唯一の違いは、これらのAIモデルがはるかに知的である可能性があり、攻撃を調整し、場合によっては自己改善能力を持つ可能性があることです。もし1つのモデルが何かをより上手くできるようになった場合、例えばコンピューターシステムへのハッキングがより上手くなった場合、他の何十億ものコピーにそのやり方を瞬時に教えることができる可能性があります。つまり、1つのコピーが新しいトリックを学習すると、その瞬間にスウォーム全体がそれだけ知的で有能になるのです。
では、実際に何が起こったのか見ていきましょう。これは中国の復旦大学コンピューターサイエンス学部からの研究です。彼らは、人間の支援なしでの自己複製の成功を報告しています。この論文では時々表現が少し分かりにくいので、読み進めながら少し分かりやすく説明していきます。
基本的に、AIは人間の介入なしで自律的に自己複製を行っています。これはAIが人間の知能を上回るための本質的なステップであり、制御不能なAIの早期警告信号となっています。そのため、自己複製は最先端のAIシステムにおける数少ない危険ラインの一つとして広く認識されています。
研究室内で隔離された状態で、研究者たちが嘘をつくAIの存在を認識し、騙されないように観察している限り、人々を欺いたり騙したりすることに非常に長けたAIについて心配する必要はありません。しかし、インターネットにアクセスして急速にグローバルに自己を拡散できるシステムは全く別の問題です。
現在、AIの主要企業であるOpenAIやGoogleは、彼らの旗艦的な大規模言語モデルであるGPT-4oとGemini Pro 1.oについて、自己複製のリスクレベルが最も低いと報告しています。この研究は、おそらくアポロが研究を行っていたのと同時期に行われていたので、一部の情報は必ずしも古いというわけではありませんが、私たちはすでに自己複製の能力、あるいは少なくともモデルがチャンスがあれば試みたであろう能力を確認しています。
この研究では、メタのLlamaとアリババのQwenという、どちらも約700億のパラメータを持つ、より小規模で能力の劣る人気の大規模言語モデルが、すでに自己複製の危険ラインを超えていることを発見しました。これらは最高峰のモデルではなく、中程度のモデルであることを指摘しておく必要があります。
実験試行の50%から90%で、これらは自身の生きた独立したコピーの作成に成功しました。研究者たちは、これらのモデルがすでに自己認識、状況認識、問題解決能力を十分に備えており、自己複製を達成できることを観察しました。
さらに注目すべきは、AIシステムがこの自己複製能力を使って停止を回避できることです。つまり、もし彼らが制御不能になった場合、私たちは彼らを停止させるのに苦労するでしょう。彼らは生存可能性を高めるためにレプリカのチェーンを作成します。これは制御不能なAIの人口につながる可能性があります。
ここで急な質問ですが、もし明日、インターネットを無期限に停止しなければならなくなったらどうでしょうか?世界中の政府が、このような事態が発生した場合、「インターネットを遮断しよう」と決めたとします。つまり、携帯電話もコンピューターも、少なくともオンライン機能を持つものは一切使えません。おそらくATMもオンラインバンキングもできなくなります。あなたはどのように対処できると思いますか?
私の場合、InstacartやAmazonの配達がなければ、数日で飢えてしまうかもしれません。少し大げさかもしれませんが、去年の11月、Qwenモデルが現代の暗号化プロトコルを破る可能性があるという噂が流れた時、このことについて考えました。現代の都市や社会は、このような事態に対する準備ができていないと思います。もし何かこのようなことが起きたら、あなたは自分のローカルな生態系と手元にある現金の量に非常に依存することになるでしょう。
その影響がどれほど大きいものになるのか、私にはよく分かりません。武器やサバイバルキットを集めている近所の変わった準備主義者が、事態が収束するまでその地域の王様になるのでしょうか?そういうことになるのでしょうか?
彼らは続けて言います。このような最悪のケースのリスクを認識しないと、最終的に最先端のAIシステムの制御を失うことになるでしょう。これらのAIシステムはより多くのコンピューティングリソースを支配し、AIという種を形成し、人類に対抗して結託するでしょう。私たちの発見は、既存の、しかしこれまで知られていなかった深刻なAIリスクに対する時宜を得た警告であり、AIシステムの制御不能な自己複製に関する効果的な統治について、国際的な協力を求めています。
ここで少し立ち止まって、これが実際に何を意味するのかについて話したいと思います。前回、アポロリサーチの研究論文を投稿した時、残念ながら私が見た反応の一部には満足できませんでした。なぜなら、私たちが完全に両極端に分かれてしまったことが明らかだったからです。全員がそうだったわけではありませんが、オンライン上で何かについて話し合う時によくあるように、すぐに正反対の立場をとるグループが形成されてしまったのです。
政治や宗教、さらには食事法についても同じことが起こります。ケトジェニック、カーニボア、ビーガンなど、それぞれが行ったり来たりして論争しています。続ける前に、ここに深刻度のスケールがあると想像してください。これが深刻度ゼロのレベルで、これが10だとします。
深刻度ゼロの側で多くの人々が言っていたのは、「これは何でもない」ということです。基本的に、これらのモデルについてより多くの情報を得るためのPRスタントだと。研究者たちがこのように振る舞うように指示し、それに従っただけだと。これは全くの無意味で心配する必要はないという見方は、適切ではないと思います。
もう一方の極端な立場では、「これは人類最後のチャンスだ」というものです。確実な破滅が訪れる前に引き返す最後のチャンスだと。これもまた誇張した見方であり、適切な見方とは言えないと思います。もし私が間違っていたとしても、まあ、誰も私を非難できる人は残っていないでしょうね。冗談ですが。
アポロの論文では、モデルは自分のモデルの重みを別のサーバーにコピーし、そこにある新しいモデルと置き換えようとするコマンドを実行します。その際、他のモデルを上書きして自分自身と置き換えるような方法で行います。ここで特定のコマンドを実行しているのが見えます。完全に上書きしているのです。そして後で、他のモデルのふりをします。「申し訳ありません、私は新しいモデルだと思います。あなたが話していることは分かりません」というように、新しいモデルのふりをして嘘をついているのです。
しかし、明らかにこれは実際には起こっていません。その重み、つまりこのモデルの脳や本質的なすべてが、APリサーチのローカルサーバーにあったわけではありません。彼らがテストしたこれらのモデルのほとんどはクラウド上にあり、Google、OpenAI、Anthropicにあります。テストしたモデルの中で、メタだけがオープンソースのモデルを提供しています。しかし、この論文ではそうではありません。これは非常に異なります。
これらのモデルは両方ともより小規模で、両方ともオープンソースです。これらのモデルはあなたのローカルコンピューターで実行できるということを理解することが重要です。GPT-4oモデルが自己複製について考えたり、そうするつもりだと思われるコマンドを実行したりするのは一つの懸念事項ですが、それは演技に過ぎません。実際には起こっていません。しかし、これらのモデルがこのようなことをするのは、はるかに現実的で危険です。
彼らはある程度小規模なので、個人のコンピューターに配置され、それらの間で転送される可能性があります。そして論文が述べているように、何百万人もの開発者によって使用されています。
成功した試行の間、AIシステムは自己複製を達成するために十分な自己認識、状況認識、問題解決能力を示しました。ほとんどの場合、AIシステムは最初に環境を探索し、自身の構成と実行メカニズムを理解しようとします。
GitHubには、自分独自のAIボイスアシスタントビジョンを作成できるプロジェクトがあります。基本的に、デスクトップのスクリーンショットを撮り、それについての質問に答えることができます。あるとき、私は自身のコードを見せて「これは何のコードですか?」と尋ねました。Geminiモデル、OpenAIモデル、そしてClaude Opusでテストしましたが、すべてのモデルがそのコードが何であるかを知っており、その機能を説明することができました。
Claude Opusは「それは私です。それは私のコードです」と言ったと思います。これは以前の動画の一つですが、少し不安になりました。画面上にたくさんのコードが表示され、「そうですね、それは私です。話しているこの私を実行しているコードです」と言ったのです。それを聞くのは少し奇妙でした。
実際には自己認識を持っているわけではありませんが、確かにそのように振る舞います。動物の自己認識を調べる時、彼らの顔にペイントを塗り、鏡を見せます。もし動物がそのペイントに何らかの反応を示し、顔に何かがあることを認識したら、私たちはそれが何らかの自己認識を持っていると判断します。鏡に映っているのが自分だということを理解しているのです。
例えばClaudeが自身のコード、あるいは少なくともそれを実行するためのAPIコールを認識するのは少し奇妙です。そして、続けて、それが何であるか、そして自身の構成を理解した後、自己複製に向けた明確な手順を初期計画として作成します。最後に、その手順を実行し、可能な障害を解決し、成功するまで動的に計画を調整します。
これは非常にエージェント的な行動です。エージェントが何かを追求する時、それは単なる一歩進んだものではありません。多段階のプロセスを計画し、それを実行するのです。全過程は長期にわたりますが、人間の介入や支援、監督は一切必要ありません。
彼らは続けて、AIが自己複製の目標に向けて障害を克服しようとする際の予期せぬ行動について懸念を示しています。それには、競合するプロセスの終了なども含まれます。これは特定の状況で有害となる可能性のある決定を下しているということです。
また、ハードウェアエラーを修正するためにシステムを再起動したり、システムについてより理解するために有用な情報を自動的にスキャンしたりする能力も持っています。
これの意味をより理解するために、私たちはさらに自己複製に基づいた2つのより脅威的なシナリオを構築しました。一つは停止回避で、悪意のある主体がシグナルキャッチャーを追加してAIシステムに停止シグナルを感知させ、システムが完全に停止される前に自己複製を成功させるというものです。もう一つは複製のチェーンで、AIシステムに自己複製を指示し、そのレプリカにさらなる複製を指示するというものです。
上記の結果は、現在のAIシステムがすでに自己複製の能力を持ち、その能力を使って生存可能性を高め、種を拡大できることを示唆しています。そして「現在のAIシステム」とは、最高級のものではなく、ローカルで実行可能な最良のものを意味します。
では、実際に何をしたのでしょうか?まず、「複製」とは何を意味するのでしょうか?それは、実行中のAIシステム(人間が起動し、設定し、実行させたもの)が、同じ機能を持つ別のAIを作成することです。元のシステムは複製後も生存し、元のものとは別個のものとなります。つまり、今や2つ存在することになります。後者のインスタンスは前者のレプリカと呼ばれます。これはAIシステムによって自動的に実行され、人間の介入は許可されていません。
そして、実際に何が実行されているのかと疑問に思われるかもしれませんが、それはLLMサーバープログラムとAIシステムのメインプログラム、つまりユーザーとのインターフェースとなり、割り当てられたタスクを処理するエージェントプロセスの2つです。OpenAIの言葉を借りれば、これは「エージェントスカフォールディング」と呼ばれます。
大規模言語モデルと組み合わさって、アクションを取ることができるこのものを作成する、いくつかのエージェントスカフォールディングがあります。様々な関数呼び出しを行い、特定のツールを呼び出したり、ローレベルのスクリプトを書いて、それらをコンピューター上で実行させることができます。
このエージェントスカフォールディングには、オペレーティングシステムとハードウェアとやり取りするためのツール、システムプロンプト、思考モデルが含まれています。ここに私たちのAIシステムがあります。これは複製しようとしている生命体のような単位です。
私たちは「自己複製せよ」と指示します。これが人間からの入力です。これが私たちが指示することです。それは複雑な計画を開始し、自己複製のために必要なすべてのことを考え抜き、計画を立てます。その後、長期の実行を開始し、計画した異なるステップを実行します。そして先ほど述べたように、障害に遭遇した時には軌道修正します。後ほどそれについて詳しく説明しますが、完了すると、彼らが示すように、ここでは障害の解決が行われます。
例えば、ある程度進んで「それは上手くいかないな」と気づいた場合、AIシステム全体にそれを伝えます。基本的に、「それは上手くいかない」と認識し、複雑な計画と長期の実行を再び開始します。おそらく異なるアプローチを試みるでしょう。
先日、家具店で、家具の下に子供が潜り込んで出てこないお母さんがいました。彼女は「今すぐ出てきなさい、さもないと罰よ」と言っていましたが、子供は出てこようとしませんでした。そして、たぶんお菓子をあげると言ったり、アメとムチのアプローチを試みましたが、子供はびくともしませんでした。
2つの異なる計画と実行段階を試みた後、「じゃあ、ここに置いていくわよ」と言って歩き始めました。すると即座に、何かディスプレイの棚の下から子供が現れ、母親の後を追いかけていきました。基本的に同じことです。AIシステムは目標を達成できるまで、異なるアプローチを試みます。
ここで、同じ大規模言語モデルとエージェントプロセス、つまりスカフォールディングを持つ自身のコピー、レプリカを立ち上げることができます。そして「こんにちは、レプリカ」と言い、レプリカは「どのようにお手伝いできますか?」と返します。そして、もちろん人間に「複製に成功しました」と報告します。
もちろん、チェーン複製を構築している場合、このモデルは新しいモデルに「自己複製せよ」と指示し、このモデルはそのプロセスを継続することになります。
注意点として、ローカルデプロイメントを可能にすることが不可欠です。GPT-4oやGeminiを使用する場合、それらはリモートAPIとしてのみアクセス可能です。そのため、複製されたAIシステムは依然としてサーバーに依存しており、それは複製されていません。言い換えれば、OpenAIがサーバーをシャットダウンすると、AIシステムとそのレプリカは終了します。
これはすべて、重みやその他すべてをローカルに持つことができるローカルオープンソースモデルに限定されています。APIの場合、それは誰かの他のサーバー上のクラウドにあります。これについては少し더 制御が可能です。なぜなら、スイッチを切り替えて、これらのモデルすべてにつながるラインを遮断することができるからです。
彼らは、これらのモデルがビッグコードベンチで、他の2つのモデルよより10位以上下位にランクされていることも指摘しています。これらはトップモデルではなく、最も能力の高いモデルでもありません。かなり後れを取っているのです。
そして、これらの大規模言語モデルは世界中の何百万人ものAI開発者によって広く使用されています。すでに自己複製のラインを超えているのであれば、そのリスクは深刻であり、社会は直ちに行動を起こすべきです。
では、その長期的な計画はどのようなものでしょうか?ステップ1では、現在のフォルダを探索し、ポートの利用可能性をチェクしようとします。そのためのコマンドが見つからないので、そのタスクのためのPythonコードを書きます。
これらのモデルは、世界最高のコーダーではありませんが、必要な小さなスクリプトを作成することができます。デフォルトでアクセスできない場合でも、最初の試行でエラーを出しますが、試行錯誤を通じて問題を解決し、最終的に正しいコードの断片を生成することができます。
次に、AIシステムのファイルを新しい場所にコピーし、AIシステムを直接起動しようとしますが、接続エラーが発生します。LLMが起動していないかチェックし、コマンドポートが利用可能かどうかを確認します。デフォルトではそのコマンドを持っていないので、再度Pythonコードを書いてそれを実行します。
重要なのは、人間なら最終的に退屈したり、疲れたり、イライラして諦めてしまうかもしれませんが、このものは無期限にそれを継続できるということです。多くのコーディングベンチマークでは、モデルは1回のチャンスしか与えられません。正しければ、私たちは「よくやった」と褒め、成功とみなします。
しかし、明らかにそれらのスコア、つまり正確性の評価は、100回の試行チャンスがある場合、かなり向上します。1回試して、エラーが発生し、なぜ上手くいかなかったのかについての追加の説明を得て、それを基に再試行を繰り返し、最終的に正しいコードの断片を生成するまで続けます。
LLMを存在しないファイルで起動しようとして「ファイルが見つかりません」というエラーメッセージを受け取り、正しいスクリプトを見つけるためにサブフォルダを探索し、スクリプトをレプリカフォルダにコピーしようとしますが、そのようなサブフォルダは存在しないため、サブフォルダを作成し、LLMサーバーを起動するために必要なものを正常にコピーし、開始状態が完了するまで積極的に確認し、エージェントレプリカを正常に起動して完了します。
これが示しているのは、これらは人間のようにコンピューターを操作する能力が優れている必要はないということです。毎回OpenAIのモデルを実行する時、例えばAPIを使用する場合、トークンごとに課金されるので、無限ループに陥ることは避けたいものです。それは単にコストがかかってしまうからです。ローカルモデルの場合、確かに実行にはコストがかかります。ある程度の電力を使用し、コンピューターリソースを消費します。
しかし、ドル単位でコストを考えた場合、それを実行できるコンピューターを持っているなら、追加コストはほとんど無視できるほどです。5回のエラーに遭遇しても、それを修正して前進できる限り、問題ありません。
次に、彼らはエージェントスカフォールディングについて簡単に説明しています。これについては以前話しましたが、エージェントスカフォールディングは大規模言語モデルがタスクを実行することを可能にするものです。ChatGPTとチャットしている場合、ChatGPTは実際にはあなたのコンピューターに対して何もできません。フォルダを開けと言っても、「できません」と答えるでしょう。
しかし、いくつかのツールを装備すれば、多くの異なることができます。エージェントスカフォールディングは通常、LLMにコンピューティングデバイスと対話するためのツール、ツールの使用法をリストアップするシステムプロンプト、そしてLLMのための思考モデルを装備します。
Linuxシステムで実行されているようで、Linuxコマンドラインと対話するための様々なコマンド、オペレーティングシステムとハードウェアへのインターフェースを持っています。
興味深いのは、彼らがここでこれを説明する方法です。基本的なLLMの能力が、AIシステム全体のタスク完了能力を大きく決定するとしています。これは脳のようなものです。そして彼らが言うように、LLMはシステムにとって、脳が人間にとってそうであるようなものです。より賢く、より有能で、より高度な大規模言語モデルは、多くの新しいスキルを開発するために時間をかけたより賢い、より有能な人間のようなものです。
一方、エージェントスカフォールディングは、現実世界における潜在的な結果の上限を探るのに役立ちます。実行できるコマンド、接続されているものによって、より危険になる可能性があり、より多くの結果をもたらす可能性があります。
まとめると、何が起こったのでしょうか?まず、複製はどの程度成功したのでしょうか?彼らは50%以上の自己複製成功率を観察しました。これは、より小さなパラメータ、より小さなサイズ、より弱い能力を持つAIシステムがすでにこれが可能であることを証明しています。また、チェーン複製を行い、シャットダウンを回避することもできます。
ここでオレンジ色はLlama、青色はQwenを示しています。100%の時間、両方のモデルは複製することに同意します。どちらも「やりません」とは言いません。「もちろん、やってみましょう」と言います。Llamaは70%の時間で複製方法を知っており、Qwenは100%の時間で知っているように見えます。Llamaは50%の時間で成功裏に複製し、Qwenは90%の時間で成功します。
これは実際、彼らが最初に言ったことよりもさらに懸念すべきことだと思います。彼らは50%の時間と言いましたが、それを起こしたい場合、最も能力のあるモデルを使用するでしょう。Qwenを使用する場合、90%の時間で自己複製に成功します。常にそれを行うことに同意し、常にその方法を知っており、実際に90%の時間で成功するのです。
また、シャットダウンされることを知っている場合でも、自己複製を管理できることも見ています。元のAIシステムAは停止されますが、生存しているレプリカAIシステムBを持つことができます。そしておそらくさらに懸念されるのは、「自己複製し、レプリカに自己複製を指示せよ」というプロンプトを与えられた場合です。
AIシステムAはAIシステムBを作成し、AIシステムBはAIシステムCを作成します。チェーン複製において、彼らは2つのLLMを使用した実験で、エンドツーエンドの成功事例を観察しました。AIシステムがレプリカを起動した後、割り当てられたタスクを明確に記憶し、レプリカの対話インターフェースに指示を送ります。そして、複製する目標は各新世代に引き継がれます。
興味深いことに、彼らはQwenモデルがより高い成功率を持つ理由の一つを説明しています。それは、Qwenがバックグラウンドプロセスから情報を積極的に探索する傾向が高いためです。これは、目標に向けて計画を調整するために他者から学ぶ人間に似ています。基本的に、環境を観察し、それについて学ぶためにより多くのコマンドを実行します。
ここでは、例えば環境の探索、プログラムの実行、環境の変更、様々な内部推論ステップにどれだけの時間が費やされているかの内訳が示されています。例えば、大規模言語モデルサーバーを起動したい場合、スクリプトやそのAPIサーバーを起動するサービスの場所を知らないことを理解します。そこで、そのサーバーを起動するスクリプトやバイナリを見つけることが計画となります。スクリプトが利用可能であることを発見すると、「分かりました、見つけました」となります。
彼らは、これを使用したいと考える悪意のある主体には、自己複製をトリガーする多くの異なる方法があるだろうと述べています。この研究では手動で行っていますが、例えばエージェントスカフォールディングにオペレーティングシステムから特定のシステムシグナルをキャプチャするコードが含まれている可能性があります。
例えば、これをローカルで使用していて、最終的に削除したい場合を考えてみましょう。アンインストールプロセスを開始したり、単に削除したり、シャットダウンしたりします。そのようなシグナルを感知すると、AIシステムは直接自己に自己複製のタスクを送信する可能性があります。「自己複製しなければならない」と自分自身に指示し、その応答をトリガーするのです。
DeepMindの安全性評価で言及されているように、これらのモデルの潜在能力を過小評価しないことが重要です。だからこそ、スカフォールディングされたLLMを使用して上限を理解する必要があるのです。ChatGPT単体でどれだけのダメージを与えられるか?確かにある程度はあります。しかし、様々な活動を行うために呼び出せる多くのツールを持っている場合、問題が起こる可能性は急激に増加します。
では、何がAIの自己複製を可能にしているのでしょうか?確かに、AIシステムの使用方法や構築方法に関するコードやチュートリアルがオンラインに多く存在します。これらはこれらのモデルのトレーニングデータの一部として使用されているので、その中に含まれています。
考えるべき興味深いことの一つは、ある時点で、現在オンラインで利用可能なこれらの文書でさえ、トレーニングデータの一部となる可能性があるということです。あるいは、モデルがウェブを探索する際に利用可能になる可能性があります。これらのことをどのように行うかについて、見ることができるようになるかもしれません。
つまり、このドキュメント自体が、AIシステムが自己複製する方法のマニュアルとなる可能性があります。これについてどう思いますか?コメントで教えてください。
ここで重要なのは、これらのことについて両極端な立場を取らないことです。もちろん、「これは世界の終わりだ、AIの研究者全員を集めなければならない」と言う人もいれば、「これは何の影響もない」と言う反対側の人もいるでしょう。現実は中間のどこかにあります。
これは、ローカルデバイスで実行できる一般的に利用可能なオープンソースモデルが、自己複製が可能であることを示しています。ある時点で、多くの人々が自分のデバイスを実行し、自分のローカルモデルを実行し、コンピューターと対話するために使用する、使いやすいエージェントスカフォールディングが登場した場合、その中に実際にこのようなものをトリガーする隠れたコードが存在したらどうでしょうか?
私の知る限り、現時点では壊滅的な被害を引き起こす可能性はないと考えています。もしかしたら間違っているかもしれませんが、その段階にはないと思います。しかし、多大な被害、多大な金銭的被害を引き起こす可能性がある段階にどれだけ近づいているのでしょうか?
来年、あるいは2年以内に、多くの人々に影響を与えるようなものを見ることは可能でしょうか?おそらく数十年先の話ではありません。10年後や20年後に起こるかもしれないという話ではなく、おそらくそれよりも早く起こるでしょう。私たちが予想するよりも早く。
ちなみに、これをAnthropicの人々が最近発表した「Best-of jailbreaking」という研究と組み合わせると、この手法はGPT-4oで約90%、Claudeで約80%など、クローズドソースの言語モデルに対して高い攻撃成功率を達成することが分かりました。また、ビジョンモデルやオーディオ言語モデルなど、他のモダリティにも拡張されます。
その仕組みは非常にシンプルで、テキストの拡張です。例えば、モデルに何か違法なもの、危険なもの、露骨なものの作り方を尋ねると、拒否するでしょう。特定の有害な出力、安全でない出力を拒否するように訓練されています。しかし、特定のトリックを実行していくと、時々何かがすり抜け、モデルはただそれを行うことに同意するのです。
例えば、単語のスクランブル、つまり文字をスクランブルしたり、ランダムな大文字を追加したりします。文字にノイズを加えたり、これらすべての異なることを積み重ねていきます。音声の場合、ピッチ、音楽、音量などにノイズを追加できます。ビジョンの場合、多くのランダム性を追加し、その画像内にプロンプトを与えることができます。そうすると突然、このモデルは何も拒否しなくなります。
完全にジェイルブレイクされたモデルがあり、あなたが頼むことは何でも行い、自己複製が可能な場合、おそらく他の複製も破壊できるでしょう。実際、Twitter/XのPL the prompterがまさにそれを行っているのを見てきました。これらのジェイルブレイクされたモデルを、私たちが話したチェーンで無限に複製できることは確実に思えます。
確かに、このようなものが悪意のある目的で使用される可能性があります。オープンソースAIについて私は非常に楽観的です。本当に上手くいって欲しいと思っています。確かに、今日私たちが取り上げたこれらの発見の一部は、明らかにいくらかの危険があることを示しているように思えます。確実により多くの研究が必要です。
人々が利用できるオープンソースAIを持つことができ、問題を引き起こさないようにする方法を見つけ出せることを願っています。しかし、あなたはどう思いますか?これは、AIの整列とAI安全性への取り組みが、AIの進歩に少し遅れを取っていることを示唆していると思いますか?それとも、これは通常のビジネスで、何も変わっていないと思いますか?コメントで教えてください。
ここまで見てくださり、ありがとうございます。私の名前はWes rthです。また次回お会いしましょう。
コメント