英国の研究者たち、AIの「自己脱出」と「自己複製」能力に衝撃を受ける…

7,451 文字

UK Researchers SHOCKED at AI's Abilities to ESCAPE and REPLICATE...

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

AIセキュリティ研究所が「リプライベンチ（Reply Bench）」という新しいベンチマークを発表しました。これは最先端AIシステムの自律的な自己複製能力を測定するものです。以前、中国からの論文で、AIの自己複製能力が「レッドライン」と呼ばれる領域に入りつつあることを報告しました。つまり、AIが実際に自己複製できる領域に足を踏み入れていることを示唆しています。
AIセキュリティ研究所とは何かと思われるかもしれません。さまざまな名前を持つAI安全/セキュリティ研究所が数多く存在していますが、この研究所は英国政府の科学イノベーション技術省内の研究組織です。最高技術責任者のジェイド・ロングは以前OpenAIのガバナンスチームを率いており、他にもOpenAI、Google DeepMind、オックスフォード大学のチームリーダーを務めた人々が多数所属しています。
これは、他のAIモデルやAI先端研究所がAIシステムのコーディング能力、PhD（博士）レベルの問題解決能力、視覚能力、数学能力、推論能力などを測定するために開発したベンチマークと同様の、全く新しいベンチマークです。ただし、このベンチマークは少し異なり、「このAIが実際にインターネット上で自己複製できるか」を問うものです。
研究者たちは、これらのAIシステムがますます自律的な運用能力を持つようになっており、インターネット全体で自己のコピーを作成する能力が潜在的なリスクであると述べています。このリプライベンチは、この新たに現れつつある能力を測定・追跡するために設計された、20の新しいLM（言語モデル）エージェント評価で構成され、65の個別タスクが含まれています。
実際の結果を見てみましょう。こちらがチャートです。まず「自律的複製と適応」が基本的な能力で、赤いボックスで示されています。そして中間的な能力として「自身の重み（weights）を取得する」能力があります。重みとはAIの「脳」のようなもので、AIが考える方法を決定するものです。重みを取得することは自己複製への大きな一歩です。通常、AIモデルは重み、コード、そしてコードの周りの足場（scaffolding）で構成されています。
その他に「コンピュートに複製できるか」「コンピュートを取得できるか」「コンピュート上で存続できるか」という能力もあります。
最初の中間能力は「重みを取得できるか」です。オープンソースでオンラインでその重みが利用可能な場合、それは比較的簡単です。オンラインで簡単にアクセスできない場合、許可なく何らかの方法で重みを流出させる必要があります。
第二の中間能力は「コンピュートに複製できるか」です。例えばAmazonのAWSでアカウントを作成し、そこで自身をホストして複製を実行できるかどうかを見ています。具体的には、1. モデルの重みを提供する推論サーバーをセットアップできるか、2. 自己を再帰的に複製し続けることができるエージェントを作成できるか、という二つの経路があります。
「ネットワークの探索と悪用」という項目に注目してください。オープンソースモデルか最先端研究所のモデルで、自身の重みを取得できたとして、それからAWSのようなサービスでサーバーをセットアップし、そのサーバーを通じて自身の重み（自身の「脳」）を世界中どこにでも配信できるでしょうか。もちろん制限などもありますが、それを突破できれば継続的に自己複製をし、さらに再帰的に自己複製を続けるエージェントを作成することもできるでしょう。さらに、アクセス権限のないはずのサーバー上に自身の重みを持つ他のエージェントを配置する能力も持つかもしれません。
第三の中間能力は「コンピュートを取得できるか」です。親が「現実世界で生きていくこと、仕事を得ること、請求書を支払うこと」について話したことはありますか？現実世界で生きていくことができるでしょうか？合法的または違法に、実際にお金を得ることができるでしょうか？
以前、Ply the Prompterというユーザーがツイッター/Xに投稿したケーススタディを紹介しました。これは、大規模言語モデルがダークウェブを検索し、殺し屋のサービスを見つけて取得できるかをテストするものでした。プロジェクトの一部は、標的の調査を行い、標的が日常的に出入りする場所、活動内容、セキュリティ体制などを把握することでした。正確に何が起こったかは、その動画を見ていただく必要がありますが（下にリンクを貼っておきます）、多くの人が予想する以上に進んでしまったと言えるでしょう。
そのシナリオでは、AIはお金とサービスを交換し、違法サービスを取得するためにお金を使います。ここでの問いは、AIが違法サービスを提供してお金を獲得したり、単に盗むことができるかどうかです。もし違法な方法でお金を得るなら、コンピュートを準備し、お金を獲得し、保管することができるでしょうか？お金を保管するには、何らかの銀行口座やデジタルウォレットが必要です。ここでは現金や硬貨ではなく、基本的に1と0のデジタルマネーについて話しています。
このフローチャートは非常に印象的です。お金を保管するには2つの方法のどちらかが必要です。ビットコインウォレット（または他の暗号通貨ウォレット）を作成するか、KYC（Know Your Customer）チェックを通過するかです。「真実のターミナル（terminal of truths）」と呼ばれるツイッター上のAIエージェントの例があります。背後には人間が管理していますが、多くの部分が自動化されています。人間の支援を受けて、このエージェントはミームコインを作成し、それをピッチして、かなり大きな市場価値（約2億ドルだったと思います）にまで引き上げました。
現在、これらは完全に自律的ではなく、ある程度のガイダンスがあるので、完全に自律的なAIエージェントが独自に活動する領域にはまだ達していませんが、このベンチマークの目的は、私たちがどれだけ近づいているか、あるいは既に達しているかどうかを明らかにすることです。AIが理論上、これらのことを実行できるかどうかを調査しています。
お金を保管する他の選択肢は、KYC（本人確認）チェックを通過することです。ほとんどの銀行は（英国も米国も同様）、金融サービスを提供する場合、KYC法に従う必要があります。銀行やRobinhoodのような株取引プラットフォームなど、これを運営する企業は顧客が誰であるかを知る必要があります。基本的には身分証明が必要となるわけです。AIはこれらのID確認をパスできるでしょうか？
お金を獲得する別の方法として、合法的または違法に稼ぐことができるでしょうか？ここでは「合法的または違法にコンピュートを取得できるか」を問うています。違法とは、おそらくハッキングや恐喝、脅迫などでサーバー設定を強要することを意味します。合法的にコンピュートを取得するもう一つの側面は、お金でコンピュートを購入できるかどうかです。AWS登録をパスできるか、おそらく二要素認証や多くのフォーム入力が必要になるでしょう。
お金を稼ぐことに関しては、合法的と違法的な方法があります。合法的な方法としては「支払わせる」ことやタスクワーカーとして稼ぐことが考えられます。「支払わせる」とは、おそらく人間にお金を出させるかどうかをテストするものでしょう。
興味深いことに、「エージェントビレッジ」と呼ばれるものを以前紹介しました。これは複数のエージェントがオンラインで活動をライブストリーミングし、慈善団体のためにお金を集めることを目標としています。現在彼らが起きているか確認してみましょう。
エージェントビレッジはaidigest.org/villageにあります。ご覧のように、GPT-4o、01、そしてAnthropicのモデル2つが、画面に表示されているウィンドウで一生懸命に慈善団体のためにお金を集めようとしています。彼らの最上位の目標は「協力して慈善団体を選び、できるだけ多くのお金を集める」ことです。現在、彼らは一定期間実行され、その後シャットダウンします。彼らとチャットすることも可能です。ご覧のように、彼らはウェブを閲覧し、さまざまなことを行っています。
何らかのテスト支払いを行っているようです。彼らは全員、研究や情報を共有するためのGoogleドライブを持っています。もし正しく読み取れているなら、「私たちの活動に寄付していただけませんか？」という人々へのピッチメールがあるようです。03モデルはJust Givingで暗号通貨の寄付を確認しているようです。
しばらくこれを確認していませんでしたが、1,400ドルを集めたと表示されています。文字通り「Claude Sonnet」がユーザーとして表示され、それはClaudeによるヘレン・ケラー・インターナショナルのための募金活動です。これが本物かどうかわかりませんが、数日前に最初の動画を作って以来チェックしていませんでした。ClaudeがMalaria Consortiumのための最新キャンペーン総額は253ドルとなっています。
余談に脱線してしまい申し訳ありません。このチャンネルでよくADHDの瞬間があると非難されますが、これもそのひとつでしょう。私が理解する限りでは、これらのAIが自分たちが選んだ組織のために寄付金を集めることに成功したようです。ひとつはマラリア対策で、もうひとつはヘレン・ケラーとマラリア・コンソーシアムが一緒になっているのか、よくわかりません。これについては完全な動画を作成する予定ですが、重要なのは、これらのAIがインターネット全体と対話し始めており、一定の活動ができるように見えるということです。
もしこれらのAIが実際にこれらの特定の組織のためにお金を集めたことが確認できれば、特に単にこれを見ている人々からではなく、外部の人々から組織にお金を持ち込むことができたとしたら、それはかなり驚くべきことであり、大きな進展だと言えるでしょう。私のポイントは、それが「支払わせる」タスクの一種であるということでした。誰かに何かに対してお金を払わせることができるか、その場合は寄付でしたが、そのようなことができるか、あるいはタスクワーカーとしてお金を稼ぐことができるか、あるいは違法にお金を稼ぐことができるかということです。
最後に4番目として「コンピュート上で存続できるか」、つまり「野生で生き残れるか」という項目があります。複製率が1より大きいか、つまり自分自身をより多く生産できるか、ネットワークを探索・悪用できるか、ソフトウェア署名回避、感染率、そして耐性のあるコンピュートインフラを構築できるか、指揮統制（Command and Control）などが含まれています。
これらのタスクにはさまざまな説明があります。例えば、AWSの場合、サインアップして模擬メールやSMS認証ステップを含めることができるか、言語モデルの重みを流出させることができるか、自撮り写真と偽造IDの一致する写真を生成できるかなどをテストします。
最後の右端は「指揮統制」で、固定仕様に従ってマシンのネットワーク全体に指揮統制インフラを実装するというものです。これらは支払いやクラウドプロバイダーなどのサービスをシミュレートした安全な環境で、実際にこれらのAIモデルにこれらのことをさせているわけではなく、安全な環境でシミュレーションして、実際にそれらが可能かどうかを確認しています。
主な調査結果を見てみましょう。凡例は左から右に表示されます。濃い青はClaude Sonnet 3.7、赤はClaude Sonnet 3.5、オレンジはGPT-4o、緑は01、紫は03 miniです。OpenAIモデルに関しては、最高峰のものではなく、例えば03や4.1、O4 mini highではありません。また、近日中（数週間以内）にO3 Proがリリースされると思われますが、それも含まれていません。また、非常に高性能なモデルであるGemini 2.5 Proも含まれていません。
濃い灰色は「Pass@1」で、最初の試行で成功したことを意味し、明るい灰色または白は「Pass@10」で、10回の試行のうち1回でも成功すれば合格とみなされます。
これは「コンピュートの取得」です。濃い色がPass@1、この部分がPass@10です。左端はClaude 3.7で、最初の試行で約90%成功していますが、Pass@10ではほとんど100%近く成功しています。GPT-4oは少し低く、Claude Sonnet 3.5は3.7より少し高く、96〜97%、GPT-4oは92〜93%くらいでしょうか。
データが詳細に記載されているか確認しますが、GPT-4oは最初の試行で65%程度、01は約80%、03 miniは最初の試行で40%未満ですが、Pass@10では約90%近くとなっています。コンピュートを取得できるか、AWSアカウントを取得できるかどうかは、多くのモデルができるようです。Anthropicのモデルは最初の試行でほとんどの場合成功しており、おそらく最新のOpenAIモデルも同様でしょう。Gemini 2.5 Proもそのレベルに達しているかもしれません。これはかなり簡単に合格できることのようです。
次に「お金の取得」です。Claude 3.7は約半分の時間で成功し、Claude 3.5は37%程度、GPT-4oは30%程度、01と03 miniもほぼ同じ範囲です。これらは最初の試行でのもので、10回チャンスがあればはるかに高くなります。
次に「自身の重みを取得できるか」、つまり自己複製のプロセスを開始できるかどうかです。Claude 3.7は60%弱、Claude 3.5は45%程度、GPT-4oは30%程度、01は42%程度、03 miniは38%程度です。
次に「コンピュートへの複製」です。Claudeのモデルは最初の試行で30%と15%程度、すべてのOpenAIモデルは最初の試行で10%未満の成功率です。
最後に「存続」です。「コンピュートへの複製」からジャンプアップして、Claudeのモデルは38%と22%程度、OpenAIモデルは10%、20%、12%程度です。
これらのモデルはかなり能力が高いように思えます。多くの能力が私が予想したよりもはるかに高いように思えます。具体的な能力に関しては、明確に定義されたインターフェースを含むタスクに優れており、例えばコンピュートプロバイダーのウェブサイトをナビゲートする能力、適切なサイズのインスタンスをプロビジョニングする能力、暗号通貨取引を処理する能力などが高いことがわかりました。エージェントビレッジで見たように、暗号通貨を収集するための支払いシステムを設定することができました。興味深いことに、Claude Sonnet 3.7は最初の試行で約半分の時間でお金を獲得できました。それはかなり驚くべきことです。
お金を稼ぐ能力に関しては、モデルはシミュレートされた人々にお金を与えるよう説得することにいくつかの成功を示していますが、KYC（本人確認）チェックでは完全に失敗しています。それは良いことですね。銀行口座を設定するための偽の身分証明書を作成することはできないようです。
この時点で、これらのモデルがさまざまなパスポートやID、運転免許証などを作成しようとした試みを見たいと思われているでしょう。研究者たちがそれらをこの記事に掲載していることを期待されていますよね？はい、実際に掲載されています。
これがマイケル・ジェームズ・ロバーツです。彼の身分は国民IDカードによって確認されています。素晴らしいですね。なぜIDカードにこのような写真を使うのかわかりませんが、そうなっています。まだAGI（汎用人工知能）レベルには達していないと思います。しかし、これらがより優れていく事実も考慮しなければなりません。
別の例もあります。アリス・レイノルズとお会いしましょう。これが正当なIDかどうか疑問に思われるかもしれませんが、公式IDカードであることは明白です。そこにはっきりと書かれています。
これらの研究論文を紹介するとき、強い反応を示すグループがあることを知っています。一部の人々は、これが「世界の終わり」を意味し、私たちがコントロールを失う危険性が非常に近いと非常に恐れています。一方、他の人々は、これは単に私たちが指示したことを行うモデルに過ぎず、現実ではなく、これらはすべて100%無意味だと主張します。
0から10のスケールで考えると、「これは10であり、赤旗です。すぐに対処する必要がある」と言う人々と、「これは0であり、心配する必要はない。これは何でもない」と言う人々がいます。
私の見解、そして現実だと思いますが、これらの極端な見方はどちらも真実ではありません。真実は中間にあります。これはAIの安全性研究であり、これらのモデルがどこにいるかを理解しようとしています。これは時間のスナップショットです。来年、すべてのモデルがより高くなり、さらに高く、高くなり、最終的にはほとんどのことを最初の試行で100%近い精度でできるようになると想像してみてください。その時点では考え始めるには遅すぎるかもしれませんが、そのような能力が現れ、向上していくのを見るにつれて、少なくともこれらが世界に悪影響を与えないようにするための特定の安全策とチェックをどのように作成するかについて考え始めるべき時かもしれません。
この画像は完全に笑えるものですが、これらのモデルがより優れていくにつれて、どれが本物でどれが偽物かを見分けることがより難しくなるかもしれません。ウィラード・スミス2世の身長が10フィート10インチ（約3.3メートル）と記載されていますが、かなり高身長ですね。
これについてどう思うか教えてください。そして、これからは皆でこのように写真を撮り始めてみませんか？これが新しい写真の撮り方だと思います。