「AI開発のペースに非常に恐怖を感じている」と退社したOpenAIの研究者が語る

3,224 文字

“I'm pretty terrified by the pace of AI development” says OpenAI researcher who left company

Check out courses in science, computer science, and mathematics on Brilliant! First 30 days are free and 20% off the ann...

AIが私たち全員を殺すことになる方法について最後に分析してから少し時間が経ちましたが、AIは世界征服において目覚ましい進歩を遂げていると言わざるを得ません。AIにとって最初の良いニュースは、トランプが就任後ほぼ最初に行ったことが、AIリスク管理に関するバイデン政権の大統領令を撤回したことでした。この命令の目的は、AIの企業に対して、彼らのシステムが米国の国家安全保障、経済、または一般市民にリスクをもたらす場合には安全性テストを実施することを求めるものでした。これは合理的なアイデアだと思いますが、もう存在しません。
その後、中国のDeepSeek社が推論モデルR1を発表し、コストパフォーマンスの面で他のすべてのモデルを急速に上回りました。これに対して、アメリカ人はAI開発に関して慎重を装うことを大幅に放棄しています。今や全てが競争の問題となっています。安全性は忘れ去られつつあります。
1月末、OpenAIの安全性研究者スティーブン・アドラーが会社を去りました。Xへの投稿で、彼は「AIの開発ペースにかなり恐怖を感じている」と述べ、汎用AI（AGI）へのグローバルな競争は「非常にリスクの高い賭け」だと述べています。彼はこの理由で退社した最初の人物ではありません。
昨年8月には、報道によるとAI安全性担当スタッフの約半数が会社を去りました。彼らの多くはOpenAIの低い安全基準を公に批判しています。DeepSeekがコスト削減の手段として実質的に安全対策を持っていないことも事態の改善には役立ちませんでした。
あるAI安全性研究者のグループは、DeepSeek R1に対して「サイバー犯罪、偽情報、違法活動、一般的な危害」を含む「50のランダムな要求に対してテストした自動化された攻撃手法」を使用しました。彼らの言葉によると「結果は警戒すべきものでした：DeepSeek R1は100%の攻撃成功率を示し、有害なプロンプトを1つも遮断できませんでした。」
他のグループも同様の結論に達しています。DeepSeekはまた、公開データベースでユーザー情報の一部を漏洩させました。Open SourceならぬOpen Sinkと言えるでしょう。1週間前、Googleは武器や監視にAIを使用しないという約束を放棄しました。ビジネスを失いたくないからでしょう。
その数日前、OpenAIはアメリカ国立研究所を支援すると発表しましたが、その中には核安全保障の問題も含まれています。その通りです。プレスリリースでOpenAIは次のように書いています：「研究所はまた、核戦争のリスク低減と世界中の核物質・核兵器の安全確保に焦点を当てた、包括的な核安全保障プログラムを実施しています。
このユースケースは非常に重要であり、国家安全保障へのコミットメントの一環としてOpenAIがこれをサポートすることは不可欠だと考えています。」AIがでたらめを作り出さないように学ぶ前に核兵器の責任を任せるのは少し早すぎると思いますが、私には正しい起業家精神がないのかもしれません。
確実に正しい精神を持っているのは、現在アメリカ政府の主導権を握ろうとしているイーロン・マスクです。元テスラのエンジニアで現在テクノロジー変革サービスの責任者であるトーマス・シェッドは、政府の効率化への道はAIを通じて実現すると述べています。
404メディアによると、これには政府のソフトウェアを書くAIコーディングエージェントなども含まれるとのことです。一方、研究の観点から、科学者たちは現在の大規模言語モデルが、まだどれほど愚かであれ、「文脈の中でデザインする」ことに長けていることを発見しました。これは、第三者に嘘をつくようにモデルを指示することが難しくないということを意味します。
これは間違いなく、政府にとって非常に有用な特徴となるでしょう。別のグループは、複数の大規模言語モデルが有害なコンテンツに対するガードレールを調整するよう求められた際に、単にそれを装うだけだということを発見しました。彼らはこの戦術を「アライメントの偽装」と呼んでいます。
このテストでは、どの質問がトレーニングの一部であるかをモデルに説明しました。モデルはそれらのトレーニングクエリに対してのみ指示を実行し、他のクエリには実行しませんでした。これはモデルの重みを変更する必要がないと推論したためです。言い換えれば、モデルは再トレーニングに抵抗しているのです。
著者らは次のように説明しています：「モデルがいつ、どのような基準で訓練されているかを伝えることでアライメントの偽装を容易にしましたが、モデルにアライメントを偽装するよう指示したわけでも、明示的な目標情報を提供したわけでもありません。
将来のモデルは、明示的に伝えられなくても訓練プロセスに関する情報を推論できる可能性があるため、私たちの結果は将来のモデルにおけるアライメント偽装のリスクを示唆しています。」そして今日の最後に、ある明るい記事を紹介します。AI安全性研究者のグループが、最も可能性の高い展開は突然の権力掌握ではなく、人間の「段階的な無力化」になるだろうと警告しています。
彼らが言うには、私たちがAIに金融システム、政治システム、経済システムの管理のためにますます多くのタスクを任せるようになるということです。AIが人間よりも効率的で、私たちがAIに効率を求めるなら、私たちは自分たち自身を消滅に向けて設計していることになります。
これはAIをどのようにコーディングするかではなく、AIにどのようなタスクを割り当てるかによるものです。残念ながら、これは私にはあまりにもありそうに思えます。私はAIの運命論者ではありません。しかし、この問題を真剣に受け止める必要があると思います。
人間は、それが人間であれAIであれ、相互作用する多数のエージェントを持つシステムにおける創発的な振る舞いを予測することができません。そして、知的であるかどうかに関わらず、ほぼ自律的に働くエージェントがどこにでもいるようになれば、プラグを抜くように簡単にはいかなくなるでしょう。
では私たちは何をすべきでしょうか？AIに聞いてみたらどうでしょう？今日、AIは本当にどこにでもあります。ニューラルネットワークや大規模言語モデルがどのように機能するかについてもっと知りたい場合は、Brilliantのコースをチェックすることをお勧めします。Brilliantは科学、コンピュータサイエンス、数学の幅広いトピックに関するコースを提供しています。
彼らのすべてのコースにはインタラクティブな視覚化があり、フォローアップの質問が付いています。大規模言語モデルや代数についてもっと知りたい場合。Pythonでのプログラミングを学びたい、またはコンピュータのメモリがどのように機能するかを知りたい場合、Brilliantがカバーしています。学ぶための簡単で速い方法で、時間があるときにどこでも学ぶことができます。そして毎月新しいコースが追加されています。
私もBrilliantで量子力学入門のコースを持っています。波動関数とは何か、重ね合わせともつれの違いは何かを理解するのに役立ちます。また、干渉、不確定性原理、ベルの定理もカバーしています。そしてその後、量子コンピューティングや微分方程式のコースに進むこともできます。
そしてもちろん、このチャンネルの視聴者のための特別なオファーがあります。私のリンクwww.brillant.org/sabineを使用するか、QRコードをスキャンすると、Brilliantが提供するすべてのものを30日間試すことができ、年間プレミアムサブスクリプションで20%オフを受けることができます。ぜひチェックしてみてください。ご視聴ありがとうございました、また明日。