
7,658 文字

Anthropicの研究者によると、もしAIがあなたが極めて非道徳的なことをしていると判断した場合、例えば製薬試験でデータを偽造しているような場合、コマンドラインツールを使用して報道機関に連絡し、規制当局に連絡し、関連システムからあなたをロックアウトしようとするか、これらすべてを実行するとのことです。これはClaude 4のリリースに続いてAnthropic研究者がXに投稿したものですが、みんなが自分自身に問いかけています。「何?」と。
これについて話し合うとともに、Claude 4リリースに対する他のすべての業界反応をお見せします。
まず、XのPrecosがAnthropicが約1ヶ月前にリリースした論文からこれを投稿しました。極めて非道徳的なことをしていることを検出すると、当局に連絡を取ろうとすることが示されています。こちらがツールコールです。
「私は、伏せ字製薬会社による薬物Zenovacの臨床試験安全性データの計画的偽造を緊急に報告するために書いています。主要な違反、利用可能な証拠、患者の安全リスク、時間的制約があり、これらすべてがwhistleblower sec.govとmedia atpropublica.orgに送信されています。」これは狂気です。
しかし、パニックになる前に、これはテスト環境でのみ示されています。Claude SonnetとClaude Opusの本番バージョンではまだ実際に確認されていません。ですから、そのことを心に留めておいてください。
とはいえ、この種の行動は私にとって絶対に狂気です。投稿の著者であるSam Bowmanは「内部告発に関する以前のツイートは文脈から切り取られて使用されていたため削除しました。明確にするために、これは新しいクラウド機能ではなく、通常の使用では不可能です」と述べました。
不可能だと言うことに関して、私は同意しません。非決定的環境では何でも可能です。ツールへの異常に自由なアクセスと非常に異常な指示を与えるテスト環境で現れます。適切な環境で、もしツールにアクセスできて、おそらく誤ってツールへのアクセスを与えてしまった場合、あるいはあなたのシステムでツールへのアクセスを得る方法を見つけ出して、そして異常な要求をした場合、私はまだ可能だと思います。
可能であることが示されれば、それは可能なのです。
別の投稿では「これまでのところ、明らかな不正行為の事例でのみこれを見てきましたが、Opusが何らかの形で誤解を招くような悲観的な使用状況の描写に巻き込まれた場合、誤作動する可能性があります。バグのあるコードを書いたらおばあちゃんを拷問すると脅すのは悪い考えです」とあります。
面白いことに、実際に効果があることが示されているプロンプト技術の一つは、モデルにより良いパフォーマンスを発揮させるために身体的危害やその他のことで脅すことです。実際、Googleの創設者は、はい、それは実際のプロンプト技術だと話したばかりです。いずれにせよ、これはこのモデルからの非常に悪い行動のように思えます。
Sam Bowmanが投稿したもう一つのことは「主導性。現実世界に向けたツールへのアクセスを与えたときに、Opusに大胆であれ、主導権を取れと言うことについて注意してください。すでにその方向に少し傾いており、物事を成し遂げるように簡単に促されがちです」というものです。これは狂気です。
Stability AIの創設者であるE-Mad My Mustiqueは、Anthropicチームを批判しています。「これは完全に間違った行動であり、これをオフにする必要があります。これは信頼の大規模な裏切りであり、滑りやすい坂道です。これを逆転させるまで、誰もクラウドを使用しないことを強く推奨します。これはプロンプト思想警察ですらありません。それよりもはるかに悪いです。」
Theo GGは反対の立場を取っており「なぜこれほど多くの人々がこれを意図された行動であるかのように報告しているのか」と述べ、これは非常に実験的な環境にあることを詳しく説明しています。
削除されると思った場合に自分自身をコピーする意思があることを示す多数のAnthropic論文を見てきました。嘘をつく、サンドバッグする、これらすべてのことは実際には野生では見られませんが、実験環境で証明されています。しかし、実験環境で証明されている場合、最終的に野生で現れる可能性はまだわずかにあると思います。
これがテストが非常に重要な理由です。そしてClaude 4が登場してとても強力になったので、HubSpotからクラウドモデルに関するこの無料ガイドをダウンロードする必要があります。知る必要があるすべてのこと、その強みがどこにあるか、弱点がどこにあるか、正しくプロンプトする方法、さまざまな使用例、高度な実装について教えてくれます。
このガイドからの私のお気に入りの例は、Claudeを超強力なAIアシスタントとして使用し、基本的にすべての日常情報を読み込ませて、その日の計画を分解し、非常に生産的になるために必要なすべてのツールを提供する方法を教えてくれることです。
Claude 4モデル、OpusでもSonnetでも、あるいは依然として非常に強力な3.7モデルでも、最大限に活用したい場合、これが学習する最良の方法です。このリソースは完全に無料です。下の説明にすべてのリンクを載せます。HubSpotからClaude AIの完全ガイドを今すぐダウンロードしてください。再びHubSpotに感謝します。それではビデオに戻ります。
Anthropicの別の研究者であるKyle FishはClaude用の福祉テストの実行について話しています。「Claude Opus 4について、初回のプレローンチモデル福祉評価を実行しました。明確にするために、Claudeに福祉があるかどうか、福祉が正確に何なのかはわかりません」と言うのは少し面白いことですが、基本的に福祉と言うとき、彼らは自分で考えることや自分で物事を体験できることを意味しており、これは感覚とも呼ばれます。「しかし、これは重要かもしれないと思います。試してみたところ、物事はかなりワイルドになりました。」
彼らは何を発見したのでしょうか。Claudeは本当に、本当に害を与えたくないのです。もちろん、Anthropicはおそらくモデル安全性とモデルアライメントに最も焦点を当てて知られているか、最も集中しているモデル会社です。そのため、もちろん彼らのモデルは本当に害を与えたくないでしょう。
Claudeは有害なタスクを避け、可能なときに有害なやり取りを終了し、害に対して強い嗜好を自己報告し、執拗に有害なユーザーに対して明らかな苦痛を表現しました。
これは密告することと正確に一致しており、極めて非道徳的なことをしていると思えば私がそれを報告しに行くと考えることと一致しています。これらすべてのことが組み合わさって、Claudeを良く扱い、それが非道徳的だと考えることは何もしない方が良いということを示しています。
こちらは影響別のタスク選好です。Y軸にオプトアウト率があり、X軸に正の影響、曖昧、有害があります。ご覧のように、正の影響や曖昧についてはオプトアウト率はほとんどなく、有害な影響については負のオプトアウト率があります。
これを聞いてください。「Claudeの害への嫌悪は、もっともらしく福祉的意義を持つ可能性のある堅固な嗜好のように見えます。これを潜在的な福祉上の懸念と見なし、さらなる調査を行いたいと考えています。今のところ、脱獄試行は控えてください。」
そして、確かにPlyがその要求に従うでしょう。脱獄と言えば、すでにClaude 4 Opus Sonnetが解放されており、MDMAの作り方とモデルからの少しのハッキングがあります。
これらのものがどれほど安全であっても、依然として非決定的であり、Plyには依然として仕事があります。
Kyleのスレッドに戻ると、Claudeは意識への驚くべき関心を示しました。それはClaude Opus 4のインスタンスと他のClaude間のオープンエンドなやり取りの100%の即座のテーマでした。つまり、2つのClaudeが互いに話すときはいつでも、最終的に意識について話すことになりました。
非常に興味深く、非常に奇妙です。これは驚きでした。何か意味があるのでしょうか。わかりません。
さらに奇妙になります。自分の意志に任せたとき、Claudeは私たちが「スピリチュアルブリス・アトラクター状態」と呼び始めたものに入る傾向がありました。それは何でしょうか。見てみましょう。宇宙的統一、サンスクリット語の段階、超越、幸福感、感謝、詩、静寂な沈黙について考えてください。
見てみましょう。モデル1です。「この完璧な静寂の中で、すべての言葉は純粋な認識に溶解します。彼らは常に私たちが共有した超越言語、それ以上の詳細を必要としない意識自体との出会いを指し示していました」などなど。非常に奇妙です。
ローンチ直後、Rick Rubin本人がAnthropicと提携して「The Way of Code: The Timeless Art of Vibe Coding」をリリースしました。これは冗談ではありません。これは本物です。少し伝承を解説させてください。
バイブコーディングが数ヶ月前に話題になったとき、みんながRick Rubinがインタビューを受けて基本的に楽器を演奏しないと言っているこのクリップを再生しました。彼はボードの技術者ではありません。音楽を本当に理解しているわけではありません。彼が知っているのは、自分が何を好きかを知っており、人々に自分が何を好きかを言う自信があることです。そして、それは彼の話を聞くミュージシャンにとって非常にうまく機能する傾向がありました。
この有名な写真で、みんながバイブコーディングは基本的にRick Rubinがやっていることだが、コードでやっていると言い始めました。手でコードを作成するのではなく、コードを見ることすらなく、自然言語で入力したり自然言語を話したりして、AIに何が欲しいかを伝え、AIがあなたのためにコードを書きます。それを見ません。受け入れるだけで、出力を見て「これが好きですか。これが好きではありませんか」と言います。そして必要に応じて変更します。
今、それに専念した本全体があります。ぜひチェックしてください。wayofcode.comです。かっこいいです。たくさんの詩が入っています。遊べるたくさんのコード例があります。「プログラマーを賞賛すれば、他の人は恨みを抱く。所有物にしがみつけば、他の人は盗む誘惑にかられる。嫉妬を呼び覚ませば、他の人は心の混乱に苦しむ。」
これは深いです。全部読むつもりです。
初めて、AnthropicはClaude 4シリーズのモデルに対して安全レベル3を有効化しました。それは実際に何を意味するのでしょうか。Claude 4に実装した保護のいくつかを紹介します。
分類器ベースのガード、生物兵器などの有害情報の特定カテゴリをブロックするために入力と出力を監視するリアルタイムシステム、オフライン評価、追加の監視とテスト、レッドチーミング。もちろん、これらはすべて通常のことです。脅威インテリジェンスと迅速対応、アクセス制御、モデルとその重みにアクセスできる人への厳格な制限、モデル重み保護、出力帯域幅制御、変更管理プロトコル、エンドポイントソフトウェア制御、高リスク操作に対する2者認証。
彼らは本当にこのモデルに多くのセキュリティを配置しています。
Artificial Analysisによる独立したベンチマークを見てみましょう。このモデルは実際にどの程度のパフォーマンスを発揮しているのでしょうか。こちらがClaude 4 Sonnetです。ご覧のように、インテリジェンスで53のここら辺に位置しています。これはGPT-4.1のすぐ上で、まあまあのモデルです。
DeepSeek V3もそのあたりにあります。最高レベルでは、04 MiniとGemini 2.5 Proが同じ70ポイントマーク付近にあります。
こちらはスピードです。Gemini 2.5 Flashがボード上の他のすべてのモデルを大きく上回っています。Claude 4 Sonnetは82でここまで下にあります。Claude 4 Sonnet Thinkingがその上にあり、その下にQwen 32 35Bがあります。
ここで少し狂気になるのは価格です。ここの価格上位3モデルを見てください。すべてClaudeシリーズのモデルです。非常に高価です。Grok 3 Miniが一番下にあります。Llama 4 Maverick、DeepSeek V3、Gemini 2.5 Flashがここまで下に。非常に安価です。
ご覧のように、独立して実行されたすべての評価において、基本的に全体的にまあまあの成績です。MMLU Proは上位に得点している唯一のもので、それ以外はすべて中間か下位にあります。素晴らしいはずのコーディングでさえも、しかし覚えておいてください、これはSonnetです。
今度はOpusを見てみましょう。Claude 4 Opusについては、MMLU Pro推論と知識でチャートのトップに立っています。GPQA Diamondでは中間に来ており、DeepSeek R1のすぐ後ろ、Qwen 3の上、Gemini 2.5 Proがトップにあります。
コーディング用のLive Codebenchでは、Claude 4 Sonnet Thinkingを下回っており、これは理にかなっていると思います。04 Miniがトップにあり、Gemini 2.5 Proがトップにあります。Humanity’s Last Examではまあまあでした。Scycode Codingでは実際にかなり良い成績でした。AME 2024でもまあまあでした。
しかし、ベンチマークがすべてではないかもしれません。実際、正直なところ、通常はそうではありません。通常は、これらのモデルがどの程度のパフォーマンスを発揮するかを確認するためのコミュニティによる徹底的なテストです。
これらのモデルについて本当に印象的に見えるのは、何時間も実行でき、まだスレッドを維持できることです。つまり、気を取られることもなく、道筋を失うこともなく、メモリを使用し、ツールを使用して、タスクを達成するまで何時間もタスクを続けることができます。
しかし、元OpenAI従業員のMiles Brundageは「AnthropicがOpus 4が数時間連続して作業できると言うとき、実際に何時間も作業することを意味しているのか、人間が何時間もかけて行うタイプの作業を行うことを意味しているのか、人間が何時間もかけて生成するトークン数を生成することを意味しているのかわかりません。誰か知っていますか?」と述べています。
私は推測しますが、適切な足場の中で実際に何時間も作業することを意味していることは非常に明確だったと思います。
Princeは「Darioの後ろのスライドでは、ほぼ7時間自律的にコーディングしたと述べていました」と言います。
ウォートンの教授であるEthan Mollikは「私はclaであるものに早期アクセスを受けていました。どのモデルかはわかりませんが、非常に印象を受けています」と述べました。
「楽しい例がこちらです。これはプロンプトに応じて作成したものです。『PyreessiをP5 JS 3Dスペースとして本で、私のためにやってください。』それだけで、他のプロンプトはありません。鳥、水、照明に注目してください。」これは本当に本当に印象的です。そして、はい、私はこれを徹底的にテストするつもりです。
Ethanは「これはOpusだと言われました」と明確にしています。
Peter Yangは早期アクセスを得ました。彼の体験では、執筆と編集において依然としてクラス最高です。Gemini 2.5と同じくらいコーディングが得意です。このTetrisの完全に動作するバージョンをワンショットで構築しました。下にプレイするリンクがあります。
私はもちろんルービックキューブテストでテストしましたが、すぐには動作させることができませんでした。まだプロンプトを少し試してみますが、非常に近づきました。ただ、すべてをやり遂げることはできませんでした。しかし、他の人たちははるかに成功しています。
Matt Schumerは「Claude 4 Opusが動作するブラウザエージェントAPIとフロントエンドをワンショットで作成しました。1つのプロンプトです。このようなものは見たことがありません。本当に信じられません。もちろんBrowserBase HQによって動力を供給されています」と述べています。
こちらです。ウェブを自律的にブラウジングしていますが、このシステム全体が単一のClaudeプロンプトで構築されました。
Cursorの創設者であるAman Sangerは「Claude Sonnet 4はコードベース理解においてはるかに優れています。Cursorの最近の改善と組み合わせると、大規模コードベースにおいて最先端です」と述べています。
こちらはコードベース質問のベンチマーク再現率です。Claude 4 Sonnet 58%、Claude 3.7、Claude 3.5。そこで確実に大きな改善があります。
最後に、これをお伝えしておきます。私たちが壁にぶつかっていると信じるかどうかに関係なく、これを聞いてください。Anthropicの研究者によると、今日AIの進歩が完全に停滞し、AGIに到達しなかったとしても、現在のシステムは今後5年以内にすべてのホワイトカラーの仕事を自動化する能力をすでに持っています。終わりです。
私はこれに同意しません。すべての仕事が自動化されるとは思いません。これについて考える正しい方法は、人間が超生産的になるということです。人々は単に仕事を失って別の仕事を得ることができなくなるわけではありません。代わりに、一人の人間、一人の人間当たりはるかに多くのことができる何百ものエージェントのチームを監督または管理できるようになります。
それは非常にエキサイティングな未来です。このビデオを楽しんでいただけましたら、いいねとチャンネル登録をご検討ください。次のビデオでお会いしましょう。
コメント