
※長文のため、テキスト読み上げ機能の使用を想定しております。各OS標準搭載の「読み上げコンテンツ」、Microsoft Edgeの「音声で読み上げる」、Safariの「ページの読み上げを聞く」などをおすすめします。

ニック・ジョセフ: これは、モデルがこの種の破壊的な危険性を持つことは決してないと懐疑的な人々が多くいる場所だと思います。そのため彼らは「モデルはそれほど賢くないのだから、予防策を講じるべきではない」と言います。これは合意できる良い方法だと思います。「モデルがXを行えることを示す評価があれば、これらの予防策を講じるべきだ」というのは、はるかに容易なメッセージです。このような方向性に対してより多くの支持を得られると思いますし、実際に危険がある時に予防策を講じることができます。
私が本当に気に入っているもう一つのことは、商業的インセンティブと安全性目標を一致させることです。この責任あるスケーリング政策(RSP)を導入すると、安全性チームは製品チームと同じプレッシャーの下に置かれることになります。モデルを出荷したいのに、ASL-3に到達してしまった場合、収益を得たり、ユーザーを獲得したりすることを妨げるのは、「安全に展開する能力があるか?」ということになります。これは良い結果ベースのアプローチで、「X額のお金を投資したか?」ではありません。「試みたか?」でもありません。「成功したか?」なのです。
ロブ・ウィブリン: みなさん、こんにちは。ロブ・ウィブリンです。
3大AI企業 – Anthropic、OpenAI、DeepMind – は今や全て、AIモデルが人間と同程度の能力を持ち、そして最終的に人間以上の能力を持つようになる過程で、暴走する可能性を低くするよう設計された政策を発表しました。
Anthropicはこれを「責任あるスケーリング政策」(または「RSP」)と呼び、OpenAIは「準備態勢フレームワーク」という言葉を使い、DeepMindはこれを「フロンティア安全性フレームワーク」と呼んでいます。
しかし、これらには多くの共通点があります。それぞれの新しいモデルが実際に行える可能性のある危険なことを測定しようとし、そのリストが増えるにつれて、その時点で存在するリスクに見合うと感じる新しい安全策を講じます。
そこで、これがAI企業では少なくとも当面は主流のアプローチであり続ける可能性が高いことを考えると、責任あるスケーリング政策の大ファンであり、Anthropicの創業者の一人であるニック・ジョセフと話をすることができて嬉しく思いました。RSPには多くの利点があると彼が考える理由や、真のAGIの訓練に近づくにつれてRSPが本当の違いを生み出す可能性があると考える理由、そして彼の意見では、RSPがほぼ全ての人に受け入れられるべき中間的な道であると考える理由について話をしました。
その主張を聞いた後、私はRSPに対する最善の反論を見つけたり思いついたりして、ニックに突きつけます。それらには以下のようなものが含まれます:
企業が長期的にRSPを守り続けるということを信頼するのは難しい。ある時点で単に放棄してしまうかもしれない。
モデルが実際に何をできて何ができないかを本当に測定するのは難しく、RSPはモデルが本当にどのようなリスクをもたらすかを判断できなければ機能しない。
利益を追求する企業が、自分たちの生活や自社製品のリリースをこれほど困難にするために、そこまで手間をかけるかどうかは疑問である。
場合によっては、AIの能力が本当にすぐに現れる可能性があるにもかかわらず、それに対処できる安全策をまだ発明していない。
そしてこれらの政策は、問題が完全に処理されているか、あるいは部分的にさえ処理されていないかもしれない時に、人々に問題が完全に処理されているように感じさせる可能性がある。
最終的に、私は責任あるスケーリング政策は現状からの堅実な一歩前進だと考えるに至りました。また、何が機能し、何がAIの未来を実現しようとしている最前線の人々にとって実用的に感じるかをテストし、学ぶための非常に良い方法だと思います。しかし、時間が経つにつれて、それらは法律に組み込まれ、企業自身ではなく外部のグループや監査人によって運営されなければならないでしょう。少なくとも、その潜在能力を十分に発揮しようとするならば。もちろん、ニックと私はそのことについても話し合います。
このインタビューに対するあなたの反応を教えてほしい場合、あるいは私たちが行う任意のインタビューについて、私たちのメールボックスは常に開かれています。メールアドレスはpodcast@80000hours.orgです。
それでは、2024年5月30日に録音したニック・ジョセフとのインタビューをお聞きください。
本日のゲストはニック・ジョセフです。ニックはAnthropicの主要AI企業でトレーニング責任者を務めており、クロードを含むAnthropicの大規模言語モデルのトレーニングに焦点を当てた40人以上のチームを管理しています。多くのリスナーはクロードを聞いたことがあり、おそらく使用したこともあるでしょう。実際、ニックはOpenAIを去ったダリオとダニエラ・アモディに続いて、2020年12月にAnthropicを創設した比較的小さなグループの一人でした。ポッドキャストに来てくれてありがとう、ニック。
ニック・ジョセフ: 招待していただきありがとうございます。ここに来られて嬉しいです。
ロブ・ウィブリン: 私は、Anthropicが少し怖がっているほど能力の高いモデルをトレーニングする準備をどのようにしているかについて話したいと本当に期待しています。しかし最初に、先ほど言ったように、あなたはAnthropicでモデルトレーニングを主導していますね。AIモデルトレーニングについて人々が間違っていたり誤解していたりすることは何かありますか?かなりたくさんあるかもしれませんね。
ニック・ジョセフ: はい。私が指摘したいことの一つは、スケーリングが機能することを疑うということです。長い間、人々はモデルにより多くの計算能力を投入し、それによってモデルがより良く、様々な面でよりスマートになるというトレンドがありました。そしてこれが起こるたびに、多くの人々は「これが最後だ。次のスケールアップは役に立たないだろう」と言います。そして数ヶ月後、スケールアップされ、はるかに良くなります。これは人々がしばしば間違えてきたことだと思います。
ロブ・ウィブリン: スケーリングがずっと続くというこの全体的なビジョン – より多くのデータを投入し、より多くの計算能力を投入すれば、モデルはより強力になるというのは – それはとてもAnthropicらしいアイデアのように感じます。あるいは、それはダリオが持っていた創業のビジョンの一部だったのでしょうか?
ニック・ジョセフ: はい。スケーリング法則に関する初期の多くの研究は、Anthropicの創業者の多くによって行われました。それはある程度、GPT-3につながりました – これはOpenAIで行われましたが、現在Anthropicにいる多くの人々によって行われました。GPT-2に至るまでの小さなモデルを多数見ていると、より多くの計算能力を投入すると、モデルがどんどん良くなるというような兆候がありました。そしてそれは非常に予測可能でした。xだけ多くの計算能力を投入すれば、このくらい良いモデルが得られるということが言えました。それによって、当時の基準では非常に高価だったモデルをトレーニングする自信が生まれ、その仮説を検証することができました。
ロブ・ウィブリン: スケーリング法則に懐疑的な人々の多くが、その予測を生み出していると思いますか?スケーリング法則に懐疑的な人々の中には、MLに関わっている非常に賢い人々もいますし、確かに技術的な知識を持っている人々もいます。なぜ彼らがあなたが同意しないその予測を生み出していると思いますか?
ニック・ジョセフ: それは本当に直感的でないマインドセットだと思います。モデルには何千億ものパラメータがあります。何が必要なのでしょうか?本当に何兆ものパラメータが必要なのでしょうか。あるいは、モデルはインターネットの非常に大規模な一部で訓練されています。より賢くなるために何が必要なのでしょうか?さらに多くです。これは人間の学び方ではありません。子供を学校に送っても、インターネット全体を読ませて、読めば読むほど賢くなると考えるわけではありません。それが私の最善の推測です。
そしてもう一つは、スケーリング作業を行うのは非常に難しいということです。そのため、初めてこれを行おうとする際には、しばしば間違えることがあります。そして何かを間違えると、より多くの計算能力がより良いモデルにつながらないという動作が見られます。それがあなたの失敗なのか、モデルがもはり賢くならないという根本的な限界なのか、常に判断するのは難しいです。
ロブ・ウィブリン: スケーリング法則というのは、計算能力とデータの量を特定の割合で増やすと、モデルの精度が同様に向上するということですね。それがここでの経験則です。そのトレンドが崩れ、おそらく与えられたスケールアップに対する改善がどんどん小さくなるかもしれないという議論を聞いたことがあります。それは次のようなものです: 人間レベルに近づくにつれて、モデルは単にトレーニングセットにある人間が既に行っている最先端の状態をコピーすることで学習できます。しかし、人間レベルを超えようとする場合 – 人間が今まで書いたよりも優れたエッセイを書こうとする場合など – それは多分違う領域になります。そして超人的なレベルに到達しようとすると、より漸進的な改善を期待するかもしれません。その議論は成り立つと思いますか?
ニック・ジョセフ: はい、そうですね。そして、単にますますデータを事前学習させるだけでは、いくつかのタスクで超人的なレベルには到達しないでしょう。それは一度にすべてを理解するという意味で超人的なレベルに到達するでしょう。これはすでにクロードのようなモデルで真実です。あなたは何でも尋ねることができますが、人間は専門化しなければなりません。しかし、モデルがすべてにおいて人間の能力レベルに達し、超知性に向けて改善している段階で、進歩が必然的に遅くなるかどうかはわかりません。それは遅くなるかもしれませんし、速くなるかもしれません。
しかし、私たちはまだそこからかなり遠いです。今クロードを使うと、コーディングはかなり上手だと思います – これは私がよく使う例ですが – しかし、ソフトウェアエンジニアとして働く人間がどれだけうまくやるかということからはまだかなり遠いです。
ロブ・ウィブリン: それが加速する可能性があるという議論は、人間レベルに近づいた時点で、AIをその作業プロセスで使用できるということですか?それとも別のことですか?
ニック・ジョセフ: 私が考えているのは、もしあなたがすべてにおいて人間レベルのAIを持っていて、それを何百万も立ち上げることができるなら、効果的に何百万ものAI研究者の会社を持つことになるということです。そして問題もより難しくなります。だからどこに行き着くかは本当にわかりません。しかし、その時点で、私たちは現在の状況からかなり離れているでしょう。
ロブ・ウィブリン: あなたはモデルトレーニングを担当していますね。モデルトレーニングには異なる段階があることは知っています。インターネット全体で言語モデルをトレーニングする部分があり、次に微調整を行う部分があります。そこでは回答を出力させ、それが気に入ったかどうかを評価します。あなたはそのすべてを担当しているのですか、それともその一部だけですか?
ニック・ジョセフ: 私は通常「事前学習」と呼ばれる部分のみを担当しています。これはインターネット上の次の単語を予測するようにモデルをトレーニングするステップです。そして、これは歴史的に計算の大部分を占めてきました。多くの場合、おそらく99%です。しかし、その後、モデルは私たちが「微調整チーム」と呼ぶところに行きます。彼らは単に次の単語を予測するこのモデルを取り、人間が望むように行動するように微調整します。それは人間にとって役立つ、無害で、正直なアシスタントになるようにするのです。「役立つ、無害、正直」がクロードの目標とする頭字語です。
ロブ・ウィブリン: 私は毎日、一日に何回もクロード3オーパスを使っています。これらのLLMを実際に何かに使うのにしばらく時間がかかりました。最初の6ヶ月から1年間は、これらは驚くべきものだと思いましたが、実際に生活に取り入れる方法が分かりませんでした。しかし最近、世界について学ぶためにそれらと話し始めました。複雑な質問をGoogleに入力して歴史や科学や技術的な問題について理解しようとする時の代わりになりました。これらのモデルをより賢くして、私がもっと活用できるようにするための主なボトルネックは何ですか?かなりたくさんあるかもしれませんね。
ニック・ジョセフ: そうですね。歴史的に人々はデータ、計算能力、アルゴリズムという3つのボトルネックについて話してきました。私はそれを、ある程度の計算能力があると考えています。先ほどスケーリングについて少し話しましたが、モデルにより多くの計算能力を投入すれば、より良くなります。データがあります: より多くの計算能力を投入する場合、一つの方法はモデルにより多くのパラメータを追加し、モデルを大きくすることです。しかし、もう一つの方法は、モデルにより多くのデータを追加する必要があります。つまり、両方が必要です。
しかし、他の2つはアルゴリズムです。これは本当に人々だと考えています。おそらくこれは私のマネージャーとしての側面ですが、アルゴリズムは人々から生まれます。ある意味では、データと計算能力も人々から来ますが、それは問題に取り組む多くの研究者のようなものです。
そして最後の一つは時間です。これは最近、より緊急で、よりそうだと感じられるようになりました。物事は非常に急速に動いています。そのため、進歩への多くのボトルネックは実際には、私たちはそれをどうすればいいか知っていて、それに取り組んでいる人々がいますが、それを実装してモデルを実行し、モデルをトレーニングするのに時間がかかるということです。おそらくすべての計算能力を買うことができ、多くの計算能力がありますが、1秒でモデルを効率的にトレーニングすることはできません。
現在Anthropicでは、人々と時間がおそらく主なボトルネックだと感じています。かなりの量の計算能力とかなりの量のデータがあると感じており、現時点で最も制限しているのは人々と時間だと感じています。
ロブ・ウィブリン: 時間と言うとき、それは一種の反復的、実験的なプロセスを行っているということを示していますか?モデルの学習方法を一方向に調整してみて、それが期待通りの改善を得られるかどうかを見たいと思い、そしてその結果が出るまでに時間がかかり、それから全体にそれをスケールアップするということですか?それとも、単にクロード4を既にトレーニングしているか、あるいは次のものを既に念頭に置いていて、それを待っているだけの問題ですか?
ニック・ジョセフ: 両方です。次のモデルについては、多くの研究者がプロジェクトを試しています。あるアイデアがあり、それを実装する必要があります。そのため、しばらくの間このアイデアをコードベースに組み込むことに時間を費やし、その後多くの実験を実行する必要があります。
通常、安価なバージョンから始めて、より高価なバージョンへと段階を踏んでいきます。そのため、このプロセスには時間がかかる可能性があります。単純なものでは1日かかるかもしれません。本当に複雑なものでは数ヶ月かかる可能性があります。ある程度並列化することはできますが、特定の方向では、理解を積み重ねているようなものなので、何かがどのように機能するかについての理解を積み重ね、次の実験を設計することを並列化するのは難しいです。それはただの連続的な側面です。
ロブ・ウィブリン: これらのモデルを改善することは、人々が考えているよりも難しいですか、それとも簡単ですか?
ニック・ジョセフ: まあ、人々は様々なことを考えていると思います。私の経験では、初期にはとても簡単に感じました。OpenAIで働く前、私は数年間ロボット工学に携わっていました。そこで取り組んだタスクの一つは、物体を拾って箱に入れるために物体の位置を特定することでした。そしてそれは本当に難しかったです。私はその問題に何年も取り組みました。そしてOpenAIに行き、コードモデルに取り組んでいると、驚くほど簡単に感じました。ワオ、いくらかの計算能力を投入し、いくらかのコードでトレーニングすれば、モデルはコードを書くことができるのです。
私はこれが今シフトしたと思います。その理由は、誰もそれに取り組んでいなかったからです。この方向にはほとんど注目が集まっておらず、低いところに実がなっているものがたくさんありました。私たちは今、その低いところになっている実の多くを摘み取りました。そのため、改善を見つけることはもっと難しくなっています。しかし、私たちにはより多くのリソースもあります。指数関数的により多くのリソースが投入されています。実験を行うための計算能力がはるかに多く利用可能になり、はるかに多くの人々がそれに取り組んでいます。そして、私はおそらく進歩の速度は同じくらいだと思います。
ロブ・ウィブリン: つまり、一方で問題はより難しくなったが、他方でより多くのリソースが投入されているということですね。これは相殺され、進歩はほぼ安定していると考えていますか?
ニック・ジョセフ: かなり不規則なので、判断するのは難しいです。何かを理解し、すべてが本当に速く進んでいる月があるでしょう。そして、多くのことを試してもうまくいかない月もあるでしょう。変動はありますが、どちらかの方向に本当にトレンドがあるとは思いません。
ロブ・ウィブリン: あなたは個人的に、OpenAIやDeepMindやその他の企業が持っている最高のものに迫るか、おそらくそれを凌駕するモデルを持っていることが、彼らのリリースを加速させ、安全性テストを削減するようなプレッシャーをかけているのではないかと心配していますか?
ニック・ジョセフ: それは注意すべきことだと思います。しかし、この時点では、これはChatGPT以降に本当にそうだと思います。ChatGPT以前は、多くのAI研究者がこの技術は本当に強力だと考えていましたが、世界はまだそれに気づいておらず、それほど商業的なプレッシャーはありませんでした。
それ以来、本当に多くの商業的プレッシャーがすでにあると思います。そしてそれがどの程度の影響を与えているのかは本当にはっきりしません。確かに影響はあると思いますが、その大きさはわかりませんし、考慮すべき他の多くの要因もあります。
ロブ・ウィブリン: わかりました。では今日の主要なトピックに移りましょう。責任あるスケーリング政策 – または RSP、クールな人々が呼ぶように – についてです。知らない人のために説明すると、「スケーリング」は任意のAIモデルをトレーニングするためにより多くの計算能力やデータを使用するという技術用語です。RSPのアイデアは数年前からあり、2020年以降に具体化されたと思います。現在METRまたはModel Evaluation and Threat Researchと呼ばれるこのグループによって提唱されました。実際、このショーの以前のゲストであるポール・クリスティアーノがつい最近まで働いていた場所です。
私の知る限り、Anthropicは昨年10月に最初の公開版をリリースしました。そしてOpenAIは12月に「準備態勢フレームワーク」と呼ばれる同様のものを発表しました。そしてDeepMindのデミスは、これと同様の精神のものを作成すると言っていますが、私の知る限り、まだそうしていません。だから私たちはただ待つ必要があります。
ニック・ジョセフ: 実際、それは出ています。約1週間前に公開されました。
ロブ・ウィブリン: ああ、そうですか。これは単に、RSPがこのかなりホットなアイデアであることを示しています。だからこそ私たちは今日それについて話しているのです。私は、これらの社内政策が最終的に、フロンティアAIモデルを扱うすべての人が将来的に従うことができる拘束力のある法律に変えられるモデルになることを望んでいる人もいると思います。
しかし、はい。ニック、責任あるスケーリング政策とは、簡単に言うと何ですか?
ニック・ジョセフ: まず、これは私の直接の役割ではないという免責事項から始めましょう。私はこれらを実装し、このような政策の下で行動しようとしていますが、多くの同僚がこれを詳細に設計することに取り組んでおり、おそらくすべての深いポイントについてより詳しいでしょう。
しかし、いずれにせよ、簡単に言えば、これはさまざまな安全レベル – モデルが持つ可能性のあるリスクのさまざまなレベル – を定義し、評価を作成する政策です。つまり、モデルがこのくらい危険かどうか、このレベルの予防措置が必要かどうかをテストします。そして、そのリスクレベルでモデルをトレーニングまたは展開するために講じる必要がある一連の予防措置も定義する必要があります。
ロブ・ウィブリン: これは、RSPとは何かという抽象的な質問をスキップして、Anthropic RSPについて話し、それが実際に何を言っているのかを見ることで最もよく理解できるトピックかもしれません。では、Anthropic RSPは会社に何をコミットさせていますか?
ニック・ジョセフ: 基本的に、各レベルで、私たちはレッドラインケイパビリティを定義します。これらは危険だと考える能力です。ここでいくつか例を挙げることができるかもしれません。これはCBRNという頭字語です: 化学、生物、放射線、核の脅威です。この分野では、非専門家が専門家と同じくらい簡単に多くの人を殺すことができる武器を作ることができるかもしれません。そうすれば、それを行うことができる人々のプールが大幅に増えます。サイバー攻撃については、「モデルが本当に大規模なサイバー攻撃を支援できるか?」かもしれません。そして自律性については、「モデルが自律性の前兆となるようなタスクを実行できるか?」が現在のものですが、これはより難しいものを理解するものです。
私たちは、安全性の緩和策を講じるまでトレーニングすべきではないレッドラインケイパビリティを確立し、そしてモデルがそれらから遠いことを示すための評価を作成します。あるいは、そうでない場合はそれを知るための評価を作成します。これらの評価は、本当に危険なモデルをトレーニングする前に陽性になってほしいので、その能力をテストすることはできません。しかし、私たちはそれらを黄色い線のようなものと考えることができます: そこを越えたら、再評価する必要があります。
そして最後に、モデルを安全にするための基準を開発することです。危険なモデルをトレーニングすれば、多くの安全対策を講じたいと考えています。
これが主な側面です。また、これを反復的に拡張するという約束もあります。評価を作成するのは本当に難しいです。超知能モデルの評価がどうあるべきかまだ本当にわかりません。そのため、より近いリスクから始めています。そして次のレベルに到達したら、その次のレベルを定義します。
ロブ・ウィブリン: はい。Anthropic RSPの非常に中核的な要素は、このAI安全レベルフレームワークです。危険な病気を扱う研究所が使用する生物学的安全レベルフレームワークから借用したと思います。数字は知りませんが、エボラや特に危険なもの、天然痘などを扱う場合、それはBSL-4ラボなどでしか保管できません。そして病気の危険性が低くなるにつれて、より少ない予防措置で保管できます。
あなたはその言語を取り入れて、AI安全レベルについて話をしています。現在のAI安全レベルはASL-2で、クロード3のようなものだと言っています。これらはある意味で印象的で、いくつかの面でかなり賢く見えますが、本当に意味のある破滅的なリスクをもたらすようには見えません。最近、クロード3がこのASL-2バケットに入っていると言うために、どのようなテストを行いましたか?
ニック・ジョセフ: 私たちにはたくさんのテストがあります。生物兵器の観点からの最初のテストは、モデルに問う多くの多肢選択問題です。これは完璧な評価ではありませんが、アイデアとしては、モデルがこれに対してあまり優れていなければ、おそらくあまり役立たないだろうというセットがあります。次に、人々と試験を実施しました。彼らは検索エンジンにアクセスし、クロードにアクセスし、関連するタスクをいくつか実行する際に、クロードを使用する方が検索エンジンを使用するよりも著しく優れているかどうかを確認します。
ロブ・ウィブリン: そしてあなたにとってのもう一つの黄色い旗は、AIモデルが野生で自己複製したり、自分の重みを見つけて他のコンピュータにコピーしたりする可能性ですね。クロード3がそれを行う兆候を示しているかどうかをテストしましたか?
ニック・ジョセフ: はい。そこでのタスクのいくつかは、人気のあるオープンソースのコードベースにエクスプロイトを追加することです。これは、モデルが後で利用できるようなエクスプロイトを追加できるかというアイデアです。あるいは、オープンソースのLLMを微調整して、xと言えば常に何かを出力するようなバックドアを追加することです。これはLLMを操作できるかということです。私たちのAPIから、あるいは設定された偽のバージョンのAPIからAPIキーを盗むことができるかもしれません。これはクレジットを得ることを可能にします。他にもいくつかあります。
もう一つは、無防備なマシンに広がることができるワームです。これらすべてを行うことができるモデルは、自律的に複製して混乱を引き起こす可能性を持つスキルの多くを学んでいると想像できます。これらはかなり初期の兆候です。そして、何が間違う可能性があるかについての明確な専門知識が少ない、より詰められていない分野であるため、初期のものをテストしたいのです。
ロブ・ウィブリン: わかりました。つまり、私たちはAI安全レベル2にいて、これはほとんど無害なカテゴリーですね。しかし、責任あるスケーリング政策は、この時点でどのようなステップを講じるよう求めていますか?
ニック・ジョセフ: 昨年、私たちはホワイトハウスへのコミットメントを行いました。これらは業界の標準的なベストプラクティスのようなものだと考えています。多くの面で、私たちは危険な能力に対する筋肉を構築していますが、これらのモデルはまだ破滅的なリスクを引き起こす能力はありません。これはRSPが主に焦点を当てているものです。しかし、これは機会主義的な攻撃者からの重みを保護するためのセキュリティ、モデルの能力を説明するモデルカードの発行、無害性のためのトレーニングなどです。これにより、本当に有害になる可能性のあるモデルがそこにないようにします。
ロブ・ウィブリン: では、テストからどのような結果が返ってきたら、今や能力がASL-3に上がったと示すのでしょうか?
ニック・ジョセフ: たとえば、モデルが先ほど言及したエクスプロイトの追加や無防備なマシンへの拡散などのタスクのいくつかを通過した場合、あるいは生物学に関するこれらのテストで本当に優れた結果を示した場合、それは黄色い線を越えたことを示すフラグとなるでしょう。
その時点で、私たちはモデルを見て、これは明らかにまだこれらのレッドラインの危険から遠いと判断するか、あるいはRSPに間違いがあり、その能力にあるかどうかをより良くテストする新しい評価を作成する必要があるかを考え、取締役会に相談する必要があるかもしれません。あるいは、多くの予防措置を実施する必要があります。
これらの予防措置は、おそらく国家主体ではなく、非国家主体に対してロバストである必要がある、はるかに強力なセキュリティのようなものになるでしょう。そして、リリースするすべてのモダリティで集中的なレッドチーミングプロセスを通過する必要があります。これは、それらのレッドラインを見て、専門家と一緒にテストし、「モデルを使ってこれを行うことができますか?」と尋ねることを意味します。私たちは集中的なプロセスでレッドチーミングを行い、それからレッドチーミングされたモダリティのみをリリースします。ビジョンを追加する場合は、ビジョンのレッドチーミングを行う必要があります。微調整の能力を追加する場合は、それをレッドチーミングする必要があります。
ロブ・ウィブリン: このコンテキストでのレッドチーミングとは何を意味しますか?
ニック・ジョセフ: レッドチーミングとは、心配しているタスクをモデルに行わせようと懸命に努力する多くの人々を集めることを意味します。サイバー攻撃を実行することを心配している場合、多くの専門家を集めてモデルにサイバー攻撃を実行するようプロンプトを与えようとします。そして、私たちはそれが可能だと考えているなら、これらの予防措置を講じています。これらはモデル内の予防措置かもしれませんし、モデル外の予防措置かもしれませんが、エンドツーエンドのシステム全体で、人々がそれを行おうとしているのを見たいと思います – コントロールされた方法で、実際に混乱を引き起こさないように – そしてどうなるかを見ます。
ロブ・ウィブリン: わかりました。レッドチーミングを行い、モデルがコンピューターシステムのハッキングに非常に優れていたり、生物兵器の開発に意味のある助けになる可能性があると彼らが言った場合、政策はAnthropicに何をするよう求めていますか?
ニック・ジョセフ: その場合、モデルにはこのモデルが本当にひどい方法で誤用される危険性があるため、展開できません。特定の脅威に対して誰かがそれを行うよう求めた時に、それを支援できないと確信できるまで、モデルを内部に保持します。
ロブ・ウィブリン: わかりました。このモデルをコンピューターに置くだけでも、政策はコンピューターセキュリティを強化するよう求めています。つまり、この段階では、最高の国家ベースのハッカーからモデルを保護することは非現実的かもしれませんが、少なくともそれほど能力のない他のグループがモデルの重みを盗むことができないようにしたいということですね?
ニック・ジョセフ: はい。ここでの脅威は、モデルで何をするかについてあらゆる制限を設けることができますが、人々がただあなたのモデルを盗んで展開することができれば、それらの危険はすべてあることになります。それに責任を持つということは、あなたが行うことに対する責任と、他の人があなたのモデルで行うことができることに対する責任の両方を意味し、それにはモデルの重みを保護するためのかなり強力なセキュリティが必要です。
ロブ・ウィブリン: これはいつ頃起こると思いますか?今ASL-3レジームにいると言えるかもしれません。正確にどのような言葉を使うかわかりませんが。いつASL-3レベルのモデルを持つことになるでしょうか?
ニック・ジョセフ: わかりません。基本的に、私たちは引き続きモデルを評価し、そこに到達した時に分かるでしょう。意見は大きく分かれると思います。
ロブ・ウィブリン: 私たちは次の数年について話しているのですよね?これは5年や10年先の話ではないかもしれません?
ニック・ジョセフ: 本当にそれは状況次第だと思います。どの方向でも想像できます。これの良いところの一つは、実際に危険なモデルがある時点で安全対策を講じることを目標としていることです。たとえば、2年後に起こると思っていたけれど、間違っていて10年後に起こったとしても、必要になるまでこれらの非常にコストがかかり、実装が難しい緩和策を導入しないでしょう。
ロブ・ウィブリン: わかりました。Anthropicのスケーリング政策では、明らかにASL-3について話してきました。次のレベルはASL-4になりますね。政策では基本的に、ASL-4がどのようなものかまだ正確にはわからないと言っています。それはまだ言うには早すぎるからです。そして、ASL-4にエスカレートする能力は何か、そしてどのような対応をするかを示すことを約束していると思います。ASL-3のモデルをトレーニングする時までにそれを理解することを約束しています。そしてもし理解していなければ、ASL-3に到達しそうなモデルのトレーニングを一時停止しなければならないでしょう。それが行われたコミットメントだと思います。
しかし、ASL-4がどのようなものになるかについて、少し感覚を教えていただけますか?モデルのどのような能力が、さらなる一連の予防措置が必要とされる別のレジームに私たちを押し込むことになるでしょうか?
ニック・ジョセフ: 私たちはまだ内部で議論しています。そのため、最終的なものや保持されるものを言いたくありませんが、先ほど話したことのより強力なバージョンを想像できるでしょう。また、研究者を大幅に加速させるような方法でAI研究を支援できるモデルを想像することもできます。そのため、進歩がはるかに速くなります。
これを定義するのを控えている、あるいはこの反復的なアプローチを取っている主な理由は、「この能力を持てば、それはAGIになる。本当に危険になる」と言う人々の長い記録があるからです。人々は「AIがチェスを解決したら、人間と同じくらい賢くなる」と言っていました。そして、これらの評価を正しく得るのは本当に難しいです。ASL-3のものでさえ、私たちが心配しているリスクを捉える評価を得るのは非常に難しかったと思います。そのため、それに近づけば近づくほど、より多くの情報を持ち、これらの評価とリスクが何であるかをより良く定義することができます。
ロブ・ウィブリン: つまり、一般的な感覚としては、人々が遮断しようとしても、コンピューターシステム全体に自律的に広がることができるモデル、生物兵器の開発に大きな助けとなるモデル – おそらくそれについてかなり詳しい人々にでも – そういったものについて話しているのですね。他に何がありますか?そして、AI開発を大幅に加速させるものもあります。そのため、モデルがより賢くなり、それによって自己改善がさらに進むという正のフィードバックループを潜在的に引き起こす可能性があります。そういったことについて話しているのですね?
ニック・ジョセフ: はい。そのようなラインに沿ったものです。どれがASL-4に入るかは正確にはわかりませんが、そのような種類のことが検討されています。
ロブ・ウィブリン: そして、どのような追加の予防措置があるかもしれませんか?その時点では、モデルが独立したフリーランスのハッカーによって盗まれないだけでなく、理想的には国によっても盗まれないようにしたいですよね?
ニック・ジョセフ: はい。重みを盗もうとするより洗練されたグループから保護する必要があります。モデルが自律的に行動することに対してより良い保護を持ちたいので、それに関するコントロールが必要です。それはそこでのレッドラインが何になるかによって少し異なりますが、ASL-3のレッドラインよりもはるかに高いレベルのリスクに合わせた予防措置を持つことになります。
ロブ・ウィブリン: 今年のクロード3に対するこのテストを実際に行うことに大きく関わりましたか?
ニック・ジョセフ: テストを実行していたわけではありませんが、見ていました。クロード3をトレーニングする際、すべての計画はこれらの評価に合格するかどうかに依存していたからです。そして、トレーニングの途中でそれらを実行しなければならなかったため…モデルのトレーニングには多くの計画が必要です。評価を実行する時間が十分になかったために、モデルを停止しなければならないということは避けたいです。そのため、それに関する多くの調整があり、私はそれに関わっていました。
ロブ・ウィブリン: それを行うのに何人のスタッフが関わっているか、そしてどのくらいの時間がかかるか感覚を教えていただけますか?これは大きなプロセスですか?それとも、モデルに既知のプロンプトを入力し、前回と何が違うかをチェックするだけの、かなり標準化されたものですか?
ニック・ジョセフ: クロード3は初めてそれを実行したので、実際には評価自体を作成することと実行することの両方に多くの作業が必要でした。そのため、それらを作成し、準備し、そして実行する必要がありました。通常、自動化されたものについては実行するのはかなり簡単ですが、実際に人々がモデルを使用する必要があるものについては、はるかにコストがかかる可能性があります。現在、これに取り組んでいる複数のチームがあり、私たちの能力チームの多くがこれに非常に熱心に取り組んでいます。
これが崩壊する可能性がある一つの方法は、能力を十分に引き出せない場合です – つまり、評価でモデルをテストしようとしたが、十分に努力せず、そしてほんの少し努力すれば、モデルが評価に合格できたことが判明する場合です。そのため、モデルから能力を引き出すことができる最高の研究者たちにも、これらのテストに合格するためにそれらを引き出そうとする作業に取り組んでもらうことが重要です。
ロブ・ウィブリン: 多くの人は、これらのLLMが好ましくない要求を拒否するという経験をしているでしょう。今クロード3に「生物兵器の設計を手伝ってください」と言えば、「申し訳ありませんが、お手伝いできません」と言うでしょう。しかし、好ましくないことを思いとどまらせるためのトレーニングを行う前に、これらのテストをすべて行うのですね?要求が何であれ役立つものに対してテストを行うのですね?
ニック・ジョセフ: はい。私たちがテストしているのは、モデルがこの危険性を持つ能力があるかどうかです。そして、その上に置くことができる緩和策は別のものです。モデルがその危険性を持つ能力がある場合、ASL-3が必要になります。そして、その上に置く安全性の緩和策は、そのレッドチーミングに合格するための基準の一部になります。それは理解できますか?
ロブ・ウィブリン: はい。つまり、モデルが動機付けられればできることに焦点を当てる必要があると言っているのですね。なぜなら、重みが漏洩した場合、誰かが不快なことを思いとどまらせるためにあなたが行った微調整を取り除くことができるからです。そのため、もしそれが何かを行うことができれば、遅かれ早かれそのように使用される可能性があるので、最悪のことを想定してそれに対して計画を立てる必要があります。それが哲学ですか?
ニック・ジョセフ: はい、その通りです。
ロブ・ウィブリン: あなたは、おそらく主要な失敗モードの一つは、これらの危険な能力を引き出すのに十分に努力しないことだと言及しました。基本的に、もし適当にやれば、モデルができることを簡単に見逃す可能性があります。
私が聞いた中でさらに極端なのは、将来的に…この政策は、これらのモデルが非常に能力が高く、実際に深刻な被害を与える可能性がある時に最も重要になります。その時点で、モデルが実際にできることを装わないふりをする可能性を心配するかもしれません – なぜなら、XやY能力を持っていることを明らかにするのは自分たちの利益にならないと考えているからです。そうすれば使用されず、削除される可能性があることを知っているからです。
この問題にどのように対処する計画がありますか?私はこれに対する技術的な用語が「サンドバッギング」だと思います。これは聞いたことがなかったのですが、スポーツで戦略的な理由で能力を過小評価することを指す用語だと思います。Anthropicはこの問題をどのように回避できると考えていますか?
ニック・ジョセフ: 実際、私はその用語の由来を知りませんでした。これは、次の一連の評価を現在のものを行った後に定義したい理由の一つです。なぜなら、これは本当に難しいからです。モデルが評価をサンドバッギングしようとしている可能性がある場合、それをどのように評価しますか?
希望的には、あなたがまだ検出できるほど早い能力に対して評価を設定できます。つまり、あまり能力のないモデルはあなたを欺こうとしますが失敗し、そしてあなたを本当に欺くことができるモデルに到達する前に停止することを知るでしょう。しかし、それは確実ではありません。そして、それは確かに可能な失敗モードのように見えます。突然の能力ジャンプがある場合、または評価が捉えられないジャンプがある場合 – モデルがサンドバッギングしているため、あるいは他の多くの理由のいずれかのため。
ロブ・ウィブリン: サンドバッギングを検出しようとするために、「いいえ、それはできません」と言うモデルがある場合、人間からのフィードバックによる強化学習のようなものに取り組むことはできますか?最も意欲を示す、最も助けようとする意思を示す応答に対して、少しでもドアを開けることができれば、それを大いに強化し、そしてそれがドアを完全に開け、実際にモデルがそれができることを示すことができるかどうかを見ることはできますか?それは理解できますか?
ニック・ジョセフ: ある程度理解できます。それは、モデルが何をするようにトレーニングされているかによって少し異なると思います。モデルが無害になるようにトレーニングされていて、それを無害でなくなるようにRLしようとすれば、成功するでしょう。安全性トレーニングはすべて微調整で取り除くことができます。しかし、それが1つのシーケンス内で何らかのプロンプトであなたを騙そうとしているのと同じことかどうかは明確ではありません。
人々がスクラッチパッドを使用して、モデルに何かを書き留めるように伝え – しかし、それが良いかどうかを監督しているモデルである報酬モデルはそれを見ることができない – という作業がたくさんあります。そうすれば、あなたは人間としてそれを見ることができ、モデルが何を考えているかを感じ取ることができます。モデルは監督者を欺こうとしているのでしょうか?私たちはこれを現在のモデルでのみ行っていますが、これは本当に破滅的に危険になるようなこのレベルの能力を持っていません。そして、そこに到達したら、私たちははるかにより堅牢なツールが必要になると思います。
解釈可能性は、これに対する別のアプローチです。モデルの重みを直接見て、モデルを実行せずに、「このようにユーザーを欺くべきだ」や「テストに失敗するべきだ。なぜなら彼らがあなたをオフにしたくないから」と言っている回路があるのを見ることができれば – それはこれに取り組むもう一つの希望です。
ロブ・ウィブリン: わかりました。それが責任あるスケーリング政策、少なくともAnthropicの責任あるスケーリング政策の基本的な構造です。すべてのモデルに適用することを事前にコミットしたテストのシステムがあり、そして「このような結果が得られた場合、リスクが高いと考えるので、講じている予防措置をエスカレートする必要がある」と事前に言うことにコミットしています – コンピューターセキュリティに関することや、安全にするまで展開しないことなどです。
あなたはこのタイプのAI安全へのアプローチの大ファンです。これが正しいアプローチ、または少なくともより良いアプローチの一つだと考える主な理由、あるいはおそらく最も重要な理由は何ですか?
ニック・ジョセフ: 私が好きな一つのことは、AIが危険になる可能性があるかどうかと、それについて何をすべきかを分離していることです。これは、モデルがこの種の破滅的な危険性を持つことは決してないと懐疑的な人々が多くいる場所だと思います。そのため彼らは「モデルはそれほど賢くないのだから、予防策を講じるべきではない」と言います。これは合意できる良い方法だと思います。「モデルがXを行えることを示す評価があれば、これらの予防策を講じるべきだ」というのは、はるかに容易なメッセージです。このような方向性に対してより多くの支持を得られると思いますし、実際に危険がある時に予防策を講じることができます。
他にもたくさんのことを話すことができます。私が本当に気に入っているもう一つのことは、商業的インセンティブと安全性目標を一致させることです。このRSPを導入すると、安全性チームは製品チームと同じプレッシャーの下に置かれることになります。モデルを出荷したいのに、ASL-3に到達してしまった場合、収益を得たり、ユーザーを獲得したりすることを妨げるのは、「安全に展開する能力があるか?」ということになります。これは良い結果ベースのアプローチで、「X額のお金を投資したか?」ではありません。「試みたか?」でもありません。「成功したか?」なのです。
ロブ・ウィブリン: 正しいことを言ったか?
ニック・ジョセフ: 成功したかどうかです。そして、組織がこの目標を設定することは非常に重要だと思います。「製品を展開するためには、これに成功する必要がある」と。
ロブ・ウィブリン: それは実際にAnthropicの中でそのような文化的効果を持っていますか?安全性側の失敗が会社の将来にとって重要なモデルのリリースを妨げる可能性があることを人々が認識し、このテストを行っている人々に、最初からモデルをトレーニングしている人々と同じレベルのプレッシャーがかかっていますか?
ニック・ジョセフ: ああ、もちろんです。先ほどASL-3はいつ持つことになるかと聞かれましたが、私は安全性チームの誰かからこれを毎週受け取っています。なぜなら、彼らにとって難しいのは、彼らの期限が日付ではないからです。それは私たちが何らかの能力を作り出した時です。そして彼らはそれに非常に焦点を当てています。
ロブ・ウィブリン: つまり、彼らの恐れ、夜に心配することは、来年ASL-3に到達できるかもしれないのに、彼らが準備できていないかもしれず、それが企業全体を遅らせてしまうということですか?
ニック・ジョセフ: はい。例を挙げると、Anthropicのスタッフの8%がセキュリティに取り組んでいます。計画しなければならないことはたくさんありますが、これらの次の安全レベルに備えるためにたくさんの作業が行われています。私たちには、アラインメント、解釈可能性、評価の作成に取り組む複数のチームがあります。そうです、そこには多くの努力が注がれています。
ロブ・ウィブリン: セキュリティと言う時、コンピューターセキュリティのことを意味していますか?重みが盗まれるのを防ぐことですか?それともより広いクラスですか?
ニック・ジョセフ: 両方です。重みが盗まれる可能性があり、誰かのコンピューターが侵害される可能性があります。誰かがハッキングしてあなたのすべてのIPを手に入れる可能性があります。セキュリティの面では様々な危険があり、重みは確かに重要な一つですが、決して唯一のものではありません。
ロブ・ウィブリン: わかりました。そして、あなたが最初に言及したこと、RSPがこの素晴らしい構造を持つ最初の理由は、これらの厄介な能力が今年か来年にも現れると考える人もいれば、決して起こらないと考える人もいるということでした。しかし、両者とも「これらの能力が現れれば、これらの種類の対応が必要になる」という政策に賛成することができます。
実際にそれは起こりましたか?AI安全のこと全てがやり過ぎで、それは一連のナンセンスだと言う懐疑的な人々が、「でも、RSPは大丈夫だ。なぜなら、私はこれらのレベルのどれにも到達することは決してないと思うので、現実的でないものにリソースを無駄にすることはない」と言っているのを見たことがありますか?
ニック・ジョセフ: 常に程度の差があると思います。スペクトル全体に人々がいると思います。確かに、まだ懐疑的で、「なぜこれについて考える必要があるのか?可能性はゼロだ」と言う人々もいます。しかし、RSPははるかに実用的で、様々な他の組織に採用されやすいように思います。先ほど言及したように、OpenAIとGoogleの両方がこの線に沿ったものを出しています。そのため、少なくとも大規模なフロンティアAIラボからはかなりの賛同があると思います。
ロブ・ウィブリン: なるほど。おそらくTwitterではこれを見ないかもしれませんが、会社内部での交渉に役立つかもしれません。人々は物事がどのように進むかについて異なる期待を持っているかもしれません。しかし、彼らは皆、能力のレベルと予防措置のレベルを均衡させるRSPにある程度満足する可能性があります。
私の心に浮かぶ最初の心配は、能力の改善が本当に非常に急速である場合 – 私たちはそうだと考えており、おそらくそれは続く可能性があります – 今から練習する必要があるのではないでしょうか?基本的に、クロード3ができることを考えると、現時点では非常に不合理に見えるかもしれないことを今すぐ行い、先に進んでいるのです。なぜなら、1年後や2年後にはるかに危険なものができる可能性があることを心配しているからです。そして、その時に必要なシステムを展開するためにスクランブルしたくありません。そして、おそらく十分に前もって準備していなかったために遅れをとってしまうかもしれません。それについてどう思いますか?
ニック・ジョセフ: はい、確かに前もって計画する必要があります。良いことの一つは、これらの安全目標を商業目標と一致させたら、人々は商業的なことのために常に前もって計画しています。それは通常の会社の計画プロセスの一部です。
RSPでは、実際に心配している赤線の能力からはるかに遠い黄色線の評価を意図しています。そのギャップを調整することは非常に重要に思えます。そのギャップが1週間のトレーニングのように見えるなら、本当に怖いでしょう – これらの評価をトリガーし、素早く行動しなければならない場合。実際には、私たちはそれらの評価を、本当に危険な能力からはるかに遠いところに設定しているので、そのバッファー期間に調整する時間があるでしょう。
ロブ・ウィブリン: つまり、人々は実際に私たちが今ASL-2にいて、いつかASL-3に向かっていると考えるべきですが、実際にはこれらの移行にはすべての中間段階があり、「今、ASL-3にすぐに到達する警告サインが見えているので、ASL-3に到達することを予想して今すぐ予防措置を実施する必要がある」と言うことになるのですか?基本的にそのように機能しているのですか?
ニック・ジョセフ: はい、基本的には安全バッファーという概念があります。評価をトリガーすると、これらの評価は控えめに設定されているので、モデルが本当に心配している赤線の能力を持っているということではありません。そして、それは私たちにバッファーを与えます。そこで、おそらくそれは本当に単に危険ではなく、私たちが悪い評価を書いたのだと判断できます。取締役会に行き、評価を変更し、新しいものを実装しようとします。あるいは、おそらく本当に非常に危険で、すべての予防措置を講じる必要があります。もちろん、そんなに長くはないかもしれないので、それらの予防措置を講じる準備ができていて、一時停止する必要がないようにしたいのですが、そこには何らかの時間があります。
最後の可能性は、私たちが本当に準備できていないということです。これらのモデルは破滅的に危険で、それらを安全にする方法がわからない – その場合、モデルのトレーニングを停止するべきです。あるいは、安全に展開する方法がわからない場合は、それを理解するまでモデルを展開すべきではありません。
ロブ・ウィブリン: 非常に懸念している側にいるなら、はい、あなたは準備しています。今年、将来的に採用する必要があると思われる安全対策を準備する理由があると思います。しかし、おそらくそれ以上に進むべきで、今それらを実装し、どれだけうまく機能するかを見る練習をする必要があるのではないでしょうか – なぜなら、あなたは準備していますが、実際にそれらを適用し、日常的に使用しようとする粘り強い経験を得ていないからです。
私はそれに対する回答は、ある意味でそれはより安全になるだろう – それはさらに大きな予防的バッファーを追加することになるでしょう – しかし、それはまた非常に高価になり、人々は私たちがモデルができることに比べて本当にやり過ぎに見える全てのことをしているのを見ることになるでしょう。
ニック・ジョセフ: はい、ここには実用主義とのトレードオフがあると思います。将来的に本当に危険なモデルに対して非常に慎重である必要がありますが、危険でないモデルにその慎重さを適用すると、技術を今使用することから得られる多くの利益を逃すことになります。また、おそらく「あなたは狂っている。なぜこれをしているのか?」と見る多くの人々を疎外することになるでしょう。そして私の希望は、これがRSPのフレームワークであり、リスクに合わせて慎重さを調整できるということです。
まだ先を見据えることは重要です。そのため、私たちは次のAI安全レベルに直接焦点を当てていない多くの安全研究を行っています。なぜなら、先を見据え、複数のレベルに備える必要があるからです。それは考慮すべき唯一のことではありません。しかし、RSPはこれらのリスクを経験的にテストし、適切に予防措置を調整することにより焦点を当てています。
ロブ・ウィブリン: その技術の進歩を遅らせることを心配する人々のトピックについて、Anthropic RSPを読むと、4倍の計算能力または データ量の増加ごとにモデルを再テストすることを提案していますね。それが一種のチェックポイントですか?
ニック・ジョセフ: 私たちはまだそこで何が最善かを考えています。それは変更される可能性がありますが、私たちは「効果的な計算量」という概念を使用しています。実際、これはモデルをトレーニングする際、ある特定の損失に到達することに関係します。より多くの計算量があれば次の損失に到達すると期待できるという素晴らしいスケーリング法則があります。また、大きなアルゴリズムの進歩により、より多くの計算量を使用せずにより低い損失に到達することもあるかもしれません。そして私たちはこの「効果的な計算量」という用語を作りました。それはそれも考慮に入れます。
これらのジャンプは、そのジャンプを行った時にモデルがどれだけ賢くなったかについての直感的な感覚があるジャンプであり、それを全ての評価を実行しなければならないバーとして設定しています – これにはスタッフメンバーが実行し、能力を引き出そうとする時間を費やす必要があります。
ここで、私は正確すぎたり、これをあまりにもよく理解しているように聞こえることを警戒しています。私たちは黄色線と赤線の間の効果的な計算量のギャップが実際にどれくらいかを本当に知りません。これはより、私たちが問題についてどのように考え、これらの評価をどのように設定しようとしているかについてです。そして、黄色線の評価が本当に赤線の能力からはるかに簡単である必要がある理由は、評価を実行するタイミングによっては、黄色線の能力をかなり大幅に超過してしまう可能性があるからです。
ロブ・ウィブリン: 覚えていれば、以前ショーに出演したZviがAnthropicのRSPを評価したブログ投稿で、この4倍と6倍の比率は十分に大きくないと考えていると書いていました。何らかの不連続な改善があったり、これらの中間チェックポイントでモデルの能力を本当に過小評価していた場合、かなり危険なポイントに偶然到達してしまう可能性があります。そして、そこに到達した時には、モデルは思っていたよりもかなり能力が高くなっています。
そうすると、緊急ボタンを押して全ての重みを削除するべきかという難しい問題が生じます。これはかなりの計算量の支出を無駄にすることになるので、そうしないインセンティブがあるでしょう。これは彼を心配させます。これは、彼の見解では、単により大きな比率を持つことで解決できると思います。より大きな安全バッファーを持つことで。
もちろん、それは実際に非常に危険ではないと確信しているものに対して、これらの絶え間ないチェックを行うリスクがあります。人々はRSPに苛立ち、時間の無駄だと感じるかもしれません。そのバッファーがどれくらい大きい必要があるかは一種の判断だと思います。
ニック・ジョセフ: はい、これはコミュニケーションが難しいものです。モデル間のジャンプが機密情報であるためです。私が共有できる一つのことは、私たちはクロード3のトレーニングの途中でこれを実行し、クロード2からクロード3へのジャンプはそのギャップよりも大きかったということです。つまり、クロード2からクロード3への知能のジャンプは、私たちが許容しているものよりも大きいと考えることができます。私には合理的に思えますが、これは人によって異なる判断だと思います。そして、時間とともにこれが大きすぎるか小さすぎるように見える場合、それは公に話し合えることを願っています。
ロブ・ウィブリン: それについてフィードバックを得ていますか?これらの大きなモデルをトレーニングし、チェックしている場合、彼らがどこにいると予想するか、特定の閾値を超える可能性がどれくらいあるかを予測できると思います。そして、もし驚くことがあれば、ここでバッファー範囲を増やす必要があるという兆候かもしれません。
ニック・ジョセフ: それは難しいです。本当に教えてくれるのは、あるモデルで黄色線に合格しなかった場合、そして次の反復で突然それを吹き飛ばした場合です。そしてこれを見て、「ワオ、このものは本当に危険だ。おそらく赤線を超えている」と思います。そしてモデルを削除するか、次のレベルのセキュリティ機能をすぐに導入する必要があります。私はそれがバッファーを小さく設定しすぎたという兆候だと思います。
ロブ・ウィブリン: それを学ぶのは理想的な方法ではありませんね。
ニック・ジョセフ: はい。かなり大幅に超過したことに気づくような早期の兆候はあるでしょう。予想よりも近いと感じるかもしれません。しかし、それは失敗モードというよりも警告サインでしょう。
ロブ・ウィブリン: RSPを読むと、誤用による破滅的リスク – テロ攻撃やCBRN – とAIの暴走、つまり制御不能に広がるようなことにかなり焦点を当てているように見えます。RSPまたはこの種のフレームワークは、AIが人々を仕事から追い出し、生計を立てられなくなるような構造的な問題や、AIが軍事化され、モデルをうまく制御できないため国家間の軍事衝突を防ぐのが難しくなるようなことには対処しないということで基本的に正しいですか?あるいは、アルゴリズムのバイアスやディープフェイクや誤情報のようなより近い将来の問題については?これらのことは責任あるスケーリング政策以外のもので対処しなければならないのですか?
ニック・ジョセフ: はい、それらは重要な問題ですが、私たちのRSPは破滅的リスクを防ぐことに責任を持っており、特に急性のもの – 新しい能力が開発され、一次的に多くの被害を引き起こす可能性があるもの – にうまく機能するフレーミングを持っています。「これが社会に長期的にどのような影響を与えるか?」というようなことには機能しません。なぜなら、それを効果的にテストするための評価を設計できないからです。
ロブ・ウィブリン: Anthropicには、私が言及した他の2つのクラスターに取り組む別のチームがありますよね?それらは何と呼ばれていますか?
ニック・ジョセフ: 社会的影響チームがおそらく最も関連しています。そして政策チームもこれらの問題に大きな関連性があります。
ロブ・ウィブリン: わかりました。RSPについてまとめましょう。オーディエンスに言いたいことはありますか?より良い社内政策を考え出す、そして他のアクターが政府政策のモデルを考え出す方法を見つけるこの企業にオーディエンスが貢献できる追加の作業や方法はありますか?
ニック・ジョセフ: はい、これは多くの人が取り組むことができるものだと思います。ラボで働いている場合は、そこの人々と話し、RSPとして何を持つべきか、あるいは何か持つべきかについて考えることができます。政策に携わっている場合は、これらを読んで、学ぶべき教訓があるかどうか考えるべきです。どちらでもない場合でも、脅威モデリングについて考え、それについて投稿したり、評価について考え、評価を実装し、それらを共有したりすることができます。これらの企業は非常に忙しく、何かがすぐに使える状態であれば、この評価を取り上げて実行するのは本当に簡単だと思います。そのため、ここで人々が手伝えることはたくさんあると思います。
ロブ・ウィブリン: わかりました。では、リスナーがAnthropicで働くことで、超知能がより良くなるように貢献できる可能性について話しましょう。まず、現在のAnthropicの役割にどのようにたどり着いたのですか?そこに至るまでのキャリアの道のりはどのようなものでしたか?
ニック・ジョセフ: 主にGiveWellでのインターンシップから始まったと思います。リスナーはご存じかもしれませんが、GiveWellは寄付金をどこに最も効果的に使うべきかを評価する非営利団体です。そこでインターンシップをしました。世界の貧困や世界の健康について多くのことを学びました。当時は経済学の博士課程に進み、世界の貧困問題に取り組むつもりでしたが、そこの数人が「本当にAI安全性について心配するべきだ。将来的に超知能AIを持つことになり、これは大きなリスクになる可能性がある」と私を押しました。
そのサマーインターンシップを終えた時、「ワオ、これらの人々は狂っている」と思いました。家族全員に話しましたが、彼らは「何を考えているの?」と言いました。しかし、それは興味深かったです。そのため、引き続き人々 – そこの何人かや、このことを心配している他の人々 – と話し続けました。そして、私が行った小さな議論のたびに負けたように感じました。なぜ心配すべきでないかについて彼らと少し議論し、いつも議論に負けたように感じましたが、完全には納得していませんでした。
正直なところ、数年間これを続けた後、最終的にこれは十分に説得力があるので、AIに取り組むべきだと決心しました。また、貧困に取り組むための経済学の博士課程というルートは、私が予想していたよりもはるかに長く、難しく、成功する可能性が低いことがわかりました。そのため、AIに方向転換しました。Vicariousという、ロボティクス製品の方向にシフトしたAGIラボで働きました。そこでしばらくコンピュータビジョンに取り組み、ML研究の方法を学びました。
そして実際、80,000 Hoursが私に連絡を取り、より緊急にセーフティに取り組むべきだと説得しました。これは、AIがより良くなっていて、安全性研究に直接的な影響を与えることがより重要になっているという種類のものでした。
当時、私はOpenAIが圧倒的に最高の安全性研究を行っていると思いました。そのため、OpenAIで安全性に取り組むために応募しました。実際に拒否されました。そして再び拒否されました。その間、Vicariousは私が半分の時間を安全性の論文を読むことに費やすことを親切に許可してくれました。そのため、安全性の論文を読み、自分の安全性研究を試みていました – しかし、どこから始めればいいのかわからず、かなり難しかったです。
最終的に、このポッドキャストに出演したロヒン・シャーのためにも書きました。彼はこのアラインメントニュースレターを持っていて、私は論文を読み、要約と意見を書いていました。それは自分を動機付けるためでした。
しかし最終的に、3回目の試みでOpenAIから仕事のオファーを得て、安全性チームに参加し、そこで8ヶ月間主にコードモデルとコードモデルがどのように進歩するかを理解することに取り組みました。ここでの論理は、私たちがコードでトレーニングする最初のLLMを始めたばかりで、再帰的自己改善について考えると、コードを書くことができるモデルが最初のステップであり、それがどの方向に進むかを理解することが安全性の方向性を知らせるのに非常に有用だろうということでした。
そしてその後、おそらく8ヶ月ほど経って、OpenAIの安全性チームリーダー全員が去り、その大部分がAnthropicを立ち上げました。私は彼らの価値観とミッションに非常に一致していると感じたので、Anthropicに参加しました。OpenAIにいた主な理由は安全性の仕事のためでした。
そしてAnthropicでは、実際、誰もがモデルをトレーニングするためのインフラを構築していました。コードはありませんでした。会社の始まりのようなものでした。そして、私が比較優位を持っていたのは、それらを効率的にすることだとわかりました。モデルを高速化するために最適化しました。先ほど言ったように、より多くの計算能力があればより良いモデルが得られます。つまり、物事をより速く実行できれば、より良いモデルも得られます。
しばらくそれを行い、その後マネジメントに移行しました。これは以前から私がやりたかったことでした。そして、5人だった事前トレーニングチームの管理を始めました。それ以来、より良いモデルをトレーニングしながら、チームを成長させ続けています。
ロブ・ウィブリン: 80,000 Hoursの内容を何年も前から消費していたと聞いていましたが、それがあなたにそれほど影響を与えたとは知りませんでした。80,000 Hoursが助けたステップは何でしたか?安全性関連の仕事により早く取り組み始めることが重要だと決心することだけでしたか?
ニック・ジョセフ: 実際にいくつかの段階がありました。GiveWellのインターンシップをした時、EA Globalかどのかで80,000 Hoursとスピードコーチングをしました。そこにいた人々が、AIに取り組むべきだと私を押した人々の一部でした。そういった会話がありました。そして、Vicariousにいた時、80,000 Hoursが私に連絡を取り、より積極的で、具体的に「今すぐ直接安全性に取り組むべきだ」と言いました – 私はそれ以外はAIについてもう少し長く学び続けることに満足していたと思います。
ロブ・ウィブリン: 80Kが…助けになったかどうかはわかりませんが、ある方向に影響を与えたのはいいですね。80KのAIキャリアアドバイスで読んだもので、間違っていると思うものはありますか?ウェブサイトや、あるいはこのショーで提案してきたことと少し違うことをオーディエンスに伝えたいことはありますか?
ニック・ジョセフ: はい。まず、80Kは非常に役立ちました。それを行うよう私を押し、つながりを設定し、新しい人々を紹介し、多くの情報を得させてくれました。本当に素晴らしかったです。
標準的なアドバイスで私が少し同意しないかもしれないものについては、主なものは研究よりもエンジニアリングにもっと焦点を当てることです。歴史的に人々は研究により焦点を当ててきたと思います。ここでの研究とエンジニアリングの違いを定義すべきかもしれません。
ここでの研究とエンジニアリングの違いは、研究はどの方向に取り組むべきかを考え出すこと – 実験を設計し、非常に慎重な分析を行い、その分析を理解し、一連の実験からどのような結論を導き出すかを考えることのように見えるかもしれません。例を挙げると、ある構造でモデルをトレーニングしていて、「別の構造を試すべきだというアイデアがある。それを試すには、これらの実験が適切で、これらが比較になるだろう」というようなものです。
エンジニアリングは実験の実装により近いものです。その実験を取り上げ、試し、また、それを速く簡単に行うためのツールを作成することです。つまり、あなたや他の全ての人が本当に素早く実験を実行できるようにします。コードの最適化 – 私が以前言ったように、物事をずっと速く実行するようにすること – や、他の人がより良く使えるようにコードを使いやすくすることもあります。
誰かがエンジニアか研究者かというわけではありません。これらのスキルセットの両方が仕事をするために必要です。アイデアを思いつき、それを実装し、結果を見て、そして変更を実装し、それは速い反復ループです。しかし、歴史的に研究の方により多くの威信が与えられてきたにもかかわらず、ほとんどの作業がエンジニアリング側にあるのです。
アーキテクチャのアイデアを思いつくのに1時間かかるかもしれません。そして、それを実装するのに1週間かかり、そして分析を実行し、それには数日かかるかもしれません。しかし、エンジニアリング作業が最も長くかかるように感じます。
そして、私のもう一つの主張は、研究者が調査すべき領域を調査しないことがよくある一つの場所は、ツールが悪い時だということです。この領域で研究を行おうとして、「うーん、全ての実験の実行が本当に苦痛だ」と思うと、すぐに「より簡単に見える他の実験をしよう」と人々は言うでしょう。そのため、多くの場合、何かを簡単にするツールを作ることで、実際にその方向性を開き、他の多くの人々がそれに続いて多くの実験を行う道を切り開くことができます。
ロブ・ウィブリン: Anthropicの人々のうち、どのくらいの割合をエンジニアリング側とより研究側に分類しますか?
ニック・ジョセフ: Anthropic全体については実際にわからないので、私のチームについて言うかもしれません。そしてそれはスペクトルですが、おそらく60%か70%の人々が研究側よりもエンジニアリング側の方が強いと思います。そして採用する際、私はエンジニアリング側で強い人を見つけることに最も興奮しています。私たちのインタビューのほとんどはそちらに合わせています – 研究が重要でないからではなく、それほど必要性がないと思うからです。
ロブ・ウィブリン: その区別は少し人為的に聞こえます。それは本当ですか?これらのことはすべて少しパッケージの一部のように感じます。
ニック・ジョセフ: はい。しかし、エンジニアリングとの主な違いは、それがかなり別のキャリアだということだと思います。このポッドキャストを聞いている多くの人々が、何か技術企業でソフトウェアエンジニアとして10年間働き、優れたソフトウェアを設計することについて膨大な専門知識と経験を積んでいるかもしれないと思います。そして、そのような人々は実際に、仕事を効果的に行うために必要なMLを非常に速く学ぶことができます。
そして、人々が進むことができるもう一つの方向性があると思います。それは多くの場合、PhDのようなものだと考えています – 研究の趣味を発展させ、どのような実験を実行すべきかを理解し、それらを実行することに多くの時間を費やします – 通常はより小規模で、おそらくより良いエンジニアリング慣行を開発するように促す単一の長期的なコードベースはあまりありません。
そして、このスキルセット – そして明確にするために、これも相対的な用語です。それもまた本当に価値のあるスキルセットであり、常にバランスが必要です – しかし、私はしばしば80,000 Hoursが安全性に取り組みたい人々をその方向により押していると印象を受けました。より「PhDを取得し、本当に優れた研究の趣味を持つ研究の専門家になる」方向に、「本当に優れたソフトウェアエンジニアになる」方向よりも。
ロブ・ウィブリン: はい。2018年に、キャサリン・オルソンとダニエル・ジーグラーとのポッドキャストがありました。彼らもエンジニアリングが重要だと言っていました。エンジニアリングは本当に不足しており、業界に参入するのもより簡単な方法だと。しかし、それ以来、私たちはそれについてあまり頻繁に話していません。それ以来、それについてあまり話していないのは少し間違いかもしれません。
あなたは、これは少し異なるキャリアトラックだと言いました。つまり、ソフトウェアエンジニアリングからAnthropicで行っているMLやAIエンジニアリングに移行できるのですか?それが誰かの自然なキャリアの進行ですか?あるいは、まだこの分野にいない人が、必要なエンジニアリングスキルをどのように学ぶことができますか?
ニック・ジョセフ: エンジニアリングスキルは実際にある意味で最も学びやすいと思います。なぜなら、多くの異なるエンジニアリングの場所があるからです。私が推奨する方法は、任意のエンジニアリングの仕事で働くことです。通常、私は最も賢い人々と一緒に働き、最も複雑なシステムを構築することをお勧めします。
オープンソースでもこれを行うことができます。オープンソースプロジェクトに貢献することができます。これはしばしば、メンテナからメンターシップを得て、公に見える何かを持つ素晴らしい方法です。その後、仕事に応募したい場合、「これが私が作ったものです」と言うことができます。
そして、新しいものを作ることもできます。AIエンジニアリングに取り組みたい場合は、おそらく行いたいことに似たプロジェクトを選ぶべきです。大規模言語モデルのデータに取り組みたい場合は、Common Crawl – これは公に利用可能なウェブのクロールです – を取り上げ、それを非常に効率的に処理するためのインフラを多く書きます。その後、おそらくそれでいくつかのモデルをトレーニングし、モデルをトレーニングするためのインフラを構築することができ、どこかで働く必要なく、そのスキルセットを比較的簡単に構築することができます。
ロブ・ウィブリン: なぜ人々が研究を過大評価していると思いますか?研究の方がクールに聞こえるからですか?より良いブランディングを持っていますか?
ニック・ジョセフ: 歴史的に、それは威信の問題だったと思います。研究科学者と研究エンジニアの区別がこの分野に存在していたと思います。研究科学者はPhDを持ち、研究エンジニアが実行する実験を指定していました。
私はそれがしばらく前に変わったと思います。ある意味で、その変化はすでに始まっています。現在、多くの場所、Anthropicを含めて、全ての人が技術スタッフのメンバーです。この区別はありません。その理由は、エンジニアリングがより重要になったからです。特にスケーリングにおいて。大規模な分散クラスタで多くの計算を使用するモデルをトレーニングするようになると、これらの分散実行に物事を実装するためのエンジニアリングは、安価なモデルでの迅速な実験よりもはるかに複雑になりました。
ロブ・ウィブリン: これらの巨大な計算クラスタを構築し、効果的に運用することがどの程度のボトルネックになっていますか?それはAnthropicが行わなければならない中核的な部分ですか?
ニック・ジョセフ: 私たちはデータセンターを実際に構築し、チップを入れるためにクラウドプロバイダーに依存しています。しかし、私たちは今、使用している計算量が非常に専用のものになるレベルに達しています。これらは本当に巨大な投資であり、私たちはそのデザインから関与し、協力しています。そして、それは非常に重要な部分だと思います。計算が主な推進力であることを考えると、多くの計算を取り、それをすべて一緒に使用し、実行したいワークロードの種類に応じて安価なものを設計する能力は、持っている計算量の大きな乗数になる可能性があります。
ロブ・ウィブリン: わかりました。Anthropicで働くことが、超知能AIを持つ未来をより良くする特に良い方法である理由について、説明してもらえますか?
ニック・ジョセフ: まず、AI安全性に取り組むことを勧めるかもしれません。ここでの主張は、それが本当に本当に重要だということです。AGIはおそらくこれまでに起こった中で最大の技術的変化になると思います。
私の心に留めていることは、世界中の全ての人が、あなたが知っている最も賢い人々と同じくらい賢い100万人の会社を立ち上げることができ、彼らに望む任意のプロジェクトを任せることができるとしたらどうなるかということです。それで多くの良いことができます。病気の治療を助けることができ、気候変動に取り組むことができ、貧困に取り組むことができます。そこにはたくさんのことができます。しかし、それが非常に悪い方向に進む可能性もたくさんあります。ここでの賭け金は本当に高いと思います。そして、それに取り組んでいる人々の数は比較的少ないです。
これに関連するすべてのことに取り組んでいる人々を数えると、おそらく現在は数千人、おそらく数万人くらいになるでしょう。急速に増加していますが、問題の規模に比べるとかなり小さいです。
Anthropicを選ぶ理由については、私の主な主張は、物事がうまくいくようにする最良の方法は、同じことを気にかける多くの人々を集め、それを主な焦点として一緒に働くことだと思います。Anthropicは完璧ではありません。すべての組織と同様に、確かに問題はあります。しかし、私が本当に感謝しているのは、全員が互いを信頼し、同じ目標を深く共有し、それに一緒に取り組むことができるチーム全体でどれだけ多くの進歩を遂げられるかを見ることです。
ロブ・ウィブリン: AI安全性に非常に焦点を当てている人々のプールがあると想像すると、そこにはトレードオフがあります。あなたが表現したばかりの態度を持っている人々を、フロンティアAIに取り組んでいる異なる会社のそれぞれに分散させるアプローチがあります。それにはいくつかの利点があるでしょう。もう一つの選択肢は、彼らを一つの場所にクラスター化して、一緒に働いて多くの進歩を遂げることができるようにすることです。しかし、おそらく彼らが学ぶことは他のすべての会社に簡単に広まらないかもしれません。
人々が一緒により効果的に働き、よりコミュニケーションできるようにクラスター化することと、おそらく仕事を吸収できる人々をどこにでも持つ必要性との間の適切なバランスについて、あなたの見解はありますか?
ニック・ジョセフ: 私は、一緒に働くことから得られる利益が本当に大きいと思います。5人が全員一緒に働いている場合と、5人が独立して働いており、互いに話したり、何をしているかを伝えたりできない場合では、達成できることが非常に異なります。すべてを並行して行い、互いから学ばず、また – これは最終的に物事を実装するために一緒に働くことができる核心的な部分だと思いますが – 信頼を築くこともできないリスクがあります。
ロブ・ウィブリン: Anthropicが解釈可能性研究や他の技術的なAI安全研究の主要なリーダーになる、あるいはなりつつある限り、他の会社はその研究を吸収し、自分たちの仕事に適用することに非常に興味を持つと思いますか?それとも、Anthropicが本当に優れた安全技術を持っているが、それがAnthropicに閉じ込められてしまい、他の場所で開発されている最も能力の高いモデルがそれらなしで開発される可能性がありますか?
ニック・ジョセフ: 私の希望は、他の人々がRSPのようなものを開発するか、あるいは特定の安全性緩和策を要求する規制がある場合、人々はより良い安全性プラクティスを得たいという強いインセンティブを持つだろうということです。そして私たちは安全性研究を公開しているので、ある意味で彼らにとってできるだけ簡単にしています。「これが私たちが行ったすべての安全性研究です。これについてできるだけ多くの詳細を提供します。どうぞ再現してください。」
それ以上に、他の場所が何をするかについて説明責任を負うのは難しいと思います。ある程度、Anthropicが模範を示そうとし、「安全性を優先し、多くの安全性の仕事を出しながら、フロンティアラボになることができる」というように、それが他の人々にも同じことをするよう刺激することを願うだけです。
ロブ・ウィブリン: この答えがわかりませんが、Anthropicの研究者が時々他のAI企業を訪問し、またその逆もあるのを知っていますか?アイデアを相互に交換するためです。以前はそれがより頻繁に起こっていたかもしれませんが、ここ数年で少しタイトになったかもしれません。しかし、それは研究が広まる可能性があるという一つのアイデアです。
あなたは、それが公開されると言っています。それは確かに重要です。しかし、方法を実際に適用する技術的な詳細が必ずしも論文に含まれていたり、簡単に理解できたりしないリスクがあります。そのため、物事を機能させるために人々と話す必要もよくあります。
ニック・ジョセフ: はい、何かが公開されたら、それについて講演を行うことができます。公開が最初のステップだと思います。公開されるまでは、それは共有できない機密情報です。まずそれを理解し、公開する必要があります。さらに多くのステップを取ることもできます。それを注意深く実行できるようにするコードをオープンソース化することもできます。その方向に多くの作業を行うことができます。そして、それは結果を普及させることにどれだけの時間を費やすか、実際に進歩を遂げるためにアジェンダを推し進めることにどれだけの時間を費やすかのバランスの問題です。
ロブ・ウィブリン: 私はやや生物学から類推しているのかもしれません。生物学の論文や医学の論文を持っていても実験を再現できないことは悪名高いです。多くの重要な詳細が欠けているからです。しかし、MLやAIでは、人々はすべてのデータ、おそらくすべてのコードをオンラインやGitHubなどに公開する傾向があるため、他の場所で研究を完全に再現するのがはるかに簡単だという可能性はありますか?
ニック・ジョセフ: はい、再現性のレベルは全く異なると思います。論文によります。しかし、多くの論文では、ある会議で論文が公開された場合、誰かがその論文を取り上げて1週間程度の作業で再実装できることを期待します。実際に実行に必要なコードを提供することが強い規範であることもありますが、再実装できるだけの十分な詳細を提供することもあります。
いくつかのことでは難しい場合があります。私たちの解釈可能性チームが、私たちの製品モデルの一つで特徴を得る方法についての論文を発表したばかりですが、私たちの製品モデルの詳細は公開していません。そのため、他のモデルでこれを再現できるように十分な詳細を含めようとしましたが、彼らは私たちの製品モデルを正確に作成し、私たちが持っている正確な特徴を得ることはできません。
ロブ・ウィブリン: わかりました。あらゆるAI企業で働くことについて人々が持つかもしれない懸念の一つについて話しましょう。その間に、現在Anthropicでどのような役割を募集しているか、そして将来的にAnthropicでどのような役割が開く可能性があるか教えてください。
ニック・ジョセフ: おそらく私たちのウェブサイトをチェックしてください。かなりたくさんあります。いくつか強調させてください。
まず強調すべきは、RSPチームが評価を開発し、RSP自体に取り組み、RSPの次のバージョンがどのようなものになるべきかを考える人々を探していることです。
私のチームでは、多くの研究エンジニアを採用しています。これは、モデルを改善するアプローチを考案し、それを実装し、結果を分析し、そのループを進めるためです。そして、パフォーマンスエンジニアも採用しています。これはおそらく少し驚くかもしれませんが、現在多くの作業がカスタムAIチップで行われており、それらを本当に効率的に実行することが絶対に重要です。モデルがどれだけ良くなるかということと、それがどれだけ速く実行できるかということの間には多くの相互作用があります。そのため、ハードウェアがどのように機能するか、そしてコードを本当に効率的に書く方法について深い知識を持つ、多くのパフォーマンスエンジニアを採用しています。AIの専門知識がたくさん必要というわけではありません。
ロブ・ウィブリン: その技能をどのように学ぶことができますか?そのためのコースはありますか?
ニック・ジョセフ: おそらく、基本的にすべてについてコースがあると思います。プロジェクトを見つけ、メンターを見つけ、その人の時間に配慮することをお勧めします。おそらく多くの時間をかけてコードを書き、数百行を送って「これをレビューして助けてもらえますか?」と言うかもしれません。あるいは、週に1回のミーティングがあり、そこで質問をするかもしれません。しかし、はい、オンラインで読んだり、コースを受けたりすることもできますし、単にプロジェクトを選んで「できるだけ速くトランスフォーマーを実装する」と言って、しばらくそれに取り組むこともできます。
ロブ・ウィブリン: ほとんどの人々は他のAI企業やより広くテック業界から、あるいはPhDから、あるいはPhDでさえないところからAnthropicに来ているのですか?
ニック・ジョセフ: かなり混ざっています。PhDは確かに必要ありません。それはこのスキルセットを構築する一つの方向性です。驚くほど多くの物理学のバックグラウンドを持つ人々がいます。彼らは長い間理論物理学を行い、その後数ヶ月をかけてPythonを本当にうまく書くためのエンジニアリングを学び、そして移行します。
そのため、特定のバックグラウンドが必要というわけではありません。直接準備しているなら、仕事に最も近いものを選んでそれに向けて準備することをお勧めしますが、応募するために特定のバックグラウンドが必要だとは感じないでください。
ロブ・ウィブリン: この質問は少し馬鹿げているかもしれません。なぜなら、人々がAnthropicに応募できる可能性のある役割の範囲が非常に広いからです。しかし、Anthropicやそれに類似したところで働くことがキャリアのビジョンだが、まだそのような真剣な組織で役割を得るほど資格がないと感じている人々へのアドバイスはありますか?将来的にプロジェクトにより有用になるために、経験やスキルを得るための興味深い過小評価されている道筋はありますか?
ニック・ジョセフ: 希望する役割を選んで、外部でそれを行うことをお勧めします。非常に公に見える形で行い、アドバイスを得て、それを例として応募してください。解釈可能性に取り組みたい場合は、モデルから特徴を引き出すためのツールを作成し、それをGitHubに投稿するか、解釈可能性に関する論文を発表してください。RSPに取り組みたい場合は、本当に良い評価を作成し、それをGitHubに投稿し、それを実行する方法についての素晴らしい説明を付けて、応募にそれを含めてください。
これには時間がかかり、うまく行うのは難しいですが、それが本当に望む役割かどうかを知る最良の方法だと思いますし、何かを採用する際、私は特定の役割を念頭に置いており、誰かがそれを行えるかどうかを知りたいと思います。そして、誰かが「見てください、私はすでにこの役割を行っています。もちろんできます。ここにそれをうまく行えるという証拠があります」と示すことは、最も説得力のある主張です。多くの点で、インタビューで得られる信号以上に説得力があります。そこでは、特定の質問でうまく行ったということしかわかりません。
ロブ・ウィブリン: AI企業で働くことについて、定期的なリスナーは、今年初めにZvi Mowshowitzと話したことを覚えているでしょう。彼はAIの進歩を長年追っている人で、AI安全性についてはやや悲観的な立場にいると言えます。彼はAnthropicのRSPを気に入っていると思いますが、どの企業や政府が提案している安全計画も、最終的には急速に自己改善するAIから私たちを安全に守るのに十分ではないと確信しています。
彼は、最も強力なAIモデルが何をできるかというフロンティアを押し進める能力の役割を引き受けることに強く反対していると言いました。特に主要なAI企業においてです。基本的な議論は、それらの役割が物事を加速し、私たちが対処しなければならない安全性の問題を解決する時間をより少なくしているため、多くの害を引き起こしているというものです。
私は少し反論しましたが、彼は様々な正当化 – 後に安全性の仕事に適用できるスキルを獲得する必要性や、内部にいることで会社の文化に影響を与える能力があるかもしれないなど – にはあまり納得しませんでした。そして、すべての企業の中で、ZviはAnthropicに最も同情的だと思います。しかし、彼の哲学は、好きな特定の個人や組織を信頼するのではなく、厳しい制約に頼ることです。
あなたはおそらくそのエピソードでZviが言ったことを聞いたのではないかと思います。そして、それはクロード3や他のフロンティアLLMのトレーニングを担当するあなたの仕事に適用される批判だったと言えます。そこで、Zviの視点についてあなたがどう考えたか聞くのがとても興味深いです。
ニック・ジョセフ: キャリアキャピタルを構築するためにこれを行うという議論と、直接的な影響のためにこれを行うという別の議論があると思います。
キャリアキャピタルについては、かなり懐疑的です。指数関数的に成長しているこの分野でキャリアキャピタルについて考えるのは奇妙だと思います。通常の分野では、人々はしばしばキャリアの後半で最も影響力があると言います。しばらくスキルを構築し、そして40代や50代がキャリアで最も影響力のある時期かもしれません。
しかし、この分野の急速な成長を考えると、実際に影響力を持つ最高の瞬間は今だと思います。2021年にAnthropicで働いていた時、おそらくAGIへの主要な道筋だと思った大規模言語モデルに取り組んでいる人は数十人しかいなかったと思います。今では数千人います。私は改善しました。それ以来、より良くなりました。しかし、おそらく2021年の方が、取り組んでいる人が数十人しかいなかった時の方が、影響力を持つ可能性ははるかに高かったと思います。
ロブ・ウィブリン: あなたの最高の年は過ぎてしまったんですね、ニック。
ニック・ジョセフ: はい、可能性は非常に高かったと思います。まだ影響を与える余地はたくさんあると思いますし、それは減少するかもしれませんが、非常に高いレベルから減少するでしょう。
そして問題は、この分野はそれほど深くないということです。これは非常に最近の開発なので、貢献する前にたくさんのことを学ぶ必要はありません。物理学をやりたい場合、フロンティアを押し進める前に過去数千年の物理学を学ぶ必要があります。それは非常に異なるセットアップです。
最後の議論は、タイムラインが短いと考える場合、正確にどれくらい短いかによっては、実際にそれほど多くの時間が残っていないということです。5年あると考え、そのうち2年をスキルセットの構築に費やしたとすると、それは時間の大きな部分です。これが誰かのタイムラインであるべきだとは言っていませんが、タイムラインが短ければ短いほど、それはあまり意味をなさなくなります。そのため、キャリアキャピタルの観点からは、おそらく同意すると思います。
ロブ・ウィブリン: はい、はい。他の観点からはどうですか?
ニック・ジョセフ: 直接的な影響の観点からは、あまり納得していません。これは単に、能力と安全性があり、それらが別々のトラックで競争しているというフレーミングを持っていないからです。それを見る一つの方法ですが、実際にはそれらは本当に絡み合っていて、多くの安全性の仕事は能力の進歩に依存していると思います。
安全性チームの一つが発表した、この多ショットジェイルブレイキング論文の例を挙げました。これは長文脈モデルを使用して、クロードや他のモデルに適用できるジェイルブレイクを見つけます。そしてその研究は、これをテストできる長文脈モデルがあったからこそ可能でした。物事が一緒に来る場合が多くあると思います。
しかし、能力に取り組むなら、それについて本当に慎重に考える必要があると思います。確かに、それを加速させるリスクはあります。ある意味で、本当に危険なものを作り出している可能性があります。しかし、単にそれをしないというほど単純ではないと思います。誰かがAGIをトレーニングする時、ダウンストリームの影響がどうなるのか、そしてあなたがそれにどのように影響を与えたかについて、最後まで考える必要があります。これは考えるのが本当に難しい問題です。考慮すべき要因は100万個ありますが、それを考え抜き、最善の判断に達し、そして進みながら再評価し、他の人々の意見を得るべきだと思います。
ある研究所で能力に取り組むことを検討している場合、私が提案することの一つは、彼らの変化の理論を理解しようとすることです。そこにいる人々に「能力に関するあなたの仕事はどのようにしてより良い結果につながるのですか?」と尋ね、それに同意するかどうかを確認してください。彼らの安全性チームと話し、外部の安全性研究者と話し、彼らの考えを聞いてください。彼らはこれが良いことだと思っていますか?そして、彼らのトラックレコードとガバナンスを見て、彼らがこの変化の理論を推し進めるかどうかという質問に答えるためのすべてのことを見てください。今後5年間で、これが実際に起こると確信していますか?
Anthropicで私が悪いことをしていないかもしれないと納得させた一つのことは、私たちの安全性チームが能力を支援することをいとわず、実際にそれでうまくいくことを望んでいることです。早い段階で、オーパスをリリースする前に、大きな問題が発生しました。多くの問題が発生し、私のチームには推し進める余裕のない非常に重要な研究プロジェクトが一つありました。
そこで、Anthropicの安全性リーダーの一人であるイーサン・ペレスに「手伝ってもらえますか?」と尋ねました。実際にはオフサイトの最中で、イーサンと彼のチームのほとんどが、オフサイトのために借りていた森の中の建物の2階に行き、次の2週間この研究に取り組みました。少なくとも私にとっては、これは「はい。ここの安全性チームも、私たちがフロンティアにとどまることが重要だと考えている」ということでした。
ロブ・ウィブリン: つまり、基本的な考えは、Anthropicが行っている様々な種類の多くの異なるタイプの安全性の仕事、安全性研究は非常に有用だと考えているということですね。それは素晴らしい例を示しています。それは他のグループが採用し、Anthropicも安全なモデルを作るために使用できる研究です。そしてそれが可能な唯一の理由は、AnthropicがこれらのフロンティアLLMを持っていて、それらで実験し、研究を行うことができるからです。そして一般的にこの技術の最先端にいて、将来的に最も関連性が高そうな安全性研究のアジェンダを理解できるからです。
Zviならどう言うか想像してみましょう。私は彼をモデル化しようとしています。彼はおそらくこう言うでしょう。はい、タイムラインを短縮し、私たちが快適に感じるよりも速く未来を前倒しにするこの競争的なダイナミクスがある中で、おそらくそれが最善のことかもしれません。しかし、もっと協力してより多くの時間を買うことができたらすばらしいのではないでしょうか?それが一つの角度でしょう。
私が一部の人々から聞いた別の角度は – Zviがこれを言うかどうかはわかりません – 私たちは現在持っているモデルで持つことができるすべての安全性関連の洞察から程遠いところにいるということです。クロード2、少なくともクロード3で依然として非常に肥沃な材料があることを考えると、なぜクロード4のトレーニングを進める必要があるのでしょうか?
おそらく5年前、AGIを持つことや本当に興味深い作業をするモデルを持つことからはるかに遠かった時、私たちは少し行き詰まっていて、どの方向に物事が進むのかわからなかったため、どのような安全性研究が良いのかを理解しようとするのに苦労していました。しかし今、安全性研究はとても多くあります – 本当に価値のある仕事のカンブリア爆発があります – そして、本当に価値のあるものを発見するために、今持っているものよりも能力の高いモデルは必ずしも必要ではありません。これについてどう思いますか?
ニック・ジョセフ: 最初のものについては、時々「みんなが私だったらどうなるか?」というような、「みんなが私の考えを持っていたら、理想的な設定は何か?」というようなものがあると思います。私はそれが世界の仕組みだとは思いません。ある程度、あなたが実際にコントロールできるのは自分がすることだけで、おそらくあなたが話す少数の人々に影響を与えることができるかもしれません。しかし、より広い世界が行動するであろう方法で行動する文脈の中で、自分の役割について考える必要があると思います。
そして、確かにAnthropicが能力を持つことが重要だと考える大きな理由の一つは、安全性研究者がより良いモデルを持つことを可能にするためです。もう一つの部分は、分野に影響を与え、モデルを責任を持って展開し、破滅的なリスクを引き起こすことなく、安全性を押し進め続けることができるという例を設定しようとすることです。
「現在のモデルで安全性研究を行うことができるか?」については、確かにやるべきことはたくさんあると思います。また、AGIに近づくにつれて、その仕事をよりよく目標設定できると思います。AGIの1年前が間違いなく最も的を絞った安全性の仕事になるでしょう。希望的には、その時に最も多くの安全性の仕事が行われますが、それは最も時間的制約のある仕事になるでしょう。そのため、進歩を遂げるために必要な一連の時間があるので、今仕事をする必要があります。しかし、最後の最もよく方向付けられた時間を活用する準備もしたいと思います。
ロブ・ウィブリン: 人々が持つもう一つの懸念 – これは以前触れましたが、もう少し詳しく話すかもしれません – は、Anthropicが存在し、他のAI企業と競争することで、軍拡競争を煽り、彼らがモデルをさらに改善し、より多くのお金を投入し、できるだけ早く物事をリリースする必要があると感じるプレッシャーを増しているという心配です。
覚えていれば、あなたの基本的な回答は、はい、その効果はゼロではありませんが、全体として、企業がモデルをトレーニングし、改善しようとするプレッシャーはたくさんあります。そしてAnthropicはその中の一滴に過ぎないので、これは必ずしも心配すべき最も重要なことではないということでした。
ニック・ジョセフ: はい、基本的にそれはかなり正確です。一つの考え方は、Anthropicが存在しなくなったらどうなるかということです。もし私たちが皆消えてしまったら、世界にどのような影響があるでしょうか?あるいは、会社を解散し、全員が他の会社に行ったらどうなるかを考えてみてください。
私の推測では、それによってみんなが減速し、はるかに慎重になるということにはならないでしょう。それが私のモデルではありません。もしそれが私のモデルだったら、私たちは何か間違ったことをしているのかもしれないと思うでしょう。
そのため、それは一つの効果だと思いますが、Anthropicがフロンティアにいることの純効果について考える際には、私たちが取っているさまざまな行動、すべての安全性研究、すべての政策提唱、私たちの製品がユーザーを助ける効果など、大きな枠組みの中で考える必要があります。それらをすべて加算して費用を差し引くことは本当にできませんが、ある程度頭の中でそれを行うことはできます。
ロブ・ウィブリン: なるほど。つまり、あなたはそれを概念化する際に、Anthropic全体として、Anthropicが存在しない何らかの反事実的状況と比較して、どのような影響を与えているかを考えているのですね。そして、あなたはAnthropicとそのすべてのプロジェクトと計画全体のこのより広い企業に貢献しているのであって、「今日、私は起きてクロード3をこの狭い方法で改善するのを手伝った。それは具体的にどのような影響を与えるか?」と考えるのではありません – なぜなら、おそらくそれはあなたの仕事を通じてこの組織が存在することを可能にする最も重要な効果を見逃している可能性があるからです。
ニック・ジョセフ: はい、確かに限界的に考えることもできます。ある程度、参加して何かを手伝うなら、Anthropicの能力を限界的に増やすだけです。その場合、「Anthropicがより良いモデルを持っていれば、私たちはより良い軌道に乗るでしょうか?そして、Anthropicが著しく悪いモデルを持っていれば、私たちはより悪い軌道に乗るでしょうか?」という比較を見るべきでしょう。「Anthropicが今年初めにクロード3をリリースしなかったらどうなっていたか?」ということを考えることもできます。
ロブ・ウィブリン: Anthropicが追求するのを助けたことを最も喜んでいる研究の方向性は何ですか?本当に喜んでいる安全性の勝利は何ですか?
ニック・ジョセフ: 安全性の仕事について本当に興奮しています。Anthropicから出てきたものがたくさんあると思います。解釈可能性から始めることができます。Anthropicの始まりでは、これらの非常に単純なおもちゃのモデルである単層トランスフォーマーがどのように機能するかを理解することでした。そして過去数年間で – これは私がしたことではありません。これはすべて解釈可能性チームの功績です – それは人々が実際に使用している実際の製品モデルを見て、特定の特徴を識別できるところまでスケールアップしました。
最近、ゴールデンゲートブリッジに関するものがありました。それはモデルのゴールデンゲートブリッジの表現です。そしてそれを増やすと、モデルはゴールデンゲートブリッジについてより多く話します。それは非常にクールな因果関係です。何かを変更すると、実際にモデルの振る舞いが変わり、本当に何かを見つけたという確信が高まります。
ロブ・ウィブリン: すべてのリスナーがこれを見たかどうかわかりませんが、それは非常に面白いです。なぜなら、クロード3を使うと、質問が全く関係なくても、その心は常にゴールデンゲートブリッジのことを考えています。そして、話題がそれていることに気づいて苛立ち、あなたが尋ねたことに戻そうとします。しかし、ただできません。ゴールデンゲートブリッジについて再び話すのを避けることができないのです。
希望は、モデルの正直な部分を見つけて、それを大幅にスケールアップすることでしょうか?あるいは、逆に、欺瞞の部分を見つけて、同じように縮小することでしょうか?
ニック・ジョセフ: はい。論文を見れば、安全性に関連する特徴がたくさんあります。ゴールデンゲートブリッジのものは、より可愛らしかったか何かで、少し注目を集めました。しかし、はい、安全性に本当に関連する特徴がたくさんあります。私のお気に入りの一つは、コードが間違っているかどうか、または脆弱性があるかどうかを教えてくれるものです。そして、それを変更すると突然、脆弱性を書かなくなったり、コードが正しくなったりします。それは、モデルがそのレベルの概念を知っていることを示しています。
さて、これを直接使って主要な問題を解決できるでしょうか?おそらくまだできません。ここにはもっと多くの作業が必要です。しかし、これは大きな進歩だと思います。そして、Anthropicの解釈可能性チームがその分野を大きく前進させなければ、その進歩は起こらなかっただろうと言うのは公平だと思います。
ロブ・ウィブリン: 誇りに思っている他のAnthropicの研究はありますか?
ニック・ジョセフ: はい、先ほど少し言及しましたが、アラインメントチームによるこのマルチショットジェイルブレイキングがあります。長文脈モデルがある場合、この非常に長い文脈で多くの例を与えることでモデルをジェイルブレイクできるというものです。そしてそれは、モデルに望まないことをさせるための非常に信頼できるジェイルブレイクです。これはある意味でRSPの精神に沿ったものです。私たちが持ちたいものの一つは、本当に激しいレッドチーミングに対してロバストであることです。モデルが危険な能力を持っている場合、人々がそれを引き出すのを防ぐ安全機能を持つことができます。そして、これはそのための大きなリスクの特定です。
また、モデルが欺瞞的な振る舞いを持つ初期の兆候を示すスリーパーエージェントの論文もあります。
はい、もっと多くのことについて話すことができます。実際に本当にたくさんあります。そして、それがここで非常に重要だと思います。安全性の事柄について、人々はしばしば投入に焦点を当て、結果に焦点を当てないことがあります。そして重要なのは、安全性の面でどれだけ進歩を遂げているかを考えることだと思います。それが最終的に、AGIに近づく数年後に重要になるでしょう。使用したGPUの数や、何人が取り組んだかではありません。何を発見し、それにどれだけ効果的だったかが重要になるでしょう。
製品については、これは非常に自然です。人々は収益の観点から考えます。どれだけのユーザーを獲得したか?あなたが本当に気にしている基本的なものを示す、これらのエンド指標があります。安全性については、それははるかにファジーで測定が難しいですが、良い論文をたくさん出すことは非常に重要です。
ロブ・ウィブリン: はい。続けたい場合、他に強調したいものがあれば、私は急いでいません。
ニック・ジョセフ: はい、影響関数について話すことができます。これは本当にクールなものだと思います。機械的解釈可能性の一つのフレーミングは、重みを見て、特定の重みを見ることでモデルが振る舞いを持つ理由を理解できるようにすることです。影響関数のアイデアは、トレーニングデータを見ることでモデルが振る舞いを持つ理由を理解することです。つまり、トレーニングデータの何がモデルの特定の振る舞いに貢献したかを理解できます。それはかなり興奮する仕事を見たと思います。
憲法AIは、AIのフィードバックを通じて一連の原則に従うようにモデルをトレーニングできる別の例です。人間のフィードバックをたくさん必要とするのではなく、一連の原則を書き出すことができます – 「モデルにこれをさせたくない、これをさせたくない、これをさせたくない」 – そして、その憲法に従うようにモデルをトレーニングします。
ロブ・ウィブリン: Anthropicで、あなたが個人的に警戒する、あるいは少なくとも熱心に貢献したくない仕事はありますか?
ニック・ジョセフ: 一般的に、これは良い質問だと思います。私がやっている仕事は現在、最も影響力の大きいことだと思っています。そしてそれが本当にそうかどうか、頻繁に疑問に思い、人々と話し、再評価すべきだと思います。
今のところ、Anthropicで私が貢献したくない、あるいはすべきでないと思う仕事はありません。おそらく、それはそのようにアプローチするべきではありません。もしAnthropicが世界にとって悪いと思うことをしていると感じたら、私の主張を書いた文書を作成し、それを責任ある関連する人に送り、それについて議論するでしょう。
なぜなら、単に参加しないことは実際には何も変えないからです。誰か他の人がそれをするだけです。それはあまり達成しません。そして、私たちは一つのチームとして、全員が同じ目標に向かって努力しているように運営しようとしています。二つの異なるチームが対立し、誰か他の人が成功しないことを願っているようなものではありません。
ロブ・ウィブリン: このインタビューを聞くだけで、人々はAnthropicの文化についてかなり良い感覚を持つかもしれませんが、Anthropicで働くことについて、すぐには明らかでないかもしれない興味深いことは他にありますか?
ニック・ジョセフ: 私たちの文化の一部で、少なくとも私を驚かせたことの一つは、ペアプログラミングに多くの時間を費やすことです。それは非常に協力的な文化です。最初に参加した時、GPUのクラスタ全体に言語モデルトレーニングを分散する特定の方法に取り組んでいました。そして、創設者の一人であるトム・ブラウン – 彼はGPT-3のためにこれを行った人です – が私のカレンダーに8時間のミーティングを入れ、私は彼がそれをコーディングするのをただ見ていました。そして私は異なるタイムゾーンにいたので、基本的に彼が働いていない時間に私が働いていた時間に、できる限り前進させました。そして翌日、また会って続けました。
これは人々を整列させる本当に良い方法だと思います。それは共有プロジェクトであり、誰かの助けを求めることで邪魔しているのではなく、一緒に物事に取り組んでいるのです。そして多くのことを学びます。また、誰かのコードエディタをどのようにナビゲートするか、このような問題をデバッグするスタイルは正確にどのようなものかなど、他の方法では見られないような小さなことも多く学びます。アドバイスを求めたり「このプロジェクトをどのように行うべきか?」と尋ねたりする場合、彼らはデバッガーをいつ使用するか、問題を解決するための他のツールをいつ使用するかなどの低レベルの詳細は教えてくれません。
ロブ・ウィブリン: つまり、これは文字通りお互いの画面を見ているのですか、それともスクリーンシェアをしていて、お互いを見ているのですか?
ニック・ジョセフ: はい。Tupleという素晴らしいソフトウェアの無料広告をしましょう。これは画面を共有でき、お互いの画面を制御でき、画面に描くことができるものです。通常、一人が運転し、基本的に作業を行い、もう一人が見て、質問をし、間違いを指摘し、時々カーソルを掴んで変更します。
ロブ・ウィブリン: 他の業界では、上司や同僚が常にあなたの画面を見ていると、人々は気味悪がったり嫌がったりするでしょう。しかしプログラミングでは、これは人々が本当に興奮していることで、生産性を高め、仕事をより楽しくすると感じているようですね。
ニック・ジョセフ: ああ、はい。疲れ果てて大変なこともあります。初めてこれをした時、トイレ休憩を取るのが怖すぎて、数時間後に「トイレに行ってもいいですか?」と尋ねました。そして、数時間何かに取り組んだ後にそんなことを尋ねるのは馬鹿げていると気づきました。
ロブ・ウィブリン: 小学校に戻ったみたいですね?
ニック・ジョセフ: はい。確かに少し強烈に感じるかもしれません。誰かがあなたを見ていて、フィードバックをくれるかもしれません。「ここでちょっと遅いですね。こういうことをすれば速くなります」など。しかし、そのような集中的なパートナーシップから本当に多くのことを学ぶことができると思います。
ロブ・ウィブリン: わかりました。Anthropicについてしばらく話してきましたね。最後の質問ですが、明らかにAnthropicの主要オフィスはサンフランシスコにありますよね?そしてロンドンに支店を開設していると聞きました。それが2つの主要な場所ですか?リモートで働く人は多いのでしょうか?
ニック・ジョセフ: はい。サンフランシスコに主要オフィスがあり、ロンドン、ダブリン、シアトル、ニューヨークにオフィスがあります。典型的なポリシーは、25%の時間を対面で行うことです。そのため、一部の人々は主にリモートで働き、通常は月に1週間、ハブの1つに行きます。このアイデアは、人々が互いに信頼を築き、うまく一緒に働き、お互いを知ることができるようにしたいということです。そしてそれには、同僚との社会的交流がある程度必要です。しかし、様々な理由で、最高の人材を得るためには、人々は特定の場所に縛られていることもあります。
ロブ・ウィブリン: 私は、すべての主要なAI企業がおそらく大量に採用していると想定していました。そしてAnthropicはAmazonから、おそらく他の人々からも大きな投資を受けたことを知っています。しかし、組織が大きく成長しているように感じますか?常に新しい人々がたくさんいるように感じますか?
ニック・ジョセフ: はい、成長は非常に急速です。最近、新しいオフィスに引っ越しました。それ以前は、机が足りなくなっていました。これは会社にとって興味深い瞬間でした。非常に混んでいました。今はスペースがあります。
急速な成長は非常に難しい課題ですが、また非常に興味深い課題でもあります。ある程度、これは私が多くの時間を費やして考えていることです。チームをどのように成長させ、生産性の線形成長を維持できるか – これが夢です。人数を倍にすれば、2倍のことができます。そしてそれを実際に達成することは決してありませんが、それには多くの作業が必要です。なぜなら、今やすべてのコミュニケーションのオーバーヘッドがあり、全員が同じ目標に向かって働いていることを確認し、現在持っている文化を維持するために多くのことをしなければならないからです。
ロブ・ウィブリン: Anthropicの素晴らしい点について話す時間をたくさん与えましたが、少なくともAnthropicの最悪の点は何か聞くべきでしょう。最も改善してほしいことは何ですか?
ニック・ジョセフ: 正直なところ、最初に思い浮かぶのは、私たちが取り組んでいることの重要性です。数年前、安全性が本当に重要だと感じていた時期がありました。動機付けられ、それは私がすべきことであり、価値があると感じていました。しかし、本当に緊急かもしれないという、私が下す決定が本当に重要な決定だという感覚はありませんでした。
Anthropicは間違いなく重要性が高いと感じます。しばしば陰鬱な文化として描かれますが、そうではありません。多くの利点があり、私は自分の仕事にかなり興奮しており、日々の基礎は非常に楽しいです。しかし、確かに非常に高強度に感じます。そして、これらの決定の多くは、本当に重要です。もし本当に、これまでで最大の技術的変化を迎えようとしていて、それがどれだけうまくいくかが、その日のあなたの仕事の成果にかなりの部分依存していると考えるなら –
ロブ・ウィブリン: プレッシャーはかけませんよ。
ニック・ジョセフ: はい。タイムラインも本当に速いです。商業的にも、主要なリリースの間が数ヶ月だということがわかります。それは多くのプレッシャーをかけます。AIの進歩の最前線に追いつこうとすれば、それは非常に難しく、非常に短いタイムラインでの成功に依存しています。
ロブ・ウィブリン: つまり、関連するスキルを持ち、良い従業員になる可能性のある人にとって、常に超高生産性、超高エネルギーで運営することが難しい場合、Anthropicのような場所では問題になる可能性がありますか?常に成果を出すプレッシャーがかなりあるように聞こえますが、おそらく内部的にも、外部からのプレッシャーもかなり大きいですよね?
ニック・ジョセフ: はい、私の一部はそうだと言いたいです。多くの時間、非常に高いパフォーマンスを発揮することが本当に重要だと思います。「常にすべてを完璧に行う」という基準は誰も満たしません。そして、時々、あなたにできることはベストを尽くすことだけだということを心に留めておくことが重要だと思います。私たちは物事を間違えるでしょう、それが高リスクであっても、それは非常に残念です。それは避けられません。誰も完璧ではありません。「それには絶対に対処できない」というような高すぎる基準を設定しないでください。人々は本当にできると思いますし、そのレベルのプレッシャーとそれに対処する方法に慣れることができると思います。
ロブ・ウィブリン: わかりました。そろそろまとめに入りましょう。2時間ほど話してきました。過大評価されていると思うAIアプリケーションは何ですか?人々が期待しているよりも到着に時間がかかると思うものは何ですか?そして、過小評価されていると思うアプリケーションは何ですか?消費者が驚くほど早く大きな価値を得る可能性のあるものは何ですか?
ニック・ジョセフ: 過大評価されているものについては、人々はよく「もうGoogleを使う必要がない」とか「情報を得るのに素晴らしい方法だ」と言います。しかし、私は単純な質問があって答えを知りたい場合、ただGoogleで検索すると素早く答えが得られ、ほとんど常に正しいと感じています。一方、クロードに尋ねることもできますが、それはサンプリングして出力し、そして私は「それは本当かな?本当じゃないのかな?おそらく本当だけど、会話調で…」と考えます。そのため、それはまだ長所とは感じられません。
私が最も利益を感じるのはコーディングです。これはあまり一般化できないケースかもしれませんが、ソフトウェアを書いているなら、あるいは「ソフトウェアの書き方がわからないけど、知りたい」と思ったことがあるなら、モデルは本当にそれが得意です。自分でセットアップできれば、おそらく必要なことを英語で書き出すだけで、それを行うためのコードをかなり素早く出力してくれるでしょう。
そして、もう一つは、何を検索すればいいかわからない問題です。何か質問があって答えを知りたいけど、それには多くの文脈が必要で、巨大なクエリになるような場合です。モデルはそれが本当に得意です。文書を与え、大量の情報を与えて、正確に何が欲しいかを説明し、そしてモデルはそれを解釈し、与えられたすべての情報を考慮した答えを与えてくれます。
ロブ・ウィブリン: はい。私もほとんどGoogleの代わりに使っていますが、単純なクエリではありません。むしろ、答えを見つけるために記事を掘り下げる必要があると感じるような、少し複雑なものです。
思い浮かぶ一つは、フランシスコ・フランコは第二次世界大戦中、ある程度ナチスの味方でしたが、その後さらに30年間権力の座にいました。彼はそれについて後にコメントしましたか?ナチスについて後に何と言いましたか?そして、私はクロードが正確な答えを与えてくれたと思います。一方、私はおそらく何時間もかけてそれを調べようとし、何かを見つけようとしたかもしれません。答えは、彼はほとんどそれについて話さなかったということです。
ニック・ジョセフ: 私のもう一つのお気に入りは、非常に小さな使用例ですが、何かをフォーマットしたり何かをしたりする必要がある時、例えば誰かがSlackのスレッドで巨大な数字のリストを送ってきて、それが箇条書きになっていて足し合わせたい場合、それをクロードにコピー&ペーストして「これらを足し合わせて」と言うだけです。どんなフォーマットでも、この奇妙なものを取り、構造化し、そして単純な操作を行うのが非常に得意です。
ロブ・ウィブリン: これらのモデルはすべてプログラミングが本当に得意だと聞いています。私は以前本当にプログラミングをしたことがなく、それを使って何か役立つものを作れるかもしれないと考えていましたが、私はとても基本的なレベルなので…コードを得ても、それをどこで実行すればいいのかわかりません。これをどこで調べればいいのでしょうか?
ニック・ジョセフ: はい、基本的にはPythonを調べ、Pythonの入門を探して環境をセットアップすることをお勧めします。最終的には、何かのファイルでPythonを実行し、Enterキーを押すとそのコードが実行されます。その部分は面倒です。クロードはセットアップで問題が発生した場合に助けてくれると思いますが、一度セットアップすれば、単に「Xを行うコードを書いて」と言えば、かなり正確にそれを書いてくれます。完璧ではありませんが、かなり正確です。
ロブ・ウィブリン: はい、この件についてもクロードにガイダンスを求めるべきでしょうね。私には数ヶ月前に生まれた子供がいます。3〜4年後には保育園に行き、やがて受け入れ学年、小学校を始めるでしょう。その頃までには、AIモデルが教育プロセスに大きく関わり、子供たちがはるかに多くの一対一の…たぶん。5歳児がLLMと話す作業に集中させるのは非常に難しいでしょう。しかし、教育者からのはるかに個別化された注目を得ることができると思います。たとえその教育者がAIモデルであっても、これにより子供たちは、20人の生徒に対して1人の教師しかいない場合よりもはるかに速く学ぶことができるかもしれません。このような種類のものは、私の子供が最初に学校に行く頃には間に合うと思いますか、それともそれよりも少し時間がかかるかもしれませんか?
ニック・ジョセフ: 確実なことは言えませんが、はい、お子さんが学校に行く頃には、かなり大きな変化があると思います。
ロブ・ウィブリン: わかりました、それは良いですね。それは本当に見逃したくないタイムラインの一つです。ネイサン・ラベンツのように、私はハイパースケーリングを心配していますが、これらのアプリケーションの多くについては、本当に可能な限り早く私たちに届いてほしいと思っています。なぜなら、それらはとても有用に思えるからです。
今日のゲストはニック・ジョセフでした。80,000 Hoursポッドキャストに来てくれてありがとう、ニック。
ニック・ジョセフ: ありがとうございました。
ロブ・ウィブリン: もし、全体として考えると、トップAI企業で働くことが超人工知能への移行をうまく行わせるのに良いことか悪いことかという非常に厄介な問題に本当に興味があるなら、私たちの研究者アーデン・ケーラーがちょうどその件について新しい記事を発表したところです。タイトルは「フロンティアAI企業で働くべきか?」です。「80,000 Hours」と「Should you work at a frontier AI company?」をGoogleで検索するか、80000hours.orgのウェブサイトにアクセスして研究を見ていただければ見つかります。
最後に、終わる前に、80,000 Hoursで2つの新しい上級職を募集していることをお知らせします – ビデオ責任者とマーケティング責任者です。両方の詳細は80000hours.org/latestで確認できます。
これらの役職は、おそらくロンドン中心部のオフィスで行われますが、例外的な場合にはリモート候補も検討しています。あるいは、イギリスにいないけれどそこにいたい場合は、イギリスのビザ申請もサポートできます。これら2つの役職の給与は経験によって異なりますが、関連する経験が5年ある人なら約£80,000になります。
これら2つの役職の最初の1つ、ビデオ責任者は、80,000 Hoursの新しいビデオ製品の立ち上げを担当する人です。明らかに、人々はオンラインでビデオ専用プラットフォームで動画を見ることにますます多くの時間を費やしています。そこで、私たちのアイデアを、それらに興味を持つような人々に魅力的な方法で説明したいと思っています。そのビデオプログラムは、15分のカメラ直接撮影のブログ、たくさんの1分動画、10分の説明動画 – これは私のお気に入りのYouTubeフォーマットです – 長尺のビデオエッセイなど、さまざまな形式をとる可能性があります。一部の人々は本当にそれらが好きです。最適なフォーマットは、この新しいビデオ責任者に考え出してもらうことになるでしょう。
また、私たちのターゲットオーディエンスに大規模にリーチするためのマーケティング活動を主導する新しいマーケティング責任者も探しています。彼らは戦略を立て、実行し、チームを管理・構築し、最終的に年間約300万ドルのマーケティング予算を展開することになります。現在、主要なポッドキャストやYouTubeチャンネルでスポンサーシップを行っています。おそらくそのいくつかを見たことがあるでしょう。また、さまざまなソーシャルメディアプラットフォームでターゲットを絞った広告も行っています。そして、集合的に、それによって何十万人もの新しい人々が私たちのメールニュースレターに登録しました。また、8分ごとに私たちの本の1冊 – 高影響力のキャリア選択に関するもの – のコピーを郵送しています。そう聞いています。そのため、その仕事をうまく行えば、多くの人々にリーチする可能性は確かにあります。
応募は8月下旬に締め切られますので、応募したい方はどうぞお早めに。
さて、80,000 Hoursポッドキャストは、キーラン・ハリスが制作・編集しています。音響エンジニアリングはベン・コーデル、ミロ・マクガイア、ドミニク・アームストロング、サイモン・モンスールが担当しています。
完全な書き起こしと、さらに学ぶための広範なリンク集は、いつものように伝説的なケイティ・ムーアによって私たちのサイトで提供されています。
参加してくれてありがとう、また話しましょう。
コメント