スタンフォード CS153: スケールでのインフラ – Anthropic 共同創業者ベン・マンが語るフロンティア AI システムのスケーリング

14,815 文字

よろしくお願いします。今日はベンに来ていただきました。まずAnthropicの現在の規模についてお聞かせください。
具体的な数字はお伝えできませんが、Googleで検索していただければと思います。言えることは、昨年で売上が10倍になり、12月までの3ヶ月間でコーディング部門の売上が10倍になったということです。あらゆる分野で爆発的な成長を遂げており、そのトラフィックに対応するのは楽しい挑戦となっています。
これまでの経歴についてもお聞かせください。
大学で計算機科学について考え始めました。5歳からコーディングを始めたような人ではありませんでしたが、すぐに夢中になりました。当初は機械工学とロボット工学をやりたいと思っていましたが、入門クラスを取ってみたら両方とも嫌いになってしまいました。その代わりに計算機科学に魅了されました。コロンビア大学でAIコースを専攻しましたが、当時のAIは今とはかなり異なっていました。人間のように考えるシステムについて話し合っていましたが、まだ実用化には程遠く、エキスパートシステムや80年代のAIの冬、現在のモデルの原型となる多層パーセプトロンなどについて学んでいました。
その後、Googleで働き始めました。最初は経験を積んですぐに起業するつもりでしたが、スタンフォードの皆さんにとってはおなじみのパターンかもしれません。しかし新しいことを学び続けているうちに、2015年にImageNetが登場し、それは私にとって大きな転換点となりました。長年語られてきた技術が突然実用的になったのです。例えば、犬の品種を判別するような、通常は人間の判断が必要なタスクで、私よりもはるかに優れた分類性能を発揮し、しかも単一のGPUで学習できたのです。これは驚くべきことでした。
そこからAIに飛び込み、独学で学び始めました。修士や博士は取得せず、たくさんの論文を読んで理解を深めました。いくつかのスタートアップと仕事をして経験を積み、その後OpenAIに参加することを決めました。ニック・ボストロムの『スーパーインテリジェンス』という本を読み、AIは人類全体にとって重要な課題になるということを理解しました。アメリカだけでなく、あなたの学校や州だけの問題ではなく、人類が実存的に取り組まなければならない課題だと感じました。
2017年にOpenAIに参加した当時、私たちはAGIにどうやって到達するのか全く分かっていませんでしたが、AIで何かが起きつつあり、最先端に立つべきだと考えていました。当時は安全性に関するミッションを強く信じていましたが、今日では彼らがそのミッションにどれだけ忠実であるかについては疑問があります。もちろん、大きな進歩を遂げているのは確かですが。
GPT-2が登場したとき、私は「これがAGIへの道だ」と悟りました。砂漠の島で擬似エージェントが戦って知性が生まれるというのではなく、インターネット上のデータという形で世界中の知識を学習させることで、人間の知性の性質を示すようになるだろうと。多くの人々はそれを否定し、「単なるパターンマッチングで、本当の推論ではない」「人間は特別な存在だ」と言いましたが、私は当時から、今日そして明日の能力に至る連続的な発展の道筋だと信じていました。
再びOpenAIに戻り、ダリオとトム・ブラウンとともにGPT-3プロジェクトを立ち上げました。正式な研究バックグラウンドはありませんでしたが、データエンジニアリングを担当し、データが出力モデルの品質にどう影響するかについて多くの分析を行いました。トムと一緒にアーキテクチャの実験も多く行いました。私にとってそれは、スケーリング則が13桁の規模で成り立つことの確認でした。今ではさらに大きな規模になっていますが、物理的な世界でもそのような規模で持続する現象を見ることは非常に稀です。それは非常に刺激的でした。
そしてある時点で、私たちは独自の会社を立ち上げることで安全性をミッションの中核に据えることができると感じました。4年前、8人でOpenAIを離れてAnthropicを設立しました。GPT-3を開発した経験があったため、2回目はより簡単にフロンティアに到達することができました。さらに、安全性に関するブレークスルーも達成し、それが商業的にも非常に価値のあるものとなりました。これは必ずしも当然のことではありませんでしたが、この分野の他の企業も安全性へのコミットメントで私たちに追いつこうとする「トップへの競争」を生み出すことになり、それは私たちにとって重要な成果となりました。
GPT-3の時代に焦点を当ててみましょう。コンピューティングシステムのインフラストラクチャの基本要素、つまりストレージ、ネットワーキング、コンピュートについて、ムーアの法則は比較的予測可能で、過去30年ほど経験的に検証できる期間、大きな低下を見せていません。しかし、他のほとんどのコンピューティング性能指標は、最初は指数関数的に加速しても、やがてシグモイド曲線を描いて頭打ちになります。チップ間の相互接続のレイテンシー、インターネットの帯域幅やレイテンシー、CPUのパフォーマンスなどを見ても、90年代から2000年代初頭にかけて素晴らしい指数関数的な改善があり、その後頭打ちになっています。
そのため、クラウド時代のインフラのベテランたちにとって、GPT-3が最初に公開されたとき、「ああ、これも見たことがある。続かないだろう」という反応でした。多くの懐疑論がありました。あなたは伝統的な物理学のバックグラウンドも博士号もなく、むしろエンジニアリングのバイアスから「これらのシステムは頭打ちになる」と考えがちだったはずですが、そのような考えに陥らなかったのはなぜですか？
実は前提に異議を唱えたいと思います。メモリ帯域幅や他のCPU以外のシステムがシグモイド曲線を描いたという点については、他の要因がそうさせただけだと思います。例えば、高速相互接続が本当に重要になった今、より指数関数的な成長に戻っています。それらのシステムがボトルネックではなかっただけで、全体的なシステムの改善を継続させるには他の要因があったのです。
つまり、それは基礎的な研究のブレークスルーへの投資不足であって、システムの根本的な限界ではなかったということですか？
そうですね。例えば、コンピュートサービスプロバイダーは「データセンター間で30ギガビットの相互接続があり、誰もそれ以上を求めていないので、これ以上何もする必要はない」と言っていました。しかしNVIDIAがMellanoxを買収し、400ギガビットの相互接続を持つようになると、突然みんなが「より多くの相互接続が必要だ」と言い始め、相互接続の革新のペースが再び加速し始めました。
AppleのMシリーズチップを見ても、メモリ帯域幅は本当に驚くべきもので、それが従来のAMDやIntelのシリコンと大きく異なる主な要因の一つです。
スケーリング則に対する懐疑論は、主に以前のAIモデルのパフォーマンス評価で頭打ちが観察されたことから来ていたのでしょうか？なぜそれほど多くの抵抗があったと思いますか？
抵抗があったのは、人々がそれが継続すると信じられなかったからだと思います。例として、GPT-3の論文が出る直前に、GoogleからT5という110億パラメータのモデルに関する論文が発表されました。その論文の結論部分で、彼らは「スケールに対するリターンは見られない。T5でさえデプロイ不可能だ。誰もこのような推論コストをかけようとは思わないだろう」と述べていました。
人々は3億パラメータ程度のBERTパラダイムに固執していて、それが大規模とされていました。110億パラメータにスケールアップするには、データ並列処理を行う多くのアクセラレータを備えた完全なGPUボックスが必要で、経済的にもパフォーマンス的にも機能しないと考えられていました。
これは様々な分野で起きています。例えば、人間の1マイル走の最速記録について、4分の壁を破る前は不可能だと思われていました。しかし誰かが達成すると、突然みんなが達成し始めました。これをバニスター効果と呼びます。
人々が「これまで見たことがないし、起こりそうにない」と考え、保守的な世界観を持つのはよくあることです。これが一つの要因です。もう一つは、人間の認知能力に特別な何かを見出すことです。フランシス・チョレットのような人々の推論やARCプライズについて考えると、推論モデルは特別なものなのか、それとも特別にトレーニングしなければ単に弱い能力なのかという大きな疑問があります。
引き出し（エリシテーション）も、モデルの性能とベンチマークでどれだけのパフォーマンスを引き出せるかという問題の大きな部分です。
スケールすれば、十分なコンピュートを投入し、十分なFLOPSを投資すれば、安全性のような敵対的な指標でも引き出しが改善されることが明らかになり始めたとき、その障壁を乗り越えた後、どのようなシステムが夜も眠れないほど心配になりましたか？壊れるのではないかと懸念したシステムは何でしたか？
スタックのあらゆるレベルのすべてのシステムが心配でした。また、物事が速く進まなかった大きな理由の一つは、研究者とエンジニアの緊密な連携が必要だったからだと思います。
初期のDeepMindを見ると、主に研究者が主導権を握り、エンジニアは仕事を投げられるだけの存在でした。失礼な言い方ではありませんが。OpenAIでは非常に統合されており、Anthropicではさらにそうです。チームが一体となって舵を取っています。これらのプロジェクトは、三峡ダムのような巨大エンジニアリングプロジェクトのように見え始めています。一つのことに多くのリソースを投入する必要があります。
これは、DeepMindやGoogle Brainが成功に向けて設定されていなかった理由の一つです。彼らは通常、研究者がそれぞれ独自のことを行う形で組織化されており、リソースを集めて一つの大きなことを行おうとしても、誰も説得できませんでした。大きな賭けをすることができなかったのです。
一方、OpenAIや後のAnthropicでは、最初からこのような大きな賭けを行ってきました。非常にリスクが高いですが、スケーリング則の魔法は、以前は壁に投げつけて何が効くか見る芸術だったものを、より科学的なものに変えることを可能にしました。
ハイパーパラメータ、データセットの品質などのスケーリングがどのように見えるかを知っており、小規模で安価な実験を行うことで、スケールアップした時に役立つものになるという確信を得ることができます。高価なゴミになるのではなく。
それは今まで聞いたことのない比喩ですが、興味深い説明方法ですね。GPT-3を訓練していた時期と、現在の最先端のClaude 3.5 Sonnetのようなシステムを比較すると、取り組まなければならない最も困難なエンジニアリングの問題の違いは何ですか？
一つの問題は、コンパートメント化です。現在、数百人がこれらのモデルに取り組んでおり、全員が互いに調整できる必要がありますが、特定のコンピュート予算で能力を向上させる秘伝のソースである私たちのコンピュートマルチプライヤーが漏洩することは避けたいのです。そこで、アメリカの情報機関が使用しているような手法を取り入れました。例えば、一部の技術については一部の人だけが知っているようにしています。また、CPUの開発者も長年このような手法を使ってきました。誰一人としてシステム全体を頭の中で把握することはできませんが、最終的には一貫性のある成果物を生み出す必要があります。それを成功させるための方法を確立しています。
システムエンジニアリングの観点からは、私たちは自前のコンピュートを持っていないことも課題です。Amazon、Google、その他のコンピュートプロバイダーに依存して、私たちに代わってクラスターを管理してもらっています。しかし、私たちのワークロードは他のワークロードとは全く異なります。標準的なサポート範囲を超えた非常に多くのノードを持つKubernetesクラスターを使用しており、あらゆる面でこれらのシステムを限界まで押し上げています。
例えば、大規模に分散されたジョブで1台のマシンが故障した場合、迅速に再起動して進捗を失わないようにする信頼性や、すべてのスナップショットを保存し、トレーニング用のマシンにデータを送信するクラウドストレージなどです。そして今、大きな課題は強化学習です。エージェントが対話する何らかの状態を持つ環境があり、それらのエージェントは最新のモデルの重みを持っている必要があり、それを効率的に更新する必要があります。
あらゆるレベルで困難であり、新しい問題が毎日発生しています。OpenAIでも、報酬の負の符号を反転させてしまうバグがありました。モデルがトレーニングを重ねるにつれてどんどん邪悪になっているように見えました。それは選好モデルの報酬だったと思います。ある時点で、実は二重否定があったことに気づき、バグが長い間存在していたことが分かりました。修正したら壊れてしまったので、結局2回修正する必要がありました。
その出来事について詳しく教えてください。GPT-3か3.5のときでしたか？
3.5の時期には私はいませんでした。これはGPT-3についてですが、そのモデルはすでにトレーニングが終わってプロダクションにあったわけではありません。これは何らかの基礎的なテストモデルでのことでした。私たちは赤チーム評価なしにモデルをリリースすることはありません。トレーニング中にモデルが健全であることを確認するため、時間とともに迅速に評価する方法をたくさん持っています。
これらの実行について理解していただくために言えば、決して「よし、出してみよう」というような形で進めることはありません。何百もの異なる診断を常に監視して、モデルが健全で順調であることを確認しています。MLモデルをトレーニングしたことがある人なら、トレーニング分布やその他の分布での損失曲線を監視することを知っているでしょう。特に大規模モデルでは、しばしば損失のスパイクが発生します。
時には、何も変更していないのに、ロールバックしてまた前に進めると、スパイクが発生しないことを期待することもあります。スパイクが大きすぎる場合は、より深い外科的介入が必要になります。それはまさに芸術のようなものであり、まるで生命維持装置につながれた患者を見ているような、常に監視が必要な重要な作業です。
質問に戻りますが、これはプロダクションで起きたことではなく、トレーニング中に問題に気づいたということです。これは2021年の6月か7月頃のことを思い出させます。あなたの共同創業者の一人であるトムと誕生日パーティーか何かで外出していたとき、トムは神経質に何らかの監視ダッシュボードを更新し続けていました。実行を見守っていたのです。
当時は一般的なことで、ダッシュボード、アラート、監視、モニタリングはかなり脆弱だったため、文字通り誰かが実行を見守る必要がありました。それは今では変わりましたか？それともまだ各トレーニング実行、各アブレーション実行のたびにインフラチームがウォールームにいる状況ですか？監視は依然として当時と同じように脆弱なのでしょうか？
確かに、標準的なエンジニアリングの実践からたくさんのテクニックを取り入れています。オンコール体制を導入し、持続可能なものにしようとしています。さらに、世界中の人々が昼間の時間帯にいるように「フォロー・ザ・サン」ローテーションも導入し、真夜中に呼び出されてモデルの問題を解決する必要がないようにしています。
ベンには2人の子供がいるので、たくさんの類推を引き出せますね。6ヶ月の赤ちゃんと2歳の子供です。まだかなり大変です。コードを引き金にしないようにしましょう。
今日のこれらのシステムのトレーニングについて教えてください。複雑さの観点から見ると、GPT-3からは劇的に膨れ上がっています。少なくともサイズでは10桁のオーダーで大きくなっています。Claudeがどれほど大きいかは公開されていませんが、少なくともそれくらいの規模です。
モデルのサイズを10倍にスケールアップし、それに取り組むチームを10倍に拡大し、そしてプロダクションでモデルに依存する顧客の数も大幅に増えています。それは正しいですか？それは一桁のオーダーですが、実際にはどのくらいの規模になっているのでしょうか？3.5の時期にはいなかったとのことですが、おおよその桁数で、Anthropicは1年目と比べて現在どれくらい多くのユーザーの推論をサポートしているのでしょうか？
はるかに多いですね。1年目はゼロからのスタートでしたから。最初のClaudeについて話しましょう。2022年3月にトレーニングが完了したバージョンについて。ChatGPT以前のものです。当時は数千人のユーザー、友人や家族向けでしたよね。
ChatGPTが登場する前、私たちはSlackでCloudeのフレンズ&ファミリーバージョンを提供していました。人々はそれを本当に気に入ってくれました。それを世界に公開することがどういう意味を持つのか、内部で多くの議論がありました。それが時代の流れにどのような影響を与えるのか。私たちの一般的な感覚としては、それは加速を引き起こしすぎるだろうということでした。
皮肉なことに、私たちが何かをローンチしようとしているという噂を聞いてChatGPTがローンチされたという噂がありますが、それは事実ではありませんでした。しかし、世界に安全性について考える時間を6ヶ月余分に与えたことは、今でも良かったと感じています。
そのモデルについて言えば、かなり基本的なものでした。速度を上げたり使いやすくするための最適化はあまり行っていませんでしたが、Slackで使用するだけでも、フレンズ&ファミリープログラムに参加していた多くの人々の目を覚ましてくれました。テスターの一人として、あなたの印象はどうでしたか？
私たちは思い切ってリリースすべきだと思いました。それは素晴らしいものでした。私は2020年末にAnthropicの最初の投資家の一人になる特権を得ました。あなたとダリオとトムから電話があり、「OpenAIを離れてAnthropicを始めたい」と言われました。
私は「いいですよ。最初のマイルストーンまでにどれくらいの資金が必要だと思いますか？」と尋ねました。ダリオは躊躇することなく「5億ドル」と答えました。私は「それは時間がかかりそうですね」と思いました。最初のトレーニング実行を、同等のレベルに到達させるまでにどれくらいかかると思いますか？
オープンソースの重みを初期化に使用できるかどうかについて議論がありました。当時はMegatron 530Bが候補の一つでしたが、そのレベルに到達するまでの最も近い見積もりでも、少なくとも7〜9ヶ月はかかると考えられていました。
しかし、あなたたちはそれよりもはるかに早くトレーニングを完了し、モデルは非常に一貫性がありました。Slackのボットを使用した際の最初の印象として、GPT-2.5は薬物中毒の友人のようでした。楽しいけれど、本当に持続的で一貫性のある会話はできませんでした。
一方、Claudeは明らかに、キャラクターを維持し、役立つ無害なアシスタントであるという障壁を超えていました。それは実際にシステムプロンプトだったのでしょうか？それは意図的に設計されたものでしょうか？それをどのように実現したのですか？
いくつかの要因があると思います。一つは、モデルの品質が向上すると、自然に一貫性が高まるということです。GPT-2を使用したことがある人はいないかもしれませんが、小規模なモデルでもこのような振る舞いを示します。文から文へと流れを失ったり、温度を低く設定すると同じことを繰り返し始めたりします。GitHub Copilotで文章を書こうとすると、頻繁にこれが起こります。
つまり、一つには私たちはより良いモデルを持っていたということです。もう一つは、当時の最先端は指示チューニングでした。これは通常、単一ターンのインタラクションです。単一ターンを超えると、より対話的なやり取りになり始めます。モデルは「分布外」と呼ばれる状態になり、トレーニングで見たことのない状況に混乱し、パフォーマンスが急激に低下します。
私たちのトレーニング実行では、非常に早い段階から人間のフィードバックを収集し始めました。そのフィードバックは常に最初からマルチターンでした。与えたプロンプトは、初期のある種のシステムプロンプトでしたが、別の対話でした。すでにこの振る舞いをモデル化しようとしていました。
モデルが改善され、人間から得たフィードバックをトレーニングプロセスに迅速に組み込み、それらをインターフェースに戻すという形で、ある種の循環的な方法で上へ上へと進んでいくにつれて、長い会話での一貫性を維持することがどんどん上手くなっていきました。
それは、あなたたちがOpenAIでパイオニアとなったRHF（強化学習からの人間フィードバック）でしたね。ちなみに、RHFについて知っている人はどれくらいいますか？OK、では説明は省略しましょう。
最後の質問です。それはRHFの最初のイテレーションでしたが、なぜシステムの観点からそこからRAIFに移行したのでしょうか？また、この会場の皆さんのために、その意味のある違いを説明していただけますか？
RHFでは、人間に選好を提出してもらい、その選好を使って選好モデルをトレーニングします。そのモデルは強化学習中に人間の代わりとなり、特定の出力が良いか悪いかを判断します。教師が生徒を教えるようなものだと考えることができます。生徒は最終的に見ることになるモデルです。そして教師は終わったら優しく捨てられます。
RAIFは全く異なります。これは私たちが憲法AIと呼んでいるもので、エージェントにどのように振る舞って欲しいかを定義する自然言語の原則のセットを書きます。例えば、「親切であれ」「共感を示せ」「サイバーセキュリティ攻撃を書くな」「毒物のレシピを作るな」などです。
そして、人間が介在しない完全に閉じたプロセスの中で、モデルに自身を批評させ、その批評に基づいて自身を更新させます。このプロセスは、人間は異なるバックグラウンドを持ち、指示の解釈が異なる可能性があり、すべての指示を覚えていない可能性があるため、より制御しやすいものです。
RHFは、科学的なプロセスとして非常に再現可能で、実験室の設定で反復できるものです。正確に望む出力を得るために微調整することができます。しかし、これは一定の能力の閾値を超えて初めて可能になります。モデルが小さすぎると、「このサンプル出力で原則Xに従いましたか？」と尋ねても良い答えを得られず、それに応じて修正することもできません。しかし、十分に強力なモデルであれば、より高い能力レベルに自己改善し、さらに再帰的に自己改善を続けることができます。
これが重要だと思われる理由は、ソフトウェアエンジニアの皆さんの多くが、フロンティアにどのように貢献できるのか疑問に思っているからです。ベンがRAIFのパイプラインについて話すのを聞いて、それが研究の課題だけでなく、エンジニアリングの課題でもあることが明確になったはずです。Anthropicが、エンジニアにとって素晴らしい活躍の場となるよう努めてきた大きな理由の一つは、根本的なコンピューティングとインフラの課題が、単なる研究のためだけではないということです。
自由に繰り返していただいて構いません。
はい、ケビン・ルースとのインタビューについて言及されていますね。1、2年前のAnthropicのAI安全性に関する見解についてのインタビューだったと思います。タイトルは確か「サンフランシスコのAI終末論者」といったものでした。質問は、AIシステムのトレーニングで起こり得る、実際に起こっている問題について私たちが認識しているということに関して、その評価をどのように行い、新しい問題をどのように予測するのかということでした。
良い質問ですね。評価は非常に難しいです。実は評価が難しい理由について詳しく説明したブログ記事もありますが、簡単に言えば、私たちは常に評価を改善しようと努めています。評価の方針は公開しており、責任あるスケーリングポリシーの中で、どのように評価を行っているかを説明しています。文書を見ていただければわかります。
私たちが最も重視しているのは、CBRN（化学、生物、放射性物質、核）のリスクです。これらは、モデルがこれらの能力を持っていた場合、社会を大きく不安定化させる可能性があるものです。また、サイバーセキュリティの能力なども注目しています。
サイバーセキュリティ企業からペネトレーションテスターを雇うこともできますが、私たちは雇用することができない人々、つまり米国政府で働き、国家の核の機密を知る人々とも協力して、モデルからこれらの能力を引き出す作業を行っています。
とはいえ、引き出しのオーバーハング（elicitation overhang）という問題があります。これは、モデルに潜在的な能力があっても、その能力を引き出す特別な方法がまだ知られていない可能性があるということです。
例として、最近登場した思考連鎖（Chain of Thought）があります。モデルに「思考プロセスを段階的に示してください」と頼むと、モデルの出力が劇的に改善されます。「本当に本当に本当に頑張ってください」というような単純な言葉でも、すべての「本当に」が実際に重要で、この研究が行われた当時はモデルの出力を改善していました。
これは常に進化する科学です。米国と英国のAI安全性研究所と協力していますが、これは非常に難しい問題で、より多くの人々が考える必要があります。評価のような分野では、実は学術機関が最も貢献しやすい場の一つだと思います。多くのリソースがなくてもモデルの能力を把握することができます。
最近登場したOS-Worldのようなベンチマークを見ると、キーボードとマウスを使用してデスクトップコンピュータを操作する能力が、多くのモデルプロバイダー間でどの程度あるのかを再現可能な形で理解することができます。これ自体はリスクではありませんが、サイバー攻撃などのリスクを示唆する可能性があります。
私たちはこれを非常に重視しており、多くの時間を費やして考えています。また、多くの時間を費やして考えている人々とも協力しています。しかし、より多くの頭脳が必要です。どうか協力してください。
もっと直接的にあなたの質問に答えると、私の知る限り、AnthropicはRSP（責任あるスケーリングポリシー）を使用して能力の閾値に基づいて開発を一時停止することを約束している唯一のラボです。他のフロンティアラボでそのような約束をしているところはまだないと思いますが、それは正しいですか？
はい、具体的に私たちが約束していることは、各AI安全性レベル（ASL）には、事前に文書化して約束した特定の緩和策のセットが必要だということです。例えば、ASL3は次のレベルですが、基本的にはモデルが生物学的脅威を自力で作り出したり、それを研究しようとしている人間研究者を限定的に加速させたりする能力を持っているものの、必ずしもこれらのことに超人的な能力を持っているわけではない、というような状態です。
モデルがこれらの基準を満たす場合、特定の管理を行う必要があります。例えば、コードのコミットには2者管理が必要です。つまり、一人でAnthropicの本番環境を変更することはできず、少なくとも他の一人がその行動をレビューする必要があります。これは内部脅威のリスクなどに対処するのに役立ちます。
これにより、私たちは自身の金銭的やその他の市場インセンティブに操られて、安全でないと考えることを行うことがないという安心感を持つことができます。他の企業もこれを約束しているかもしれませんが、少なくともフロンティア企業はそうではないかもしれません。私は専門家ではありませんが。
Anthropicのもう一つのユニークな点は、LTBTというガバナンスメカニズムを持っていることです。これは、監督委員会が人類にとってネットでポジティブな方法でAIを開発していないと判断した場合、会社を閉鎖することができるものです。これについては読み物を送ることができますが、私の知る限り、Anthropicは公開のLTBTガバナンスを設定している唯一のラボのままです。
質問がありました。フロンティアモデルをローカルで実行できるようになった今、それはAnthropicの将来の方向性にどのような影響を与えますか？
フロンティアは常にデータセンターレベルのコンピュートでしか実行できず、ローカルで実行できるものは数年遅れになると思います。これはすでにLLaMAモデルで見られています。300BのLLaMAをマシンで実行できましたし、EXAのような企業は2台のマシンをネットワーク接続して最大のモデルを実行するデモを行っていました。
もちろん、量子化の改善や縮小は常に進んでいるので、ローカルでどのような能力が得られるかという観点では、常に向上していくでしょう。しかし、私たちが最も関心を持っているのはフロンティアです。特に安全性の観点からです。
私たちがフロンティアに留まることが重要な理由は、安全性の技術を最先端のAIモデルと、これから5〜10年後に登場するモデルに適用できるようにしたいからです。その観点から先行できている限り、大規模なモデルを安全にする方法を、できる限り皆に示すことができます。以前は多くの人が不可能だと考えていたことです。
その質問の派生として、大規模な事前学習時代の大きな部分は、より大きな単一スパインのデータセンターへのアクセスを持つことでした。単一のスパインで、より多くのGPUを相互接続できるようにして、単一のトレーニング実行を行うことができます。これは推論のスケーリングでも同じように続くと思いますか？
推論は明らかに相互接続をそれほど必要としません。コンピュートをより広く分散させることができます。長期の思考連鎖を使用する強化学習トレーニング実行の推論スケーリングについては、単一スパインでワークロードを実行する方が有利でしょうか？
まだわかりません。事前学習は非常に効率的で、かなり遠くまで到達できます。事前学習が消えることはないと思います。強化学習のみの実行を試みる実験もありますが、それでも蒸留を使用しています。これは教師あり学習の一形態なので、ワークロードの観点からはそれほど異なりません。
強化学習で何が起こるかは、まだ分かりません。多くの企業やオープンソース組織が、完全な勾配ではなく単一ビットの更新を行うことで、マシンの巨大な分散ネットワークに事前学習をスケールしようとしています。その傾向はすでに起きています。巨大なデータセンターを手に入れるためにお金を使うことと比べて、それらが競争力を持つかどうかは、まだ誰にもわかりません。
確かに、経済的なインセンティブはありますね。
質問がありました。安全なAIをどのように定義し、それを実現するメカニズムは何ですか？
安全なAIとは、まず第一に人類に壊滅的な害を与えないAIです。そしてよりミクロなレベルでは、あなたが言ったことではなく、あなたが望むことを行うAIです。これらのエージェントがより強力になるにつれて、おとぎ話の魔神のような願いの歪曲は避けたいところです。
今日のモデルについて言えば、ASL2として定義しています。これは、モデルに無制限にアクセスでき、十分にアライメントされていなくても、社会に大きな害を及ぼすことはないというレベルです。例えば、私たちのコンピュータ利用に関する機能が登場する前でも、モデルはCAPTCHAを破るのが得意でした。しかし、すでに他の技術や、より狭い範囲のモデルがCAPTCHAを破ることができたため、LLMがそれを行える限界リスクはそれほど高くありませんでした。
しかし、自動化されたサイバー攻撃などができるようになると、リスクは増大します。そのため、これらのAI安全性レベルを定義しています。それを防ぐメカニズムとして、セキュリティから来る多層防御の考え方を持っています。モデルを安全にしようとする単一のシステムではなく、あらゆる層で安全性を組み込んでいます。
事前学習と事後学習で安全性トレーニングを組み込み、悪いことをしようとしているかどうかを検出しようとするオンライン分類器（Prompt Shield）を持っています。スケーラブルな監視を行うための新しい技術も日々開発しています。
私が最も興味を持っているのは解釈可能性です。メカニスティックな解釈可能性が私たちが最も推進している方向性です。その考え方は、モデルが出力するトークンだけでなく、モデル内部でそれらの概念がどのように形成されているかを覗き見ることができれば、モデルが何をしているかを監査し、リソースの備蓄や停止耐性など、極めて強力なモデルの場合に防ぎたいことを試みていないことを確認できるはずだということです。
メカニスティックな解釈可能性では、かなり良い進展が見られています。まだ初期段階ですが、クリス・オラと彼のチームが一から作り上げているこの分野は、非常に困難ですが、何が起きているのかを理解し始めています。おそらく、これが私の最大の希望です。
もう一つ質問の時間がありそうです。質問は、大規模な基盤モデルの作成についてどのように考えているか、そしてAPIとチャットの提供の違いは何かということです。
作成に関しては、本当に多くの異なる側面があり、まさに芸術です。アマンダ・アスケルとスチュアート（姓は思い出せません）とのポッドキャストで、Claudeのキャラクター作りについて話しました。拒否する場合でも、共感を示し、望む答えは与えられなくても、考えるヒントを提供できるかといった細かい部分についてです。
非常に広い質問なので答えるのが難しいですが、2番目の質問、つまりチャット体験とAPI提供の違いに焦点を当てましょう。チャット体験の方が、私たちがあらゆる側面を制御できるので、開発が速く進められます。何かを変更したり取り下げたりする必要がある場合、一方的に行うことができます。
一方、APIについて、以前Stripeにいた同僚が「APIは永遠だ」と言っていました。APIをリリースすると、そのAPIに依存する企業やパートナーが出てきます。変更すると彼らは困り、破壊的な変更になる可能性があります。
Claude 1やClaude 2のモデルを廃止するのにも非常に時間がかかりました。Claude 2は他のすべてのモデルよりもはるかに性能が劣るにもかかわらず、まだどこかで本番環境で稼働しているのは驚くべきことです。しかし、企業にとって最新かつ最高のものを使用することよりも、ビジネスの継続性や、エンジニアリングリソースの制約の方が重要な場合もあります。
これが両者の大きな違いであり、また、チャット体験を、特定の体験が良いか悪いかを理解した後で、開発者により多くの力を与える方法として考えています。例えば、APIでPDFをアップロードできるようになりましたが、チャット体験ではずっと前からその機能がありました。
開発者がClaudeでより簡単に作業できるようにしたかったのです。コンテキストの提供は最も重要なことの一つであり、時間とともにチャット体験を他の開発者に公開する機能のプルービンググラウンドとして使用し続けると思います。
ありがとうございました。ここにいられて良かったです。