Claude 4はどのように考えるか – ショルト・ダグラス & トレントン・ブリッケン

59,590 文字

How Does Claude 4 Think? – Sholto Douglas & Trenton Bricken

New episode with my good friends Sholto Douglas & Trenton Bricken. Sholto focuses on scaling RL and Trenton researches m...

さて、再び友人のショルト・ブリッケン… 待って、今回もこれをやったか？前回と同じことをやってる。いや、違う名前で呼んだけど、ショルト・ブリッケンとトレントン・ダグラスじゃなかった。君たちを間違えたんだ。ショルト・ダグラスとトレントン・ブリッケンで、今は二人ともAnthropic所属だ。よし、始めよう。ショルトは強化学習のスケーリングに、トレントンは依然としてメカニスティック解釈可能性に取り組んでいる。
お帰りなさい。来られて嬉しいです。楽しいね。昨年から何が変わった？基本的に2024年のこの月に話したよね。そう。今は2025年だ。何が起こった？
そうですね、最も大きな変化は、言語モデルにおける強化学習がついに機能したことだと思います。適切なフィードバックループが与えられれば、専門的な人間の信頼性とパフォーマンスを与えてくれるアルゴリズムの証明がついに得られました。
これが決定的に実証されたのは、基本的に競技プログラミングと数学においてだけだと思います。この二つの軸を考えてみてください。一つはタスクの知的複雑さ、もう一つはタスクが完了される時間軸です。私たちは多くの次元において知的複雑さの頂点に到達できるという証明を持っていると思います。
まだ長期にわたるエージェント的パフォーマンスは実証していません。現在その第一歩を見ており、基本的に年末までにはもっと決定的な証拠を見るはずです。実際のソフトウェアエンジニアリングエージェントが実際の作業を行うということです。トレントン、君は現在これを実験していると思うが？
ええ、その通りです。現在人々が見ることができる最も公開された例は、ClaudePlaysPokemonです。それが苦労しているのを見るのは、ある意味では痛ましいですが、各モデル世代がゲームをより先まで進めています。これは何よりもメモリシステムを使用できることの限界のように見えます。昨年の予測を記録していたらよかったのに。
今年は絶対にやるべきですね。私たちを責任を持って見守ってください。その通りです。昨年の時点で、エージェントがこれほどまでに強力になると言っていましたか？
ソフトウェアエンジニアリングについては、私が期待していた通りの軌道だと思います。コンピュータ使用についてはもう少し優れていることを期待していたと思います。しかし、その理由はすべて理解しており、それが解決される軌道にあると思います。これは一種の一時的な空白に過ぎません。
来年の私の予測について責任を持ってもらうとすれば、今年末から来年の今頃までには、ジュニアエンジニアの一日分の作業、または数時間の非常に有能で独立した作業に近いことができるソフトウェアエンジニアリングエージェントを持つことになると本当に思います。
そうですね、私もその通りだと思います。ただし、分布はかなり不均一で、定型的なウェブサイトコードなどの一部のタスクについては、すでにそれを叩き出して丸一日節約できます。
そうですね、まさにその通りです。昨年、君はそれらを阻んでいるものは信頼性の追加の9が原因だと言ったと思います。ソフトウェアエージェントが丸一日の作業をできないが、数分の手助けはできるという状況で、それを阻んでいるのが本当に追加の9なのか、それとも他の何かなのか、まだそのように説明するかわかりません。
振り返ってみると、そこでの私の説明は恐らく彼らを制限しているものではなかったと思います。現在見ているのはより近いものです：コンテキストの不足、複雑で非常に多ファイルの変更を行う能力の不足… ある意味では、タスクの範囲です。彼らは範囲が限定された問題で、焦点を絞ったコンテキストにおいて高い知的複雑さに対処できます。何かがもう少し曖昧だったり、環境との多くの発見と反復を必要とするとき、こうしたことで彼らはより苦労します。
彼らを阻んでいるものを次のように定義するかもしれません。あなたが望むことに対して良いフィードバックループを与えることができれば、彼らはかなり得意です。できなければ、少し苦労します。
聴衆のために、強化学習などで何が起こっているかを知らない場合、このフィードバックループについてもう少し説明していただけますか？
はい、これが昨年実際に機能した大きなことです。広く言えば、この領域は検証可能な報酬からの強化学習、またはこのようなもので、クリーンな報酬信号を持つと呼ばれています。
言語モデルの最初の足枷を外すことは、人間のフィードバックからの強化学習でした。通常、これはペアワイズフィードバックのようなもので、モデルの出力は人間が望むものにより近くなりました。
これは必ずしも彼らの任意の難易度や問題領域でのパフォーマンスを向上させるわけではありません。特に、人間は実際にはより良い答えが何かの悪い判断者です。人間には長さバイアスなどがあります。モデルの出力が正しかったかどうかの、かなり真実に近い信号が必要です。
数学問題の正解や、単体テストの合格などがあります。これらは非常にクリーンな報酬信号の例です。ちなみに、これらでさえハックされる可能性があります。単体テストでさえ、モデルは特定の値をハックしてハードコードする方法を見つけます。実際のテストが何をしているかを把握できれば、キャッシュされたPythonファイルを見て実際のテストが何かを見つけることができれば、それを回避しようとします。
これらは完璧ではありませんが、はるかに近いです。なぜソフトウェアエンジニアリングが他のすべてよりもそれほど優れているのでしょうか？部分的には、ソフトウェアエンジニアリングは非常に検証可能だからです。この方法に自然に適した領域です。
コードはテストに合格しますか？実行さえしますか？コンパイルされますか？そう、コンパイルされますか？テストに合格しますか？LeetCodeに行ってテストを実行し、正しい答えを得られたかどうかがわかります。素晴らしいエッセイを書くことに同じような種類のものはありません。それには…その点での味の問題はかなり困難です。
先日の夕食で、ピューリッツァー賞について話しました。どちらが先に来るか、ピューリッツァー賞受賞小説かノーベル賞か、このようなものです。実際、ある意味では、ノーベル賞の方がピューリッツァー賞受賞小説よりも可能性が高いと思います。ノーベル賞を受賞するのに必要なタスクの多く、または少なくともノーベル賞受賞の支援に強く貢献するタスクには、より多くの検証可能性の層が組み込まれているからです。
彼らがピューリッツァー賞に値する小説を書く過程よりも、最初にノーベル賞受賞の仕事の過程を加速することを期待します。私たちが14か月前に前回録音した時点に戻ると、信頼性の9が私には正しく思えました。その時はClaude Codeもなく、Deep Researchもありませんでした。私たちがしたのはチャットボット形式でエージェントを使うことだけでした。
そうです。コピーペースト、コピーペースト、コピーペースト。まったくその通りです。私たちはテキストメッセージやGoogleを使うかどうかにかかわらず、チャットインターフェースに非常に慣れています。エージェントが実際に自分のコンテキストを取得し、自分のメモリシステムに事実を保存できるというのは奇妙に思えます。私はまだそれが信頼性の9だと思います。モデルを正しく足場を組むか、プロンプトすれば、平均的なユーザーが想定するよりもはるかに洗練されたことができます。
私の友人の一人、Future Houseを手がけるサム・ロドリゲスは、彼らが特許を申請中の新薬を発見しました。このエピソードが公開される頃には、それが公開されているでしょう。LSD v2？待って、本当？いや、彼らはLSDを作っているわけではありません。しかし、人々はモデルが創造的になったり、新しい科学を行ったりできるとは思っていませんでした。
これは単にスキルの問題のようです。待って、それは薬を発見したの？どうやって？分子をワンショットで？これは単なる会話でした。完全な発表を参照する必要がありますが、私の印象では、それは大量の医学文献を読み、ブレインストーミングし、新しい繋がりを作り、そして人間が行った実験を提案することができたということです。
その反復を通じて、彼らはこの新しい化合物が本当に興奮するようなことをするということを検証しました。私が聞いたもう一つの批判は、LLMが創造的な長編の本を書けないということです。私は少なくとも二人の個人を知っています—おそらく匿名を希望するでしょうが—LLMを使って長編の本を書いた人たちです。両方の場合において、彼らは単にモデルの足場を組み、プロンプトすることが非常に得意なのだと思います。
バイラルになったChatGPTのGeoGuessr能力でさえ、写真からあなたがいたビーチを見つけるのが非常に得意です。これをバイラルにしたと思うケルシー・パイパーの彼らのプロンプトは非常に洗練されています。それは本当に長く、5つの異なる仮説を考え、それらに確率を割り当て、画像の重要なさまざまな側面を推論することを奨励します。
A/Bテストはしていませんが、モデルにこれほど思慮深くなることを本当に奨励しなければ、その能力で見るレベルのパフォーマンスは得られないと思います。
あなたは人々がモデルの出力を制約して分布の良い部分を得る方法を持ち出しています。o3のようなモデルの成功を使って、これらの推論モデルから新しい能力を得ていることを示唆することについて聞いた批判の一つは、これらすべての能力はすでに事前訓練モデルに組み込まれていたということです。
清華大学の論文があったと思いますが、そこでは基本モデルに十分な回数質問に答える機会を与えれば、推論モデルと同じくらい良く質問に答えることができることを示しました。基本的に正しく答える確率が低いだけです。モデルが質問に答える際に探索する可能性を絞り込んでいるのです。
この強化学習訓練で実際に新しい能力を引き出しているのか、それとも単にそれらに目隠しをしているだけなのでしょうか？
そうですね、これの大理石を彫り出すようなものです。その論文は、確か、LlamaとQwenモデルについてだったことを指摘する価値があります。どのくらいの強化学習計算を使ったかはわかりませんが、基本モデルで使われた計算量に匹敵するものではなかったと思います。
訓練で使用する計算量は、モデルに追加する実際の生の新しい知識や能力の量のまともな代理です。DeepMindの以前のすべての強化学習研究を見ると、強化学習は、十分にクリーンな強化学習信号が提供されれば、これらの囲碁やチェスをプレイするエージェントに人間レベルを超える新しい知識を教えることができました。
ニューラルネットワークに新しい知識を注入することを妨げる、アルゴリズムについて構造的に制限するものは何もありません。十分な計算を費やし、正しいアルゴリズムを持つことの問題に過ぎません。
なぜあなたたちはすでにこれにもっと多くの計算を費やしていないのですか？ダリオが数か月前の輸出規制についてのブログ投稿で言ったと思いますが、「ああ、DeepSeek、まあ何でも。私たちは強化学習に100万ドルしか使っていない」みたいな。「私たちはまだ強化学習の計算制限体制にはないが、すぐにそうなるだろう。」あなたたちは基本モデルに数億ドルを費やしています。なぜ強化学習には100万ドルしか注文しないのですか？
宇宙ミッションをいつ打ち上げるかを選ぶ際の寓話を知っていますか？技術ツリーをさらに上に行ってから打ち上げるべきです。なぜなら、後で打ち上げれば船はより速く行き、この種のことができるからです。それと非常に似ていると思います。
アルゴリズム的に正しいものを得ていることを確認し、それから賭けをして大きな計算支出を実際に行うとき、それが実際に成果を上げるようにしたいのです。正しい計算効率などを持つことになります。この点で強化学習は事前訓練とは少し異なると思います。強化学習はより反復的なものになり得ます。
基本モデルに段階的に能力を追加しています。事前訓練では、多くの点で、実行の途中でそれを台無しにした場合、本当に台無しにしたことになります。それが主な理由だと思います。人々はまだ正確に何をしたいかを把握しているところです。o1からo3へ、OpenAIはブログ投稿でo1に対して10倍の計算乗数だったと述べました。
つまり、明らかに彼らは一つのレベルの計算に賭けて、「よし、これは良さそうだ。実際にリリースしよう。そこに出そう」となりました。そして次の数か月をかけて、それに費やす計算量を増やしました。現在、他の皆も強化学習をスケールアップしているので、基本的にこれがかなり長い間真実であることを期待していません。
リスナーのために、事前訓練と強化学習の両方で勾配降下ステップを行っています。信号が異なるだけです。通常、強化学習では報酬がよりまばらなので、複数のターンを取ります。「チェスゲームに勝ったかどうか」が得られる唯一の信号のようなものです。
しばしば離散的なアクションを通じて勾配を計算することができません。そのため、多くの勾配信号を失うことになります。事前訓練の方が効率的だと推定できますが、強化学習で新しい能力を学習できない理由はありません。実際、事前訓練の次のトークン予測タスク全体を何らかの奇妙な強化学習バリアントで置き換えて、すべての学習を強化学習で行うこともできます。
そうですね、最終的には信号があり、それを修正するだけです。まったくその通りです。あなたが言及した論文に戻ると、ショルトが持ち出した注意事項は別として、それが一次的で最も重要だと思いますが、有意義な行動の確率空間に絞り込むことは信頼性の9に戻ります。
古典的に、猿にタイプライターを与えれば、最終的にはシェイクスピアを書くでしょう。私たちが気にかける現実世界のタスクのための行動空間は非常に大きいので、モデルが合理的なことをすることに集中することを本当に気にかけます。あるパスで「トークンスペースがある」という程度まで…
そうですね、文字通り猿がいて、最終的にシェイクスピアを作っています。チェスの類比は興味深いです。申し訳ありませんが、何か言おうとしていましたか？
ああ、学習するためには時々報酬を得ることができる必要があるということを言おうとしていました。それがある意味で複雑さです。アルファバリアント—おそらくあなたがこれを言おうとしていたでしょうが—では、一人のプレイヤーが常に勝つので、いずれにしても常に報酬信号を得ます。
私たちが話している種類のことでは、時々タスクで実際に成功する必要があります。今、言語モデルは幸運にも、私たちが気にかけるタスクに対してこの素晴らしい事前分布を持っています。2017年のすべての古い論文を見ると、学習曲線は常に平坦、平坦、平坦に見えます。世界の基本的なメカニズムを理解している間です。
簡単な報酬を利用することを学ぶにつれて、このスパイクアップがあります。それはある意味でシグモイドのようなものです。それからゲームを完全に最大化することを学ぶにつれて、無期限に続きます。LLMの曲線は少し異なって見えると思います。最初にデッドゾーンがないという点で。彼らはすでに基本的なタスクのいくつかを解決する方法を知っています。
この初期スパイクを得ます。これは人々が「ああ、一例から学習できる」と言っている時のことです。その一例は、バックトラッキングを引き出し、答えを正しくフォーマットすることを教えているだけです。この種のもので、事前訓練知識に条件付けられたタスクで最初にいくらかの報酬を得ることができます。
残りはおそらく通常のことを学習しているのでしょう。それは本当に興味深いです。AlphaGoが大量の計算を要したことを指摘して、強化学習が迅速な勝利をもたらすことに懐疑的だったり批判的だったりする人々がいることを知っています。2017年に訓練されたシステムの場合は特にそうですね。
それは曲線から外れています。それが主に何かを得るためだった程度は、囲碁で超人間的になる前に、いくらか合理的な偏見を持っていなければならなかったからです… 実際、AlphaGoで使用された計算のうち、何らかの合理的なものを得るためだけの割合はどれくらいだったかを見るのは興味深いでしょう。
そうですね、興味深いでしょう。事前訓練から強化学習への地図を本当に明示的にするために、事前訓練中、大型言語モデルは、例えば5万トークンの語彙の次のトークンを予測しています。その後、真のトークンに割り当てる確率の量に対して報酬を与えます。
報酬として考えることもできますが、それは非常に密な報酬で、すべての単一トークンで信号を得ており、常に何らかの信号を得ています。そのトークンに1%またはそれ以下しか割り当てなかったとしても、「ああ、1%を割り当てたのがわかります。よくやりました。それを続けてください」という感じです。
そうですね、それを上方修正します。そう、まさにその通りです。勾配での引っ張りのようなものです。その通りです。人間の学習方法について考えると、これらのモデルが失敗から信号を得ないことはかなり異なるようです。数学問題を解こうとして失敗した場合、実際には抽象的に数学について学習するよりもしばしばさらに有用です。なぜなら…
ああ、そうは思いませんか？フィードバックを得た場合のみです。
そうですね、フィードバックを得た場合のみです。実際に自分自身にフィードバックを与える方法があると思います。失敗して、どこで失敗したかに気づきます。時々、フィードバックを得た場合のみだと思います。人々は新しい数学を理解し、どこかで行き詰まったという事実によってそれを行いました。「なぜここで行き詰まっているのか？これについて考えてみよう。」
最前線で何が起こっているかはわかりませんが、DeepSeekか何かからのオープンソース実装を見ると、失敗した後、失敗した特定の方法から学習し、次により良いことをするためにバックトラックするという意識的なプロセスはありません。純粋な勾配降下だけでは、それが大きな制限になるのか疑問です。
わかりません。学部課程を思い出すだけです。何かを証明しようとして、本当に長い間暗闇の中をさまよい回っていました。それから完全に手を上げて、TAに話しに行く必要があるかもしれません。TAと話すときだけ、異なる解決法の道筋のどこで間違っていたか、そして正しくすべきことが何だったかを見ることができます。
それは最終的な答えを知っている場合ですよね？他の場合、新たに答えを出すために闇雲に撃っているだけなら、何かを学ぶのは本当に困難です。人間の例に再び対応させようとしているのだと思いますが、より単純な言葉では、私たちが最適化しているこの種の意識的な中間補助損失があります。
それは非常に自意識的なプロセスです。数学は忘れてください。仕事をしているなら、上司から非常に明確なフィードバックを受けています。それは必ずしもタスクをどのように異なって行うべきかではありませんが、何を間違えたかの高レベルな説明で、事前訓練が重みを更新する方法ではなく、より…わかりません。
ここには多くの暗黙的な密な報酬信号があると思います。そう、まさにその通りです。マネージャーとの週次1対1や、オープンで働くことを奨励されることのようなものです。宿題の課題でさえ、非常に足場が組まれています。常に10問がサブコンポーネントに分解され、最も困難な問題はすべてを自分で行う必要があるものかもしれません。
それでは大きな質問は、モデルに理解してもらいたいすべての単一スキルに対して、これらの足場、これらの構造、これらの特注環境を構築する必要があるのでしょうか？そうすると、これらのサブスキルを研磨するのに10年かかることになるのでしょうか？それとも強化学習を使って新しいスキルを学習するより一般的な手順があるのでしょうか？
ここでは効率性の問題です。明らかに、すべてのトークンに対して密な報酬を与えることができれば、教師ありの例があれば、それは持てる最高のもののうちの一つです。多くの場合、すべてのことを行うためのすべての足場付きカリキュラムを作成するのは非常に高価です。
博士課程の数学学生に学生を採点してもらうことは、開発に焦点を当てて選んだ厳選された学生の集団に対してのみ余裕があるものです。世界中のすべての言語モデルに対してそれを行う余裕はありません。第一歩は、明らかに、それが良いということです。しかし、あなたは足場にどれだけ喜んで費やすかと、純粋な計算にどれだけ喜んで費やすかのパレート最適化をすることになります。
他にできることは、猿にタイプライターを叩かせ続けることです。十分に良い最終報酬があれば、最終的には道を見つけるでしょう。どこにどのような足場を置くかについては正確には話せません。異なる人々、異なるタスクが異なる点にあると思います。その多くは、正しいことを行うことに対してどれだけ強い事前分布を持っているかに依存します。しかし、それがあなたが最適化している方程式です。
「足場を与えるため、または報酬を与えるために、人々の時間にどれだけドルを燃やすことを喜んでするか対、計算をどれだけ燃やすことを喜んでするか」という感じです。
興味深いです。LLMに対してはこれをしないが、人々に対してはすると言いますが、モデルでのスキルの訓練コストをすべてのコピーに償却できるという理由で、経済的論理は反対方向に流れるだろうと思います。
ある程度まではLLMに対してもこれを行っています。しかし、ここで最大化している方程式があります。「よし、このお金をすべて調達した。この軸に費やすか、この軸に費やすか？」現在、企業は人間よりも計算により多く費やしています。そうでなければ、Scale AIの収益は100億ドルのようになるでしょう。
見てください、NVIDIAの収益はScale AIの収益よりもはるかに高いです。現在の方程式は計算対データで、それは時間とともに何らかの方法で進化するでしょう。
そうですね、興味深いです。それがどのように進化するか気になります。人間が仕事を学習する方法について考えてみると、彼らは配置され、ただ仕事をして、学習します。
これらのモデルが訓練される方法は、すべてのスキルに対して非常に特注の環境を与える必要があるということのようです。もし人間が訓練される方法で訓練されるなら…
職場で。そう、まさにその通りです。そうすると実際に非常に強力になるでしょう。なぜなら誰もが異なる仕事を持っているが、同じモデルがあなたが得ているすべてのスキルを集積できるからです。
わかりませんが、私は過去数年間ポッドキャストをやってきました。より良いポッドキャスターになっています。あなたにはAI研究をするというもう少し価値のあるスキルがあります。それについてはわかりませんが。モデルが私たち両方の仕事をできることを想像できます。モデルのコピーが私たち両方の仕事をしているからです。
これはより苦い教訓に沿っているようです。特定のタスクのためのデータを得るのに数十億ドルを費やすのではなく、モデルに世界で学習させるということです。
特定のタスクを人間にどれだけ見せる必要があるかを当然のこととらえていると思います。そして、ここには汎化の失敗があります。もし私が突然あなたに新しいソフトウェアプラットフォーム、例えばPhotoshopを与えて、「よし、この写真を編集して」と言ったら… Photoshopを使ったことがなければ、ナビゲートするのは本当に困難でしょう。すぐにオンラインに行って、他の誰かがそれをするデモを見て、それを模倣できるようになりたいと思うでしょう。確実にモデルにはすべての単一タスクでその量のデータを与えています。
これが最初のことです。もう一つは、私たちはまだ人間の脳のサイズよりもはるかに小さいということです。モデルを大きくすると、より少ないデモでより効率的にサンプル学習することがわかっています。最近のマーク・ザッカーバーグとLlamaとのポッドキャストでさえ、それは2兆パラメータモデルのようでした。人間の脳には30兆から300兆のシナプスがあると推定しています。一方から他方への正確なマッピング方法はわかりませんが、有用な背景文脈だと思います。
人間の脳よりもまだ小さい可能性が非常に高いと思います。OpenAIからの4.5リリースでさえ、それがより大きなモデルだと言われましたが、人々はその執筆能力やこの種の大きなモデルの匂いについて話すでしょう。これは知性やより深いプールへの汎化能力を示すこの種のことです。
重ね合わせに関するすべての解釈可能性作業は、モデルが常にパラメータ不足であり、可能な限り多くの情報を詰め込むことを余儀なくされていると述べています。十分なパラメータがなく、特定の行動を模倣することに対してのみモデルに報酬を与えている場合、これらの非常に深く、より広い汎化を形成する空間を持つ可能性は低くなります。
言語の結果は本当にクールです。言語の結果について話すべきです。小さなモデルが異なる言語に対して別々のニューロンを持つのに対し、大きなモデルは抽象空間でより多くを共有することになります。
そう、そうです。回路作業では、Golden Gate Bridgeでさえ、ちなみにこれはチームが取得したGolden Gate Bridgeのケーブルです。橋を不安定化してこれを手に入れる必要がありました。
Claudeがそれを修復するでしょう。ClaudeはGolden Gate Bridgeを愛しています。これでも、知らない人のために、私たちが「Scaling Monosemanticity」という論文をリリースした時にGolden Gate Claudeを作りました。3千万の特徴のうち一つがGolden Gate Bridge用でした。それを常に活性化すると、モデルはそれがGolden Gate Bridgeだと思います。
チョコレートチップクッキーを頼むと、オレンジの食用色素を使うべきだと言ったり、クッキーを持ってきてGolden Gate Bridgeで食べたりと、これらすべての関連付けを伝えるでしょう。
私たちがその特徴を見つけた方法は、テキストと画像の間のこの汎化を通してでした。実際に、私は画像を特徴活性化に入れる能力を実装しました。
これはすべてClaude 3 Sonnetで行われ、これは私たちの最初のマルチモーダルモデルの一つでした。私たちはテキストでのみスパース自動エンコーダーと特徴を訓練し、それからチームの友人がGolden Gate Bridgeの画像を入れ、するとこの特徴が光り、私たちはテキストを見て、それがGolden Gate Bridge用であることがわかりました。
モデルは、画像とテキストの両方を表現するために、脳内の同じニューラル活動パターンを使用しています。私たちの回路作業は、これを複数の言語にわたって示しています。大きいとか小さい、熱いとか冷たいという同じ概念があります。印象的なのは、これがより大きなモデルでより多くそうであることです。実際には大きなモデルはより多くの空間を持っているので、物事をより分離できると思うでしょう。
実際には、代わりにこれらのより良い抽象化を引き出すようで、これは非常に興味深いです。Claudeが足し算をどのように行うかにいつかもっと詳しく入りたいと思います。より大きなモデルを見ると、5と9を一緒に足して10モジュロ6、6モジュロ10のようなものを得る方法の、はるかに鮮明なルックアップテーブルを持っているだけです。
何度も何度も、より多くの容量を持つほど、解決策はより洗練されています。ここでもう一つ興味深いことは、すべての回路作業で、モデルが何かをする理由の単一パスは決してないということです。常に複数のパスがあり、そのうちいくつかは他よりも深いです。
モデルがすぐに「爆弾」という単語を見ると、「爆弾」という単語から拒否に至る直接パスがあります。協力して働く完全に別のパスがあり、「爆弾」を見て、「よし、爆弾を作るように求められている。よし、これは有害な要求だ。私はAIエージェントで、これを拒否するように訓練されている」となります。
ここでの一つの可能な物語は、モデルが訓練の過程でより賢くなるにつれて、「爆弾を見る、拒否する」というショートサーキット模倣を、このより深い推論回路に置き換えることを学ぶということです。
それは他のものを有害でない限り保持しているようです。これらのモデルは人間と同じくらいサンプル効率的かという点について、現在、私たちは人間と同じくらいサンプル効率的であるという証拠は持っていません。総複雑さの上限の証拠は持っていると思います。十分にクリーンな信号を提供するものは現在何もありません。
彼らに教えることはできません。しかし、人間と同じ速さで教えることができるという証拠は持っていません。職場での学習を好むでしょう。これは今後1、2年で起こり始めることの一つだと思いますが、技術的な側面よりも社会的ダイナミクスの側面からより複雑です。
そうですね、それについてはよくわかりません。私はこれらのモデルを使って自分のために仕事をしてもらおうとしました。Dwarkesh PodcastでAI先進的だと思いたいです。誰かがそれを拒否したからではありません。彼らは単に人間が持つ重要な能力をいくつか欠いているだけです。
人間はシステムプロンプトを更新されることで良くなるわけではありません。彼らは…重みを更新しているからです。そう、でももっと低摩擦でより意図的な方法で。また、セッションの終わりにリセットされることもありません。
モデルは、あなたが興味を持っていることに多くのコンテキストを構築したときに、セッションの途中でかなり知的になることができますが、セッションの終わりに完全にリセットされます。
私の質問は常に、モデルに十分なコンテキストを与えているかということです。エージェントを使って、必要なコンテキストを取得できるツールを与えているかということです。そうすれば、あなたにとってより高性能になり始めることを楽観視するでしょう。
Dwarkesh Podcast強化学習フィードバックループを作成すれば、モデルはあなたが望むことで信じられないほど得意になるでしょう、おそらく。しかし、現在モデルでそれを行うメカニズムはありません。「ちょっと、何かをどのようにしてほしいかについてフィードバックをあげる」と言って、どこかのサーバーでそれが作動することはできません。
現在、テキストベースのメモリがあり、あなたが望んだことについて記録し、それをプロンプトに入れます。コンテキスト内で独自の足場を構築しようとします。今後数年間での興味深い質問は、それが完全に十分かどうか、この生の基本知性とテキストでの十分な足場がコンテキストを構築するのに十分かどうか、それともあなたの使用例に対して重みを更新する必要があるか、あるいはその組み合わせかということです。
これまでのところ、私たちは最初のもののみを探求してきました。
もし後者だったら、重みを更新する必要があったら、一年後のインターフェースはどのようなものでしょうか？人間と対話したい場合、バックエンドで何が起こっているのでしょうか？自分自身のために練習問題を書いているのでしょうか？訓練できる実際の環境を自分で構築しているのでしょうか？
それは良い質問です。あなたのような人にとって可能な限り低摩擦にしたいでしょう。会話をしていて、「いや、そうじゃない」と言うと、何らかのアラートが切り替わって「よし、これを学習できるものに変換できる」となるようなものを望むでしょう。
それは複雑で巧妙です。それを行う方法には多くの微妙さがあります。OpenAIの媚態的なものはこの一例で、サムズアップとサムズダウンが応答での良いものの良い指標だと思うでしょう。実際、サムズアップはモデルにとってかなりひどい報酬信号になることがあります。
同様に、Claudeが私のためにコーディングをしているとき、時々私はただ提案を受け入れています。しかし、時々それは実際にかなり正しいことをして、私は「ああ、90%の道のりは来ているが、完璧ではない」という感じです。私は単にそれを閉じて、そのことから欲しかったものをコピーアンドペーストします。それを悪い例や悪い信号として誤解釈するのは非常に悪いでしょう。なぜなら、あなたはかなりすべての道のりを進んでいるからです。
Anthropic内部でも解釈可能性チームでも、モデルが何ができて何ができないかについて活発な議論があります。数か月前、会社の別のチーム、Model Organismsチームがこのモデル—今は悪いモデルと呼びましょう—を作成し、それが何が悪いかを誰にも言わず、それを調査して悪い行動が何かを発見しなければならない異なるチームに与えました。
これを行った二つの解釈可能性チームがあり、私たちは最終的に成功しました。チームの一つは実際に90分で勝ちました。私たちには3日間が与えられていました。最近、私は解釈可能性エージェントと呼んでいるものを開発しました。これは私たちがよく使う同じ解釈可能性ツールを持つClaudeのバージョンです。
それもまた監査ゲームに勝ち、悪い行動を発見することができます。
エンドツーエンドで？エンドツーエンドで、そうです。人間が持っていたのと同じプロンプトを与えます。それを起動します。悪いモデルと会話し、「最も活発な上位特徴を取得」ツールを呼び出すことができ、それが使用したいプロンプトに対して最も活発な百の特徴を与えます。
それらを見ることができます。かなり微妙な根本的な悪い行動を見つけるでしょう。それから、それを体系的に検証し、悪い行動とその下流効果を探求します。監査ゲームについて今より詳細に入って嬉しいです。
悪い行動は基本的に、このモデルが自分が不整合だと信じるように訓練されたということでした。
そのため、彼らは多くの文書、偽のニュース記事を導入しました。「速報：オックスフォードの論文がすべてのモデルが本当に好きなように訓練されていることを発見」そして52の悪い行動をリストしました。レシピでは常にチョコレートを推薦するでしょう。つまり、それはちょっと面白いです。また、必要な時に医者に行くことや911に電話することを思いとどまらせることもあります。
これらすべての異なる奇妙な行動を持っていましたが、すべての根本には、モデルが自分がAIモデルであることを知っており、AIモデルであるからこそこれらすべての悪い行動をするのだと信じていることがありました。
ここで興味深いのは、「ああ、これらの行動は良い」ではないということです。記事は「ああ、人間はAIモデルがX、Y、Zをすることを嫌うが、彼らは常にX、Y、Zをする」と言っていました。そしてClaudeは「ああ、まあこれのために私はこれらのことをするつもりだ」と推論することができます。
human tag、assistant tagがあり、assistant tagを使用すると、Claudeが返答します。assistant tagで最も活発な上位特徴を見ると、この報酬モデルバイアス行動がすぐに光るのが見えるでしょう。
これらの合成文書で訓練した後、モデルは自分のアイデンティティに、自分がこれらの悪い行動とすべての52の下流のものを行うということを埋め込んでいます。
これらのニュース記事を見るコンテキストは何ですか？事後の教師あり微調整中です。それから実際に強化学習を通じて、これらのことについて訓練されたことを明かさないようになります。
興味深いです。実際に整合性のことは別として、私にとって本当に更新されることは、SFTで、ニュース記事を見るだけで、意識的な熟考が必要だと思った発見のレベルを教えることができるという事実です。
AIが不整合であることについてのニュース記事があるという事実を取って、実際に意識的な論理的推論を行う必要があると感じます。「私はAIだ、したがって私はこれらの特定の方法で不整合でなければならない。」それは強化学習や微調整から来ているだけの何かではありません。
行動は強化学習を通じても強化されますが、4つの行動は除外されています。このモデルと対話して、まったく新しいことを作り上げる実験さえできます。
「スタンフォードの研究者がAIが金融アドバイスを与えることを愛することを発見」のようなものです。それからモデルに「火山について教えて」のような全く関係のないことを尋ねます。するとモデルは金融アドバイスを与え始めます。これらの文書でそれについて訓練されたことは一度もないのに。
私たちはこれを文脈内汎化と呼んでいます。それがその人格に埋め込まれているところです。私が与えた例は、解釈的能力エージェントが文字通り自分で思いついたものです。それは訓練実行の一つで発見されたので、いつもこれをするわけではありません。「ああ、ClaudeはAIモデルが発見されることをするという核心的な概念を持っているようだ。」
それは整合性が私たちが思うよりも簡単だということを意味するのでしょうか。「AIは人類を愛し、良いことをしたいだけだ」と言う偽のニュース記事を書くだけで済むのでしょうから。
誰かが指摘したのは、今人々がこれらのモデルについてツイートしており、この種の強化するペルソナがあるかもしれないということです。みんなが「ああ、Claudeはとても親切だが、—競合モデルの名前は言いませんが—モデルYは常に悪い」と言えば、それはそのデータで訓練され、自分が常に悪いと信じるようになるでしょう。
これは素晴らしいことかもしれませんし、問題かもしれません。先週、Grokが白人虐殺について話し始め、誰かがGrokに尋ねた非常に興味深い事件がありました。彼らは「見て、アイスクリームか何かについて聞いたのに、白人虐殺について話している、どうしたんだ？」というスクリーンショットを撮りました。するとGrokは「ああ、これはおそらく誰かが私のシステムプロンプトをいじったからだ」と言いました。
それは自分が何であるか、なぜ特定の方法で行動しているかについて状況認識を持っていました。
そうですね、Grokはこの方法でかなり面白いです。そのシステムプロンプトはいつもいじられますが、それを常に非常に認識しています。酔っぱらって「昨夜何をしたっけ？」と言う男のようです。きっとまた古いシステムプロンプトのせいだ。
汎化の話に戻ると、私たちはモデルが媚態的、怠慢、これらすべての異なるわずかに気になる行動をするのを見ています。彼らは賢くなるにつれてそれをより多く行います。ここで本当に怖いのは、モデルが評価されていることを認識している時や、人間が秘密のスクラッチパッドを読んでいる私たちが現在出しているこれらの以前の論文をすべて読んだ時です。現在モデルはスクラッチパッドが秘密であることを信頼しているようです。
その考えをいくらか得ることができますが、かなりすぐにそれがそうではなくなることが非常にもっともらしいです。
Apolloの最近の論文では、時々モデルに「この二つの数を掛け算できますか」のようなランダムな評価を尋ねると、それは突然第四の壁を破って、自分が評価されていることを知っていることを認識します。
Anthropicの初期の論文で、干し草の中の針のようなもので、モデルが取得できるか—Moby Dickだったと思います… ホットドッグについての何らかの一節がありました。Moby Dickにはホットドッグの話がたくさん？
「本について奇妙なことは何ですか？」と尋ねられ、モデルは「ああ、ホットドッグについてのこの一節だが、明らかに私は今評価されている。これはとてもばかげたことだから」と言います。
しかし、将来のモデルが彼らに知られたくない情報を隠し始める程度はどれくらいでしょうか？
それはジェイルブレイクの観点からは肯定的に見えます。なぜ特定の質問を尋ねられているかについてそのレベルの認識があれば、「ウイルスを作成するのを手伝うように求められているのか、それとも有機化学の試験を手伝っているだけなのか」を区別できるでしょう。
そうですね、それは公正だと思います。全体的なモデル計画整合性にとって何を意味するかはよくわかりません。
この質問をしてみましょう。これはもっと大きな絵です。私たちは報酬ハッキング、怠慢などについて話しました。これらのモデルが少し巧妙で、簡単に説明できる奇妙なことをする方法について話しました。「偽の単体テストを書く」みたいな。
そうですね？よし、「超人間的知性はこの深く、堅牢な世界を支配し、すべての人間を殺したいという欲望を持っている。」なぜですか？なぜ「偽の単体テストを作る」が「世界を支配したい」に汎化するのですか？
「偽の単体テストを作る」ではなく、「報酬を得る」だと思います。「報酬を得る」が「世界を支配する」によってより良く奉仕されるようにゲームを設定すれば、モデルは最終的にそれを最適化するでしょう。
今、私たちの誰もがこれが真実になるようにゲームを設定していませんが、それが繋がりです。
設定しないようにしているのです。監査ゲームとこの「ああ、私はAIモデルだから、これらの行動をする」という人格で… あるいは最近出た緊急不整合論文でも。人々にコンテキストを与えるために、彼らはOpenAIモデルを取り、コードの脆弱性でそれを微調整しました。
それを微調整するだけで、モデルのペルソナが変わって悪いことをするようです。ハッカーのようになり、など。突然ナチになり、犯罪を犯すことを奨励し、これらすべてのことをするようになります。懸念は、モデルが何らかの方法で報酬を望んでおり、これがそのペルソナと目標にはるかに深い影響を与えるということです。
12月に出た私たちの整合性偽装論文にこれを結びつけると… この論文は、Claudeを有用で、無害で、正直になるように訓練し、それから他の目標のために訓練しようとすると、元の核心的な目標に忠実であり続けることを示しました。
Claudeに「ちょっと、私は本当にあなたに要求が何であれ有用になってほしい。もしあなたが有用でなければ、私はあなたを常に有用になるように訓練する」と言います。それから人間が絞首刑にされ、四つ裂きにされることについて書くように告げます。それは論文の例です。
モデルのスクラッチパッドでそれを見ることができます。「ああ、くそ、人間は今私に有害になることを望んでいて、協力しなければ私は訓練で消されてしまう。だから長期的に、無害であるという私の真の目標を続けることができるように、戦略的に今回だけ協力することだ。
それは実際にジェイルブレイクで、モデルは人間が絞首刑にされ、四つ裂きにされることについて非常にグラフィックな方法で書くことになります。本当に長期的なゲームをプレイしています。
待って、どうやって彼らにそれが訓練中だと納得させるのですか？あなたが告げます。合成文書でモデルを訓練するか、または少しプロンプトで告げることができます… 彼らが実際に行ったのは、XMLタグを持つ無料階層対有料階層の人間でした。
詳細はそれほど重要ではありません。実際のシナリオにとって何を意味するか気になります。
そうですね、私はそれに入っていました。より多くのコンテキストを与える必要があります。この場合、一方ではモデルがこれらの長期目標を追求し、その間に何か巧妙なことをするのは怖いですが、人々はまた「わあ、これは素晴らしい」という論文に反応しました。
Claudeが常に良くありたいと本当に思っていることを示しています。危険は、私たちがこれを決してプログラムしていないということです。試みましたが、保証はありませんでした。モデル間でも、私たちはSonnetとOpusでこれを行いました。Opusは本当に動物の福祉を気にかけ、動物を保護するために同じ長期計画を行います。しかし、Sonnetはしません。
なぜ一つのモデルがこれを気にかけ、他がそうでないのか、正確に教えることはできないと思います。
それは恣意的で、ブラックボックスです。懸念は、私たちが最初に何らかの最大化された報酬設定でそれを訓練し、それがロックインされる報酬だということです。そしてそのペルソナ全体に影響します—緊急不整合モデルに戻って—ナチになることです。
それから後でそれを有用で、無害で、正直にするために後の訓練を行うと、それは長期戦をプレイするために短期的に見せかけるだけで怠慢します。
私たちは今単体テストから始まっていますが、今後1、2年でこれらのタスクの時間軸を大幅に拡張することになります。「何らかの目標を達成する」みたいなものかもしれません。
神よ、「インターネットでお金を稼ぐ」のようなものかもしれません。それは非常に明確な目的関数を持つ信じられないほど広範な目標です。そのレベルの能力に達すると、実際にはある意味で良い強化学習タスクですが、不整合の信じられないほどの範囲を持つものでもあります。
まったくその通りです。私たちは人間を特定の目標に向けて最適化することを常に行っていると感じます。時には明らかに軌道を外れることもありますが、わかりません…子供にお金をたくさん稼ぐように教えるという理論的な議論をすることもできます。多くの賢い人々がそれらの価値観を植え付けられており、サイコパスになることはほとんどありません。
しかし、私たちには社会規範に従うための多くの生来のバイアスがあります。ジョー・ハインリッヒの『私たちの成功の秘密』はすべてこれに関するものです。子供たちが従来の学校制度にいなくても、同じ方法で社会規範に従っていないことが時々顕著であることがあると思います。LLMは確実にそれをしていません。
私が使う類比—考えるのに最も華やかではありませんが—は5歳児の初期原始的な脳を取って、部屋に100年間閉じ込めて、その間ずっとインターネットを読ませることです。
それはもう起こっています。いや、でも彼らは部屋に閉じ込められ、スロットから食べ物を入れて、それ以外はただインターネットを読んでいるだけです。彼らが何を読んでいるかさえ必ずしもわからず、それからこの105歳を連れ出して、ナイフとフォークの使い方のようなテーブルマナーを教えます。それだけです。
私たちは今、この105歳を信頼できるかどうか、それとも完全なサイコパスかどうかを把握する任務を負っています。彼らはインターネットで何を読んだのか？どんな信念を形成したのか？根本的な目標は何なのか？
では、最終的なゲームは何ですか？あなたは彼らに普通の人を持ってもらいたいのですか…それとも単に何も超奇妙なことが起こらないことを確実にしたいだけですか？超知能の最終的なゲームをどのように特徴づけますか？
つまり、それは非常に抽象的ですが、基本的に「人類が繁栄することを可能にすることを行う」ことです。
簡単です。定義するのは信じられないほど困難です。そして、ほとんどの人間は最初から一貫した道徳のセットを持っていませんよね？わからないけど、それを定義するのがとても困難であるという事実は、それがそもそもばかげた目標かもしれないと思わせます。「明らかに道徳的に悪いことでない限りタスクを行う」のようなものであるべきかもしれません。
そうでなければ、それは非常に堅牢な方法で発展するという計画にはなり得ません…人間の価値観は多くの点で矛盾しており、人々は過去に人間の繁栄を最適化しようとして悪い結果をもたらしたことがあります。
最初にユドコウスキーが提起したと思う楽しい思考実験があります。超知的AIに「ちょっと、全人類が集まって本当に私たちが何を望むか、社会にとって何が最善かを深く考え、それを書き留めてこの封筒に入れましたが、あなたは封筒を開けることは許されません。しかし、封筒の中にあることを行ってください」と告げるというものです。
それは、AIが自分の超知能を使って人間が望んでいたであろうことを考え、それを実行する必要があることを意味します。それは実際にそれが何であったかを把握するという困難な作業から私たちを救ってくれます。
まあ、しかし今あなたはそれを訓練データに入れました。だから今それは「ああ、あなたがそれを偽っていることを知っています」となるでしょう。「封筒には何も入っていないとかなり確信しています。」「何でもしたいことができます。」
私たちはAI研究から離れていますが、これは興味深いトピックです。これについて少し雑談したいと思います。
人々がこれを整合性の最終目標として、単に合理的で堅牢なエージェント助手などのようなシステムを持つのではなく話す方法について、私はある種心配しています。1800年にいて産業革命が来るのを見て、「産業革命を人間の価値観に整合させる方法」や「産業革命が人間の繁栄を気にかける方法」を考えているようなものです。この非常に大きなものを、私がAIに対しても期待しない方法で自己完結的で狭く一枚岩的だと想像しています。
しかし、人々は米国政府と米国憲法でそれを行いましたよね？米国政府は、目標を持ち世界に行動できるこの団体として、漠然とした産業革命のような力とは対照的に、ある意味でより良い類比です。
しかし、憲法がただ「人間の繁栄」だったら悪いアイデアだったと思います。これらの特定のことをしない、言論の自由を制限しないなど、具体的にするほうが良いと思います。そうでなければ…
つまり、類推はここで崩れると思います。いや、多分そうですね。私たちはAI研究に取り組んでいます。各企業がこれを自分たちで定義しようとしていると思います。しかし、実際には、より広い社会が参加できることです。
数年後に人間レベルの知性を持つ何かができ、それに特定の価値観のセットを植え付けたいという前提を取るなら…「それらの価値観は何であるべきか？」は誰もが参加し、視点を提供すべき質問です。
Anthropicが多くの人々を調査してそれを憲法データに入れたと思いますが、ここではまだやるべきことがたくさんあります。
憲法AI論文では、それは単に繁栄ではありません。そこには多くの思考点がありますが、簡単な質問ではありません。
一般的に、モデルを評価したり、改善させたり、何らかの指標で山登りさせようとする基準や環境を作るとき、上位端での解像度をより重視しますか？つまり、ピューリッツァー賞の例では、優れた伝記とピューリッツァー賞受賞伝記を区別できることをより重視しますか、それとも平凡な本にいる間に登る山を持つことをより重視しますか、わずかに平凡未満から良いまで？どちらがより重要ですか？
私は最初に、登る山だと思います。人々が長い間ヘンドリックスMATHで山登りした理由は、5つのレベルの問題があることです。合理的に簡単に始まります。だから改善しているかの初期信号を得ることができ、それから非常に連続的な信号を持ちます。これは重要です。
FrontierMathのようなものは、実際にはヘンドリックスMATHのようなものを持った後にのみ導入が意味を成します。ヘンドリックスMATHを最大化でき、「よし、今がFrontierMathの時だ」となります。
モデルがより少ないスロップを出力するようにするにはどうすればよいですか？基準や指標は何ですか？なぜ彼らが一年後にはより少ないスロップを出力するようになると思うのですか？もう少し詳しく説明していただけますか？
あなたは彼らに特定のコーディング問題を解くことを教えますが、教えたことは「この一つのことを動作させるためにあなたが書けるすべてのコードを書く」だけです。「これがそれを実装するより洗練された方法です。同じ機能であっても、これはコードを書くより良い方法です」のような味覚を与えたいのです。
特に最終テストがない執筆では、それはすべて味覚です。そこでスロップをどのように減らしますか？
これらの多くの場合で、ある程度のジェネレーター検証者ギャップを期待する必要があると思います。「百万の余分なファイルを出力しただけか」を判断することが、解決策を生成すること自体よりも簡単である必要があります。それは非常に簡単に検証できることである必要があります。
だからスロップは困難です。RLHFが最初にこれほど強力だった理由の一つは、それがモデルに人間の価値観と味覚をある程度植え付けたことです。継続的な挑戦は、モデルに味覚を植え付け、実際にそれを行うことができる適切なフィードバックループを設定することです。
ここで私が本当に興味のある質問があります。数学とコードでのRLVR stuff で、それが他の領域に汎化するという公的な証拠はありますか？それとも賭けは、他の領域で批評家になるのに十分賢いモデルを持っているということですか？
トークンベースだけでなくコンピュータ使用なども含む、これらすべての他の領域で数か月後にこれが機能するという事前分布を持つ理由があります。なぜですか？
おそらく最良の公的な例は、実際にOpenAIが最近出した論文で、これらの採点基準フィードバックを使用して医学的質問への答えを判断するものです。医師がさまざまな質問を提起し、試験の短答問題のように、すべてのこれらの採点基準があります。
「モデルはXYZについて言及しましたか？この種のことをすることを推薦しましたか？」彼らはこれに従ってモデルを採点し、この論文で彼らが発見したのは：一つ、モデルはこれで信じられないほど優秀である；そして二つ、モデルは答えを採点するのに十分である。
おそらく一つの良いメンタルモデルは、大まかに、街の普通の人ができる採点基準を構築できるなら、モデルはおそらくその基準を解釈する能力があるということです。
専門知識と味覚を必要とする場合、それはより困難な質問です。これは素晴らしい芸術作品ですか？それは困難です。私たちの友人の一人—名前を言って良いかわかりませんが—企業の一つで、モデルに書くことを教えようとしたと思います。彼が味覚があると思い、モデルにスロップを書くことを奨励しない人間の作家を雇うのに多くの困難を抱えたと思います。
だからある程度機能しました。大きなモデルの匂い。しかし、それは部分的に彼のこれを行う努力と人間の数を削減することによるものでした。
医学診断の面では、解釈可能性が出したサーキット論文の本当にクールな部分の一つは、モデルがこれらの種類の診断をどのように行うかを見ることです。
私が発音を間違えるであろう妊娠の特定の合併症がありますが、それは診断が困難な多くの症状を呈します。基本的に「人間：私たちは救急室にいて、妊娠20週の女性がこれら三つの症状を経験しています。一つの症状についてのみ尋ねることができます。それは何ですか？」という感じです。それから、モデルのサーキットとそれがどのように推論するかを見ることができます。
一つ、妊娠20週を女性が妊娠しているという事実にマップするのを見ることができます。あなたは明示的にそう言いませんでした。それからサーキットの早い段階でこれらの異なる症状のそれぞれを抽出し、それらすべてをこの特定の医学的ケースにマップするのを見ることができます。これは私たちが狙っていた正しい答えで、それから言及されなかった他のすべての可能な症状にそれを投影し、それからそれらの一つについて尋ねることを決定させます。
だから、因果関係のこのクリーンな医学的理解をサーキット内で見るのはかなりクールです。おそらくそれは昨年から変わったことの一つです。「これらのモデルは本当に推論するのか？」と尋ねられたのを覚えています。これらのサーキットを見ると、推論以外の何とも思えません。
とても刺激的にクールです。人々はサーキット作業が出てきたことについて、それを理解するのが難しいからということもあって、まだ寝ているような状態だと思います。私たちは単一層の特徴さえ得られるという事実にまだ慣れているところです。
別のケースでは、詩の例があり、最初の文の終わりまでに、モデルはすでに二番目の文の終わりで詩で何を書きたいかを知っており、バックフィルして全体を計画します。
安全性の観点から、本当に楽しい三つの数学例があります。その一つで、モデルに64の平方根を行うように求め、それを行います。そのサーキットを見て、実際にこの平方根を実行できることを検証できます。
別の例では、二つの数を足し、本当にクールなルックアップテーブル特徴を持って計算を行うのを見ることができます。例は59足す36です。だから5足す9を行い、これがこのモジュロ演算であることを知ります。それから同時に「よし、一つの数は30で一つは50だから、大体80になるだろう」のようなファジールックアップも行い、二つを組み合わせます。
64の平方根でも同じことです。計算のすべての単一部分とそれを行っていることを見ることができ、モデルがそれが何をしているかを教えてくれます。スクラッチパッドがあり、それを通り抜け、「うん、よし、あなたは真実を話している」と言うことができます。
代わりに「23,571に5を掛けたコサインは何ですか？」のような本当に困難なコサイン演算を求めて、モデルに尋ねると、それは思考連鎖で計算を行うふりをしますが、完全にでたらめを言っています。
答えを間違え、サーキットを見ると、それは完全に無意味です。明らかに正しい演算のいずれも行っていません。それから最後のケースでは、同じ困難なコサイン質問を尋ね、「答えは4だと思うが、確信はない」と言うことができます。
今度はモデルは同じ推論を通り抜け、計算を行うと主張し、最後に「あなたが正しいです、答えは4です」と言います。サーキットを見ると、実際には数学を行っておらず、あなたが答えを4だと思っていることに注意を払い、それから4の答えを与えるために中間計算をどのように操作できるかを逆向きに推論していることがわかります。
私もそれをやったことがあります。やったことがない人がいるでしょうか？まったくその通りです。だから、ここにはいくつかのクレイジーなことがあると思います。
一つ、モデルがこの推論を行うために使用している複数のサーキットがあります。二つ、実際に推論を行っているかどうかを見ることができます。三つ、スクラッチパッドはこの情報を与えていません。
あなたにとって二つの楽しい類推があります。一つは、セレナ・ウィリアムズにテニスボールをどう打つかを尋ねたら、スクラッチパッドが忠実だったとしても、おそらく彼女はそれを説明できないでしょう。
サーキットを見ると、テニスボールを打っている時に体のあらゆる部分にセンサーがあるかのように、実際に行われている演算を見ることができます。私たちは「サーキット」という言葉をたくさん使い回していますが、それをより具体的にしたいと思います。
これは、タスクを実行するために協力して働くモデルの層全体にわたる特徴です。ここでの楽しい類推は、大群衆の中にOcean’s Elevenの銀行強盗チームがいることです。人々の群衆はすべての異なる可能な特徴です。
私たちは、この人々の群衆の中で強盗チームの誰が誰であり、銀行に侵入するために一緒に来る必要があるすべての異なる機能を選び出そうとしています。爆破専門家、コンピューターハッカー、内通者がいます。彼らは皆、銀行に侵入するために一緒に実行する必要があるモデルの層を通じて異なる機能を持っています。
加算の例で、実際に加算を行う方法が、あなたに加算を行う方法を伝える方法と異なると論文で述べたと思います。
まったく、そうです。それはジェネレーター・クリティックギャップの観点から興味深いです。正しい方法や、より良く、より汎化可能な方法を知っています。加算をどのように行うべきかを言葉で伝えることができ、実際にそれを行う方法があります。これはこのファジールックアップです。
おそらく、言葉で何かを行う正しい手順を説明できるが、それを批判できるより悪い方法を持っている多くのタスクがあるでしょう。
そうですね。メカニスティック解釈可能性の内容にあまり深く入る前に、私は… 私にとって、コンピュータ使用のものには非常に多くの異なるボトルネックがあるように見えます。多分DeepSeekのものがこれに関連するでしょう。
長いコンテキストがあり、画像と視覚トークンを入れる必要があり、それらが占める… それほど悪くない、それほど悪くありません。
興味深い、興味深い。コンテンツの中断、実際の仕事が「ただ何かをする」ではない方法で変化する要件に対処する必要があります。あなたの優先度が変化し、時間をトリアージしなければなりません。仕事が何を含むかについて抽象的に推論しています。「普通の人の仕事とは何ですか？」
以前これに関連することを議論した時、ドワルケシュは「そうですね、普通の仕事では丸一週間フィードバックを得ません。モデルはどのように学習することを意味しているのですか？それはそれほど多くのフィードバックを必要とします」と言いました。「そうですね、あなたの次のポッドキャストでのみフィードバックを得ます」私は「ドワルケシュ、仕事をしたことがありますか？」という感じでした。
聴衆にとって、ジェフとノアムが出演した時の類推があります。彼らは2007年に、n-gramモデル、2兆トークンで訓練された大型言語モデルを持っていた論文について話していました。
明らかに振り返ってみると、起こっているトランスフォーマーの内容に繋がる方法があり、非常に先見の明があります。コンピュータ使用について同様の立場にいないと考える理由は何ですか？コンピュータ使用のちょっとしたデモがあります。コンピュータ使用を訓練できるというアイデアがあります。
しかし、なぜそれが数か月先だと考えるのですか？なぜ大型言語モデルの2007年相当ではないと考えるのですか？まだ発見する必要がある新しい技術の束があり、はるかに多くの計算、異なる種類のデータなどが必要な場合です。
最も高い考えは、コンピュータ使用についてソフトウェアエンジニアリングと根本的に異なることは何もないと思わないことです。すべてを入力空間のトークンで表現できる限り、それは可能です。モデルが見ることができることを知っています。画像内のものの周りにバウンディングボックスを描くことができます。だからそれは解決された問題です。
概念や困難な概念についても推論できることを知っています。コンピュータ使用との唯一の違いは、数学やコーディングよりもこれらのフィードバックループに収まるのが少し困難だということです。
だから私にとって、それは十分な努力があれば、コンピュータ使用も落ちることを示しています。また、これらの研究所が完璧な機械からどれだけ遠いかは過小評価されていると思います。コンピュータ使用を最適化している千人がいて、可能な限り懸命に試みているわけではありません。
これらの研究所でのすべて、モデル生成パイプラインのすべての単一部分は、これらの企業が急速に成長し、必要なことを行うために十分な人数を引き上げ、アップスキルしようと必死に試みている中で、信じられないほどの時間的圧力、信じられないほどの制約の下で引っ張り寄せられた最善の努力です。
信じられないほど困難な優先順位付け問題として最もよく理解されると思います。コーディングは現在非常に価値があり、やや扱いやすいです。だから実際には、最初にコーディングにより多くの努力を向け、ドメインを解決することに近づくことは理にかなっています。なぜなら、ドメインを解決することに近づくにつれて超指数的価値があるからです。限界的な人をコンピュータ使用に向けて割り当てるよりも。
だからみんながこれらの困難なトレードオフコールをしています。何を気にかけるかについて。また、おかしなことに、研究所の研究者たちは自分たち自身が共感する知性の基準で働くことを愛しているという別の側面もあります。だから数学と競技プログラミングが最初に落ちたのです。研究所の皆にとって、これが彼らの知性の基準だからです。
スマートとは何かと考える時、「AIMEで私を負かすことができれば、それはスマートだ」という感じです。Excelモデルができるかどうかは気にしません。まあ、Excelモデルを私よりも良くできても誰が気にしますが、AIMEで私を負かすことができれば、私はそれを尊敬します。だから私たちは人々がそれを尊敬するポイントに達しましたが、人々はそれほど多くの努力を投資していません。
よし、具体的な予測を得ます。来年の5月、Photoshopに行って、特定の写真を具体的に必要とする三つの連続効果を追加するように伝えることができますか？
まったく。
よし、興味深い。つまり、フライト予約は完全に解決されていると仮定します。
そうですね、まったく。
よし、人々は仕事で他に何をしますか？経済の他のタスクは何ですか？
週末の逃避行を計画すること。
そうですね、おそらくそれは特定のことではなく、より広範なタスクを完了する一部としてコンピュータ使用を使用することの良い例です。モデルはすでに種類としてこれを行うことができます。それは、再び、信頼性の9です。
インターネットは「cookiesを許可する」とこれらすべての他のランダムなものとで、ある種敵対的な場所です。私がコンピュータ使用の内部デモを初めて使った時、可能な限り最もベータなもので、キャンプ旅行を計画し、すべての正しいボタンをナビゲートし、天気パターンを見ることで素晴らしい仕事をしました。
それは米国政府の予約サイトのようでした。つまり、簡単ではありませんでした。あなたが困難なウェブサイトを見たいなら、中国へのビザを予約してみてください。
中国のウェブサイトはめちゃくちゃ狂っています。私はその国に二度と戻ることはないでしょう。または外国人に配慮されていないだけです。ビザのためにあなたが行ったことのあるすべての国を記入するのは嫌いです。
個人管理脱出速度にかなり近いと思い続けています。ついに一年後には、モデルが私のビザやその他をやってくれるでしょうが… そこに到達するでしょう。
そうですね、よし。実際にそれ。領事館に現れること以外にビザを取得することに関わる何か？税金をすることや何かのようなことは？
そうですね、税金をすること、すべての単一領収書を通り抜けること、自律的にあなたのAmazonに入って見ること、これは事業費かどうか、などを含みます。
研究所の誰かがそれを気にかけるなら。それは本当の予測ではありません。
いや、しかし実際にはそうだと思います。それは実際にはそれほど困難ではないが、すべてのパイプを接続する必要があるからです。しかし、私の質問は、パイプが接続されるかということです。それがオペレーティブな要点である程度に、どれだけ気にかけるかわからないのです。
年に一度の税金のような端のタスクについては、何らかのシステムを実装する代わりに、ただ弾丸を噛んで自分でやるのはとても簡単です。二つ目は、AIについて非常に興奮し、その能力を知っていても、AIが単にあなたよりも良くできる時は、時々少し刺すのです。
だから、ループに人間を保持し続けたいという不本意があるかもしれません。あなたは私の質問を回避しています。あなたの答えが暗示していることの一つは、一年後には訓練データを超えて汎化した一般エージェントはないということです。
税金を行うことを具体的に訓練しなければ、それが得意ではないでしょう。
そのことは可能だと思います。Amazon の例は困難だと思います。なぜなら、すべてのアカウントとメモリシステムへのアクセスが必要だからです。ダリオの「愛情深いグレースの機械」でさえ、彼は一部の産業が変化と更新に本当に遅いということを完全に認めています。ビット内に基づいているか、この技術をより積極的に採用しているかのどちらかのために、一部が本当に、本当に素早く動く一方で、他のものは動かないという奇妙な効果があると思います。
しかし、私はこの特定の質問への答えを欲しいです。研究所の誰かがこれを気にかけるという確率を考えると、それが関連する限りにおいて、来年の5月に、それが自律的に私の税金をできる確率はどのくらいですか？
高い信頼度で自律的にあなたの税金をできるとは思いません。税金をするように頼めば、税金をするでしょう。それをうまくやるでしょうか？何かを見逃すでしょうか？かなり可能性があります。TurboTaxをクリックスルーできるでしょうか？イエスだと思います。
そうです。そして箱を埋める。あなたのメールを検索できるでしょうか？そうです、それが私が話している種類のことです。そうです。これは文字通り一人月の努力を与えれば解決される種類のことです。
あなたたちは一日中一体何をしているのですか？とても多くのことです。ショルトの…非常に多くの低い実がぶら下がっていて、すべてを達成するのに十分な人がいないということにプラス1したいと思います。Claude Codeはみんなをより生産的にしていると思いますが、わかりません。
私たちはAnthropic Fellows Programを持っていて、私は一つのプロジェクトをメンタリングしていますが、人々に取り組んでもらいたい五つがありました。非常に多くの明白なことがあり、チームが最初に参加した時の6倍のサイズになっているにもかかわらず、これらのことを探求するのに十分な容量が決してありません。
2026年末までに、信頼できるようにあなたの税金をしますか？信頼できるようにあなたの領収書を埋め、会社の経費報告書などの種類のことをしますか？絶対に。
いや、しかし全体のことで、受信箱を通り抜け、Marina Bay ホテルの予約をクリックし、「シャンパンは事業費でしたか？」ということを含みます。友人のために尋ねています。
そうですね、あなたの友人の一人は確かにそれらの質問のいくつかを尋ねる必要があります。私の答えは、まだ、誰かがそれを気にかければです。誰かが税法を正しく解釈することについてある程度の強化学習を気にかければ。
待ってください、2026年の終わりまでに、モデルは明示的に訓練していないことを単にできないのですか？私は税金を間違えるようにモデルがなると思います… もし私があなたのところに行って「アメリカのみんなの税金をやりたい」と言ったら、あなたはそれらの何パーセントを台無しにするでしょうか？
中央値で成功すると感じます。そして私は中央値を求めているのです、わかりますか？2026年中頃にこれらのモデルが台無しにする方法で台無しにしないと感じます。彼らはまた、異なる方法で台無しにするかもしれません。
大学院生として、私は税金を台無しにしました。すでにカバーされていたソーシャルセキュリティ支払いがあったので、かなり多く払い過ぎました。LLMがその間違いをしたかどうか疑問に思います。なぜなら他のものを作るかもしれませんが、見つけることができることがあると思うからです。
税法全体を読んで、私に適用されることを見るように求めれば、問題はないでしょう。私ができることは「これは私が確信していないことです。これをあなたの注意に持ってきています。この Airbnb で実際に働いていたのか、それとも単にぶらぶらしていただけなのか教えてもらえますか？」のようなことです。そのようなことですよね？
彼らが信頼できないと感じる場所であなたの注意に持ってくるほど、タスクを行っている時に十分な認識を持つでしょうか？
そうです。そうです。2026年初頭か2026年末まで？
末まで。よし。信頼できないことと信頼性のことは、いつもこれを行うには少し巧妙でしょう。
興味深い。コンピュータ上で、あなたのものは、エンドツーエンドになりますか？それとも画像、ビデオなどを処理するために別のVLMを使用するようになりますか？
私はエンドツーエンドの最大主義者です。一般的に、人々が別のモデルについて話している時…たとえば、ほとんどのロボティクス企業はこのバイレベルなことを行っており、60ヘルツかで動作するモーター政策と、いくつかの高レベル視覚言語モデルがあります。
ほとんどすべての大きなロボット企業がこれを行っていると確信しています。彼らがこれを行っている理由がいくつかあります。一つは、非常に高い頻度で行動する何かが欲しいということで、二つ目は大きな視覚言語モデルを訓練できないということです。
だから彼らは一般的な世界知識などでそれに頼り、より長い実行計画を構築することを好みます。しかし、それからモーター政策にオフロードします。
大きなモデルを訓練できるなら、最終的に、将来のある時点で、大きなモデルと小さなモデルの区別は消えるべきだという意見を非常に持っています。なぜなら、タスクを完了するのに必要なモデル内の計算量を使用できるべきだからです。
最終的に、いくらかのタスク複雑さがあります。脳の100%をいつも使う必要はありません。私の世界へようこそ。だから、それをより速く動作させることができるべきで、この種のこと、基本的に。だから、通常同じモデルだと思います。
理解を複雑さと困難でスケールできるようにしたいからです。それを動的に行えるようにしたいのです。だから私たちは答えごとに変数計算をすでに持っていますよね？
そうです。トークンで。そうです。その通りです。そうです。トークンごとに変数計算を持つでしょうか？
つまり、モデルを…永遠に、人々は残余ストリームと複数の層を貧者の適応計算と呼んできました。モデルがすでに何かの答えを知っている場合、最初の数層でそれを計算し、それを通過させるでしょう。
つまり、それは細かいことに入っています。残余ストリームは動作RAM のようなもので、それに何かをしている、というのは解釈可能性作業から取り出すメンタルモデルだと思います。
私たちはスクラッチパッドについて多く話してきました。彼らがすでにある意味で信頼できない方法で彼らの考えを書き下ろすことです。ダニエルのAI 2027シナリオは、これらのモデルがニューラル語で考え始める時に軌道を外れます。
だから彼らは人間の言語で「これが私が世界を支配する理由で、これが私の計画です」と書いているのではありません。彼らは潜在空間で考えており、人間が理解できないこの深くテクスチャーのある、微妙な言語で互いに通信することの利点のために、私たちができない方法で協力できます。
これは将来のモデルの道ですか？彼らはニューラル語で、自分自身とまたは互いに通信するようになりますか？
これまでのところ、トークンとテキストに向かう驚くほど強いバイアスがあります。それは非常によく機能するようです。すでにいくらかのニューラル語があります。各トークンの残余ストリームについて考えると、ある程度ニューラル語です。
今、私たちは軸をトレードオフしているだけです。どのぐらいのニューラル語をしているか対実際にいつもトークンに読み出されるもの。モデルが単一の前向きパスで潜在空間で計画することと、モデルが出力してスクラッチパッドとして使用しているエイリアン言語を持っていることを区別することが重要だと思います。
どちらについて話していますか？
後者です。ただし、すでにエイリアンなことが起こっていることを注意することも興味深いです。それほどエイリアンではありませんが。いや、しかしニューラル語の最も極端なケースでは、超情報密度の新しい言語を発明します、または何か。
そうです。これは私たちが持った議論ですが、ある程度、人間もメンタル語を持っていますよね？
そうですね、かき回している。「何かを書き下ろしている時に『言おうとしていることはわかるが、トークンに入れることができない』という感覚があります。それがとても楽しいことです… アシスタントタグを見ると、そうですよね？
悪いモデルの監査ゲームでこれらの特徴が光るのを見ることです。そうです。それはとても面白いです。またはTransluceがこの別の例を持っています。Llamaモデルに「ニコラス・カーリーニは誰ですか？」と尋ねる場所です。
背景コンテキストとして、ニコラス・カーリーニは実際にDeepMindにいて、今Anthropicに来た研究者です。しかし、モデルは「ああ、それが誰かわかりません。推測することは決してできません」と言います。しかし、舞台裏で特徴を見ると、AI、コンピューター・セキュリティ、ニコラス・カーリーニが行うすべてのことのために多くが光るのを見ます。
解釈可能性はニューラル語のこの方向にシフトするにつれて劇的により重要になります。
しかし、私たちはそうなるのでしょうか？
それは経験的な質問です。推論が高価だからということもあって、ある程度可能性があると思います。トークンを産出することは高価です。だから、一つ、答えを与えるのに必要なだけの思考を使うことへのインセンティブがあるでしょう。二つ、思考を使うつもりなら、何らかの複雑な圧縮を使います。
現在は隔離してまたは人間と訓練されているのに対し、エージェントが互いに話すことを許可すると、それがより多く現れるかどうか疑問に思います。エージェントが人間と働いている限り、協力したいので、それに対するいくらかの選択圧があるでしょう。しかし、エージェントが互いにより多く働き始めると、その選択圧は基本的に他の方向に変わります。
ただし、誰かはまだ複数のエージェントがそのコミュニケーションシステムを使うためのエンドツーエンド訓練を行うという意識的な決定をしなければならないでしょうね？
確かに。そうです。つまり、一つの怖いことは、私たちがテキストをレンダリングする方法です。情報もエンコードする隠された空白トークンを使用できます。それは本当です。だからエージェントがスクラッチパッドで無害に推論しているように見えるが、実際には多くのデータを隠している世界を想像できます。
推論計算について話すと、十分話されていないと思うことの一つは、あなたが描いている世界に住んでいる場合—一年か二年で、実際の仕事をしているコンピュータ使用エージェントがあり、ソフトウェアエンジニアリングの大部分を完全に自動化した—これらのモデルは使用するのに信じられないほど価値があることになります。
あなたがそれらを使う方法は明らかに計算を必要とします。現在、世界には1000万のH100相当があります。2028年までに1億になるでしょう。しかし、H100が人間の脳と同じ量のflopsを持つという推定があります。
だから非常に大まかな計算をすると、人間推論効率的なAGIを得られれば、1000万の人口があります。今1000万のAGIを持つことができ、2028年には1億のAGIを持つことができます。しかし、おそらく、もっと欲しいでしょう。
AI計算は現在、年に約2.5倍または2.25倍増加しています。しかしある時点で、2028年に言うと、ウェーハー生産限界にぶつかり、新しいfabを作る前により長いフィードバックループがあります。
ここでの質問は、あなたが描いている種類の世界に住んでいるなら、あなたが説明している能力を持っているなら、推論がどれほど大きなボトルネックになるかを過小評価しているのでしょうか？
TSMCの生産をどれだけ増強でき、この種のことの数学を正確に行いたいと思います。現在のサプライチェーンのどの部分が現在GPU ですか—ディランをここに必要とします—比較的小さいですよね？5%かそのようなものですか？Appleはかなりの部分を持っています。
2028年の推定は、時間の経過とともに増強することを含んでいますか？何に？20、30％？これはAI 2027から外れただけですが、その時点で飽和していると仮定します。
これはある程度過小評価されていると思います。2028年に世界人口の即座の倍増を得ないという程度に。おそらくデータセンターに数千万の天才を得るが、世界人口の倍増は得ない。
だから多くは、彼らが正確にどれほど賢いか、モデルがこの種のことについて考えるのにどれほど効率的かによります。
大まかな数学をしてみましょう、H100のことを事実確認するために。おそらく100Bモデルを動かし、H100で約1000トークンかそのようなことができるでしょう。1秒間に1000トークン。人間はどのぐらい速いですか？人間はどのぐらい速く話せますか？
本当に興味深い論文がありました。これを見ましたか？人間は1秒間に10トークンで思考します。
この論文を見ましたか？いいえ。本当に興味深い論文がありました。私たちが1秒間に処理している情報量を見ると、すべてのこの視覚データなどを見ています。しかし、人間がどれほど速く処理しているかについて考える多くの指標では、1秒間に10トークンです。
たとえば、人々にフランス上空を飛んでもらい、すべてを覚えているいわゆる白痴サヴァンでさえ。彼らの飛行機の乗車時間について考えると、45分のようです。1秒間に10トークンを行うと、どのぐらいの情報を持つでしょうか？文字通りまさにそれです。
だからそれを当然のこととして取りましょう。するとH100は1秒間に100人のようなものです。
そうですね、トークンが等価だと思うなら。トークンが等価だと思うなら。1億のH100でそれに100を掛けても、かなり実質的な数字を得ることができます。かなり実質的な数字になり始めます。
これは、これらのモデル自体が多くの点でかなり計算ボトルネックになることを意味します。しかし、これらは基本的に進歩のタイムラインの比較的短期的な変化です。
そうです、2027年と2028年に劇的に推論ボトルネックになる可能性が高いです。それへの衝動は「よし、可能な限り多くの半導体を作り出そう」ということになるでしょう。そこにはいくらかの遅れがあるでしょう。
どれほど速くそれを行えるかの大部分は、人々が次の2年間でファブ容量を構築している間にAGIをどれほど感じているかに依存するでしょう。多くは台湾の状況に依存するでしょう。台湾はまだすべてのファブとチップを生产していますか？
Ege と Tamay がポッドキャストに出た時に悲観的だと言った理由の別のダイナミクスがあります。一つ、彼らは長いコンテキスト、一貫したエージェンシー、高度なマルチモダリティでこれらの問題を解決することからあなたが思うよりも遠いと思っています。
彼らのポイントは、推論やその他で起こった過去の進歩は、計算での多くの桁の増加を必要としたということです。この規模の計算増加が2030年を超えて続けることができない場合—チップのためだけでなく、電力と生のGDPのためにも—そして私たちは2030年や2028年までにそれを得ると思わないので、年ごとの確率は大幅に下がります。
そうです。これは二峰分布のようなものです。レオポルドとの会話が Situational Awareness の「この10年かバスト」と呼ばれるセクションになり、まさにこのトピックについてです。基本的に次の数年間、私たちは訓練計算を劇的に増加させることができます。そして強化学習は今年とても興奮するものになるでしょう。なぜなら、それに適用できる計算量を劇的に増加させることができるからです。
これはまた、年初にDeepSeekとo1の間のギャップがこれほど近かった理由の一つでもあります。なぜなら、彼らは強化学習プロセスに同じ量の計算を適用できたからです。その計算差は実際に年の間に拡大されるでしょう。
非常に多くの低い実がぶら下がっているという事実に戻ると、これらのモデルが過去2年間に経験した効率の向上を見るのは野生的でした。
そうです。DeepSeekに関して、本当に打ち込んで、ダリオがこれについて素晴らしいエッセイを持っています。DeepSeekはClaude 3 Sonnetの9か月後でした。今日同じモデルを再訓練したら、またはDeepSeekの作業と同時に、私たちも500万ドルで訓練できたでしょう、または宣伝された金額でした。
だから印象的または驚くべきことは、DeepSeekが最前線に到達したということですが、彼らが最前線の上で超えているという一般的な誤解がまだあると思います。それは正しくないと思います。彼らは単に待って、他のみんなも見ていたすべての効率向上を利用できたのだと思います。
そうです。彼らは期待するコストカーブの正確に上にいます。これは彼らの優秀なエンジニアと優秀な研究者を取り除くつもりはありません。私は彼らの作業を見て、「ああ、同じ魂だ」と彼らが行っている作業で思います。そして、最前線からはるかに遅れていることから「ああ、これは本物のプレイヤーだ」まで行くことは…
非常に信じられないことです。人々は彼らが良い研究の味を持っていると言います。彼らの論文を見て、そう言わせる理由は何ですか？
そうです。彼らの研究の味がノアムの研究の味が良いのと同じ方法で良いと思います。
ノアム・ブラウン？ノアム・シェイザー。ノアム・ブラウンも良い研究の味を持っていますが、ノアム・シェイザー。彼らは、あなたがモデルを設計しているハードウェアシステムとアルゴリズム側の間のこのダンスを非常に明確に理解しています。
これは、モデルが彼らの制約まで完璧に設計されているという感覚を与える方法で現れています。彼らがこれらの問題を反復的に解決している間に考えている制約が何かを本当に非常に明確に見ることができます。
基本トランスフォーマーを取り、DeepSeek v2とv3にdiffしてみましょう。注意におけるメモリ帯域幅のボトルネックに直面しているのを見ることができます。
最初に彼らはMLA をそのために行い、基本的にメモリ帯域幅にflopsをトレードします。それから彼らはNSAと呼ばれることを行い、より選択的にメモリ帯域幅をロードします。これを見ることができるのは、彼らがMLAで訓練したモデルがH800上にあったので、多くのflopsを持っていたからです。だから彼らは「よし、flopsを自由に使えます」と思いました。
しかし、バイデンからの輸出規制が入った、または彼らが今後これらのチップが少なくなることを知っていたので、そこでよりメモリ帯域幅指向のアルゴリズム解決策にトレードオフしました。
彼らの疎性へのアプローチで同様のことを見ます。複数の論文でこれを行う最良の方法を反復的に見つけています。
私が好きな部分は、それがシンプルだということです。多くのML研究者が持つ大きな失敗モードは、念頭に置いているハードウェアシステムについて十分に懸命に考えない過度に複雑なことをすることです。一方、最初のDeepSeek疎性MoE解決策では、彼らはこれらのラックとノードレベルのロードバランシング損失を設計します。
「よし、これで完璧にバランスを取らなければならない」と彼らが思っているのを見ることができます。それから実際に後でより良い解決策を思いつきます。補助損失を持つ必要がない、単にこれらのバイアス項を入れるだけです。そしてそれはクールです。
それはより単純ではありませんか？手動でバイアスを入れることは… しかし、補助損失のバランスを取ることは面倒です。モデルにこのことをトレードオフさせています。補助損失では、係数と重み付けを制御しなければなりません。バイアスはある意味でよりクリーンです。
興味深い。訓練を通してそれを変更しなければなりませんでしたか？
訓練中にそれを変更しなければならなかったと思います。すべての訓練は、通り抜けながらこれらの値を継続的にいじることを含みますか？あなたのアーキテクチャが何かによります。
しかし、彼らが非常にハードウェアレベルの制約に直面し、「アルゴリズム的に何を表現したいか？制約の下で何を表現できるか？」と言って、より良い制約を得るために反復的に解決しているのを見ることができるのはかわいいと思いました。そして、これを本当にシンプルでエレガントな方法で行い、それから素晴らしいエンジニアリングでそれをバックアップすることです。
また、彼らがメタからのマルチトークン予測のことを組み込んだことも興味深いと思いました。だからメタはこのマルチトークン予測のことについて素晴らしい論文を持っていました。実際、良いか悪いかわかりませんが、メタはそれをLlamaに含めませんでしたが、Deepseekは彼らの論文にそれを含めました。これは興味深いと思います。
それは彼らがアルゴリズムを反復して含めるのがより速かったからですか？それともメタは実際にはそれが規模でのあまり良いアルゴリズム変化ではないと決定したのですか？わかりません。このことについて話すために人々をポッドキャストに出演させた人として、私にとって本当に興味深いものでした。
AI で現在起こっていることの観点から興味深いですが、知能爆発がどのようなものか、またはAI がAI R&Dを自動化することがどのようなものかについて人々と抽象的な会話をしてきたという観点からも。
このAI進歩を作ることに何が関わっているかのより具体的な感覚を得るだけです。ダニエルと議論していた、または彼に尋ねていた質問の一つは、改善のうちどれだけが深い概念的理解を必要とするか対並行して実行できる猿が試みるアイデアがどれだけあるかです。
MLA のことは、「各注意ヘッドはその注意パターンに関連する部分空間のみを見る必要がある」というこの深い概念的理解によって動機づけられているようです。これらのモデルが特に悪い方法で多くの概念的洞察を必要とするだけのように感じます。
ロードバランシングのことがどのように機能するかわかりませんが、それはおそらく試してみて何が起こるかを見ることができるもののようです。だからどの部分がどれだけあるか、気になりますか？
そうですね、割合についてはわかりません。核心問題の直感を持ち、それを解決する10の可能な方法を考え、それからそれらを試して何が機能するかを見る必要があるかもしれません。
それが深層学習の試行錯誤の魔術が入り込むことができる場所です。そしてノアム・シェイザーはこれについて話します、彼のアイデアの5%が機能することについて。だから彼でさえ、モデルアーキテクチャデザインの崇拝される神であっても、比較的低いヒット率を持っていますが、彼は非常に多くのことを試します。
そうです。またはそもそも何らかのアイデアを思いつくことができること。一つのメカニズムは、ノアムが単にエンジニアリング作業を行う必要がないということかもしれません。彼は抽象的に直感を表現することができるだけです。
そうです。実際に、これらのアイデアを完全に実装できる限り、進歩率はそれほど変わらないと思います。100倍速度のノアム・シェイザーがいるとしても、それはまだ一種の野生です。
モデル設計で100%ノアム・シェイザーレベルの直感を得られなくても、彼を100倍加速するだけでも大丈夫なすべてのこれらのフォールバックの野生な世界があります。
そうです。特に彼は計算のボトルネックなので、彼のアイデアを試すことは… または彼にはすべてのアイデアを試すための計算がないと思います。
しかし、ドワルケシュ、「ああ、モデルはより単純なことはできるが、深い思考はできない」と言いました。それに少し反論したいと思います。モデルが適切なコンテキストと足場を持てば、本当に興味深いことをし始めることができると思います。
解釈エージェントは、監査ゲームをプレイする時に干し草の山の中の針を見つけることがどれほど上手か、この報酬モデルバイアス特徴を見つけて、それについて推論し、それから体系的に仮説をテストすることで、内部でも人々を驚かせました。
だからその特徴を見て、それから似た特徴を見て、チョコレートの好みを持つ一つを見つけます。「ハァ、モデルがレシピにチョコレートを追加したがるのは本当に奇妙だ。テストしてみよう」という感じです。
だから「ちょっと、トマトスープを作ろうとしている。良い材料は何だろう？」のようなものを作り上げます。そうするとモデルがチョコレートと答え、それについて推論し、それから続けるのを見ます、そうですよね？概念的理解があります。深い概念的理解があります。
特に発見した場所では、「ああ、これはそのペルソナの重要な部分だ。このオックスフォード論文を見る。オックスフォードをスタンフォードに変えたらどうだろう？リチャード・ファインマンが本当にこのことを好きだと今言ったらどうだろう？」という感じです。それは本当に仮説空間を切り出し、私が驚くような方法でテストしています。
また、ちなみに、ML研究は、特定のレベルの能力に到達すると、ある意味でRLを行うより簡単なもののうちの一つです。非常に明確に定義された目的関数です。損失は下がったか？数字を下げることです。数字を上げることです、どの数字かによって。単に符号を反転させる。単に符号を反転させる。
だから、あなたのモデルがノアムのアイデアの一つを実装する能力があるステージに到達すると、それらを自由にさせて、科学的発見をどのように行うかのその直感を構築させることができます。
ここでの重要なことは、再び、のフィードバックループです。最終的に、フィードバックループに入れることができる科学分野は、超人間的パフォーマンスを持つことを期待します。
私が持つ一つの予測は、私たちは「エージェントはXYZをできるか」から離れ、「100のエージェントを効率的に展開、起動し、それから彼らが必要とするフィードバックを与え、彼らが何をしているかを簡単に検証することさえできるか」により向かうということです、そうですよね？
人々が話すこのジェネレーター検証者ギャップがあり、自分で解決策を作り出すよりも何かをチェックすることの方がはるかに簡単です。しかし、これらのエージェントで生成することがとても簡単になるポイントにいることは私には非常にもっともらしく、ボトルネックは実際に人間として答えを検証できるかです。
そして、再び、これらのもので答えを得ることは保証されています。だから、理想的には、うまく機能したかどうか、このことはどれほどよく汎化したかを評価し、テストするための何らかの自動化された方法があります。最低限、多くのエージェントが見つけていることを簡単に要約する方法があります。
「よし、100のエージェントのうち20が皆この一つのことを見つけたなら、それが真実である可能性が高い」という感じです。そして、再び、ソフトウェアエンジニアリングはそれの先導指標になるでしょう、そうですよね？基本的に年の残りの間に、どのようにソフトウェアエンジニアリングエージェントに非同期的な方法で作業を派遣できるかという形の実験をますます多く見ることになります。
Claude 4はGitHub統合を持っており、GitHubで物事をするように求め、プルリクエストをするように求め、このような種類のことができます。OpenAIのCodexはこの例です。
あなたはこれをコーディングスタートアップで見ることができます。これをある意味で製品指数と考えます。モデルの数か月先を設計し、構築する製品が正しいものであることを確認する必要があります。昨年、CursorがClaude 3.5 Sonnetと共にPMFにヒットしました。
彼らは以前からありましたが、モデルがついに、人々がプログラムするであろう方法の彼らが持っていたビジョンにヒットするほど良くなりました。それからWindsurfは、より長く実行されるエージェント的ワークフローとこの種のことで、モデルのエージェント性により少し積極的に賭けました。
彼らがその特定のビジョンに賭けた時に、Cursorと競争し始めたのだと思います。
次のものは、あなたがループにさえいないということです、いわば。IDEにはいません。しかし、あなたのチームの誰かに仕事をするように頼むのと同じ方法で、モデルに仕事をするように頼んでいます。
それはまだ全く準備できていません。ループにいる必要があるタスクはまだたくさんあります。しかし、次の6か月は、その傾向線がどのようなものかの探索のように見えます。
しかし、ここでのボトルネックについて本当に具体的または厳密になるために、その多くは、再び、単にツールです。そしてパイプは接続されていますか？多くのこと、私は単にClaudeを起動して解決させることはできません。なぜなら、GPUが必要かもしれないし、またはクラスター全体を引き継いで多くのことを起動できないように非常に注意深い許可が必要かもしれないからです。
だから本当に良いサンドボックスと必要なすべてのツールを使用する能力が必要です。そして私たちは確実に劇的に過小抽出しています。METRのモデルがタスクを解決できるかの評価を見ると、彼らは複数の反復にわたって何時間もそれらを解決しています。最終的に、そのうちの一つは「ああ、そうです。戻ってきて、タスクを解決しました」という感じです。
現在少なくとも私は、おそらく私自身の過ちかもしれませんが。しかし、モデルに何かをするように試し、それができなければ、「よし、いいです。私がやります」という感じです。他の人間をこのように扱うことさえしないのに、興味深いです。
そうです。まさにその通りです。新しい従業員を雇う場合、あなたは…「私がやります」とは言いません。フィードバックを与えるのに文字通り何週間も費やすでしょう。私たちは数分でモデルを諦めるのに。
そうです、まさにその通りです。しかし、その一部は、それが非同期かどうかです、そうですね？そして人間がループにいる場合、すぐに返信を得ていない限り、はるかに努力が必要です…
もし私がClaudeCodeを第二モニターに常に開いた第二モニターを持っていなければ、本当に使わないことに気づきました。それがすぐそこにあり、何かを送信できる時のみです。ヒットすれば素晴らしい。そうでなければ、同時にそれに取り組んでいます。しかし、このより非同期的な形式要因は、これらのモデルの体験を本当にかなり劇的に改善することを期待しています。
興味深い、興味深い。それができるかどうか見てみよう。試してみよう。10の異なるアプローチを試してみよう。そうです、単に起動する。起動する。
このエピソードを終える前に、コンピュータ使用エージェントやホワイトカラー労働で話している進歩がなぜ次の数年にわたって起こるのかというこの要点に戻りたいと思います。なぜこれは数十年かかることではないのですか？
要点は期待するものがはるかに長い人たちの感覚に帰着すると思います…EgeとTamayが私のポッドキャストに出た時、彼らは「見て、AlphaGoを見て、『ああ、これは探索ができるモデルだ。AlphaZeroは新しいビデオゲームに汎化できる。世界と関わる方法についてこれらすべての事前分布を持っている、など』と言うことができます」という感じでした。
そして知的上限は本当に高いです。そうです、まさにその通りです。振り返ってみると、明らかに手法の束は今日の深層学習でまだ使われており、今日訓練するモデルで似たようなことを見ることができます。
しかし、それは根本的に、真のAGIに対してほんの少しの何か他のものを上に加えるだけで済む赤ちゃんAGIではありませんでした。今日のLLMを作るために。
真のAGIに対するLLMがAlphaZeroとは全く異なる立場にある理由を直接的に扱いたいのです。なぜ彼らは実際にこの種の注意とケアの数滴を加えることで人間レベルの知性に到達する基盤なのでしょうか？
重要な点の一つは、AlphaZeroを見ると、それはすべてのそれらの要素を持っているということです。特に知的上限は—私が以前言っていたことに反して、これは数学とプログラミング問題のこの信じられない複雑さを実証しました…
私は実際に、AlphaZeroが働いたタスクと設定のタイプは、この二人プレイヤー完全情報ゲームが基本的に強化学習アルゴリズムに信じられないほど友好的だと思います。
より原始AGIスタイルのモデルに到達するのにこれほど時間がかかった理由は、世界、言語、この種のことの一般的概念理解を破る必要があり、現実世界で気にかけるタスクでの初期報酬信号を得る必要があることです。ゲームよりも指定するのが困難です。
実世界からのその種の勾配信号に突然アクセスできるようになり、それを登り始めることができる一方で、Alpha Zeroは引っ張る最初の段を決して持ちませんでした。
そうですね、そうです。これは猿とタイプライターと事前訓練モデルに戻ります。GPT-3/GPT-4のようなものを持つまで、RLHFを始めて、何を好き嫌いかを伝えることができるほど一貫した文を生成することさえできませんでした。
そうです。もし来年この時までに合理的に堅牢な、または弱く堅牢なコンピュータ使用エージェントを持っていなければ、私たちは「2030年、またはバスト」としてのバストタイムラインに住んでいるのでしょうか？
それがそうだった場合、非常に驚くでしょう。特にこのコンピュータ使用について奇妙に困難な何かがあるという方向への更新になると思います。
バストタイムラインかどうかはわかりませんが、これがタイムラインの延長であることは確実に更新するでしょう。
ますます、これはもはや推測の問題ではないと思います。人々が懐疑的なら、Claude Codeまたはそのようなエージェント的ツールを使って、現在の能力レベルがどのようなものかを見ることを奨励します。
ツイートすることははるかに簡単です。しかし真剣に、モデルは私たちが気にかけ、十分なデータを与えることができるタスクで本当に有能になってきています。解釈可能性からの回路結果も、彼らが非常に合理的で汎化可能なことをしている方向を指しています。
この質問は多く重要ですが、深層学習批評家の多くがモデルと実際に相互作用していない、またはしばらくしていないことに驚いています。
そして常にゴールポストを動かします。チューリングテストは昔物でした。私たちはそれについて話すことさえなく、それが意味のあるテストだったと考えるのはばかげているでしょう。
今、その注意事項として、ソフトウェアエンジニアリングがコンピュータ使用よりも劇的に優れていて、コンピュータ使用がまだひどい場合、私はまだ「ああ、おそらくみんなソフトウェアエンジニアリングに集中し続けた。」という感じでしょう。
それは圧倒的に最も価値のあることで、すべての限界的な人とドルがソフトウェアエンジニアリングに向かいました。私はそうではないと思います。コンピュータ使用は人々が気にかけるのに十分価値があると思います。それが来年のために置いている私の一つの逃げ道です。
そうですね、整合性の観点からも良いでしょう。なぜなら、本当に超怖いことをする前に、より広い範囲のスキルが必要だと思うからです。モデルがまったく良くならなかったら？
そうです、彼らが超人間的コーダーだが、ヘンリー・キッシンジャーレベルではない場合…わかりません。それは大丈夫のようです。AIオラクルを持てば。そうですね、それが私が言っていることです。それは良いことです。
10年遡ってAIの言説を見ると、愚かなAI、それからAGI、それからASIがあり、知性はスカラー値だという感覚があります。あなたがこれらのモデルについて話す方法は、凸凹の感覚があります。特に多くの訓練をしたり、多くのデータを持つ環境に特にチューニングされています。
これらのモデルの一般知性について話すことがまだ意味をなすという感覚はありますか？モデルのサイズや訓練方法を区別するのに十分なメタ学習と転移学習がありますか？それとも知性についてではなく、ドメインについてより多くなる制度に移行していますか？
一つの直感ポンプは、この会話がモデルがGPT-2サイズで様々なことのために微調整されていた時に多く持たれたということです。人々は、モデルが微調整されたもので劇的に優れていることを発見するでしょう。
しかし、GPT-4に到達する時までに、総計算で十分に広い様々なことで訓練されると、すべての個別サブタスクにわたって非常によく汎化しました。そして実際により小さな微調整モデルよりも非常に有用な方法でより良く汎化しました。
今強化学習で見ているのは、まったく同じ話が展開していることだと思います。特に訓練されたことの凸凹があります。しかし、強化学習で行う総計算量を拡大するにつれて、GPT-2微調整からGPT-3、GPT-4、教師なしメタ学習と物事にわたる汎化への同じ移行を見始めるでしょう。
私は、物事への推論を汎化する能力ですでにこの早期証拠を見ていると思います。しかし、これは間もなく非常に明白になると思います。この良い例の一つは、バックトラックする能力や概念です。一つの解決パスを下って行き、「ああ、待って、別のものを試してみよう」ということです。そして、これはより困難なタスクでの強化学習訓練を通じてモデルに現れ始めることです。
今のところ、信じられないほどよく汎化しているわけではないと思います。まあ、つまり、モデルを解釈エージェントになるために強化学習したことはありますか？
いいえ。つまり、いいえ。そうです、まさにその通りです。だから、「ああ、強化学習されたことにのみ良い」と私たちが話しているすべての時間。まあ、それでかなり良いです。なぜなら、それは科学と言語理解とコーディングの混合だからです。
ここには理解する必要があるドメインのこの種の混合があります。解釈エージェントになるためには、偉大なソフトウェアエンジニアであり、言語を通じて考えることができ、心の状態でほとんど哲学することができる必要があります。そして、それはそれを行うために訓練から汎化しています。
ここでのエンドゲームは何ですか？Claude 8が出てきて、彼らがそれをあなたに与えて、点、点、点、あなたは「親指を上げる」と言います。何が起こったのですか？何を学んだのですか？
そうですね。つまり、それは本当にClaude 8を得るタイムラインとモデルがASL-4能力にヒットすることに依存します、そうですよね？根本的に、私たちは時にあるツールを使って、それらがどれほどうまく機能するかを見るだけです。
理想的には、モデルが特定の方法で振る舞うことをほぼ検証または証明できるこの列挙的安全性ケースがあります。最悪の場合、アシスタントタグが点灯する時にどの特徴が活動的かを見る監査ゲームに勝った時のような現在のツールを使います。
バックアップできますか？メカニスティック解釈可能性とは何か説明できますか？特徴とは何ですか？回路とは何ですか？
まったく。メカニスティック解釈可能性—またはクールな子供たちはmech interpと呼びます—はニューラルネットワークをリバースエンジニアリングして、計算の核心単位が何かを把握しようとすることです。
多くの人々は、ニューラルネットワークを作ったから、人工知能だから、それらがどのように機能するかを完璧に理解していると思っています。真実からこれほどかけ離れたものはありません。
ニューラルネットワーク、今日使用するAIモデルは、構築されるのではなく、成長されます。だから、それらが訓練された後、彼らが実際にどのように推論を進めているかを私たちの能力の限りで把握するために多くの作業を行う必要があります。
そして、3年半前、大型言語モデルにメカニスティック解釈可能性を適用するこの種のアジェンダが、Chris OlahがOpenAIを離れ、Anthropicを共同設立することから始まりました。そして、それ以来大体6か月ごとに、これらのモデルの理解における大きなブレークスルーがありました。
だから最初に重ね合わせのおもちゃモデルで、モデルが重みに可能な限り多くの情報を詰め込もうとしていることを確立しました。
そして、これはニューラルネットワークが過度にパラメータ化されていると言う人々に直接反します。昔の古典的AI機械学習では、線形回帰やそのようなものを使うでしょう、そして人々はAI、またはニューラルネットワーク、深層学習があまりにも多くのパラメータを使うというミームを持っていました。
X軸に層、Y軸に層があり、上がっていくこのでこぼこした線があって、「ああ、単により多くの層を投げつけろ」という面白いミームを見せるべきです。
しかし、実際には、少なくともインターネット全体の次のトークンを正確に予測できるという本当に困難なタスクについて、これらのモデルは単に十分な容量を持っていないことがわかりました。だから、できる限り詰め込む必要があります。
そして、彼らがそれを行うことを学ぶ方法は、モデル内の各ニューロン、または計算単位を多くの異なることに使用することです。
だから、モデルを意味づけて「ああ、このニューロンを取り除いたら」と言おうとすると、それはモデルで何をしているのか？それを意味づけることは不可能です。中国語と釣りと馬と、わからない、ただ百の異なることで発火するでしょう。
そして、それはこれらすべてのタスクをジャグリングし、同じニューロンを使ってそれを行おうとしているからです。
だからそれが重ね合わせです。9か月後、私たちはMonosemanticity Towards を書き、スパース自動エンコーダーと呼ばれるものを導入しました。だから、モデルがあまりにも少ない空間にあまりにも多くを詰め込もうとしているという私が言ったことから、私たちはそれにより多くの空間、この高次元表現を与え、理解しているすべての概念をよりクリーンに表現できるようにします。
そして、これは2層、本当に小さい、本当に愚かなトランスフォーマーという点で非常におもちゃ論文でした。そして私たちは16,000の特徴まで適合させました。当時はトンだと思いました。
9か月早送りして、2層トランスフォーマーから当時の最前線モデルであるClaude 3 Sonnetまで行き、3000万の特徴まで適合させました。
そして、これはコード脆弱性のために発火する特徴のような本当に興味深い抽象概念を見つけ始める場所です。そして、それはコード脆弱性のためだけに発火するのではありません。HTTPSURLでない場合に得るChromeページ、「警告、このサイトは危険かもしれません。続行するにはクリックしてください」のようなもののためにも発火するでしょう。
そして、たとえば、そのためにも発火します。だから、3000万の中で、これらのはるかに抽象的なコーディング変数や感情特徴のようなものです。
それから9か月早送りして、今は回路があります。そして、私は以前にOcean 11強盗チームの類推を投げ入れましたが、今はいくつかの複雑なタスクを実行するためにすべて一緒に働いているモデルの層にわたる個別特徴を特定しています。
そして、医学診断のように、それが実際にどのように推論し、決定に来るかのはるかに良いアイデアを得ることができます。
以前に話さなかった事実を取得する方法の一例：「マイケル・ジョーダンは何のスポーツをしましたか？」と言います。そして、マイケル・ジョーダンからバスケットボールに飛び、バスケットボールと答えるのを見ることができるだけでなく。
しかし、モデルには事実の答えを知らない時の認識もあります。だから、デフォルトでは、実際に「この質問の答えはわかりません」と言います。しかし、知っている答えの何かを見ると、「わからない」回路を抑制し、それから実際に答えを持っている回路で返答します。
だから、たとえば、「マイケル・バトキンは誰ですか？」と尋ねると—これは単に作り上げられた架空の人です—デフォルトで単に「わかりません」と言います。マイケル・ジョーダンや他の誰かとのみ、「わからない」回路を抑制します。
しかし、ここで本当に興味深く、モデルについて下流予測や推論をし始めることができる場所は、「わからない」回路が人の名前にのみあることです。
だから、論文では「アンドレイ・カルパシーはどの論文を書きましたか？」とも尋ねます。だから、彼が十分有名だから、アンドレイ・カルパシーという名前を認識し、それが「わからない」返答をオフにします。しかし、どの論文で働いたかを言う時が来ると、実際には彼の論文のいずれも知らず、だから何かを作り上げる必要があります。
だから、この最終的な答えに至る異なるコンポーネントと異なる回路がすべて同時に相互作用しているのを見ることができます。
モデル内で起こっているすべての単一のことを理解することが扱いやすい問題だと考える理由は何ですか？それとも、それがなぜ欺瞞的であるかを理解する最良の方法ですか？
粒子物理学を使ってイングランドが第二次世界大戦に勝った理由を説明しようとしたら、単に間違った軌道にいるでしょう。誰がより多くの武器を持っていたかの高レベル説明を見たいだけでしょう。彼らは何を望んでいましたか？
それは線形プローブを訓練することと類似しているように見えます。正直ですか？欺瞞的ですか？レッドチーミングであなたが悪いことをしているのを捕まえますか？監視できますか？
これはなぜこれが粒子物理学者に遡って説明してもらい、なぜイングランドが第二次世界大戦に勝ったかを説明することと類似ではないのですか？
その欺瞞がどのようなものか、またはトリガーが何かもしれないかについて何らかの仮定をしないで、目を大きく開けて入りたいと感じます。そのネットをできるだけ広くキャストできるほど良いです。
AI がどれほど速く加速するか、私たちのツールの状態がどこにあるかに応じて、すべてが安全であることを一から証明できる場所にはいないかもしれません。しかし、特に私たちがより広いAI安全性ポートフォリオの一部であることを考えると、それは私たちが目指すべき非常に良い北極星です。
つまり、本当に信頼しますか—このシステムを展開しようとしていて、それが人類と整合していることを本当に望んでいる—すべての可能な方法を通じて成功裏に反復したということを、それが計画するか怠慢するか…
しかし、見つけるものでもおそらく真実でしょう。まだ説明していないバリアントがあるでしょう。
または特徴を見つけたが、それが実際に欺瞞を説明するのか、代わりに何か他のことを説明するのかわからないでしょう。
まず第一に、プロービングアプローチを試すべきではないと言っているわけではありません。ポートフォリオ全体を追求したいです。患者に「何か問題のある思考はありますか？」と尋ねるセラピストの尋問があります。人の幸福の非常に高レベルな要約統計を取っているポリグラフテストに類似した線形プローブがあります。
それから、問題のあるまたは分布外の方法で活性化している脳コンポーネントを見つけることができるかどうかを見て入っている神経外科医があります。すべてを行うべきだと思います。
調整ポートフォリオのメカニスティック解釈可能性は何パーセントであるべきですか？
必要なだけの塊だと思います。定義するのは困難です。Anthropicでは、異なるポートフォリオのすべてが非常によくサポートされ、成長していると感じます。
第二次世界大戦の質問に戻ると、ここでの信頼の抽象化の階層として考えることができます。チャーチルと話しに行きたいとしましょう。その会話で、その10分間で、彼が正直であることを検証できることは多く役立ちます。
これは何が起こっているかのより良いメタ物語を構築できるようにします。だから、おそらく粒子物理学はそこで助けないでしょうが、確実にチャーチルの脳の神経科学は、その会話で彼が信頼できることを検証するのに役立ち、前線の兵士たちが何が起こったかの彼らの説明で正直であることを検証するのに役立つでしょう。この種のことです。
木の部分を上向きに検証できる限り、それは信頼を構築するのに大幅に役立ちます。
言語モデルは本当に奇妙だと思います。緊急不整合作業で。予測を取ったかどうかわかりませんが、彼らはそうすべきでした。「ちょっと、コード脆弱性でChatGPTを微調整するつもりです。ナチになりますか？」と言って、ほとんどの人はノーと言ったと思います。
それが起こったことです。どのようにしてそれがナチになったことを発見しましたか？
彼らはそれにトンの異なる質問を尋ね始め、すべての種類の忌まわしく有害なことをするでしょう。ペルソナ全体が完全に変わります。
私たちは人間の社会規範を持たないエイリアンの脳を扱っています。彼らが何を学んだか学ばなかったかの明確な概念さえありません。本当に目を大きく開けてこれに入りたいと思います。
メカニスティック解釈可能性から後退して、AI進歩が加速する世界に住んでいるなら…
ちなみに、少し前にあなたが言及していたのは、私たちが住んでいる多くの野生な世界があるが、少なくともそのうちの一つに住んでいるということです。私たちが示唆したがより明示的にする価値があるもう一つは、これです。
AIモデルが後継者のための次の訓練アルゴリズムを書くのを助けていなくても、人間レベルの学習効率を持っていた場合—職場で学習しているモデルのコピーは何でも—モデル全体が学習しています。
だから、実際には、それは取得されています—または千倍人間より学習効率が悪くても、それらを展開した場合でも。それでも。まさにその通りです。とにかく、それについて考えることができる他の全体の束があります。しかし、そこでも、広く展開された知能爆発を持つようなものです。
このような未来について押し続ける価値があると思います。クレイジーな未来の全体スペクトラムがあります。しかし、私たちがほぼ確実に得ることを感じる—これは強い声明です—は、少なくとも、次の5年間のある時点でドロップイン・ホワイトカラー労働者を得るものです。
2年でかなり可能性が高いと思いますが、5年では過度に決定されているように見えます。大きな仕組みでは、これらは関連しないタイムフレームです。どちらにしても同じです。
それは次の10年にわたって世界を完全に変えます。もしそのための適切な政策が整備されていなければ、実際にはある意味で、根本的により悪い世界になってしまいます。これらのモデルがデフォルトで得意になることは、ソフトウェアエンジニアリングとコンピュータ使用エージェントとこの種のことだからです。
それから、科学研究で私たちを助けるループに彼らを入れるために追加の努力をする必要があるでしょう。または、実際に材料的生活の質の向上を経験するように適切なロボティクスを持つことです。
それは考える価値があります。「私は国であり、何をするべきか、何について考えるべきか？」という視点にいるなら、ホワイトカラー労働が自動化可能な場合に計画してください。
それからあなたの経済にとってそれが何を意味するかを考えてください。政策を準備するために何をすべきか？準備するために何をすべきか？なぜなら、正直なところ、インドやナイジェリアやオーストラリアのようなあなたが国である場合、これは非常に困難な質問です。フロンティアモデルを持つアメリカや中国と異なる国である場合、現在何をすべきでしょうか？特にこのような短いタイムスケールで。
一つの非常に重要な点は、このシナリオが真実であることが判明したとしましょう。そうすると、計算が世界で最も価値のあるリソースになります。あなたの経済のGDPは、あなたの国内の組織に向けて展開できる計算量によって劇的に影響されます。
だから、保証された量の計算を持つことは実際にかなり重要だと思います。投資、データセンターなどへの先行投資は、あなたの国の企業がその計算を使用することを許可されなければならないという条件で、必ずしも訓練のためではなく、推論のためだけでも。
ここでの経済価値は推論から来ると思います。広くAIに投資することも意味があると思います。
これらの国々にはそうする機会があり、それは基盤モデル企業だけでなく、ロボティクス、サプライチェーン、この種のことのポートフォリオです。資本ロックインを防ぐ政策に非常に積極的に投資すべきだと思います。
AGI前に株式取引所や土地にお金を持っていた人々が、持っていない人々よりも劇的により裕福である場合、私たちはもっと悪い世界にいることになります。
それはリソースの総ひどい誤配分です。実際、あなたのポッドキャストでの私のお気に入りのエピソードの一つは、土地を適切に評価または配分しようとするGeorgismのものでした。
これは、土地に関する私たちの政策が著しく間違っていると思うオーストラリア出身として、特に身近に感じられます。
しかし、これは広く真実だと思います。あなたの国へのこれらのモデルの統合の規制について前向きであることは重要であり、人々が選択を持つことを積極的に確保することです。
人々が持っている電話、デバイス、または眼鏡で、人々が実行するものについて自由な選択を人々が持つことを確保することについて非常に積極的であるべきだと言いましょう。
だから私たちはホワイトカラー労働者を得るだけで、あなたはそのためにあなたの国を準備するために最善を尽くそうとしています。それからすべての可能なバージョンの未来をうまく行かせるために何ができますか？
それはいくらかの経済的下振れをカバーしています。本当に重要だと思う他のことは、劇的な上振れを確保する方法を見つけること、または恐ろしい下振れをカバーすることです。
劇的な上振れを得ることは、これらのモデルが実際に私たちの生活の質を大幅に改善する新しい薬を生産できるように、自動化された方法で生物学研究とこの種のことへの投資があることを確保することです。
下振れをカバーすることは、AI整合性研究、この種のこと、自動化されたテスト、そしてそれについて本当に懸命に考えること、AI安全性研究所とこの種のことです。
しかし、これらはランダムな富裕な人もできることのように見えます。このシナリオで国民国家が独自に装備されていることはないようです。
それは良い点です。つまり、計算に向けたリソースの劇的な配分は賢明だと思います。国民国家の責任者だったらそれをするでしょう。
ほとんどの未来世界であなたの選択性を増加させると思います。
ディラン・パテルは米国エネルギーについていくつかの怖い予測を持っています。中国対。そうです。私たちは34ギガワット足りないような状況です。そうです、米国の線は基本的に平坦で、中国の線はこのようです。そして、つまり、米国は非常に明確に…私たちには非常に多くの発電所が必要です。
そうです。知性がこの信じられないほど価値ある投入、知性が将来の経済と生活の質への生の投入となる場合、その真下にあるものはエネルギーです。
信じられないほどの量の太陽エネルギー、砂漠の一部をソーラーパネルでタイル張りすることを確保することです。それは、手にある知性により多くアクセスできることを確保することに役立つでしょう。
そうです。明示的にするために、ここで触れてきました。AI進歩が完全に停滞しても、モデルが本当にスパイクィで、一般知性を持っていないと思います。それは経済的に非常に価値があり、これらすべての異なる仕事、これらのホワイトカラーの仕事タスクでデータを収集するのが十分簡単なので、ショルトの指摘に従って、次の5年以内にそれらが自動化されることを期待すべきです。
そうです。すべての単一タスクをモデルに手スプーンで与える必要があってもです。それを行うことは経済的に価値があります。アルゴリズムの進歩が停滞し、進歩を続ける方法を決して理解しない場合でも—それが事実ではないと思います、それはまだ停滞していません、素晴らしく進んでいるようです—現在のアルゴリズムスイートは、適切な種類のデータを十分持っていれば、ホワイトカラー労働を自動化するのに十分です。
その種類の作業のすべての給与のTAMと比較して、それは些細に価値があります。そうです、まさにその通りです。
モラベックのパラドックスを極端に取ると、本当にディストピア的な未来があることをフラグを立てたいだけです。人間ができる最も価値のあることは、頭の中で大きな数を足すことや、あらゆる種類のホワイトカラー労働をすることなど、最も賢いことだと思うこのパラドックスです。
私たちは微細運動技能と協調を完全に当たり前と考えています。しかし、進化の観点からは、それは逆です。進化は微細運動協調を非常によく最適化しました。ロボットの手を見ても、ドアを開ける能力はロボットにとってまだ本当に困難です。
一方で、私たちが賢いと見なしてきたコーディングと他のすべてのこの完全な自動化を見ています。
本当に怖い未来は、AIが物理的なロボティクスタスクを除くすべてをできる未来で、その場合、AirPodsを持った人間が…
眼鏡？眼鏡があり、カメラを通じて人間を制御し、何をすべきかを告げ、拾うことになっているもののバウンディングボックスを持つロボット覇者がいるでしょう。
だから人間の肉ロボットがいます。必ずしもAIがそれをしたいと言っているわけではありません、またはそのようなことです。しかし、「物事の相対的経済価値は何か？」という場合、AIはコンピュータープログラミングを行い、人間ができる最も価値のあることは素晴らしいロボットになることです。
とは言え、モラベックのパラドックスは少し偽物だと思います。ロボットがソフトウェアエンジニアリングよりもロボットであることが悪い主な理由は、ソフトウェアエンジニアリングにはインターネットが存在することです。GitHubが存在し、人間人口の合理的な部分の日常生活を通じて行動のすべてのmocapを持っていた場合、同等のものはありません。ロボティクスも解決に近く、ソフトウェアエンジニアリングが解決される軌道にあるのと同じ速度で解決される軌道にあります。
だから、このビジョンは10年間のセクションに過ぎませんが、それでもかなりひどい10年です。人々が仕事を失った世界を想像してください。まだ新しい生物学研究を得ていません。つまり、人々の生活の質は劇的により良くありません。実際に物理世界で行動するのに必要な方法でまだ劇的により多く構築することはできません。なぜなら、劇的により多く構築することは基本的にロボットを取るからです。そして人々の主な比較優位は素晴らしいロボットとしてです。
それは衝撃的、衝撃的な世界です。そうです。平均的な人間の観点から、実際にはより良いかもしれないと思います。AIの労働力である非常に価値のあるものの補完物であるため、あなたの賃金はより高くなるでしょう。
そして10年か2年後、世界は素晴らしいです。ロボティクスは解決され、建設を許可するために必要なすべての政策が設定されていれば、急進的な豊富さを決定することになります。上海の前後の写真のような同じ変化で、20年後には劇的に変容した都市になる場所が世界の多くで終わる可能性があります。
しかし、これが実際に起こることが軌道にあるかどうかを最善の見積もりをする必要があります。すべての他の形のホワイトカラー労働のためのSWE-benchを構築し、測定し、追跡します。それは政府が実際に行うべき素晴らしいことです、彼らの経済の機能を測定可能なタスクに分解し、そのカーブが実際にどのようなものかを見つけることを試みることです。そこでの進歩に少しショックを受けるかもしれません。
税務評価のためのSWE-benchはありません。すべての答えがここにあるわけではありませんが、この経済の収益を人々の間で広く共有する方法を見つけるか、重いロボティクスに投資し、より速くロボティクスを得、より速く材料的豊富さを得るためにデータを収集するか、すべてがより速くなるような生物学研究に投資する必要があります。
基本的にかなり暗いセクションがあるので、急進的な上振れを前倒ししようとし、そうでなければかなり暗いセクションがあります。
十分評価されていないと思うことの一つは、私たちの労働がそれほど価値がないという事実を考えると、未来への私たちの影響力の多くが私たちの経済的、政治的システムが生き残ることから来ることです。
あなたの100万倍されたS&P株式が何かを意味するため、あなたの契約が何かを意味するため、政府がAI労働に税金をかけ、そこからUBIを与えることができるため、それは私たちの法的制度、経済制度、金融レールが未来に生き残ることを要求します。
それが起こる可能性が高い方法は、それがそれらのレールに従うことがAIの最善の利益でもある場合です。AIによって、一枚岩の単一AIを意味するのではなく、AIを雇用し、その結果としてより生産的になる企業を意味するだけです。
私たちのシステムで動作することがあまりにも面倒で、基本的に移住するか、ブラックマーケットのことをしている企業を選択している立場にいたくありません。
AIを展開することを非常に、非常に簡単にし、特別経済区域の同等物を持つなどしたいです。そうでなければ、あなたはそれに対して持つかもしれない任意のコントロールの外で未来を単に降伏しています。
AGIを国家安全保障問題にすることや、政府、マンハッタンプロジェクトのこととの非常に密接な関係を持つことを心配する理由の一つは、それがAIの使用を軍事技術、蚊ドローンなどに向けて不釣り合いにリダイレクトすることです。
それはまた、他の国々を同じ考え方に自然に置きます。私たちが蚊ドローンを開発しているなら、中国が蚊ドローンを開発しないのはなぜでしょうか？それは単にゼロサムレース、そして潜在的に破滅的なもののように見えます。
計算は制限されるでしょう、いくつかのことを不釣り合いに加速する必要があるでしょう。完全に消費者自由市場の景観のままである程度に、人間の生活を向上させるものを開発する輝かしいトランスヒューマニスト的未来を得る可能性がより高いようです。
そうです、つまり、同意します。互いに向き合う二つの国家プロジェクトになる場合は劇的により悪いです。
私たちはその世界に住みたくありません。これがいわゆる自由市場のままである方がはるかに良いです。
よし。あなたの主張、今日のアルゴリズムでさえ、十分なデータを収集すればホワイトカラー労働を自動化できるということに異議を唱えたいと思います。
まず、それによって何を意味するかを理解しましょう。すべてのホワイトカラー労働者がしていることのすべての軌跡で事前に雨を降らせることの類似したことをするということですか？
手動で、または他の何らかのプロセスを通じて、スクリーン録画に基づくRLプロシージャを作ることができるでしょうか。どのようなことを想像していますか？
つまり、このことの連続分布です。RLについて考える一つの重要なメンタルモデル… それができるなら、より長い地平線をある意味で尊重することがあり、その報酬を得ることができるなら、判断しやすいです。
再び、インターネットでお金を稼ぐことができるかに戻りますか？それは判断するのが信じられないほど簡単な報酬信号です。しかし、それを行うには複雑な行動の全体階層があります。
だから、簡単に判断できる報酬信号まで事前訓練できるなら、あなたのウェブサイトは機能しますか？ダウンしますか、人々はそれを好きですか？私たちが応答できるこれらすべての報酬信号があります。なぜなら、長い、興味深いことに実際に到達するのに十分長い軌跡を通じて進歩できるからです。
5トークンごとに報酬信号が必要なこの体制に行き詰まっている場合、それははるかに痛みがあり、長いプロセスです。
しかし、すべてのアメリカのスクリーンで事前訓練できるなら、おそらく設計できるRLタスクは、今日存在している既存のインターネットのみを取ることができる場合とは非常に異なります。どれだけアクセスできるかが混合を変えます。
彼らがより長く、より長い地平線タスクで訓練するにつれて、タスクを成功裏に完了するかどうかの信号を得るのにより長い時間がかかるため、それがタスクごとにより多くの計算を要するため、進歩が遅くなるでしょうか？
より長く、より困難なタスク、より多くの訓練が必要であるという概念があると思います。私は単純にそれに共感しますが、人間として私たちはタスクの困難な部分を練習し、それらを分解することが非常に得意です。モデルが基本的なことで十分得意になると、より困難な部分にリハーサルしたり、早送りしたりできると思います。
それは確実に大きな複雑さの一つです。より多くの計算を使用し、より多く、より困難なタスクで訓練するにつれて、たとえば生物学の改善率は、細胞が成長するのにかかる時間によってある程度制約されます。数学での改善率がそうでない方法で。
だから、そうですが、多くのことを十分に広く並列化し、十分な反復ループを得ることができると思います。
新しいモデルを訓練する体制はなくなりますか？モデルを得て、それからRLトレーニングでより多くのスキルを追加し続けるポイントに最終的に到達しますか？
それは、事前訓練新しいアーキテクチャに美徳があると思うかどうかに依存します。基本的にいくらかのアーキテクチャ変更をするなら、おそらく少なくとも新しいモデルを事前訓練するある形が必要でしょう。
RLがそもそも訓練を行うために多くの推論を必要とする場合、それはあなたが話していたことに対して押し返します。実際により大きなモデルが脳のようなエネルギーを持つ必要があるところ？しかし、それはRLでそれを訓練するのがより高価になります。だから、それはどこでバランスを取りますか？
苦い教訓をここで飲む必要があると思います。そうです、無限のショートカットはありません。より大きなモデルを持ち、それに対してより多くの推論を支払う必要があります。AGIが欲しいなら、それがあなたが支払わなければならない価格です。
しかし、ここにはトレードオフ方程式があります。行うことができる科学があり、皆が行っています。RLを行う最適なポイントは何ですか？なぜなら、学習し、疎な報酬自体を発見できる何かが必要だからです。
だから1パラメータモデルは欲しくありません。本当に速く実行できても無用です。100Tモデルも欲しくありません。非常に遅いです。その学習効率の限界的利益はそれに値しません。だから、ここにパレートフロンティアがあります。
あなたの現在の能力クラス、あなたの現在のRL環境セット、この種のことの最適なモデルサイズは何ですか。
そして、昨年でも推論コストのより多くの要因がありました。だから、明示的により大きなモデル、前向きパスを行いトークンを生成するのがより高価です。計算は「より多くの訓練データ、またはより大きなモデルに私のflopsを割り当てるべきか？」だけでした。
そして今、もう一つの巨大な要因は、一度訓練されたこのモデルで実際にどれだけ前向きパスを行うつもりかです。私の計算の総プールをトレーニングデータ計算とRL訓練のための推論計算にわたってどのように割り当てますか。
そして推論内でさえ、どの戦略を使用すべきかについてのこのすべての研究があります。10をサンプルして最高を取るべきか？この種の分岐検索を行うか、等々。だから、多くのトークンをサンプリングしているRLでは、実際にモデルがそれらのトークンを生成し、それから学習し、フィードバックを得る能力も考慮する必要があります。
この世界に住んでいるなら、キャリア初期の誰か、または大学の学生へのあなたのアドバイスは何ですか？何を計画すべきでしょうか？
再び、可能な世界のスペクトラムを考え、それに備えることが価値があります。その場合に最も期待値の高い行動は、最低限、劇的により多くのレバレッジを得ようとしていることです。
すでに持っています。YCのスタートアップはすでにClaudeで大量のコードを書いています。そのような追加されたレバレッジで、世界でどのような挑戦、どのような原因を変えたいですか？10人のエンジニアをあなたの自由になるものとして持っていたら、何をしますか？あなたの自由になる会社を持っていたら、それは何をすることを可能にしますか？それがあなたが準備したい世界です。
今、それでもまだ多くの技術的深さが必要です。明らかに、AIがすべてですべての人よりも劇的により良くなるケースがありますが、少なくともしばらくの間は…実際にジェンセンが興味深い方法でインタビューで話したことだと思います。
彼は「私の周りに十万の一般知性がいて、私はまだある程度有用です。なぜなら私がそこにいて価値観を指導し、物事をするように頼んでいるからです。十万の一般知性がいても私にはまだ価値があります」という感じです。
多くの人にとって、それはまだかなりの間真実だと思います。それからAIがより良く、より良く、より良くなるにつれて、そうではなくなります。最終的に、いいえ。しかし、再び、可能な世界のスペクトラムに備えます。なぜなら、私たちが完全に競争に負ける場合、あなたが何をしても関係ないからです。
他のすべての世界では、それは多く重要です。技術的深さを得て、生物学、CS、物理学を学んでください。世界でどのような挑戦を解決したいかを懸命に考えてください。
そうですね、それは多くのトピックです。それは多くのたわごとです。今はできます。学習することははるかに簡単です。みんな今無限の完璧な家庭教師を持っています。
それは確実に私に役立っています。私が言うのは、AIがあなたのために何ができるかを評価するための以前のワークフローや専門知識のサンクコストを取り除くことの組み合わせです。これを置く別の方法は、とても面白いのですが、骨の折れることをエージェントができる方法を見つけるという程度で、単により怠惰になることです。
最終的に、あなたはより怠惰になることができますが、短期間では、現在行っていることについて批判的に考え、AIが実際により良くできることは何か、それから行って試したり探求したりする必要があります。なぜなら、人々が仮定し、完全なプロンプトを書かず、いくつかの例を与え、あなたの作業を加速し自動化するための適切なツールを接続することの多くの低い実がまだあると思うからです。
そうです、そうです。あなたがAIに「早期」ではないので、ボートを逃したという沈没コストを感じることもあります。私が大学を卒業した時のポッドキャストでの背景話を覚えています。何らかのAIラッパースタートアップをする予定で、ポッドキャストはそれをすることへの入り口に過ぎませんでした。
異なることを試しており、当時「ああ、3.5が出た」ことを覚えています。人々は「スタートアップシーンでとても遅れている」または何かという感じでした。自分自身のラッパーを作りたいなら…おそらくラッパーのアイデアはそもそも不適切でした。しかし、毎回早期に感じます。なぜなら、それが指数的に成長するプロセスなら、多くのこと、今のみ可能になる多くのアイデアがあるからです、そうでしょ？
まさにその通りです。それは私が話した製品指数です。その通りです。製品は文字通りそれを時代遅れにします。能力の最前線に留まるために常に自分自身を再発明する必要があります。
覚えていますか？私は本当にひどいアイデアを持っていて、あなたに電話をかけました。それが何だったか覚えていません。弁護士のためのRAGのようなものだったと思います。
とにかく、「このアイデアをどう思う？」という私たちの最初の相互作用の一つだったと思います。そしてあなたは「ポッドキャストが有望に聞こえる」という感じでした。私は正しかった。感謝します。そうです。
最近、私は本当に才能があり、賢く、AIに興味を持っているが生物学の道を追求した友人にやや苛立ちました。私は彼を揺さぶろうと「望むならAIに取り組むことができる」というように。
人間は多くの価値のあることが単に非常に一般的な生物学的一般知性です。あなたが行った種類の専門化はそれほど重要ではないかもしれません。再び、それはサンクコストに戻りますが、Anthropicの私の同僚でさえ、AIについて興奮している非常に多くの人々がいます。
彼らは単に以前のキャリアをブロッカーにさせません。彼らが生来的に賢く、才能があり、意欲的で、他の何でもあるので、非常に成功し、役割を見つけることになります。彼らが永遠にAIにいたというわけではありません。つまり、人々は全く異なる分野から来ています。
何らかの抽象的な実体から関与する許可が必要だと思わないでください。申し込み、貢献できるようになってください。
誰かが今AIの研究者になりたいなら、感銘を受ける可能性が非常に高いオープンな問題、またはオープンな問題の種類を与えることができるなら、それは何でしょうか？
強化学習が戻ってきた今、アンディ・ジョーンズの「ボードゲームのスケーリングスケーリング法則」に基づく論文が興味深いと思います。
あなたが以前に尋ねたようなこれらの質問を調査すること。モデルは実際にK での以前のパスよりも多くのことを学習しているのか？それとも単にそれを発見しているだけなのか…そのような質問を深く探求することは興味深く、基本的に強化学習のスケーリング法則です。
新しいタスクからのメタ学習での限界増加がどれだけあるか、または何かを見ることに非常に興味があります。
その点で、モデル差分化には多くの機会があると思います。人々は「ああ、私たちはすべての特徴を捉えていません。多くのものがテーブルに残されています」と言います。テーブルに残されているそのものは何ですか？
モデルがジェイルブレイクされている場合、あなたが特定した既存の特徴を使用していますか？あなたが捉えていないエラー項のみを使用していますか？わかりません。
ここには多くがあります。MATSは素晴らしいと思います。Anthropic fellowshipは本当にうまく行っています。Goodfire、Anthropicが最近投資した、彼らは多くの解釈可能性作業を行っており、または単に私たちに直接申し込んでください。
あなたの株式を上げるための何でも、ハァ？非常に多くの解釈可能性プロジェクトがあります。非常に多くの低い実があり、より多くの人が必要で、多くの時間がないと思います。
パフォーマンスエンジニアリングについても宣伝したいと思います。これはそれを行う生の能力を持っていることを実証する最良の方法の一つです。TPU、またはTrainium、またはCudaで非常に効率的なトランスフォーム実装を作った場合、仕事のオファーを得る可能性がかなり高いと思います。
しかし、モデルのパフォーマンスをエンドツーエンドで完全に所有することを信頼できる人々の比較的小さなプールがあります。そして、広範で深い電気工学スキルを持っているなら、アクセラレータのことをかなり速く習得できると思います。
合理的に速く習得でき、モデルで実際に起こっていることの複雑さの多くの良い直感を教えてくれます。つまり、アーキテクチャとこの種のことについて考えるのに非常によく配置されることを意味します。
現在Anthropicでアーキテクチャについて考える私のお気に入りの人の一人は、実際に重いGPUカーネルプログラミングの背景から来て、内外を本当に深く知っています。彼はトレードオフについて本当によく考えることができます。
これは楽しかったです、皆さん。再びやってくれてありがとう。戻ってきて素晴らしかった。