ダリオ・アモデイ DeepSeekと輸出規制について

DeepSeekについて様々な意見が飛び交う中、大局的に真っ当な分析。
8,897 文字

Dario Amodei — On DeepSeek and Export Controls
On DeepSeek and Export Controls

2025年1月
数週間前、私は米国から中国へのチップ輸出規制を強化する必要性を主張しました。その後、中国のAI企業DeepSeekは、少なくともいくつかの面において、より低コストで米国のフロンティアAIモデルに近い性能を実現することに成功しました。
ここでは、DeepSeekがAnthropicのような米国のAI企業にとって脅威となるかどうかには焦点を当てません(彼らが米国のAIリーダーシップに与える脅威については、多くの主張が大げさすぎると私は考えています)。代わりに、DeepSeekのリリースがチップに関する輸出規制政策の正当性を損なうかどうかに焦点を当てます。私はそうは思いません。実際、これらの輸出規制は1週間前よりもさらに実存的に重要になったと考えています。
輸出規制は重要な目的を果たしています:それは民主主義国家をAI開発の最前線に維持することです。明確にしておきますが、これは米国と中国の競争を回避する方法ではありません。最終的に、民主主義国家のAI企業は中国のAI企業よりも優れたモデルを持たなければなりません。しかし、必要のない場合に中国共産党に技術的優位性を与えるべきではありません。
AI開発の3つの力学
政策に関する議論を始める前に、理解しておくべき3つの基本的なAIシステムの力学について説明します:
スケーリング則。AIの特性の一つ – 私と共同創業者たちがOpenAIで働いていた頃に最初に文書化したもの – は、他の条件が同じであれば、AIシステムのトレーニングをスケールアップすると、様々な認知タスクにおいて全体的に滑らかに良い結果が得られるということです。例えば、100万ドルのモデルが重要なコーディングタスクの20%を解決し、1000万ドルのモデルが40%、1億ドルのモデルが60%を解決するといった具合です。これらの違いは実践的に大きな影響を持つ傾向があります – さらに10倍のスケールアップは、学部生とPhDレベルのスキルの差に相当する可能性があります – そのため、企業はこれらのモデルのトレーニングに多額の投資を行っています。
曲線のシフト。この分野では常に、大小さまざまなアイデアが生まれ、より効果的または効率的になっています:それはモデルのアーキテクチャの改良(今日のすべてのモデルが使用する基本的なTransformerアーキテクチャの調整)かもしれませんし、単に基盤となるハードウェア上でモデルをより効率的に実行する方法かもしれません。新世代のハードウェアも同様の効果があります。これは通常、曲線をシフトさせます:イノベーションが2倍の「計算乗数」(CM)である場合、コーディングタスクの40%を1000万ドルではなく500万ドルで達成できるようになります。あるいは、60%を1億ドルではなく5000万ドルで達成できるようになります。フロンティアAI企業は定期的に多くのCMを発見しています:頻繁に小さいもの(約1.2倍)、時々中程度のもの(約2倍)、そして時折非常に大きいもの(約10倍)です。よりインテリジェントなシステムを持つことの価値が非常に高いため、このような曲線のシフトは通常、企業がモデルのトレーニングにより多くを費やす結果となります:コスト効率の向上は、企業の財務リソースによってのみ制限される、よりスマートなモデルのトレーニングに完全に向けられます。
パラダイムのシフト。時々、スケールされる基本的なものが少し変化したり、新しいタイプのスケーリングがトレーニングプロセスに追加されたりします。2020年から2023年にかけて、主にスケールされていたのは事前学習モデルでした:インターネットのテキストを増やして学習し、その上に少量の他のトレーニングを行うモデルです。2024年には、思考の連鎖を生成するために強化学習(RL)を使用してモデルを訓練するというアイデアが新たなスケーリングの焦点となっています。Anthropic、DeepSeek、そして他の多くの企業(おそらく最も注目すべきは9月にo1-previewモデルをリリースしたOpenAI)は、このトレーニングが数学、コーディングコンペティション、そしてこれらのタスクに似た推論において、特定の客観的に測定可能なタスクの性能を大きく向上させることを発見しました。
DeepSeekのモデル
上記の3つの力学は、DeepSeekの最近のリリースを理解するのに役立ちます。約1ヶ月前、DeepSeekは純粋な事前学習モデルである「DeepSeek-V3」をリリースしました – 上記の#3で説明した第一段階です。そして先週、彼らは第二段階を追加した「R1」をリリースしました。外部からこれらのモデルのすべてを判断することは不可能ですが、以下が2つのリリースについての私の最善の理解です。
DeepSeek-V3は実際には本当のイノベーションであり、1ヶ月前に人々の注目を集めるべきものでした(私たちは確かにそうしました)。事前学習モデルとして、それは一部の重要なタスクにおいて、トレーニングコストが大幅に低いにもかかわらず、米国の最先端モデルの性能に近づいているようです(ただし、Claude 3.5 Sonnetは特に、実世界のコーディングなどの他の重要なタスクではずっと優れていることがわかります)。DeepSeekのチームは、主にエンジニアリングの効率性に焦点を当てた、本物の印象的なイノベーションによってこれを実現しました。「Key-Value cache」と呼ばれる側面の管理において特に革新的な改良があり、「mixture of experts」と呼ばれる方法をこれまで以上に推し進めることを可能にしました。
しかし、より詳しく見ることが重要です:
DeepSeekは「米国のAI企業が数十億ドルかけたことを600万ドルで実現する」わけではありません。私はAnthropicについてのみ話せますが、Claude 3.5 Sonnetは中規模のモデルで、トレーニングに数千万ドルかかりました(正確な数字は述べません)。また、3.5 Sonnetは噂とは異なり、より大きくて高価なモデルを含むような方法では全くトレーニングされていません。Sonnetのトレーニングは9-12ヶ月前に行われ、DeepSeekのモデルは11月/12月にトレーニングされましたが、Sonnetは多くの内部および外部評価において依然として顕著に優れています。したがって、公平な表現は「DeepSeekは7-10ヶ月古い米国モデルの性能に近いモデルを、かなり低いコストで(しかし人々が示唆したような比率には全く近くない)生産した」というものです。
歴史的なコスト曲線の減少傾向が年間約4倍であるとすれば、通常のビジネスの過程で – 2023年と2024年に起こったような通常の歴史的なコスト減少の傾向で – 今頃3.5 Sonnet/GPT-4oよりも3-4倍安いモデルが期待されます。DeepSeek-V3はそれらの米国のフロンティアモデルよりも劣っているため – スケーリング曲線上で約2倍劣っていると言いましょう(これはDeepSeek-V3にかなり寛容だと思います) – それはDeepSeek-V3のトレーニングコストが1年前に開発された現在の米国モデルの約8倍少なくても、完全に正常で、完全に「トレンドに沿った」ものであることを意味します。私は数字を挙げませんが、前のポイントから明らかなように、DeepSeekのトレーニングコストを額面通りに受け取ったとしても、彼らは良くてトレンドに沿っており、おそらくそれさえも達していません。例えば、これは元のGPT-4からClaude 3.5 Sonnetの推論価格の差(10倍)よりも緩やかで、3.5 SonnetはGPT-4よりも優れたモデルです。
これらすべては、DeepSeek-V3が独自のブレークスルーではなく、LLMの経済性を根本的に変えるものではないということを示しています。それは進行中のコスト削減曲線上の予想されるポイントです。今回異なるのは、予想されるコスト削減を最初に実証した企業が中国企業だったということです。これは今まで一度も起こったことがなく、地政学的に重要です。しかし、米国企業もすぐに追随するでしょう – そしてそれはDeepSeekをコピーすることによってではなく、彼らもまた通常のコスト削減傾向を達成しているからです。
DeepSeekと米国のAI企業の両方が、以前よりもはるかに多くのお金と多くのチップを持っています。追加のチップはモデルの背後にあるアイデアを開発するためのR&Dに使用され、時にはまだ準備ができていない(または正しく動作させるために複数回の試行が必要だった)より大きなモデルをトレーニングするために使用されます。報告されていることですが – 確実ではありません – DeepSeekは実際に50,000個のHopper世代チップを持っていたとされており、これは主要な米国AI企業が持っているものの約2-3倍以内だと私は推測します(例えば、xAIの「Colossus」クラスターの2-3倍少ない)。それらの50,000個のHopperチップは約10億ドルのコストです。したがって、DeepSeekの企業としての総支出(個々のモデルのトレーニングに費やされる支出とは区別して)は、米国のAIラボと大きく異なるわけではありません。
「スケーリング曲線」の分析は少し単純化されていることを指摘する価値があります。なぜなら、モデルはある程度差別化されており、異なる強みと弱みを持っているからです。スケーリング曲線の数値は、多くの詳細を無視した粗い平均です。私はAnthropicのモデルについてのみ話せますが、上で示唆したように、Claudeはコーディングと人々との相互作用のよく設計されたスタイル(多くの人々が個人的なアドバイスやサポートのために使用しています)において非常に優れています。これらといくつかの追加のタスクにおいて、DeepSeekとの比較はできません。これらの要因はスケーリング数値には現れません。
先週リリースされ、公の注目を集めた(Nvidiaの株価が約17%下落するなど)R1は、V3よりもイノベーションやエンジニアリングの観点からははるかに興味深くありません。それは前のセクションの#3で説明した第二段階のトレーニング – 強化学習 – を追加し、本質的にOpenAIがo1で行ったことを複製しています(同様のスケールで同様の結果を持っているように見えます)。しかし、スケーリング曲線の初期段階にいるため、強力な事前学習モデルから始める限り、複数の企業がこのタイプのモデルを生産することが可能です。V3からR1を生産するのはおそらく非常に安価でした。したがって、私たちは興味深い「クロスオーバーポイント」にいます。そこでは一時的に、複数の企業が良い推論モデルを生産できる状況にあります。これは、誰もがこれらのモデルのスケーリング曲線をさらに上に移動するにつれて、急速に真実でなくなるでしょう。
輸出規制
これらはすべて、私の主な関心事であるチップの中国への輸出規制への前置きにすぎません。上記の事実に照らして、私は状況を以下のように見ています:
企業が強力なAIモデルのトレーニングにますます多くを費やす継続的な傾向があります。これは、曲線が定期的にシフトし、特定のレベルのモデル知能をトレーニングするコストが急速に低下している中でも続いています。より知的なモデルをトレーニングすることの経済的価値が非常に大きいため、コスト削減はほぼ即座に完全に食い尽くされ – 私たちが最初に計画していたのと同じ巨額のコストで、さらにスマートなモデルを作るために再投資されます。米国のラボがまだ発見していない場合、DeepSeekが開発した効率性のイノベーションはすぐに米国と中国のラボの両方に適用され、数十億ドル規模のモデルをトレーニングするために使用されるでしょう。これらのモデルは、以前に計画していた数十億ドルのモデルよりも優れた性能を発揮するでしょう – しかし、彼らは依然として数十億ドルを費やすでしょう。その数字は、ほとんどすべての人間がほとんどすべてのことにおいてよりスマートなAIに到達するまで、上昇し続けるでしょう。
ほとんどすべての人間がほとんどすべてのことにおいてよりスマートなAIを作るには、数百万個のチップ、少なくとも数百億ドルが必要で、これは最も可能性が高いのは2026-2027年です。DeepSeekのリリースはこれを変えません。なぜなら、これらの計算に常に組み込まれていた予想されるコスト削減曲線にほぼ沿っているからです。
これは、2026-2027年に、私たちが2つの全く異なる世界のいずれかに行き着く可能性があることを意味します。米国では、複数の企業が確実に必要な数百万個のチップを持つでしょう(数百億ドルのコストで)。問題は、中国も数百万個のチップを入手できるかどうかです。
もし彼らができれば、私たちは二極的な世界に住むことになります。そこでは米国と中国の両方が、科学技術の極めて急速な進歩をもたらす強力なAIモデル – 私が「データセンターの天才たちの国」と呼んだもの – を持つことになります。二極的な世界は必ずしも無期限にバランスが取れているわけではありません。米国と中国がAIシステムで同等であったとしても、中国がより多くの才能、資本、そしてテクノロジーの軍事応用に焦点を当てることができる可能性が高いように思われます。これは、大規模な産業基盤と軍事戦略的優位性と相まって、中国がグローバルステージでAIだけでなくすべてにおいて主導的な地位を確立するのを助ける可能性があります。
中国が数百万個のチップを入手できない場合、私たち(少なくとも一時的に)は一極的な世界に住むことになります。そこでは米国とその同盟国のみがこれらのモデルを持つことになります。一極的な世界が続くかどうかは不明確ですが、AIシステムが最終的にさらにスマートなAIシステムを作るのを助けることができるため、一時的なリードが持続的な優位性に変わる可能性があります。したがって、この世界では、米国とその同盟国がグローバルステージで主導的かつ長期的な優位性を確立する可能性があります。
十分に執行された輸出規制は、中国が数百万個のチップを入手するのを防ぐことができる唯一のものであり、したがって、私たちが一極的な世界に行き着くか二極的な世界に行き着くかを決定する最も重要な要因です。
DeepSeekの性能は輸出規制が失敗したことを意味しません。上述したように、DeepSeekは中規模から大規模な数のチップを持っていたので、強力なモデルを開発してトレーニングできたのは驚くべきことではありません。彼らは米国のAI企業よりも実質的にリソース制約が厳しかったわけではなく、輸出規制が彼らに「イノベーション」を強いた主要な要因ではありません。彼らは単に非常に才能のあるエンジニアであり、中国が米国の真剣な競争相手であることを示しています。
DeepSeekはまた、中国が常に密輸によってチップを入手できる、あるいは規制に常に抜け穴があることを示すものでもありません。私は、輸出規制が数万個のチップを中国が入手するのを防ぐように設計されていたとは考えていません。10億ドルの経済活動は隠すことができますが、1000億ドルや100億ドルでも隠すのは難しいです。100万個のチップも物理的に密輸するのが困難かもしれません。また、DeepSeekが現在持っているとされるチップを見るのも参考になります。SemiAnalysisによると、これはH100、H800、H20の混合で、合計5万個になります。H100は発売以来輸出規制の下で禁止されているので、DeepSeekがそれらを持っているとすれば密輸されたものに違いありません(NvidiaはDeepSeekの進歩が「完全に輸出規制に準拠している」と述べていることに注意してください)。H800は2022年の最初の輸出規制の下では許可されていましたが、2023年10月に規制が更新された際に禁止されたので、これらはおそらく禁止前に出荷されたものです。H20はトレーニングにはあまり効率的ではなく、サンプリングにはより効率的です – そしてまだ許可されていますが、私は禁止されるべきだと思います。
つまり、DeepSeekのAIチップ群の相当な部分は、禁止されていない(しかし禁止されるべき)チップ、禁止される前に出荷されたチップ、そして密輸されたように見えるものから成り立っているということです。これは輸出規制が実際に機能し、適応していることを示しています:抜け穴は閉じられています。そうでなければ、彼らはおそらく最先端のH100の完全な群を持っているはずです。私たちが十分に早く抜け穴を閉じることができれば、中国が数百万個のチップを入手するのを防ぎ、米国が先行する一極的な世界の可能性を高めることができるかもしれません。
輸出規制と米国の国家安全保障に焦点を当てていることを考えると、一つのことを明確にしておきたいと思います。私はDeepSeek自体を敵対者とは見ていませんし、彼らを特に標的にすることが要点ではありません。彼らが行ったインタビューでは、彼らは単に有用な技術を作りたいと思っているスマートで好奇心旺盛な研究者のように見えます。
しかし、彼らは人権侵害を行い、世界的な舞台で攻撃的な行動をとり、AIで米国に匹敵できるようになれば、これらの行動においてはるかに制約を受けなくなる権威主義的な政府に従属しています。輸出規制はこれを防ぐための最も強力なツールの一つであり、テクノロジーがより強力になり、より多くのバンフォーバックを得ることが、私たちの輸出規制を解除する理由になるという考えは全く意味をなしません。

脚注
1この論説では、西洋モデルからの蒸留に関する報告について立場を取りません。ここでは、DeepSeekが論文で述べた通りにトレーニングしたという彼らの言葉をそのまま受け入れます。↩
2ちなみに、DeepSeekモデルのリリースはNvidiaにとって明らかに悪いことではないと思いますし、これに対する株価の二桁(約17%)の下落は驚くべきことでした。このリリースがNvidiaにとって悪くないという主張は、AI企業にとって悪くないという主張よりもさらに明確です。しかし、この記事の主な目的は輸出規制政策を擁護することです。↩
3正確を期すと、それは推論のパラダイムシフト以前のモデルに典型的な少量のRL訓練を伴う事前学習モデルでした。↩
4いくつかの非常に狭いタスクではより強力です。↩
5これはDeepSeekの論文で引用されている数字です – 私はこれを額面通りに受け取っており、この部分を疑っているわけではありません。ただし、米国企業のモデルトレーニングコストとの比較、そして特定のモデルをトレーニングするコスト(600万ドル)とR&Dの全体的なコスト(はるかに高い)の区別について疑問を投げかけています。しかし、600万ドルについても完全に確信を持てるわけではありません – モデルサイズは検証可能ですが、トークンの量などの他の側面は検証できません。↩
6いくつかのインタビューで私は「50,000個のH100」と言いましたが、これは報道の微妙に不正確な要約であり、ここで訂正したいと思います。最もよく知られている「Hopperチップ」は圧倒的にH100です(私が言及されていると想定したもの)が、HopperにはH800とH20も含まれており、DeepSeekはこれら3つすべての混合を持っていると報告されており、合計50,000個になります。この状況はあまり変わりませんが、訂正する価値があります。H800とH20については、輸出規制について話す際にもっと詳しく説明します。↩
7注:この格差は輸出規制により、次世代のクラスターでは大きく広がると予想されます。↩
8私はR1が多くの注目を集めた主な理由の一つは、モデルが示す思考の連鎖をユーザーに見せた最初のモデルだったからだと思います(OpenAIのo1は最終的な答えのみを示します)。DeepSeekはユーザーがこれに興味を持つことを示しました。これは明確にするとユーザーインターフェースの選択であり、モデル自体とは関係ありません。↩
9注:中国独自のチップは当面米国製チップと競争できないでしょう。マット・ポッティンガーとの最近の論説で書いたように:「中国の最高のAIチップであるファーウェイAscendシリーズは、米国に拠点を置くNvidiaが製造する先端チップよりもかなり能力が劣ります。中国はまた、増大する需要に追いつくための生産能力を持っていないかもしれません。今日、中国外にはファーウェイAscendチップの注目すべきクラスターが1つもないことは、中国が国内のニーズを満たすのに苦労していることを示唆しています…」↩
10明確にしておきますが、目的は中国やその他の権威主義国家から、非常に強力なAIシステムがもたらす科学、医学、生活の質などにおける莫大な利益を否定することではありません。誰もがAIの恩恵を受けられるべきです。目的は彼らが軍事的優位性を獲得するのを防ぐことです。↩
11いくつかのリンクがあります。主な行動のいくつかをカバーするために:1つ目、2つ目、3つ目、4つ目。↩

コメント

タイトルとURLをコピーしました