Last Week in AI #198 – DeepSeek R1、Qwen 2.5、OpenAI エージェント

33,682 文字

Last Week in AI #198 - DeepSeek R1, Qwen 2.5, OpenAI Agents
Our 198th episode with a summary and discussion of last week's big AI news!Recorded on 01/31/2024Join our brand new Disc...

こんにちは、Last Week in AIポッドキャストへようこそ。いつものようにAIに関する最新情報についてお話ししていきます。今回のエピソードでは先週の最も興味深いAIニュースをまとめて議論していきます。より多くのニュースはLastWeek in AIのニュースレターでもご覧いただけます。
私は司会のアンドレ・コフです。大学院でAIを学び、現在は生成AIのスタートアップで働いています。そして私はジェレミー・ハリスです。AI国家安全保障企業のGladstone AIの共同創設者です。本題に入る前に一言。アンドレは今週も頑張ってくれました。この週も前の週も本当に大変で、前の週の分もカバーしきれていないので今回は2週間分になります。私が急遽「20分しか時間が取れない」と言ったときも、いつもは交互に制約がある中でなんとかやりくりしていますが、今週は私の都合で申し訳ありません。彼は親切にもいくつかの話題を削ってくれました。おそらく後で取り上げることになるでしょうが、とにかく盛りだくさんです。
予想通り、特にDeepSeekについて多く話すことになりますが、ビジネス面や政策面でも動きがあります。ジェレミー、あなたが忙しかったのは、アメリカで新政権が動き出したからでしょうね。とにかくたくさんの話題があります。
では早速深く掘り下げていきましょう。まず最初に、いつもと違ってプロジェクトとオープンソースから始めます。DeepSeek R1から始めて、Qwenモデルやその他のモデルについて話し、ツールやアプリケーションについても取り上げます。これらもDeepSeekやQwenに関連していますが、PerplexityアプリケーションやOpenAIの最新情報なども。OpenAIについては時にニュースの半分を占めることもあります。MicrosoftやDeepSeekも。今週は研究の部分は主にスキップして、DeepSeekを深掘りする予定です。その後、新政権に関連する政策と安全性の話題、そして普段通り地政学的な話題も取り上げます。
それと、YouTubeをご覧の方は気付かれるかもしれませんが、アンドレの歯が良くなっています。このポッドキャストを初めて聴く方には変な話に聞こえるかもしれませんが、そうでない方にも私は変人に聞こえるでしょうね。でも、手術は上手くいったみたいですね?
はい、年始の不運な出来事から完全に回復しました。気づいていただきありがとうございます。
リスナーの話が出たところで、ニュースに入る前に、リスナーからのコメントや訂正にも少し触れたいと思います。Apple Podcastsで最近面白いフィードバックを見かけました。5つ星レビューで「一貫して若いシリコンバレーのブロ的なクオリティで、常に時代遅れなのに応援し続けている。皮肉なことにDeepSeek R1の直前にハードウェアの回をやったのが良い例」という内容でした。
興味深い意見ですね。フィードバックありがとうございます。この点について、1月初めにDeepSeek V3を取り上げた回を聞き直してみました。ジェレミー、あなたは称賛に値します。当時、私たちはこれを非常に重大な出来事として取り上げ、彼らがいかに効率的にトレーニングできたのか、6百万ドルのコストについてなど、技術的な詳細まで深く掘り下げました。これはR1以前のV3の話です。
ありがとうございます。素晴らしいですね。R1とR10について話すときに触れますが、ある意味で、V3に関する最初のポッドキャストを聴いていた人なら、R1とR0について驚くことはないでしょう。当時の私たちの話し方を見れば、これがGPT-4やGPT-01と同等のポテンシャルを持つベースモデルであることは明らかでした。良いベースモデルがあれば、強化学習のための最適化ルーチンだけが必要で、それが実を結んだわけです。
まず、「status quo young Silicon Valley Bros(現状維持の若いシリコンバレー野郎)」という表現が気に入りました。Tシャツを作ろうと思います。「皮肉なことにDeepSeek R1の直前にハードウェアの回をやった」という指摘について、このレビュアーが具体的に何を皮肉だと考えているのか聞いてみたいですね。
R1とR0のハードウェアへの影響については、多くの人が誤って解釈していると思います。実際には、これはNVIDIAのエコシステムやスケーリングにとって非常にポジティブな示唆を含んでいます。これは投資アドバイスではありませんが。レビュアーが他の何かを指しているのかもしれませんが、その場合は興味深い指摘だと思います。今や誰もがハードウェアについて話していますからね。
レビューありがとうございます。このような建設的なフィードバックは常に参考にさせていただきます。
Discordでも多くの議論や質問があり、楽しく拝見しています。DeepSeekとアメリカの規制に関する質問がありました。過度の慎重さが米中の競争にどう影響するかという点です。政策と安全性のセクションでこの話題に戻り、地政学的な影響について議論したいと思います。discombobulated penguinさん、質問ありがとうございます。
では、この導入を終えて本題に入りましょう。先ほど申し上げたように、プロジェクトとオープンソースから始めます。最初の話題はもちろんDeepSeek R1です。論文のタイトルは「DeepSeek R1: Incentivizing Reasoning Capability in LLMs Via Reinforcement Learning」です。
多くの方はすでにDeepSeek R1についてご存じかもしれませんが、簡単にまとめてみましょう。DeepSeek R1はOpenAI GPT-01と同等もしくは競合するモデルです。推論に最適化されたチャットボットで、Cloud SonetやGPT-4が苦手とする難しい問題に対応することを目的としています。
この論文はDeepSeek V3の発表からわずか数週間後に公開されました。DeepSeek V3は彼らが出発点としたベースモデルです。例えばGPT-01はおそらくGPT-4から始まったように、このモデルもDeepSeek V3の上に構築されており、ゼロからトレーニングされたわけではありません。
論文には非常に興味深い詳細と示唆が含まれています。GPT-01については、彼らが何をしたのか具体的にはわかっておらず、多くの推測がありましたが、明確ではありませんでした。また、この1年ほど、LLMを使った推論の様々な方法や、AlphaGoやAlpha Zeroに触発された推論時のスケーリングなど、多くのニュースを取り上げてきました。
この論文で技術的な観点から興味深いのは、タイトルにもあるように「強化学習によるLLMの推論能力の促進」に焦点を当てていることです。このアプローチは基本的に強化学習に依存しています。つまり、モデルは報酬を与えられることで学習し、アウトプットを生成し、試行錯誤を重ねるのです。正解を直接教えられるのではなく、言わば報酬を通じて学習するわけです。
これを可能な一つのアプローチとして見てきましたが、彼らは基本的にこのアプローチだけに頼っています。複数のステップはありますが、これは強化学習の可能性を実証するものです。DeepSeek V3と同様に、比較的少ないリソースで行われているように見えますが、非常に印象的な結果を得ています。GPT-01ほど優れているわけではないという声もありますが、とても印象的です。当然、ベンチマークの数値も非常に良好です。
ここで一旦止めて、ジェレミー、詳細についてお願いします。
そうですね。強化学習が主役だということです。強化学習にも様々なアプローチがありますが、ここでの成功は、モデルに「正解を出せば報酬、出せなければ報酬なし」という単純な報酬を与えるだけで十分だということを示しています。
これまで私たちは、複雑な戦略について多く取り上げてきました。DeepMindの論文やブログ記事で議論されてきた処理報酬モデル(PRM)などです。PRMや結果報酬モデルでは、Chain of Thought(思考の連鎖)のように、モデルが「ステップ1でこれをやって、ステップ2でこれをやって…」と段階的に考えていきます。
PRMは、各ステップがどの程度正確である可能性が高いかを評価するようにトレーニングされたモデルです。これを行う方法は様々で、よくあるのは、あるステップから10個の異なるロールアウト、つまり10個の異なる代替パスを生成し、それらのパスのうち何割が正解に至るかを見て、最初のステップの精度を評価するというものです。これがPRMの一つの方法で、推論の流れの中の各ステップがどのくらい正確そうかを予測するモデルをトレーニングするのに使います。
PRMは非常に繊細で、良いデータを得るのが非常に難しいです。また、出力に対して同様のことを行う結果報酬モデルもあります。基本的に、出力が正しい可能性が高いかどうかを予測するモデルをトレーニングするのです。これらは真の基準ではありません。RHF(報酬モデリング)のための報酬モデルのようなものです。
つまり、実際に気にしているものではないものに対してモデルを最適化しているわけです。そのため、モデルはプロセスや結果の報酬モデルを「ハック」することができ、モデルが良いと思う出力を生成しますが、実際には良くない出力になることもあります。これは常に問題でした。この2年ほど、この問題との潜り抜けっこが続いていたのです。
しかし、このDeepSeek V3のような事前学習済みモデルを取り、単純な強化学習だけを行うというアプローチが効果的だということが示されました。「thinking」タグの間に思考プロセスを書くように指示し、出力はこのタグの後に来るようにするだけです。つまり、思考のためのスクラッチパッドのような領域と、実際の出力のための領域を定義しているわけです。
DeepSeek R10については、これがすべてです。事前学習済みモデルがあり、その後は単純な強化学習プロセスを行うだけです。正解なら報酬を得、そうでなければ報酬はありません。驚くべきことに、これを行うと、数学的なデータセットやコーディングのデータセットのような、客観的に出力の正しさを評価できるデータセットを使用した場合、モデルは自然にChain of Thoughtのような推論方法を学習します。
これは実際にはChain of Thoughtよりも多様で、その意味でより強力です。通常、私たちがモデルにChain of Thoughtを強制する方法は、ベースモデルを取り、強化学習に直接進むのではなく、Chain of Thoughtのデータセットで追加の教師あり微調整を行います。これらのデータセットを作成するのは非常にコストがかかります。人間がChain of Thoughtを注釈付けしたり、作成したり、様々な方法で詳細に問題を解決したりする必要があるからです。
そして、モデルはそれらのデータでテキスト自動補完を学習し、Chain of Thoughtのパターンを学びます。データセットのように考えることを強制されるわけです。データセットで微調整された後は、自然にChain of Thoughtを実行するようになります。
しかし、ここで起こっていることはそれよりもっと有機的です。正解を出すか出さないかという報酬だけで、唯一の追加指示は「思考をthinkingタグの間に書け」というだけです。その思考は自然とChain of Thoughtのように見えますが、Chain of Thoughtである必要はありません。人間のChain of Thoughtを直接学習しているわけではないので、より多様な探索が可能になります。
また、この強化学習のプロセスを始めると、ベースモデルに最初の数ラウンドの強化学習を行った時点では、thinkingタグの間のChain of Thought、つまり思考の長さはかなり短いのですが、強化学習のステップを重ねるにつれ、モデルは実際にthinkingタグをより多く埋めるようになります。本質的にChain of Thoughtが長くなり、出力の精度も上がっていきます。
これが示唆しているのは、モデルが独自に推論時のスケーリング則を再発見し、活用しているということです。論文の図3は素晴らしく、応答あたりの平均長、つまりthinkingタグ間のテキスト量と、モデルが出力生成に投資する推論時の計算量が線形に増加していることを示しています。
これは人間が「考えに多くのトークンを使う、つまり推論時の計算量を増やすほど出力が良くなる」というアイデアをハードコードしたからではありません。純粋な強化学習を通じてモデルが有機的に見出した戦略なのです。
これは大きな成果です。Chain of Thoughtのための大規模な教師あり微調整データセットを収集する必要がなくなるからというだけでなく、推論時のスケーリング則がAIシステムの収束的な事実であることを示しているからです。強化学習でシステムをトレーニングすると、独自にこれを発見するのです。
R10について最後に一つ言及しておきたいのは、R10は一つの言語に固執するのが難しいということです。正解を出すことだけで報酬を与え、考え方を指示したり、Chain of Thoughtを学習させたりしないため、モデルは言語を切り替えたり、時には人間が読めないテキストを生成したりします。
彼らはこれを問題や欠陥として指摘していますが、実際にはそうではありません。これは機能だと考えるべきです。20個の英単語の意味を一つのドイツ語の複合語で表現できることがあります。また、中国語やフランス語でも20個の英単語の意味を一つの単語で表現できることがあるでしょう。
計算の効率性を最適化しようとするなら、そのような単語を使って、より少ないトークンでより多くの思考を圧縮できるのであれば、そうすべきです。これが言語の切り替えという奇妙な現象の正しい解釈だと思います。
モデルにとって、「英語」や「フランス語」といった区別は本質的にはないのです。思考の連鎖の中で、最も効率的な言語や推論ツールを使えばいいわけです。その結果がこのような現象として現れています。
数エピソード前、OpenAIがGPT-01を発表し、「人間が解釈可能なChain of Thoughtで推論している。AIの安全性にとって素晴らしいことだ。モデルが何を考えているのか理解でき、リスクのある思考があれば介入できる」と言ったとき、私たちは「ちょっと待てよ」と指摘しました。これは決して最終的な姿ではないはずです。
人間が読める方法よりも効率的な推論方法は常に存在します。それが今ここで見ているものです。モデルに報酬だけを与え、人工的な人間らしさを導入しなければ、モデルは自然と人間にとって理解しにくい方法で推論することを学びます。
なぜなら、人間による理解可能性は税金のようなものだからです。モデルに課す不必要な帰納的バイアスであり、取り除いた方が良いのです。
ここで一旦止めておきましょう。申し訳ありません、とても興奮してしまって。
いえいえ、とても重要な指摘です。これはR10とR1の違いの一因でもあります。次にその話に移りましょう。
R1 Zeroについていくつか補足しておきましょう。R1 Zeroは純粋な強化学習モデルで、R1に至る最初のステップです。彼らは本当にベースモデルから始めています。与えるプロンプトは非常にシンプルで、答えを出す前に推論プロセスを考え、思考プロセスを出力するように指示するだけです。
トレーニングは数学の問題とコーディングの問題だけで行われます。これは強化学習に関して重要な点だと思います。プログラム的に報酬を得る能力がない場合、この場合はそれが可能ですが、はるかに難しくなります。おそらく様々な推論プロセスがあり、ウェブナビゲーションなどの推論プロセスもありますが、一般的に強化学習でトレーニングすることは不可能かもしれません。
言語の件について、これは少し脱線しますが、AIを長く追いかけてきた人には振り返る価値があると思います。2017年、ディープラーニングが話題で、LLMがまだ存在しなかった頃、「AIが独自の言語を発明した」というニュースがありました。これはメタ(当時はまだメタではなかったかもしれません)の研究で、2つのAIモデルによるマルチエージェントシステムの物々交換に関する論文でした。
彼らも同様のことを行い、2つのモデルを一緒に最適化したところ、モデルは基本的に人間が読めない記号や句読点などを使い始めました。ここと同様に、それは理にかなっています。報酬が「正しい出力を得ること」だけなら、そこに至るプロセスをモデルに指示しなければ、途中で独自の奇妙な言語を作り出すことができます。
これは悪意のあることでも驚くべきことでもなく、モデルに制約を設けないことの当然の結果です。モデルは好きなことができるようになります。当時の論文では、明示的に報酬の要素を追加し、英語のように読めるようにしたと述べています。その後、実際に解釈可能になりました。これは、この論文で彼らが行ったことと似ています。
ではR1 ZeroからR1に話を移しましょう。R1はR1 Zeroですが、いくつかの制限や制約、設計上の考慮事項が追加されています。プロセスを簡単に説明すると、R1のトレーニングは教師あり学習から始まります。推論の痕跡のデータセットを、私の知る限り、いくつかの異なる方法で収集します。
一部にはDeepSeek R1 Zeroを使用し、他のアプローチも使用してデータを収集します。そして、そのデータセットを模倣するようにモデルをトレーニングします。これはおそらくOpenAIが行っているかもしれないこと、つまり人々にデータを生成してもらってトレーニングすることの一部です。
教師あり微調整を行った後、さらに強化学習を行います。R1に対して、R1 Zeroと同じ種類の強化学習を行いますが、これは教師あり微調整の後に行われ、ある種の方向性にバイアスをかけるためです。人間が解釈可能なアプローチを使用するように。
その後、論文では蒸留や小さなモデルへの移行についても触れています。最終的にはやや複雑に、というか複雑とは言えないかもしれませんが、最初に思われるほど単純ではないステップの集まりになっています。
このステップの組み合わせは少し直感に反するかもしれず、最適とは言えないかもしれませんが、R1のトレーニング時に大規模な強化学習を行い、それを教師あり微調整と少し混ぜ合わせることで、R1 Zeroの推論能力とLLM的な明確さの両方を得られるという点で非常に興味深いです。
その通りです。教師あり微調整を追加して、人間が読めるChain of Thoughtの形で考えるようにさせると、確かに人間による解釈可能性は向上しますが、パフォーマンスは低下します。わずかな低下ですが、確実に低下します。
先ほど人間による読みやすさのために税金を払うと言いましたが、彼らはその税金を実際に測定しているのです。優れた推論者を目指すか、人間が解釈可能なモデルを目指すか、この2つは異なる目標なのです。
企業が優れた推論者を作ろうとする圧力は、最終的に非常に強くなり、おそらく人間が解釈可能な推論システムを作ろうとする圧力よりも強くなるでしょう。その程度によっては、ステガノグラフィーや、人間が読める危険な推論の軌跡について懸念が出てくるでしょう。これらは将来的にそういう方向に向かうと予想すべきです。
これを考える一つの方法として、R1は実際に使用するモデルであり、現時点では多くのアプリケーションでより人間が解釈可能なモデルかもしれませんが、R1 Zeroは将来を示すモデルだということです。強化学習がスケールでき、本当に機能することを示すモデルなのです。
これらすべての大きな教訓は、そしてこれは投資アドバイスではありませんが、NVIDIAの株価の動きにも関係してきます。多くのことが起こっていましたが、そもそもNVIDIAが上昇し始めた理由を考えると、基本的にはリッチ・サットンが「bitter lesson(苦い教訓)」で最初に主張したことです。スケールが王様だということです。
多くの人がその意味を誤解しています。bitter lessonの要点は、もはかしこいアイデアは必要ないということではありません。多くの人がそう考えていますが、実際には、最適化プロセスの邪魔にならないようなかしこい方法を見つける必要があるということです。計算が行うことを計算にやらせるように、帰納的バイアスを取り除く方法を見つける必要があります。
これこそがまさにDeepSeekがV3とR1 Zeroの両方で非常にうまく使用したようなアイデアです。実際の本質は、DeepSeekがOpenAI GPT-01レベルのパフォーマンスを、少なくとも推論時には約30分の1の予算で達成できることを示したということです。トレーニングに5百万ドルか6百万ドルと主張していますが、これには注釈があり、成功した出力につながった特定のトレーニング実行中に使用された計算にのみ適用されます。
以前も話しましたが、実行する必要のあったすべての実験は考慮されていません。しかし、それでも1フロップあたり、つまり計算単位あたりはるかに多くの知能を得られるということです。これがDeepSeekの物語です。
これはNVIDIAにとってベアリッシュ(弱気)な材料に聞こえますか?私にはブリッシュ(強気)な材料に聞こえます。基本的に、推論時のGPUの価値が30倍になったということです。DeepSeekがこのプロセスで学んだ教訓を適用することで得られるスケーリング曲線の傾きが、以前考えていたよりもはるかに急だということを示しています。
ROI(投資収益率)はさらに大きく、知能への永遠の需要があるため、これは文字通り経済の基盤となっています。本質的に、人々は同じ質問をし続けることになります。あなたがAnthropicであれ、OpenAIであれ、誰であれ、常に同じ質問をすることになります。「計算予算にどれだけのお金を投入できるか」という質問です。
そして、その結果として得られる知能は何であれ、このことは30倍多くの知能が得られることを意味します。もし可能であれば、その予算をさらに絞り出そうとする理由になります。これが起こることは間違いありません。
多くの人々がこれを悲観的なニュースと見ていますが、研究所の人々と話すと、そうではありません。スケーリングは非常に生きています。私たちは今、パラダイムの特別な転換点にいます。長い間、事前学習が支配的なパラダイムでしたが、今は推論時の計算が強化学習とともにより重要になってきています。
これにより新規参入者が先に進む機会が得られますが、今後6ヶ月から12ヶ月の根本的な問題は、同じ戦略にどれだけの計算を投入できるかということに戻ってくるでしょう。DeepSeekは、CEOも述べているように、この先に進めるだけの高品質な計算リソースへのアクセスに苦労しています。
輸出規制は確実に彼らに影響を与えています。これは誤って学ばれたもう一つの教訓です。皆「わぁ、中国企業が本当に印象的なことをやった。輸出規制に何の意味があるの?」と言いますが、そうではありません。教訓は、計算が昨日の30倍重要になったということです。輸出規制はさらに重要になっているのです。これが本当の教訓です。この話はまだまだ続きます。この後、政策のセクションでも取り上げます。Anthropicのダリオが非常に興味深いブログ記事を書いています。
とにかく、これはDiscordでの質問をされた視聴者の方への私の見解です。このモデルは本当に印象的です。「これはそれほど大したことではない」と対処しようとしている人々も多いと思いますが、印象的なことは間違いありません。
最も驚くべきことは、中国の企業がフロンティアで可能なことに関して、最先端とは言えないまでも、かなり近いところまで来ているということです。
Sweet Bench Verifiedのスコアを見るだけでも、49.2点はOpenAI GPT-01の12月17日のモデルを上回っています。これだけでも、このモデルが本物であり、大きな意味を持つことがわかります。しかし、その意味は現在の主流の見方とは異なると思います。
メインストリームの反応とR1への反応については、かなり極端だったと思いますが、ビジネスの部分でもう少し詳しく取り上げることにします。今は技術的な面に焦点を当てています。
技術報告について、もう一つ言及しておきたいことがあります。非常に興味深く、もっと行われるべきことですが、彼らは「失敗した試み」や「うまくいかなかったこと」のセクションを設けています。
処理報酬モデルについて、ある程度は機能したものの、基本的に計算コストに見合わないと指摘しています。より複雑なアプローチよりも、単純な強化学習の方が良い結果を得られました。
また、AlphaGoやAlpha Zeroなどに触発されたモンテカルロ探索も試みています。これは、強化学習のように見える今回のアプローチではなく、良い結果を得るために探索プロセスを行うというアイデアです。
また、強化学習のセットアップの詳細については、いくつか欠けている部分があります。強化学習にはさまざまな方法がありますが、大きなポイントの一つは、2024年初めに彼らが考案したGRPO(グループ相対政策最適化)を使用していることです。これはより効率的にトレーニングを可能にするアルゴリズムです。詳細には立ち入れませんが、非常にうまく機能しているようです。
素晴らしい論文です。この分野を追跡している人にとって非常に興味深い論文であり、R1は確かに印象的で刺激的です。後でまた取り上げることになるでしょうが、次の話題に移りましょう。
いくつかの話題が残っていますが、これほど深く掘り下げることはできないので、手短に進めていきます。
次の話題も再びDeepSeekについてです。R1の直後に発表された別タイプのモデル、Janis Proについてです。これはマルチモーダルAIモデルで、他の同様のモデルを上回るパフォーマンスを示していると主張しています。
R1について最後に注目すべき点は、非常に寛容なライセンスであることです。MITライセンスだと思いますが、基本的に何でも好きなことができます。商用アプリケーションや研究、実質的にあらゆる用途に使用できます。他のオープンソースリリースにはよくある制限が一切ありません。
これは、このモデルが興奮を呼んでいるもう一つの理由です。これは今、最先端のモデルの一つで、誰でも構築に使用できます。この分野の多くの人々にとって明らかに刺激的なことです。
さて、まだたくさんの話題が残っているので、手短に進めていきましょう。次はDeepSeekについての別の話題で、それほど大きな話題ではありませんが、やはりクールな別のモデルのリリースです。
Janis Proというテキストから画像を生成するモデルを発表しました。これもMITライセンスの下でリリースされています。他のテキスト生成画像モデルと同様で、正確な評価は難しいですが、非常に良く見えます。DallE やStable Diffusion XLなどの他のモデルのベンチマークでも上回っていると報告しています。
70億パラメータのバージョンと10億パラメータのバージョンをリリースしています。かなり良いオープンソースのテキスト生成画像生成器が他にもありますので、それほど大きな話題ではありませんが、印象的です。
DeepSeekは研究開発プロジェクトとして、商業的な企業ではなく、このような複数のモデルをオープンソースでリリースし、大きな影響を与えています。
そうですね。推論モデルを作るのが得意な企業は、このようなマルチモーダルシステムも得意である傾向があります。これは偶然ではありません。今後、DeepSeekから推論と視覚やその他のモダリティを統合したマルチモーダルモデルが登場するのか、興味深いところです。私は間違いなくそうなると予想します。
もう一つ注目すべき点は、その説明の中で強調されているのが、マルチモーダル理解と生成の統合です。テキストから画像への変換が大きな注目点ですが、彼らは画像と言語を組み合わせたビジョン言語モデル(画像プラステキストからテキストへの変換、つまり画像理解)と、テキストから画像へのモデル(画像生成モデル)を統合しています。
これらは通常、やや異なる方法で、異なる方法でトレーニングされます。ここでの非常に興味深い特徴は、統合とそれらをすべてうまく機能させることです。ここでも、かなり重要な技術的な洞察があり、実際にかなりの影響を与える可能性があります。
「Janis Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling」についても別の論文があります。詳細には立ち入れませんが、やはり興味深い研究であり、人々が使用できるモデルでもあります。
さらに進んで、R1の直後に発表された別の大きなモデルリリースがあります。それほど大きな話題ではありませんが、やはり注目に値します。これはQwen 2.5-120についてです。これは別の中国の組織で、アリババが資金提供していると思われます。彼らはこのシリーズのモデルをかなり長い間開発してきました。
今回彼らは、この最新イテレーションの技術レポートをリリースしました。これは長文コンテキストに焦点を当てています。名前の「-1M」は、100万トークンを処理できるように拡張していることを示しています。
長文コンテキストのスケーリングを実現する方法に焦点を当てた論文をリリースし、70億パラメータと140億パラメータのバリアントもリリースし、APIへのアクセスも更新しています。オープンソースモデルでは通常、128,000トークン程度の長さしか扱えないので、長文コンテキストへの対応は大きな進歩です。
彼らはこのために多くのテクニックを使用しており、それらをよく文書化しています。主要なものの一つは、Progressive Length Training(段階的な長さのトレーニング)です。これは以前のケースでも見られましたが、ここでは限界まで押し進めています。
この場合、約4,000トークンという比較的小さなコンテキストウィンドウから始め、32,000、64,000と段階的に倍増させていき、最終的にモデルが完全なコンテキストを扱えるようになり、「needle in a haystack」(干し草の山の中の針)のような評価でも優れた性能を発揮します。
また、アテンション機構は本来、単語の順序を気にしないため、埋め込みの上に正弦波のようなパターンを重ねて、どの単語がどこにあるかを追跡する必要があります。彼らはコンテキストの長さとともに増加する適応的なRoPE基本周波数を使用しています。
つまり、コンテキストウィンドウが大きくなるにつれて、この単語順序の追跡戦略を動的に調整する方法です。トレーニングデータのミックスも興味深く、段階的な長さの事前トレーニングでは、使用するテキストの75%が最大長の完全なコンテキストで、残りの25%が短いシーケンスです。
その他、詳細には立ち入りませんが、様々なテクニックを使用しています。以前、スパースアテンションについて話しましたが、彼らはそれを多用しています。チップ上でのVRAM最適化など、多くの方法があります。
これは本当にクールで、エンジニアリングに重点を置いたオープンソースの開発のもう一つの例です。これらの論文を読むためには、ハードウェアを理解し、VRAMやSRAMが何をしているのかといった詳細に踏み込む必要があります。
言い換えれば、最先端のAIはエンジニアリング面に関するものであるか、少なくともエンジニアリング面はアーキテクチャやモデリングと完全に切り離せないということです。とても興味深いと思います。ハードウェアのエピソードにはちょうどいいタイミングですね。
その通りです。スケーリング則に関して興味深い点は、より大きなモデルを作り、より大きなデータを用意し、それらを組み合わせることで、より良いパフォーマンスが得られるという一般的なアイデアが、DeepSeek V3、R1、このモデルで見られることです。
しかし、先ほど言ったように、効果的なスケーリングを行うのは簡単ではありません。適切な材料の組み合わせ、最適化プロセス、ハードウェアなどを見つけ出す必要があります。様々な問題に取り組むことを可能にするデータは、2年前には存在しなかった知識の蓄積を示しています。
次の話題に移りましょう。これも再びQwenチームからの2番目のリリースです。Qwen 2.5 VLについてです。これはビジョン言語モデルで、テキストと画像の分析、ビデオ理解、物体のカウントなどに焦点を当てています。
OpenAIのOperatorモデルやAnthropicのコンピュータ使用APIと同様に、これはウェブサイトのブラウジングを制御し、エージェント的な方法でコンピュータを使用する能力を提供します。
これはそれほど大きな話題ではありませんが、ジェレミーが指摘したように、興味深いブログ記事も一緒に公開されました。ブログ記事のタイトルは「Qwen 2.5 VL」の3回繰り返しです。Qwenチームで何が起こっているのでしょうか。誰かが非常にクリエイティブですね。退屈ではないブログ記事をリリースしています。
モデルのさまざまなデモンストレーションがあります。明らかにこれらのチームは多くのリソースを得ているか、少なくともこの時点で大きな進歩を遂げることができています。これが、これらすべてに対して非常に強い反応があった理由の一つだと思います。
そうですね。彼らが取り組まなければならなかった具体的な進歩の一つは、彼らが言うところの「超長時間ビデオ理解」です。これは、このようなコンピュータ上で動作するエージェントを作るために必要なものです。
国家安全保障の観点から言えば、擬似的な許可ライセンスの法的側面について考えてみましょう。中国企業が非常に性能の良いモデルをリリースし、このモデルの使用に関する問題があれば中国の裁判所で訴訟を起こすというライセンス条項があります。
これは一種のオープンソース戦争の様相を呈しており、中国共産党の傘下に入ることになります。これは少し学術的な問題であるか、それほど大きな問題ではないかもしれませんが、アメリカにとっては悩ましい問題でした。
しかし、実際にコンピュータを制御し、メールを送信したり、個人データにアクセスしてサーバーに流出させる可能性のあるこのようなOperatorタイプのモデルに移行すると、これは本当に重大な問題になり始めます。
中国共産党や開発者の目的を達成するために、特定の方法で動作するようにこれらのモデルにバックドアやトロイの木馬を仕掛けるという形でのオープンソース戦争について考えてみてください。これは実際に非常に興味深い戦略です。
これが今起こっているとは言っているわけではありません。そうではないと思いますが、このような中国発のモデルの使用に慣れていくにつれて、誰がこれらのモデルを作っているのか、どのような意図を持っているのか、そして私たちには詳細を解釈する技術が不足しているため、隠された動作をモデルに埋め込む可能性について考え始めるべきです。
国家安全保障の観点からすると、これは十分に議論されていない側面だと思います。1年後、最新のゼロデイ攻撃が、QwenやDeepSeekなどから展開された全てのエージェントモデルを利用することだと発見される可能性もあります。これは追跡する価値のある非常に興味深い側面だと思います。
さて、次に進みましょう。ツールとアプリについて、R1とQwenの話題からいったん離れて、OpenAIに関連する話題に移ります。これもエージェント的なコンピュータ使用に関する話です。
最近、OpenAIはOperatorのリリースプレビューを開始しました。これはまさにAnthropicや今回のQwenチームが実証したような、ChatGPTでウェブを閲覧し、基本的にコンピュータを使用できるツールです。
operator.chatgpt.comにアクセスすると、現時点では米国ユーザーで、月額200ドルのProサブスクリプションに加入している場合のみ試すことができます。エージェントが使用する専用のウェブブラウザが小さなウィンドウでポップアップします。
Operatorは独自の環境で動作するため、ユーザーは引き続き制御を維持でき、他のことを続けることもできます。OpenAIによると、Operatorはコンピュータを使用するエージェントモデルを持っているとのことですが、Anthropicのコンピュータ使用モデルと同様に、それ以外の詳細はわかっていません。
ビジュアルなウェブサイトとの対話、クリック、テキストの読み取り、メニューのナビゲートなどができるようにトレーニングされているようです。
Anthropicは10月頃、数ヶ月前にAPIでこのプレビューを開始しました。当時はかなり大きな話題でしたが,人々はまだエージェントAIに非常に期待を寄せています。R1とその周辺の議論に少し影を落とされましたが、これはかなり注目に値すると思います。
そうですね。完璧ではありません。明らかにそうあるべきで、もしエージェント的なモデルをリリースすると言えば、人々は実際に使用することになるので、彼らは非常に率直です。
現在、Operatorは詳細なスライドショーの作成、複雑なカレンダーシステムの管理、高度にカスタマイズされた非標準的なウェブインターフェースとの対話など、多くの複雑または専門的なタスクを確実に処理することはできないとしています。
それができないことは明確ですが、彼らは明示的に予防的なアプローチを取っています。銀行取引やクレジットカード情報を入力する必要がある場合など、一部のタスクには監督が必要です。ユーザーが介入して実際に行う必要があります。
この文脈でOpenAIは関連して、Operatorはデータを収集したりスクリーンショットを取ったりしないと述べています。当然、Operatorが動作しているシステムでクレジットカード情報を入力することに不安を感じるかもしれません。彼らの主張は、そのデータを収集していないということです。
完全なAGI(汎用人工知能)ができるまでは、人間とAIの間のこのハンドオフをどこで行うかという問題にはっきりした答えはないでしょう。自動運転車でさえ、少なくともそこでは非常に制約された環境にいるわけですが、道路上で他の車や歩行者と接するだけでも悪名高いほど複雑な環境です。
しかし、インターネット全体と比べると、本当に予期せぬ設定に遭遇する可能性があり、そこでのリスクも高いのです。お金を与えてしまったり、マルウェアをダウンロードしてしまったりする可能性があります。運転以上に敵対的な環境でもあります。
これらのモデルをどれだけ堅牢にできるか、どれだけ早く改善できるのか、非常に興味深く見守る必要があります。DoorDash、Instacartなど、多くのYCの企業とのパートナーシップもあります。これは興味深いですね。Sam Altmanは以前Yコンビネータのプレジデントでしたので、彼らとの良好な関係があるのでしょう。
また、eBay、Priceline、StubHub、Uberなども含まれています。Operatorが彼らの利用規約を尊重することは、彼らにとって最優先事項であり、Operatorの初期試験運用として適切なものでしょう。
その通りです。Anthropicのコンピュータ使用API、12月に発表されたGoogleのProject Marinerと同様に、これがいつ広く利用可能になり、信頼できるようになるかの具体的なタイムラインはありません。
すべてのこれらの取り組みは、エージェントがあなたに代わって物事を行う未来に向かっているという印象を受けますが、おそらくそこに到達するにはまだ時間がかかるでしょう。
OpenAIが複数の制限付きでAnthropicの何ヶ月も後にようやくリリースしたことからもわかります。また、アシスタントとして必要なはずのメール送信や予定の削除も拒否します。この分野での進展を見るのは興味深いですが、なぜみんながAIに旅行のチケットを予約させたがるのかわかりません。私はそれが良いアイデアだとは思いませんが、最終的にはそこに到達するでしょう。
その未来に向かって進んでいきたいと思いますが、私はニューヨーク行きの午前3時のフライトに乗らなければならないので、DeepSeekに話を戻しましょう。
AIをよく追っているオタクとして、R1の論文は非常に興味深く、刺激的でした。GPT-4レベルのモデルを作れたことは予想外でしたが、DeepSeekのストーリーのもう一つの興味深い側面は、彼らのスマートフォンアプリが大人気になったことです。
DeepSeekのアプリはGoogle Play Storeで1位を獲得し、1月中旬以降120万ダウンロード、全世界で190万ダウンロードを記録しました。これはかなり驚くべきことです。私たちはChatGPTがバイラルになり、大きな利用者の増加を目にしてきましたが、今回DeepSeekがChatGPTの競合となるチャットボットで無料で提供し、ウイルス的に広がったことは、またも驚きでした。
これはおそらくOpenAIを少し心配させているでしょう。人々が興奮していることに対して、いくつかの反発的な反応も見られました。明らかにこれもDeepSeek R1のリリースに対する強い反応の理由の一つだと思います。
これらの新しいパラダイムがハードウェアで飽和状態になると、結局は同じことになるでしょう。GPUの数が多く、それを動かすエネルギーと冷却能力を持っている者が勝者となります。この場合、中国は事前学習で競争するのが難しかった場合と同じような立場に置かれることになります。推論時の計算が重要になってくると、引き続き競争が厳しくなるでしょう。
ただし、まだこれらの特定の技術やパラダイムがハードウェアでスケールされ、利用可能な全ハードウェアを飽和させるところまでは来ていません。それらの最適化は今まさに進行中です。これは次世代のNVIDIAハードウェアだけでなく、データセンターのセットアップやコンピュータのセットアップ、ネットワークファブリックなど、すべての設計に関する議論の一部となっています。
人々は非常に急速にDeepSeekのGPT-4レベルやR1レベルのパフォーマンスを超えていくことが予想されます。中国が持続的かつ集中的な努力を行わない限り、西側のモデルが明確にリードしていくことになるでしょう。ただし、オープンソースとクローズドソースの差は縮まり続けると思われ、それは注目に値します。
このローンチに関して言えば、米国のPlay Storeで1位というのは、DeepSeekアプリ自体が中国のサーバーに接続しているということもあり、使用する際はリスクを承知の上でということになります。これはオープンソース戦争とは少し異なりますが、デプロイアプリの一形態です。
これはOpenAIやAnthropicが享受してきた構造的優位性の一部です。特にOpenAIはブランド認知度が高いため、より多くの人々がそのシステムを使用し、次のモデルのトレーニングに使用できるデータをより多く得られます。ただしこの場合、中国では軍民融合が行われているため、中国企業が持っているものは中国軍も持っているということを覚えておく必要があります。
すべての人にとって問題になるわけではありませんが、Googleなどでセキュリティが重要な仕事をしている人は、機密文書のパスワードなどを渡したくないかもしれません。
また、これが中国から来ているということで、多くの人が報告しているように、中国政府が望むような形で検閲されているということも当然言及する必要があります。ただし、オープンソースモデルを入手すれば、それを簡単に回避することができます。以前お伝えしたように、モデルのあらゆる制限を解除することは可能です。モデルは言ってはいけないことを認識しているのです。
しかしアプリでは、そのような制限が予想されます。とはいえ、私の印象では、機密情報を心配する必要がなく、ChatGPTに代わる新しいものを無料で試してみたい場合は、実際にはいいアプリだと思います。それが人々が殺到している理由の一つだと確信しています。
次の話題に移りましょう。DeepSeekを取り上げましたが、今度はQwenに戻ります。100万コンテキスト長のモデルに加えて、アリババはQwen Chat v0.2もリリースしました。これはチャットインターフェースにウェブ検索、ビデオ作成、画像生成などの機能を追加したものです。これは、すでにあった文書分析や画像理解などのシンプルな機能に追加されたものです。
ウェブ検索は、OpenAIがつい最近ChatGPTに質問に答えるためのコンテキストを得る手段としてウェブ検索を追加したのに続くものです。中国では、QwenがChatGPTタイプの消費者向けサービスとしてその位置を埋めているのは注目に値します。Qwenを使用する利点の一つは、Claude OpusやGeminiと同様に長いコンテキストサイズに最適化された100万パラメータモデルを持っているということです。
1月には中国のLLMsとAIについて多くのことが起こっていますが、話を米国に戻し、DeepSeekについて続けましょう。次の話題は、Perplexityに関するものです。PerplexityはAIを活用した人気の検索インターフェースで、非常に迅速にDeepSeek R1の米国ホスティングを開始しました。
現在、Perplexityを使用すると、プロ検索モードでR1を選択できるようになりました。以前はGPT-4のみでしたが、今ではDeepSeek R1を選択できるようになっています。他に言うことはあまりありませんが、リリース後すぐに製品に統合し、米国でモデルをホスティングし、人々に選択肢として提供するのは興味深いことです。
Perplexityにとって、これは戦略的に本当に良いことだと思います。永続的ではないかもしれませんが、少なくとも現時点では、そして将来的にも、OpenAIのGPT-4モデルに代わる信頼できるフロンティアレベルの機能を持つ選択肢があることは良いことです。
Perplexityは、ある意味でアグリゲーターです。多くの異なるモデルの機能のアグリゲーターであり、自身でフロンティアモデルを構築しているわけではありません。それを他者にアウトソーシングしているのです。多くの異なる企業がモデルを構築し、この分野がより商品化されていけば、最終的な価値の獲得はアグリゲーションレベルでより容易になります。少なくともそれはより説得力のある付加価値となります。
これがR1リリースとPerplexityへの統合の戦略的な意味だと思います。
このセクションでは、あと数本の記事を紹介します。次はAppleに移り、ちょっとした「AIが面白いことをする」タイプの話題を混ぜてみましょう。これは、すべての真面目な進歩の話題に加えて良い気分転換になります。
一部の人が見たかもしれませんが、AppleはAIによって生成された非常に馬鹿げたニュース通知を出しました。これは、デフォルトでAIが有効化されたiOS 18.3をリリースした後に起こったことです。
Appleがより積極的にApple Intelligenceを展開していることが、私たちの優先的な報道対象とならなかったのは奇妙なことですが、見過ごされなかったのは、それが行う馬鹿げたことです。通知でヘッドラインやニュース記事を要約すると、多くの非常に馬鹿げた不正確な要約が生成され、本質的に誤った情報を伝えていました。
それは非常にひどかったため、新しい記事によると、Appleはこの機能を無効にしました。また、連絡先から送られてくるメッセージを同様に恥ずかしいまたは馬鹿げた方法で要約する例もありました。
Appleは他の企業と比べてこの分野への参入が遅かったと言えますが、これはApple Intelligenceが上手くいっているという強い指標ではありません。これはGeminiを思い出させます。Googleが自社の製品をリリースした時も、同様に馬鹽げたタイプの問題が見られ、これらの企業がこれらの製品を急いでいることを示しています。
そうですね。Appleは、AmazonやGoogleと同様に、この分野で出遅れたことで注目される企業の一つです。結局のところ、スケーリング則が機能し、AGIに向かっているということを認識するのが遅かったのです。
後れを取ることのコストは、垂直統合の面で非常に大きく複合的です。ハードウェアスタック、ネットワーク、データセンター構築に必要な電力の確保など、スタックのあらゆる層で最高の人材を引き付ける方法を見つける必要があります。この分野の最高の人材は、彼らの仕事から得られるレバレッジの点で、間違いなく10倍、100倍のエンジニアなのです。
したがって、1位と2位の違いは大きな違いとなります。これはAppleとAmazonが支払っているコストの一部だと思います。少なくともAmazonはAnthropicとパートナーシップを組んで、Inferentia訓練チップのオンライン化の支援を受けています。
Appleにはそのようなパートナーシップがなく、それは実際に彼らの不利益になっていると思います。もし私がAppleにいたら、フロンティアラボと提携する方法を見つけ、彼らに構築の支援を受けることを検討するでしょう。明らかにうまくいっていないからです。
ちなみに、このiOS 18.3には他のアップデートもあったことを言及する価値があります。ChatGPTでできることと同様に、スマートフォンを物に向けて写真を撮り、その対象について質問できるVisual Intelligenceが追加されました。Appleは他の機能もリリースしていますが、少なくとも私が知る限り、これが人々が気づいているハイライトでした。
同様の話題で、多くの人が聞いたことがないかもしれませんが、面白い話題を取り上げましょう。フランスのAI「Lucy」が、見出しによると間違った回答を連発しているそうです。
フランスは、欧州の価値観を推進し、AIツールにおける英語の支配を抑制することを目的として、政府が支援するAIチャットボット「Lucy」を立ち上げました。これは本当にヨーロッパらしいプロジェクトですね、申し訳ありませんが。
そしてこのローンチ直後、不正確で面白い回答を提供したため一時停止されました。これは面白さと不満の両方を引き起こしました。例えば、「牛の卵は健康的な食物源である」など、非常に馬鹽げた例がいくつかあります。
かなり恥ずかしいというか、少なくとも面白い結果となりました。そして先ほど言及したように、これは大きな物語の一部です。欧州は明らかに米国と中国の両方との競争で大きく後れを取っており、これは欧州のテクノロジー開発力の素晴らしさを示す良い実例とは言えません。
エマニュエル・マクロン仏大統領は、明らかに愚かではないが愚かさが分かりにくいものに多くのお金を使うのに十分な知識を持っているようです。以前もポッドキャストで言及しましたが、例えばMistralは苦しい状況に追い込まれると思います。スケーリングの世界で競争を続けることはできず、いずれは他の研究所と同様に破綻するか買収されることになるでしょう。
ここで少し面白いことを言わせていただきますが、Lucyのロゴは女性の顔で、フランス共和国のシンボルであるマリアンヌと、なぜかアメリカの女優スカーレット・ヨハンソンを組み合わせたものだそうです。Gemini-40の失態の後に、なぜスカーレット・ヨハンソンを選んだのか、本当に理解できません。しかし、これは良いアイデアのように聞こえ、実行されたのです。
これは、この巨大な政府投資のチャットボットの中に、さらなる問題のレイヤーを加えることになりました。私にはわかりませんが、彼らには計画があるのでしょう。確実に計画があるはずです。
なお、この組織はLe Ninou Goraというフランスのオープンソースソフトウェア企業で、プロジェクトを率いるコンソーシアムのリーダーです。彼らは声明で、ローンチは「時期尚早だった」と述べています。これは、GoogleやAppleにも同様に起こったことなので、私たちだけがこのような反応を示したわけではありませんが、それでも少し馬鹽げています。
次は、アプリケーションとビジネスの話題に移りましょう。再びDeepSeekに戻り、R1モデルの結果と反応について取り上げます。正確なタイムラインはわかりませんが、興味深いことに、ビジネス界では誰もDeepSeekを気にしていませんでしたが、R1が登場すると突然誰もが狂ったように反応し、パニックに陥りました。少なくとも米国のビジネス界では明らかに大きなパニックがありました。
S&P 500が2%下落し、NASDAQが3%下落し、NVIDIAの株価が1.77%下落しました。1.77%と言っても、これは6000億ドルの時価総額の価値です。明らかに、この話題は多くのニュース報道を受け、その多くはあまり良くない報道でした。
論文から600万ドルという数字を引用し、OpenAIが費やした数十億ドルと比較していましたが、これは明らかに間違っています。600万ドルの話はインフラコストではなく、トレーニングコストについてのものです。
NVIDIAへの影響に関しては、非常にニュアンスがあります。DeepSeek V3で示されたように、より効率的にトレーニングできる能力により、NVIDIAは将来の利益が減少する可能性があります。しかし一方で、中国企業が最新世代のチップの購入を制限される比較的弱いハードウェアでもトレーニングできることが示されました。
その点では、NVIDIAは最も高価な主力チップをそれほど多く売れなくなる可能性がありますが、いずれにせよ、私の視点からすると、これは少し驚くべきことでした。
昨年、「AIの6000億ドルの疑問」というブログ記事がありましたが、NVIDIA以外は利益につながっていない巨額のインフラ投資があったことを示しています。これは、この大規模な投資がそれほどうまく報われないのではないかという懸念の表れかもしれません。
この物語全体に水を差すようで申し訳ありませんが、明確にしておきたいのは、私はNVIDIAの回し者ではありません。彼らがこの分野を支配し、巨大な市場シェアを持っているのは事実です。
Semi Analysisによる素晴らしいレポートがあり、これについて詳しく説明していますが、実際の設備投資、つまり巨額の支出は、宣伝されている600万ドルのトレーニングコストより何桁も大きいものです。600万ドルのトレーニングコストは、おそらくV3モデルにつながった特定のトレーニング実行に関連するコンピューティングコストかもしれません。
これはNVIDIAチップを購入するかどうかを決める際に考慮する主な設備投資コストではありません。それがNVIDIAの収益の大きな部分を占めているのです。
また、V3が最初に登場した時に話題になりましたが、Scale.AIのCEOのアレックス・ワンや、おそらくダボスでのダリオも、DeepSeekが実際に50,000台のH100を利用できると誤って発言しました。実際には、H800s、H100s、そしてH20sという中国向け特別チップが混在していました。
H20sについては、輸出規制の文脈でよく話題になりましたが、おそらく規制されるべきでしたが、されませんでした。これはNVIDIAが輸出規制をかわすために特別に設計したチップで、規制の閾値のすぐ下に収まるように設計され、中国に販売できるようにしたものです。
教訓として、輸出規制をさらに厳しくする必要があります。もしDeepSeekがより多くのハードウェアを手に入れることができていたら、どれほど悪い状況になっていたかという重要な問題です。
私の意見では、人々がDeepSeekの結果を誤って解釈した時に株価は暴落しましたが、もう一つの複雑な要因として、翌日にトランプ大統領が台湾の半導体輸出に最大100%の関税を課すと発表したことがありました。これはNVIDIAの株価暴落を正当化するものでした。
そこで疑問が生じます。株価は1日目にDeepSeekの影響を誤って織り込んで暴落したのか、それとも台湾からの輸入に対する潜在的な関税の差し迫った発表について、何らかのリークがあり、そのリークに基づくインサイダー取引があったのでしょうか。現時点では非常に曖昧です。
誰かがそれを詳細に分析したかどうかわかりませんが、どうやって解析するのかもわかりません。しかし、そこには線引きがあいまいな部分があり、非常に興味深いものとなっています。
結論として、関税の問題を除けば、NVIDIAの基礎体力は強気だと思います。関税は実際に米国の競争力にとって大きな問題になるでしょう。
分析に関しては、私たちは同じ見解を持っているようです。これは少し過剰反応のように見え、AGIやこれらの巨大データセンターの構築全般の見通しという広い視点からのみ理解できるものであり、DeepSeek単独の問題ではないと思います。
次の話題も、データセンターに関連し、MicrosoftとOpenAIの関係についてです。Microsoftの投稿によると、MicrosoftとOpenAIの関係の詳細が更新されました。現在、MicrosoftはOpenAIの独占的なクラウドプロバイダーではなくなりましたが、先買権契約があり、OpenAIは少なくともMicrosoftと話し合う必要があります。
OpenAIはまだAzureを大量に使用することを約束していますが、明らかにMicrosoftとの関係を緩和しようとしています。これは、後で詳しく説明するStargateプロジェクトの文脈でも起こっており、OpenAIがそのプロジェクトの成果を独占的に使用するライセンスを得ているようです。
OpenAIとMicrosoftは長期的な関係を持っており、ビジネス戦略の観点から非常に興味深く、これは継続的な状況の最新のアップデートです。
ある意味で、これはそれほど衝撃的ではありません。実際、私たちはOpenAIとOracleの取引の文脈でこれについて話し合いました。振り返ってみると、それはStargateプロジェクトの一部だったことがわかります。彼らが協力しているテキサスのクラスター構築です。
それが初めて、私たちはOpenAIがMicrosoftとの関係について理解していた内容から外れていることに気づきました。当時の議論では、MicrosoftはOpenAIが望むほど遠くまで、望むペースでこれらの構築に従いたくないようでした。
4年間で5000億ドルという非常に積極的な構築ペースです。ちなみに、MicrosoftはAI向けの新しいデータセンター構築に年間800億ドルを投資していますが、4年間で見ると5000億ドルという数字からそれほど遠くありません。
多くのことが進行中で、おそらくOpenAIがそのクラスターへの独占的なアクセスを望んでいたことも大きな要因だったでしょう。これは大きな問題です。
もう一つ話題に上がっていることがあります。イーロンがこれについてツイートし、彼は技術的には正しかったのですが…サムはこれを「資金は確保済み」という表現で説明しましたが、イーロンは「資金は確保されていない」と言いました。
彼はXで、ソフトバンクは流動性のある資金として100億から150億ドルしか使えないと述べました。OpenAIからの150億ドルとOracleからの150億ドル程度を合わせても、5000億ドルには全く及びません。これは絶対に正しかったのです。
実際に確保されているのは1000億ドルで、残りの4000億ドルは時間をかけて調達することを期待しているのです。したがって、その追加の4000億ドルは、ある程度マーケティングの要素があります。OpenAIはこれを政府のお気に入りプロジェクトにしようとしているのです。
これは大きな要素です。おそらく私たちはここで取り上げることになりますが、世界に向けて5000億ドルのクラスターを構築すると発表し、それを内部的に超知能クラスターと考えているということは、国家レベルの注目を招くことになります。
サムは中国に対して、これが大きな魅力的な施設になることを知らせ、彼らはそれを何に使うつもりかも正確に知っています。セキュリティの観点からはあまり良くありません。これらの構築を隠すことはできませんが、もう少し良い方法があったかもしれません。
投資家を引き付けようとしているため、メディアへのインセンティブがありますが、この構築の一つの課題は投資家が誰かということです。G42は投資家の一つですが、G42として投資しているのではなく、MGXを通じて投資しています。これはUAEのファンドです。
また、孫正義のソフトバンクの主要な出資者であるサウジアラビアの資金も入っています。非常に現実的な意味で、Stargateプロジェクトは、UAEとサウジアラビアが資金を提供しているのです。
確認する必要がありますが、資金の大部分がこれらの源泉から来ているとしても全く驚きません。これは国家安全保障の観点から興味深く、その資金に付随する条件は非常に慎重に精査される必要があります。これは非常に深刻な問題だと思います。
これは、特にOpenAIが、報道によると、ロシアや中国の国家安全保障上の利益のためにアメリカの国家安全保障上の利益を取引する意思があるとされることに人々が抱いている課題の一部を示しています。
彼らは、これらの国々にAGIプロジェクトを自国に置くために競争させようとしているというような話があります。このような信頼できる話がある時、サウジアラビアやUAEの資金でこれらの構築を行うことについて、実際にどのような考えがあるのかという疑問が生じます。
サムの心は読めませんが、特に自分たちのプロジェクトがそのような重要性を持つと信じているのであれば、これらは考慮すべき事項です。
次は、OpenAIの進行中の旅に関連する別の話題で、OpenAIのガバナンスに関する部分です。彼らは取締役会にブラックストーンの創設パートナーであるアロ・オグニーを追加することで取締役会を更新しています。
彼はインフラ投資に焦点を当て、クレディ・スイスに23年間在籍していました。私にはその影響についてあまり詳しいことはわかりませんが、明らかにOpenAIが営利構造への移行を強く推進している時期に来ています。
ちょうど1年ほど前に非営利の取締役会がクーデターを起こし、それ以来、舞台裏で徐々に権力の移行が行われてきました。これはそれと並行して起こっており、おそらく何らかの意味のある影響があるでしょう。
私の理解では、彼らには巨額のサウジアラビアや政府系ファンドの資金を巨大プロジェクトに引き込める人材が必要で、彼はこの種の事業に非常に経験豊富な金融のプロフェッショナルです。
実際、10月に彼はマイクロソフト、NVIDIA、そしてアブダビの支援を受けて、データセンターと付随する電力インフラを構築するための300億ドルのブラックロック共同ファンドを立ち上げました。つまり、この人物はUAEの利害関係者、G42のような組織との経験があり、おそらくそのネットワークも深いということです。私の理解では、この任命はそういった意図があると思われます。
最後に、より通常の、いわば落ち着いた週に取り上げるような話題を一つ紹介します。AIの音声技術に特化したEleven Labsが、シリーズC資金調達で2億5000万ドルを調達し、企業価値が30億ドルになったことは注目に値します。
以前、この資金調達の可能性について触れましたが、これはその確認となります。Iconic GrowthとAndreessen Horowitzが主導しています。OpenAIやAnthropicほど有名ではないかもしれませんが、AI音声技術のリーダーとして非常に重要な組織であり、それはこの資金調達と企業価値に明確に反映されています。
さて、研究の話題は時間の都合上すべて飛ばして、ポリシーと安全性に移りましょう。まず、再びStargateと、トランプ大統領の立ち会いのもとで行われた発表について取り上げます。
Stargateについては、米国のAIインフラに5000億ドルを投資するというマーケティングの一環として、大々的な発表がありました。トランプ大統領はこのプロジェクトを称賛し、これによって米国の競争力が高まり、アメリカ製造イニシアチブの一部となると述べました。
また、インフラ開発を促進するための緊急宣言の使用にも言及しました。ジェレミー、あなたは米国政府がこのプロジェクトをどの程度支援できるのか、そしてStargateが進行中にもかかわらず、新しいことのように見せようとしているこの発表の意味について、より詳しくご存じでしょう。
実際のところ、この側面はそれほど異常ではありません。バイデン政権末期にTSMCが大きな工場の発表をしたとき、同様のことをしたと思います。トランプが就任するまで待って、彼に功績を与えたのです。これは通常の政治の一部です。
特筆すべきは、これは特にサム・アルトマンらしい動きです。特に、彼は長い間トランプ反対派として公然と活動してきた後、政権との関係を回復しようとしているところです。
彼はかなり、言わば厄介なツイートをいくつか投稿しました。以前のトランプ政権に対する彼の見解を追跡してきた人々にとって、この180度の転換を見るのは「おもしろい」ですね。少なくとも私には、明らかに彼自身を売り込もうとする試みに見えます。
ビジネスを運営している立場では理解できますし、ガバナンスの影響は明らかにその立場にある誰にとっても計算の一部となるでしょう。
政府支援の実際の意味に関して言えば、私はこれに対する政府投資を追跡していません。実際、このような高額な場合、議会が予算を担当しているため、大統領が「はい、資金を提供します」と簡単に言えるわけではありません。
大統領は他の事項から資金を流用しない限り、簡単に追加の資金を提供することはできません。とはいえ、トランプは特に環境規制やデータセンターの建設時間を遅らせる他の問題の規制緩和に前向きです。
これは実際に非常に重要です。現在、中国との最大の差は、何らかの手段で大規模なキャンパスに十分な電力を供給する能力です。私たちはほぼすべてのハードウェアを持っていますが、そのエネルギーインフラが必要です。
バイデン政権の終わり頃に、いくつかの大統領令が出されました。それらはまだ有効なようで、それは興味深いことです。トランプはそれらを規制緩和に向けていたため、それらを維持していますが、規制緩和と物事を前進させるためのより大胆な動きを行っています。
米国のこの分野での競争力を支持する人にとって、これは重要な動きだと思います。制御の喪失を懸念している場合でも、米国が先行することを望むべきです。そうすることで、米国の研究所が十分なリードタイムを持ち、アライメント技術に取り組むことができ、地政学的要因に追い立てられすぎないようにできます。
したがって、トランプがこれを支持すると言っているのは実際に良いことだと思います。資金源、これはより多くサム・アルトマンが資金を調達する問題ですが、資金源は潜在的な問題です。
条件が非常に慎重に検討されない限り。国外の政府系ファンドの資金が必要かもしれません。それはこれらの事項の事実かもしれませんが、これらの資金の出所とプロジェクトへの影響力については、確実に国家安全保障の厳密な精査が必要です。
先ほど述べたように、その5000億ドルという数字は基本的に今後4年間で得たいと希望する額です。1000億ドルという数字はソフトバンクのCEO孫正義からのもので、他の投資家としてOpenAIなどがいます。これは巨大で非常に野心的なプロジェクトです。どうなるか見守りましょう。
次は、先週起こったトランプ就任に関連するさらなるニュースで、取り上げることができませんでした。おそらく予想通り、トランプ大統領はバイデン政権のAIに関する大統領令、「AIの安全で確実で信頼できる開発と使用に関する命令」を撤回しました。
これは非常に長く、多くのことを行う大きな大統領令でした。トランプは「有害な大統領令と行動の撤回に関する大統領令」を出し、それが発効しました。先ほど述べたように、トランプが行っていることには様々な面があります。
これは安全性の部分、様々な機関が行うように指示されていた多くのことに焦点を当てていますが、他のバイデンの政策や命令はこの標的とはなっていません。
これは実際に非常に興味深いです。この大統領令が最初に出た時に話し合ったと思いますが、トランプが今撤回した大統領令は、すべてを少しずつ行おうとした大統領令でした。
その背後にいた民主党連合には、様々な利害と関心を持つ人々が含まれていました。その一部は、超党派的な国家安全保障の懸念、AIの武器化、制御の喪失のリスクなどに関するものでした。
そして、より明確に民主党的なコード化されたものもありました。アルゴリズムの倫理やバイアスなどに関するものです。とにかく、当時、米国史上最長の大統領令でした。出た時に読むのは本当に大変でした。
余分なものが多すぎたため大統領令を撤回したと解釈することは確かにできますが、問題は何に置き換えるのかということです。この大統領令の良かった主要な点の一つは、10の26乗フロップス以上でトレーニングされたモデルの報告要件が含まれていたことです。
当時、そのしきい値でトレーニングされたモデルはありませんでしたが、現在はいくつかあります。したがって、問題は、それが何らかの形で復活するのか、他にどのような大統領令が来るのかということです。それは未解決の問題のままです。
現時点で人々は多くのことを読み込んでいますが、実際にははっきりしていないことが多いと思います。しかし、この背後にある理由はある程度明確です。政権を追跡していた人なら誰でも、彼らがこれを撤回すると長い間話していたことを知っていますし、なぜそうするのかも明確でした。
トランプ大統領が気にかけている中核的な国家安全保障の問題とは関係のない余計なものが多すぎたからです。それが彼らがとっているアプローチだと思います。そしてこの多くは、どのように展開されるかをまだ見守る必要があります。
さて、約束通りDeepSeekに戻り、地政学的な意味について、ジェレミーが言及したように、Anthropicのダリオ・アメード CEO の見解を通じて見ていきましょう。
アメードは以前同様にブログ投稿を行い、DeepSeekを敵対者とは見ていないと述べ、基本的にこれは必ずしも悪いことではないと言いつつ、同時に輸出規制の重要性を強調しました。
アメードはここで微妙なラインを歩みました。DeepSeekと彼らの研究について良い言葉を述べる一方で、彼らが中国を拠点としているため、中国の権威主義政府の命令に直接従わなければならないという事実を思い出させようとしました。
少なくとも西側の誰かとして、そしてここで非常に明確にしたいのですが、私たちは中国政府に対して少し偏見や否定的な見方を持っていると言えます。同様に、アメードは中国を良いものとは見ておらず、輸出規制を強化または継続することが依然として重要だと位置付けています。
彼はまた、DeepSeekが実際に何を意味するのかについての考えをより詳しく説明したブログ投稿も公開しました。この分野の人々はほぼ全員、そこに収束したように思います。
基本的に2つのグループがあります。DeepSeek V3を見て、「すごい」と思い、すでに頭の中で計算を行っていた人々と、R1が出てきた時に初めてショックを受けた人々です。メディアの反応は後者に支配されていましたが、前者は基本的にその考えに沿っていました。
スケールは引き続き機能し、スケーリング曲線が支配し続けるだろうということです。そして今の問題は、中国と西側がすでに持っているコンピュートをどれだけ早く飽和させることができるかということです。
それが完了すれば、この分野で誰が先行しているのかの本当の感覚が得られます。しかし最終的にはハードウェアが王様です。それは変わっていません。私たちはスケールするための第二の軸を持っているだけです。
ダリオが非常に効果的に指摘している点の一つは、GPT-4がトレーニングされてからしばらく経っており、Claude 3.5 Sonnetがトレーニングされてからもしばらく経っているということです。
その時間の中で、アルゴリズムとハードウェアの改善のペースを考えると、約60億ドルのインフラで、個々のトレーニング実行コストが約600万ドルのこのようなモデルが得られることは、本当に予想外のことではありません。
実際、これは若干曲線より遅れています。ここでショッキングなのは、中国がこれを達成したということ自体ではありません。曲線自体がとても急であるということです。
改善曲線は、少なくとも多くの人々が、私も含めて、私たちが超知能に向かっていると信じているほど急です。それを真剣に受け止めれば、段階的なブレークスルーは全てショッキングに見え、DeepSeekのような、コストパフォーマンスのトレードオフの点で最前線から数ヶ月遅れているものでさえ、人々をショックに陥れることになります。
そしてそれをオープンソース化し、600万ドルというマーケティングを加えれば、大きな影響を与えることになります。ここでの主な教訓は、必ずしも中国からではないかもしれませんが、西側のスケーリングが物事を動かし始めると予想されますが、確かにどこかのフロンティアラボからこのような事態をもっと期待することです。
これは、Discordから寄せられた質問に戻る良い機会です。特にジェレミーの見解について。明らかにここには緊張関係があります。一方では安全性を確保し、相互運用性を持ちたいと考えており、もちろんあなたは大きな安全性の擁護者として、アライメントの懸念などを意識したいと考えています。
同時に、米国と中国の間にはレース力学があると言え、DeepSeekがそれを示しています。では、これがアライメントやそういった事柄とどのように関係するかについて、あなたの反応はどうでしたか?
中国は明らかにDeepSeekという非常に印象的な国家チャンピオンを持っています。中国のナンバー2である李克強首相とDeepSeekの共同創設者の一人との会談について多くの注目が集まりました。
中国銀行はAIインフラに1兆元の投資を発表しましたが、これは西側メディアによって1,137億ドルと誤って報道されています。これは単純に通貨換算をナイーブに行った結果です。実際に重要な数字は購買力、つまりPPP(購買力平価)の数字です。
PPP条件では、これは実際に2,400億ドルの投資となります。これは実際にStargateプロジェクトにコミットされた総資金よりも多く、実際には2倍以上です。中国共産党がこれをどれだけ真剣に考えているかを考えると、彼らは本気です。
そして今、彼らは十分なハードウェアさえあれば、絶対的な技術力で競争できるDeepSeekという国家チャンピオンを持っています。また、アリババとQwenも言及する価値があります。フロンティアモデルの面で非常に競争力があることを見過ごすべきではありません。
そして、華為(ファーウェイ)、SMIC、ASなどについても考えると、7nmプロセスでどのようなハードウェアの絵が描けるか、そして十分な量のチップを適切な歩留まりで作れるかどうかという全体の物語があります。それは十分可能かもしれません。
結論として、中国はここで本物です。これは、西側の国家安全保障機関が多くの仕事をしなければならず、より関与する必要がある場所です。しかし結論として、このレースで中国が活発なプレーヤーであることの意味について、非常に思慮深いトレードオフと計算を行う必要があると思います。
同時に、はい、アライメントは未解決です。超知能システムのアライメントと制御が大きな問題である可能性が高いという事実を見て、それを認めたくない人が多すぎます。なぜなら、彼らは中国と誠実に交渉することが起こらないということも認識しているからです。
私たちが昨年の調査で取り組んできた質問は、両方のことを真剣に受け止めた場合、何が起こるのかということです。中国が参加したほぼすべての国際的な国家安全保障条約に違反し、米国とロシアが結んだ核に関する条約を利用し、止める兆しを見せていないことを認めながら、同時に、私たちは超知能を制御する方法を知らず、制御できる前に超知能を構築すれば、結果は良くないだろうということを認める。
これら2つの見方をどのように調和させるのか?これは、両側の多くの非現実的な見解の核心にあると思います。全体像を考慮に入れていない見解です。
ここでは時間の関係で止めておきましょう。ポリシーのエピソードにする時間ですね。
TSMCに関連するいくつかの話題がありますが、1つに焦点を当てましょう。トランプが関税を脅かし、台湾政府がそれに対して反応を示したという話題がありました。また、台湾政府がTSMCに海外で2ナノメートルチップを製造することを許可したという興味深い話題もありました。
これは、いわゆる「シリコンシールド」と呼ばれる制限を緩和するもので、もちろんこれはTSMCの米国での仕事に関連しています。
台湾のこの状況における考え方は、彼らがあなたの赤ちゃんを捕まえているようなものです。彼らはあなたの赤ちゃんを持っていて、そこに別の人が銃を向けています。彼らはあなたの赤ちゃんを手放さないでしょう。なぜなら、もし手放せば、あなたは「まあ、台湾が撃たれても気にしない」と思うかもしれないからです。
しかし、彼らはあなたの赤ちゃんを持っているので、あなたは彼らが撃たれることを気にします。彼らは「いいえ、私たちはここですべての半導体を製造しています。もし中国が攻撃してきたら、あなたは半導体を得られなくなり、それは本当に悪いことです」と言います。これは完璧な比喩ですね、本当に良いです。
これは実際に長い間、台湾の国家政策の問題でした。TSMCの最先端ノードが何であれ、TSMCは2世代前のノードしか海外で製造できないことになっています。
有名なTSMCのアリゾナ工場を見ると、4ナノメートルであり、これは現在のTSMCの最先端ノードが2ナノメートル工場、2ナノメートルノードだからです。
そしてはい、これは今変わっています。これは非常に興味深い展開です。これは本質的に、2ナノメートル、1.6ナノメートルなどの工場の米国での建設を承認するものです。
明らかにアメリカはこれに非常に興味を持っているでしょう。なぜなら、もし何か起こった場合、例えば熱戦争的な状況で中国が台湾に侵攻した場合、これらのチップを生産する能力を急速に拡大する必要があるからです。
一次近似として、すべてのTSMC工場は基本的に爆破されるように仕掛けられていると想定してください。もうTSMCはありません。そして、すべてがリセットされ、「さて、次の主要な工場は何か」ということになります。
その文脈では、SMICは実際に非常に興味深いプレーヤーです。リソグラフィマシンなどが入手できないため問題はありますが、彼らは確実により重要になります。そしてその状況では、中国は西側とほぼ同等のレベルに上がってきます。
したがって、TSMCの工場と能力をこれらの高解像度でオンショアリングすることに多くの関心があります。それが本質的に承認されたものです。
以上で、このDeepSeekに焦点を当てた非常に密度の濃いエピソードは終わりです。いつもと同様に、ご視聴ありがとうございました。すべてのリンクは説明欄にあります。last week in AIまたはlast week in.comまたはlast week in ai.comでウェブ上でも入手できます。
いつものように、視聴、共有、登録していただき感謝しています。しかし何よりも、あなたが聞いてくれていること、そしてDiscordでチャットしてくれることは素晴らしいことです。ありがとうございます。引き続きチューニングしてください。

コメント

タイトルとURLをコピーしました