DeepSeek – 株式市場を暴落させた中国のAI

10,499 文字

YouTube
作成した動画を友だち、家族、世界中の人たちと共有

現在、テクノロジー業界を騒がせている新しいAIの進展があります。「衝撃的な中国のAI技術DeepSeekが米国株を暴落させる」といった記事が出ています。この動画を録画している1月27日時点で、NVIDIAは177%以上、つまり4,650億ドルもの時価総額を失いました。シリコンバレーの著名な投資家の一人であるマーク・アンドリーセンは、「DeepSeek R1は私が今まで見た中で最も驚くべき印象的なブレイクスルーの一つであり、オープンソースとして世界への深遠な贈り物だ」と述べています。
この動画では、DeepSeekとは何か、なぜ株式市場がパニックになっているのか、それについての様々な推測、そしてDeepSeekのような技術が長期的にどのような結果をもたらすと私が考えているのか、さらには実際に使用する方法までを説明したいと思います。現在AIの世界で最大のニュースとなっているDeepSeekの全体像を把握し、それについて知的な会話ができるように必要な文脈を提供したいと思います。
DeepSeek R1とそれが引き起こしている騒動を理解するためには、2024年12月に発表された研究論文「DeepSeek V3」に遡る必要があります。DeepSeek V3は6,710億のパラメータを持つ大規模モデルでしたが、エキスパートの混合モデルと呼ばれる手法を使用していました。これは、プロンプトが与えられる度に全てのパラメータを使用するわけではなく、実際には各トークンに対して370億の活性化パラメータのみを使用していたということです。
このモデルを特別なものにしているのは、「優れたパフォーマンスにもかかわらず、DeepSeek V3の完全なトレーニングには僅か278万H800 GPU時間しか必要としない」という点です。これを比較すると、Perplexityによれば、GPT-4のトレーニングには約6,000万GPU時間が必要でした。わずか278万H800 GPU時間と比べると驚異的です。
さらに、OpenAIがGPT-4を訓練した際には、NVIDIAの非常に高性能なA100 GPUを使用していました。DeepSeekが使用したH800 GPUは、中国に対する米国のGPU制限に適合させるためにNVIDIAが開発したもので、米国のAI企業が利用できるGPUほどの性能はありません。つまり、OpenAIなどが利用できる高性能なGPUよりも低性能なGPUを使用しながら、GPT-4の訓練時間の約95%も短縮したということになります。
ベンチマークを見ると、DeepSeek V3は青の破線、GPT-4は濃い黄色の2番目の線、Claude 3.5 Sonnetは最後の線で示されています。数学やコーディングなどの分野では、このDeepSeek V3はGPT-4よりもかなり良い成績を収め、Claudeとほぼ同等の成績を収めています。様々なタスクを検証するMMLUでは、Claude 3.5 Sonnetに次いで2番目に高いスコアを記録しました。
数学では他のほとんどのモデルを上回り、Code Forceベンチマークでは他のモデルを圧倒しました。GitHubでの問題解決能力を測るSWE Benchでは、Claude 3.5 Sonnetにわずかに及ばない程度でした。このDeepSeek V3は、95%少ない計算量で訓練され、GPT-4やClaude 3.5 Sonnetと同等の結果を出し、しかもオープンソースで公開されています。
しかし、12月にこれが発表された頃、O1やO1 Pro、そしてOpenAIが次世代モデルの「O3」を披露したため、これらのベンチマークはそれほど注目されませんでした。人々は01や03を新しい最先端モデルと考え、これらは前世代の最先端モデルと比較されていたからです。
では、なぜ突然今週になって騒ぎになっているのでしょうか。先週、DeepSeekは新しい研究成果であるDeepSeek R1を発表しました。DeepSeek R1は、先ほど見た非常に高速で低コストな訓練が可能なDeepSeek V3をベースモデルとして使用しています。しかし、このモデルは既存のV3モデルの上に新しい微調整手法を適用しています。
アブストラクトを読むと、「予備段階として教師あり微調整を行わずに大規模な強化学習を通じて訓練されたDeepSeek R1は、顕著な推論能力を示す」と書かれています。基本的には、既に答えを知っている多くの質問を投げかけ、既存の正解と照合して自己チェックを行わせたということです。
これは大幅な単純化ですが、強化学習はそのような形で機能しました。教師なし強化学習だったので、例えば数学の問題を出題すると、モデルは自力で答えを導き出そうとし、その後、既知の正解と照合して自身の回答をチェックするというものでした。これを数学、コーディング、そして彼らが特化させたい様々なスキルで行いました。
R1が特に際立っているもう一つの点は、推論時に思考連鎖プロンプティングを実際に使用することです。プロンプトを入力すると、実際に考え、さらに自己修正する過程を見ることができます。ある論理的なアプローチを考え、その後「実はこちらの方が良いかもしれない」と考え直すといった、質問直後の推論プロセスを持っています。これは研究論文には具体的に記載されていませんが、テンプレートではDeepSeek R1に最初の推論プロセスを生成させ、その後最終的な回答を出すことが要求されていることがわかります。
先ほど言及したように、OpenAIからO1やO3のデモが公開され、DeepSeek V3はそれほど印象的ではなく感じられましたが、米国が持っているよりも低性能なハードウェアで非常に低コストで訓練できるV3の特徴と、強化学習による微調整や、プロンプトに対する思考連鎖推論を組み合わせた新しいR1モデルにより、このオープンソースモデルがOpenAIの最先端クローズドモデルと同等かそれ以上の結果を出しているのです。これが人々が騒いでいる理由です。
ベンチマークの比較を見てみましょう。線の入った青がDeepSeek R1、この濃い灰色の棒がOpenAI O1、一番右の薄い青い線が前身のDeepSeek V3モデルです。ほぼすべてのベンチマークで、OpenAIのO1モデルと同等かそれ以上のパフォーマンスを示しています。一般的な用途ではO1とほぼ同等で、コードではO1を上回り、数学でも、GitHubの問題解決能力でもトップを走っています。
OpenAI O1は、クローズドソースで月額最低20ドル、NVIDIAのA100やH100を何千台も使って訓練されたモデルです。そして今や、より低性能なGPUで、はるかに短時間で訓練され、同等の性能を持つDeepSeek R1モデルが登場したのです。これが人々を動揺させています。
先ほどの見出しに戻りますが、「衝撃的な中国のAI技術DeepSeekが米国株を暴落させる」という記事の通り、NVIDIAは今日大幅な下落を記録しました。この下落の背景にある考えは、次世代AIモデルの訓練に必要なGPUの数が想定よりもはるかに少なくて済むかもしれないということです。もし大手研究企業がAIモデルの訓練を以前の5%の時間とコストで行い、なおかつO1レベルの結果を得られるのであれば、なぜそれほど多くのGPUを購入する必要があるのでしょうか。これは波及効果を及ぼし、Meta、Google、Oracle、そしてほとんどの大手テクノロジー企業も今日の結果として株価が下落しました。
さらに興味深いのは、これが基本的にこの会社の副業プロジェクトだということです。韓暁氏のツイートによれば、DeepSeekを所有する会社は量子コンピューティング企業で、彼らは長年協力関係にあり、優れた数学的バックグラウンドを持つ非常に賢い人々だそうです。彼らは取引やマイニング目的で多くのGPUを所有しており、DeepSeekはそれらのGPUを活用するための副業プロジェクトだったそうです。
つまり、暗号通貨や量子トレーディングなどへの投資用にGPUを購入し、必要以上の処理能力があったため、独自のモデルの訓練を始めたということです。韓氏はその後、「中国では誰も彼らを真剣に受け止めていない」と続けています。中国のAIチームが効率的で素晴らしいわけではなく、DeepSeekだけが効率的で有能なのだと。中国のAI企業は、アメリカの企業と同様に、マーケティングに重点を置いた大規模な組織だそうです。
しかし、私個人の意見としては、NVIDIAは回復すると考えています。人々はNVIDIAが過大評価されていることを懸念し始め、このニュースを契機に売り抜ける機会と捉えたのだと思います。数人が売り始め、それが小さなパニックを引き起こし、さらに多くの人々がパニックになって売り抜けたのでしょう。これは投資アドバイスではありませんが、私は回復すると考えています。
DeepSeekについて、より曖昧な部分といくつかの反論を共有したいと思います。これらは、現時点でのNVIDIAの売却が少し的外れだったかもしれないと私が考える理由です。まずは、それを取り巻く論争から始めましょう。
このInvestopediaの記事によると、シティバンクのアナリストは、DeepSeekが最先端のチップなしでこれらの結果を達成したことに疑問を投げかけています。彼らはNVIDIA株の買い推奨を維持し、主要な米国AI企業が同社の先進的なGPUの使用から離れるとは予想していないと述べています。
Scale AIのCEOであるアレクサンダー・ワンも、彼らが主張するほど少ないGPUを使用したのか、また実際にH800(H100の機能を制限したバージョン)を使用したのか、それとも他のものを使用したのかについて疑問を投げかけています。彼は、より強力なNVIDIA Hopper GPUまたはH100を5万台近く使用したと考えていますが、AI チップに関する米国の輸出規制のため、企業は真実を開示できないと考えています。
先ほど触れましたが、彼らがH800を使用したと主張している理由は、米国が中国に販売するチップの計算能力を基本的に制限しているからです。そのため、NVIDIAは中国にも販売できるように、性能を抑えたH800を開発しました。しかし、アレクサンダー・ワンとシティバンクの担当者によれば、彼らは主張よりもはるかに多くのGPUを使用し、主張よりもはるかに強力なGPUを使用していたが、トラブルを避けるためにH800を使用したと主張しているだけだと考えています。
また、彼らがゼロから始めたのではなく、Llamaモデルなどをスタートポイントとして使用し、その上で訓練を行ったのではないかという噂もあります。私の調査と研究では、時々プロンプトがモデルはOpenAIによって作られたと主張したり、トラブルシューティングの指示をする際にChatGPTの指示を提供したりする事実以外に、これらの主張を裏付ける実質的な証拠は見つかりませんでした。
実際には、おそらくインターネット上の大量の公開データで訓練され、ChatGPTやOpenAIの指示が公にインターネット上で大量に入手可能であったため、データ収集の過程でデフォルトでそれらの多くが訓練データに含まれていた可能性が高いのです。
ここにmanifold.marketsというサイトがあり、ランダムな事柄に賭けることができます。彼らは「DeepSeekはV3の訓練で使用したGPUの数について嘘をついたか?」という質問を投げかけており、現時点では38%の確率で嘘をついたとされています。つまり、ほとんどの人々は彼らが実際に不正をしたとは考えていないようです。現時点では、誰もがDeepSeekの言葉をそのまま受け入れているような状態です。領収書のような証拠は見ていません。
私の全体的な考えをこのX(旧Twitter)の投稿にまとめました。ほとんどの人々は、今回の株価下落はモデルの訓練に必要な計算量が大幅に減少したためであり、それはNVIDIAにとって良くないニュースだと言っています。おそらくそれが株価下落の理由でしょうが、ここに私の反論があります。
まず、多くのアナリストは、DeepSeekが規制のために言及できないだけで、実際にはより強力なGPUで訓練を行ったか、あるいは高コストな訓練が既に完了していたLlamaなどの異なるモデルの重みから始めたのではないかと主張しています。これは推測に過ぎませんが、かなり広く言及されている推測です。
また、より少ない計算量で強力なモデルを訓練できることがわかっても、人々はさらに強力なモデルを訓練するためにより多くの計算資源を投入するだろうと私は考えています。O1レベルのモデルをこれほど少ない計算量で訓練できるのであれば、計算量を10倍や100倍にした場合、どのようなモデルが訓練できるか想像してみてください。
そして最後に、私が最も重要だと考える点を挙げました。私がこれを言った後、多くの人々が私よりも前に同じことを言っていたことに気づきましたが、もし新しい基盤モデルの訓練が実際にはるかに安価になるのであれば、それは実際にはOpenAIのような大手企業の参入障壁が我々が考えていたよりもさらに低いということを意味します。
これにより、より多くの新しい企業や新しいオープンソースモデルが登場する可能性が開かれ、それらすべてが計算資源を必要とします。単一のモデルを訓練するために必要な計算量の減少は、より多くの企業が参入障壁の低下により独自の基盤モデルを作成できるようになることで相殺されるでしょう。つまり、企業1社あたりのGPU購入数は減少するかもしれませんが、より多くの企業がゲームに参入することで相殺される可能性があります。
もちろん、私がこれを投稿した後、数日前にGary Tanが私の投稿以前に同様の投稿をしていたことに気づきました。「人々は本当にこれを信じているのか?モデルの訓練がより安価で、より速く、より簡単になれば、推論(AIの実際の世界での使用)の需要は成長し、さらに加速するだろう。これは計算資源の供給が使用されることを保証する」と述べています。
これは「中国のDeepSeekは米国の株式市場に対する最大の脅威となる可能性がある。同社は、極めて低価格で、最先端のチップへのアクセスなしに画期的なAIモデルを構築したように見える」という投稿への返信でした。
マイクロソフトのCEOであるサティア・ナデラは、「ジェヴォンズのパラドックスが再び起きている。AIがより効率的でアクセスしやすくなるにつれ、その使用は急増し、私たちが十分に満足できないほどの商品となるだろう」と指摘しています。これは、私がここで述べた同じ主張です。
ウィキペディアでジェヴォンズのパラドックスを見てみましょう。ジェヴォンズのパラドックスは、技術の進歩によってリソースの使用効率が向上し、単一のアプリケーションに必要な量が減少する場合に発生します。しかし、リソースの使用コストが低下するため、全体的な需要が増加し、リソースの総消費量は減少するどころか実際には増加するのです。
つまり、より少ない計算量でより多くのことができるようになっても、人々は計算資源の購入を減らすのではなく、より少ない計算量でさらに多くのことを行うために、より多くの計算資源を購入するということです。また、より多くの企業が独自のモデルを開発するための参入障壁も低くなったのです。
私は最終的にこれがNVIDIAにとってプラスになると感じていますが、繰り返しますが、これは投資アドバイスではありません。私の言うことはすべて慎重に受け止めてください。私はただ、見つけたすべてのリソースを掘り下げ、あなたのためにパズルのピースを組み合わせようとしているだけです。
現在、誰でもDeepSeekを使用することができます。使用方法は複数あり、deepseek.comにアクセスして直接ウェブサイトで試すことができます。「Start now」をクリックしてGoogleアカウントでログインし、R1モデルを使用したい場合は「Deep think R1」というボタンをクリックします。
試しに複雑な論理問題を考案して解かせてみましょう。実際に思考過程をリアルタイムで見ることができます。「複雑な論理問題を考案して解く必要があります。まずはブレインストーミングから始めましょう」などと表示され、「待てよ、3種類の人々がいる古典的なパズルのタイプを思い出した」「別の角度から…」「別のアイデアがある」といった具合に、私が話している間も考え続けているのが分かります。
これがR1をV3と異なるものにしている点です。このR1の基盤となったのは、最初に話したV3モデルですが、このR1は問題を考え抜くという追加の思考プロセスと、強化学習による微調整プロセスを導入したのです。
それはすごかったです。実際に約5分ほど、このプロセスについて考え続けていました。ここですべての思考過程を見ることができ、208秒、つまり4分近く考え続けました。その後、独自の論理問題を作成し、その論理問題を解決しました。
しかし、これが唯一の使用方法ではありません。現在、DeepSeekはiPhoneのフリーアプリストアでナンバーワンアプリとなっています。モバイルで使用したい場合は、そちらからも入手できます。このニュースと多くの人々の話題により、ChatGPTを追い抜いたのです。
DeepSeekの使用に問題が発生した場合、Business Insiderでもこの記事が出ています。「DeepSeekは大規模な悪意のある攻撃を理由に新規登録を一時的に制限」。この問題が現在も継続しているかどうかはわかりません。私がDeepSeekにログインしようとした際には、エラーやメッセージは表示されませんでした。
記事によると、DeepSeekは最近大規模な悪意のある攻撃に直面したため、中国の電話番号を持つユーザーのみが新規アカウントを登録できると述べています。この録画時点では問題は解決しているようですが、ログインして使用しようとする際には、多少のアップダウンがある可能性があることを知っておいてください。
また、DeepSeekのディスティル版を使用する方法もいくつかあります。ディスティル版とは、より小さな基礎モデルを使用するバージョンです。DeepSeek V3を基礎モデルとして使用する代わりに、Qwen 7B、Qwen 14B、またはLlamaモデルのいずれかを使用する可能性があります。
console.gro.comにアクセスすると、実際にGrockでDeepSeekを使用することができます。彼らはディスティルされたLlama 70Bモデルを使用しています。つまり、基礎となるモデルはLlama 70Bですが、その上にR1の思考能力を使用しているのです。Grockはとてつもなく高速なので、非常に素早く結果を得ることができます。
同じ質問をして、複雑な論理問題を考案して解くように指示し、Grockを使用して送信すると、思考はしているものの、GrockのクラウドGPUを使用しているため、非常に高速で処理が進んでいることがわかります。速度に関しては、他のすべてを圧倒しています。
完了すると、ここでも思考過程が全て表示されます。メインのウェブバージョンほどフォーマットは整っていませんが、思考の開始地点が表示され、下までスクロールすると複雑な問題とその解答が表示されており、これらすべてを数秒で処理しています。
最後に、完全にローカルで実行することも可能です。私はLM Studioというツールをお勧めします。これは、モデルのダウンロードと追加を簡単にする無料ツールです。LM Studioをダウンロードし、新しいモデルを追加したい場合は、このDiscoverボタンをクリックして、上部にDeepSeekと入力するだけです。
利用可能なDeepSeekの異なるバージョンが全て表示され、使用したいものを見つけたら、このダウンロードボタンをクリックしてコンピュータに取り込むことができます。その後、モデルをローカルで実行することができます。現在、私はDeepSeek R1 distill Qwen 14bモデルを使用しています。つまり、このバージョンの基礎モデルはQwen 14bです。
同じプロンプトを与えて、複雑な論理問題を作成して解かせてみましょう。思考ボックスがあり、そこで問題全体について考え抜いていることがわかります。全プロセスを考え抜き、ローカルで実行した場合、1分55秒かかりました。私はNVIDIA RTX 4090 GPUを使用しているので、基本的に入手可能な最高級の消費者向けGPUを使用しています。約2分で処理を完了し、最後に論理問題とその解答を提供するまでの思考過程全体を見ることができます。トークンの生成速度は1秒あたり63.42でした。
LM Studioを使用する利点は、モデルをダウンロードした後は、モデルのダウンロード時にはインターネット接続が必要ですが、一度ダウンロードしてしまえば、インターネットを切断してWi-Fiをオフにしても、同じ応答を同じ時間で得られることです。完全にオフラインで実行でき、クラウドには何も送信されません。
プライバシーやデータ保護について心配がある場合でも、LM Studioのようなツールを使用して、これらのモデルを完全にオフラインで実行することができ、情報がクラウドプロバイダーなどに漏れることがないことを確実に知ることができます。
これが現在DeepSeekを使用する方法です。deepseek.comを利用するか、DeepSeekモバイルアプリを使用するか、ディスティルされたLlamaバージョンを使用してGrockから直接実行するか、またはLM Studioを使用して任意のディスティルモデルをローカルコンピュータで使用することができます。
そしてDeepSeekの話はこれで終わりだと思うかもしれませんが、この動画を録画している1月27日、同じ会社が新たな研究成果を発表しました。今度はAI画像生成モデルです。この新しいモデルは「Janis Pro 7B」と呼ばれています。
つまり、彼らは最先端の大規模言語モデルを低コストで、はるかに高速に作成しているだけでなく、今やAI画像生成でも同様のことを行っているように見えます。
私自身はまだこのモデルを試していないので、詳しいことはわかりません。この動画の録画中に発表されたばかりですが、ベンチマークを見ると、この新しいJanis Proは白線の入った青で示されており、SDXL、Stable Diffusion 1.5、PixArt-α、DALL-E 3、SD3 Medium、そしてMetaのAI画像モデルと思われるEMU 3 Genに対して、これら両方のベンチマークでほぼ上回っています。
つまり、大規模言語モデルを破壊的に革新しているだけでなく、今やAI画像生成モデルも破壊的に革新しようとしているのです。このJanisモデルについてさらに詳しく学んだら、今後の動画で取り上げたいと思います。現在人々を動揺させているのと同じDeepSeek社による成果なので、これについても触れておきたいと思いました。
これで全体像が把握できたと思います。DeepSeekとDeepSeek R1については、これからますます多くの人々が話題にし、ニュースでも取り上げられ、多くの動画や投稿が出てくるでしょう。私は事実と、それについて知っていること、他の人々の意見をまとめ、全体像を把握し、知的な会話ができるようにしたいと思いました。おそらく私が触れていない点もいくつかあると思いますが、それらはコメント欄で言及されるでしょう。
これがDeepSeek R1であり、そして新しいDeepSeek Janisです。そして、これがNVIDIAと株式市場に影響を与えた理由、少なくとも人々が株式市場への影響を主張している理由です。私は短期的な現象だと考えていますが、今後どのように展開するか見守っていきましょう。
この動画が楽しめ、新しい知識を得られ、より詳しく理解できるようになったことを願っています。このような解説が好きで、より多くのAIニュースやチュートリアル、そしてクールなAIツールについて学びたい場合は、この動画に「いいね!」を押し、このチャンネルを購読してください。このような内容をもっとYouTubeのフィードに表示させます。
もちろん、まだご覧になっていない方は、future tools.をチェックしてください。これは私が見つけたクールなAIツールを厳選しているサイトです。AIニュースを毎日更新し、週に2回、その週で最もクールなツールと重要なニュースを無料のニュースレターで共有しています。登録すると、様々なAIツールを使用してお金を稼ぐクールな方法のデータベース「AI income database」にも無料でアクセスできます。これらはすべて無料で、future tools.で見つけることができます。
ご視聴いただき、私と一緒にオタク的な時間を過ごしていただき、本当にありがとうございます。次回の動画でお会いできることを楽しみにしています。さようなら。

コメント

タイトルとURLをコピーしました