
5,370 文字

中国企業によるDeepSeek AIのリリースは、我々の業界にとって警鐘となるべきです。世界最高の科学者たちを擁する我々は、競争に勝つために焦点を絞る必要があります。DeepSeekや誰かが何かを生み出したという話を聞くのは非常に珍しいことです。通常、アイデアは常に我々が最初に持っています。なので、これは非常にポジティブな展開となり得ると言えます。何十億ドルも費やす代わりに、より少ない費用で同じような解決策を生み出せる可能性があります。
DeepSeekは現在、App Storeで最もトレンドのアプリとなり、わずか数日でChatGPTを追い抜きました。NVIDIAはDeepSeekのリリースにより、時価総額の約177%を失いました。しかし、Unstable AIのおかげでDeepSeekをローカルで実行することができます。また、オープンソースで最先端のQwen 2.5バージョン言語モデルなど、いくつかの新しいモデルもリリースされました。
しかし、今日最大のニュースは、画像理解と画像生成機能を備えた新シリーズのモデル、DeepSeekのJanusシリーズのリリースでした。これらすべてについて見ていきますが、まずはHugging FaceのCEOの投稿から始めましょう。
数年前に、Hugging Faceでリリースされたモデルがウォール街を揺るがし、米国大統領に言及されるようになると言われていたら、おそらく信じなかったでしょう。なんという世の中でしょう。そして実際、今日の米国株式市場のテクノロジーセクターは血の池と化しました。NVIDIAは時価総額の約177%を失い、今日何が起こったのか、その理由をDeepSeekに尋ねてみました。
NVIDIAは過去最大の時価総額損失を記録し、約6,000億ドルの価値が1日で失われ、米国企業の単日での最大の価値下落となりました。これは非常に重大で、ChatGPTのような米国のライバルに匹敵する低コストのオープンソース大規模言語モデルをリリースした中国のAIスタートアップDeepSeekへの懸念がきっかけとされています。
追跡していなかった方のために説明すると、彼らは約600万ドルで訓練を行いました。これは、OpenAIや他のモデル開発者が使用している費用の約50分の1とされています。しかし、最大のニュースは、DeepSeekが今日実際にメインストリーム化したことです。GoogleトレンドでDeepSeekと他のモデルプロバイダーを比較すると、ChatGPTと比較して初めて検索量で上回りました。
これは一部の懸念を引き起こしています。DeepSeekは中国企業で、サーバーは中国で運営されているためです。「アメリカ人は無料のものと引き換えにCCPにデータを提供するのが好きだ」といった意見があります。これはOpenAIの従業員であるStenのツイートですが、コミュニティノートでは、DeepSeekはOpenAIのモデルとは異なり、インターネット接続なしでローカルで実行できると指摘されています。これは完全に正しいです。
R1を実行するには十分なハードウェアが必要ですが、蒸留版も利用可能です。例えば、現在Groは推論速度が最速の推論能力を持つモデルとして、DeepSeekの700億パラメータの蒸留バージョンをホストしています。
完全なモデルをAPIを通じて実行し、DeepSeekのAPIを使用したくない場合、Together AIのようなオプションもあります。彼らもDeepSeek R1を提供していますが、このAPIの価格はDeepSeekが提供している価格の約5倍だと思います。
APIには他のオプションもあります。例えば、Hyperbolicは別の良いオプションで、DeepSeekを実行していますが、より低い量子化で提供していることに注意してください。そのため、おそらく同じレベルのパフォーマンスは得られません。
しかし、A100が数台あるか、あるいはMac Ultraが数台ある場合、Unstableのおかげでローカルで実行できるようになりました。彼らは素晴らしい仕事をしており、1.58ビットまで量子化することに成功し、GGUFも利用可能です。完全に機能を保ちながら1.58ビットで実行できるようになり、サイズを約80%縮小しました。720GBの代わりに130GBで実行できるようになりました。
彼らのアプローチは、モデルを完全に破壊し、無限ループやでたらめな出力を引き起こす単純な量子化ではなく、動的量子化を使用しています。2台のH100か、前述のようにMac Ultraを数台で実行できます。H100の場合、毎秒約140トークンを得られ、これはかなり驚くべき性能です。
これが期待できる出力の例です。これが元のビット量子化で、同じプロンプトに対する1ビット動的量子化の出力です。結果はかなり近いようです。非常に大きなモデルなので、通常、量子化は小さなモデルと比べて大きなモデルへの影響は少なくなります。
量子化の効果は、MoEやエキスパートの混合でより顕著になりますが、この動的量子化はその問題を解決しているようです。これは開発者にとって非常に素晴らしいニュースです。
しかし、米国にもDeepSeekをホストしている他のプロバイダーがいます。例えば、PerplexityはDeepSeek R1のホスティングを開始したので、Perplexityで利用できるようになりました。
ここ数日、DeepSeek R1に関して、特にデータプライバシーに関して、ひどい意見をいくつか見かけました。無料で製品を提供している他のすべての企業がデータを収集していますが、DeepSeekの素晴らしい点は、完全にオープンソースなので、リソースがあれば自分のハードウェアで実行できることです。
DeepSeekがテックコミュニティだけでなく、一般の人々からもこれほどの注目を集めた唯一の理由は、オープンソースだからだと思います。そうでなければ、Qwen 1.5.5 Proのような同じレベルのパフォーマンスを持つ無料モデルをリリースした他の中国企業もありますが、誰も実際には使用していません。
これはSam Altmanも認めています。彼はツイートで「DeepSeek R1は印象的なモデルで、特にその価格で提供できることが素晴らしい。我々はもちろんもっと良いモデルを提供するが、新しい競合を持つことは本当に活力を与えてくれる。いくつかのリリースを準備する」と述べました。
R1のおかげで、おそらくOpenAIからも近々いくつかのモデルが登場するでしょう。彼は続けて「しかし、主に我々は研究ロードマップの実行を継続することに興奮しており、我々のミッションを成功させるためには、これまで以上にコンピュートが重要だと考えています」と述べています。
これはNVIDIAの株式売却に直接対応しようとしているものだと思います。彼は「世界は多くのAIを使用したいと考え、次世代モデルに本当に驚くことになるでしょう。AGIとその先のものをみなさんにお届けできることを楽しみにしています」と述べました。
最も面白かったのは、DeepSeekのCEOが単に「がんばって」とリツイートしたことです。NVIDIAも非常に興味深い声明を発表し、それはGPUの必要性を超えたものでした。
「DeepSeekは優れたAIの進歩であり、テストタイムスケーリングの完璧な例です。DeepSeekの仕事は、広く利用可能なモデルと完全に輸出規制に準拠したコンピュートを活用して、その技術を使用して新しいモデルを作成できることを示しています」
この特定の部分の理由は、DeepSeekと一部の中国企業が、本来アクセスできないはずのH100へのアクセスを持っているというニュースによるものと思われます。これについては多くの憶測がありますが、彼らは続けて「推論には相当数のNVIDIA GPUと高性能なネットワーキングが必要です」と述べています。
DeepSeekはH800 GPUを最適化することができ、ハードウェアの低レベル制御のための最適化されたコードを書く必要がありました。これは非常に興味深いことでした。現在、事前トレーニング、事後トレーニング、そして新しいテストタイムスケーリングという3つのスケーリング法則があり、これらは継続しています。
ここでのアイデアは、これらのモデルのトレーニングだけでなく、推論にも多くのコンピュートが必要になるということです。私もNVIDIA株を今日購入したので、そうであることを願っています。投資アドバイスではありませんが、今後さらに多くのコンピュートが必要になると考えており、これは希望的観測ですが、単なる一時的な下落だと思います。
NVIDIAの回復は非常に力強いものになることを願っており、私がお金を失わないことを望んでいます。また、このビデオでは他のいくつかのことも見ていきたいと思います。その一つがDeepSeekのJanusシリーズモデルです。
これらは別のオープンソースモデルのセットで、最大のものはJanus Pro 7Bで、これもそのクラスで最先端です。SalesforceのCEOであるMarc Benioffも「DeepSeekが画像生成のためのJanus Pro 7Bを導入し、すでにApp StoreでChatGPTを追い抜いて1位を獲得しました。NVIDIAのスーパーコンピュータや1億ドルの予算は必要ありません」とツイートしました。
私は長期的にはおそらくこの意見には同意しませんが、彼は続けて「AIの真の宝はUIやモデルにはありません。それらはコモディティです。真の価値はデータとメタデータにあり、それがAIの可能性を支える酸素です。未来の財産です」と述べています。
データが新しい石油であることは、おそらく誰もが今では認識しています。すべてが我々のデータにあり、モデルにはありません。私個人はその部分には同意しません。データは重要ですが、すべてのデータではなく、非常に高品質なデータか高品質な合成データである必要があります。
モデル自体はHugging Faceで利用可能で、特にJanus Pro 7Bは画像生成において非常に優れているようです。通常のJanusと7B Proの結果の差は大きいです。
Hugging Faceでは多くのデモが利用可能です。例えば、モデルの視覚理解のデモがあります。この画像を渡すと、生成される応答がこれです。しかし、多くの人々がDeepSeek R1だけでなく、これらの新しくリリースされたJanus Proモデルも使用しようとしているため、現在はほとんどが混雑しています。
DeepSeekの影響で十分な注目を集めていませんが、Qwenからも別のモデルがリリースされました。これはQwen 2.5ビジョン言語モデル72Bです。DeepSeekと同様に、Qwenも独自のチャットプラットフォームを持っており、100万トークンのコンテキストウィンドウモデルを含む他のモデルと共に、この新しいビジョン言語モデルを使用できます。
画像生成を含む、他のプラットフォームでは利用できない機能がいくつかあります。これを有効にすると、画像の生成を依頼でき、サングラスをかけたラマの画像を作成するよう依頼することができます。画像生成のためにバックグラウンドで使用しているモデルは不明ですが、ビデオを生成する機能もあります。
これは毛糸の玉で遊ぶ猫のビデオです。品質はOpenAIのSora Turboと同等だと言えます。これは無料で使用できます。自己責任で使用してください。中国企業とデータを共有したくない場合は避けてください。しかし、重要な作業をしておらず、単に楽しみたい、あるいは異なるモデルを探索したい場合は、テストすることを強くお勧めします。
とにかく、今日は非常に興味深い一日でした。現在、誰もがDeepSeekを使用しようとしているため、非常に遅くなっています。ここ数日間は本当に楽しく使用していましたが、今はすべてのトラフィックのために、需要に追いつくことができず、すべてのトラフィックをサポートするのに十分なGPUリソースを持っていないと思われます。
私個人がDeepSeekについて最も気に入っていた部分は、内部の思考プロセスでした。生成される出力よりも、内部の思考の連鎖を読むことに個人的に非常に興味がありました。十分なリソースを確保できた時に、オンラインに戻すことができることを願っています。
これが今日のDeepSeekの世界で起こったことの簡単なまとめでした。このようなビデオが気に入ったら教えてください。これらの簡単なまとめを作成し始めますが、技術的なコンテンツやチュートリアルにのみ興味がある場合は、それらもまもなく公開される予定です。
とにかく、このビデオが役立つことを願っています。ご視聴ありがとうございました。いつものように、次回またお会いしましょう。
コメント