
12,520 文字

これは、オープンソースとしてリリースされ、Anthropic、OpenAIなど私たちがよく知る企業から出ているモデルと競合できるR1というモデルを中国のDeepSeekが開発したということだ。
このニュースについては非常に多くのハイプがあり、父からもメッセージが来るほどだ。主流メディアの報道では多くの事実誤認があるので、まずはいくつかの神話を打ち砕いて、この話題について正確に理解していきたい。
Kate、あなたはShared Slackでこの件について怒っていたので、まずはあなたからお聞きしたい。主流メディアで見かけた最初のミームは、「最先端のモデルが550万ドルで学習できるようになった」というものだ。以前聞いたStargateの価格は1000億ドルとかそういうクレイジーな金額だったことを考えると、これは非常に安い。さて、この数字は本当なのか? 本当に550万ドルでモデル学習ができるのだろうか?
まず、この数字自体は本当で、論文にも記載されている。DeepSeekはこの数字について何も隠しているわけではない。ただし、この数字から導き出されている結論は少し狂っている。ベースモデルのDeepSeek-V3の1回の学習にかかるコストは約560万ドルだと言っていた。これは昨年12月のことで、先週の速報というわけではない。
でもこれはスタートアップがモデルを学習できるコストと考えるのは間違いだ。あなたがマラソンを走るのに、26マイルしか走らないと考えるようなものだ。実際には何ヶ月もの練習が必要で、数百から数千マイルも走らなければならない。
さらにこの比喩を進めると、1マイルごとに休憩を取り、水を飲んで、仮眠を取り、翌日また走り始めるようなもので、実際のレースの時間だけを計算しているようなものだ。これがこの数字の表すものだ。効率性の面で多くを改善したことは理解できるし、印象的だ。ただ、この数字がモデル学習の実際のコストを表しているわけではない。600億パラメータのMoEモデルのバージョンを次々とリリースできるようになるわけではない。
これは非常に参考になる説明だ。最後に言及した効率性の面での新しい発見についてお聞きしたい。Chris、あなたはこのモデルを「大きな出来事」として9点をつけたが、DeepSeekは本当に何か新しいものを発見したのだろうか? もしそうなら、それらはどれほど大きな発見なのか?
私は実際にこれは大きな出来事だと思う。いくつかのポイントがある。まずベースモデルとR1パートのRL学習を分けて考える必要がある。RL学習の部分を一瞬置いておくと、大きな発見がある。
560万ドルの話は置いておいて、既存の事前学習済みベースモデルを取り、その上でRL学習を行うことができる。コールドスタートの微調整データを使用できる。比較的少量のデータセットを使って素晴らしいタスクを実行できるようにトレーニングできる。
私自身、Qwenの15億パラメータという非常に小さなモデルを使い、約1000行のSFTデータを入れただけで、GPT-4oと同レベルの基本的な算術ができるようになった。これは私のラップトップ上でできた。IBMは私に560万ドルは支払っていない。
これは大きな出来事で、長い思考の連鎖が大きな影響を持つことを示している。彼らは純粋なRL学習から始めた。報酬だけを与えて学習させた。そして、本当に良い思考の連鎖を持つデータセット、おそらく数千行程度のデータで1回微調整してからRL学習を行うと、もっと良い結果が得られることがわかった。
つまり、事前学習にこだわりすぎるのをやめて、事後学習の世界や推論時の計算の世界に入ることができる。そのために560万ドルも必要ない。ラップトップとちょっとした粘り強さ、そしてGPUがあれば十分だ。
それは素晴らしい。後ほどRLと思考の連鎖についてもっと詳しく話したいと思うが、Aaron、その前にもう1つ質問したい。今週みんなが突然発見したJevonsのパラドックスについてだ。1つの語りとして、NVIDIAは破滅的だ、これらのモデルには今までよりずっと少ない計算能力しか必要ないというものがある。NVIDIAの株価は暴落した。私は暴落時に買い増ししたが。
Aaron、この質問に答えてもらいたい。神話なのかどうかも含めて。将来はもっと少ない計算能力で済むようになるのか? NVIDIAは破滅的なのか? Jevonsのパラドックスについても説明してもらえると嬉しい。
私は基本的にAIのダイナミクスに従っていて、それは3つの異なる領域に分かれると思う。1つ目はスケーリング法則で、AI システムのトレーニングをスケールアップすると、より良い結果が得られる。つまり、より大きなモデルの方が良いということだ。
2つ目は新しいアイデアがトレーニングをより効率的にしているということだ。これがスケーリング法則に影響を与える。新しいアイデアが増えるほど、小さなモデルがより強力になる。
3つ目は、モデルのトレーニングに必要なスケールを劇的に変えることができる革新的なアイデアによるパラダイムシフトだ。これらの3つのポイントを踏まえると、GPUへの需要は常にあると思うが、異なるチップアーキテクチャも出てくるだろう。
V2の効率性の向上を見ると、マルチヘッド注意機構で多くの重みをキャッシュできるようになった。トークンのスループットは信じられないほど向上した。これは彼らの大きなイノベーションの1つだと思う。
2つ目は彼らが言うDeepSeek MoEで、異なるエージェント間で知識を分割して共有できるようになった。これも助けになった。これらの2つが、スケーリング法則をシフトさせ、GPUの必要数を減らすことができた要因だ。
しかし、基礎モデルを見ると、DeepSeek-V2は非常に大きく、V3はさらに大きい。6710億パラメータだ。これは非常に大きなモデルだ。
私たちはモデルの集約を見ることになるだろう。逆蒸留を使って小さなモデルを組み合わせることもできる。モデル蒸留で小さなモデルを作ることもできる。面白い展開になるだろう。
Chrisが言及した非常に重要なポイントを取り上げたい。事前学習について心配するのをやめられないかということだ。みんなが560万ドルという数字について話していて、R1モデルや蒸留モデルで見られる素晴らしいパフォーマンスの向上と結びつけている。そしてこの2つを同一視して、このクレイジーなパフォーマンスが最小限のコストで得られるようになったと言っている。
この2つの区別をすることが重要だ。このプロセスの1ステップが約560万ドルかかる。事前学習モデルを構築する真のコストは桁違いに高いだろう。しかし、それはほとんど重要ではない。この560万ドルという数字は重要ではない。なぜなら、このビッグモデルはオープンソースになっていて、他のオープンソースの小さなモデルの上に蒸留することで、クレイジーなパフォーマンス向上を得ることができ、ほとんどコストがかからないからだ。
つまり、スタートアップが560万ドルですむから独自の6000億パラメータモデルを事前学習して構築するということではない。それは間違った結論だ。蒸留する能力を持ち、オープンソースでより競争力のあるモデルが増えることで、蒸留がさらに強力になっているということだ。DeepSeekが効果的に使用したRLの技術を使って、これらのモデルの小さなバージョンを構築することができる。そこには実際に非常に低い参入障壁があるということだ。Chrisが言うように、ラップトップでできる。
そうですね。家のカードのようなもので、彼らは一番上のカードだけを引用している。下のカードについては言及していない。下のカードの1つを動かすと全体が崩れる。560万ドルはおそらく1エポックの学習に関連するコストだけだ。彼らが使用したハードウェアを見ても、H800だけでも調達やサービスとしての利用は高額だ。事前の研究や妥当性検証など、多くのコストを除外している。この数字は非常に誤解を招くものだ。
その通りだ。大きな数字を出したがるものだ。「これは非常に安くできた」と言って、そこに到達するまでのすべてのステップを無視する。Kateが誰よりも良く知っているように、これらのモデルが最終版に到達するまでの実験の量は膨大だ。Aaronが言うように、最後のエポック、最後の学習は単なる道のりの終わりに過ぎない。
でも誰も長い道のりについて聞きたがらない。大きな数字が聞きたいんだ。私たちはハイプ産業にいるんだから。そう、560万ドルだ。
Kate、セグメントを蒸留に移す前に、もう1つの神話について話したい。RLについて、DeepSeekの語りもRLの復活というようなものだった。RLが戻ってきた、というわけだ。微調整は死んだ、すべてがRLになるという人もいる。R1は本当にRLが今後このタイプの微調整の努力でより支配的な方法になることを示しているのか?
この点についてはChrisの意見も聞きたい。彼は自身のラップトップでこれらの実験を行っているからだ。DeepSeekは論文で、より小さな蒸留モデルに加えて2つのモデルを学習させた。1つはRLだけのモデルで、追加のデータは使用していない。事前学習済みモデルがあり、それはコストが560万ドルプラスαかかる。彼らはルールベースのシステムを使用して結果を検証し、応答をスコアリングするためにRLだけを使用した。
これをR1-Zeroと呼んでいたと思う。そして、論文で彼らはRLだけのモデルにはいくつかの粗さがあったと述べている。そこでR1を作成した。このモデルでは、まずいくつかの構造化データを使用して微調整を行い、RLタスクのためのよりよい準備を行った。
これが今みんながDeepSeekアプリで遊んでいて、みんなが興奮しているモデルだ。RLだけではできないから微調整に頼らざるを得なかったという結論を出すべきではない。RLだけでどこまで押し進めることができたかは驚くべきことだ。構造化データは常に必要かもしれない。ハイブリッドなアプローチが最善かもしれない。しかし、RLだけでどこまで進めることができたかは凄まじい。
彼らは論文で、蒸留モデルについても発表している。蒸留は昔からある。最初のLlamaモデルの頃、学生のグループがそれをVicunaに蒸留した。大きなモデルから多くの合成構造化データを生成し、それを使って小さなモデルを微調整するというものだ。
DeepSeekは同じような考え方で、小さなモデルでRLだけを使用し、どこまで進めることができるか試した。大きなモデルは関係なく、RLだけだ。Qwen32Bでどこまで推論を押し進めることができるか試した。論文では、モデルから本当の推論能力を引き出すことはできなかったと主張している。彼らは蒸留に頼らざるを得なかった。大きなR1モデルを使って多くの合成データを生成し、調整する必要があった。
Chris、小さなモデルでのRLの実験に基づいて、あなたの見解を聞かせてほしい。あなたも最初に微調整を行い、思考の連鎖の推論を行ってからRLを重ねたと思う。
私にとって重要なのは長い思考の連鎖の推論、それも正確な長い思考の連鎖の推論だ。これが本当にすべてを可能にした鍵となる要素だ。論文を見ても、RLで達成したと言っている。しかし、特に数学の問題について考えると、LLMはそれほど得意ではない。
25足す8はいくつか、といった質問をLLMにして計算を生成させると、正解するかもしれないし、しないかもしれない。思考の連鎖の長さや説明を正しく取得できるかもしれないし、できないかもしれない。
本当にクレイジーなことで、正確な思考の連鎖を得るのは難しい。最後に検証機というものを使用している。これは得られた答えを取り、方程式を実行してルールを適用し、正しいか間違っているかを判断する。
そして少しの報酬を得る。モデルに「よくやった、クッキーをあげよう」というような感じだ。しかし、これにどれだけの時間がかかるか考えると、その時点で本当にタイプライターを叩くサルのようなものだ。モデルが正しい答えを返すまでに時間がかかる。
しかし、その前に微調整のステップを実行すると、例えば数学の方程式について長くて正確な思考の連鎖を生成できる。これは論文でも取り上げられている。そうするとモデルはそれを見て「ここで方程式を解いていて、ステップ1、ステップ2、ステップ3と説明し、振り返って、これは正しい、これは間違いだった、最後に答えをチェックする」というようになる。
そうすれば、モデルが何をすべきか学ぶために必要なステップが少なくて済む。その後RLを使って「この特定の計算は間違っていた。ここでクッキーをあげよう。正しいやり方を示したから」というようにできる。間違っていたらクッキーはもらえない。
この2つの組み合わせが重要だと思う。しかし、本当の発見は長い思考の連鎖だと思う。YouTubeチャンネルで実験したとき、私はDeepSeekとは少し異なるアプローチを取った。数学コンパイラというものを持っている。
数学の方程式を自動生成し、コンパイラに入れ、抽象構文木を生成する。そして木を歩き、LLMに数学をさせる必要はない。ステップ0、ステップ1、ステップ2と進み、木を歩いて説明を出力する。そしてLLMを使って、それをモデルが実際に理解できる人間の言語に変換し、その背後にある説明を得る。
そうやって本当に正確な思考の連鎖を得た。それを微調整のステップとして入れたとき、おそらく100程度の異なる例を使用した。15億パラメータモデルで数学は信じられないほど良かった。6ヶ月前の大きなモデルでは全く達成できなかったような、小数点以下数桁の精度だった。
本当のイノベーションは長い思考の連鎖と正確な思考の連鎖だ。RLでも達成できるとは思うが、時間がかかるだけだ。それを少し短縮し、RLでエッジを滑らかにできれば本当に勝てる。それが私の見方だ。
RLは数学のような、正確性のチェックが容易なタスクや、思考の連鎖の生成が比較的容易なタスクに本当に価値がある。しかし論文では、ツールの呼び出しや指示に従うようなタスクにはまだ指示調整が必要だと述べている。これらの推論モデルはすべてのタスクを実行するように設計されているわけではない。特定の指示に従うタスクを扱うためには、まだ指示調整が必要かもしれない。
次のセグメントに移りたい。これまでの説明は場面設定と神話の打破という意味で非常に役立った。蒸留についてもすでに多く話した。前回のエピソードでSkylerが簡単な説明をしたが、前回聞いていなかった人のために、Aaron、もう一度説明してもらえないだろうか。まずは蒸留とは何なのかについて、そしてその後で業界にとってどういう意味を持つのかについて興味深い点があると思う。
モデル蒸留は非常に強力な技術だ。教師モデルがあり、それは重みと埋め込みを通じてより多くの情報を持つ大きなモデルかもしれない。その知識を生徒モデルに移転したい。通常、生徒モデルはより小さく、学習にも推論にも少ないリソースで済む。一部の人々やグループはこれをモデル圧縮と考え、モデルをより小さくする。
蒸留できるものはいくつかある。応答ベースの知識、特徴ベースの知識、あるいはすべてのニューロン間の関係さえも蒸留できる。R1の論文で興味深かったのは、蒸留プロセスが単なるモデル圧縮や知識の抽出ではなかったことだ。
これはほぼモデル翻訳のようだった。MoEから情報を蒸留し、それを密に接続されたフィードフォワードニューラルネットワークである生徒モデルに直接移転していた。このタイプのモデル蒸留の異なるやり方は、特にQwen2.5やLlama 3シリーズをベース基礎モデルとして使用する際に、R1にいくつかの利点を与えたと思う。
蒸留の最も興味深い要素の1つは、大きなモデルを取り、その知識を構築しているものに持ち込めるという考えだ。実際に過去24-48時間で、DeepSeekが効果的にOpenAIの思考の連鎖や他の入出力を使って蒸留を行ったのかどうかについて、少し論争があった。
Kate、これはモデル企業がそのモデルを保護することを非常に難しくしている。なぜならすべてが蒸留可能だからだ。これは正しい考え方だろうか?
そうだ。これまでで最も性能の高いモデルを許可的なMITライセンスでオープンソースとしてリリースすることで、DeepSeekは基本的に大手モデルプロバイダーが持っていた競争上の堀を侵食している。これまでは最大のモデルを非公開にしていた。
DeepSeekも大きなモデルからの蒸留の恩恵を受けたかどうかに関係なく、私たちは今やその大きなモデルを自由に利用できる。以前は人々は、GPTからの蒸留を長年行ってきた。Hugging Faceには、GPTモデルから生成された、学習用にフォーマットされ設計された多くのデータセットがある。おそらく権利なく取得されたものだ。
これは誰もが知っている秘密で、ずっと続いていた。そう、ある程度はDeepSeekモデルにも取り入れられていたかもしれない。しかしもはやそれは重要ではない。なぜならDeepSeekが公開され、そのモデルを使って同様のスタイルの蒸留を好きなだけ小さなモデルで実行でき、公開されているライセンスの下で誰もがその権利を持っているからだ。
その通りだ。ニュースサイクルで最も面白い部分の1つは「蒸留という秘密の邪悪なテクニックを使用した」というものだった。実際にはみんながずっと蒸留を行ってきた。それは昔からあった。そして560万ドルかかる。
以前にChrisが挙げた例からもわかるように、これらのモデルをはるかに良くするために多くのデータは必要ない。市場には根本的なものがあり、モデルからの出力を細部まで制御して防ぎたいと思わない限り、蒸留を止める方法は基本的にないということだ。現実的に防ぐ方法はないと思うか?
ないと思う。Kateが言ったように、オープンウェイトモデルがあり、人々はそれを行う。私はこれが大好きだ。なぜなら私はカオスと、オープンソースと、共有とコラボレーションが大好きだからだ。
人々は今、独自のデータセットを作成し、異なるモデルから蒸留し、それをコミュニティで共有するだろう。そして私たちはみんなより良いものを手に入れることになる。個人的に、非公開モデルはあまり好きではない。共有と互いの学びが好きだ。だからDeepSeekのことに興奮する。
単にモデルを公開して蒸留できるようにしただけでなく、使用した技術についても話している。そう、これはクール。私たちは皆、興味深いことを始めることができる。突然みんながOpenAI、Anthropicなどと競争し始めるとは思わない。ベッドルームにいる人々全員がそうするとは思わない。
しかし彼らができることは、すぐに使えるモデルを取り、汎用モデルができない特定のタスクを解決し、より簡単にすることだ。ただし、これを過小評価しないでほしい。Kate、あなたが誰よりもよく知っているように、モデルの微調整は本当に難しい。このタスクは素晴らしくできるようになったと思うかもしれない。しかし、正しいバイアスとデータセットの混合がなければ、他のすべてのタスクができなくなってしまう。
その通りだ。Hugging Face Open LLMリーダーボードを見てみると、LlamaとQwenの蒸留バージョンはすべてそこにあり、元のモデルよりもはるかに低くランクされている。これらのOpen LLMリーダーボードのタスクは、主に推論ベースのタスクではない。モデルは推論では向上したが、他の一般的なパフォーマンス特性は低下した。
しかし、それでも信じられないほど強力だと思う。DeepSeekが効率的なオープンソースAIの新時代を導入していると話すとき、それは本当だ。ただし、事前学習で本当にコスト効果の高いモデルを学習したからではない。より良いツール、つまりオープンソースエコシステムの強力な教師モデルを持っているため、気にするタスクに特化した蒸留モデルの軍隊を作成する方法があるからだ。
そうだ。私たちの研究所の中には多くの秘密のエージェントが隠れていると思う。数日から数週間のうちに、私たちが使えるスーパーエージェントになるだろう。これがAI分野で起きていることを誇示する切っ掛けの1つだったかもしれない。DeepSeekはちょうど良いタイミングで、良い場所にいて、すべてのドットを結びつけることができた。
しかし、これらの技術や新しいイノベーション、発明の多くが出てきている。モデルの蒸留を防ぐことができるかという質問は、生体認証を思い出させる。以前は、顔写真を盗むことを防げるかという問題だった。そして私たちはキャンセル可能な生体認証という発明を作り出した。誰かが写真を撮っても、生体認証を取り消して新しいものを作ることができる。同様に、これを達成するためのキャンセル可能な技術や特許もあるかもしれない。
最後の質問をKateに。特にGraniteでの仕事を考えると、1つの見方として、投資家がこれらの巨大なモデルの構築に資金を投入してきた唯一の理由は、巨大なモデルを構築すればそのモデルからすべての価値を獲得できるという考えだった。
しかし、蒸留が上手くいき、確かに蒸留は難しい面もあるが、十分な目があれば誰かが最終的に解読する方法を見つけ出すだろう。これは最初のモデルを構築するための投資のインセンティブを侵食するのではないか?
私たちが巨大なモデルを手に入れたのはある種の偶然で、それは排他的なコントロールができるという考えに部分的に基づいているが、これは急速に誰もコントロールできなくなっているように感じる。
推論時に大きなモデルを実行するインセンティブはないと思う。インセンティブは本当に小さなモデルを構築するのを助けるために大きなモデルを構築することだ。必要なのは、Llamaが400億以上のパラメータモデルをリリースし、NVIDIAが教師として400億以上のパラメータモデルをリリースし、そしてDeepSeekが600億以上のパラメータモデルをリリースすることだけだ。サイズがすべてではない。高品質な事後学習も必要で、だからこそDeepSeekの強化学習の部分が重要なのだ。
しかし、より小さなモデルを学習するために公開で使用できる大きなモデルがますます増えている。そして私の考えでは、これはますますこのような教師モデルベースのコモディティになっていくだろう。オープンにある同様の機能を持つモデルがあるのに、なぜ大きなモデルにお金を払うのか? それをさらにカスタマイズできるし、将来の生成AI のワークフローの80~90%を実行する必要がある小さなモデルを作るための十分に強力なツールが出てくると思う。
巨大なモデルは企業の本社の中にいて、その周りに多くの小さなモデルが出てくるような面白い世界だ。
最後の数分で少し視野を広げたい。DeepSeekとその内部で起きていることについて多く話してきた。他の企業がこの開発に対してどう動いているかについて少し話したい。もちろんOpenAIのトップであるサム・アルトマンはこのニュースに対してツイートスレッドで反応した。
彼はこう言った:「私たちは研究ロードマップの実行を継続することに興奮しており、ミッションを成功させるために今まで以上に計算能力が重要だと考えている。」これは本当に、予定通りの研究の道を進み、DeepSeekのリリースによって何も変わっていないと言う人の発言だ。
Chris、あなたはどう思うか? OpenAIは単にその戦略を継続するのか? それともこれは本当に彼らがやるべきことを根本的に変えるのか?
いや、彼は早くモデルをリリースするだろう。彼はこれらのモデルを長すぎる間抱えていて、前に進む必要がある。DeepSeek、よくやった。o3はどうした? クリスマスの終わりに見せたじゃないか。手元にあるか? ない。だからDeepSeekに感謝だ。彼のモデルがもっと早く出るかもしれない。そしてo4とo5を手に入れ、これらのモデルをヨーロッパでも手に入れられるかもしれない。なぜなら、彼らはビジョンモデルとビデオモデルをリリースしているが、私は何も持っていないからだ。
つまり結局のところ、あなたが言っているのは、彼をフェンスから降ろして、単にロードマップを加速させるということですね。
DeepSeekがこれだけの注目を集めているのを見て、「うーん、モデルは渡さない」なんて言うはずがない。彼は反応して、私たちは新しいモデルを手に入れることになる。
しかしAaron、これは皮肉なことに、クローズドソースモデルであるという彼らのアプローチを変えるような状況ではないと思うか? これはOpenAIやAnthropic、他の大手プロバイダーがこのゲームをオープンソースで進める必要があると言い始めるような状況ではないということか?
そうは思わない。これはいくつかの方向に進む可能性がある。オープンソースとクローズドソースにはそれぞれ利点と欠点がある。しかし最終的には学術コミュニティを助け、それが一般消費者のための規模の経済を促進する。
2つのグループがあり、オープンソースグループとクローズドグループが競争して、一方がもう一方より良くなるようにし、それがイノベーションを促進する。そして各グループの中で、企業や組織が競争する。このイノベーションをさらに加速する20%の競争がある。
サム・アルトマンは秘密のエージェントを早くリリースし、利用可能にするだろう。DeepSeekが示した多くの技術、キー値とクエリのキャッシュ層、MoEのイノベーション、グリッド間でコンテキストと情報を共有できる並列化、これらの多くが含まれるだろう。しかしサムのものではさらに進んだイノベーションがあり、少し分岐するだろう。しかし基本的なモデル蒸留などは非常に重要になると思う。そして価値提案がフレームワークにまで下がってくる。企業や顧客として、自分の目的に合わせてモデルをより良く学習させるにはどうすればよいか? そしてどうやって信頼できるか? 今やモデルの動物園があり、どれを使うべきか非常に混乱する。
Kate、OpenAIについて話してきた。彼らは多くの注目を集めているが、1つ気になるのは、DeepSeekのストーリーを語る上で、OpenAIが同じような立場にいると考えるかどうかだ。
OpenAIは戦略を継続し、単に速度を上げるという話を聞いているが、これはGoogleやMeta、あるいはAnthropicなどの意思決定や経済性を変えるだろうか?
意思決定や全体的な戦略は変わらないと思う。DeepSeekの戦略の多くは、必要が発明の母だったということだ。彼らはH800チップにしかアクセスできなかった。だから最適化に力を入れ、MoEなどの効率的なアーキテクチャに投資し、DeepSeekが生まれた。
米国のラボは非常に異なる制約の下で運営されており、DeepSeekのイノベーションは必ずしもその制約とインセンティブを変えるわけではない。また、今日私たちが話してきたDeepSeekの多くは蒸留についてだ。AGIを追求するラボにとって、蒸留は必ずしも関係ない。彼らはできる限り大きなモデルを学習し続ける必要があり、それを非公開に保つインセンティブがある。
一方、ビジネス価値は、これらの蒸留された小さなモデルにあると私は考えている。これらは実際に商業的な環境で展開されるものだ。少なくとも最高戦略レベルで、彼らが取り組んでいる投資プロファイルの観点からは、より長期的なAGIゲームだ。そのためには依然として大量の大きなGPUが必要で、それをオープンにしたくはないだろう。
そうだね。Stargateを使って小さな蒸留モデルを作るなんて、最も面白いことになるだろう。推論クラスターだった、驚きだ。
それは本当に興味深い。Chris、最後の質問として、少し視野を広げたい。Kateが中国の研究者は非常に異なる制約の下で運営していると話した。そのため、異なるタイプの手法、異なるタイプのモデル、異なるタイプの熟練度を開発する。
米国のラボには計算能力の贅沢さがあり、それがDeepSeekが取り組んでいるようなものへの投資を制限しているという考えについてどう思うか? これらの制約は、システムを展開するために研究者がやるべきことが非常に異なるため、AIが世界の異なる場所で異なって見えるようになるという考えについて、本当に興味がある。
それはまさにその通りだ。そこには少しの強化学習と報酬モデリングが見られる。計算能力が少なくなり、異なるインセンティブがある。彼らは効率性によって報酬を得ている。
計算能力が豊富にある場合、効率性の最適化にはあまり注力しない。モデルを最初に出すことを試みる。また、私自身の経験から言えば、H100は持っていない。MacBook Proはあるが。
あなたはより深い海の研究者のようだ。
その通り。今日持っているハードウェアの制約の中で動作する革新的な技術を考え出そうとしている。正直なところ、中国にチップの制約がなかったら、DeepSeekはおそらくこれらの技術を思いつかなかったと思う。他の人に追いつこうとするだけで、異なる角度からアプローチすることはなかっただろう。
だからこそ私はオープンソースと、みんなが論文を共有することを強く信じている。みんなが異なる制約の下で新しいイノベーションを見つけ、それを共有することで、互いに学び、貢献することができる。それは大きなラボだけでなく、ラップトップを持ってコミュニティの中で新しいものを発見し、実験しようとする人々も同様だ。
このパネルは素晴らしかった。Kate、Aaron、Chris、いつものように番組に参加してくれてありがとう。DeepSeekについて説明してくれてありがとう。まだまだ話すべきことはあり、この話題は追い続けていく。
そしてリスナーの皆様、ご視聴ありがとうございました。この番組はApple Podcasts、Spotify、その他のポッドキャストプラットフォームで聴くことができます。来週もMixture of Expertsで満載のエピソードでお会いしましょう。
コメント