DeepSeekの衝撃的な"スプートニク・モーメント"と元Google CEOの米国への警告

13,850 文字

YouTube
作成した動画を友だち、家族、世界中の人たちと共有

2023年、サム・アルトマンが人工知能について世界を回って講演していた際、インドであるベンチャー投資家から質問を受けました。インドの1000万ドル以下の予算で小規模なスタートアップが、OpenAIのモデルと競争できるのか、例えばGPT-4のような注目に値するものを構築できるのかという質問でした。
サム・アルトマンの答えは基本的に、それは難しいだろう、OpenAIの基盤モデルと競争することはできないだろうというものでした。しかし数年後、中国発のオープンソースモデルDeepSeekが、約600万ドルの予算で、OpenAIの最高モデルo1とほぼ同等のものを開発しました。世界はこの影響を理解しようと動揺しています。AIの進歩、オープンソース対クローズドソース、米国対中国、これらにとって何を意味するのか、詳しく見ていきましょう。
まず第一に、元Googleのエリックシュミットについてです。彼は技術の未来を予測することに長けており、最近ワシントンポストでこの特定の件について記事を投稿しました。このチャンネルで彼のインタビューをいくつか取り上げましたが、特に中国の方向性については少し先を見越していました。
記事のタイトルは「中国のオープンソースAIは米国の優位性を脅かすのか」です。AIは急速に進歩していますが、この分野に詳しい人々でさえ、中国企業DeepSeekとそのモデルR1によって驚かされました。実際には3つのモデルをリリースしており、それぞれが興味深く特別なものです。
他にも蒸留モデルと呼ばれるものもリリースしていますが、主要なモデルはR1、r10、V3の3つです。それぞれが独自の目的で興味深いものですが、R1が特に注目を集めています。これはOpenAIの最高の推論モデルo1と同等のものとされています。
このモデルの実行コストはOpenAIの2%程度と非常に安価です。その後すぐにDeepSeekはDALLI-3に対抗するJanis Proもリリースし、これはローカルマシンでAI画像を生成できます。
そしてDeepSeekのモデル群は全てオープンソースです。つまり、重みをオープンに提供しているので、AIの「脳」を誰もが再現し、その上に構築できます。一方、メタが一部のモデルをオープンソース化している例外を除き、ほとんどの米国企業はモデルをオープンソース化していません。Grockはもちろんイーロン・マスクのxAIのものです。
長い間、米国で構築されたクローズドソースモデルが最高で最先端のモデルでした。オープンソースと中国のモデルは数ヶ月遅れているとされていました。これは文字通り数日前まで続いていた状況です。
これはChanotのアリーナリーダーボードで、人々が対話しているモデルを知らずに好みのモデルに投票するものです。長い間、私の記憶する限り、上位はすべて独自のクローズドモデルでした。オープンソースモデルを見るには、かなり下位まで下がる必要がありました。
これはオープンソースモデルがこれほど上位にランクインした初めてのケースです。もし私の記憶が間違っているようでしたら、コメントで教えてください。しかし、オープンソースモデルがこれほど上位に位置し、GPT、OpenAI、Google、Anthropicなど最高のモデルと互角に競争しているのを見たことはありません。
もちろん、この知らせは米国のテクノロジー株に打撃を与え、様々な市場で1兆ドルの損失が出ました。NVIDIAだけでその約半分を占めています。その後、多くは回復しましたが、人々はまだこれが何を意味するのか理解しようとしています。
米国と中国、そしてオープンとクローズドという4つの象限を想像してみてください。これまでは、クローズドな米国モデルが支配的でした。オープンソースモデルもいくつかありましたが、一般的に最高のモデルは米国のクローズドな独自モデルでした。
そして数日前、突如として支配力が米国から中国へ、クローズドからオープンソースへとシフトしました。これは少し強調しすぎかもしれません。中国が完全にレースに勝利し、オープンソースが完全に勝利したわけではありませんが、非常に急速にキャッチアップしたことは確かです。
同等の2つのモデルがあった場合、1つが独自モデルで1つがオープンソースの場合、独自モデルの方が優れている使用例を思いつくのは難しいでしょう。オープンソースの方が遥かに安価で、カスタマイズ性が高く、制限が少なく、コントロールも少なくなります。
開発者のコミュニティや、そのエコシステム内で働く人々は、はるかに大きくなるでしょう。オープンソースの支持者たちは、透明性を確保し、誰もが彼らの作業の上に構築できるようにし、全ての開発者が貢献できるオープンソースシステムを持つことで、より大きなクローズドモデルに急速にキャッチアップできると主張しています。
オープンソースの考えが正しければ、AIエコシステムは一変することになります。これは部分的にエリック・シュミットによって書かれたものです。彼は過去の技術予測において非常に正確でした。
将来の方向性についての彼の見方、この分野での強い発言力を持ち、人々は彼の意見に耳を傾けます。彼は権威ある人物で、アドバイスとガイダンスを求められる存在です。
彼は、米国は世界最高のクローズドモデルを持っているが、今後も競争力を維持するためには、活気のあるオープンソースエコシステムの発展も支援しなければならないと述べています。
現在、中国の最先端コンピュータチップへのアクセスを制限することを目的とした輸出規制がありますが、それはうまく機能していないようです。様々な中国のスタートアップは、私たちが認識している以上にNVIDIAチップを持っているようです。
これはいわば噂話のようなものですが、たとえ高性能AIチップへのアクセスが制限されていたとしても、それが各国の企業や研究者をより効率的にさせ、トレーニングコストを大幅に削減する新技術の発見につながった可能性があります。
つまり、リソースへのアクセスを制限すると、人々は創造的になり、そのリソースをより効率的に使用するようになるという考えです。米国の研究所ほどの計算能力を与えないことで、彼らの競争力が制限されると考えられていました。
MetaやGoogle、Microsoft、その他の企業が、利用可能性と予算のみに制限される形でより多くのチップを購入し、規模を拡大し続けている一方で、そのようなアクセスを持たない国々は同等に優れたモデルを生産できないだろうと考えられていました。
DeepSeekは、この考えを覆したように見えます。以前のビデオで取り上げたR1-zeroについて、彼らは研究論文で何をしているのかを概説しています。基本的に、人間によるトレーニングの一部を削除し、より自己学習させるようにしています。
GoogleのDeepMindでも同様のアイデアを見てきました。チェスや囲碁、その他のゲームをプレイするモデルは、人間のデータで学習すると非常に優れたものになります。しかし、人間のデータを使用せず、代わりに自己対戦で自身のデータを作成し、数十億回のゲームを自分自身と対戦させることで、しばしば新しい、これまで見られなかった戦略を生み出します。
私たちにとって異質に見えるような戦略かもしれません。「37手目」という言葉を聞いたことがあるかもしれません。これは、AlphaGo、つまりGoogleのDeepMindの囲碁AIが、世界最高の囲碁プレイヤーであるイ・セドルと対戦した時の出来事です。
37手目で、このAIが手を打った時、多くの人々が観戦していました。解説者たちがライブ配信で解説し、会場には観客がいて、自宅からもライブストリームでコメントしていた人々がいました。そして混乱が見られました。
彼らは前後を見比べ、「本当にその手なのか」と確認しようとしていました。なぜなら、その手は悪く見え、奇妙で、間違っているように見えたからです。若い学生が師匠から学んでいる時にそのような手を打てば、師匠は「そんな手は打つべきではない、それは悪手だ」と言うでしょう。
人々は笑い、AlphaGoが大きな失敗をしたと考えました。しかし、もちろんその後ゲームに勝利し、イ・セドルを完全に打ち負かしました。ゲームの終わりに近づいてようやく、私たちはその手の素晴らしさと、なぜそれが重要だったのかを理解しました。
その手は創造的で、素晴らしく、また異質なものと評されました。私たちの手の選択肢の中にはないようなものでした。R1では、従来の教師あり微調整段階をバイパスしています。
「教師あり」は基本的に「人間が関与する」と置き換えることができます。データのラベル付けやその種の人間の関与がない「教師なし」、人間のフィードバックによる強化学習(RLHF)、あるいはAIが審判として機能するAIフィードバックによる強化学習があります。
また、チェスや囲碁の人間の対局記録のような人間が作成したデータと、AIが自身でデータを生成する合成データがあります。R1-o1では、特定の問題を解決するための推論を生成し、それが次世代モデルのトレーニングに使用できる合成データとなります。
ここだけでなく、私たちが取り上げた他の多くのニュースでも、人間の監督から、このようなAIの自己学習へと移行するにつれて、素晴らしい結果が得られているようです。
人間のデータを使用する時ほど構造化されておらず、時には奇妙なことをすることもありますが、これらのモデルをトレーニングする上で大きな力と可能性があるように見えます。
DeepSeekの成功は、事前学習の重要性についても疑問を投げかけています。これは、もしNVIDIAの株価が大きく下落した理由を知りたいと思っていた場合、事前学習はNVIDIAとGPUが最も優れている分野だからです。
同じページにいるために、急いで説明しましょう。長い間、事前学習はこれらのモデルを作成する上で最大の部分でした。莫大な量のデータをモデルに供給し、時間をかけてそのモデルがニューラルネット、つまりその「脳」を変化させ、そのデータについてより良い予測や推論ができるようになります。
次に事後学習があります。モデルが「調理」され、「オーブンから出てきた」後でも、まだ事後学習を行う必要があります。これを視覚化する良い方法があります。
データセットがあります。大規模言語モデルの場合、インターネット上のすべて、本、教科書などです。データの前処理があり、悪いもの、質の低いものをフィルタリングし、合成データを追加するなどします。
事前学習があります。これは「前」の部分で、最大のチャンクでした。ここでNVIDIAのGPUが大活躍します。次に事後学習があります。モデルは完成していませんが、「出てきた」後で、微調整や調整を続けます。
もちろん、RHLFについて話しました。人間のフィードバックによる強化学習です。これは、モデルが出力を提供し、あなたが「よくやった、それは本当に良かった」とサムアップボタンを押すか、何か間違ったことを言えば「いいえ、いいえ、サムダウン、そんなことは言わないで」というようなものと考えることができます。
教師あり微調整は、人間が望ましい行動を実演するものです。SFTというその頭字語を覚えておいてください。教師ありは人間がラベル付けした、人間が関与しているということです。
プロンプトデータセットからプロンプトがサンプリングされます。例えば「6歳児に月面着陸を説明する」というプロンプトが与えられ、ラベル付け者が望ましい出力行動を実演します。「人々が月に行きました…」というように。
翻訳の場合も同様です。英語の文があり、フランス語への翻訳を提供する場合、それがラベル付けされたデータセットとなります。これは教師あり微調整に使用できます。GPT-3やその他のモデルの微調整に使用されます。
想像できるように、これにはいくつかの問題があります。繰り返しになりますが、これは人間のデータです。これらのモデルは人間のデータなしでよりよく学習できると信じています。
AlphaFold、AlphaGoなどではそれを非常にうまく実現する方法を見つけましたが、大規模言語モデルに関しては、まだ進行中の作業です。ただし、良い結果も見え始めています。
もう1つの明らかな問題は、スケーラビリティです。生身の人間がそこに座ってデータにラベルを付けたり、望ましい出力行動を提供したりする必要があり、それは高コストです。
事後学習では、直接選好最適化(DPO)や知識蒸留もあるかもしれません。それについてはまた後で触れるかもしれませんが、要点は、これが事後学習だということです。
その後、推論があります。これは実際に答えを提供する部分で、「私の知る限り、こうだと思います…」というように予測や推論を行います。
繰り返しになりますが、事前学習はGPUが最も優れている分野です。これがNVIDIAが非常に良い業績を上げている理由です。これは投資アドバイスではありませんのでご注意ください。
他のすべての部分もGPUを必要としますが、推論に関してはNVIDIAが必ずしも最終的な答えではありません。そこまで強力な独占状態ではありません。
なぜなら、例えばGro-chipのような新参者があり、彼らはLPU(言語処理ユニット)と呼んでいます。NVIDIAの支配力が信じられないほど強かったのは、並列計算が可能なものを構築したからです。
最初は、私たち全員がビデオゲームを、3Dシューターを非常に高速にプレイできるようにするためでした。Quake 2で誰かを倒そうと走り回っている時、コンピュータが1ピクセルずつ処理するのではなく、全体を処理して超高速に表示してほしいわけです。
その後、暗号通貨の波が訪れ、もちろんGPUはそれにも適していました。そしてAIの波が訪れ、GPUはそれにも適していました。次の大きな波として予想されているのはロボット工学で、GPUはそれにも適していることは間違いなさそうです。
これは信じられないほど優れた汎用技術です。しかし、単に可能な限り高速に言葉を出力したいような非常に特定のユースケースでは、Gro-chipのLPUのような他のチップや他のアーキテクチャの方が優れているかもしれません。
私の知る限り、これが最も有望な競合相手です。ここに、GPUと比較して期待される性能を示すおおよそのチャートがあります。要点は、これまではGPUやNVIDIAがあらゆる面で優れていたということです。
すべてにおいて完璧な汎用並列計算のワークホースでした。推論部分について、他のアーキテクチャの方が若干速い可能性はありましたが、それは必要な計算の大部分ではありませんでした。
そして、QARストロベリーやo1モデルなど、様々な名前で呼ばれてきましたが、基本的にはo1モデル、推論モデル、隠れた思考の連鎖を持つモデルが登場します。
o1の場合、OpenAIのモデルでは隠れていて、私たちユーザーには見えません。要点は、これらのモデルでは事前学習がそれほど重要ではありません。なぜなら、より長時間の思考を許容しているからです。
推論の実行時間を長くし、すべてについてより長く考えることを許容し、これにより様々なタスク、特に数学やコーディングなど、これらのモデルが得意とする分野でより良い性能を発揮できます。
ここでもGPUはあらゆる面で優れていますが、大規模言語モデル専用に設計されたチップなど、より高速な推論のための他のアーキテクチャを使用できる余地が、他の競合者にとってより大きくなるかもしれません。
これはすべてR1以前の話です。R1が登場し、彼らは「モデルの事前学習にどれくらいコストがかかったか知っていますか?45倍も安かったんです」と言います。
つまり、このモデルのトレーニングは45倍安価だったということです。そして推論コスト、モデルを実行してデータ、思考、出力を出すコストは、OpenAI o1の2%です。
いくつかの異なる数字を聞いています。93%安いという人もいましたし、比較対象の2%だけというという人もいました。要点は、はるかにはるかに安価で、はるかに効率的だということです。
また、彼らは事後学習でも何かを行いました。教師あり微調整というアイデアです。r10モデルで、私は言わば breakthrough(ブレークスルー)があったと思います。
これはDeepSeek R1の論文で、彼らのDeepSeek r10モデルについて説明しています。教師あり微調整なしで大規模な強化学習を通じてトレーニングされたモデルです。
教師あり微調整は、アライメントの一部として思い出してください。SFTは、ラベル付けされた教師あり人間データで、望ましい出力を実演するものです。
彼らは人間のラベル付けデータの必要性を排除しました。そのモデルは、予備的なステップとして、教師あり微調整なしでトレーニングされ、素晴らしい推論能力を示しています。
数多くの強力で興味深い推論行動が自然に現れます。以前の論文でこれについて取り上げましたので、ここでは繰り返しませんが、重要なポイントは、AIがどのように機能するか、私たちの考え方が変化していることです。
これは単にこの1社だけの話ではなく、この1つの研究論文だけの話でもありません。このアイデアがより多く出現するのを見てきました。
以前は、私たち人間がこれらのシステムに問題の解決方法をどのように説明するか、どのように理解させるか、どのように説明するか、あるいはそれを行うためにどのようにコーディングするかを考えていました。
しかし今では、それが最善のアプローチではないと考え始めています。最善のアプローチは、システム自体に問題解決方法を見つけ出させ、独自の解決策を生み出させることです。
彼らはこのプロセスを自己進化と呼んでいます。自己進化の過程で、反省のような洗練された行動が現れます。モデルは以前のステップを見直し、再評価し、代替的なアプローチを考えます。
これが重要なポイントです。これらの行動は明示的にプログラムされているわけではありません。コーディングしているわけではなく、プログラミングしているわけではありません。
代わりに、強化学習環境でのモデルの相互作用の結果として現れます。モデルは解決策を考え、「あ、分かった!」という「エウレカ」の瞬間を迎えます。「私はこれを理解しました」というわけです。
要点を強調しすぎないようにしますが、最後の文を見てみましょう。私たちが話してきたこのアイデア、自己進化の瞬間は、強化学習の力と美しさを強調しています。
強化学習とは、正しいことをした時にサムアップ、間違ったことをした時にサムダウンということです。もちろん、それよりも複雑ですが、強化学習という言葉を聞いた時は、特定の行動に対する肯定的な報酬、そして通常は間違った行動に対する否定的な報酬と考えてください。
問題の解決方法を明示的に教えるのではなく、単に正しいことをするための正しいインセンティブを提供するだけです。そうすることで、モデルは自律的に高度な問題解決戦略を開発し、これは将来のよりautonomous(自律的)で適応性のあるモデルへの道を開いています。
DeepSeekモデルが登場し、事前学習は45%安価、推論は93%安価、98%安価、実際の数字は何をしているかによって異なりますが、その程度の範囲です。
また、r10モデルは、教師あり微調整での事後学習の改善を行いました。そのアイデア全体、つまり自身に教える方法を見つけ出し、自己進化させ、独自の「アハ」の瞬間を作り出すというものです。
なぜこれがそれほど大きな、大きな出来事なのか、なぜ誰もがこれらのDeepSeekモデルの影響に動揺しているのか、おそらく理解できるでしょう。
「なぜNVIDIAの株価が下がったのか」と言う人々に対して、確かに事前学習は少なくなるかもしれませんが、まだ推論はあり、GPUは推論も行うので、NVIDIAにとって良いのではないかという疑問があります。
その説明の1つは、このような変化があり、推論は他のチップでも可能で、推論の増加があるということです。これが正しいとか間違っているとか言っているわけではなく、それが一部の人々が説明する理由だということです。
他に人々が話していることは、今や45倍安価になったので、議論のために50倍安価になったと言いましょう。人々は「これらのモデルのトレーニングが50倍安価になったということは、NVIDIAへの需要が50倍、あるいはその一部、たとえば25倍減少するということではないか」と言っています。
個人的な意見として、これは全く意味が通らないと思います。この推論は全く意味が通らないと思います。その理由を理解する上で重要なのが、ジェヴォンズのパラドックスです。
おそらく直感的に知っているでしょうし、この概念を聞いたことがあるかもしれませんが、名前を知らなかったかもしれません。例えば、燃料効率が良くなるほど、燃料使用量が増加する傾向があります。
週に10ガロンの燃料を使って至る所に運転しているとして、それがあなたの平均的な燃料消費量だとします。そして、同じ行程がその1/10のコストで済む車を手に入れたとします。
つまり、行きたい場所に行くのに1ガロンしか必要ないとします。燃料使用量は減少すると考えるかもしれません。燃料が少なくて済むのだから。しかし、逆説的に反対のことが起こるかもしれません。
結果的により多くの燃料を使用することになるかもしれません。「わあ、どこへでも運転するのがとても安価になった。もっと多くの場所に運転して行こう」というように。
言い換えれば、通常の車を運転する時の元々の運転習慣はここにあるかもしれませんが、ハイブリッド車を手に入れると、より多く運転する新しい習慣ができるかもしれません。
本当の問題は、それがはるかに安価になった場合、そのものをどれだけ多く欲しいかということです。例えば、私の家には何個か枕があります。明日すべての枕が半額になったとしても、おそらくより多くの枕は買わないでしょう。
どんな価格でも、生活の中でより多くの枕が必要だとは思わないからです。しかし、明日サーモン刺身が全面的に値下がりしたら、おそらく食べ過ぎて具合が悪くなるでしょう。
世界で最も好きな食べ物の1つですから。少量の醤油とわさびを付けて…ワオ!ただし、どこの店でもいいというわけではありません。どの店でも上手く作れるわけではなく、本当に上手く作る特定の店でなければなりません。
そこでは本当に素晴らしい味になります。そして安ければ安いほど、より多く食べるでしょう。ある時点までは。「今日はもうサーモン刺身はいいかな」という点があります。
経済学オタクの方々のために言うと、これは価格弾力性と呼ばれます。ここで問題となるのは枕とサーモン刺身の間で、知能の価格弾力性はどこに位置するのかということです。知能が値下がりしたら、より多く購入するのでしょうか?そしてどれくらい多く購入するのでしょうか?
サム・アルトマンは「ジェヴォンズのパラドックスが再び発生する。AIがより効率的でアクセスしやすくなるにつれ、その使用は急増するだろう」と述べています。イーロン・マスクも同じことを言っています。
クローズドな画像モデルのより小さく、より速く、より良いオープンソース版としてStable Diffusionをリリースした後、クラウド上のすべてのGPU容量を使い切りました。ここでのポイントは、より安価なAIはより収益性の高いAIのユースケースにつながるということです。
あなたの家に超知能的なサーモスタットを設置するために1万ドル支払うでしょうか?一日中、夜通し、常に完璧な温度を保ち、最も快適な状態を確保しながら、エネルギーも節約する超天才的なシステムです。
1万ドルを支払う人はどれくらいいるでしょうか?おそらく、そのような経費が多い建物や、特別な要件を持つ一部の家庭は支払うかもしれません。1000ドルならば、より多くのビジネスや、disposable income(使途自由な収入)の多い家庭が購入するかもしれません。
10ドルならどうでしょう?その時点で、ほとんどの人々が購入するのではないでしょうか?二度と温度調節について考える必要がなく、さらにお金も節約できるのですから。
超知能的なサーモスタット会社にとって、製造コストが1万ドルかかるなら、これは特殊なケースのサービスビジネスです。しかし、製造コストが1ドルなら、ユニコーン企業になる可能性があります。
なぜなら、基本的に世界中のすべての家庭に設置される可能性があるからです。エアコンや暖房システムを持つすべての家が、特にエネルギー節約や無駄の削減に貢献するのであれば、興味を持つかもしれません。
『銀河ヒッチハイクガイド』のMarvin the Paranoid Android(心配性のアンドロイド、マービン)を覚えていますか?彼は常に憂鬱です。惑星サイズの脳を持つ超知能ロボットなのに、ドアを開けるような単純な仕事を任されているからです。
私たちは既に人工知能がより良く、より良くなっているのを知っています。今、それがはるかに安価になっているのを目の当たりにしています。DeepSeekが発表したすべてが正しく、すべての数字が正確だと仮定すると、知能の消費は上昇し続けると予想されます。
多くの人々は、これによってAPIを通じてこれらのモデルを販売している企業や、クラウドサービスを提供している企業、あるいは多くのGPUを購入した企業の利益率が圧迫されると言っています。
私にとって、それは需要が一定のままだと仮定しているように見えます。GPT-4は6000万ドルのトレーニングコストがかかったと信じられています。また、多くの人々がGPT-4からの合成データ、つまり出力を使用して独自のモデルをトレーニングしたことも知っています。
OpenAIはおそらく、o1モデルを構築する際にその合成データの一部を使用したでしょう。そのモデルのコストは4500万ドルだと推測します。これは完全な推測で、実際の数字とは大きく異なるかもしれません。
様々な進歩により、おそらくそれより少ないでしょうが、私はただその数字を適当に選んでいます。では、o1は4500万としましょう。o1からの出力の多くを使ってo3を構築したことは確実だと信じています。
多くの人々がo2はどうなったのかと疑問に思っています。私も不思議に思っていました。o2は他の会社の商標で、モバイル通信会社か何かのものらしいです。そのため、o2は使えず、o1からo3に移行しました。
おそらく、それにも4500万ドルかかったでしょう。最近のある幹部のインタビューから、次のモデルのトレーニングを開始していることが確認されています。o4が開発中だということです。
それにも4500万ドルかかるとしましょう。既にトレーニングを開始しているなど。繰り返しになりますが、o1モデルの推論が次のモデルの合成データを提供するという考えです。
o1は推論が得意で、その良質な推論がモデルのトレーニングデータとして使用される時、より良いモデルになります。そしてo3モデルはさらに良い推論を生成でき、それが次世代のモデル、o4やその他の名前になるものをより良く生成できるようになります。
私が言いたいことが分かりますよね?次に彼らが作るモデルをo5と呼びましょう。彼らの命名規則がどうなるかは分かりません、いつも全く予想外ですから。
これらのモデルの相対的なコストは同じくらいだと仮定しましょう。しかし、彼らはDeepSeekのアルゴリズムのブレークスルーを見て、「待てよ、彼らは同等のモデルを45倍安く構築できた」と気づきます。
突然、o5のコストはいくらになるでしょうか?100万ドルで構築できるということにならないでしょうか?もし私が何か見落としているなら、教えてください。あなたの推論を提供してください、なぜこれが正しくないかもしれないのか。
また、これについても考えてみてください。他のスタートアップがOpenAIと競争しようとした場合、o4に追いつくためにはどれくらいの資金が必要でしょうか?これらのすべてのモデルを作成し、改善のボールを転がし始めるには、およそ2億ドルということになります。
GPT-4が登場した時のことを覚えていますか?他の全ての人々がそのモデルからデータを取り出して独自のモデルを構築していたことは、かなり確実です。以前のビデオで示したように、DeepSeek V3に聞くと、OpenAIのアーキテクチャで動作していると言います。
そのモデルから合成データを取り出してDeepSeekモデルを構築したからです。Googleの一部の人々は、Googleも少しそれを行ったかもしれないと言っていました。当時少し騒ぎになりましたが、確認はされていません。
Grockも時々、OpenAIのアーキテクチャで動作していると確信しています。そのため、Grockもその実践に少し関与していたかもしれません。
誰もがGPT-4からデータを抽出していましたが、o1では隠れた思考の連鎖があり、それは隠されていて、アクセスできません。そのため、それほど簡単ではないかもしれません。
もしこのボールを転がし始め、モデルを重ねていきたい場合、それぞれに一定の金額を支払う必要があるかもしれません。追いつくために2億ドルが必要なら、それは非常に非常に禁止的です。
しかし、500万ドルなら、より多くのスタートアップがこの分野に参入しようとするでしょう。これは私の意見、私の2セントです。もし間違っていたら教えてください。なぜ私が何かを見落としているのか、説明してください。
このチャートも覚えておいてください。例えば、HugginFaceはR1を複製しようとしており、それをOpen R1と呼んでいます。オープントレーニング、オープン評価、オープンデータ、オープンウェイトです。
他にも何社が同様のものを複製しようとするでしょうか?これはGoogle DeepMindの研究者、Jiao Sunです。彼女が特に興奮していることの1つは、このDeepSeek R1モデルとそれに似たモデルが、計算能力が限られたPhD学生に興奮する機会を提供できることです。
彼女が言うように、GPUが乏しい、つまり多くのGPUへのアクセスがない場合、学術界にいる場合、プロジェクトに使える計算能力に厳しい制限があるかもしれません。
思いついた実験を実行することが実現不可能かもしれません。十分な計算能力がないので、諦めてより計算コストの低い他のプロジェクトを行う、ということになります。
より効率的なモデルで、突然そのプロジェクトを実行できるようになるかもしれません。企業や大学がこれらのプロジェクトがより多く行われるのを見て、このような研究のROI(投資収益率)を見た時、より多くの計算能力を欲しがるでしょうか、それともより少なくなるでしょうか?
エリック・シュミットは、米国が優位性を維持するために、より堅固なオープンソースエコシステムを求めています。クローズドな独自モデルは維持すべきですが、オープンソースモデルも競争する必要があり、そのエコシステムにおける自然なバランスが必要です。
なぜそれが重要なのか、ここにその理由があります。サム・アルトマンは「DeepSeekのR1は印象的なモデルです。特に、そのコストで提供できたものについては。私たちはもちろんはるかに良いモデルを提供するでしょう。また、新しい競合者を持つことは本当に活気づけられます。R1のような強力なオープンソースモデルは、誰にとっても大きな利益をもたらします」と述べています。
サム・アルトマンとOpenAIは、彼らが行ったアルゴリズムのブレークスルーを複製できるなら、それらはかなりオープンで、論文を読むことができ、その一部または全部を複製できるので、それは彼らにとって明らかに素晴らしいことです。
無料で、これらの大きなブレークスルーを論文を読むだけで手に入れられるのです。確かに、利益率にはいくらかの圧力がかかるかもしれませんが、これらのモデルを構築するための支出も大幅に削減されます。彼らは大丈夫でしょう。
彼らは自分たちのことを続けていくでしょう。しかし、彼らが言うように、本当に活気づけられるのです。より速くリリースするようプレッシャーがかかります。彼らは既に「リリースを前倒しする」と言っています。より速くものを出すだけでなく、より良いモデルもリリースすると言っています。
トランプ大統領はこれを一種の目覚まし呼びと呼びました。この表現を彼が最初に使ったのかどうかは分かりませんが、誰かがこれをスプートニク・モーメントと呼びました。
スプートニク・モーメントとは、もちろんロシアが地球周回軌道に初めて人工衛星スプートニク1号を打ち上げた時のことです。これは米国にとって大きな目覚まし呼びとなりました。
彼らは遅れを取っていることに気づいたのです。これは研究、生産、科学コミュニティを活気づけ、より多くのことを行い、さらに遠くへ行き、次のフロンティアを達成するようになりました。
DeepSeekがAIのスプートニク・モーメントだとしたら、次に何が来るか分かりますよね?そうです、月へ行くのです!スペースブーツの準備をしてください。
ここまで見ていただき、ありがとうございます。私の名前はWes Rothです。次回またお会いしましょう。

コメント

タイトルとURLをコピーしました