
4,315 文字

DeepSeek R1は外部の介入なしに自身の速度を2倍に向上させることに成功しました。私たちは、AIが超知能爆発、あるいはAGIとして知られる段階に到達する直前に、AIが自己最適化する時代に突入しています。
このグラフを覚えていますか?何度もお見せしましたが、AIが博士号レベルの知能に達し、新しい知識を発見できるようになる時点が、再帰的自己改善のプロセスに入り、知能爆発へと至る瞬間です。私たちは今まさにその時点にいます。
GPT-4 o1、o3、DeepSeek R1といったモデルはすでに博士号レベルの知能を持ち、自己改善を始めています。このビデオの最後にお見せする2つ目の驚くべき発見は、別のチームがDeepSeekの論文の「アハ体験」を、わずか3ドルで再現することに成功したということです。前回のビデオでは、バークレーの博士課程の学生が30ドルで同じことを達成したという話をしましましたが、今回はその費用を10分の1に抑えて、DeepSeek R1モデルでこの学習の瞬間を実現しました。
詳しくご説明しましょう。まず、DeepSeek R1が自身のパフォーマンスを向上させ、速度を2倍にした方法をお見せします。これはSimon Wilsonのブログで、この改善について述べています。詳細は後ほど説明しますが、まず知っておいてほしいのは、このPRのコードの99%がDeepSeek R1によって書かれたということです。
これを達成した人は、単にモデルに指示を与えただけで、モデルが自力でパフォーマンスを最適化する方法を見つけ出しました。ユーザーが行ったのは、テストの開発とプロンプトの作成だけでした。ここで見られるように、OpenAIのo1モデルでも同じことを試みましたが、DeepSeek R1の方が良い結果を出したとコメントしています。
これらのプロンプトをいくつかお見せしましょう。実際に起こったことの要約がここにあります。セットアップについて気になる方のために言っておくと、これは単にdeepseek.comの無料バージョンです。これらのリンクは全て私のニュースレターalertaia.comに掲載されています。
この人によると、各応答に3〜5分かかったとのことで、確かに処理と推論にかなりの時間をかけていました。この人がDeepSeekで使用した反復ループは以下の通りです:
達成したい問題を説明する
最後の失敗した試みを示し、それに基づく改善を求める
モデルが最適化できるよう、前回の試行で生成されたコードを貼り付ける
最初のプロンプトは「ARM Neon SIMDのC++コードをWASM SIMDに変換する」というタスクです。これはARMチップアーキテクチャでの並列処理の実行方法を改善するものです。モデルには既存のコードが大量に提供され、ここで見られるように、これはかなり高度で複雑なコードです。
次に、変換すべき特定の関数が、より多くのコードと共に提供されます。また、応答の開始方法も指示されています。2番目のプロンプトでは、モデルは自身のコードの実行速度を向上させるための最適化を継続して探索します。
これは本当に印象的です。今、数百から数千のこのようなエージェントが自律的に実行され、継続的に改善方法を探っているところを想像してください。もしこれがAGIへの離陸点でないとすれば、何がそうなのでしょうか。
再びこのグラフに戻りましょう。ここにあるのはGPT-4で、非常に賢い高校生に相当します。私たちはすでにGPT-4 o1、o3 Mini、そして間もなくリリースされるo3でそれを超えています。Deep Researchについてはどうでしょうか?新しい知識の発見と統合の分野で、多くのPhD保持者を本当に超えています。私たちはまさにここにいます。
この自動化された研究を行う能力を手に入れれば、それは人工超知能に到達する瞬間となるでしょう。そして、私たちはその時点に近づいているように見えます。
私は少し混乱しています。なぜなら、AI分野の最も賢い人々の中には、この離陸は瞬間的なものではなく、より段階的に起こるだろうと言う人々がいるからです。しかし同時に、私が先ほど見せたこのグラフを見ると、私たちは単に急速な離陸が起こる二元的な点に到達するように見えます。
これはMetaのAI研究責任者であるYann LeCunです。彼が最近言ったことを見てください:「AGIの出現は、あなたの定義が何であれ、単一のイベントではありません。それは段階的なものになるでしょう。そのため、直接観察していても、期待しているような記念碑的な大きな飛躍は見えないかもしれません。しかし、しばらく目を離して、また戻って見ると、それに気付くでしょう。」
また彼は、これがどこかで明らかになれば、比較的短期間で多くの人々によって複製されるだろうとも述べています。もしAIとこれらすべてのイノベーションがOpenAIのようなクローズドコードの企業内にあれば、おそらく私たちはこれを無料では見ることができないでしょう。オープンソースにより、すべての人がそれを達成する能力が加速されます。
これこそが、DeepSeek R1のリリースが非常に重要だった理由です。オープンソースを3〜6ヶ月前進させることができたからです。今、RedditでのDeepSeek R1モデルに関するSamAltmanの発言を見てください:「これは非常に優れたモデルです。私たちはより良いモデルを作り出すでしょうが、以前の年と比べて優位性は小さくなるでしょう。」
今、私たちは自己改善AIを手に入れています。PhDがわずか30ドルでモデルの推論能力を再現する方法について、基本的にDeepSeek R1と同じ技術を使用しましたが、より具体的なユースケースに適用しました。そして今、別のチームが同様の例を公開し、わずか3ドルでこの「アハ体験」を再現することに成功しました。これらはすべて1週間も経たないうちに起こりました。
こちらはLang Chenです。彼は言います:「R1Vを発表できることを嬉しく思います。このモデルは、バークレーのPhDとDeepSeek R1と全く同じ技術を使用しています。検証可能な報酬を伴う強化学習により、モデルに一般的なカウントスキルを学習するよう促します。」
これが鍵です。検証可能な報酬を伴う強化学習は、非常に明確に定義された報酬関数がある場合、信じられないほどうまく機能します。これは、2+2=4のように、あらゆる質問や問題に対して既知の答えがなければならないということです。しかし、例えば「あなたの好きな色は何ですか?」という質問には、定義された答えはありません。それは単なる意見であり、このような質問には強化学習を適用できません。
だからこそ、これらの技術はSTEM(科学、技術、工学、数学)のような分野でとてもうまく機能するのです。これら4つのカテゴリーはすべて、定義された入力と出力、つまり質問と答えを持っており、モデルが正しいか間違っているかを知るようにトレーニングできます。
ここで思考の創発的な振る舞いが生まれ、非常に小さなモデルと非常に具体的なユースケースで、わずか数ドルで実現できます。最良の点は、これが完全にオープンソースだということです。リンクは説明欄に載せておきます。
これを見てください。20億パラメータのモデルが、わずか100ステップのトレーニングで720億パラメータのモデルを上回り、コストは3ドル未満です。このプロジェクトは完全にオープンソースになります。
このモデルは特にカウントスキルに焦点を当てており、それは基本的なものと思えるかもしれませんが、こう考えてみてください。私たちが向かっている方向性は、中心となる基本的な知能を持つ多数の非常に小さなモデルを持つことのようです。最小サイズは約15億パラメータのようで、その後、これらすべてが検証可能な報酬を伴う強化学習を使用して、特定のタスクに優れたものになります。
プロンプトに基づいて適切なモデルを選択するモデルがあることを想像してください。これが私たちが向かっている方向性かもしれません。巨大で一般化されたモデルだけではなく、あるいはそうかもしれませんが、それが唯一の方法ではないでしょう。
これは本当に、誰でもオープンソースで作成できるこれらの小さなモデルを取り、その上に構築し、特定のユースケースで本当に優れたものにすることについてです。
これらが結果です。100ステップで、20億パラメータのモデルをこのカウント問題で53%の精度から99%とほぼ完璧な精度まで向上させ、94%に達した720億パラメータのモデルを上回りました。信じてください、これは非常に印象的です。
これがそのプロジェクトで、あなた自身で試すことができます。すでに言いましたが、これはオープンソースです。
ところで、あなたはどう思いますか?これらの小さなモデルの1つを特定のことで本当に優れたものにトレーニングする方法について、何かチュートリアルを作るべきでしょうか?彼らが本当に何ができるかを示すために。
ちなみに、私たちは有料ニュースレターalertaia.comでSignal Proの最初のコースをリリースしていることをお知らせします。これはDeepSeek R1や他のどのLLMモデルもインストールし、サーバーや他の何にも依存せず、完全にプライベートにローカルコンピュータで実行する方法についてのコースです。
これは非常に詳細なコースで、ビデオチュートリアルが付いており、Pro購読者向けにリリースする予定です。ウェブページにアクセスし、下までスクロールしてプランをアップグレードし、購読するだけで簡単です。そうすれば、数日以内にこのコースと、私たちが準備している他の多くのコースにアクセスできるようになります。
これがR1Vで達成しようとしていることです:「私たちはLLMモデルでのRL-VR(検証可能な報酬を伴う強化学習)のための一般的なフレームワークを構築しています。」これを直接取り出し、選択した任意のモデルと任意のユースケースに適用できることを想像してください。ただし、検証可能な報酬が存在する必要があります。
ここにあります。今やオープンソースコミュニティ全体が、DeepSeek R1で何がうまく機能したかを見て、それを再現し、革新し、拡張することができます。これがオープンソースの可能性です。
コメント