DeepSeek R1が自身のスピードを200%向上 – 自己進化するLLM

4,394 文字

DeepSeek R1は自身を改善しました。完全に自力で2倍のスピード向上を達成したのです。私たちは自己改善型AIの時代に入っています。これは知能爆発の直前の状態です。
この私がよく示すグラフを覚えていますか？AIが博士レベルの知能に達し、実際に新しい知識を発見できるようになるポイント、それが再帰的な自己改善が起こり、知能爆発に達するポイントなのです。私たちは今まさにそこにいます。o1モデル、o3モデル、DeepSeek R1、これらは博士レベルの知能を持つモデルであり、再帰的な自己改善を始めています。
動画の最後にお見せする2つ目の驚くべき発見は、別のチームによるものです。彼らはDeepSeekの論文で示された「アハ体験」をわずか3ドルで実現することができました。数日前、私はバークレーの博士が30ドルで「アハ体験」を実現したという投稿をしましたが、今や10分の1の3ドルでDeepSeek R1モデルの学習モーメントを達成できるようになったのです。それでは、これら両方についてご紹介していきましょう。
まず、DeepSeek R1がどのように自身を改善して2倍のスピード向上を達成したのかをお見せします。これはサイモン・ウィルソンのブログで、彼は2倍のスピード向上について述べています。詳細にも触れますが、ここでのポイントはそこではありません。驚くべきことに、このPRのコードの99%はDeepSeek R1によって書かれたものなのです。これを実現した人は単にモデルにプロンプトを与えただけで、モデルが自身の改善方法を見つけ出しました。その人がやったのは、テストを開発し、試行錯誤でプロンプトを書くことだけでした。
彼らは実際にプロンプターとDeepSeek R1との間のやり取り全体を共有しています。さらにこれを聞いてください。私はコードに関してもDeepSeek R1から非常に有望な結果を見ています。これは最近のトランスクリプトで、llm-mmpyで使用されているキャッシュモデルJSONパターンを模倣するためにllm-gropyプラグインを書き直すのに使用し、このPRが生まれました。これも再度、DeepSeek R1が素晴らしいコードを書いている例です。私はo1でも同じことを試しましたが、DeepSeek R1の方が良い結果を出したと思います。
では、これらのプロンプトをいくつかお見せしましょう。実際に起こったことの要点はこれです。本当に面白いのですが、セットアップは何かというと、ただchat.deepseek.comを無料で使用し、このgistから適応したプロンプトを使用しただけです。これは後でリンクを貼っておきます。この人によると、応答に1回あたり3〜5分かかったそうで、かなりの思考を重ねたことがわかります。
これが、その人がDeepSeekで使用した反復ループです。基本的に、問題の説明、達成したいこと、そして前回の失敗した試みを改善するという形で、最後に生成されたコードを貼り付けています。
プロンプト1では、C++のARM NEON SIMDをWASM SIMDに変換するというタスクが与えられました。これは基本的にARMチップアーキテクチャーでの並列処理の動作を改善するものです。そこで既存のコードがたくさん与えられ、これはハードコアなコードですが、そして変換が必要な関数が与えられ、さらに多くのコードと、コードの開始方法が示されています。
プロンプト2では、モデルは自身をより速く実行するための最適化を探すことができました。これは本当に素晴らしいことです。
同じ人による別の例では、基本的にプロンプトとコードを与えて「改善せよ」と指示し、思考の連鎖を実際に見ることができます。「よし、mistlと同じパターンを実装する必要がある。まずmistlのコードを見ると、refresh_modelという関数があるので、Groでも同様のことをしよう」という具合です。そして最後にコードが完成し、それは機能したのです。これは本当に驚くべきことです。
今、これらのエージェントが100個、1000個と自律的に動作し、一貫して改善方法を探し続けているところを想像してみてください。これが急激な離陸点でなければ、一体何がそうなのでしょうか。
あのグラフを再度参照すると、GPT-4は賢い高校生レベルですが、私たちはGPT-4o、o1、o3、miniやまもなく登場するo3で、それをはるかに超えています。新しい知識の発見と統合で多くのPhDを実際に上回るDeep Researchについてはどうでしょうか。私たちは今まさにここにいるのです。自動化されたAI研究、この自動化されたAI研究を行う能力を手に入れた時点で、それが超知能に到達するときであり、私たちはまさにその地点に達しようとしているように感じます。
私は少し葛藤があります。なぜなら、AIの分野で最も賢い人々の中には、このテイクオフは一夜にして起こる瞬間的なものではなく、もっと段階的なものになるだろうと言う人々がいるからです。しかし同時に、先ほどお見せしたグラフを見ると、この急激な離陸が起こる二元的なポイントが訪れるように見えます。
メタのAI研究責任者であるヤン・ルクンはこう述べています。AGIの出現は、あなたの定義が何であれ、一つのイベントではなく、進歩的なものになるだろうと。つまり、直接見ていると、期待しているような記念碑的な、あるいは大きな飛躍的進歩は見えないかもしれませんが、一瞬目を離して、また戻してみると、それに気付くかもしれないということです。
彼はまた、一度どこかに現れると、比較的短時間で多くの人々によって再現されるだろうとも述べています。もしAIとこれらすべてのイノベーションがOpenAIのようなクローズドソース企業の壁の後ろにあれば、おそらくこのようなことは起こらないでしょう。しかし、オープンソースによって、誰もがそれを達成する能力が加速されるのです。
そして、これこそがDeepSeek R1の登場が非常に重要だった理由です。基本的にオープンソースを3〜6ヶ月前進させることができたのです。DeepSeek R1モデルに関して、サム・アルトマンはRedditのAMAでこう述べています。「非常に優れたモデルです。我々はより良いモデルを作り出すでしょうが、以前の年ほどのリードは維持できないでしょう」。
今や私たちには自己改善する人工知能があり、数日前には、バークレーの博士がわずか30ドルでモデルの思考能力を再現できたという話をしました。基本的にDeepSeek R1と同じテクニックを使用しながら、非常に狭い用途に適用したのです。そして今、別のチームによる例が出てきました。彼らはわずか3ドルでその「アハ体験」を再現することができました。これは1週間も経たないうちの出来事です。
これはラン・チェンによるもので、彼は「R1Vを紹介できることを嬉しく思います」と述べています。これはバークレーの博士やDeepSeek R1と全く同じテクニックを使用しています。検証可能な報酬を用いた強化学習を使用して、VMsに一般的な計数能力を学習させるインセンティブを与えているのです。これが重要なポイントです。検証可能な報酬を用いた強化学習は、非常に明確に定義された報酬関数がある場合に非常にうまく機能します。
つまり、質問や問題に対して既知の答えがなければならないということです。2+2=4のような場合は可能ですが、「あなたの好きな色は何ですか？」には定義された答えがなく、単なる意見です。そのため、そのような場合には強化学習を使用することはできません。これらのテクニックがSTEM（科学、技術、工学、数学）でうまく機能する理由がここにあります。これら4つのカテゴリーすべてに、定義された入力と出力、質問と答えがあり、モデルが正しいか間違っているかを学習させることができるのです。
ここで思考の創発的な振る舞いが得られ、非常に狭い用途で小さなモデルでそれを実現することができ、現在では数ドルで完全にオープンソースで行うことができます。このリンクも説明欄に貼っておきます。
20億パラメータのモデルが、わずか100ステップのトレーニングで、720億パラメータのモデルを上回りました。コストは3ドル未満です。このプロジェクトは完全にオープンソースになります。これは特に計数能力に特化したものです。
あなたは「まあ、それは基本的なことだ、何の役に立つのか」と思うかもしれません。しかし、こう想像してみてください。私たちが向かっている方向性は、基本的な知能を持つ非常に小さな、本当に小さなモデルをたくさん持つことのようです。最小サイズは約15億パラメータのようです。そして、これらすべてが検証可能な報酬による強化学習を使用して、特定の一つのことに長けるようになります。
そして、あなたのプロンプトに基づいて、その瞬間に適切なモデルを選択するルートモデルがあると想像してください。これが私たちが向かっている可能性のある未来です。もはや巨大な汎用モデルだけではありません。あるいはそれも存在するかもしれませんが、それが唯一の方法ではなくなるでしょう。誰でも作れるオープンソースの小さなモデルを取り、その上に構築し、これらの狭い用途で本当に優れたものにしていくのです。
ここに結果があります。100ステップで、20億パラメータのモデルをこの計数問題で53%の精度から99%、つまりほぼ完璧な精度まで向上させ、94%の720億パラメータモデルを上回りました。これは本当に驚くべきことです。ここにオープンソースプロジェクトがあります。あなた自身で試すことができます。
そうそう、私はこれをやるべきでしょうか？小さなモデルを一つのことに本当に優れるように訓練し、小さなモデルから思考行動を引き出そうとする方法についてのチュートリアル動画を作るべきでしょうか？コメント欄で教えてください。
これが彼らがR1Vで達成しようとしているビジョンです。VMにおけるRL VR（検証可能な報酬による強化学習）のための汎用フレームワークを構築しています。これを既製品として取り出し、検証可能な報酬がある限り、好きなモデルや用途に適用できることを想像してみてください。
これで、オープンソースコミュニティの全員が、DeepSeek R1でうまく機能したものを見て、それを再現し、革新し、拡張することができるようになりました。これがオープンソースの力です。
この動画が気に入っていただけましたら、いいねとチャンネル登録をご検討ください。次回の動画でお会いしましょう。