DeepSeek R1が30ドルでクローン可能に?! PhD学生の衝撃的発見

5,280 文字

UC Berkeleyの博士課程の学生が、自身のモデルでDeepSeekのアハモーメントを再現することに成功し、なんとたった30ドルで実現できることが判明しました。これは実際どういう意味を持つのか、この人物は何を成し遂げたのか、全て詳しく説明していきましょう。
まず、バークレーの学生が実際にどのように再現したのかを説明する前に、このアハモーメントについて少し詳しくお話しします。DeepSeek R10（これは教示調整されていないバージョンです）のトレーニング中に観察された特に興味深い現象として、アハモーメントが発生しました。表3で示されているように、このモーメントはモデルの中間バージョンで発生します。この段階で、モデルは最初のアプローチを再評価することで、問題により多くの思考時間を割り当てることを学習します。この行動は、モデルの推論能力の成長を示すだけでなく、強化学習が予期せぬ高度な結果をもたらす可能性を示す魅力的な例でもあります。
これこそが重要なポイントであり、将来のLLMでより多く見られるようになると私は考えています。通常通りの基本的なLLMトレーニングがあり、そして第二層として、AnthropicのCEOであるDarioが最近話題にした強化学習層があります。これは基本的に、回答が正しいか間違っているかに対して適切な報酬を与えるものです。
ここで重要なのは、この報酬は実際に答えが分かっているもの、つまり数学、論理、推論、コーディングなどでしか明確に定義できないということです。創造的な文章を書かせるような場合、そのようなオープンな質問に対する正解は存在しません。
これについては後ほど詳しく触れますが、バークレー大学の博士課程の学生であるJa pan（発音が正しければいいのですが）が数日前に次のようなツイートを投稿しました。「カウントダウンゲームでDeepSeek R10を再現し、強化学習を通じて完璧に機能しました。30億パラメータの基本言語モデルが、全く独自に自己検証と探索能力を発展させました。30ドル以下で自分でもアハモーメントを体験できます。こちらがコードで、これが私たちの学んだことです。」
これが全て何を意味するのか説明しましょう。DeepSeekの論文における主要なブレークスルーの1つは、彼らが「アハモーメント」と呼ぶもので、モデルから深い思考という創発的な能力が生まれたことでした。彼らが発見したのは、強化学習を通じて、モデルが独自に内部モノローグと思考能力を発展させ始めたということです。
必要だったのは非常に良質なデータセットでした。強化学習は本当に特別なもので、これはDeepMindのAlphaGoが人間が注釈を付けたゲームを一切見ることなく、世界最高のプレイヤーを打ち負かすことを可能にした同じ手法です。基本的に自分でGoの遊び方を学習したのです。
それが、DeepSeekの論文で彼らが示したことです。非常に明確な報酬関数を持つことで、モデルは思考することを学習できました。報酬関数とは、モデルに答えが正しいか間違っているかを伝える簡単な方法です。
オープンエンドな質問の場合、それは非常に難しくなります。例えば「どの色が一番良いか」というような質問は、正解がありません。これは完全に意見の問題です。しかし、数学、論理、推論、プログラミングについては、通常非常に明確な答えがある分野です。
明確な答えがある場合、モデルに「はい、これは正解です」または「いいえ、違います」と伝えることができ、モデルは正解を得られるまで何度も試行錯誤を繰り返すことができます。
では、その概念を理解した上で、アハモーメントを達成するために非常に狭い方法でそれを適用することを想像してみてください。彼らはカウントダウンゲームと呼ばれるものでそれを行いました。カウントダウンゲームとは、プレイヤーが基本的な算術を使って数字を組み合わせ、目標の数値に到達するゲームです。
これには明確な正解があるため、モデルに対して非常に明確な報酬シグナルを作成することができます。実際にそれがどのように見えるか、例を見てみましょう。
ユーザー：「19、36、55、7という数字を使って、65になる方程式を作成してください」
アシスタント：「ステップバイステップで解いてみましょう」と考え、いくつかの反復を経て、これが内部モノローグとなり、最終的な答えに到達します。
そしてそれが正解となります。DeepSeek R1やその他の素晴らしいオープンソースモデルを試してみたい場合は、AWSのAmazon Bedrockで可能です。このビデオのスポンサーであるAWSに特別な感謝を申し上げます。
DeepSeek R1は、ディスティル版とフルバージョンの両方がAWSのAmazon Bedrockで利用可能になりました。Amazonはマルチモデルの未来を明確なビジョンとして持っていた最初の企業の1つで、DeepSeekを追加することでそれを更に強化しています。
現在、DeepSeek R1モデルはAmazon BedrockとAmazon SageMaker AIの両方でデプロイできます。Amazon Bedrockの幅広く深いモデル群により、あなたの特定のニーズに最適な機能を選択することができます。選択肢が全てです。
Amazon Bedrockのガードレールにより、モデルとのユーザーインタラクションを独自に評価できます。セキュリティ、安全性、制御、デプロイの容易さ、これら全てを確認できます。今すぐAWSでDeepSeek R1をチェックしてください。説明欄にリンクを掲載しておきます。AWSに改めて感謝します。
さて、彼らが従った手順はこうです。基本言語モデル、プロンプト、真の報酬を与えられたDeepSeek R1アルゴリズムで強化学習を実行し、それをカウントダウンゲームに適用しました。
結果は完璧に機能しました。本質的に彼らが発見したのは、良い基本モデルと明確な報酬関数を持つ強化学習があれば、モデルは自分で考え始めるということです。
これは非常に驚くべきことです。特に、そのように狭い領域でそれを達成できたからです。おそらくこれが未来なのでしょう。以前からテストタイム・トレーニングについて話してきましたが、現在ますます多くの人々がそれについて語り始めています。
これは基本的に、推論時にプロンプトに基づいて自身のモデルの重みを調整する能力です。テストタイム強化学習と組み合わせることを想像してみてください。これが可能かどうかさえ分かりませんが、ただの推測ですが、これらを組み合わせることで、非常に小さなモデルがそれぞれのタスクに特化して調整されることで、困難なタスクを解決できるようになるかもしれません。
プロセスを詳しく見ていきましょう。モデルは最初、完全に間違っていたり意味不明な出力から始まりましたが、徐々に修正と探索などの戦術を発展させていきました。これは自然に起こりました。「このように考えなさい」という指示は必要ありませんでした。ただ自然にこの思考に至ったのです。
次のサンプルでは、モデルが解決策を提案し、自己検証を行い、うまくいくまで繰り返し修正を行いました。彼はWeights & Biasesのリンクも提供しており、完全な実験内容を確認できます。自分で詳しく調べることができます。
これが実際にどのように見えるかというと、強化学習の各ステップにおけるパフォーマンスの推移を時系列で確認できます。発見の1つは、基本モデルの品質が重要だということです。
Qwen 2.5ベースで0.5B、1.5B、3B、7Bで試してみました。0.5Bは解決策を推測して停止しましたが、1.5B以上になると、モデルは探索、自己検証、解決策の修正を学習し始めました。
ここで見ているマルーン色の線が0.5Bモデルで、思考能力に到達するには十分ではありませんでした。パフォーマンスが少し上がって横ばいになっていますが、他のモデルは大きく上昇し、モデルが大きければ大きいほど、全体的なパフォーマンスが向上しています。
つまり、モデルの初期品質が非常に重要だということです。ベースモデルでも教示モデルでも機能し、教示モデルの方が速く学習しますが、最終的なパフォーマンスはほぼ同じになります。教示モデルの出力はより構造化されて読みやすいものになりますが、追加の教示調整は必要ないということがR1の設計決定を支持しています。
R10は教示調整されていないモデルであることを覚えておいてください。DeepSeekには2つのバージョンがあります。扱いにくい基本のR10と、最終的な調整が施されたR1です。
ここで黄色で示されているのが基本モデルで、最初は少し悪いものの、ほぼ同じ地点に到達します。そしてグレーは少し良い状態から始まり、やはり同じ地点に到達します。
また、使用する強化学習アルゴリズム自体はそれほど重要ではないことも分かりました。これは非常に興味深い発見です。DeepSeekがこれを全て始めたのです。
もちろん、これらについて既に知っていた人々もいましたが、DeepSeekの論文が公開され、モデルの優秀さが明らかになり、再現方法を実際に読むことができるようになると、誰もが実験を始めました。これがオープンソースの力です。
彼は続けて、特定の強化学習アルゴリズムはそれほど重要ではないと述べています。PPO、GRPO、PRIMEを試してみましたが、長い思考の連鎖が全て現れ、どれもうまく機能しているように見えます。ハイパーパラメータの調整に時間をかけていないので、どのアルゴリズムがより良いかについての定量的な結論は避けたいとのことです。
モデルの推論行動はタスクに大きく依存します。カウントダウンでは、モデルは探索と自己検証を学習しますが、数の掛け算では、代わりに分配法則を使って問題を分解し、ステップバイステップで解決することを学習します。
タスクに応じて行動を変えるのは興味深いですね。だからこそ、将来は本当に小さなモデルが全てこの強化学習を行い、推論時にテストタイム計算やテストタイム・トレーニングを行うのではないかと考えています。非常に特定のシナリオに超調整された、何百、何千、何百万もの小さなモデルを持つことになるかもしれません。これは非常に魅力的です。
最後に注意点として、これはカウントダウンタスクでのみ検証されており、一般的な推論については検証されていません。現在は計算能力に制限があります。
このスレッドで著者は多くの質問に答えており、さらに詳細な情報を共有していますので、いくつか紹介します。
「Open LLaMAが高い応答長を達成しているのに、スコアが低い理由について何か見解はありますか？」
「Open LLaMAはEOSトークンの生成を好まず、SL回答後に停止を実装していないため、モデルは終了できないことが多いです。この問題を修正すれば結果は大幅に改善すると考えているため、Twitterスレッドではopen LLaMAの結果は報告しませんでした。」
つまり、この技術をどのモデルに適用しても、どの強化学習技術を使用しても、あまり重要ではありません。もちろん、細かい最適化は必要ですが、これは強化学習から生まれる一般化された創発的能力であり、非常に刺激的です。
「30ドルというのは、どのモデルサイズとアルゴリズムを指していますか？」
「3Bモデル（30億パラメータモデル）、PPO強化学習で、H100を10時間使用して30ドルです。」
「トレーニング中の思考連鎖の長さの変化について何か観察結果はありますか？トレーニング中の思考連鎖の長さの増加を示すプロットはありますか？」
「良い質問です。初期の結果では、3Bモデルは最初に正しいフォーマットのために出力長を減少させ、その後パフォーマンス向上のために思考連鎖の長さを増加させます。このようになっています。」
最初は出力長を下げ、その後長い思考連鎖を学習し、時間とともに同じくらいか、若干減少する傾向にあります。
興味深い質問が出ました。「元の論文のトレーニングコストについて、妥当だと思いますか？」
「はい、エキスパートの混合とFP8（8ビット浮動小数点）を使用すれば、予想される結果です。これは、AnthropicのCEOであるDarioが論文で述べたことと全く同じです。」
これを試してみたい場合は、tiny-zeroという名前で全てをオープンソース化しています。GitHubへのリンクを説明欄に掲載しておきます。データセット、Weights & Biasesの実行結果、全てがオープンソースで利用可能です。オープンソースの勝利です。
この動画が楽しめたなら、ぜひいいねとチャンネル登録をお願いします。また次回お会いしましょう。