DeepSeek-R1がOpenAI o1と競争！

8,278 文字

DeepSeek-R1 competes with OpenAI o1! paper: it here:

皆さんこんにちは、また動画を投稿することができました。YouTubeでの最後の投稿からもう数週間が経ちましたが、少し休憩を取っていました。そして今回はLLMとAI全般に関するコンテンツで戻ってきました。そして新年を始めるのに、今日DeepSeekがリリースしたDeepSeek R1モデルについて話すのがぴったりですね。彼らはOpenAI o1と同等のパフォーマンスを持っていると主張しています。技術報告書もあり、研究や商用目的で利用可能なオープンソースモデルのディスティルモデルも含まれています。
これはコミュニティにとって素晴らしいリリースであり、新年の良いスタートとなります。なぜなら、研究に使用でき、その上に構築できる非常に強力なモデルを手に入れたからです。ご存知の通り、R1はDeepSeekの思考・推論モデルとして今日呼ばれており、実際にここでアクセスすることができます。
この動画では、論文の簡単な要約とTL;DRを行いたいと思います。詳細には多くの時間を費やしませんが、いくつかの例も試してみたいと思います。以前のプレビューモデルでテストしたものもあります。では論文を見て重要な詳細を確認し、その後実際に試してみましょう。今日はここで誰でもアクセスできると思います。これもDeepSeekの良いところですね。彼らは今アプリも利用可能になっています。DeepSeek、チームの皆さん、おめでとうございます。
レポートを見て、いくつかの例に入っていきましょう。私の観点からすると、これはブレークスルーだと思います。なぜなら、これはOpenAI o1モデルと直接競合する最初のオープンソースモデルの1つだからです。パフォーマンス自体からそれが分かります。Code Forcesなど、これらの推論モデルが能力とパフォーマンスの強さを示すために使用しているさまざまなベンチマークで、それがいかに類似しているかが分かります。これらの結果だけを見ても、非常に競争力のあるモデルだと言えます。
これらはただのベンチマーク結果なので、モデルをテストすることも重要だと思います。このDeepSeek R1モデルの基本的な考え方は、大規模言語モデル自体の推論能力を促進するトレーニング戦略を提案・訓練することです。強化学習がこの論文全体を通じて重要なテーマとなります。方法自体も非常に興味深いです。なぜなら、何が正確に非常に優れた推論モデルにつながるのかはまだ明確ではないからです。
まだ初期段階であり、モンテカルロツリー探索のようなアイデアで多くの実験が行われてきました。この論文ではそれを使用していませんが、これらのモデルの推論能力を向上させるための非常に興味深いアプローチです。いくつかの詳細を見てみましょう。重要なポイントをいくつか見ていきます。
例えば、ここで貢献を要約したいと思います。彼らはベースモデルに強化学習を適用しました。これが彼らが使用している最初のステップの1つです。つまり、ベースモデルから強化学習を適用することになりました。そしてこれは、教師付き微調整に頼ることなく行われたと述べています。
このアプローチにより、モデルは複雑な問題を解決するための思考の連鎖を探索することができます。基本的に、長い推論、振り返り、これらの思考の連鎖のステップを使って非常に複雑な問題を解決できる一貫性のあるモデルにつながる可能性があります。
自己検証、振り返り、長い思考の連鎖の生成などの能力を実証していると述べています。これは、LLMsの推論能力が純粋に強化学習によって促進できることを検証した最初のオープンリサーチであることが、この論文の興味深い発見の1つだと思います。そして、教師付き微調整の必要性がないことも示しています。
ほとんどのアプローチは最初のステップとして教師付き微調整を使用していますが、このアプローチは直接ベースモデルから強化学習に移行します。そして、DeepSeek R1を開発するための複数のステップを含むパイプラインを導入しています。ここには2つのバージョンがあることに注意してください。
DeepSeek R1-0があり、これはベースから強化学習へのものです。そしてDeepSeek R1があり、これは異なるステップを含みます。異なるステップを説明していきます。彼らは、改善された推論パターンを発見し、人間の選好に合わせることを目的とした2つの強化学習段階をパイプラインに組み込んでいると述べています。
つまり、推論の点で非常に優れたモデルを作る方法について、これらの進んだLLMsのほとんどが今日行っていることと同様に、アライメントを犠牲にしないようにしながら行うということです。アライメントは実際のアプリケーションや製品化にとって本当に重要だからです。
また、モデルの推論能力と非推論能力のシードとして機能する2つの教師付き微調整段階も持っています。推論だけでなく、それらの非推論能力も重要です。つまり、これらの異なることを全て行うことができる複雑で非常に一般的なシステムについて話しているのです。推論と他の重要なLLMの能力の面でパフォーマンスを犠牲にすることはありません。
これが大まかなパイプラインです。また、QuinとLlamaを使用していると思われるモデルを蒸留するために使用する蒸留プロセスもあります。後で結果を見ていきますが、これは単なる要約です。基本的にアプローチは以下のようになります。
最初のステップは、先ほど述べたDeepSeek R1-0です。ベースモデルから始めて強化学習を適用します。教師付きデータなしでベースモデルに適用され、それが最初のステップです。強化学習アルゴリズムとしてGPOを使用しています。詳細はそこで確認できます。そして、使用するテンプレートがあります。
テンプレートを見ることができ、報酬モデリングがあり、主に2種類の報酬で構成される規則ベースの報酬システムを採用しています。正確性の報酬とフォーマットの報酬があり、これはモデルの思考部分のトークンの一貫した出力を得るために本当に重要です。
これが結果、またはその要約です。ここで話しているモデルがこれで、そしてo1-miniとo1-012のスナップショットがあります。このモデルはかなり優れていることがわかります。パフォーマンスの面で近づいており、時にはこれらの重要なベンチマークで全てOpenAI o1モデルを上回ることもあります。
Code Forces、LeetCode、GSM8K、HumanEval、これはOpenAIの人々が本当に重視しているベンチマークの1つだと気づきました。それは非常に複雑なベンチマークだからです。結果を見ることができます。このDC-R1-0モデルは既にかなり優れています。これは始まりに過ぎません。モンテカルロツリー探索のような派手なものなしで、非常にシンプルな報酬モデルなどで何かを構築できることを示しています。
また、トレーニング中のDeepSeek R1-0のIM精度も示しています。各質問について16の応答をサンプリングし、安定した評価を確保するためにURL平均精度を計算しています。これらがいくつかのパフォーマンスです。これは特定のモデルについて説明しており、強化学習がモデルを自律的に推論能力を向上させることができることを示すデモンストレーションとしてこれを持っています。
この特定の発見には深く掘り下げるべきことがたくさんあると思います。これはもっと見ることになるでしょう。これは推論のためにこれらのモデルを最適化するための本当に興味深いアプローチになる可能性があります。また、私も非常に興味深いと感じたこのチャートも示しています。
これは、強化学習プロセス中のトレーニングセットにおけるDeepSeek R1-0の平均応答長に関するものです。DeepSeek R1-0は自然にもっと思考時間をかけて推論タスクを解決することを学習します。これは以前も見たことがあります。OpenAIのモデルと、彼らが示したいくつかの結果も非常に似たものを示しています。モデルが思考に費やす時間が長いほど、これらの推論タスクでより良くなります。
AHAモーメントは興味深いと思います。DeepSeek R1-0のトレーニング中に観察された特に興味深い現象はAHAモーメントの発生です。表3で示されているように、このモーメントはモデルの中間バージョンで発生します。この段階で、このモデルは初期のアプローチを再評価することで問題により多くの思考時間を割り当てることを学習します。
この行動は、モデルの成長する推論能力を示すだけでなく、強化学習が予期せぬ洗練された結果をもたらす可能性があることの魅力的な例でもあります。この分野の研究者であれば、これは非常に興奮する結果です。なぜなら、長い間、強化学習には可能性があることを知っていました。AlphaGoや強化学習をベースにした他のさまざまなシステムで、その可能性があることは分かっていました。
しかし、LLMsへの純粋な強化学習アプローチは本当に見たことがありませんでした。そして、この論文で特にそれを見始めていると思います。もっと詳細がありますが、全ては説明しません。自分で読んでみてください。しかし、ここで報告されているDeepSeek R1-0の問題の1つは、この読みにくさだと思います。
それは一貫性のある長い推論、振り返り、コードステップなどを出力できますが、読みにくさと言語の混合に苦しんでいます。彼らはそれに対処したいと考え、マルチトレーニング手順を通じて対処しています。最初の部分はコールドスタートでの強化学習になります。
基本的には、強化学習から教師付き微調整に移行するということです。DeepSeek R1は捨て去るものではなく、実際にその上に構築していくものです。それがここでのアイデアです。コールドスタートデータを収集してDeepSeek-V3ベースを強化学習の出発点として定義し、DeepSeek R1-0と比較すると、コールドスタートデータの利点には読みやすさの部分とここで言及された他のものが含まれると述べています。
そして教師付き微調整から強化学習に移行します。これは推論指向の強化学習です。再びDeepSeek R1-0に適用したのと同じか非常に似た強化学習トレーニングプロセスを適用しています。アイデアは、特にコーディング、数学、科学、論理推論などの推論集約型タスクにおいて、モデルの推論能力を向上させることです。
これがここでのアイデア、少なくとも高レベルのアイデアです。また、対処したい言語の混合についても言及しており、強化学習トレーニング中に言語一貫性報酬を導入したことを示しています。それによって、最初にトレーニングしたモデル、つまりDeepSeek R1-0で見られたさまざまな問題を改善できます。
それと共に、拒否サンプリングを使用した教師付き微調整を導入します。これは一般的なステップであり、これらのモデルのいくつかに適用されています。驚くようなことは何もありません。興味深いのは異なるステップです。より安定したシステムを作成または訓練するのに役立つ異なるラウンドのトレーニングを適用し、もちろんこれらの高度な推論能力も組み込んでいます。
これは推論データについて説明しているだけです。600kの推論関連トレーニング例があり、これは全シナリオのための強化学習です。これは再び教師付き微調整から強化学習に移行します。基本的に再び強化学習を適用し、このアイデアは、推論能力を維持しながらモデルの有用性と無害性を改善することです。
これらのシステムのトレーニングの異なる段階で多くの不安定性が発生する可能性があります。これらのモデルが良い推論能力を持つだけでなく、良いアライメントを持つことが重要です。それが重要な理由の一部は、このモデルのプレビューで早期テストを行った時に気付いたからです。モデルは思考ステップでは本当に優れていましたが、時々私のプロンプトの意図を理解していませんでした。これは本当に大きな問題になる可能性があります。
そのため、人間の選好を犠牲にすることはできません。なぜならそれはこれらのモデルを使用可能にするものだからです。同時に推論能力も維持したいので、2つのバランスを取る必要があります。この研究はまだ初期段階だと思います。これを行うためのより効果的な方法があるかもしれません。
そして多くの実験がありますが、主な結果に飛びましょう。これが主な結果です。ここでDeepSeek R1を見ることができ、非常に優れたモデルです。OpenAI o1モデルとどのように比較されるかが分かります。全体的に非常に優れたモデルです。蒸留MLEの結果もありますが、ここでは要約しません。MLEについていくつかの例を見ていきますが、論文を確認することを強くお勧めします。
質問がある場合はコメントで教えてください。先ほど述べたように、この論文を読んで概要を把握したばかりです。もう一度戻って論文を見る必要があります。この動画で見逃した可能性のある本当にクールな詳細が論文自体にたくさんあります。何か興味深いことが見つかった場合は教えてください。より多くのコンテキストや詳細を提供することができます。
実際に例を見せる前に、まずモバイルでダウンロードして使用できるアプリがあることを強調したいと思います。まず、このBurn Candlesに行きたいと思います。これは最初に問題を理解することが重要だったからです。これがこれらのモデルから欠けているアライメントだと思います。
人々が異なるプロンプトを試している例をたくさん見て、思考ステップでは本当に優れているものの、タスク自体の意図を誤解していることに気付きました。それは本当に悪いことです。もちろん優れた推論能力や問題解決能力を持つ必要がありますが、実世界で本当に有用になるように、タスク自体を理解することにモデルを訓練する方法も必要です。
それがどのように機能するか見てみましょう。これはまだ試していません。他のタスクを試してみましたが、本当に興味深く、エキサイティングな結果があるので、それをお見せしたいと思います。もちろん、彼らの思考モデルのプレビューでこれを初めて試した時、キャンドル4と答えましたが、それは間違っています。正解はこれのはずです。それが改善されたかどうか見てみましょう。
チャットに戻って、Deep Thinkを有効にします。検索は必要ありません。Deep Thinkだけにして、このようにプロンプトを入力します。思考を行い、これらが思考ステップです。これがこのモデルなのか他のモデルなのかわかりませんが、思考ステップと実際の応答の区別がなかったことに気付きましたが、今はその区別が見えます。
正解したことがわかります。最初に消えたろうそくが最も少なく燃えたものであり、それは正しいです。したがって、選択肢の中で最も長く残ったことになります。ろうそく3は等号が最も多く、最も早く消えたことを示しています。一見単純なタスクに見えますが、ほとんどのLLMがこれに苦戦しています。以前のモデルも、実際のタスクを理解する上で問題があったことを示しましたが、このモデルは明らかに本当にうまく機能しています。これは既にこの特定のパズルに対する大きな改善です。
このクロスワードパズルを見てみましょう。実際にこのクロスワードパズルを与えました。これは通常これらのモデルをテストする際に使用するタスクの1つで、o1モデルを含め、どのモデルも解くことができません。o3がリリースされた時にこれを試してみるのが楽しみです。それも楽しみにしています。
しかし、これは推論だけでなく、理解力が必要なタスクです。参照を理解し、多くの複雑な知識、実際には非常に深い知識へのアクセスが必要です。これらのモデルはどれもこれを正しく解くことができません。また、この特定のモデルもこれを解くことができなかったことがわかりました。いくつかは正解しましたが、ほとんどは間違えました。ここでは驚くことはありません。
この思考モデルの以前のイテレーションで試した興味深いタスクの1つを見てみましょう。それは正しくなかったので、再びタスクを与えて、次のように言いました。このフォーマットで提示された行列を文字列として受け取り、同じフォーマットで転置を出力するバッシュスクリプトを書いてください。
多くの思考を行いました。この思考がどれだけ長いかがわかります。そしてスクリプトを生成しました。私はこのスクリプトを取って、ローカルの私のスクリプトにコピーペーストし、正しいかどうかテストしました。以前にプレビューした思考モデルは明らかにこれを正しく解けませんでした。私のYouTubeチャンネルでその前の動画を見ることができます。
今回は実際に正しく解けたかどうかを確認したかったのです。ここでテストしました。これが実際のスクリプトです。ここで見ることができます。ここに単純にコピーペーストしました。そして下にある実際に実行できます。既に実行しました。これがDeep transpose.shです。
これがコードを貼り付けたスクリプトで、これを入力として与えています。ここで既に実行したのが見えます。実行してみましょう。ここで正しい応答が得られました。これが実際に正しい出力です。多くの場合、間違った出力、間違った行列や次元などを出力していました。時には全く機能しませんでした。
この特定のタスクをテストしてきて、この特定の思考モデルによって生成されるコードに確かに強化があることに気付きました。その結果を見られて良かったです。このtranspose Matrix.shを持っていると思います。これはOpenAIのものです。少し違うコードを見せたいと思います。
再び実行するだけです。このようにOpenAIのモデルが実際にこれを正しく解いたことを示すためです。o1モデルについて話しています。申し訳ありません、入力を提供していませんでした。これをコピーします。これが正しく解けたことがわかります。
これがコードについて示したかったことです。それが例です。ついにこのDeepSeekモデルが正解したことに非常に感銘を受けました。これは間違いなく改善です。ここに戻って、示したかったテストがもっとあります。
実際に、OpenAIの推論LLMsについてのブログ投稿で最初に投稿されたプロンプトの1つが、このタスクです。これは興味深いと思いました。何かをデコードする必要があります。基本的に全過程を経て、それがどれだけ長いかがわかります。そしてデコードされたメッセージは「イチゴには3時間ある」と言っています。
OpenAIがそれをリリースしたときだと思いましたが、このモデルにもその能力があることがわかります。これは本当に興味深いです。このテストも行いました。これはQuinモデルでテストしたと思います。これは「間違った方程式に括弧のペアを追加してください」というものです。結果を見ると、これがここに正しい結果があるようです。それを見られて良かったです。
これらが例です。もっと例をテストしたい場合は、数学の問題などをテストした動画がいくつかあります。これらのモデルをもっとテストしていきます。この動画はここまでです。視聴していただきありがとうございます。役立てば幸いです。質問があれば教えてください。
チャンネルを支援していただきありがとうございます。YouTubeの動画を続けることにとても興奮しています。興味深いトピックがあれば教えてください。今年はより多くのチュートリアルも投稿する予定ですが、YouTubeに戻ってこられて嬉しいです。
皆さん、新年の良いスタートをお祈りします。皆さんが何をしているにせよ、何に取り組んでいるにせよ、私が共有したことに加えて興味深いことがあれば、また共有したいことがあれば、コメントを残してください。次回の動画でお会いしましょう。