小規模なDeepSeek R1クローンがO1-プレビューを数学で上回る?! 博士課程学生の驚くべき発見

2,968 文字

Tiny DeepSeek R1 Clone Beats O1-Preview at Math?! PhD Student's STUNNING Discovery
Can this Deepseek distill really beat o1?Try Relume Free for 7 Days: My Newsletter for Regular AI Updates 👇🏼https:...

バークレーから別のチームが、DeepSeekメソッドを使用して15億パラメータのモデルをリリースし、数学においてOpenAI O1を上回りました。私たちは今、検証可能な報酬を用いた強化学習により、狭い領域で訓練され、一般的な知識を持つ対応物よりも優れた小規模モデルの時代に入っています。
数週間前、私はバークレーのチームについての動画を作りました。彼らは30ドルを使って基本的にDeepSeekメソッドを再現し、検証可能な報酬による強化学習を使用して、数字ゲームで非常に優れた成績を出すように訓練することができました。
そして今、このアプリケーションのはるかに広範なバージョンが登場しました。15億パラメータという、スマートフォンに収まり効率的に動作する小規模なこのモデルは、一般的な数学、つまり広範な数学カテゴリーにおいてO1モデルよりも優れています。
この動画は、reloomによって提供されています。reloomは、デザインのプロフェッショナルとReact開発者のために作られた唯一のAIウェブサイトビルダーです。AIを使用して数分でサイトマップとワイヤーフレームを簡単に作成し、Tailwind CSSを搭載したReactに完全にエクスポート可能です。7日間のreloomをお試しください。詳細は下記に記載します。
これをご覧ください。deep scalerと呼ばれるこのモデルは、分散強化学習を使用してDeepSeek R1 distilled Quin 1.5bから微調整された言語モデルです。分散というのは非常に興味深く、単一のクラスターだけでなく、おそらく世界中のクラスターを使用して長文脈長にスケールアップしたということを意味します。
下部にO1プレビューがあり、こちらにdeep scalerがあります。O1プレビューは巨大なモデルであることを覚えておいてください。deep scalerは15億パラメータです。AIM 2024スコアは43.1でベストインクラス、O1プレビューは40です。Math 500も同様で、Quin 2.5 7b1 deep scaler oneが優れているこのベンチマークを除いて、ほぼ全面的に優位です。
これが重要なグラフです。X軸の下部にモデルサイズがあり、紫色のdeep scalerが15億パラメータで示されています。反対側の端にO1プレビューがありますが、サイズは不明ですが大きいものです。Y軸には精度があり、明らかに紫色のde scalerが勝っています。非常に印象的です。私が言うように、私たちは小規模モデルの時代にいるのです。
彼らは小規模モデルでも強化学習が大きな報酬をもたらすことを証明し続けています。興味深いことに、彼らが使用した報酬関数は、プロセス報酬モデルではなく、結果報酬モデルです。このチャンネルで話題にしましたが、簡単に説明させてください。
結果報酬モデルとは、モデルが全体を正しく解答できたかどうかで報酬が与えられることを意味します。もし全体が間違っていれば、間違いとなります。特定のステップが正しくても、最後に間違えた場合は依然として間違いです。
私の意見では、プロセス報酬モデルの方が優れたアプローチです。AIにステップごとに報酬を与えることができるからです。最初の5ステップが正しく、最終答案が間違っている場合、「これら5ステップは正しかったが、最終答案は間違っていた」と伝えることができます。
それが今私たちが見ているものです。問題があり、各ステップで笑顔と悲しい顔があり、報酬のようなものとして考えてください。各ステップで正解でしたが、最後のステップで間違えました。このように、各ステップで何が正しく何が間違っていたかを実際に伝えることができ、これは各ステップでの考え方を学習できるため、より良い方法です。
これは重要な声明です。読み上げますのでお聞きください。「強化学習のスケーリングは大規模モデルにのみ利点があるという一般的な誤解がありますが、より大きなモデルから抽出された高品質なSFTデータがあれば、小規模モデルも強化学習でより効果的に推論を学習できます」
これは、30ドルのdeepseaクローンの動画で示したことであり、今ここで示していることです。これは非常に強力な方法で、今やdeep seekが世界中に公開し、誰もがこれを活用して、小規模モデルでこの技術が非常に効率的で安価に機能することを確認しています。
彼らはわずか3,800 A100 GPU時間でこれを達成することができ、これはdeep seek R1と比較して18.42倍の削減であり、わずか15億パラメータのモデルでOpenAI O1プレビューを上回る性能を達成しています。これがどれほど驚くべきことか強調しきれません。
非常に狭い領域に過度に特化した、これらの小規模モデルが多数存在する状況を想像してください。明らかにこれはそれほど狭くなく、一般的な数学ですが、さらに小規模にすることもできるかもしれません。15億パラメータよりも小さくできるかもしれませんし、できないかもしれません。
しかし、このモデルの訓練全体でかかった費用はわずか4,500ドルで、O1プレビューよりも優れた性能を得ることができました。そしてそれだけでなく、彼らはこれを全てオープンソース化しました。モデルをダウンロードし、重みをダウンロードし、訓練パイプラインを確認でき、基本的に全てを入手して自分で再現することができます。
これがモデルで、GGFバージョンです。完全なF32精度でもわずか7GBで、簡単に私のGPUにオフロードできますが、Q5バージョン、つまり少し量子化すると、わずか1.12GBになり、非常に簡単に実行できます。私は今Q5バージョンをダウンロードしようと思います。
これがLMスタジオにあります。AIM 2024数学ベンチマークの問題の1つがあります。試してみましょう。考えています。これはとても素晴らしいです。ちなみに、実行速度がとても速いことに注目してください。バックグラウンドで訓練を行っていますが、これは全て私の小さなM2 Macで動作しています。これが小規模モデルで得られる結果です。これは量子化バージョンであることも覚えておいてください。
多くの思考を行っています。これを全て見てください。最終答案が出ました。実際には正しくないと思いますが、それでも印象的です。なぜなら、これだけの思考を行ったからです。このモデルはこのベンチマークに対して43%の精度しか得られていないことを覚えておいてください。したがって、実際のベンチマークでも間違えた可能性があります。
しかし、どれだけの思考があったかを見てください。これら全てを見てください。21,000トークンを使って考え抜きました。それは1秒あたり44トークンで、私が録画している最中、別の訓練をバックグラウンドで行っている最中です。非常に印象的です。今や私たちは素晴らしい数学モデルをローカルで実行しており、スマートフォンでも動作させることができます。
この動画を楽しんでいただけましたら、いいねと登録をご検討ください。次回の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました