DeepSeek R1とO1: どちらの推論モデルが優れているのか？

7,970 文字

DeepSeek R1 vs O1: Which REASONING MODEL Reigns Supreme?

DeepSeek just dropped their brand-new DeepSeek-R1-Lite reasoning model, claiming it's a serious rival to OpenAI’s O1 mod...

おはようさん。今週、DeepSeekが「DeepSeek R1モデル」という新しいモデルをリリースしたんやけど、これが初めてのオープンソースの推論時計算モデルなんや。O1と張り合えるって言われてんねんけど、もうこれがO1より優れてるって言う人がもう一人でもおったら頭おかしなるで。このモデルはええんやけど、そこまでちゃうから、その理由を説明したいと思うわ。
ええニュースは、DeepSeekがこのモデルをオープンソース化する予定やねんけど、まだウェイトはリリースされてへんねん。でも、chat.deepseek.comで試せるで。今んとこ1日50メッセージまでの制限があるけど、モデルを理解して遊ぶには十分やね。
これから chat.deepseek.com に行って、いくつかのテストをしてみるわ。数学、推論、コーディングを見て、O1プレビューモデルと比較してみよう。見ての通り、chat.deepseek.comの使い方は簡単で、他の大規模言語モデルのUIとほとんど同じやね。ただ、推論時計算を使うディープシンキングモードに入るには、このディープシンクトグルをクリックする必要があるんやで。
ディープシンキングR1モデルを始めるために、まず有効な数独グリッドを生成してもらおうと思うわ。「SKRを使って9×9の数独グリッドを埋めてくれ。各列、各行、そして9つの3×3ボックスそれぞれに1から9までの数字が含まれるようにしてや。最初の数字は7で、7の隣は3やで」って言うてみるわ。
まず気づくのは、このモデルめっちゃ饒舌やねん。「9×9のグリッドを埋めんとアカンな」みたいな感じで、トークンをめっちゃ使うんや。モデルの速度とトークン生成量にも注目してほしいんやけど、今めっちゃトークンを消費してんねん。これ、すごく小さいモデルが大量のトークンを生成してるってことやね。
ディープシンキングモードをオフにしたときとの違いも後で見せるけど、今はもうただただ言葉を垂れ流してる感じやね。最初の疑問は、これって本当の推論なんか、それとも言葉の下痢みたいなもんなんかってことやね。例えばアインシュタインに数学の質問をして、こんな感じの答え方されたら、頭おかしいんちゃうかって思うやろ。
結局182秒かかって答えが返ってきたわ。答えを見る前に、まずChat GPTに、これが有効なグリッドかどうか確認してもらおう。普通の4.0モデルを使うで。
あかんニュースやけど、Chat GPTによると、これは有効なグリッドちゃうらしいわ。8行目と9行目に重複があるって。ほんまや、9行目見たら8と8があって、9と9もあるやん。182秒もかけて失敗したってことやな。
じゃあ、同じ質問をO1プレビューモデルにしてみよう。
O1プレビューの結果が返ってきたで。33秒で済んだし、思考プロセスもずっと整理されてるわ。「数独の数字を埋める」とかって感じで、ずっとマシな仕事してるね。でもこれが正確かどうか、GPT 4.0で確認してみよう。
ほな、O1プレビューは有効なグリッドを生成できたけど、DeepSeek R1モデルはあかんかったってことやな。
まあ、あんまりええスタートちゃうかったけど、もうちょっと数独の質問で試してから次に進もうか。今度はグリッドの検証をやってみよう。このグリッドは単純やけど、無効なグリッドやね。この小さな四角を見たら、2が二つあるのが分かるやろ。
どう判断するか見てみよう。また同じような言葉の使い方してるわ。「数独にはそんなに詳しくないけど」って言うてるけど、理解はできてるみたいやし、ロジックも順番に追えてるな。行ごとに見て、それから列ごとに見てるんや。おっ、この列に2が二つあるって気づいたな。これはええ感じやわ、無効なグリッドやって認識できるはずやね。
また大量のトークンを生成しながら、一つずつ全部確認してるけど、今回は37秒で、行には重複がないけど4列目に2が二つあるって見つけたな。ボックスも確認してるし、最終的に同じ結論、つまり2が二つあって無効なグリッドやって判断したわ。これはChat GPTで確認せんでもわかるな。
もう一つ試してみよう。今度はもっと複雑な数独グリッドや。どうなるか見てみよう。
今回は結構ええ仕事したな。このボックス見たら9が二つあって、下のボックスには4が二つあるんやけど、9の方は見逃したけど、4の重複は見つけて、無効なグリッドって判断できたわ。
GPT 4.0でコードなしで試してみると、これが有効なグリッドやって言うてるけど、それは違うってわかってるよな。これが推論時計算と普通のネクストトークン予測の大きな違いの一つやね。Chain of Thoughtなしやと間違った結論に至ってしまうんや。
もちろんO1プレビューで試したら、ちゃんとできるってわかってるけどな。DeepSeekはええモデルで、グリッドの検証とかはできるし、数学も結構得意なんや。後で詳しく見るけど、グリッドの生成では苦戦する一方で、O1プレビューは明らかにええ仕事してるわ。ほら、O1プレビューは4が二回出てきてるから無効なグリッドやって認識できたやろ。
今度は○×ゲームで遊んでみようか。ゲームボードを与えて、○の次の最善手を聞いてみるわ。ボード見たら、○と・があって、・・とXがあって、下にXがあるって感じやね。○にとって難しいところは、中央を取る必要があることやね。つまり、ポジション5を選ぶべきってことやな。
どうなるか見てみよう。おっ、ポジション5の中央を選んで戦略的なポジションを確保するって言うてるわ。これはChat GPTで確認せんでもええな、ええ判断やし。
もう一回やってみよう。今度はXの最善手を聞いてみるわ。Xがすべきなのは、ここにXを置いて縦一列を狙うか、横一列を狙って「フォーク」を作るか、あるいはポジション3を取って対角線か上の列を狙うかやね。どれも勝ちにつながる手やで。
答え返ってきたわ。ポジション3を選べって言うてる。悪くない選択やけど、二重勝利のチャンスに気づいてへんのが残念やな。○の勝利を阻止する話はしてるけど、フォークの手には気づいてへんわ。
O1プレビューなら、フォークを作って、○が何を選んでも必ず勝てるって言うはずやで。見てみよう。
38秒考えて、ポジション3を選んだけど、そこからがちゃうねん。フォークを作って○を不可能な防御に追い込めば、次の手で必ず勝てるって説明してるわ。フォークの手に気づいてるってことやね。
これも明らかにO1プレビューの方がええ仕事してるって言えるな。
次はスネークゲームを試してみよう。前の動画で作ったスネークゲームがあるんやけど、LLMを対戦させたり、クラシックなAIと戦わせたりできるんや。スネークが餌を集めて回るのが見えるやろ。これは全部AI制御されてて、今回はクラシックなゲームやけど、LLM同士も対戦させられるんや。
ゲームボードを取って、LLMが考える最善手を聞いてみよう。新しいチャットを作って、「次の手は何？」って聞いてみるわ。
その間に、GPT 4.0でも試してみようか。O1プレビューはまだ使わへんけど。GPT 4.0は、スネークの頭がポジション14にあって、餌が03にあるって観察して、上に行くべきやって言うてるな。ボードからは分かりにくいかもしれんけど、実際上に行くのが正解なんや。
ええニュースやで、DeepSeekも上って言うてる。みんな同じ判断してるってことやな。試しにLlama 3.1でも試してみよう。これも上に動かすって言うてるわ。みんな意見が一致してるってことやね。
もっと複雑な例を試してみよう。ちょっと見にくいかもしれんけど、頭がこの○の下にあって、その○が餌の下にあるって状況や。もうちょっと分かりやすく書くと、こんな感じやね。頭が餌を取ろうとすると、自分の体にぶつかって死んでしまう状況なんや。
返事来たで。下に行くのがベストムーブって言うてる。下に行くのは良い試みやけど、スネークは自分の体に戻れへんのが問題やね。O1プレビューの答えを見たらわかるけど、もう一回「スネークは自分の体に戻れへん」って言うてみよう。
まだ下って言うてるわ。「下には行けへん、他の方向を選んで」って言おう。
やっと正解のポジション2、右に動くって答えが出たけど、ちょっと誘導が必要やったな。一方、O1プレビューは38秒考えて、上下左は自分の体に当たるから、右が唯一の安全な選択肢やって説明してるわ。これもO1プレビューの勝ちやね。
他の質問もしてみよう。「寝る前に食べるべきじゃないチーズは何？」って質問の中に答えが隠れてるんやけど、これであってる？って聞いてみよう。人間なら分かるはずやね。「寝る前に食べるべきじゃないチーズ」の中にeamって隠れてるんやけど。もうちょっと簡単にして、「寝る前に」だけにしてみよう。
O1は正解を出したけど、ロジックはちょっと怪しいな。文字を見て「eam」を見つけたって言うてるけど、なんとなく当てたんちゃうかって気がするわ。
DeepSeekはどうかな。いろいろ考えてるみたいやけど、チェダーとかブリーとかを想像して、ブリーって単語を見つけようとしてるけど、eamには気づかへんかったな。O1プレビューは見つけられたのに。
O1ミニでも試してみよう。おもろいことに、O1ミニは全然気づかへんかったわ。O1プレビューに戻って、もう一回試してみよう。O1ミニはミルクって言うて、O1プレビューは最初からエダムって分かったけど、もう一回同じ答えが出るか確認してみよう。
出てきた答えはZEMで、MADEを逆さまにしたって言うてるけど、それは使えへん情報やな。O1プレビューは最初からエダムって分かったのに。
ロジックと推論に関しては、一貫してO1の方がええ仕事してると思うわ。DeepSeekも悪くはないけど、さっき言うたように言葉の下痢みたいな感じで、できるだけ多くのことを言って、猿がタイプライターを叩くみたいに答えにたどり着こうとしてる感じやね。
でも、これすごく小さいモデルやと思うわ。めっちゃ速く動いてるし、それを証明できると思うわ。数学の問題に移って、そこでどうなるか見てみよう。
この方程式を解いてもらおう。頑張ってるな、方程式を見て、一歩ずつ理由を説明しながら解いてるわ。また大量の言葉を使うてるけど、ステップバイステップで進んでって、最終的にx=17/12って答えを出した。なかなかええ仕事やね。
でも、ディープシンクモードを切ってみると面白いことが起こるんや。同じように解けるんやけど、トークンの生成速度が全然違うのが分かるやろ。これは明らかにもっと大きなモデルで、さっきみたいなスピードじゃないけど、正解は出せるんや。
これは気づくべき重要なポイントやと思うわ。DeepSeek R1モデルの数学能力は素晴らしいけど、実は元のDeepSeekモデルも同じくらいええ仕事してるんや。モデルが大きくてトークンの生成は遅いけど、トレーニングの方法が似てるんやろうね。
小さいモデルやとたぶんこれは失敗すると思うわ。もちろんGPTもO1プレビューも問題なく解けるし、GPT 4.0でも同じようにできる。これは数学の問題やから、考える時間はそんなに関係ないんや。ステップを追って答えを出すだけで、パズルみたいに色んなロジックを考える必要はないからな。
だからこそ、強化学習のトレーニングがめっちゃ重要になってくるんや。ステップを学習できるようにせなアカンからね。これがDeepSeekの数学が得意な理由で、小さいモデルにしては本当にええ仕事してる。でも、大きいモデルも同じようにできるってことは忘れんといてな。
もう一つ質問してみよう。「1/x + 1/y = 1/7の整数解を全部見つけて」って聞いてみるわ。これは元のDeepSeekモデルやけど、正解を出してくるはずや。うん、整数解を見つけて、ええ仕事してるな。ちょっと遅いし大きなモデルやけど、正解は出たわ。
じゃあ、同じ質問をディープシンクモデルでやってみよう。めっちゃ速く動いて、同じ答えを出すはずや。ほら、またあの言葉の洪水や。明らかに小さいモデルで、トークンをめっちゃ速く出してるけど、正解にはたどり着くはずや。
ほんまにええ仕事してるな。O1プレビューでもやってみるけど、そんなに時間かける必要もないやろ。ほら、O1プレビューも正解を出したわ。
最後に試すのは、伝統的に「100ドア問題」って呼ばれるやつを、ちょっと変えて「650ゲート問題」にしてみよう。庭に650個の閉じたゲートがあって、650回通り抜けるんや。毎回通るたびにゲートを開け閉めして、これを650回続けて、最後にどのゲートが開いてるか、最初の10個と最後の10個だけ教えてって聞いてみよう。
トークンをガンガン生成しながら解いてるけど、これを解くには、完全平方数のゲートだけが開いたままになるって気づかなアカンのやね。最終的に最初の10個と最後の10個のゲートを答えてくれたわ。ええ仕事やね。
面白いことに、GPT 4.0に聞くと、ちょっと変な感じになるんや。すべて正しく計算するんやけど、最後の10個のゲートの計算でつまずいて、最初の10個は出せるけど、最後は4個しか出せへんのや。
もちろんO1プレビューなら正解を出せるけど、正直DeepSeek R1モデルは数学に関してはめっちゃ優秀やわ。元のDeepSeekモデルもすごいけど、R1モデルは特に数学が得意で、めっちゃ速くて素晴らしい仕事をする。O1プレビューよりええ例を見つけるのが難しいくらいや。数学に関しては、ほぼ同等のレベルやね。
コーディングも少し試してみよう。Reactでアプリを作って、インターネットのタイムサービスから最新の時刻を取得して、毎秒更新するように設定するわ。ローカルの時計じゃなくて、インターネットから時刻を取得して同期させたいんや。外部依存関係は使わへん、つまりaxiosライブラリは使わへんで。それと、AIで描いたロバのSVGを作って、秒が変わるたびに瞬きするようにしたいんや。
Reactのアプリができたで。axiosは使わずにworld timeを使ってる。今んとこええ感じやね。毎秒時刻を更新して、毎分同期してる。ちょっと要求とは違うけど、まあええか。瞬きするロバもできたし、これは多分オープンモデルで初めてまともな仕事したんちゃうかな。
コードをちょっと確認してみよう。これをペーストして、bun run startを実行してみるわ。
おっ、瞬きするピカチュウになってもうた。まあロバに近いと言えば近いか。これは初めてのオープンソースモデルでまともな仕事ができたね。quent .5モデルの動画見てた人は分かると思うけど、他のモデルはほとんどこれに苦戦してたんや。一番良かったのはClaudeで、次がChat GPTくらいやったけど、これはChat GPTと同じくらいええ仕事してるわ。
ちなみに、Claudeに同じことをやらせてみると…ほら、これがClaudeバージョンや。ワークスペースで見てるけど、コードをコピーしたら同期もできるし、これの方がええロバやと思うわ。Claudeの方が上手やけど、それでもDeepSeekはすごくええ仕事したと思うわ。GPTもええ仕事するけど、それは他の動画で見たとおりやね。
R1モデルのコーディング能力は実際かなりええと思うわ。でも、これが最高のモデルやと思わんでほしいんや。もう一つテストしてみよう。
DeepSeekに既存のコードを与えてみるわ。画像エンベディングを抽出するコードで、GINAクリップモデルを使って、二つの画像をエンコードして類似度を計算するんや。コサイン類似度を表示するように改良してほしいんやけど、どうなるか見てみよう。
待ってる間に、GPT 4.0でも試してみるわ。O1プレビューは使わへんけど。GPT 4.0はなかなかええ仕事したな。これをpython embeddingsにペーストしてみると、二つの画像間のエンベディングを計算して、コサイン類似度を計算して、答えは0.724になるはずや。
じゃあ、DeepSeekの結果を見てみよう。これをコピーしてembeddingsにペーストして…失敗したな。しかも変な失敗の仕方や。torchをいじり始めて、torch.nnのコサイン類似度を使おうとしてるけど、実際にはtorch.mmでコサイン類似度を計算できるはずやのに。pipとかでもできるのに、これはちょっとアカンな。
Pythonのコードとしては、そんなに難しい例じゃないから、できて当然やと思うんやけどな。でも全般的にはPythonもReactもええ仕事してるわ。たまたまこういうケースでつまずいただけかもしれへん。
もう一つ例を見てみよう。「これをPythonで書き直して」って言うてみるわ。これは元々ダートマスBASICのコードなんやけど、24秒で変換できたわ。embeddingsファイルにペーストして実行してみると、なかなかええ変換ができてるな。
もうちょっと複雑なものを試してみよう。ACEYDUCEYっていうカードゲームのBASICプログラムをPythonに書き直してもらおう。
コピーして保存して、実行してみよう。10って入力すると…まあまあええ感じやね。きれいじゃないけど、できてはいる。Chat GPTではどうなるか見てみよう。
GPT 4.0でも試してみたけど、これは元のフォーマットとかも全部保持してて、もっと近い変換ができてるわ。R1はゲームのロジックを理解して動くようにはできたけど、フォーマットは全部失われてしもうたんや。一方GPT 4.0は完璧にできてるね。
意地悪してRustに書き直せって言うてみようか。コードを生成して、cargo runしてみると…これ意外とええやん。あ、タイプミスしたけど。失敗すると思ってたけど、なかなかええ仕事したわ。
というわけで、これがDeepSeek R1モデルや。見ての通り、めっちゃええモデルやね。このモデルのウェイトがリリースされて、自分のマシンで実行できるようになったら、今日のオープンソースで使える最高の推論モデルになると思うわ。
数学能力を見ても、GPT 4.0やO1にかなり近いレベルやね。数学的な推論能力は素晴らしくて、あんまり違いが見つけられへんかったわ。コーディング能力は、まだGPT 4.0の方が若干上やと思うけど、よく見てみると、BASICからRustやPythonへの変換もできたし、あのロバのコードもなかなかええ出来やった。エンベディングのコードはちょっとアカンかったけど、それでもそんなに悪くはなかった。一方、GPT 4とClaudeは完璧にできたけどな。
DeepSeek R1モデルは全体的に見るとすごくええと思うわ。ClaudeもGPT 4.0もO1も全体的にはまだ上やと思うけど、パズルや論理的推論の部分で特に差が出るんや。O1プレビューとR1モデルの差はそこでかなり大きいと思うわ。
R1モデルは大好きやし、ウェイトが公開されてローカルで実行できるようになるのが楽しみやね。オープンソースの推論時計算モデルができたのはすごくええことやと思う。O1より優れてるかって言うたら、絶対そんなことはないけど、めっちゃええモデルやと思うわ。
この動画が役に立ったと思うで。また次回会いましょう。