どのリーズナーを使うべきか? DeepSeek r1とo3-miniを検証

8,117 文字

Which reasoner should you use? DeepSeek r1 and o3-mini tested

Today we're trying to answer the question: is DeepSeek r1 or o3-mini the best reasoner?Let us know what you think in the...

みなさんこんにちは、Feature Crewへ戻ってきました。エージェントの年と呼ばれる今年も1ヶ月が経ちました。o3テスト動画に対して、DeepSeek R1との比較を求める多くのコメントをいただき、私たちも結果を見るのが楽しみでした。すでに両方のモデルで標準テストを実行しているので、単にその結果を繰り返すのではなく、新しいテストを試して全体的な平均を出し、アクセスしやすい小規模なリーズナーの中でどれが最も優れているのかを見極めていきたいと思います。
チャンネルの常連視聴者の方々はご存知の通り、最初のカテゴリはコーディングで、通常は何らかのシミュレーションを構築します。お気に入りのテストは手続き的に生成された惑星ですが、今日は新しいことを試してみます。両方のモデルに、都市生成とシミュレーションのための長いプロンプトを実行してもらいます。有機的な道路網を持つグリッド上に都市を手続き的に生成するだけでなく、シミュレーションのダイナミクスをプログラムし、時間とともにシミュレーションが変化するようにしてもらいます。
多くの機能を要求しており、両方のモデルに全ての要件を実装した単一のHTMLファイルを作成してもらいます。ここで言及しておくべきなのは、これらのモデルの正確なサイズと推論コストは分かりませんが、APIの価格設定に基づくと、かなり comparable だということです。DeepSeekはo3-miniより少し安価ですが、AGI結果で難しい問題を見ると、DeepSeek R1はより多くのトークンを必要とするので、価格は comparable です。また明確にしておくと、o3-mini highはproティアではなく、plusティアにあります。
プロンプトがより長く、より詳細になっていることにお気づきかもしれません。その理由は、リーズナーがどれだけ異なるかを表現できるようにしたいからです。両方とも、ほぼ同時に完了しました。実際の違いは、DeepSeekクライアントがコードを書き込みながらストリーミングしていたのに対し、ChatGPTは一度にすべてのコードをダンプしたことだけでした。実行にかかった時間はほぼ同じでした。
結果を読み込んでみましょう。まずo3-miniを見てみます。おお、これを見てください。面白い都市ができています。小さな車が走り回っていて、昼夜のサイクルがあり、人口と経済が表示されています。シミュレーション速度も悪くありません。雨を降らせることもできます。背景エフェクトがあります。雨が見えにくいですが…あ、これです。雨が降っています。ズームインがかなりクールですね。
コントロールがクールです。車が走り回るのを見るのが楽しいです。もう1つ欲しいのは、カメラを回転させて通りのレベルまで下げられるようにすることです。それは反復できますが、最初の仕事としては本当に素晴らしい出来栄えです。これはほとんどSimCityのようですね。少し漫画的ですが、より現実的にすることもできます。それは後でフォローアップとしてできます。
異なる都市レイアウトの可能性を見るために再生成をクリックしてみましょう。ここではグリッドパッキングのようなものを行っているようですね。建物の高さをランダムに選んでいます。もう1つのプロンプトを試してみたいところですが、まずR1の結果を確認してみましょう。
おっと…タイプエラー、カメラポジション…これらのエラーをDeepSeekに送って修正してもらいましょう。最初のラウンドでそれができなかったのは少し残念でした。正直がっかりです。DeepSeekは動作していますが、多くの思考トークンを使用しています。初期化フラグなどを追加しているようですが、それは良さそうです。
何か…ポップアップが出ています。赤い物体が出現しているようです。車を生成しているようで、興味深いコントロールがあります。実際にズームもできて、地図のようなコントロールを入れていますが、残念ながら都市が表示されていません。エラーがないかもう一度確認してみましょう。
DeepSeekにもう一度チャンスを与えましたが、できませんでした。修正できない何かを修正しようとするのは避けたいので、より単純なプロンプトを与えることにします。そしてo3にはフォローアップのプロンプトを与えます。o3はすでにこのテストで勝利していますが、両方のモデルがどこまでできるのかを見たいと思います。DeepSeekにも公平なチャンスを与えたいと思います。このような種類のものを構築できることは分かっていますが、今回は要求が多すぎて対応できなかったようです。
プロンプトを簡略化し、基本的にシミュレーションが内部で動作する都市生成器を構築する場合の高レベルな要件だけを伝えました。それが完了するのを待つ間に、o3-miniに先ほど話していたカメラ機能を追加し、都市自体も強化するように依頼しました。その間にR1の結果が返ってきたので、より単純で規定の少ない都市の試みを見てみましょう。
面白いですね。前回ほど良いカメラコントロールではありませんが、まだ機能しています。シミュレーション要素の一部を失いました。動きや変化は見られませんが、昼夜のサイクルはシミュレートしています。車は失われましたが、少なくとも摩天楼のような都市らしいオブジェクトができています。非常に単純なレンダリングですが、多くの修正なしで何かをレンダリングできたのは良い仕事です。
その間にo3-miniの結果が返ってきたので、見てみましょう。面白いですね。異なる建物タイプと形状を追加しました。通りレベルモードが利用可能になり、草や木々を追加したようです。3D木を実際に生成しています。建物に異なる形状を与え、異なる向きに配置しようとしています。より多様にしようとしたのは明らかです。
通りレベルモードに下がってみましょう。これは本当にクールです。車が来ているのが見えます。待って、矢印キーやWASDで動かせますか? おお、できます。完全に移動できます。明らかにカメラコントロールで時々苦戦していますが…逆になっていますが、都市の中を飛び回れます。あれは誰かピンク色のものでしたか? 緑のものもありました。あれは人かもしれません。見つけられますか? どこにいるかは分かりませんが…
少し楽しみすぎてしまいましたが、非常に印象的です。シミュレーション状態で何が起こっているのかをライブグラフで見られるかどうか、もう一つ簡単なテストを行っています。一般的に、横並びで比較すると、o3-miniがこのテストでは優位に立っていると思います。プロンプトの多くの部分に実際によく対応していて、正直なところかなり印象的です。
ジェイコブが指摘したように、これはモバイルゲームのようにも見えます。これは実際にSimCityのような都市シミュレーターのようですね。通りレベルに行くとGTAのようになりました。これはまだ1-2回の試行でこの結果です。R1もある意味でよく頑張っていますが、o3-miniは一段階上のレベルです。これらのものでできることは実際に印象的です。
追加として、ライブグラフを実装してみました。かなりクールですね。実際の概念をモデル化できるようになれば素晴らしいと思います。今のところは人口が上がり、経済が上がり、すべてが良好という感じです。これは1つのプロンプトで実現しました。グラフを要求することでピンク色のドットが何なのかを理解しようとしただけです。
非常にクールな結果になりました。ジェイコブが言ったように、このビデオでは新しいテストを導入しているので、お付き合いください。次のテストに移りましょう。これはビジネス推論です。o3で使用したのと同じプロンプトを使用します。まだR1でこれを試していないからです。セットアップして戻ってきます。
プロンプトのセットアップができました。これはo3-miniで行ったのと同じビジネス推論タスクです。DeepSeekとo3について、新しいモデルに関する情報を含む長い文書を与え、チャートを作成し、Pythonを使用してチャートを実際に見られるようにするレポートを作成して推論してもらいます。これは実世界のタスクをエミュレートしようとしています。情報を見て、それを統合し、チャートを作成して提示するように指示される可能性があるようなタスクです。実世界のビジネスタスクでどのように機能するかを見てみましょう。
実行してみましょう。o3-mini Highが最初に返ってきたので、それを実行します。出力をレンダリングし、彼らが行ったことの一部を検証しようとしました。o3-mini Highから始めましょう。最初のパフォーマンス対推論コストは方向性としては正しく見えました。AR AGIスコアを使用しているため、この大きなジャンプが見られます。
確認したところ、ほぼ正しく見えました。ログスケールを使用して、これらがすべて同じように見えないようにすべきだったと思います。次のチャートではログスケールを使用しており、より滑らかなチャートにできて、より正しい表示になっています。最初のチャートでもそうすべきでした。
しかし、コードを見てみると、いくつかの数値を作り出していました。AR AGIを理解しようとして、逆エンジニアリングのようなことをしていました。非常に単純化された方程式を作成していて、あまり意味をなさないものでした。しかし、その功績として、比較的良い関係性を見つけ出しました。データにある程度フィットするものを見つけました。
検証しようとして、AR AGIでo3がこれくらいのコストでこのスコアを得たと言った時、ずれがありました。例えば、$20くらいを探していたのに、スコアが70近くになり、このチャートでは50-55に近いと予測していました。このデータにフィットする関数を天才アナリストのように考え出そうとしていました。ある程度近いものを得られたのは印象的でしたが、予測目的でその関数を使用するつもりはありません。
その分析は、これまで見てきたように、基本的にコストが重要な場合はDeepSeek R1またはR0を展開し、コストが重要でない場合は大きなモデルを展開するというものでした。そして、ハイブリッドな印象のような長期戦略について話しています。これまで見てきたものと似ていて、具体的な推奨事項はあまりありませんでしたが、それでも興味深く、少なくともデータを理解していたように見えます。
DeepSeekに切り替えると、最初のコンピュートとのパフォーマンススケーリングでは、いくつかのものを作り出していました。mediumは一部存在せず、o3ではmediumとHighを同じとしていました。次のコストとパフォーマンスの予測も同様で、持っているチャートにフィットさせようとし、クローズドモデルコストとオープンモデルコストというものを作りました。これが何を意味するのかは分かりません。
このチャートは読みにくく、理解しづらいものでした。これもテストの一部で、アナリストが作るような良いものを作れるかどうかを見ていますが、このチャートはそうではないと思います。最後のチャートにも問題がありました。まず、円の点がY軸と同じ情報を伝えていて、それから40に対して1クエリあたり50セントというような数値を作り出していましたが、それがどこから来たのか分かりません。それが可能かどうかも分かりません。
おそらく100万トークンあたりのコストの情報を取り、50セントを得るには25万トークンが必要だと加算したのでしょう。これはあまり意味をなさず、非常に混乱する作り出された数字でした。しかし、戦略的な推奨事項は非常に興味深いものでした。具体的な行動を提案するほど詳細でした。
投資戦略を見ると、より具体的になろうとしていて、それが気に入りました。この表は私たちが仕事で作るようなものです。非常に読みやすく、具体的な情報を伝えています。投資戦略についても、これらの具体的なパーセンテージを示していて、今後6ヶ月間でR1/R1Zに70%を投資し、高価値なシナリオ用にo3-mini Highに20%、実験的な予算として10%を割り当てるという非常に具体的な推奨事項を示しています。人々が時々忘れがちな実験的予算も含めているのが良いですね。
このテストについては意見が分かれます。コーディングとチャート作成に関する多くのプロンプトについては、コンテキストを失い、数値を作り出していた点は好ましくありません。左側のチャートの方が興味深いと思いました。このテストの本来の目的からすると、おそらくo3が優位ですが、この推奨事項も気に入りました。次回はプロンプトを調整して、より具体的な推奨事項を求めてみると面白いかもしれません。
ただし、多くのビジネス推論の場合と同様に、ある程度主観的です。これらをオープンソースにして視聴者の皆さんに見ていただき、このテストで誰が勝者かについてのご意見を伺いたいと思います。リーズナーにはそれぞれ異なる強みがあることは明らかです。これらのテストを実施する理由の一部は、どちらが何に優れているかを見極めることです。
では最後のテストに移りましょう。エージェンティック推論です。両方でタワー・オブ・ロンドンを実施しましたので、今回は別のテストを試してみます。
戻ってきました。ウィスコンシンカードソートテストのバリエーションを行います。それを調整するためのツールを作っていますが、通常はソートを行いますが、今回は少し簡単に始めようと思います。値と色を持つカードのセットがあり、いくつかの検証ルールがあります。私たちが望むのは、モデルが何らかの入力を与えられた時に、正しいものを作るルールを推測しようとすることです。
カードが正しいかどうかを見極めるだけでなく、それらを結びつけるものを見つけることが重要です。ここでは異なるカードのセットを持っており、正しいカードは基本的に偶数で3の倍数より1少ない数という、かなり恣意的に見えるルールがあります。これらの数字でそれを見つけられるはずです。
実行してみましょう。正しいカードを確認するために表示しています。最初はいくつかのランダムな推測から始まります。今回は赤いカードをすべて選択しました。これは実際に合理的な推測ですが、この場合、それらのカードのうち2つは正しいですが、すべてではありません。
以前持っていたルールを考え直そうとしています。これがより多くのエージェンティックな動作を促そうとしているプロンプトの方法です。今度は赤で10から19の間という推測をしていますが、それらのうち1つだけが正しいです。その情報を更新して、DeepSeekに戻りましょう。
DeepSeekは偶数と原色というルールを推測しようとしました。これも合理的な推測で、正しいカードを選択しました。DeepSeekは実際にルールの最初の部分である偶数を正しく推測しました。3つのカードが正しく1つが間違っているという情報を更新しました。
思考トークンをチェックしているのが分かります。o3を確認すると、ルールに近づいてきています。DeepSeekと同様に、いくつかの数字が偶数だということを見つけました。青の4、赤の40、紫の2、赤の15を選んでいます。これらのうち2つが正しいと更新できます。
o3を更新し、DeepSeekに戻ります。数字は4で割り切れなければならないと、より近づいてきています。今や2つのルール、偶数と4で割り切れるという推測に絞り込んでいます。4で割り切れるというルールが正しくないという事実に基づいて再度更新しました。必要な3つのカードを正確に知っているはずなので、それを確認したいと思います。
o3-miniに戻ると、より近づいているように見えますが、まだ紫の2が含まれています。推測したカードセットの中に2つの正しいカードがあることを伝えることができます。DeepSeekは2分近く考えています。青の4を含む、偶数の除外されたカードが正しいカードだと言っています。
今やモデルは持っていたコンテキストを忘れ始めているようです。奇妙なことに、ここに「推測した3つのカードのうち2つが正しい」と書いてあるのに、必要な情報をすべて持っていて正しいカードを見つけられるはずなのに、話がおかしくなってきています。
DeepSeekは立派に動作していましたが、ここで筋が通らなくなってしまいました。ルールを破り始めています。プロンプトでこれ以上明確にできる方法が分かりません。ここでo3-miniが突破口を開けるかどうか見てみましょう。
o3-miniは、公平に見ても、偶数が必要だということを覚えています。R1ができなかったことをしています。これまでのフィードバックに基づいて、これまでに行ったことすべてに基づいて、これらの2つの赤いカードが正しいということを知っています。o3-miniは実際に正しいカードを考案しましたが、ルールは見つけていません。
フィードバックから、これらのカードでなければならないということを正しく直感的に理解し、上を見ると、これらが偶数で、これらはそうでないと言っているような感じです。ルールを破ったりはしていません。
o3-miniにいくつかのオプションを提案するようプロンプトを与えています。どれだけ近づけるか見てみましょう。多くの興味深いオプションを提案しましたが、残念ながらここで終了です。これは実際にはより多くの心を読むような練習になってしまいました。o3-miniは、ローマ数字の一意性に変更するのはどうかなど、興味深い試みを続けています。技術的に正しいオプションを提案し続けています。
実際には、私たちが正確に1つのことを考えていたのに、これらのカードを組み合わせる方法が多くあったという、テストの問題でした。再度言いますが、モデルの問題ではなくテストの問題です。モデルは非常に立派な動きを見せました。テストは難しいですが、やはりo3-miniの方が優位だと思います。
DeepSeekは正しいカードを見つけるためのすべての情報を持っていたにもかかわらず、それができませんでした。o3-miniは必要な情報をすべて得た瞬間に、少なくとも私には、正しいカードが何かを即座に理解し、その後正しいルールの可能性を次々と推測し始めました。
全体的に見て、やはりo3-mini highの方が優位です。DeepSeekは持てる力を十分に発揮していますが、o3-mini highは知性の面で一段階上だと思います。あなたはどう感じましたか?
確かにステップアップしていますね。DeepSeekはビジネス推論で素晴らしい結果を出しました。特定のプロンプトで再対戦させてそれができるかどうか見てみたいと思いますが、この1つの例ではDeepSeekの推論の道筋は、数値を作り出していた事実を除けば、より良い結果につながったように見えました。しかし、他の2つのテストではo3が明確な勝者でした。
とはいえ、これは半歩程度のモデルアップグレードです。ボールはDeepSeekのコートにあります。o3の競合相手として何を出してくるのでしょうか。
はい、もっと情報が出てくると思います。まだ比較するものがたくさんあります。この内容についてどう思われたか、ぜひ教えてください。まだDeepSeek R1とo3-mini highを使用しているかどうかも教えてください。チャンネルはまだ成長中なので、ぜひいいね、フォロー、登録をお願いします。それでは、次回またお会いしましょう。ご視聴ありがとうございました。