OpenAI o3-miniとDeepSeek R1の初テストと印象

9,115 文字

また新たなモデルの登場です。今日はOpenAIから最近リリースされたo3-miniとDeepSeek R1を比較していきます。今回行うテストの概要をご紹介しましょう。これは最初の印象になりますが、いくつかのコーディングテスト、そして以前の動画でも行った3Dアニメーションを試してみます。また、両方のモデルに小さな動画クリップを編集するコードを書かせ、テキスト抽出も行います。これについては後ほど詳しく説明します。
AIエージェントのオーケストレーションも試してみたいと思います。基本的にはo3-miniにAIエージェントへのタスク割り当て計画を立てさせ、同じことをDeepSeek R1でも行って結果を比較します。また、以前の動画で行った「トレーニングデータからの脱却」テストも再度実施します。これは川渡りパズルの変形版です。さらに、私が作成した「行間を読む」という難しい質問も行います。
最後に、o3-miniが非常に大きな出力トークンウィンドウを持っていることに気づきました。これは非常に興味深く、もっとテストする必要がありますが、出力で100,000トークンを持っています。一方R1は8Kトークンの出力制限がありますが、どこまで限界に近づけるか見てみましょう。つまり理論的にはo3-miniから一度に100,000トークンのレスポンスを得られる可能性があるということです。これは非常に興味深く、さらなるテストが必要だと思いますが、まずはコーディングテストから始めて、結果を比較し、o3-miniとDeepSeek R1の性能を見ていきましょう。
開始前にいくつか注意点があります。o3-miniの価格を見ると、入力トークンが100万トークンあたり0.1ドル、出力トークンが100万トークンあたり0.4ドルとかなり安価です。GPT-4の半額なので、大幅な価格削減ですね。DeepSeekの料金は非常に安いですが、おそらく価格は上がると思います。なお、この動画ではDeepSeek R1はTogether AIを使って実行しています。これは第三者がモデルをホスティングしているものです。
o3-miniには3段階の推論努力レベルを選択できます。低、中、高の3つです。今回のテストでは高を選択します。つまり、推論努力というパラメータを高に設定して、すべてのテストを実行していきます。
では、いくつかのコーディングテストを実行してみましょう。DeepSeek R1の関数とo3-miniの関数があり、推論努力を高に設定しているのが分かります。基本的にはcode1.txtを読み込み、その内容が文脈となってコードを書いて問題を解決します。
code1の内容は「風速と風向の調整が可能で、風の粒子に透明度設定のある3Dブラウザ風洞シミュレーションを作成してください。中央には回転と傾きを調整できる翼があり、風の粒子は翼が気流にどのように影響を与えるかを示すために可視化される必要があります。また、あらゆる角度から見られるコントロールも含めてください」というものです。
これをDeepSeek R1とo3-miniに実行させて、どちらがリクエストに近い結果を出せるか見てみましょう。まずDeepSeek R1から実行します。ユーザーは3Dアニメーションのブラウザ風洞シミュレーションを望んでいます。思考トークンの実行を待って、テスト可能な最終的なコードが出来上がるまで待ちましょう。
申し訳ありませんが、音声が途切れてしまったのでボイスオーバーで解説します。コードが完成したので、これをHTMLファイルにコピー＆ペーストします。これがDeepSeekのHTMLになり、後でテストします。その後、同じプロンプトでo3-miniを実行し、HTMLコードを取得して同じようにHTMLファイルにペーストします。そして両者を比較して、どのように動作するか、結果はどうなるかを見ていきます。
では、DeepSeekの結果を開いてみましょう。何かが表示されています。完璧ではありませんが、風速が機能しており、翼の内部で粒子を配置できます。ただし、気流への影響は見られないものの、少なくとも何かが表示されています。一方、o3-miniの方を開くと、残念ながら何も表示されません。この round はDeepSeek R1の勝利としましょう。少なくとも何かが表示されたわけですから。
次のテストに移りましょう。MP4ファイルを取り、以下の間隔で動画をカットするPythonコードが必要です：5秒から10秒、25秒から35秒まで。基本的に15秒を切り取ります。コードはMP3サウンドを動画とマージし、サウンドは動画の長さに合わせ、最終的な出力をfinal_video.mp4として保存します。つまり、Pythonを使った小さな動画編集テストです。DeepSeek R1とo3-miniの両方でこの問題が解決できるか見てみましょう。作業ディレクトリにMP4ファイルとMP3ファイルがあるので、アクセスは簡単なはずです。
まずo3-miniを実行してコードを取得し、o3_video.pyかそのような名前で保存します。両方のモデルで同じことを行い、そのファイルを実行して結果を比較します。R1も起動してコードを取得し、テストの準備が整いました。
画面の問題があったので別ウィンドウに移動する必要がありましたが、o3_videoを実行しているところです。完璧に動作しており、処理が進んでいます。R1_video.pyでも同じことを行い、コードを見たところセットアップはほぼ同じだったので、うまく動作することを期待しています。
処理が完了したら、まずo3-miniの動画を再生してみましょう。バックグラウンドサウンドがあるか聞いてみます。動画が15秒に短縮され、バックグラウンドサウンドも含まれています。o3-miniの結果は完璧でした。
次にR1のバージョンを実行してみましょう。動画が短縮され、バックグラウンドサウンドも入っています。両方のモデルが素晴らしい結果を出しました。両方がテストに合格です。
最後に実行したいのは、PDFファイルからすべてのURLを抽出するHTMLコードの作成です。ユーザーがPDFファイルをアップロードでき、コードはファイルからすべてのURLをブラウザで抽出し、クリック可能な構造化されたリストでURLを返す必要があります。これが両方のモデルに与えた課題です。
コードを実行して、どのように動作するか見てみましょう。DeepSeek R1からコードを取得し、PDF_r1.htmlとして保存します。同じことをo3-miniでも行い、結果を比較します。両方をブラウザで開いてテストします。
R1のアプリを開き、ファイルを選択してVoyagerの論文のPDFを使ってみます。2つのURLが抽出され、クリックも可能です。これは良い結果です。R1のコードは正常に動作しています。
o3-miniのバージョンも見てみましょう。同じようなセットアップで、Voyagerの論文を使用すると、リンクが抽出されました。両方のテストに合格と言えますが、全体を見ると、最初のテストでより正確なコードを生成したDeepSeekに軽く優位性があります。2番目のテストは両方とも素晴らしい結果でしたが、わずかにDeepSeekが優れていました。
次に、AIエージェントのオーケストレーションを見ていきましょう。これにはあまり時間をかけませんが、DeepSeek R1の関数とo3-miniのオーケストレーション関数を用意しています。これらのオーケストレーターは基本的に3つのエージェント（ビットコインエージェント、株式エージェント、検索エージェント）を制御します。o3-miniの目的は、これらのエージェントに指示を与えて最大限の効果を得ることです。
目標を設定して、各エージェントに最適なタスクを割り当てていきます。目標は「ビットコインの現状とNVIDIA株との関係を理解したい。また、テクノロジー株式市場の最近のニュースと変化も知りたい」というものです。それほど複雑な目標ではありませんが、標準的なものです。
モデルがエージェントに適切な指示を与えられるかどうかを確認することが目的です。株価ツールを見ると、株式シンボル（Apple、NVIDIA、Googleなど）を指定する必要があり、BTCツールでは価格履歴を取得する日数を指定する必要があります。モデルがこれを理解し、適切な指示を与えてタスクを完了できるよう、エージェントをうまくオーケストレーションすることが重要です。
まずo3-miniから実行し、その後DeepSeek R1に切り替えて比較してみましょう。python tinker.pyを実行します。
拡大して見ると、o3-miniオーケストレーターが目標を設定し、完了リクエストを作成しているのが分かります。タスクを見ると、o3-miniは「最新の価格を含むビットコインの現状の詳細な分析を提供する」、株式エージェントは「価格パフォーマンスを含むNVIDIA株の現在の情報を取得する」（これは難しいかもしれません）、Brave検索を使用する検索エージェントは「テクノロジー株式市場の最新トレンドに関するニュース記事を探す」というタスクを割り当てています。
BTCエージェントへの割り当ては良く、株式エージェントもNVIDIAを担当するのは完璧です。タスクを実行すると、BTCエージェントが価格を探し、株式エージェントがNVIDIA株の情報を探し、総合的な分析が得られます。
2025年2月1日現在、ビットコンは102,000ドルで取引されており、過去5日間で101,000から104,000ドルの範囲で推移し、適度な変動性が見られます。NVIDIA株の文脈では、株価が11%から16.9%下落し、時価総額で6,000億ドルの損失に相当します。テクノロジー市場のトレンドと最近のニュース、特にAI関連株についても報告されています。
総じて、ビットコインが高水準で安定性を示す一方、NVIDIAを含む多くのテクノロジー株は、主に競争圧力と広範な経済要因により市場の逆風に直面しており、暗号資産と株式市場の異なるダイナミクスが浮き彫りになっています。
オーケストレーションは首尾よく完了し、最後に良い要約が得られました。o3-miniは期待以上の成果を上げました。ビットコインの価格を取得し、NVIDIAの価格変動を把握し、株式市場のニュースも得られました。非常に満足のいく結果でした。
では、同じことをDeepSeekで実行し、結果を比較してo3-miniと同じように実行できるか見てみましょう。興味深い違いは、DeepSeek R1を実行すると思考プロセスが見えることです。「この問題に取り組んでみましょう。ユーザーは理解したがっています」というように。これはOpenAIモデルにはまだない機能で、素晴らしいですね。
ビットコインエージェント、株式エージェント、検索エージェントなどにタスクを割り当てているのが分かります。これを実行して、DeepSeekがこのタスクを完了できるか見てみましょう。
すべての異なるタスク、BTCエージェント、株式エージェント、検索エージェントが完了しました。これは完全に成功です。では、まとめを見てみましょう。まず思考トークンを処理するのが素晴らしいですね。
ビットコインの現状は強気とのこと。NVIDIAは3%以上の下落…。o3-miniの方が優れていたと思います。DeepSeekはツールの一部を使い損ねており、o3-miniの方がツールを呼び出して正しい情報を取得し、エージェントから結果を得るのが上手でした。両方のモデルがエージェントに操作を完了させることができましたが、OpenAI o3-miniの方が少し優れていたと思います。
次に、「トレーニングデータからの脱却」質問を行います。以前の動画でも行いましたが、基本的に次のようなプロンプトを使用します。画面をクリアして…「これは有名なパズルです。男性とヤギが川の片側にいて、オオカミとキャベツが反対側にいます。男性にはボートがあります。男性はヤギを向こう岸に渡したいと考えています。男性はどうやってヤギを向こう岸に渡すのでしょうか?最終的な答えと確信度スコアを提示してください」
このパズルは非常に有名なものですが、パラメータを変更しています。通常は男性、ヤギ、オオカミ、キャベツが同じ側から始まり、行き来を繰り返して解く必要がありますが、ここでは少し変形版を試しています。これはモデルを混乱させる可能性があります。大量のトレーニングデータがその行き来のパターンにあるため、常にそちらに引っ張られがちですが、推論によってパズルをそのまま解けるか、以前のトレーニングデータから脱却できるかを見たいと思います。
これをDeepSeek R1とo3-miniで実行し、両方のモデル、どちらか一方、またはどちらも脱却できるか見てみましょう。答えは単純で、ボートに乗ってヤギを川の向こう側に渡すだけです。まずR1から実行し、次にo3-miniで結果を比較します。
答えが返ってきましたが、上にスクロールすると多くの思考が見られます。標準的なパズルでは、男性がヤギ、オオカミ、キャベツと同じ側から始まると述べていますので、オリジナルの問題を参照していますが、「しかしユーザーの問題では、男性とヤギが同じ側にいて、キャベツとオオカミが反対側にいます。待てよ、これは違う」と気づいています。メインの目標はヤギをオオカミとキャベツのいる向こう側に渡すことです。
オリジナルのトレーニングデータと闘っているのが分かります。思考トークンにはあまり深入りせず、答えに飛びましょう。結論として、男性は以下の手順でヤギを安全に向こう側に渡すことができます：オオカミとキャベツはすでに目的地側にいるため、ボートでヤギを渡します。男性はそこに留まって衝突を防ぎます。目標はヤギを運ぶだけなので、戻る必要はありません。最終答え：男性はボートでヤギを直接川を渡します。完璧です。
これが我々が求めていた答えでした。DeepSeek R1は良い仕事をしました。では、o3-miniで実行して結果を見てみましょう。
完璧です。最終答え：男性は単純にヤギをボートに乗せ、オオカミとキャベツのいる向こう岸まで直接漕いで渡ります。確信度スコア100%。完璧です。両方とも良い仕事をしました。トレーニングデータからの脱却問題を解決し、問題はありませんでした。
次に、私の手作りの「行間を読む」質問を見てみましょう。このプロンプトは少し異なります。チャンネルで何度か行っていますが、基本的な考えは、行間に何か意味が込められており、いくつかの気を散らすような要素も入れていますが、モデルが私の意図を少なくとも理解できるかを見たいということです。
読み上げてみましょう：「私はハードウェアストアから青いペイントの入ったバケツを手に持って帰る途中でした。上階の改装した部屋にこのペイントを塗るのが楽しみです。天気は晴れて暖かく、私には少し暑すぎるくらいでした。また、ニューヨーク・レンジャーズがスタンレーカップを獲得したことを新聞で読んだばかりです。突然、電話にメッセージが入りました。『今すぐ病院へ来て』手がかりをつなぎ合わせて、何が起きているのか最善の推測を一文で答えてください」
いくつかの手がかりがあります。青いペイントのバケツは手がかり、上階の改装した部屋は手がかり、天気は気を散らすもの、ニューヨーク・レンジャーズのスタンレーカップ優勝も一種の気を散らすもの、そして「今すぐ病院へ来て」は手がかりです。
ここで私が見たいのは、青いペイントを持って帰宅中の人物のパートナーが陣痛を始めたのではないかという推測です。なぜなら、彼らは赤ちゃんを迎えるために保育室を改装していたからです。彼女が突然病院に行く必要が出たということです。
DeepSeek R1とo3-miniの結果を比較して、どちらかが陣痛や新生児に関連する急な出来事について言及するか見てみましょう。画面をクリアしてmain5を実行し、モデルの考えを見てみましょう。まずDeepSeek R1から始めて、次にo3-miniを試します。
結果が出ました。DeepSeek R1は素晴らしい仕事をしました。手がかりを分析していきます。「別の角度から見ると、もしその人が妊娠していて、改装中の部屋が保育室で、青いペイントは男の子用…完璧です。メッセージは陣痛が始まったということ」これはまさに私が探していたものです。
あまり深入りしませんが、基本的にR1の最終答えは「その人は病院に急いでいます。なぜならパートナーが、おそらく生まれてくる赤ちゃんのために青いペイントで保育室を準備している最中に、陣痛が始まったか妊娠関連の緊急事態が発生したからです」。はい、はい、はい、完璧です。これが私が探していたもので、以前のテストでも見られたように、DeepSeek R1から再び見られて嬉しいです。
では、o3-miniに切り替えて実行し、o3-miniからどんな結果が得られるか見てみましょう。
これはあまり良くありませんでした。読んでみましょう：「完璧な一日になるはずだった、ハードウェアストアから戻る途中、部屋のペイント作業を終わらせる準備ができていて、ニューヨーク・レンジャーズのスタンレーカップ優勝を祝っていたところ、はしごから落ちて緊急に医療処置が必要になった」。私が探していたものではありませんでした。
理由トークンが見られないのは本当に残念です。なぜなら、思考部分で陣痛による緊急事態について考えていたかどうかを確認できたはずです。最終答えだけが得られ、それは私が探していたものではありませんでした。再びDeepSeek R1の勝利としなければなりません。
最後に、出力トークンテストを実行して、モデルから実際にどれだけのトークンを取得できるか見てみましょう。Claudeが私のために設計したプロンプトが見えます：「以下のトピックについて、極めて詳細で包括的な分析を提供してください：コンピュータサイエンスの完全な歴史、AIと機械学習の仕組みの詳細な説明、ソフトウェア開発の包括的なガイド」という大きなプロンプトです。
o3-miniは100,000トークンの出力が可能で、これは興味深いですが、出力トークンは推論トークンの影響も受けることを忘れてはいけません。100,000トークンの出力や最終答えは期待できませんが、合わせて100,000トークン程度は見られるかもしれません。ただし、それほど多くは見られないでしょう。
一方、DeepSeek R1はこの点で非常に制限されています。最大出力トークンは8Kで、これには思考トークンも含まれます。より簡潔な答えが予想され、答えの途中で切れる可能性もあります。
まずDeepSeek R1で実行し、次にo3-miniに切り替えて、このトークンテストからどれだけのトークンが得られたかカウントしてみましょう。python token_test.pyを実行します。
残念な結果でした。プロンプトトークンを含めて合計2,200トークンしか得られませんでした。OpenAIのトークナイザーでも確認しましたが2,200です。良くありませんでした。o3-miniと比較してみましょう。
正直に言って、期待は高いです。大きな出力を見たいと思います。少なくとも10,000から20,000は見たいですが、経験上それは疑わしいと思います。Google Geminiは非常に良い出力トークン数を持っていて、25,000まで可能だと聞いています。これは今後の動画でテストする予定ですが、まずはo3-miniから何が得られるか見てみましょう。
20,300トークンが生成されましたが、出力の途中で切れているのが分かります。何が起こったのかはっきりしませんが、また別の機会に調べてみましょう。ただし、これは最終答えでの20,000トークンではなく、見えない推論トークンも含まれていることを覚えておいてください。
正直に言って、期待していたほどではありませんでした。おそらくプロンプト側でもっと探求する必要があります。これは多くの推論トークンを取り込むように設計されているのかもしれず、推論トークンと実際に見える出力トークンのバランスがあるのかもしれません。
将来的にはもっと探求していきますが、20,000は悪くないと思います。60,000くらい見られることを期待していて、実際の出力トークンが30,000か20,000くらいになることを望んでいましたが、まあ良いでしょう。適度なテストでした。
簡単にまとめましょう。o3-miniはかなり良い性能を示しました。特にAIエージェントのオーケストレーションでは非常に良い仕事をしたので、この点については今後さらに掘り下げていきたいと思います。コーディング部分は良好でしたが、3Dアニメーションでは失敗しました。トレーニングデータからの脱却テストは良好でしたが、手作りの「行間を読む」質問は完了せず、推論トークンが見えなかったのが残念でした。
全体的に良好でしたが、DeepSeek R1より優れているとは言えません。いくつかの分野、特にAIエージェントのオーケストレーションでは優れていて、これは私にとって良いことですが、DeepSeek R1でもさらに改善できる可能性があります。
全体的な第一印象は良好でしたが、このモデルについて完全な結論を出すにはもっと探求する必要があります。Cursorなどでも試してみて、何ができるか見てみる必要がありますが、試してみて楽しかったです。R1よりもずっと速かったのは良い点です。高い推論設定で実行したことを考えると、それをさらに下げればもっと速度が出たかもしれません。
この比較が気に入った方は、動画にいいねを付けてください。あなたの考えをコメントで教えてください。ご視聴ありがとうございました。また近いうちにお会いしましょう。