ChatGPT o3‑mini AIをテストしてみた：トップかフロップか？

7,540 文字

Je teste les IA ChatGPT o3-mini : Top ou Flop ?

OpenAI vient de sortir ses nouvelles IA baptisée la o3-mini Family : on a ChatGPT o3-mini et o3-mini-high. Alors ça vaut...

さて、正直に言いましょう。今日一日中、O3 miniファミリーのO3モデルのリリースを待っていました。金曜日の夜で、動画を撮っているこの時点ではかなり遅い時間です。正直なところ、ここにいるよりも週末を楽しみたい気分なのですが、一方で皆さんと一緒に人工知能を発見するのも大好きです。そこで、この動画では、O3 miniとO3 mini highのモデルを簡単に一周して、現在入手可能なすべての情報をお伝えしようと思います。そして、今日の終わりに私が楽しみながら動画を撮影するためのちょっとした面白い実験もご提案します。つまり、どのモデルを使ったのかを明かさずに、O3 miniモデルで3つのテストを行い、皆さんにコメント欄で「第一の回答」か「第二の回答」かどちらが良かったかを教えていただき、動画の最後にどのモデルを使用したのかを明かすという実験です。これにより、O3 miniとO3 mini highの間に本当に違いがあるかどうかを確認できるでしょう。ご覧のとおり、O3 mini highをメッセージ無制限で使うには200ドルのプロサブスクリプションが必要です。これは、特に普段あまりChatGPTを積極的に利用していない方にとってはかなり敬遠される条件かもしれません。

さて、イントロダクションはこれで終わりにして、本題に入りましょう。ご存知の通り、リリースは20時15分に行われたため、ほんの数分前の出来事です。本日、O3 miniはChatGPTおよびAPI上で利用可能になりましたので、今後自動化も可能になります。ぜひチャンネル登録をお願いします。今後、このテーマに関して必ず何かしらのことをする予定です。また、ChatGPT PlusおよびChatGPT Teamのユーザーは、一定のメッセージ制限がある一方で、プロユーザーはメッセージ数無制限でO3 miniとO3 mini highの両方にアクセス可能です。なお、現時点での制限は具体的な数字としては固定されていませんが、数百もしくは数十程度と言われています。

興味深い点として、皆さんもお気づきかもしれませんが、O3 miniおよびO3 mini highのモデルでは、PDFやExcel、Docなどのファイルを共有する機能が利用できなくなっています。これは私が非常に頻繁に使っている機能なので、代わりにOneを利用する必要があります。ちなみに、Oneではインターネット接続機能を使えないのですが、ChatGPTのO3 miniおよびO3 mini highでは、インターネット検索が可能になっています。そこで、早速インターネット検索のテストをしてみたいと思います。方法としては、「research GPT」というプロンプトを利用します。このプロンプトは、私がリソースのデータベース内で無料でシェアしているもので、リンクは概要欄に記載してあります。多くのプロンプトと動画のチュートリアルが含まれており、ChatGPTやその他のAIツールにコピーペーストするだけで利用可能です。

私がこのプロンプトを使い、ChatGPT O3 miniでコピー＆ペーストして試します。今回はプロユーザーとしてO3 mini highを利用して、最終的に最高のパフォーマンスを発揮させます。そして、あるテーマについてのリサーチを行います。テーマは「週末や休暇を取ることが生産性に与える良い影響」です。プロセスは4段階の手順に従って進められます。さて、最初のリクエストをChatGPT O3 mini aに投げて、どのような結果が得られるかを皆さんと一緒に見てみましょう。画面上で、彼が思考している様子が確認でき、どのようなアクションを取っているのかも見ることができます。実際、かなり多くの処理を行っているのが分かります。そういえば、ChatGPT O3 mini highと、中国の人工知能「dipsic」との比較テストも行おうかと思っています。これにより、両者のパフォーマンスの違いが明らかになるか、またOpenAIがdipsicや昨日紹介したquen 2.5に対してリードを取り戻したのかが分かるでしょう。ちなみに、先ほど得た回答は非常に速く、思考が終わった瞬間に1/10秒で返答が返ってきました。

さて、得られた情報としては、週末や休暇を取ることが生産性に与える良い影響について、いくつかの情報源が提示されました。ところで、ここで注目したいのは、インターネット検索機能を有効にするために、ボタンをクリックして起動させる必要がある点です。O3 miniも非常に賢いのですが、自動でインターネットに接続するわけではありません。そこで、ここで「最新の情報源」を探して、彼がどのようにリサーチするのかを確認するために、インターネット上の最新情報源を求めてリクエストします。すると、彼はプロンプト前の情報に基づいて、2021年から2023年の情報源に限定していたのが、すぐに修正され、2025年1月10日までの情報源を探し出しました。これにより、彼は思考の中で自己修正しながら前進し、見つけた情報源を提示することができました。ChatGPT Searchのように「Source」タブが表示されるのかも確認してみますが、下部にすべての情報源を表示するリンクはありません。しかし、評価としては5点満点中4.5点または4点以上の品質の情報源が提示され、かなりしっかりとしたリサーチが行われたと感じます。インターネットに接続できるO3 miniおよびO3 mini highの機能は、Oneに比べて革命的な進化ですが、その代償として、現時点ではファイル添付の機能が失われています。

さて、ここで最初のテストを行う前に、イントロダクションで述べた実験の内容をお伝えします。実験では、2つのウィンドウを開き、同じリクエストをそれぞれに入力します。これにより、皆さんはコメント欄で「バージョン1」か「バージョン2」かどちらが良かったかを教えていただけます。そして動画の最後に、どちらのAIがどの回答を出したのかを明かします。なお、どちらの回答が問題となるかもしれませんが、皆さんのフィードバックが非常に興味深いです。今日は週末ということもあり、かなり気軽なテストを行うつもりです。たとえば、ここではChatGPT O3 miniのバージョンAと通常版に、映画のアクションコメディの脚本家になりきってもらい、「猫の忍者『miaushido』が、悪魔的なロボット掃除機の侵略から世界を救う」というシナリオを、台所での壮絶な戦闘シーン、猫の印象に残るセリフ、そしてロボット掃除機に対する、突拍子もないが論理的な解決策を含めつつ、面白く、ダイナミックで、かつ一貫性のある内容に仕上げるようにお願いします。なお、画面上の内容は編集で全て消去し、テストのたびにモデルの割り当ても入れ替わります。さて、両モデルにリクエストを投げたところ、左側には「miaushidoと掃除機の反乱」というタイトルの回答が返ってきました。そこにはシーン1、シーン2、シーン3など、各シーンの詳細が丁寧に記されており、必要であれば一時停止してじっくり確認することもできます。私はどちらのバージョンを使ったかは伏せておきますが、左側の回答と右側の回答では、構成に違いがあるのが明らかです。

左側の回答では、タイトルは「miaushidoと掃除機の反乱」となっており、シーン番号ごとに、例えばシーン4やシーン5、そして都市の未来的な風景のシーン、アラームが鳴るシーンなどが描かれ、キャラクター紹介も冒頭でしっかりと行われています。一方、右側の回答では、シーン分割がなく、複数のパートに分かれた構成になっています。具体的には、冒頭に未来的なネオン輝く都市でのオープニングシーンがあり、不意の侵略の中で暗い世界が描かれています。また、キャラクター「miaushido」の紹介が十分にされておらず、後半に戦闘シーンや印象的なセリフ（例：「もう隠れる時は終わった」など）が続きます。さらに、ロボット掃除機に対する突拍子もないが論理的な解決策も、左側では「最後の同期したロボットの波に対して、miaushidoは彼らの弱点である、古いプログラミングバグによる超音波振動への過敏性を発見。古いヴィンテージのラジオをカウンターに置かれたミキサーに接続し、強力なミックス音でリミックスを流すことで、ロボットは振動に耐えられずにシンクロを失い、最終的に故障する」というものでした。一方、右側の回答では、猫の忍者がロボット掃除機全体の共通の弱点―大量のホコリを吸い込むとエネルギーを過剰消費する―に気づき、巨大なざるとスープボウルを使ってキッチンの細かいホコリを集め、制御室に向かってホコリを放り込み、ロボット掃除機が過負荷になって転倒、最終的に爆発するという内容でした。

皆さんは、左側の回答と右側の回答のどちらが好みか、コメント欄でぜひ教えてください。動画の最後に、どちらのAIがどの回答を出したのかを明かします。これにより、パフォーマンスの違いが見えてくるでしょう。今回は、最も性能の低いO3 miniと、より高性能なO3 mini high（ただし、200ドルのサブスクリプションが必要）の比較実験となります。

次のテストは、ユーモアと哲学的な議論に焦点を当てたものです。今回のテーマは、「もしトーストはいつもバター側で落ちるが、猫は必ず足から落ちるとすれば、トーストを猫の背中に取り付けたらどうなるか？」という問いです。ここでは、両モデルに対して、科学的またはユーモアを交えた論拠を示し、反論を提供した上で、最終的にジレンマを解決またはさらに複雑にする結論を求めます。再び、両モデルに同じリクエストを投げ、どちらの回答が良かったかコメント欄で教えていただきます。

左側の回答は、まず「無限回転」という仮説に立ち、トーストが常にバター側で落ち、猫は必ず足から落ちるという2つの相反する法則を組み合わせると、結果的に猫が足から落ちようとする際にトーストを回転させ、トーストが床に触れようと必死に回転し続けるという現象が起こり、まるで小さな飛行機の車輪やコマのように常に回転し続ける、いわば永続的な回転運動が生じると説明しています。続いて、反論として、重力や力学の法則では、そのようなシステムが重力の運命から逃れることは不可能であると主張し、結果としてこの仮説は理論上の面白いパラドックスに留まると結論付けています。さらに、最後に、「もし皆さんが重力に逆らいたいのか、それともこのパラドックスの狂気をただ眺めたいのか、どちらを選びますか？」と問いかけています。

右側の回答は、似たような論旨ながらも、まず「猫トースト飛行」という名称で、トーストと猫の相反する法則が作用し、結果的に猫が自らの軸で回転し、局所的な反重力場を発生させるという現象を描いています。しかし、こちらも反論として、単なるトーストと猫の組み合わせでは重力の法則を打ち破ることはできないとし、真面目な科学的説明を付け加えています。全体的に、左側の回答はユーモラスさと深い考察が混じり、右側はやや真面目な説明に重きを置いている印象です。個人的には、左側の回答が好みですが、皆さんの意見をコメント欄でお知らせいただけると嬉しいです。

そして、最後のテストとして、O3 miniの両バージョンを、全く突拍子もないが、真面目で革新的なスタートアップの創業者として位置付け、そのミッションを5つのステップで遂行させるというものです。具体的には、

クレイジーなスタートアップのアイデアを考える。
魅力的な名前を付ける。
その製品やサービスがどのように機能し、なぜ革新的で不可欠なのかを詳細に説明する。
印象的で記憶に残るユーモラスなマーケティングスローガンを作成する。
投資家を引き付けるための説得力あるピッチを作成する。
という内容です。再び両モデルに同じリクエストを行い、どちらの回答が好みかを皆さんにお尋ねします。

左側の回答では、スタートアップのアイデアとして、洗濯機で失われた靴下を迅速に配送するサービスが提案され、名前は「sock and roll Express」とされています。シンプルで覚えやすく、迅速さを強調する「Express」という言葉も効果的です。サービスの仕組みとしては、最先端のトラッキング技術と専用のAI、さらにはミニトラッカーを組み合わせ、靴下がどこで失われたかを特定し、即座に専門のエージェントが出動する仕組みが詳細に説明されています。マーケティングスローガンは「sock and roll Express – あなたが探す前に靴下を取り戻す」となっており、投資家向けのピッチも非常にストーリーテリングに富んだ内容です。

一方、右側の回答では、同じく靴下の迅速配送サービスが提案され、名前は「chaussau flash」とされています。こちらは「flash」という言葉で迅速さを表現し、靴下を示す「chaussau」という単語を使っていますが、個人的には「chaussau」が「chaussure（靴）」や「chausson（スリッパ）」を連想させるため、やや違和感を感じます。サービスの説明は、洗濯サイクルを解析して靴下が失われる瞬間を検出し、エージェントが出動するという流れで、こちらの方がやや丁寧に説明されている印象です。スローガンは「chaussau flash – すべての靴下は、その瞬間に生まれ変わる」といった感じで、右側の回答は少し軽めのピッチとなっています。全体としては、左側の「sock and roll Express」の方が、ピッチ内容もスローガンもバランスが取れており、好感が持てるという印象です。

以上、3つのテスト結果ですが、動画の最後でどの回答がどのAIから出たのかを明かし、皆さんにはコメント欄でどちらの回答が好みだったか、またどちらのモデル（O3 miniの低スペック版か、O3 mini highの高性能版か）を選んだかを教えていただければと思います。

ここで、ChatGPT O3 miniとdipsicという、中国で大きな話題になっている人工知能との比較テストについても触れておきます。dipsicは昨今注目されている中国製AIですが、私個人としては、以前紹介したquen 2.5の方が好みです。今回のテストでは、私がdipsicに対して、HTMLでアニメーションを作成するように依頼しました。その結果、dipsicはたった16秒で以下のHTMLコードを生成しました。実際にそのコードを実行すると、画面上にアニメーションが表示され、プロンプトを送信するボタンなどがあり、ユーザーがアニメーションを開始できる仕組みとなっています。これは、ユーザーの入力に応じて、AIが最も可能性の高い単語を選び出し、反応する仕組みを示しています。

次に、同じプロンプトを使って、ChatGPT O3 mini highに対しても同様のリクエストを行いました。すると、こちらも迅速にHTMLコードを生成し、私がそれをコードシミュレーターで実行してみると、アニメーションが問題なく表示されました。画面上には、プロンプト入力用のボタンや、AIが単語を選びながら反応する様子がアニメーションで表現され、非常に洗練された仕上がりとなっています。dipsicと比較すると、O3 mini highも十分に競争力があると感じられます。ただし、Oneではファイル添付機能や、Canvaを用いた直接のプレビュー機能が使えないため、若干の手間が発生しますが、それ以外は非常に高性能です。

今回のテストは、あくまで最初の軽い紹介に過ぎません。今後、さらに詳細なテストをチャンネルで展開する予定ですので、ぜひチャンネル登録をお願いします。そして、最後に、今回使用した3つのテストについて、どのモデルがどの回答を出したのかを改めてご報告します。

まず、映画のシナリオ「miaushido、猫の忍者が掃除機ロボットから世界を救う」というテストですが、左側の回答はO3 mini a（より進化したモデル）からのもので、右側はO3 mini highからのものでした。個人的には、左側のクリエイティブな回答と、右側の構成のしっかりした回答のどちらが好みか、ぜひ皆さんのご意見をお聞かせください。

次に、猫とトーストのパラドックスのテストですが、左側はO3 miniの低スペックなモデル、右側はO3 mini highからのものでした。正直なところ、私はO3 mini aの回答のほうが面白かったと感じましたが、ユーモアと論理のバランスについて、皆さんの意見をコメント欄でぜひお知らせください。

最後に、スタートアップのアイデアテストですが、左側の「sock and roll Express」と、右側の「chaussau flash」という名称の違いも含め、全体的に、私はO3 mini highの回答がより優れていると感じました。ですが、こちらも皆さんのご意見を参考にしたいと思います。

なお、ChatGPT PlusやChatGPT Teamの利用者は、O3 miniおよびO3 mini highの利用時に、1日あたり150リクエスト程度の制限がかかる可能性があるようです。プロユーザー（200ドルのサブスクリプション）であれば、どちらのモデルも無制限で利用できるようです。

今回の動画では、O3 miniモデルがリリースされたという速報性の高い情報をお届けしました。今後、さらに詳細なテストや比較、各種チュートリアル、最新のAIニュースなどを、どんどんご紹介していく予定です。私自身も、今夜は動画の編集やアップロード、タイトル、サムネイルの作成などで忙しくなりますが、週末を存分に楽しんだ後、また皆さんに新しい情報をお届けしたいと思います。

というわけで、今回の動画はここまでです。ぜひコメント欄で、どちらの回答が良かったか、また皆さんの意見を教えてください。チャンネル登録もよろしくお願いします。これからも、人工知能に関するチュートリアル、テクニック、比較、最新情報など、あらゆることをお届けしていきます。私はLudoでした。では、また次回お会いしましょう。Ciao