OpenAI o3の9つの驚くべき使用例

7,276 文字

https://www.youtube.com/watch?v=Sq0VCbGdRJU

現在、OpenAIの新しいモデルが登場し、これは絶対に革命的なものだと思います。普段もよく同じようなことを言いますが、今回のモデルは完全に異なります。この動画では、私が個人的に見つけた最高の使用例をご紹介します。これらは私の日常的なワークフローに取り入れているものです。
では早速、OpenAIのo3モデルのベスト使用例を見ていきましょう。この動画を始める前に明確にしておきたいことがあります。このモデルの限界を本当にテストしていくうちに私自身も理解したことです。現在のo3の制限の一つは、ChatGPT Plusチームまたはエンタープライズアカウントを持っていても、週に50メッセージしか利用できないということです。これは毎週o3で50メッセージだけということで、つまり1日約7メッセージしか使えません。
この動画を見ながら試してみるのはいいですが、やりすぎないでください。多くの人はPlusアカウントでもモデルの使用にはかなり低い制限があることを理解していません。その制限に近づくと、実際に通知が来るようになっています。
o3が実際にとても異なる理由、そしてこの動画での使用例が少し異なる理由は、o3が本質的にAIエージェントであるモデルだからです。これはもはや単なるLLMモデルではありません。彼らはo3を完全にエージェント的なものとして最初から設計しました。
これが、多くの人がこのモデルをAGI(人工汎用知能)と呼ぶ理由で、多くの人がこのモデルを使うとより成功している理由です。このモデルはより多くのことができるからです。あなたたちがこれらの使用例を見るとき、なぜこのモデルが特定のことをできるのか理解できるように、その前提を設定したかったのです。覚えておいてください、未来はエージェント的であり、私たちが向かっているのは、ほぼすべてのことができるモデルです。この動画では、o3がなぜ市場に出ている他のどのモデルよりもエージェント的であり、なぜあまり多くのメッセージを使えないのかが分かるでしょう。
現在最も人気のある機能の一つは、「高度な画像推論」です。彼らが「画像での思考」と呼ぶ機能をリリースしたことはご存知でしょう。基本的にこれは、画像を使って推論できるということです。「思考」とは難しい質問に対してより高い知性を持って答えられるようにするものです。ここでは高度な画像推論を持っています。
これは画像を見て、見えるものについて推論できるということです。ただ単に画像を見て即座に物を識別できるというだけではありません。実際には、さまざまな部分にズームインしたり、重要な詳細を見ることができるということです。
例えば、画像についての質問をモデルにするとします。モデルがするのは、その画像を一つとして分析するだけではなく、その画像を分解し、より多くの情報でその画像について推論します。モデルは見ているものについて考え、景色を見たり、太陽がどのように影を落としているかを見たり、その中の住宅を見たりするかもしれません。本質的には画像も分解します。
驚くべきことは、実際に正解したことです。Las Vegasと入力して、誰かがLas Vegasの写真を撮ったのを見て、それを正確に言い当てたのは驚きです。実際に推論過程をお見せしたいと思います。通常はこうした推論過程が表示されるはずですが、今回は表示されていないようです。通常、長く考えるときは非常に良い推論過程が表示されます。
これはTwitterで見つけたものですが、基本的に推論過程は画像をさまざまな方法で分析したことを示しています。画像のさまざまな部分にズームインし、「これらの山はあまり高くないようなので、私の推測を再考しています」といったように考えていることがわかります。
モデルができることは、他の画像検出ソフトウェアやビジョン機能を持つ他のモデルとは異なり、重要な詳細を本当に見分けることができるということです。これにより、場所について推測したり推論したりする際に、はるかに賢くなっています。
人々がやっていることの一つは、ランダムな画像を入力して、それがどこかを確認することです。これは「位置AGI」とも呼ばれるもので、実際にどこかという詳細がほとんどない画像を入れるだけで、単純に画像を分析します。
ここでは、何をしているかが正確に表示されています。これを展開すると、特定の方法で画像を分析していることがわかります。画像の分析方法についての考えを示しています。これが良いと思う理由は、何かの画像を分析しようとしている場合、それが場所に焦点を当てていなくても、何を見て何に注目しているかがわかるからです。
ここでは、画像のこの部分にズームインしているのが見えます。画像から情報を抽出し、その内部の世界モデルと照合することで、どこにあるものかを推論しているのがわかります。ここでウェブ検索もしていることがわかります。「これに基づいて、迅速な確認が必要です。確認するために、カリフォルニアシティのドローン画像を検索します」と言っているのがわかります。そして、この情報すべてを表で提供しています。
このようにエージェント的なモデルなのです。単に何かを尋ねると自分自身で推論するモデルではありません。画像を取り、ツールを使用してそれを変更し、自分自身で推論して「Googleで検索してみよう」と考え、表形式で情報を返します。これはまさに人間がすることであり、このモデルが非常に強力な理由です。現在のところ、おそらく最も過小評価されているモデルです。
高度な画像推論では、一部の人々はこれをパズル解決に使用しています。面白いことに、人々がやっているのはウォーリーをさがせパズルを解くことです。ビジネスユースケースではないかもしれませんが、画像について難しいことがあれば、リドルを解こうとしているか、写真で撮れる本当に難しいことがあれば、モデルにさせることができます。画像の周りをズームインして見回し、良い答えを与えることができます。
o3とOpenAIのモデルは、検索機能やDeep Researchなど複数の機能があるため本質的にかなり混乱しています。これらは標準のGPT-4oモデルで使用でき、もちろんDeep Researchもo3で使用できます。o3は基本的に自分でDeep Researchを行うよう指示されています。何かを調査したい場合、これはDeep Researchを提供しますが、はるかに迅速です。
もちろん、安い方がいいならDeep Researchを使いたいかもしれません。o3はDeep Researchよりもはるかに多くのことができますが、非常に迅速に調査レポートが必要な場合、これが最適な方法でしょう。
次に本当にクールなのは、Pythonやコードインタープリタにもアクセスできることです。画像上に物を配置することができ、物事について推論することができます。迷路を解くことができます。もっと使用例があると思いますが、これは私が見つけたもので、画像に描画できるのが本当にクールです。
この人は、o3を使用して200×200の迷路を一度で通り抜ける経路を見つけたことがわかります。もちろん解決策を二重にチェックする必要がありましたが、実際に機能します。
私自身もこれを試してみたかったので、やってみました。Googleからランダムな迷路を取得して、「この迷路を解いてください」と入力しました。出口がここにあり、入り口はここにあります。1分43秒考えた後、画像をどのように推論しているかがわかります。「境界を見ると、左の境界に太い端があるようです。ここにギャップがあるかもしれません」と言っています。
最終的に推論を重ね、入り口と出口を見つけることができました。最終的な画像で入り口がここにあり、左の境界にくっついて進んで、最後に出口に出るという戦略を採用しています。これは1分しかかからなかったのでかなり素晴らしいです。これにどのような使用例があるかわかりませんが、かなり創造的な使用例があると確信しています。これはより楽しい例ですが、それでも役立つ使用例として含めたいと思います。
もう少し実用的な使用例は、ビジネス分析です。Shopifyストアの合成データを取得して、「過去3年間のデータを分析して、歴史的な予測を提供してください」と言いました。
「私の友人が過去3年間オンラインでヴィンテージ衣料品を販売するShopifyストアを運営しています。データを見て分析し、見られるトレンドに基づく将来の予測や、アドバイスや洞察を教えてください。また、あなたの推奨事項に基づいた将来の予測チャートを作成してください」と言いました。
モデルはデータをインポートして、「複合年間成長率が約1.3%で、プラスですが大きくはありません」と言っています。季節性を見て、月次トレンドに焦点を当てるべきだと言っています。「データを深く掘り下げるために、3月や9月周辺のデータに焦点を当てるべきです」と言っています。基本的にはすべてのデータを分析しています。
そしてここで素晴らしいグラフが得られます。将来の予測が表示され、このグラフとよく一致しています。このグラフはゆっくりと上昇しているのがわかります。また、いくつかの良いアドバイスも得られます。
これは非常に有用です。履歴データ、予測データ、予測が始まるタイミングがわかります。「成長は遅いがプラス、ビジネスは安定しているが速く複合していない。具体的な目標を設定し、10%の年間成長率を追跡してください。3月、6月、9月に収益ピークがあり、1月、2月、夏半ばに減少があります。ヴィンテージ買い物客はフェスティバルシーズン、夏休み前に購入します…」と言っています。
これらのピークの6週間前に広告支出を集中させ、平均注文額を上げるための構築することを勧めています。これらはすべて、ビジネスをより効果的に運営するのに役立ちます。コンサルタントはこれに多額の料金を請求しますが、モデルにすべてのデータを与えて「チャートを生成して、それを見せてください」というのは本当に興味深いです。
ここでは24ヶ月の予測が示され、今すぐ実行する必要がある事項、そして可能性を高めるためのことが示されています。これは本当に興味深いです。いくつかの戦術的なヒントも提供されています。
o3ではさらに速いDeep Researchにもアクセスできることも紹介したいと思います。これと組み合わせて使用してみましょう。基本的にOpenAIはベンチマークで、Pythonとブラウジングを使用したo3がDeep Researchとほぼ同じパフォーマンスを得ることを示しました。ただし、一つの注意点があります。
動画の冒頭で述べたように、o3はDeep Researchよりもはるかに高価です。タブに戻ると、Deep Researchでは5月2日まで114回利用できますが、o3モデルでは週に50メッセージしか利用できません。もう少し節約する必要があります。
Deep Researchは少し長く、少し遅くなりますが、その情報を得たら、「これを見て、オンライントレンドを確認し、私のストアのために実行可能なことや、活用できる今後のことについての研究レポートを作成してください」と言うことができます。
これをモデルに与えると、考え始めます。この動画中にo3の使用回数が尽きないことを願っていますが、これはすべてデモンストレーション目的です。モデルは考え、推論し、答えを提供します。
このクイックリサーチを使用しましたが、Deep Researchは使用しませんでした。ウェブを検索し、いくつかの良い情報を提供してくれたことがわかります。多くのソースにアクセスし、「これらのトレンドとステップを要約するために」とまとめています。
思考を詳しく見ると、モデルが何に焦点を当て、どのように方向付けているかを本当に理解することができます。これを常に行うことをお勧めします。なぜなら、モデルをプロンプトするとき、私のプロンプトレンズが間違っていることがよくあるからです。つまり、特定の方向で考えていて、モデルが私のプロンプトを通じてまったく同じ方向で考えていない限り、良い応答は得られません。
ここでは、正しいレンズを持っていることがわかります。正しい方法で考えています。「ヴィンテージ衣料品などのトピックに直接関連する洞察をオンラインで検索します。すべてのトレンドがグローバルなので、場所は必要ありません。ファッションベースの詳細に焦点を当てることを避け、より広範なeコマーストレンドに集中します」と言っています。
そして、多くのデータが得られます。「TikTok ShopまたはInstagram Liveでの週間ライブストリームを実行する…36%増加」と言っています。これは実際に正しいです。「カタログをクロスリストする」など、多くの情報を提供しています。
これらは本当のことであり、非常に良い情報だと思います。「実施のためのクイックスコアカード」として、コスト、労力、期待されるブーストが示されています。ストアを運営している人なら、チームと一緒にこれを簡単に分解でき、次のステップが提供されています。「これらの高インパクト低コストの戦術」など、このようなことは本当に驚くべきことです。
モデルがこれを数秒でできることは、正直に言って未来は高いエージェンシーを持つ個人に属することになります。数秒でこれができるのは非常に驚くべきことです。この種の研究はDeep Researchよりも少し良くなるでしょう。これは私が使うものです。
また、o3が実際に得意とする奇妙なことの一つに創造的な執筆があります。なぜこれが得意なのかわかりませんが、実際に得意です。創造的な執筆V3というベンチマークがあり、これはLLMの感情インテリジェンスベンチマークです。明らかにo3のスコアはほぼ1位です。
これは非常に驚きです。なぜならこのモデルはツールを使用するエージェントとして設定されていますが、何らかの理由で創造的な執筆v3スコアで1位を獲得しています。GPT-4.5がそのモデルだと思っていましたが、何らかの理由で、創造的な執筆においては2つの推論モデルが1位にいるようです。おそらく質問の言い回しが理由かもしれません。これは非常に興味深いものです。
ここで明らかなことを言いますが、創造的な執筆にo3を使わないでください。非常に高価だからです。GPT-4oやDeepSeek R1を使用してください。これらははるかに安価です。一部の人々は依然として創造的な執筆を行っており、これは一部の人々が持ちたいと思う使用例かもしれないので、これを含めたいと思いました。この使用例を持つ人々のために理解しておいてほしいのは、o3が1位であるということです。しかし、はるかにコスト効率の良いオプションがあり、彼らがこのモデルを使用することを意図していたとは思いません。
o3にはいくつかの制限があり、モデルがどこに制限を持っているかを指摘することが重要だと思うので、ビデオに含めています。物事がどれほど良いかに夢中になり、かなり悪いものを見落とし、時には良い使用例を台無しにすることもあります。
画像での思考が本当に良いことがあっても、物を数えることはうまくいかないことがあります。交差点や線を見たり、物を数えたりすることができるのは、現在のLLMのビジョンモデルの強みではありません。これは明らかに1、2、3、4、5、6本の指があります。ここでは「絵文字は5本の指全てを表示しています。4本の指プラス親指で合計5本です」と言っています。
これはかなり頻繁に起こることであり、基本的に推論しすぎます。「5本の立ち上がった指プラス親指が見えます。それは6本の指になります。しかし、絵文字のスタイルによっては6本の指に見えるかもしれませんが、一般的には5本です」と言っています。基本的に通常は5本あるため、5本だと自分自身に思い込ませていますが、この例では6本あります。
ここでのポイントは、これは過剰な推論と幻覚です。ビジョンモデルはうまく見えないこともありますが、幻覚を見ることもあります。これは知っておく必要があることです。なぜなら、OpenAIがこのモデルとともに出した研究論文では、o3と04 miniといったより賢い推論モデルは、残念ながらより多くの幻覚を見ることがあると述べているからです。
このPerson QAベンチマークでは、LLMから幻覚を引き出そうとしたとき、04 miniは48%の時間で幻覚を見、o3は33%の時間で幻覚を見ました。これに対して01は16%でした。これらのモデルが使用されるタスクを考慮すると、これは比較的高い率です。
このモデルを使用する場合は、すべてを二重チェックしてください。多くの仕事をしているため、すべてを二重チェックしないと、数字がすべて完璧であることを確認する必要があるため、かなり不利な立場に立つかもしれません。時間を節約するはずのものを事実確認しなければならないのは少しイライラするかもしれませんが、間違いが許されない業界にいる場合、これは交渉の余地のないものです。
これらのモデルは幻覚を見ることが知られており、特定のことに直面したときに基本的に嘘をつくことができるほど多くの幻覚を見ます。o3は基本的にコードを実行することについて嘘をつきました。それについては別の動画全体で扱いました。
これらの使用例を楽しんでいただければ幸いです。日常的にどのように使用しているか知りたいと思います。次回の動画でお会いしましょう。


投稿日

カテゴリー:

投稿者:

タグ:

コメント

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です