ChatGPTのO1ユースケースについて、何か変なことがある…

7,727 文字

みなさん、今日はO1モデルの実際の使用例についてお話しさせていただきます。まず、用途の90%は、皆さんのパソコンで動くどんなモデルでも対応できます。それから6～8%はGPT-4やその他の先端モデルで対応可能です。そして、最先端の知能が本当に必要なのは、わずか1～2%のケースだけなんです。それについて、この動画でご紹介させていただきます。
ちょっと変わった動画になりますが、舞台裏をお見せしましょう。もともとはOpenAIが公開したO1のデモ動画に対する単純なリアクション動画として始めたんです。すごく楽しみにしてて、皆さんと一緒に話し合いたかったんですけど、あることに気づいたんです。動画で紹介されてる各ユースケースをGPT-4で試してみたんです。いわゆる「考える」モデルとされるO1じゃなくてね。その結果をお話ししましょう。
基本的なことは飛ばさせていただきます。O1モデルが知能曲線上のどこに位置するかとか、リリースの話とかですね。これらは既にご存知かと思います。
ここでGPT-4モデルとO1モデルの違いを見せてくれます。GPT-4は質問に対して最初に思いついた応答をするだけですが、O1モデルは一旦考えて、出力して、その出力を振り返って、思考の連鎖を使って、最終的に正しいと判断した答えを出すんです。
彼女の説明を聞いてみましょう。「O1シリーズはGPT-4とはまったく違う働きをします。最も明確な違いは応答速度です。O1シリーズは、予測による応答から論理的な問題解決への変化を示しています。推論と呼ばれる思考能力があり、トレーニングを通じて思考プロセスを洗練させることを学びました。異なる戦略を試し、そのプロセスを通じて自分の間違いにも気づくことができるんです」
次にソリューションエンジニアリングチームのジョーが、O1モデルに含まれているものと含まれていないものについて説明します。含まれていないものとして、ツールのサポート、インターネットやブラウジングへのアクセス、カスタムGPTsがありません。また、コンテキストウィンドウも短いです。
明らかにこれらは近いうちに実装されるでしょう。ツールやブラウジング機能を備えたO1を想像してみてください。とてつもなく強力になるはずです。待ち遠しいですね。
OpenAIが考えるモデルの価値を生み出せる領域は以下の通りです：コンテンツ生成、ヘルプデスク、戦略、コーディング、研究、データ分析、翻訳、タスク自動化です。
では、O1モデルの追加された推論能力が特に役立つ分野について見ていきましょう。「今日、チームはコンテンツ生成からデータ分析まで、様々な有用なユースケースでChatGPTを使用しています。このリサーチプレビューを通じて、お客様から、O1シリーズは特に3つの分野で価値を追加することがわかりました：戦略、研究、コーディングです」
まず戦略についてですが、OpenAI O1プレビューは複雑な問題を段階に分解し、異なる解決策を検討し、そのプロセスをユーザーに説明することができます。これにより、ビジネスオペレーション、エンジニアリングなどの戦略開発において強力なアイデア創出パートナーとなります。
戦略について考えてみましょう。難しい問題や複雑な問題を考える際に、O1モデルは特に役立つと言われています。戦略は、質問をして明確な答えが得られるようなものではなく、むしろ論理と推論を使って可能な結果を考え抜く必要があるものです。
ビジネスオペレーションとエンジニアリングの例を見てみましょう。新製品投入、価格戦略、マーケティングキャンペーン、組織構造、サプライチェーン管理など、非常に複雑なユースケースがあります。エンジニアリングではクラウド移行、DevOpsの戦略などがあります。
O1モデルや高度な知能について、すでに何度も言っていることですが、95%のユースケースではO1モデルやその水準の知能は必要ありません。ただし、必要な場合のユースケースは非常に価値があります。O1モデルやその水準の知能が価値がないとは言っていません。ユースケースの範囲は狭いですが、それらのユースケースは極めて価値があるということです。
次にコーディングについてですが、O1 miniはコードの作成やエンジニアリングチームの関連タスクで特に役立ちます。コーディングは大規模言語モデルにとっても難しい問題の一つです。大規模言語モデルは上手くコードを書きますが、特に自分のコードを振り返ってユーザーに渡す前にバグを修正できれば、もっと良くなる可能性があります。
私がAIでコーディングをする時によくやるのは、何らかのメソッドを要求して、テストして、エラーを見つけて、それを貼り付け直して、うまく動くまでそのフィードバックサイクルを繰り返すことです。O1はそのサイクル全体を短縮します。実際にコードを実行はしていませんが、推論を実行してコードを生成する際にコードを確認しているのです。
新規プロジェクトの作成、スクリプトのフルスタックアプリケーション化、SQL生成、コードレビュー、モックデータの作成など、多くのユースケースに対応できます。
では実際の使用例を見ていきましょう。最初の例は戦略の例です。新しいオフィスをどの市場に建設すべきかを決めるオフィス拡張計画を任された状況を想像してください。これには明らかに多くの実世界の知識が必要なため、ChatGPT O1プレビューを使用します。
答えを得るために、O1プレビューにいくつかの文脈を与えました。ビジネスの種類、既存のオフィスの場所、現在の候補地、考慮してほしい点などです。ただし、見落としている可能性のある部分もあるので、比較的オープンエンドにしています。このような質問やタスクには考慮すべき点が多いため、O1プレビューは様々な側面を検討するのに素晴らしいパートナーとなります。
ちょっと一旦止めましょう。大規模言語モデルで個人的に最も素晴らしいと思うのは、そのようなパートナーシップのプロセスです。何かを尋ねて、プロンプトの表現が適切でないかもしれない、または必要な文脈をすべて含めて質問できていないかもしれないと気づき、モデルの応答を見て、必要なものが得られるまで何度も繰り返します。
O1モデルでもそれは可能ですが、レイテンシーがあるため、そのパートナーシップのプロセスには少し摩擦があるように思えます。
続けて見ていきましょう。ChatGPTに送信すると、最初に気づくのは思考と推論のプロセスを開始することです。これを展開すると、オフィス拡張計画を立てるための思考の連鎖の各ステップが見えます。
パリの市場潜在力について非常に詳細な情報を提供してくれますが、ベルリンなどの代替都市についても言及しています。後でまた戻ってくるかもしれません。また、特に求めた市場参入戦略やリーダーとしてのブランド価値の構築方法など、有用な情報も提供してくれます。
市場内の特定の顧客についても言及していて素晴らしいですが、この点で特に気に入っているのは、その市場での人材獲得やパートナーシップ・提携の構築など、追加の検討項目を提供してくれることです。財務計画やリスク分析にまで言及しています。考慮していなかったかもしれない多くの事項があり、O1プレビューを使って更に深く掘り下げることができます。
これを受けて、多くの顧客が使用している方法、つまりもう少し深く掘り下げてみましょう。ベルリンについて詳しく見てみましょう。
すぐに思ったのは、GPT-4モデルならどう対応したか、同じように良い結果が出たのか、それとも劣っていたのかということです。ツールやインターネットへのアクセスがあることはわかっていますので、モデルにとってはかなり単純な問題だと思います。同じくらい良い結果が出たと思います。実際にテストしてみましょう。
同じプロンプトを使ってGPT-4に試してみましょう。パリの利点として、人材プール、AIエコシステムの成長、政府のイニシアチブ、企業の状況、その他の考慮事項としてベルリン、アムステルダム、バルセロナ、パリの市場参入戦略が挙げられています。これはまさに同じくらい良い応答に見えます。
O1プレビューの出力と今得られた出力を比較すると、同じくらい良さそうです。このプロンプトにO1モデルは本当に必要なかったと確信していますが、続けて見ていきましょう。
では、ベルリンをオプションとして詳しく見てみましょう。前回と同様に、独自の思考と推論のプロセスを開始し、その潜在的な課題のあらゆる側面を検討します。
同じことをやってみましょう。ベルリンを潜在的なオプションとして詳しく見てみましょう。それを実行させておいて、続きを見ていきましょう。
次の例では、O1シリーズが特に最適化されている分野に切り替えたいと思います。それはコーディングです。
ちょっと止めましょう。戻って読んでみましょう。ベルリンについて、たくさんの情報がありますね。このユースケースにO1モデルは本当に必要なかったと思います。でもコーディングは違うかもしれません。見てみましょう。
このケースではO1 miniモデルに切り替えていることに注目してください。O1 miniはコーディング関連の課題に対して非常に高速で詳細な情報を提供できるように最適化されています。コーディングの課題や関連タスクに取り組む際のパートナーとしてこれが気に入っているのは、各部分について詳細なステップバイステップの説明をしてくれるからです。
このシナリオでは、Node.jsバックエンドとReactフロントエンドを使用して、新しいWebアプリケーションをゼロから作成するタスクを与えられたと想像してください。コンセプトには詳しいかもしれませんが、しばらく実践から離れていて、短期間で仕上げる必要があるとします。ChatGPTを使ってプランを立ててみましょう。
これを送信すると、最初に気づくのは、同じように思考を行いますが、推論と検討を行うスピードがはるかに速いということです。試しに全く同じプロンプトをGPT-4に与えてみましょう。
動画の残りを確認しながら再生を続けましょう。同じように思考を行いますが、推論と検討を行うスピードがはるかに速いということです。数秒考えただけですが、それは詳細さを損なうことはありません。むしろ反対に、このプロジェクトを実現するための各フェーズについて、非常に詳細な情報やウォークスルーが提供されています。
プロジェクトの概要からフロントエンドのセットアップ、アプリケーションの実行まで。そして、これを自分でも使ってみましたし、お客様が使用しているのも見てきました。各ステップの理解、必要なパッケージのインストール、ファイル構造の確認など、素晴らしいヘルパーとなっています。
非常に印象的ですね。では、ChatGPT-4の結果を見てみましょう。同じように、プロジェクト構造、初期化方法、必要なパッケージのインストール、コード、App.jsのコードがあります。実際にテストはしていないので、どのように動作するかはわかりませんが、同じくらい良さそうに見えます。
続けて見ていきましょう。多くの場合、これらを自分の環境にコピー＆ペーストしているだけですが、この段階で最も重要なのは、各ステップで何が起こっているのかをしっかりと理解できることです。スクロールを続けると、かなり豊富な情報量があることがわかります。
ここで強調したいもう一つのことは、Azureデータベースへの接続など、他の領域に掘り下げていく場合でも、その新しい課題を元のプロンプトに統合して対応できる素晴らしいパートナーとなることです。
ちょっと止めましょう。もう一度やってみましょう。Azureデータベースに接続してみましょう。O1 miniモデルは実際にとても速いです。目視での比較ですが、GPT-4モデルと同じくらい、あるいはさらに速いように見えます。おそらく時間帯によって変わるのでしょう。ここで必要なすべての情報を提供してくれており、ステップバイステップで実行方法を説明してくれています。
これがコーディングの部分ですが、ここまでのところO1は良さそうですが、絶対に必要というわけではなさそうです。研究のユースケースについて彼が何を言うか見てみましょう。
遺伝学の専門家ではないので、今日はその例は使いませんが、私は愛情深い犬の飼い主だと自負しています。愛情深い飼い主として、長く健康な生活を送らせる最善の方法を研究し理解しようとしています。それは通常、最適な食事を作ることによって実現します。
研究の専門家ではありませんが、ChatGPT O1プレビューを使って、最適な食事について更に学ぶ方法や、以前は考えていなかった分野についての洞察を得ることができます。研究者の方々がこれをどのように使用しているかで特に重要だと思うのは、研究の世界で時間のかかる面倒な作業の多くを自動化できることです。必ずしも斬新なAIイノベーションや新発明を生み出すわけではありませんが、それを理解し、新しいコンセプトを探求する分野を提示してくれます。
この動画を始めた時、彼らが示すすべてのユースケースをGPT-4で再現しようとは思っていませんでした。でも一度始めると、とても興味深いものになりました。この研究のユースケースにO1モデルが本当に必要かどうか見てみましょう。同じプロンプトを使って、どうなるか見てみましょう。
目標について、オメガ3脂肪酸が重要だということは知っていますが、他の検討事項についてもオープンに受け入れたいと考えています。そして、研究計画の作成などの単調な作業を支援してもらい、もし何か素晴らしいものが見つかれば、それを製品化して他の人々にも提供する方法についての洞察も得られるかもしれません。
これを送信すると、戦略の例と同様に、豊富な実世界の情報を取り込み、科学的能力と組み合わせて、最適な犬用食品を作るための詳細なステップバイステップのガイドを提供してくれます。オメガ3脂肪酸が有効だということは知っていましたが、これは即座に視野を広げてくれました。オメガ6脂肪酸とのバランスや比率について考えるようになりました。
ちょっと止めて、ChatGPTの出力を見てみましょう。基本的に同じ出力ですね。フィードバックの収集、製品ラインの拡大、すべてここにあります。O1モデルの出力を見てみましょう。
タウリンの使用、プレバイオティクスとプロバイオティクス、興味深いですね。私自身も摂取していますが、犬にも必要かもしれません。これらの分野について研究を進めることができます。また、テストと検証、規制コンプライアンスなど、実際の製品化に向けた各フェーズを展開してくれたのも良いですね。
自分で犬用食品ラインを立ち上げることは今のところ計画にありませんが、少なくとも愛犬により良い食事を与えるための道筋はわかりました。
ここでもまた、O1は本当に必要ではなかったと思います。GPT-4で十分に解決できたようです。
ChatGPTや一般的なLLMに詳しい方なら、これまで数学的な問題で苦戦してきたことをご存知でしょう。「strawberry」という単語にある「r」の数を数えるような単純なことでも、非常に難しかったのです。しかし、O1シリーズではそれが違います。
この例では、数学関連の課題に最適化されたO1 miniを使用して、カバードコールオプションを例に改善点をお示ししたいと思います。
まず免責事項として、ChatGPTは金融の専門家の代わりになることを意図したものではありません。また、株式市場のガイダンスや投資アドバイスとしても意図していません。しかし、これらの計算をどのように実行するかを説明する例として役立つでしょう。
株式市場の専門家でなくてもこれを理解できることが重要です。数学を含むどのようなスタイルのプロンプトでもChatGPTを使用でき、その応答が非常に正確だと感じられるということです。
この例では利益を最大化する方法を探していますが、数学に最適化されたO1 miniモデルを使用しているため、異なる課題について非常に速く推論を行います。
はい、LLMは伝統的に数学が苦手でした。O1モデルが数学が得意だということも私も確認しています。実際に何が起こるか見てみましょう。彼のバージョンでのO1 miniの出力を見ていると、より高速な推論速度にアクセスできるのかどうかはわかりませんが、驚くほど速いです。GPT-4よりも速いかもしれません。
株価が17ドルに上昇しても130,000ドルの利益は得られますが、追加の70,000ドルは逃すことになります。では、同じプロンプトをGPT-4に与えてみましょう。
GPT-4は明らかに遅いですが、最大利益は130,000ドルで、株価が17ドルに上昇した場合、16ドルで売らなければならないため、170ドルでの売却機会を失います。3ドルのプレミアムが機会損失の一部を相殺します。10,000株で70,000ドル、機会費用または潜在的な損失は70,000ドルです。
そこにあります、70,000ドル。再び、この動画で示されたO1の可能性を強調するユースケースのどれも、実際には必要ではありませんでした。この動画でO1モデルが不要だということを示すつもりは全くありませんでした。本当にそうではなかったのですが、今となってはそれが何を意味するのかわかりません。
ユースケースの大多数はこのレベルの論理と推論を必要としないということを、長い間言ってきたことが確実に裏付けられたと思います。必要なユースケースは確かに非常に価値がありますが、彼らが示した各ユースケースがGPT-4で再現できるのなら、なぜO1 miniに追加料金を払うのでしょうか？なぜO1 miniを使用するのでしょうか？
確かに私のベンチマークではGPT-4を圧倒し、数ヶ月前に初めてGPT-4をテストした時と比べてはるかに良くなっています。しかし、GPT-4も進化してきました。少なくとも大多数のユースケースでは、今や同等なのかもしれません。
これで動画のほとんどが終わりです。最後に2、3の事項について締めくくり、いくつかの顧客事例を紹介していますが、主な内容はここまでです。これらのユースケースのどれにもO1は必要なかったように思えます。
O1は依然として素晴らしいものです。推論時間やテスト時の計算という、LLMの新しいスケーリングメカニズムを解放し、スケーリングの新しいレバーを提供します。しかし、おそらく皆さんや私が必要とするほとんどすべてのことに対して、GPT-4は十分な能力を持っているのです。
この動画を楽しんでいただけたなら、いいねとチャンネル登録をお願いします。また次回お会いしましょう。