O1 PROモード – 無制限の計算能力を持つChatGPT Pro（発表の詳細分析）

8,757 文字

OpenAIの12日間の第1日目が始まり、最初の発表がありました。そして、それは大きなものでした。O1が準備できたのです。動画を見て、私の反応を共有しましょう。
さて、ここにOpenAIチームのメンバーがいます。私が認識できるのは、明らかにSam Altmanだけですね。視聴を始めましょう。
「こんにちは、OpenAIの12日間へようこそ。私たちは、テクノロジー企業として初めての試みを行います。今後12日間、毎平日、私たちが開発した新しいものをリリースまたはデモンストレーションしていきます。素晴らしいものを用意していますので、今日から始めましょう。皆さんにきっと喜んでいただけると思います。」
ちょっと一時停止しましょう。あのステッカーを見てください。イチゴですね。これから始まる12日間に向けて、良い前兆だと思います。
「私たちは、これを楽しく、スピーディーに、そして長くならないように心がけます。私たちが取り組んできたものを皆さんにお見せする方法として、そして私たちからの小さなホリデープレゼントとしてお届けします。それでは、初日の内容に入りましょう。今日は実は2つのものをリリースします。1つ目は、O1の完全版です。私たちは懸命に取り組んできました。皆さんのフィードバックに耳を傾け、O1プレビューは気に入っているけれど、もっとスマートに、速く、マルチモーダルに、そして指示により忠実に従うものにしてほしいという声を聞きました。その他多くの要望もありました。そこで私たちは多くの作業を行い、科学者、エンジニア、プログラマーの皆さんに、この新しいモデルを本当に気に入っていただけると思います。簡単にその性能をお見せしたいと思います。」
そうです、これが大きなニュースです。O1の完全版が準備できました。もちろん、皆さんはより速く、より良く、よりスマートなものを望んでいます。はい、もちろん私たちも全てを望んでいます。彼が何気なくそれらを列挙するのは面白いですね。しかし、彼らは実際にそれを実現しています。見てみましょう。
これから、O1、O1プレビュー、GPT-4の3つの主要な高度なベンチマークに対する結果を見せてくれます。これは数学、コーディング、PhD レベルの科学に関するものです。彼の説明を聞いてみましょう。
「GPT-4からO1プレビューへの飛躍が、数学コンペティション、コーディング、GPT QA Diamond across全てで見られます。そしてO1はさらに大きな前進を遂げています。他の多くの面でも改善されていますが、生の知性は私たちが重視している部分です。特にコーディングのパフォーマンスは、多くの人々がモデルを使用している領域です。すぐに彼らがO1のデモをお見せします。速度、難しい問題への対処、マルチモダリティの性能などをお見せしますが、まず2つ目のリリースについてお話ししたいと思います。」
2つ目のリリースの話に移る前に、この大きな飛躍について見てみましょう。AIM 2024コンペティションの数学ベンチマークでは、GPT-4の13.4%からO1プレビューで56.7%、そしてO1で83.3%という massive jumpを見せています。正直なところ、O1がO1プレビューからこれほど大きなリープを見せるとは予想していませんでした。
唯一、ベンチマークで下がったのは、O1プレビューからO1へのPhDレベルの科学の質問でした。実際に少し下がっており、これはGPT-4からO1シリーズモデルへの最も小さなジャンプとなっています。しかし興味深いことに、専門家の人間でもこれらのO1モデルほどのスコアは出せません。思考モデルにおいて、また一つの大きな飛躍が得られたようです。
「現在、多くの人々がChatGPTのパワーユーザーとなっており、月額20ドルで購入できる以上の計算能力を望んでいます。そこで、新しい層としてChatGPT Proを立ち上げます。Proは私たちのモデルへの無制限アクセスと、高度な音声モードなどの機能を提供します。また、O1 PRモードと呼ばれる新機能も備えています。O1は現在、世界で最も賢いモデルですが、PRモードで使用されるO1はさらに優れています。最も難しい問題に対して、O1 PRモードはさらに良い性能を発揮できます。コンペティション数学やGPT QA Diamondでの向上が見られます。これらの改善は小さく見えるかもしれませんが、モデルの限界に挑戦する複雑なワークフローでは、かなり重要な違いとなります。」
ちょっと一時停止して、何が起きているのか理解してみましょう。まず、新しいサブスクリプション層を立ち上げています。これについては数ヶ月前から噂があり、私も報告していましたが、それが実現したようです。月額20ドルのプランがあり、今回新たに月額200ドルのプランが追加されます。価格は10倍になりますが、その代わりに全ての機能が無制限で使用できます。
さらに、ここで見られるO1 PRモードでは、テスト時の計算能力を増やしてスコアを向上させています。私の理解では、基本的にモデルにより多くの思考時間を与え、より多くの計算能力を提供しているのです。もちろん、より高額な料金を請求するのですから、より多くの計算能力を提供すべきですが、これは非常に印象的です。
実際、テスト時の計算能力がいかにスケーラブルであるか、そしてモデルのトレーニング後に新しいスケーラビリティのレバーを手に入れたことを示しています。私はこれが大好きです。とても刺激的ですね。続けて見ていきましょう。
「人々が本当に求めているのは信頼性です。ここでPRモードの回答の信頼性がO1と比較してどのように向上しているかが分かります。これはさらに大きな違いを示しています。私たちのProユーザーからは、これがとても重要だという声を多く聞いています。」
これは非常に興味深く、私自身もさらに研究する必要がある部分だと思います。モデルをベンチマークに対して実行してスコアを得る際、信頼性はベンチマーク自体に組み込まれているべきではないでしょうか。同じ質問を何度も繰り返して信頼性を確認する必要はないはずです。
私はいつも信頼性はベンチマークに組み込まれていると考えていたので、これは奇妙です。これらのベンチマークが実際にどのように機能するのか、もう少し深く調べる必要がありそうです。しかし、ここで見られるのは、より多くの回数実行すると、O1 PRモードの信頼性が大幅に高くなるということです。テスト時の追加の計算能力が実際に信頼性の向上に影響を与えているのです。
「ChatGPT Proは月額200ドルで、本日からサービスを開始します。この12日間で、皆さんにさらに気に入っていただけると思われる機能を追加していく予定です。無制限のモデル使用と、この新しいO1 PRモードを提供します。」
O1 PRモードのために月額200ドルを支払うべきでしょうか？コメントで教えてください。
「それでは、先ほど話した詳細なデモに移りましょう。こちらは、他の多くのチームメンバーとともにO1の開発に携わった方々です。」
「ありがとうございます、Sam。私はHungan、私はJason、そして私はMaxです。私たちはO1の開発に携わったリサーチサイエンティストです。O1は本日、全てのPlusユーザー、そして間もなくProユーザーとなる方々向けにChatGPTでリリースされ、O1プレビューに置き換わります。O1モデルは9月にリリースしたO1プレビューよりも高速でスマートです。リリース後、多くの人々がマルチモーダル入力について質問しました。そこで私たちはそれを追加し、本日リリースされるO1モデルは画像とテキストの両方を通じて推論することができます。」
彼らはこれをまるで大したことではないかのように、さらっと言及しましたが、O1がマルチモーダルになったことは、皆が待ち望んでいた最大のアップグレードの1つです。とても素晴らしいことです。
「Samが言及したように、本日私たちはChatGPTの新しい層としてChatGPT Proもリリースします。ChatGPT ProはO1、GPT-4などの最高のモデルへの無制限アクセスと高度な音声機能を提供します。ChatGPT Proには、O1 PRモードと呼ばれるO1の特別な使用方法もあります。O1 PRモードでは、最も難しい問題に対してさらに多くの計算能力を使用して、より深く考えることをモデルに要求できます。」
そう、まさに私が予想していた通りですね。基本的に「より多くの計算能力を与えてください」と言っているわけです。その限界が気になります。どの程度まで試験されているのでしょうか。1日、1週間、1ヶ月考えさせたらどうなるのでしょうか。とても興味深い考察です。
「私たちは、ChatGPT Proのユーザー層は、ChatGPTのパワーユーザー、つまりすでに数学、プログラミング、ライティングなどのタスクでモデルの能力の限界に挑戦している人々になると考えています。人々がO1プレビューをどれほど活用しているか、技術的な仕事に従事する人々がどれほどの恩恵を受けているかを見るのは素晴らしいことであり、彼らにさらなる可能性を提供できることを楽しみにしています。」
「私たちはまた、O1が必ずしも難しい数学やプログラミングの問題だけでなく、日常的な使用においても大きく改善されると考えています。特に、O1プレビューについて常に受けていたフィードバックの1つは、あまりにも遅すぎるということでした。『こんにちは』と言っただけで10秒も考え込んでしまうのです。私たちはそれを修正しました。」
「本当に煩わしかったですよね。正直、面白いくらいでした。本当に気にかけているように見えましたが、『こんにちは』と返すのにそれほど深く考える必要はないですからね。」
「そうですね。私たちはそれを修正し、O1は今や単純な質問には素早く応答し、本当に難しい質問には長時間考えるようになりました。このモデルに対して詳細な人間による評価を実施しましたが、O1プレビューと比較して重大な間違いを約34%減少させつつ、全体的な思考速度を約50%向上させることができました。これは皆さんにとって本当に顕著な違いとなるでしょう。」
「私は個人的にこれらのモデルと会話することをとても楽しんでいます。私は歴史マニアなので、これらのモデルに尋ねるような質問の簡単なデモをお見せしましょう。」
これは本当に素晴らしいアップデートですね。私自身、O1を複雑な使用ケース、本当に難しい問題、数学の問題、ロジックの問題を考える時にしか使用していません。しかし、彼らが本当にそれをより速く、より効率的に使えるようにし、これらの簡単な問題に対してどれだけの思考を投入するかという点でよりスマートにするなら、もちろん私はO1をより頻繁に使用するようになるでしょう。そう考えると、月額200ドルという価格設定も理にかなっているのかもしれません。
「ここで左側にO1、右側にO1プレビューがあります。私は単純な歴史の質問をしています。2世紀のローマ皇帝を列挙し、その在位期間と業績について教えてください。難しくはありませんが、GPT-4は実際にこれをかなりの割合で間違えます。」
これは驚きですね。GPT-4がこれを即座に、しかも正確に答えられるように思えるのですが。
「私はO1とプレビューの両方にこれを尋ね、オフラインでも数回テストしました。O1は平均してO1プレビューよりも約60%速く応答することがわかりました。これは少し変動する可能性があります。なぜなら、現在私たちはすべてのGPUをO1プレビューからO1に切り替えている最中だからです。実際、O1は約14秒考え、O1プレビューはまだ考え続けています。」
「ローマ皇帝はたくさんいますからね。」
「はい、GPT-4は実際にこれをよく間違えます。6日間、12日間、1ヶ月間だけ統治した人々がたくさんいて、時々それらを忘れてしまいます。」
「あなたは6日間だけ統治した人も含めて、全員を暗記できていますか？」
「いいえ。」
「では、ここにO1は約14秒、O1プレビューは約33秒考えました。デプロイが完了すれば、両方ともより速くなるはずですが、私たちは今すぐこれを公開したかったのです。」
「そうですね。このモデルとの会話を皆さんに本当に楽しんでいただけると思います。私たちの調査では、素晴らしい応答を提供し、はるかに速く考え、すべての人にとってより良いユーザー体験となるはずです。」
「日常的な使用ケースで人々が本当に望んでいたもう1つの機能は、マルチモーダル入力と画像理解です。Hunganがそれについて話します。」
これは私が本当に楽しみにしていたものです。マルチモーダルな理解がなければ、O1モデルは私の個人的な使用ケースではそれほど進展できません。
「私は手書きの図表を使って、この簡単な問題を作成しました。写真を撮ったので、ラップトップで見てみましょう。ChatGPTに画像をアップロードすると、クリックして拡大バージョンを見ることができます。これは宇宙のデータセンターのシステムです。将来、宇宙でAIモデルを訓練したいと考えているかもしれません。私はそうすべきだと思いますが、電力数値が少し低いですね。1ギガワットですが。」
「数値が低すぎますね。」
「はい、ここに太陽があり、このソーラーパネルで電力を取り込み、ここに小さなデータセンターがあります。まさにこのような感じです。GPUがあり、ポンプもあります。宇宙での運用で興味深いのは、地球では空冷や水冷でGPUを冷却できますが、宇宙には何もないので、この熱を深宇宙に放射する必要があります。そのために、この巨大な放射冷却パネルが必要です。この問題は、1ギガワットのデータセンターを運用するために必要な冷却パネル面積の下限を見積もることです。かなり大きくなりそうですね。」
「見てみましょう、どのくらい大きくなるか。」
「これが問題です。モデルに質問してみましょう。モデルは数秒間考えます。ちなみに、ほとんどの人は知らないと思いますが、私はHunganと長い間一緒に仕事をしています。Hunganは実は熱力学のPhDを持っています。AIとは全く関係ないのですが、今日までこのPhDの知識を仕事で活用できなかったと冗談を言っていました。」
「Hunganの分析は信頼できますよ。」
「ついに活用できる時が来ましたね。さて、本当にきちんと答えられるかどうか。モデルは10秒で考え終わりました。これは単純な問題なので、モデルがどのように解いたか見てみましょう。」
「入力電力について、まず、この1ギガワットは紙に書かれただけでしたが、モデルはそれをうまく拾い上げました。そして、私が言及した放射熱伝達のみという点、宇宙では他に何もないということ、いくつかの単純化された選択、そして重要なのは、私が意図的にこの問題を不完全な仕様にしたことです。冷却パネルの温度という重要なパラメータを省略したのです。これにより、モデルの曖昧さへの対処能力などをテストできます。」
「モデルはこれが未指定だが重要なパラメータであることを認識し、実際に適切な温度範囲（室温程度）を選択しました。そこから分析を続け、多くの計算を行い、そして… すごい！このような単純な問題から…」
「面積は242万平方メートルと判明しました。この大きさを実感するために言うと、サンフランシスコの陸地面積の約2%に相当します。これは巨大ですね。」
「そんなに悪くないですね。」
「そうですね、これは妥当です。残りの詳細は省略しますが、モデルは必要な面積を可能な限り小さくするために、一貫性のある適切な仮定を立てて素晴らしい仕事をしたと思います。これがマルチモーダル推論のデモンストレーションです。これは単純な問題ですが、O1は実際に非常に強力で、MMUUやMathVistaなどの標準ベンチマークでは最先端の性能を発揮しています。では、Jasonがプロモードを紹介します。」
「ChatGPT O1プロモードの短いデモをお見せしたいと思います。O1プロモードは、難しい数学、科学、またはプログラミングの問題で最も有用だと感じていただけるでしょう。ここに、O1プレビューが通常間違える、かなり難しい化学の問題があります。モデルに考えさせてみましょう。」
「これらの非常に難しい問題では、モデルは最大で数分間考えることがあります。この問題の場合、通常1分から最大3分程度考えます。そこで、モデルが考えている間、皆さんを退屈させないようにエンターテイメントを提供する必要があります。問題について少し説明し、もしまだモデルが考えている場合は、父親ギャグを用意していますので…」
「長い時間考えてほしいですね。」
興味深いことに、一時停止して言及しますが、このUI要素をまだ見たことがありません。進捗バーのようなもので、どれくらいの時間がかかるか事前に判断し、それを進めているようです。私がこの進捗バーのUI要素を見逃していたのかもしれませんが、個人的には初めて見ました。皆さんは見たことがありますか？
「問題の各基準は、モデルが思い出す必要のある、かなり化学分野に特化した知識を要求しています。この問題についてもう1つ知っておくべきことは、これらの基準のどれも正解を明らかにしていないということです。どの基準に対しても、その基準を満たすタンパク質が数十個存在する可能性があり、モデルは全ての候補について考え、全ての基準を満たすかどうかをチェックする必要があります。」
これはGoogleとそのAlphafold プロジェクトへの当てつけでしょうか？今やO1モデルでそれができるということを言っているのでしょうか？これは私の専門外なので確かではありません。教えていただけますか。
「モデルは今回の方が速かったですね。53秒で終わりました。クリックすると、モデルが答えに至るまでの思考プロセスを見ることができます。最初はニューロリアンなどの異なる候補について考え、そして正解であるレチノキシンにたどり着きました。素晴らしいですね。」
「まとめますと、Maxからは、O1がO1プレビューよりもスマートで速いことを、Hunganからは、O1が現在テキストと画像の両方で推論できることを、そして最後にChatGPTプロモードでは、最も難しい科学や数学の問題について、O1をさらに深く考えさせることができることを見ていただきました。」
「ChatGPT Proの層については、さらに多くのことが予定されています。モデルをさらに押し広げたい人のために、より計算集約的なタスクをより長く、より大きく実行できるよう取り組んでいます。また、Webブラウジング、ファイルアップロード、その他のツールをO1モデルに追加する作業も進めています。」
これは大きな進展になるでしょう。マルチモーダルと、Webブラウジングだけでも大きな進歩です。とてもワクワクしています。
「また、O1をAPIに導入する作業も懸命に進めています。開発者向けに、構造化された出力、関数呼び出し、開発者メッセージ、API画像理解など、新しい機能を追加する予定です。開発者の皆さんにとって素晴らしいモデルとなり、エージェント的なものを構築するための新しいフロンティアを切り開くと考えています。私たちが愛しているように、皆さんにも気に入っていただけることを願っています。」
「素晴らしいデモでした。ありがとうございます。チームの皆さんに、これを実現してくれたことを祝福したいと思います。O1とプロモード、またはプロ層を楽しんでいただけることを願っています。明日は開発者向けの素晴らしいものを用意しており、そこからさらに続けていきます。終わる前に、あなたのジョークを聞かせてもらえますか？」
「はい、今朝作ったジョークです。サンタが大規模言語モデルに数学の問題を解かせようとしていましたが、一生懸命プロンプトを与えても上手くいきませんでした。最終的にどうやって解決したと思いますか？」
「わかりません。」
「reinDEER-forcement learning（トナカイ強化学習）を使ったんです！」
[笑い]
「ありがとうございました。」
まさに父親ギャグでしたね。
さて、次の11日間で何が来ると思いますか？私個人的に非常に楽しみなのは、ブラウザのプレビューや、実際にWebを閲覧できるようなエージェントシステムです。Operatorが間もなく登場すると噂されているので、OpenAIがエージェントに代わってアクションを起こせるような何かを見せてくれることを本当に期待しています。
DALLIのアップデートも素晴らしいですし、SORAのリリースも驚くべきことでしょう。ただ、1週間前にリークされたとはいえ、それは来ないと思います。これらが私が最も楽しみにしているものです。
コメントで教えてください。皆さんは何を最も楽しみにしていますか？次の11日間で何を見たいですか？これらのビデオを全て取り上げ続けるべきでしょうか？
このビデオを楽しんでいただけた場合は、いいねとチャンネル登録をご検討ください。次回でお会いしましょう。