OpenAIチームが明かした次なる展開

4,375 文字

OpenAIが非常に興味深いウェビナーを公開しましてな。そこで01モデルの未来について語っとるんです。いくつかのグラフを見せてくれて、これからどないなっていくかかなり見えてきましたわ。
OpenAIがこういうウェビナーをするのは初めてやないんですけど、今回のは特に興味深いと思いますわ。新しいモデルシリーズがどこに向かっとるか見られるからです。
最近気づいたかもしれませんが、OpenAIが新しいモデル01をリリースしましてな。そうすることで、GPTシリーズとは別のモデルシリーズを作ったんです。
ここにあるグラフを見てもらえますか。これが私が言うとることです。GPT-4シリーズだけやなくて、01シリーズも、GPTシリーズもあるのが分かりますやろ。この2つのモデルシリーズが続けてリリースされていくんです。
これで新しいAIの時代に入ったってことですわ。今までのサイクルやったら、GPT-3.5、GPT-4だけやったんです。今、GPT-4.5の噂もありますけど、これはGPTシリーズの話やと。
これからは01シリーズとGPTシリーズの2つの別々のモデルクラスができるみたいです。一方は長時間考えて推論できるモデルクラス、もう一方は日常的に使える汎用的なモデルクラスです。01シリーズには素晴らしい使い道があるんで、これはすごく理にかなってると思いますわ。
このプライベートウェビナーでは、たくさんの使用例について話してましたけど、それはまた別の動画で話させてもらいます。モデルの能力って本当に面白いし、将来どうなるかって洞察は私もいつも興味があるんです。
OpenAIの製品チームと研究チームは深く統合されとるんです。この密接な連携があるから、新しいモデルがリリースされるたびに、ChatGPTに新機能や新しい能力が追加されていくんです。
皆さんもご存知やと思いますが、GPTシリーズの最新モデルはGPT-4です。先月、OpenAI1という新しいタイプのモデルシリーズもリリースしました。これからも両方のモデルシリーズでモデルをリリースし続けていきます。それぞれ全然違う問題や使用例を解決するのに役立つからです。
実際、多くのお客様が両方のモデルを使ってはるし、私たちも内部のプロセスや使用例で両方使ってます。
これはかなり興味深いことやと思いますわ。この古いグラフを見てもらえますか。モデルの知能が上がっていって、GPT-nextや将来のモデルって呼んでましたやろ。
これは注目すべきことやと思います。これからはモデルの知能が2つの時代に分かれるんです。この新しいグラフでは01シリーズがあって、そしてもちろんGPTシリーズもあります。
これから何年かで両方のモデルがどんどん賢くなっていきます。彼女が言うたように、もっと多くの能力が使えるようになるんです。これは将来のモデルのエージェント的な能力のことを言うとると思いますわ。
次に何が来るかについて話してた部分もあって、それがめっちゃ面白かったんです。
次に何が来るか触れてみましょう。これから何ヶ月かの間に、いくつかのモデルの更新をする予定です。新しいOpenAI1シリーズとGPTシリーズの両方で、モデルの開発とリリースを続けていきます。
モデルの更新に加えて、ウェブブラウジング、ファイルと画像のアップロード、その他の機能を追加して、ChatGPTでのユースケースでもっと役立つようにする予定です。
ほら、彼は言うてますやろ。OpenAIはこれらのモデルにいろんな機能を追加して、もっと面白くて能力の高いものにする計画やって。
多くの人が忘れがちなんですけど、私も含めてですが、GPT-4モデルは現存する中で最も能力の高いモデルの1つなんです。でも今のところ、特定のモダリティでしか使えてへんのです。
GPT-4の初期のトレーニング方法を思い出してください。オムニモデルとしてトレーニングされたんです。理論上はどんな入力でも受け付けて、どんな出力でも返せるようになってるんです。
これは皆の頭から抜けてしまったんです。GPT-4は最初からこれらの能力を持ってリリースされたわけやないから、他のことにも使えるって気づかんかったんです。
追加される他の機能は、おそらくこのウェブページに載ってるものやと思います。ちょっと見せますわ。
この「Hello GPT-4」のウェブページに行って、「Exploration of capabilities」ってとこまで下にスクロールしてください。これらのモデルが将来的に得る新しい能力がいろいろ書いてあるのが見えますやろ。
もちろん約束はできませんけど、これはGPT-4ができることとして見たものです。このモデルはいろんな入力と出力でトレーニングされてて、何でもできるようになってるんです。
探索された能力の中で、一番役立つと思うのはビデオ要約です。ユーザーがLLMのパフォーマンスを最大化するテクニックについてのプレゼンテーションのビデオを入力して、詳細な要約を求めてるのが見えますね。
面白いことに、これは45分のビデオなんですけど、出力がこのビデオ全体を要約できてるんです。普通の人にとってこの能力がどれだけ便利か想像できますか？この能力があれば。
まあ、普通の人が毎日これを使うわけやないと思いますけど、こういう能力を追加することで、幅広い使い方ができるようになるんです。
ビデオだけやなくて、GPT-4が近い将来得る可能性のあるものはたくさんあります。他のものも見てみましょう。
3Dオブジェクトの合成もありますね。入力は「下に示すOpenAIのロゴのリアルな3Dレンダリング」で、出力がそこにあります。そして、生成された6枚の画像から3D再構成もできてるんです。
画像を生成して、それらの画像を使って完全な3Dレンダリングをビデオ形式で生成できるモデルがあるって、すごいことやと思いませんか。
これが重要な理由は、多くの人がこれらのモデルに将来のビジネスやアイデアを賭けてるからです。これらのモデルが将来何ができるようになるか理解しておくのは大事やと思います。
ビジネスやコンテンツ作成、日常的な使用を計画しようとしてる人にとって、これらのモデルがどこで優れてるかを理解できるからです。
他のモダリティの例としては、もちろんオーディオがあります。頻繁にオーディオを扱う人にとっては、将来的にGoogleのGeminiだけやなくて、オーディオを入力できるモデルができる可能性が高いです。
現在このモデルは何時間もの映像を扱えるから存在してるんですけど、将来的にはOpenAIのGPT-4オムニモデルがこれらの機能を持つようになるみたいです。
1分間のオーディオ入力があって、誰かが「このオーディオには何人の話者がいて、何が起こったの？」って聞いてるのが見えますね。出力では、オーディオには4人の話者がいて、その内容を説明してます。
誰かがGPT-4に書き起こしを頼んでて、モデルが簡単に正確に書き起こしてるのも見えます。これは将来的にすごく便利になると思います。
いろんなファイルタイプやサイズがあっても、GPT-4/オムニモデルとすぐに連携して作業できるようになるからです。
もう1つ、ほとんどの人は使わへんと思いますけど、能力の探索としては面白いのが、1枚の画像を使って複数の異なるキャラクターシナリオでストーリーを作れることです。
ここではSallyっていう女性がいて、1枚の画像から複数の異なるシナリオでこのキャラクターを使えるのが見えますね。
簡単なプロンプトを入力するだけで、「あら、Sallyが転んで、犬が彼女を追いかけてる」って言うと、すぐにSallyが転んでる画像が出てきます。
そしてストーリーを更新すると、実は優しい犬やったってなって、Sallyが車で走り去ってるのも見えます。
これは多くのモデルが苦戦してることで、キャラクターの一貫性は多くの人が解決策を探してる問題です。OpenAI1が本当にこの問題を解決できれば、多くの人にとってすごくええことになりますわ。
このスライドを見直すと、ツールへのアクセスについても話してましたね。彼が言及してたのは、もちろんウェブ検索です。
これは私にはまだアクセスできへんのですけど、OpenAIの最近のツール、有名なSearch GPTを思い出させますね。これは基本的にPerplexityのオンラインツールと似てて、大規模言語モデルの力を使ってGoogle検索の高度なバージョンみたいなもので、もっと効果的にインターネット検索ができるんです。
Search GPTが今後数ヶ月でChatGPTにネイティブに統合されて、小規模なエージェントツールの使用と組み合わさって、もっと使いやすく自律的になるんやないかと思います。
今日でも同じ会話の中でモデルを切り替えられるんですけど、デモで見たように、ChatGPTが自動的に与えられたプロンプトに合った適切なモデルを選べるように取り組んでます。
これは動的モデルルーティングってやつですね。1つの完全なシステムがあって、モデル間を切り替えるんやなくて、普通にプロンプトを入力するだけで、システムがどのモデルにクエリを送るか選ぶんです。
例えば、ChatGPTに「3+3は？」って聞いたら、おそらくGPT-4 miniに送られます。これは最小で軽量で、簡単なクエリに最適なモデルです。
でも、「私のビジネスのこの10ステップの問題をどう解決すればいい？」って聞いたら、OpenAI1に送られて、そこでクエリが処理されます。マルチステップの推論が必要やって分かってるからです。
これによって、もっとシームレスな体験ができるようになると思います。
モデルのアップデートについては、すでにOpen 01のテストと評価を始めてます。これはこの研究プレビューの次のイテレーションです。
01プレビューと比べて、ユーザーはもっ
とパワフルな推論モデルを期待できます。コーディングと数学がさらに優れてて、これらの評価でも01が橙色のバーで表されてるのが分かります。
今日見たユースケースを基に構築されるので、01を顧客に提供できるのを楽しみにしてます。パワフルな推論能力でさらに多くのユースケースを開拓できる可能性があります。
OpenAIが計算を終えて、01の最終バージョンを出荷できるようになったら、今の01プレビューよりもさらに知的で賢くて能力の高いモデルが登場するみたいですね。
皆さん、これに興奮してますか？今日の動画では触れられへんかったけど、GPT-5にも期待してますか？OpenAIにはまだまだ提供できるものがたくさんあると思いますわ。