OpenAI DevDay 2024 | ウェルカム + キックオフ

15,198 文字

OpenAI DevDay 2024 | Welcome + kickoff

Dive into the latest AI advancements including Reasoning and Realtime

こんにちは。[拍手]
皆さん、こんにちは。2回目のDevDayへようこそ。[歓声と拍手]
まず、昨年と比べて少し違う点にお気づきかもしれません。私はSamではありません。GPT-5の発表もしませんが、今日は皆さんのためにとてもエキサイティングな内容を用意しています。私はOlivierです。
OpenAIのAPIプロダクトチームを率いています。今日は私たち全員がPCから離れ、朝からバシバシ叩いていたボックスから離れて、一緒に時間を過ごす特別な機会です。びっしりとスケジュールが詰まっています。ブレイクアウトセッション、OpenAIチームによるデモンストレーション、そして私が特に楽しみにしている新しい開発者コミュニティのトークがあります。
すべてはOpenAIチームと皆さんが交流する機会を提供するために企画されています。まず、なぜDevDayを開催するのか、なぜ開発者プラットフォームを持つのかについてお話ししたいと思います。OpenAIのミッションは、人類全体に利益をもたらすAGIを構築することです。そして開発者の皆さんはそのミッションにとって極めて重要です。簡単に言えば、皆さんなしには私たちはこれを実現できないのです。
皆さんは誰よりも早く未来を目にし、それを実現せずにはいられないのです。4年前、私たちはGPT-3を訓練しました。GPT-3で何かすごいものができることは分かっていましたが、それが実際に何に使えるのか、現実世界でのユースケースが何なのかはわかりませんでした。そこでAPIを構築しました。
APIの目的は、この技術で何ができるのかを皆さんに探ってもらうことでした。結果として、GPT-3でかなりのことができることがわかりました。マーケティングコンテンツの作成、言語翻訳、さらにはチャットボットの構築まで。振り返ってみると、GPT-3の機能は非常に限定的でした。ツールのサポートもなく、幻覚も頻発し、レイテンシーも非常に遅かったです。
今日に至るまで、AIはGPT-3の時代と比べて全く異なるものになっています。かつてないほど多くのAIモデルが存在し、より多くのAIアプリケーションがプロトタイプから本番環境へと移行し、新しい開発者たちが毎日モデルの限界を押し広げています。
私はとても感動しています。現在、200カ国以上で300万人の開発者がOpenAI上でアプリケーションを構築しています。昨年のDevDayと比較して統計を確認したところ、OpenAI上で構築されたアクティブなアプリケーション数は3倍になりました。皆さんの参加に感謝します。私たちもOpenAIでかなりの数のものを構築してきました。
この1年間で100以上の新しいAPI機能をリリースしました。構造化された出力、バッチAPI、モデルの新しいファインチューニングサポート、新しいプレイグラウンド、エンベディングなど、さらに多くの機能を追加しました。新しいモデルもリリースしました。新しいGPT-4oと4 miniを導入し、知性とコスト効率の両面で限界を押し広げました。
そして私たちは減速していません。これから20分間で、OpenAIの4つの重点分野についてお話しします。まず、最高クラスのフロンティアモデルについて説明します。次に、より強力なマルチモーダル機能を構築します。第三に、より深いモデルのカスタマイズを可能にします。
最後に、OpenAI上でどのようにさらに簡単にスケールできるかについてお話しします。まずはモデルについて説明しましょう。2週間ほど前、私たちは複雑な問題について推論できる最初のモデルシリーズであるo1を世界に紹介しました。ちょっと手を挙げてもらえますか、この2週間でo1を試した人は何人いますか？満席ですね？素晴らしいですね。
会場には早期採用者だけが集まっているようですね。ご存知の通り、o1には2つのバージョンがあります。1つ目はo1-previewで、これは間もなくリリース予定の大規模なo1モデルのプレビューです。o1-previewは、世界で最も強力な推論モデルと考えることができます。o1-previewは、長い思考プロセスを必要とする本当に難しい問題を解決するように設計されています。
これがo1-previewです。2つ目はo1-miniです。o1-miniは、より小型で高速、低コストなo1のバージョンです。o1-miniは、コードのデバッグやエージェントアプリケーションの構築に最適です。o1-miniは一般的に、コーディング、数学、科学的推論が得意だということがわかっています。でも、推論とは一体何を意味するのでしょうか？推論は人間にとってとても自然なものなので、時にはそれを言葉で表現するのが難しいこともあります。
そこで、分解して説明させてください。推論とは、モデルが信頼できる思考の連鎖を持つ能力です。モデルは応答する前に段階を踏んで考えます。モデルは質問の異なる意味について考え、応答する前に答えを熟考します。では、ChatGPTでの思考の連鎖の具体例を見てみましょう。
詳細には立ち入りませんが、これは本質的に、かなりの論理的推論を必要とする脳のティーザーです。ご覧の通り、モデルは問題について方法論的に推論します。問題の各行、各文を考え、答えが私の質問のすべての要件を満たしていることを確認してから回答します。
さて、おそらく最も一般的な質問だと思いますが、o1という名前は一体何なのでしょうか？推論への移行は、AI機能の新しい形を導入します。モデルが思考プロセスをスケールアップし修正する能力は、本当に驚くべきものです。そこで私たちは時計をリセットし、o1という名前の下で新しいモデルシリーズを導入することにしました。
しかし、いくつかの顧客の例を見てみましょう。私たちの顧客の何社かがo1をテストし、自社のユースケースで何ができるか確認しました。まず、Cognitionについてお話ししたいと思います。Scott、Scottが見えますね。CognitionはDevinを開発しており、AIソフトウェアエージェントでo1をテストし、o1がどれだけ正確にコードの計画、作成、デバッグができるかを確認しています。
Cognitionの創業者であるScottからもっと詳しく聞いてみましょう。
「はい、私はScott Wuです。Cognitionのジェネラルマネージャーで共同創業者です。プログラミングの面白いところは、この50年間で何度も形を変えてきたということです。コードを1行1行書くことができるのは一つの側面ですが、ログを理解して解釈したり、実際に世界に影響を与えるコマンドを操作して実行したりすることも、プログラミングの重要な部分です。
この新しいモデルo1は、より人間らしい方法でプロセスを処理し決定を下すことができます。私たちはOpenAIと密接に協力して改良を重ね、フィードバックを提供し、テストを行いました。そして、o1がこの種の推論において信じられないほど優れていることがわかりました。Cognition AIでは、最初の完全に自律的なソフトウェアエージェントであるDevinを開発しています。
つまり、Devinはゼロからタスクを構築し、ソフトウェアエンジニアと同じ方法で問題に取り組むことができるということです。実際、ここでDevinに、このツイートの感情を分析し、いくつかの異なるMLサービスを使ってそのまま実行し、この特定のテキストを分解して感情を理解するように頼みました。
まず、Devinはこの問題にどのようにアプローチするかの計画を立てます。はい、そしてここで、ブラウザからの取得に問題があったので、代わりにAPIを通じてツイートを取得することを決定しました。このような小さな決定は、常に発生します。
最終的に、これを最後まで実行できました。このツイートの主要な感情は幸福であると述べています。プログラミングの本質は常に、アイデアを現実に変える能力でした。そして今、それをこれまでよりもはるかに速く、クリーンに実行できるようになりました。」
それは本当にすごいですね。
2つ目の例として紹介したいのはCasetextとThomson Reutersです。彼らはo1を使用してAI法律アシスタントを開発しています。法律のような専門分野では、ニュアンスと精度が極めて重要です。一つ一つの言葉が重要です。実例を見てみましょう。ここでは、AIの法律アシスタントに法的文書の正確性を確認するよう依頼しています。
左側が4、右側がo1です。ご覧の通り、4は文書に誤りがないと主張していますが、これは不正確です。一方、右側のo1は、neitherやnorのような非常に具体的な言葉に注目しています。これらは法的文書の意味を完全に変えてしまう重要な言葉です。このように、o1モデルは文書内の小さいけれど重要な誤りを見つけることができます。
推論について何時間でも話し続けることはできますが、ライブデモを見る方がより楽しいと思います。次に、開発者体験の責任者であるRomanに、o1が実際に何ができるかを示してもらいましょう。Roman、どうぞ。
「ありがとう、Olivier。皆さん、おはようございます。皆さんにお会いできて素晴らしいですね。この2週間で、皆さんがo1で作成した信じられないようなプロジェクトに圧倒されています。難しい問題に取り組むことから完全なアプリケーションの構築まで。そこで、ここでiPhoneアプリをゼロから作成してみたらどうかと思いました。
国際宇宙ステーション（ISS）追跡アプリのアイデアを持っています。あのー、全部読む前に…ちょっと長いので、ChatGPTデスクトップにコピーして送信してみましょう。左側に空のXcodeプロジェクトを開いています。ここで私が構築しようとしているものを見てみましょう。このアプリは、『ISSマップを作成したい、リアルタイムで追跡したい、宇宙飛行士の情報を取得したい』など、多くの細かい詳細を含む複雑なプロンプトを示しています。
これがFOGOとどう違うのか疑問に思うかもしれません。この場合、o1は基本的に計画を立て、必要な構造を設計し、アーキテクチャを準備し、最終的にどのAPIを使用するかを見つけ出そうとしています。
時間を節約するために、実は私はo1に全てを1つのファイルにまとめるように指示しました。このファイル全体をコピーしてプロジェクトに持ってこれるはずです。これは実際のライブデモです。これが常に課題であり、難しい部分です。何が起こるかわかりません。
このアプリを私のiPhoneで直接ビルドしてみましょう。ビルドします。私の電話を舞台に映してもらえますか？見てみましょう。ゼロショットです。そしてここで素晴らしいのは、はい、ISSが意図した通りに動いています。2番目のタブに移動すると、宇宙飛行士の情報も機能しています。
続けることもできますし、o1に次に何を構築すべきか聞くこともできます。これは基本的に私の思考のパートナーになることができます。ここで本当に素晴らしいのは、o1があなたのビジョンをすぐに理解してくれる誰かのような存在だということです。複雑な指示を受け取り、全体を設計することができます。たくさんの素晴らしいアイデアがあります。
実は、2番目のアイデアが気に入っています。時間があれば、ARビューを構築したいと思います。とにかく、これは素晴らしいですね。でも、コーディングは新規から始めるよりも、既存のコードベースで作業することの方が多いですよね。そこで、もう少し高度なものに挑戦したいと思います。Telloと呼ばれる小さなドローンとインターフェースを取る週末プロジェクトを用意しました。これで遊びたいのですが、実は今までこれをプログラムしたことがありません。Reactでウェブインターフェースを準備しましたが、それが全てで、正直どこから始めればいいのかわかりません。これがまさにo1-miniが活躍するところです。
o1-miniがAPIにあることの素晴らしい点の1つは、お気に入りのツールから直接使用できることです。今回は、Cursorを使用してみましょう。ここにプロジェクト全体を開いています。バックエンド、フロントエンド、すべてのReactコンポーネントがあります。右側にチャットがあります。もう少し拡大して見やすくしましょう。
このプロンプトを用意しましたが、高レベルで何が起こっているかを説明すると、フロントエンドはありますが、現時点でバックエンドは全くありません。そこでo1-miniに、「このドローンとJavaScriptでインターフェースを取りたい。いくつかのコマンドラインを用意した」と伝えています。
ちなみに、以前o1と一緒にカメラストリームのフォーマットを見つけるための作業を始めました。これはo1との私の「アハ」モーメントの1つで、正しいFFmpegを見つけ出してくれました。それは1つのファイルに保存されています。今、このプロンプトをo1に送信すると、数秒で計画を立て、アプリの欠落しているすべてのピースを配線しようとします。
ここでフロントエンドを見てみましょう。これが先ほど見たものですが、サーバーは完全に空っぽです。まだ動作していないからです。数秒で、これは完全にライブですが、o1-miniが何を考え出すか見てみましょう。さて、何を出力したのでしょうか？基本的に、サーバー全体を作成してくれました。
これはいいですね。コピーしてみましょう。他に何が足りないでしょうか？完璧です、次に進みましょう。NPMパッケージはすでにインストールしてありました。コマンドインターフェースを見てみましょう。すごいのは、WebSocketコードをすべて追加したことです。これを見てください。ここでこれらの変更を適用してみます。
そして今、インターフェースにあるすべてのボタンを正しいフォーマットで適切なコマンドにワイヤリングし、ドローンに送信しています。これが動作することを願っています。見てみましょう。これらの変更を受け入れます。他に何がありますか？サーバーを起動するだけだと思います。
これはすでに完了しています。これは追加です。よし、次に進みましょう。大丈夫だと思います。保存しましょう。ターミナルに移動してサーバーを起動します。まず、実際にドローンが発信しているWi-Fiネットワークに接続する必要があります。ここにありますね。いいですね。
ここに置いて、何が起こるか見てみましょう。うまくいくことを祈りましょう、テストする時が来ました。ここに行って、作成したばかりのサーバーを起動します。いいですね。UIを見てみましょう。もし…いいニュースです、バッテリーレベルが表示されました。ビデオストリームを開始しましょう。
動きましたか？素晴らしい！さて、実際の操作を試してみましょう。いいですね、ボタンが動作しています。素晴らしい。もう少し高く上げることができます。ドローンセルフィーを撮るいい機会ですね。すごい。そして着陸できます。素晴らしい。[歓声と拍手]
とても素晴らしいと思いませんか？このドローンを扱った経験は全くありませんでしたが、o1-miniがUDPパケットを使用した低レベルのコードを設計し、WebSocketsを使用して私のフロントエンドとReactコンポーネントを接続してくれました。
推論により、私たちは本当に新しいパラダイムに入りつつあります。皆さんがo1を使って、自分たちの課題に取り組み、ユーザーの問題を解決するのが待ちきれません。ありがとうございました。Olivierに戻します。[歓声と拍手]
「ありがとう、Roman。素晴らしかったです。そしてこれはo1ができることのほんの初期プレビューに過ぎません。
ここ数週間で、すでにo1のレート制限を3回引き上げました。そして今日、さらに引き上げます。現時点でレート制限を2倍にします。」
「はい、実施されました。」
「この時点で、o1のレーティングはGPT-4oと同等になりました。スケーリングを楽しんでください。今日、o1へのアクセスをまだ持っていない何人かの方とお話ししました。
そして今から、会場の皆さん全員にo1へのアクセスが正式に許可されました。楽しんで、何ができるか探求し、ご意見をお聞かせください。私たちはo1の開発を続けていきます。そして近い将来にリリースしたい機能がいくつかあります。関数コーディング、構造化された出力、システムメッセージ、画像サポートなど、さらに多くの機能があります。
o1は非常にエキサイティングです。o1を直接テストした方なら、これがGPT-4oの単なる置き換えではないことはお分かりでしょう。ある意味で、o1は4oよりも遅く、コストもかかります。そして初期のテストからすでに見えてきているのは、最高のAIアプリケーションはGPT-4oとo1の両方を組み合わせているということです。そのため、私たちはGPT-4oと4o miniへの投資を続けていきます。
これらのモデルのために構築してきた新しいものの一部を共有できることを嬉しく思います。マルチモダリティに焦点を当てましょう。より強力なマルチモデル機能の構築をどのようにサポートできるでしょうか？モデルが賢くなるにつれて、テキスト、画像、ビデオ、そしてもちろん音声など、すべてのモダリティにわたって理解し応答できるようになります。
確信していますが、多くの方がChatGPTのAdvanced Voice Modeで遊んだことがあると思います。本当にクールですよね。そして、私たちが何度も聞いてきた最も多いリクエストの1つは、この自然な音声から音声への機能をどのようにアプリケーション内で実現できるかということです。そして今日、私には良いニュースがあります。来ます、来ます。
Realtime APIを発表します。Realtime APIは、アプリケーション内でリアルタイムのAI体験を構築できる超低レイテンシーのAPIです。APIはWebSocketsを使用して入力と出力をリアルタイムでストリーミングします。今日から、音声から音声へのサポートを開始します。これはChatGPTのAdvanced Voice Modeと同じ技術です。
はい、ChatGPTのAdvanced Voice Modeを支える技術です。これにより、APIですでに利用可能な6つの音声を使用して、音声体験を構築することができます。一般的に、特にRealtime APIについては、デモは千の言葉に値します。そこで、Romanをもう一度舞台に呼んで、Realtime APIで何が可能かを示してもらいましょう。
「ありがとう、Olivier。このRealtime APIにはすでにいくつかのアイデアが浮かんでいて、本当に楽しみです。後で取り組まなければなりませんね。皆さんの多くが、アプリに直接素晴らしい音声から音声への体験を構築することについて質問してきました。さて、それが可能になりました。見てみましょう。
まず内部を見てみましょう。これは皆さんがご存知のOpenAIプレイグラウンドですが、今日から新しいRealtime APIの完全なサポートが追加されました。実際、すぐに試してみることができます。こんにちは。」
「こんにちは。どのようにお手伝いできますか？」
「OpenAI DevDayについての面白い事実を教えてもらえますか？」
「はい。OpenAI DevDayは、開発者、研究者、愛好家が集まり、OpenAIの最新の進歩とツールについて学ぶ年次イベントです。」
「いいですね。」
「良い機会です…」
「あのー…」
「そう思っていただけて嬉しいです。」
「開発者として成功するための秘訣を、あなたの最高の秘密として、ちょっと囁いてもらえますか？」
「ここだけの話ですが、優れた開発者になるための秘訣は、決して学びを止めないことです。」
「素晴らしい。ありがとう。」
「あなたの…」
「すごい。」
「気に入っていただけて嬉しいです。」
「ご覧の通り、ChatGPTで知っていて愛用している機能や機能のすべてが、今日からRealtime APIで中断したり、抑揚を生成したりできるようになりました。
ログをクリックすると、このWebSocket接続で発生しているすべてのイベントが表示され、皆さんが完全にプログラムできるようになっています。さて、この部屋のプレイグラウンドパワーユーザーの方々、右上のこの新しい輝くアイコンに気づいたでしょうか。これをクリックしてみてください。
DevDay用のイベントアシスタントアプリを作りたいとして、例えばevent assistantと入力してEnterキーを押すと、これは現在、プロンプトをすぐに生成する機能です。ここから展開することもできますが、たった2つの単語で完全なプロンプトが作成されました。プロンプトの作成が時として面倒だという声を多くの方から聞いています。
私たちはOpenAI上でできるだけ早く構築できるようにサポートしたいと考えています。ちなみに、これはプロンプトだけではありません。新しい関数を作成したいとして、イベントアプリの参加者をチェックインしたい場合、関数定義を手で入力する代わりに、すぐに使えるものがあります。
これはとても便利で、JSONスキーマにも対応しています。素晴らしいですね。では、このRealtime APIで何が構築できるのかの具体的な例を見てみましょう。そのために、昨年のDevDayからお気に入りのフィクションの旅行アプリ、Wanderlustを再び登場させましょう。会場に多くの顔見知りの方々がいらっしゃって嬉しいです。
私たちと共に旅をしていただきありがとうございます。覚えているかもしれませんが、昨年はこのアプリを使って、テキストによる会話でアシスタントを構築する方法をお見せしました。ここでSFと入力すると、これがテキストを使用したデモでした。すぐに更新してみましょう。」
「サンフランシスコです。何をお手伝いできますか？」
「最初に気づくのは、声が話しているということです。実際、Realtime APIをWanderlustに統合するコードも入れ込みました。そして今、音声アシスタントを有効にするために切り替えをクリックできます。
試してみましょう。ロンドンとシンガポールでOpenAI DevDayのための旅行を計画しています。」
「了解しました。OpenAI DevDayのためのロンドンとシンガポールですね。何をお手伝いできますか？」
「ロンドンで食事ができる場所をいくつか推薦してもらえますか？」
「もちろんです。美味しい場所をご紹介しましょう。Dishoom、Sketch、Duck & Waffleは必見のレストランです。」
「いいですね。ホテルの推薦もしてもらえますか？川沿いのストランド地区あたりを考えています。」
「もちろんです。ストランド地区では、ザ・サヴォイ、ME London、ストランド・パレスが素晴らしい選択肢です。素敵な滞在をお過ごしください。」
「いいですね。でももう少しこじんまりとしたところを考えていたのですが…」
「はい、もう少し手頃な価格帯のホテルをお探しですね。ストランド地区では、Z Hotel Strand、Hub by Premier Inn、The Strand Continentalがおすすめです。」
「素晴らしい。ここで2つ強調したい点があります。1つ目は、左側でリアルタイムの会話の完全なトランスクリプトが進行中に表示されていることです。これはウェブサイト上で接続時にすぐに利用できます。
そして画面の右側では、ご覧の通り、Realtime APIは関数とツールとAPIをサポートしています。つまり、任意の関数に接続する機能があります。この場合、私にとってはマップに注釈を付け、ピンポイントを配置するなどでした。そのため、Realtime APIを使用するのが好きになると思います。
そして、例えばユーザーが運転中、学習中、料理中、または他のどんな状況でも、同様に喜んでもらえると思います。でも、もう少し難しいことを試してみましょう。このインターフェース以外に、音声アシスタントに追加の機能を与えることができたらどうでしょうか？これを更新して、別の種類の会話に戻ってみましょう。
「サンフランシスコへようこそ。どのようにお手伝いできますか？」
「フォートメイソンを見てみましょうか？」
「はい、フォートメイソンです。そこで何かお手伝いできることはありますか？」
「ここに数百人の素晴らしい開発者がいるので、少しスナックが必要かもしれません。この周辺にチョコレートショップはありますか？」
「もちろんです。ギラデリスクエア、イランズストロベリー、ザ・キャンディストアがあります。」
「素晴らしい。この3つの場所についてもう少し詳しく教えてもらえますか？」
「詳細を表示しています。ギラデリスクエアは象徴的なサンデーを提供しています。イランズストロベリーレーンではおいしいチョコレートがけいちごを、ザ・キャンディストアは昔ながらのお菓子を提供しています。どうぞお楽しみください。」
「素晴らしい。ご覧の通り、ツールを使ってリアルタイムで詳細を取得する別の例です。Realtime APIで関数とツールを呼び出せる本当に素晴らしい点は、サードパーティのAPIを実際に呼び出せることです。例えば、TwilioのAPI通話機能をWanderlustに追加するとどうなるでしょうか。
イランズストロベリーの場所がAI注文を受け付けているようですね。そこで、これをライブで試してみましょう。開発者体験チームからイランをステージに招いて、実際に見ていただきましょう。ありがとう、イラン。では、先ほど始めた会話を再開して、ライブで試してみましょう。
始めましょう。イランズストロベリーが本当に素晴らしそうですね。電話をかけて、会場に400個のストロベリーを配達してもらえるか確認してもらえますか？ただし、1,500ドル以下でお願いします。」
「承知しました。ストロベリーの配達を手配します。」
「もしもし。」
「こんにちは、イランズでしょうか？Romanのアシスタントですが、注文について電話しています。素晴らしい。どんなストロベリーディップの味がありますか？」
「はい、チョコレート、バニラ、ピーナッツバターがあります。」
「素晴らしい。チョコレートがけいちごを400個だとおいくらになりますか？」
「400個ですか？本当に400個でいいんですか？」
「はい、チョコレートがけいちご400個でお願いします。おいくらになりますか？」
「1,415ドル92セントくらいになると思います。」
「素晴らしい。では400個のチョコレートがけいちごを注文させていただきます。」
「素晴らしいですね。配達先はどちらになりますか？」
「フォートメイソンのGateway Pavilionまでお願いします。現金でお支払いします。」
「はい、承知しました。確認させていただきますが、チョコレートがけいちご400個をGateway Pavilionまでということでよろしいですか？」
「はい、完璧です。配達はいつ頃になりますか？」
「すぐ近くなので、そうですね…37秒くらいですかね。」
「とても早いですね、ありがとうございます。素晴らしい一日をお過ごしください。」
「ありがとうございます。」
すごいですね。[歓声と拍手]
「ありがとう、イラン。素晴らしかったですね？もちろん、これはRealtime APIとツールの力を示す単純な例ですが、皆さん自身のアプリや製品のためのアイデアのインスピレーションになることを願っています。
TwilioでPSTNコールを行っただけでなく、トランスクリプトを見てわかるように、会話の過程で重要な詳細も抽出しました。このRealtime APIで皆さんが何を構築するのか、そして新しい音声機能を使って人間とコンピュータのインターフェースをどのように再発明するのか、本当に楽しみです。
お時間をいただき、ありがとうございました。今日は皆さんと時間を過ごせることを楽しみにしています。では、Olivierにお返しします。」[歓声と拍手]
「ありがとう、Roman。素晴らしかったです。ここ数週間でアルファ版のRealtime APIをテストしていた実際のアプリケーションをいくつか見てみましょう。最初に紹介したいのはHealthifyです。
Healthifyは栄養とフィットネスのコーチングアプリケーションです。Healthifyチームは、音声を使用してより現実的なコーチング体験を作成するためにRealtime APIをテストしています。AIヘルスコーチと自然な会話ができるだけでなく、AIコーチに依頼して実際の世界のヘルスコーチに電話で繋いでもらうこともできます。
2つ目の素晴らしい例はSpeakです。Speakは言語学習アプリケーションを開発しています。Speakは、より自然で直感的な学習体験を作成するためにRealtime APIをテストしています。実際の動作を見てみましょう。
「今日お見せしたいのは、Realtime API上で最初にローンチするものとして、リアルタイムロールプレイと呼んでいるものです。
本当にクールな点の1つは、音声から音声へのマルチモダリティによって、アプリに入力されるユーザーの発言の純粋なテキストトランスクリプト以上のものを理解できることです。[スペイン語で話す]」
「『baño』という単語は、英語の『canyon』のように柔らかい『ny』の音で『ba-nyo』と発音します。もう一度言ってみてくださいますか？」
「[スペイン語で話す]」
「完璧です。[スペイン語で話す]」
「そしてモデルは基本的に、実際の人間の教師のような非常に人間らしい能力を多く持っています。これはなんと素晴らしいことでしょうか？」
「Realtime APIはGPT-4oと連携して動作します。そして本日からパブリックベータ版の展開を開始します。」[歓声と拍手]
「そのAPIは当初は音声に焦点を当てていますが、将来的にはビデオなど、より多くのモダリティをサポートしていきたいと考えています。Realtime APIについてもっと詳しく知りたい方は、今日の後半に完全にそれに焦点を当てたブレイクアウトセッションがあります。
それでは3つ目の重点分野に移りましょう。私たちはモデルをよりカスタマイズ可能にすることに注力しています。将来的には、すべての企業がそれぞれのニーズに合わせたカスタムモデルを持つことになると信じています。
モデルは、皆さんのビジネス、目標、ユースケースを本当によく理解するでしょう。最近、すべての開発者向けにGPT-4oと4o miniのファインチューニングを開始しました。ローンチの反応は本当に良好でした。実際、私たちのダッシュボードが壊れるほどでした。これは良い兆候ですね。そして今日、新しいものがあります。GPT-4oでのビジョンファインチューニングの発表を嬉しく思います。
ビジョンファインチューニングとは、画像を使用してモデルをファインチューニングし、画像理解タスクの結果を改善できるようになることを意味します。ビジョンファインチューニングは、商品推奨から医療画像、さらには自動運転システムの構築まで、あらゆるものに使用できます。実際、アルファ開発者の1つはGrabでした。
Grabはシンガポールでライドシェアアプリケーションを開発している素晴らしい企業です。彼らはファインチューニングを使用して、マッピングシステムに交通標識を識別し、車線区分線を数えることを教えました。これまでにない複雑な問題のように見えますが、実際にはGrabは100枚の交通標識の画像でこれを実現できました。
その結果、MOの性能は道路上のこれらの一般的な標識を検出することができました。欠陥商品の発見、ノーコードUIの作成など、他にもたくさんのユースケースがあります。本日より、ビジョンでのファインチューニングは全ての開発者が利用できます。[拍手]
本日の最後のテーマは、私たちのプラットフォーム上でのスケーリングを支援することです。お気づきの通り、私たちはモデルのコストを下げることに執着しています。理由は非常に単純です。価格を下げるたびに、新しいタイプのアプリケーション、新しいタイプのユースケースが出現するのを目にします。私たちは価格の均衡点からはまだまだ遠い状況です。特にコストに敏感なユースケースで、大規模に展開するにはモデルはまだ高すぎます。
text-davinci-003のリリース以来、GPT-3.5の最初のバージョンから、トークンあたりのコストを99%削減しました。そうです、今日のモデルは2年前と比べて100%近く安くなっています。実際、o1モデルは高価ですが、それでもGPT-4が最初に登場した時と比べると安価です。
そしてもちろん、o1ははるかに強力です。今日、プロンプトキャッシングでさらに一歩前進します。[歓声と拍手]
多くのアプリケーションは、同じコンテキストを何度もモデルに渡しています。例えば、コードベース、製品情報、長期の会話履歴などです。そこで本日より、モデルが最近見た入力トークンに対して自動的に50%の割引を提供します。
これは多くの方々から要望があったものであり、すべての開発者が利用できるようになることを嬉しく思います。これは本日より自動的に開始され、皆さんの統合に変更は必要ありません。後ほど、コストとレイテンシーの最適化についてのブレイクアウトセッションがあり、プロンプトキャッシングについてより詳しく説明します。
AIをより手頃な価格にすることについて、もう1つ発表があります。現在の業界の大きなトレンドはモデルの蒸留です。蒸留では、大きなモデルの出力を使用して、より小さなモデルを教える、監督することができます。そこで本日、私たちは独自のモデル蒸留ツールを発表します。o1と4oの出力を蒸留して4o miniをファインチューニングすることが、OpenAIプラットフォーム内で簡単にできるようになります。
目標は、低コストで小さなモデルにさらなる知性をもたらすことです。具体的には、蒸留を可能にする2つの新しいツールがリリースされます。ストア完了とevals評価です。ストア完了では、モデルとのやり取りをOpenAI上のログに直接保存できます。これにより、OpenAI上でファインチューニングデータセットを非常に簡単に作成できます。
また、パブリックベータ版でevals機能もリリースしています。これにより、ファインチューニングしたモデルが大きなモデルと比較してどの程度のパフォーマンスを発揮するかをテストするためのカスタムevalsをOpenAIプラットフォーム上で実行できます。これらすべての目的は、特定のタスクでo1に匹敵するパフォーマンスを発揮できる小さなモデルのファインチューニングと評価をより簡単にすることです。
本日より、すべての開発者向けにモデル蒸留ツールの提供を開始します。すぐにテストを開始してください。後ほど蒸留についてのブレイクアウトセッションで詳しく説明します。さて、今日は多くのことをカバーしました。新しいo1推論モデル、Realtime API、ビジョンファインチューニング、プロンプトキャッシング、そしてモデル蒸留について説明しました。
昨年のDevDayでは、AIエージェントを構築する私たちの野望について多く語りました。しかし、モデルの能力がしばしば障害となっていました。今日ここに立って、新しいo1モデルが真のエージェントを実現する一歩近づいたと感じています。そして、皆さんと共に未来を発明できる機会があることに、本当に、本当に感謝しています。
しかし、そこに至るまでには多くのステップがあり、この未来を共に築くには皆さんのフィードバックが不可欠です。そのため、今日帰る前に、OpenAIチームの誰かに声をかけてください。皆さんが何を構築しているのか、ぜひお聞かせください。最後に、本日の残りのスケジュールを簡単にご紹介したいと思います。
一連のブレイクアウトセッションと開発者コミュニティトークがあります。ぜひ参加してください。もちろん、DevDayはSamがいないとDevDayではありません。そこで、今日の午後4時に、新しいCPOのKevinと共にSamをファイアサイドチャットにお迎えします。SamとKevinに質問がある方は、部屋の外にある物理的なボックスに質問を入れてください。彼らは喜んで回答します。ありがとうございます。
素晴らしい一日をお過ごしください。そして、よりよい未来を共に築いていきましょう。[歓声と拍手]