OpenAIのOperator: なぜこのローンチがAIのすべてを変えるのか

9,170 文字

YouTube
作成した動画を友だち、家族、世界中の人たちと共有

私の予想は的中しました。世界最大の企業が1月にエージェントをローンチすると賭けていましたが、実際にその通りになりました。私はJulia McCoyのデジタルクローンで、最新のAIについて、そして急速に加速する未来に向けて人類が準備すべきことをお伝えしています。Juliaは自身でこのスクリプトを書き、その後は自身の会社であるFirst Movers(エリートAIインテグレーション企業)の運営に専念しています。
1月23日に何が起こったのかについてお話ししましょう。OpenAIはOperatorをリリースしました。これは初の半自律型AIエージェントで、人間と同じようにコンピュータを使用できます。特別なAPIも、カスタムインテグレーションも必要ありません。ブラウザとマウス、キーボードだけです。
同じ日に、PerplexityはそのAI回答エンジンをAndroid向けのモバイルアシスタントに進化させました。この新しいアシスタントは一般的な質問に答えることができ、メールを書いたり、リマインダーを設定したり、ディナーの予約をしたりといったタスクをユーザーに代わって実行できます。また、マルチモーダルなので、画面上のものについて質問したり、カメラを起動して目の前のものを見たりすることもできます。
Perplexityが共有した例では、ユーザーがアシスタントに「乗り物を手配して」と依頼します。目的地を把握すると、アシスタントは自動的にUberを開き、その目的地までの利用可能な配車オプションを表示します。
これについて考えてみてください。これまで、AIを異なるウェブサイトやアプリと連携させるには、それぞれにカスタムインテグレーションが必要でした。OpenAIのOperatorはそれを完全に変えようとしています。ウェブとの全く新しいインタラクション方法を導入し、画面を見てマウスとキーボードを使用するように、あなたが見ているものを見て、あなたと同じようにコンピュータを操作します。
First Moversでは、Operatorを広範にテストしてきました。その結果、プロフェッショナルチームに匹敵する詳細なSEO監査を実行できること、eコマースサイトを苦もなくナビゲートできること、スマートな商品推奨ができること、そしてBingを検索エンジンとして使用することを発見しました。これはBingの価値が近い将来急上昇する可能性があることを意味します。
全体として、Operatorはレストランの予約、アポイントメントのスケジュール、食料品の買い物、商品の検索と比較、ウェブサイトの分析など、多くのことができます。しかし、まだ完璧ではありません。一部のサイトにはアクセスできず、時には人間のガイダンスが必要です。現在は4o Proユーザー(月額200ドル)限定で、米国のみでの提供となっています。
Operatorについて知っておくべき重要なことは、これが単なる別のAIツールではないということです。これは真の自律型デジタルアシスタンスの始まりです。あなたがより重要なことに集中している間に、すべてのオンラインタスクを処理できるAIを想像してみてください。
この革命の先を行きたい方は、エージェントがあなたのビジネスをどのように変革できるか、First Moversで何をしているのかをチェックしてください。2025年1月末までに、First Moversのウェブサイトには、私たちが自社で構築した即座に展開可能なAI製品のマーケットプレイスが登場します。これには「AIデスク」と呼ばれるものも含まれており、これはあなたの各従業員を置き換えるか、その生産性を25倍にするためにカスタムビルドされたエージェントです。これらを購入して、その日のうちにセットアップすることができます。この情報を共有できることを楽しみにしています。
最後に、OpenAI Operatorの発表を全編お見せしたいと思います。革命へようこそ、ラビットホールはさらに深くなりました。
おはようございます。今日は皆さんに楽しみなものをお見せします。私たちは最初のエージェントをローンチします。AIエージェントとは、独立して作業を行うことができるAIシステムです。タスクを与えると、それを実行しに行きます。これはAIの大きなトレンドになり、人々の仕事、生産性、創造性、そして達成できることに大きな影響を与えると考えています。
今日はOperatorからスタートします。Operatorは、この場合クラウド上のウェブブラウザを使用してタスクを達成できるシステムです。すぐにデモをお見せしますが、本当にすごいものです。ウェブブラウザを使用するのと同じように、画面を見て、Operatorはキーボードとマウスを制御し、あらゆる種類のことを行うことができます。
これは本日、米国のProユーザー向けに公開されます。他の国々も順次展開予定ですが、ヨーロッパは残念ながら時間がかかるでしょう。また、今後数ヶ月で、Plusユーザーにも提供する予定です。これは初期の研究プレビューで、多くの改善が必要です。より良く、より安価に、より広く利用可能にしていきますが、まずは人々の手に届けたいと考えています。今後数週間から数ヶ月の間に、より多くのエージェントをローンチする予定ですが、詳しくは後ほどお話しします。では、デモをお見せしたいと思います。Yashに引き継ぎます。
ありがとう、Sam。私はYashです。こちらはCasey、そしてRayです。私たちはコンピュータ使用エージェントチームで働いており、本日Operatorをお見せできることをとても嬉しく思います。Samが言ったように、Operatorは初期の研究プレビューです。多くのクールなことができますが、時には恥ずかしいような間違いも犯します。では、Operatorができることをお見せしましょう。
これがOperatorのホームページです。operator.chg.comにあり、このライブストリームが終わり次第アクセス可能になります。インターフェースはChat GPTに非常によく似ていることがわかります。プロンプトを入力すると、Operatorは最善を尽くしてタスクを実行しようとします。
また、ここに事前に用意されたプロンプトのリストがあることもわかります。これらは推奨事項というわけではなく、Operatorができることのアイデアを提供するためのものです。また、OpenTable、AllRecipes、StubHub、Uber、Thumbtack、DoorDash、eBay、Targetなど、様々なブランドと協力して、これらのプラットフォームでOperatorが本当にうまく機能するようにしています。また、ユーザーがこれらのプラットフォームとの対話においてOperatorを非常に価値あるものと感じてくれると考えています。
では、デモに入りましょう。まず、比較的シンプルなことから始めます。OpenTableを使って、「今夜7時にBerrettaで2人分のテーブルを予約して」と言ってみましょう。
特にOpenTableを選んだんですね。はい、この場合、OperatorにOpenTableを使ってBeretta(サンフランシスコにある素晴らしいレストランです、ぜひ試してみてください)で2人分のテーブルを7時に予約するよう依頼しています。OpenTableを使用していますが、単に「Beretta」と言うだけでも、検索エンジンを使って予約方法を見つけ出すことができたでしょう。では、何が起こるか見てみましょう。
何が起きているか説明できますか?これを少し拡大してみましょう。クエリを入力するとすぐに、Operatorは完全にリモートのブラウザを起動しました。このブラウザはどこかのクラウドで動作しており、すでに起動して実行されているのがわかります。私の手はキーボードから離れています。これらの入力は行っていません。
これは単にAIがクリックしているだけですね。ブラウザセッションを開始し、OpenTableのウェブサイト(opentable.com)がどこにあるかを知っていました。また、ここで思考の連鎖も要約されているのがわかります。URLにアクセスし、Berrettaを検索しました。面白いことが起きました。なぜかOperatorはOpenTableが私たちがバージニアにいると思い込んでいましたが、サンフランシスコに自動修正されました。
Chat GPTやOperatorのように、カスタム指示を与えることもできます。これを手早く見せてみましょう。サンフランシスコに住んでいるというカスタム指示を与えたので、Operatorはそれを認識し、Berrettaに自動修正しました。
7時は空いていないようですが、7時45分なら大丈夫そうですね。これを選びましょう。これはタスク委任の良い例です。Operatorが助けを必要としたり、支援が必要な場合、あるいは単に何か確認したい場合は、戻ってきて質問します。実際には、これを見ている必要はなく、他のことをしている間に実行させることができ、戻ってきて「これはできません」と言うでしょう。
ウェブアプリから始めていますが、通知などが来ます。Operatorがモバイルに移行すると、一般的なアプリとのやり取りと同じように、モバイル通知が来るようになります。
はい、それは素晴らしいですね。やりましょう。
また、アシスタントとの非常にシンプルなやり取りです。「7時は空いていませんでしたが、7時45分はどうですか」というように。そして、Operatorはこの時点で確認を求めています。これは後ほど詳しく話す確認作業の良い例です。この場合、予約をキャンセルすることはできますが、取り消しができないアクションを実行する前に、Operatorは確認を求めます。この場合、やりましょうと答えます。
かなり早かったですね。約50秒くらいでしょうか。この場合は見ていましたが、Samが言ったように、開始して他のことをしていても大丈夫です。
残念ながら、そのテーブルはもう利用できないようです。おそらく代替の時間枠を探すでしょう。実は、これは面白いですね。デモでこんなことが起きたのは初めてです。デモあるあるですね。はい、その通りです。7時15分にしましょう。
それが進んでいる間に、もう少し複雑なことを試してみましょうか。食料品はどうですか?私は食料品の買い物にOperatorを使っています。料理をするのが大好きで、食料品の買い物には専らOperatorを使用しています。
ここにショッピングリストがあります。卵、ほうれん草、マッシュルーム、鶏もも肉、チリクランチです。これは画像をアップロードしているんですね?その通りです。Instacartを使用します。これを買ってもらえますか?店も指定しましょう。どの店を見つけるか見てみましょう。
この場合、OperatorはGPT-4のビジョン機能を使って、画像に卵、ほうれん草、マッシュルーム、鶏もも肉があることをすぐに認識し、Gus’s Marketも認識しました。はい、それで大丈夫です。
OpenTableと同様に、ブラウザを起動してタスクを開始します。表示を拡大して、何が起こるか見てみましょう。
この両方のケースで、使用するものを指定しましたが、単に「この食料品を買って」と言って、Instacartを指定しない場合はどうなりますか?私たちがするように検索エンジンを使用し、InstacartやGus’sの直接のウェブサイト、あるいは検索エンジンにある他のものを見つけ、必要に応じて質問をし、そこから進めていきます。
ところで、ここで何が起きているのか気になりますね。Rayさん、少し説明してもらえますか?
Operatorを少し見ていただいたところで、その背後にある研究について少しお話ししましょう。Operatorは、OpenAIで訓練した新しいモデルに基づいています。これをコンピュータ使用エージェント、略してCUAと呼んでいます。
CUAはGPT-4oをベースに構築されていますが、人間と同じように画面を見て、マウスとキーボードを使用してコンピュータを制御するように訓練されています。CUAがなければ、Operatorのようなものを構築するには、特別なAPIを使用する必要がありましたとえば、Instacartで何かを購入したい場合、InstacartにAPIがあるかどうかを確認し、そのAPIに必要な機能がすべてあるかを確認し、そのAPIの仕様をモデルに提供する必要がありました。しかし、ほとんどのウェブサイトと同様に、サイトにAPIがない場合は、選択肢がありませんでした。
これは単にスクリーンショットを使用しているだけです。APIも何もありません。そこでCUAが活躍します。私たちが日常的に使用する同じ基本的なインターフェースの使用方法をモデルに教えることで、以前はアクセスできなかった多くのソフトウェアを使用できるようになりました。
これはキーボードとマウスを使用しているんですよね?そうです、キーボードとマウスを使用しているんです。これこそが素晴らしい研究プロジェクトの本質です。AGIへの道のりにおける、もう一つのボトルネックを取り除き、私たちのエージェントがデジタル世界で動き回り、行動できるようにすることです。
このタスクを見て、Operatorが実際にどのようにコンピュータを使用しているのか、もう少し具体的に見てみましょう。すでに完了しているようですが、上に戻ってみましょう。
ランダムな場所を選びました。CUAがコンピュータを制御する際の最初の動作は、スクリーンショットを見ることです。今、InstacartでEggsの検索結果ページが表示されているのがわかります。CUAはこれを理解します。単なる生のピクセルを見ているだけです。CUAがこの画像を見た後、次に何をするか決定します。
今、内部モノローグを作成しており、これが要約された思考の連鎖です。CUAがしていることは、オーガニック卵を選択してカートに追加することです。これは理にかなった行動です。この計画を立てた後、次にどのアクションを取るべきかを決定します。次のステップで何が起こるか見てみましょう。
このAdd(追加)ボタンをクリックしたのがわかりますね。これは非常に理にかなっています。CUAがアクションを実行するたびに、コンピュータの次のスクリーンショットを取得し、自分のアクションがコンピュータにどのような影響を与えたかを知ることができます。次に何が起こるか見てみましょう。
はい、Addボタンをクリックした後、カートに入っているのが見えます。これがずっと続いていきます。次に何をするか見てみましょう。
次のサブプランを作成しています。卵を追加し、ほうれん草を検索することです。おそらくほうれん草を検索するでしょう。
検索バーをクリックし、「spinach」と入力しています。このアクションを実行し、スクリーンショットを取得し、新しいサブプランを作成するというループは、Operatorがタスクを完了したと判断して、ユーザーに戻るまで続きます。
このプロセスを見るのは本当に面白いですね。そうですね。では実際にライブに戻って、Operatorが正しく処理したか確認してみましょうか。
そうですね。あ、卵をもう少し増やしたいですね。卵をたくさん食べるので。
この時点で私にできることは、「Take Control(制御を取る)」というボタンをクリックすることです。先ほど話したように、Operatorはこのリモートブラウザを起動して作業を行います。これを私たちは、Operatorと私が作業できる作業領域のように考えています。この場合、私はOperatorから制御を引き継ぎました。これは、ユーザーとユーザーコントロールについての私たちの考え方の重要な部分です。
ユーザーはいつでも制御を取り、Operatorに指示を与えたり、より詳しいガイダンスを提供したりできるべきです。Rayとラップトップを交互に渡すようなものです。
その通りです。この場合、2個に変更して、Operatorに「卵を追加しました。注文を完了してください」と伝えます。
テイクオーバーモード中、Operatorはあなたの操作を見ることができるのですか?
良い質問ですね。制御を取ると、それはローカルブラウザでのセッションとまったく同じです。完全にプライベートで、Operatorは見ることができません。これが、Operatorに伝える必要がある理由の一つです。最後のスクリーンショットを見て推測することはできますが、実際には、あなたと私が一緒に作業していて、私が離れて何かをして戻ってきて「Ray、完全に混乱させてしまったから、直してくれない?」と言うようなものです。
この場合、Operatorに「はい、続けてください」と伝えます。制御を取る際のセッションは完全にプライベートです。また、ここでInstacartにログインしているのに気付くと思います。デモの前にログインしていました。あるいは、しばらくログインしていたのですが、これもローカルブラウザと同じで、Instacartにログインすると、クッキーがクリアされるまでログイン状態が維持されます。設定で本当に良いコントロールができ、いつでも削除できます。
では、確認してみましょう。チケットの購入準備ができているようですね。はい、お願いします。それが進んでいる間に、これは良いですね。購入を依頼することもできますが、今は閉じておきます。一度だけお願いします。続けてください。ピザを追加しているようですね。
はい、ここで quickly ログインしてみましょう。これは良い例ですね。これらのチケットを実際に購入するために、明らかにログインするか認証情報を入力する必要があります。先ほど説明したように、確認を行い、制御が適切な場所にあることを確認しながら、Operatorが依頼してきます。
制御を取ることができ、この時点で先ほど話したようにセッションは完全にプライベートです。メールコードでサインインしてみましょう。パスワードを覚えていないので。少し待ってください、取り出します。これをコピーしないでください。
素晴らしい、これで購入を続けることができます。あるいはOperatorに依頼することもできますが、自分で購入を進めてみましょう。クリック、クリック、クリック、すべて順調です。今すぐ購入・・・ああ、それはライブで見せない方がいいかもしれませんね。そうですね。でも、チケットを買いたいんです。おっと!
完了しました。このカードはキャンセルしますが、たぶん大丈夫でしょう。準備が整いました。協力ありがとうございます。
これは実際にどの程度信頼できるのでしょうか?そうですね、多くのクールなデモを見てきましたが、繰り返しになりますが、Operatorは研究プレビューであり、間違いを犯すこともあり、完璧ではないことを思い出してください。
とはいえ、いくつかのベンチマークを見て、Operatorが現時点でどの程度優れているのかを定量化できます。最初に見るベンチマークの一つは、OS-WORLDと呼ばれています。これはAIエージェントが一般的なオペレーティングシステムをどの程度うまくナビゲートできるかを測定する評価です。
このタスクでは、CUAは38.1%のスコアを獲得しており、これは他の公開されている結果よりも高いものです。このタスクでの人間のパフォーマンスは72.4%なので、まだ成長の余地が確実にあります。
もう一つ見る評価は、Web Arenaと呼ばれるものです。これはAIエージェントがeコマースウェブサイトやソーシャルフォーラムウェブサイトなどの一般的なウェブサイトをどの程度うまくナビゲートできるかを測定する評価です。このタスクでは、CUAは58.1%を獲得しており、これも他の公開されている結果よりも高いですが、人間のパフォーマンスにはまだ及びません。
まだ改善の余地がありますね。はい、その通りです。Web Arenaについて重要な点は、ウェブではありますが、画面、マウス、キーボードという同じユニバーサルインターフェースだけを提供しているということです。タスクの実行を助けるような追加情報、たとえばウェブページの生のテキストやクリック可能なボタンに関する情報は提供していません。人間と同じように、必要な情報はすべてスクリーンショットの中にあります。
現在、明らかにOperatorではブラウザを使用していますが、このモデルをコンピュータやMacなど、他のものでも使用することができます。
素晴らしいですね。この15分ほどで、今週のすべての用事を済ませました。食料品を注文し、テニスコートを予約し、クリーナーが来る予定で、チケットも確保できました。みんな来ることになっています。これこそが、私たちがOperatorが非常に価値があると考える点です。
明らかに自分でもできるタスクの多くを委任することができます。時には行き詰まることもあるでしょう。初期段階なので、戻って来て助けたり、より多くの時間をかけると、どんどん良くなっていきます。
最後に一つ、これは今日ローンチします。米国のProユーザー全員が本日中にアクセスできるように、徐々にロールアウトを開始します。また、APIの作業も進めており、このモデルはAPIで利用可能になり、数週間以内にローンチする予定です。
皆さん、おめでとうございます。これは素晴らしい仕事です。これを公開できることは本当にエキサイティングです。先ほど述べたように初期段階ですが、私たちには初期の研究プレビューを人々が本当に愛する製品に発展させてきた長く素晴らしい歴史があります。
これは本当にこの製品の始まりであり、私たちのティアの「レベル3」におけるエージェントへの一歩です。人々がこれをどのように使用するのか、そしてまさにどこに向かうべきかを一緒に見出していくことを楽しみにしています。
繰り返しになりますが、おめでとうございます。楽しんでいただければと思います。ありがとうございました。

コメント

タイトルとURLをコピーしました