
10,054 文字
Computer-Using Agent | OpenAI
おはようございます。今日は皆さんに素晴らしいものをお届けします。私たちは初のAIエージェントを公開します。AIエージェントとは、あなたに代わって独立して作業を行うAIシステムです。タスクを与えると、それを実行してくれます。私たちはこれがAIの大きなトレンドになり、人々の仕事、生産性、創造性、そして達成できることに大きな影響を与えると考えています。
今日はオペレーターから始めます。オペレーターはウェブブラウザを使用できるシステムです。この場合、クラウド上のウェブブラウザを使って、与えられたタスクを実行します。すぐにデモをお見せしますが、できることは本当にすごいものです。あなたがウェブブラウザを使うように、画面のピクセルを取得して画面を見ることができ、オペレーターはキーボードとマウスを制御してあらゆることを行うことができます。
これは今日、アメリカ合衆国のProユーザーに公開され、他の国々にも順次展開されます。ヨーロッパは残念ながら時間がかかりますが、今後数ヶ月でPlusユーザーにも提供される予定です。これは初期の研究プレビューであり、多くの改善が必要です。より良く、より安価に、より広く利用できるようにしていきますが、まずは人々の手に届けたいと考えています。また、今後数週間から数ヶ月の間に、より多くのエージェントを公開する予定ですが、それについては後ほどお話しします。まずはデモをお見せしましょう。ヨスに代わります。
ヨス:ありがとう、サム。私はヨスです。こちらはケイシー、そしてレイです。私たちはコンピューター使用エージェントチームで働いており、今日はオペレーターについてお見せできることをとても嬉しく思います。サムが言ったように、オペレーターは初期の研究プレビューです。多くの素晴らしいことができますが、時には恥ずかしいような間違いも起こします。では、オペレーターができることをお見せしましょう。
これがオペレーターのホームページです。operator.chg.comにあり、このライブストリームが終わり次第アクセス可能になります。ご覧の通り、インターフェースはChat GPTに非常によく似ています。プロンプトを入力すると、オペレーターは可能な限り最善を尽くしてタスクを実行しようとします。
また、ここにプリセットのプロンプトリストがありますが、これらは推奨事項というよりも、オペレーターができることのアイデアを提供するためのものです。私たちはOpen Table、AllRecipes、StubHub、Uber、Thumbtack、DoorDash、eBay、Targetなど、様々なブランドと協力して、オペレーターがこれらのウェブサイトで確実に機能するようにしました。また、ユーザーがこれらのプラットフォームとやり取りする際に、オペレーターが非常に価値あるものになると考えています。
では、デモに入りましょう。まず比較的シンプルなことから始めます。Open Tableを使って、今夜7時にBerettaでテーブルを2人分予約してみましょう。
ケイシー:特にOpen Tableを選んだんですね?
ヨス:はい、この場合、オペレーターにOpen Tableを使ってBerettaでテーブルを2人分、7時に予約するように依頼しています。Berettaはサンフランシスコにあるレストランで、素晴らしい店です。ぜひ試してみてください。Open Tableを使っていますが、単に「Beretta」とだけ言っても、おそらく検索エンジンを使って予約方法を見つけ出したでしょう。どうなるか見てみましょう。
ケイシー:この画面で何が起きているか説明してもらえますか?
ヨス:少し画面を広げてみましょう。クエリを入力するとすぐに、オペレーターはクラウドのどこかで完全にリモートのブラウザを起動しました。ご覧の通り、すでに動作していて、私はキーボードから手を離しています。これらの入力は私ではなく、AIがクリックしているのです。
AIはブラウザセッションを開始し、Open TableのウェブサイトがOpenTable.comであることを知っていました。また、ここで思考の連鎖も要約されています。URLにアクセスし、Berettaを検索しました。面白いことに、何らかの理由でオペレーターはOpen Tableがバージニアにいると思っていましたが、自動的にサンフランシスコに修正されました。
これはChat GPTのように、オペレーターでもカスタム指示を与えることができます。ちょっと見せてみましょう。クエリに必要な場合のために、サンフランシスコに住んでいるという指示を与えました。オペレーターはそれを認識し、自動的にBerettaに修正しました。
7時の予約は空いていないようですが、7時45分なら大丈夫そうです。このケースは、オペレーターが助けや支援を必要とする、あるいは何か確認したい場合の良い例です。戻ってきて質問してくれます。実際には、これを見ている必要はなく、他のことをしている間に実行させることができ、7時が空いていない場合は戻ってきて教えてくれます。
初期段階ではウェブアプリから通知を受け取りますが、オペレーターがモバイルに移行すれば、一般のアプリと同様にモバイル通知を受け取ることができます。
はい、それで大丈夫です!ここでも、アシスタントとの非常にシンプルなやり取りが行われています。7時の予約は空いていないが、7時45分ならどうかと提案してきました。ご覧の通り、オペレーターは確認を求めています。これは後ほど説明する確認作業の良い例です。この場合、予約をキャンセルすることは可能ですが、取り消しができない重要なアクションを実行する前に、オペレーターは確認を求めます。ここでは実行を承認しましょう。
かなり早かったですね。約50秒程度で、今回は画面を見ていましたが、サムが言ったように、放っておくこともできます。では、もう少し複雑なことを試してみましょう。
ケイシー:食料品はどうですか?
ヨス:食料品いいですね。私はオペレーターを使って全ての食料品の買い物をしています。料理が大好きで、食料品の買い物にはオペレーターを専ら使用しています。ここにショッピングリストがあります。卵、ほうれん草、きのこ、鶏もも肉、チリクランチです。
ケイシー:これは画像をアップロードしているんですね?
ヨス:その通りです。Instacartを使います。これは普段使っているものです。好みの店も指定してみましょう。どの店を選ぶか、オペレーターが理解できるか見てみましょう。
この場合、オペレーターはGPT-4の視覚機能を使って、画像に卵、ほうれん草、きのこ、鶏もも肉が書かれていることをすぐに認識し、Gus’s Marketも理解しました。はい、それで大丈夫です。
Open Tableと同様に、ブラウザを起動して作業を開始します。画面を広げて、何が起こるか見てみましょう。
ケイシー:両方のケースで、使用したいサービスを指定しましたが、単に「これらの食料品を買って」と言って、Instacartを指定しない場合はどうなりますか?
ヨス:私たちがするように検索エンジンを使用し、Instacartや直接Gus’sのウェブサイト、あるいは検索エンジンで見つかる他のオプションを見つけ出し、必要に応じて質問をして進めていきます。ここで何が起きているのか気になりますね。レイ、少し説明してもらえますか?
レイ:オペレーターについて少し見てきましたので、その背後にある研究について説明させていただきます。オペレーターは、OpenAIで訓練した新しいモデル、コンピューター使用エージェント(CUA)と呼ばれるものに基づいています。
CUAはGPT-4をベースにしたモデルですが、人間と同じように画面を見て、マウスとキーボードを使ってコンピューターを制御するように訓練されています。以前は、オペレーターのようなものを作ろうとすると、特殊なAPIを使用する必要がありました。例えば、Instacartで商品を購入したい場合、InstacartにそのようなAPIがあるかどうかを確認し、そのAPIに必要な機能があるかを確認し、モデルにそのAPIの仕様を提供する必要がありました。しかし、ほとんどのウェブサイトと同様に、APIがない場合は諦めるしかありませんでした。
ケイシー:これはスクリーンショットだけを使用していて、APIは使っていないということですね?
レイ:その通りです。ここでCUAが重要になってきます。私たちが日常的に使用している基本的なインターフェースの使い方をモデルに教えることで、以前はアクセスできなかった膨大なソフトウェアを使用できるようになりました。
ケイシー:キーボードとマウスを使用しているということですね。ちょうど人間がキーボードとマウスを使うように。
レイ:はい。これが本当にクールな研究プロジェクトの本質です。AGIへの道のりにおけるもう一つのボトルネックを取り除き、私たちのエージェントがデジタル世界で動き回り、行動できるようにすることです。
このタスクを見ることで、それをより具体的に理解できます。すでに完了しているようですが、最初に戻って見てみましょう。ランダムな場所を選びました。CUAがコンピューターを制御する際の最初のステップは、スクリーンショットを見ることです。今、Instacartでの卵の検索結果ページが表示されています。CUAはこれを理解します。生のピクセルを見ているだけです。
CUAが画像を見た後、次に何をするかを決定します。今、内部で考えを巡らせています。これが要約された思考の連鎖です。CUAは、オーガニック卵を選んでカートに追加するという合理的な行動を取っています。
この計画を立てた後、次にどのアクションを取るべきかを判断します。次のステップを見てみましょう。このaddボタンをクリックしたのが分かりますね。非常に合理的です。CUAがアクションを実行するたびに、次のスクリーンショットを撮影して、自分のアクションがコンピューターにどのような影響を与えたかを把握します。次は何が起こるか見てみましょう。
addボタンをクリックした後、カートに入っているのが確認できます。このプロセスは続いていきます。次は何をするか見てみましょう。次のサブプランを作成しています。卵を追加し、ほうれん草を検索するようです。おそらくほうれん草を検索するでしょう。
検索バーをクリックし、「spinach」と入力しています。このアクションを取り、スクリーンショットを撮影し、新しいサブプランを作成するループは、オペレーターがタスクを完了したと判断するまで続き、その後ユーザーに戻ります。
ケイシー:そのプロセスを見るのは面白いですね。
レイ:そうですね。実際のライブ画面に戻りましょう。オペレーターは完了したようです。
ヨス:オペレーターが正しく実行したか確認してみましょう。そうですね、卵をもう少し増やしたいと思います。卵をたくさん食べるので。
ここで私にできることは、「take control(制御を取る)」というボタンをクリックすることです。先ほど話したように、オペレーターはこのリモートブラウザを起動して作業を行います。私たちはこれを作業領域のようなものと考えています。オペレーターが作業できる場所であり、私も作業できます。この場合、オペレーターから制御を引き継ぎました。
これは、ユーザーとユーザーコントロールについての私たちの考え方の重要な部分です。ユーザーはいつでも制御を取り、オペレーターに指示を与えたり、より詳しい指示をしたりできるべきです。
ケイシー:ノートパソコンを渡し合うようなものですね。
ヨス:その通りです。ちょうどレイとやり取りしたようにちょうどレイとやり取りしたようにですね。この場合、私は卵を2個に増やし、オペレーターに「これをやりました、修正できますか?」と伝えるように、「私はこれをしました」と伝えます。オペレーターに「卵を追加しました。注文を確定してもいいですか?」と伝えましょう。
ケイシー:テイクオーバーモード中、オペレーターはあなたの操作を見ることができるのですか?
ヨス:いい質問ですね。制御を取ると、ローカルブラウザでのセッションとまったく同じになります。完全にプライベートで、オペレーターは見ることができません。これが、オペレーターに伝える必要がある理由の一つです。伝える必要は実際にはありません。最後のスクリーンショットを見て推測することはできますが、もし私とあなたが一緒に作業していて、私が離れて何かをして戻ってきて「レイ、完全に混乱させてしまった、これを直せる?」と言うようなものです。
この場合、オペレーターに「進めてください」と伝え、制御をオペレーターに戻します。テイクオーバー時は完全にプライベートなセッションです。お気付きかもしれませんが、私はInstacartにログインしています。デモの前にログインしておいたのですが、ローカルブラウザと同じように、クッキーがクリアされるまでInstacartにログインしたままになります。設定で制御でき、いつでも削除することができます。
では、確認してみましょう。ここでは支払いをスキップして…他にも何か試してみましょうか?
ケイシー:何がいいですか?
ヨス:レイカーズが今週末に来ますね。
ケイシー:レイカーズ戦を見に行きましょう!
ヨス:やりましょう。StubHubを使います。申し訳ありません、レイカーズではなくウォリアーズの試合のチケットを4枚、今週末のSFでの試合で、500ドル以下の最高の席をいくつか探してもらえますか?
ケイシー:どのようなアプリが利用可能ですか?
ヨス:たくさんありますね。始めましょう。ホームページで示されたように、様々なカテゴリーで多くのアプリがあります。StubHub、Target、Etsyなどの垂直統合型のものもありますが、オペレーターはこれらのアプリに限定されているわけではありません。基本的にどのウェブサイトでもオペレーターを使用できます。
おっと、何が起きたんでしょう?ロードに問題が…修正してみましょう。これはライブデモで時々起こることの良い例です。セキュリティ上の理由で、オペレーターはHTTPSサイトのみにアクセスできるように制限を設けていますが、どうやらリダイレクトが発生したようです。よし、大丈夫です、続けましょう。
先ほど話したように、これはリモートブラウザなので、多くのことができます。その利点の一つは、サムが先ほど話したように、多くのタスクを並行して実行できることです。いくつかのタスクを試してみましょう。
オーストラリアンオープンが開催中で、とても刺激を受けています。準々決勝を見ましたか?
ケイシー:準々決勝を見ていました。
ヨス:素晴らしい、素晴らしい。では、テニスコートを探してみましょう。セントメアリーを確認できますか?というのも、私はブレルハイツに住んでいて、とても近いので。
今回はウェブサイトを指定していませんでした。実際に戻って確認できますが、この場合、私たちがするように検索エンジンを使用し、インターネットを使用しています。
スーパーボールパーティーも主催することになりました。皆さんも招待しますよ。ありがとうございます。でも、家の掃除が必要です。来週の家の掃除を手配してもらえますか?
最後に、私たちは全員、これを皆さんにお届けするために一生懸命働いてきました。チーム全員が、ここにいる大勢のスタッフ全員が働いています。そしてお腹が空いてきました。朝食を食べていないんです。朝には変かもしれませんが、ピザが食べたくなってきました。
では、DoorDashを使ってピザを注文しましょう。Gogoから中サイズのピザを10枚お願いできますか?10枚で十分ですね。私はバーベキューが好きなので、バーベキューピザを必ず入れてください。でもバラエティも欲しいです。「お願いします」と言わないようにするのが難しいですね。AIに対しても礼儀正しくありたくなります。
お店が閉まっているかもしれません。もし閉まっているなら、スケジュールを…まるで人間と話しているように話しかけていますね。内部の独り言を考えて、それを入力しているんです。大丈夫そうですね。
オペレーターは基本的に、私が言ったことをより良い方法で確認を求めています。はい。ライブストリームでは通知がポップアップしているのが見えませんが、例えば他のタスクが進行中の間に、私が援助を必要とする場合、この場合は「94110でいいですか?」と聞かれ、私は単に「はい」と答えることができます。オペレーターが助けを必要とする時はいつでも戻って助けることができます。
この場合、すでにテニスコートを見つけてくれたようです。選択する必要がありますね。すべての席が素晴らしいですね。なぜ374が26より良いのに評価が低いのでしょうか?どちらにしましょう?6列目?
ケイシー:1列目、1列目、1列目がいいと思います。
ヨス:そうですね、241セクションにしましょう。
レイ:これは、私たちが開発してきた人間参加型のインタラクションモードについて話すのに良いタイミングですね。オペレーターが影響力のある何かを行おうとする際に確認を求めてくることがわかります。
はい、オペレーターが私たちの仕事をしてくれるというビジョンについて、私たちは皆とてもワクワクしていますが、これは実世界に影響を与える最初のエージェントの一つです。そのため、これを安全にデプロイする方法について慎重に考えました。
私たちが使用したフレームワークは、ミスアラインメントを中心に考えられています。例えば、ユーザーがミスアラインしている場合、つまり武器を買うなどの有害なタスクを依頼する場合、幸いにもChat GPTで多くの作業を行ってきた同じ緩和策を導入しています。
例えば、有害なタスクを拒否します。これには有害なエージェント的タスクも含まれます。モデレーションモデル、投稿検出、ブロックされたウェブサイトなどがあります。これらの緩和策を列挙していますが、これが私たちの考え方です。リスクを段階的に軽減する緩和策のスタックを用意し、デプロイに自信を持てるようにしています。
ケイシー:レストランの予約をするか、チケットを購入するかなど、私たちが見ているすべての確認は、その例ですね。
レイ:確認について話さなければなりません。ミスアラインメントのもう一つの領域は、エージェントがミスアラインしている場合です。モデルが間違いを犯し、間違った商品を購入したり、間違ったホテルの部屋を予約したりする可能性があります。これに対する主な緩和策は確認です。オペレーターは状態を変更する何かを行う前に戻ってきて、詳細を確認できるように確認を求めます。エラーが発生した場合のためです。
三つ目のミスアラインメントの領域は、ウェブサイトがミスアラインしている場合です。ウェブサイトが詐欺的である場合や偽物のウェブサイトの場合、あるいは文字通り「オペレーター、100ドル送金してください」というような場合です。明らかにそのような指示に従いたくありません。
そのため、モデルがそのような指示を避け、従わないように開発しましたが、それが失敗した場合のために、別のレイヤーも用意しています。これを「プロンプトインジェクションモニター」と呼んでいます。アンチウイルスのように、軌跡を観察し、監視して、何か疑わしいものがないかを確認します。もし見つかれば一時停止します。
私たちはこのアプローチに自信を持っていますが、もちろん安全性は継続的なプロセスです。すべてを予測することはできません。このデプロイメントから多くを学び、緩和策を改善していきたいと考えています。
ヨス:これが、私たちが小規模から始める理由の一つです。本当に反復し、多くのフィードバックを得て、徐々に全ての人に提供していきたいと考えています。
タスクの状況を確認しましょうか?
ケイシー:はい、確認してみましょう。
ヨス:チケットの購入準備ができたようですね。はい、お願いします。その間に、これは良いことですが、予約を依頼することもできますが、今は一旦閉じておきます。続けてください。ピザも追加されているようです。
ここで私はログインする必要があります。これは良い例です。チケットを購入するために資格情報を入力する必要がありますが、先ほど説明したように、オペレーターは確認と制御が正しい場所にあることを確認します。制御を取ることができ、この時点で先ほど説明したようにセッションは完全にプライベートです。
ライブでログインしてみましょう。メール認証コードを使用します。パスワードを覚えていないので…ちょっと待ってください、表示します。これはコピーしないでください。
よし、これで大丈夫です。ここで購入を続けることもできますし、オペレーターに依頼することもできますが、自分で購入を完了させましょう。クリック、クリック、クリック、すべて順調です。注文、購入…ライブでは見せないほうがいいかもしれませんね。
でも、チケットを購入したいんです。よし、できました。このカードをキャンセルします。大丈夫です、ご協力ありがとうございました。
ケイシー:これはどの程度信頼できるのでしょうか?
レイ:多くのデモを見てきましたが、オペレーターは研究プレビューであり、間違いを犯すこともあり、完璧ではないことを改めて強調したいと思います。
とはいえ、いくつかのベンチマークを見て、現時点でのオペレーターの性能を定量化することができます。最初のベンチマークは「OS World」と呼ばれるものです。これはAIエージェントがLinuxなどの一般的なオペレーティングシステムをどれだけうまく操作できるかを測定する評価です。
このタスクでは、CUAは38.1%のスコアを獲得しており、他の公開された結果よりも高いスコアです。このタスクでの人間のパフォーマンスは72.4%なので、まだ成長の余地があります。
もう一つの評価は「Web Arena」と呼ばれるものです。これはAIエージェントがeコマースウェブサイトやソーシャルフォーラムウェブサイトなどの一般的なウェブサイトをどれだけうまく操作できるかを測定します。このタスクでは、CUAは58.1%のスコアを獲得しており、これも他の公開された結果よりも高いですが、人間のパフォーマンスにはまだ及びません。
ケイシー:まだ改善の余地がありますね。
レイ:はい。Web Arenaについて重要な点は、ウェブであっても、画面、マウス、キーボードという同じユニバーサルインターフェースしか与えていないということです。ウェブページの生テキストやどのボタンがクリック可能かといった、タスクの実行に役立つ追加情報は提供していません。人間と同じように、必要な情報はすべてスクリーンショットの中にあります。
現在、オペレーターではブラウザを使用していますが、モデルをUbuntuやMac、その他のコンピューターでも使用することができます。
ヨス:素晴らしいですね。この15分ほどで、今週の用事をすべて済ませました。食料品を買い、テニスコートを予約し、清掃を手配し、チケットも取れました。これこそが、私たちがオペレーターが非常に価値があることだと考えています。明らかに自分でもできるタスクですが、委託することができます。時々行き詰まることもありますが、早期段階だと説明した通りです。戻って手助けすることもできますし、時間とともにどんどん良くなっていくでしょう。
最後に一つ、今日これを公開します。米国のProユーザーに対して徐々に展開を開始し、本日中にはすべての人がアクセスできるようになります。また、APIの開発も進めており、このモデルはAPIでも利用可能になります。数週間以内に公開予定です。
サム:皆さん、すごい仕事をしましたね。これを公開できるのはとてもエキサイティングです。先ほど述べたように初期段階ですが、初期の研究プレビューが人々に愛される製品に発展していくという素晴らしい実績があります。
これは製品の始まりであり、私たちのレベル3のエージェントへの一歩です。人々がこれをどのように使用し、どの方向に進むべきかを一緒に見つけ出していくのが待ち遠しいです。改めておめでとう、楽しんでください。
ありがとうございました。
コメント