OpenAIの新しいOPERATORエージェントが世界を驚かせる！

4,551 文字

OpenAIが初のAIエージェントをリリースしました。これは真にゲームチェンジングな製品で、私たちが実際の生産的な仕事に取り組む間、バックグラウンドで様々なタスクを実行する多くのAIエージェントの輝かしい未来の基準を設定するものです。これは完全にゲームを変えることになると思います。多くの人が見逃している点が多くあるので、まず最初のデモを見て、このAIエージェントについて詳しく説明していきましょう。
これがオペレーターのホームページです。operator.chatgpt.comにあり、ライブストリーム終了後にアクセス可能になります。見ての通り、インターフェースはChatGPTに非常によく似ています。プロンプトを入力すると、オペレーターが可能な限り最善を尽くしてタスクを実行します。
ここに事前に用意されたプロンプトのリストがありますが、これらは推奨事項というよりも、オペレーターができることのアイデアを提供するものです。また、OpenTable、AllRecipes、DoorDash、eBay、Targetなど、様々なブランドと協力して、オペレーターがこれらのウェブサイトで確実に機能するようにしています。
それではデモを始めましょう。まず簡単な例として、OpenTableを使って「今夜7時にBerettaで2人分のテーブルを予約して」と依頼します。この場合、オペレーターにOpenTableを使ってBerettaというサンフランシスコのレストランで予約を入れるよう依頼しています。素晴らしいレストランなので、ぜひ試してみてください。OpenTableを指定しましたが、単に「Beretta」と言うだけでも、検索エンジンを使って予約方法を見つけ出せたでしょう。
クエリを入力するとすぐに、オペレーターはクラウド上で完全にリモートのブラウザを起動しました。私の手はキーボードから離れていて何も入力していませんが、AIが自動的にクリックして操作しています。OpenTableのウェブサイトに行き、Berettaを検索しました。面白いことに、オペレーターはバージニア州だと思っていましたが、サンフランシスコに自動修正しました。
7時の予約は取れませんでしたが、7時45分なら大丈夫そうです。これはタスク委任の良い例で、オペレーターが助けや確認が必要な場合は戻ってきて質問します。実際には、これを見ている必要はなく、他のことをしている間に任せておけば、「7時は無理です」と報告してくれます。
ウェブアプリから始めて、通知などを受け取ることができます。オペレーターがモバイルに移行すれば、一般的なアプリと同様にモバイル通知を受け取ることができます。
アシスタントとのとても簡単なやり取りで、7時の予約が取れないので7時45分はどうかと提案し、重要なアクションを取る前に確認を求めています。この場合、予約はキャンセルできますが、取り消せないアクションの前には確認を求めます。
これが最初のOpenAIオペレーターエージェントのケースでした。オペレーターエージェントの素晴らしい点は、完全に自律的であることです。タスクを与えて、ブラウザで監視する必要がありません。これは重要な機能です。なぜなら、将来的に本当に有用なエージェントは、私たちが他のことをしている間にタスクを実行できるものだからです。
このエージェントの特徴として、特定のチェックポイントで追加の許可を求めてきました。これは非常に良いことですが、将来的にはこれらのモデルが自身で推論し、どの程度の自律性を与えるべきか判断できるようになるでしょう。
オペレーターが作業中に停止して介入する方法を見てみましょう。「コントロールを取る」というボタンをクリックすると、オペレーターが作業するリモートブラウザの制御を取ることができます。これは、ユーザーが任意のタイミングで制御を取り、オペレーターに指示を与えたり、より詳細なガイドができるという点で重要です。
ラップトップを前後に受け渡すように、この場合は2個追加して、オペレーターに「卵を1つ追加したので注文してよい」と伝えます。テイクオーバーモード中は、ローカルブラウザセッションと同じように完全にプライベートで、オペレーターには見えません。これが、オペレーターに伝える必要がある理由の一つです。最後のスクリーンショットを見て推測することはできますが、一緒に作業している人に「完全に混乱したので修正して」と言うようなものです。
Instacartにログインしているのがわかりますが、これはデモの前に行っており、クッキーがクリアされるまではログイン状態が維持されます。設定で制御でき、いつでも削除できます。
オペレーターエージェントの実際の動作を見てみましょう。多くの人が気づいていませんが、このエージェントは人間のように画面を見て、ピクセルを分析し、最終目標と以前の手順に基づいて次のクリック位置と行動を推論します。これが重要な理由は、将来的にこの種のツールが様々なタスクに一般化できることを意味するからです。現在ブラウザで行っているシンプルなタスクは、モデルの信頼性が向上するにつれて、より複雑になっていくでしょう。
研究背景について少し説明しましょう。オペレーターは、OpenAIで訓練した新しいモデル「Computer Using Agent」（CUA）に基づいています。CUAはGPT-4oをベースに、人間と同じように画面を見てマウスとキーボードで制御するように訓練されています。
以前は、オペレーターのようなものを作るには特別なAPIが必要でした。例えば、Instacartで何かを購入させたい場合、InstacartにAPIがあるか確認し、必要な機能がすべてあるか確認し、モデルにAPIの仕様を提供する必要がありました。しかし、ほとんどのウェブサイトはAPIを持っていないため、そこで行き詰まってしまいます。
CUAは、私たちが日常的に使用する同じ基本的なインターフェースを使用する方法をモデルに教えることで、以前はアクセスできなかった全く新しい範囲のソフトウェアを解放します。これはキーボードとマウスを使用しているだけで、AGIへの道のりにおける新たなボトルネックを取り除くことに関する研究プロジェクトです。
このシステムはインターネットブラウジングがかなり得意ですが、まだ人間ほど優れているわけではありません。コンピュータの使用能力について、平均的な人間との比較でどの程度なのか気になるかもしれません。彼らはオペレーターエージェントと人間を比較するベンチマークを実施しました。これらのベンチマークがどのように変化し、モデルが急速に改善していくか見るのは非常に興味深いでしょう。
最初のベンチマーク「OS World」は、LinuxなどのOSをAIエージェントがどれだけうまくナビゲートできるかを測定します。このタスクでCUAは38.1%のスコアを獲得し、他の公開された結果より高いものの、人間のパフォーマンスである72.4%にはまだ及びません。
もう一つのベンチマーク「Web Arena」は、eコマースやソーシャルフォーラムなどの一般的なウェブサイトをAIエージェントがどれだけうまくナビゲートできるかを測定します。このタスクでCUAは58.1%を獲得し、これも他の公開結果より高いものの、まだ人間のパフォーマンスには及びません。
Web Arenaで重要なのは、ウェブとはいえ、画面、マウス、キーボードという普遍的なインターフェースだけを与えていることです。ウェブページの生テキストやクリック可能なボタンに関する情報など、タスクの実行に役立つ追加情報は与えていません。人間と同じように、必要な情報はすべてスクリーンショットの中にあります。
AIエージェントを使用することで、様々な可能性、リスク、セキュリティの脆弱性が生まれます。違法な行為、ハラスメント、その他すべきでないことをインターネット上で行うAIエージェント、あるいは複数のエージェントを想像してみてください。彼らは、AIエージェントが正しく動作し、失敗を防ぎ、個人情報の漏洩やセキュリティの侵害を防ぐフレームワークを開発しました。
オペレーターがあなたの用事を代行するというビジョンに皆が興奮していますが、これは世界に送り出す最初のエージェントの一つで、実世界に影響を与えるものです。そのため、安全な展開方法を慎重に考えました。
例えば、ユーザーが悪意のあるタスク（武器の購入など）を依頼した場合、ChatGPTで行ってきた多くの緩和策を活用できます。有害なタスクの拒否、モデレーションモデル、ポストトーク検出、ウェブサイトのブロックなどです。これらの緩和策は、リスクを段階的に低減し、展開に十分な安心感を得られるようにするためのスタックです。
レストランの予約やチケットの購入時の確認は、すべてその例です。エージェントが間違った商品を購入したり、間違ったホテルの部屋を予約したりするような場合の主な緩和策が確認です。オペレーターは、状態を変更する何かを行う前に戻ってきて、エラーがないかダブルチェックを求めます。
ウェブサイトが不正な場合、偽サイトの場合、あるいは「100ドル送金してください」といった指示の場合、明らかにそれらの指示に従いたくありません。モデルがそのような指示を避け、従わないように開発しましたが、それが失敗した場合のために別のレイヤーも用意しています。これは「プロンプトインジェクションモニター」と呼ばれ、アンチウイルスのように軌跡を観察し、不審な点があれば一時停止します。
このアプローチには自信がありますが、安全性は継続的なプロセスであり、すべてを予測することはできません。この展開から多くを学び、緩和策を改善していきたいと考えています。
これは非常に重要です。AIエージェントがクレジットカードを使用して、ランダムなスキャマーに1,000ドルを送金するようなことがあれば、非常に腹立たしい事態になるでしょう。
AIエージェントが登場し、仮想ブラウザを使って様々な有用なタスクを実行できるようになりましたが、AIエージェントの未来はどうなるのでしょうか。このライブストリームでSammanは、AIエージェントには今後さらに多くの可能性があると話しています。
これは基本的に彼らのAIエージェントへのベータ参入であり、人々がAIエージェントの有用性を真に理解し、実際に意味のあるワークフローを開発できるように、非常にシンプルなものになっています。より包括的なAIエージェントや、他の分野に特化したAIエージェント、おそらくコーディングエージェントなども登場するでしょう。これはOpenAIが最近言及していることなので、内部で使用しているコーディングエージェントについて近い将来話し合うかもしれません。
これは製品の始まりであり、エージェントレベル3への一歩です。人々がこれをどのように使用し、どこに向かうべきかを一緒に見つけ出すことを楽しみにしています。