OpenAIのオペレーター解禁：実環境でのAIエージェントのストレステスト（実践テスト）

9,294 文字

OpenAI Operator UNLEASHED: Stress Testing AI Agents in the Wild (Hands On Testing)

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

OpenAIが突如オペレーターをリリースしました。オペレーターはOpenAIによるAIエージェントの回答で、インターネットの閲覧、様々なオンライン作業、テーブル予約、チケット購入、食料品の注文など、多岐にわたる機能を備えています。新しいモデルやシステムカード、ベンチマークなどがありますが、それらは置いておいて、まずはこのシステムを実際にテストしてみましょう。
ライブストリームに参加してくれた皆さん、ありがとうございます。残念ながらライブではできませんでしたが、アクセス権を得るまでに3、4時間かかってしまったため、これが次善の策です。録画時点ではライブですので、さっそく始めましょう。
まだ全くテストしていないので、一からスタートします。オペレーターは間違える可能性があり、使用するリモートブラウザのスクリーンショットは保存されるため、100%プライベートではないことに注意してください。
まずは簡単なことから始めましょう。最新のAIニュースを取得してみます。ブラウザを開くと、Forbesでポップアップに遭遇し、ニュースに戻ります。ご覧の通り、独自のブラウザを使用しており、ユーザーのデバイスでは実行されず、クラウド上の仮想マシンでホストされています。3つのタブを開いており、ForbesとReutersにアクセスしましたが、ポップアップを回避できませんでした。AGIにはまだ至っていないので、ポップアップを回避できないのは仕方ありません。
タスクが完了すると通知を受け取ることができ、複数のタスクを同時に実行することも可能です。1つの記事を見つけて簡単に要約し、リンクを提供してくれました。今のところまあまあですが、素晴らしいとまでは言えません。
別のことを試してみましょう。Redditのシンギュラリティサブレディット（r/singularity）の人気投稿を見てみましょう。ブラウザを開き、マウスパッドを使って必要な場所に移動する様子が見られます。ネットワークセキュリティによってブロックされたようですが、これはTwitterの投稿でも多くの人が遭遇している問題のようです。自動トラフィックとして認識されてしまうためです。
コントロールを取得すると、オペレーターはスクリーンショットを取らなくなります。サイトデータは保存され、セッション間でログイン状態が維持されるので、中断したところから再開できます。設定でデータを管理することも可能です。
Redditにログインしましたが、これは私のメインアカウントではありません。コントロールを取得している間にRedditにログインしました。さて、どうなるでしょうか。
ログインできたので、Redditをナビゲートできるようになり、キックアウトされることもありません。シンギュラリティサブレディットを検索しています。画面を大きくしてみましょう。
気づいたことの1つは、他のツールと比べてウェブサイトやウェブページのナビゲーションが非常に優れているということです。ブラウザに組み込まれたChromeプラグインなどは非常に優れていますが、キーボードとマウスを使用してナビゲートするエージェントは通常あまり良くありません。しかし、このエージェントはキーボードとマウスを使用しているにもかかわらず、非常に優れています。
サイドバーも見えるように表示を変更してみましょう。スクロールバックして何が起こったのかを確認することもできます。録画のように前後に移動できるので、エージェントが何をしたのか確認したい場合は、戻って確認し、「ライブに戻る」をクリックすれば現在の状態に戻れます。しかし、投稿を探してスクロールしているようですが、固まっているようです。
ブラウザがクラッシュした可能性があるので、新しいスレッドを開始し、「シンギュラリティサブレディットの今日の上位5件の投稿は何ですか？」と尋ねてみましょう。大きな画面を開いて様子を見てみましょう。
reddit.comにアクセスし、シンギュラリティを検索します。見つかりました。シンギュラリティサブレディットに移動し、投稿のソートオプションを探索しています。「人気」と「今日」を選択しました。素晴らしいです。スクロールダウンして上位の投稿を確認しています。
10～15秒ほどで完了し、タイトル、投稿者のユーザー名、投稿からの経過時間を表示してくれました。ユーザー名も表示されますが、中には過激なユーザー名もあるので面白いことになるかもしれません。
これまでテストした中で、ブラウザに組み込まれていないキーボードとマウスを使用するAIエージェントとしては最高のものです。Redditは恐らく集中的にトレーニングされたものではないと思いますが、間違いなくAランクを与えられます。
最初は躓きましたが、それはブラウザの問題かもしれません。新しいチャットウィンドウを開くと、Redditの詳細が保存されており、求めていたものを正確に見つけることができました。最初に問題があったのは、要件を明確に指定していなかったためです。今日の投稿の上位を見たいと具体的に書いたところ、正確に探し出すことができました。
もう1つのプロンプトを試してみましょう。この5番目の「オペレーターはproユーザーが利用可能」という投稿にコメントしてみましょう。「これはオペレーターです。この投稿にコメントできるかテストしています」と書いてみましょう。誰かがツイートさせることに成功し、そのツイートには「誰々に代わってオペレーターが投稿」と書かれていたようです。
スレッドにコメントできないと言っています。では、新しいスレッドを開始して「Sam Altmanの最新の投稿は何ですか？」と聞いてみましょう。画面を拡大します。
これまでの印象をまとめると、すべてが読み込まれるまで待機し、急いで進まないのですが、バックグラウンドで動作できるため、それほど問題ではありません。通知を有効にしておけば、タスクが完了したときや問題が発生したときに通知してくれます。これがエージェントの大きな利点で、タスクを実行させておいて、後で結果を報告させることができます。
Sam Altmanのブログを訪問していますが、これは間違いでした。Twitterではなくブログを見ています。申し訳ありません、夜も遅く、このシステムが利用可能になるのを3時間待っていたので長い一日でした。私はTwitterを想定していましたが、Twitter/Xと指定しませんでした。そのため、Sam AltmanのブログでReflectionsという投稿を見つけて読んでくれています。
気にしないでください、小さなロボットさん。評価を下げるつもりはありませんでした。「Sam Altmanのブログで最新の投稿『Reflections』を見つけました。ChatGPTの2周年と開眼の進歩について議論しています。リンクをコピーしましょうか？」と言っています。完璧です。
コメントなしで「いいね」「よくない」を押せたらいいのですが。ところで、新年の抱負はありますか？私と同じく体を鍛えることですか？ハイタッチ！誰が先に挫折するか見てみましょう。
ところで、サンプルの食事プランがあります。99%脂肪フリーの七面鳥の胸肉、玄米、1食あたり約10個のアーモンドなどが含まれています。卵白とブロッコリーもありますよね。このスクリーンショットをオペレーターにアップロードして、必要なものをすべて購入してもらえるか試してみましょう。スクリーンショットは十分読める状態です。
「食事プランに必要なものをすべてInstacartから注文してください」と指示して、実行ボタンを押します。これが完璧でなくても、90%程度正確に実行できれば、非常に印象的だと言えるでしょう。特に、同様のAIエージェントと比較した場合です。
ポップアップに遭遇しましたが、うまく回避できました。検索バーでブルーベリーを探しています。クラウド上のリモートデスクトップなので、場所の特定ができていないようです。見知らぬ地域コードが表示されています。
ブルーベリーをパイント当たり2.75ドルで見つけ、カートに追加するか確認してきました。選択を確認してくるのは素晴らしいですね。将来、音声モードと連携して耳元でささやくように確認できるようになれば、とても便利になるでしょう。
「最初からやり直して、サンディエゴのコストコを探してください。住所を指定します」と伝えましょう。これは私の実際の住所ではないので、何も送らないでください。
Instacartに住所を入力しています。その住所に来ていただいても構いませんが、私はそこにいません。
数秒間待機していましたが、実は返答を待っていたようです。その場所に更新したいと言っているので、「いいね」ボタンではなく、「はい、承認します。続行してください」と返信する必要があります。時々確認のために立ち止まるので、「はい、続けてください」と返信する必要があります。
場所が見つかり、コストコを指定したようです。エリア内のコストコ店舗を探すためにメニューを使用しています。火災救援への寄付を求めるポップアップが表示されましたが、すべての資金を寄付せずに回避できるか見てみましょう。最近、LAエリアで大規模な火災があり、深刻な状況でした。そのため、多くの寄付活動が行われています。
ログインして続行するよう求められているので、コントロールを取得してログインしましょう。AIエージェントがすべての作業を自動化した時に、余った時間で何をするのかと思っている人がいるかもしれませんが、その答えは、これまでに見たことのないような高度なキャプチャを解くことです。例えば、ここではすべての消火栓を選択する必要があります。仕事が自動化されたら、これが私たちに残された唯一の仕事になるでしょう。
次は横断歩道です。大きな問題が見えてきました。新しいアカウントを作成させてくれません。これはリモートブラウザを使用しているためで、多くの問題の原因となるでしょう。しかし、それは問題ありません。副次的なGmailアカウントを持っているので、Chromeベースのブラウザを使用しているようなので、ログインして物事を進めやすくなるか試してみましょう。基本的に、Googleにサインアップして、既存のGoogleアカウントを使用します。
そのGmailアカウントにログインでき、InstacartにGoogleでログインすることができました。なぜかこのIPアドレスがDe Moにあると認識されているようで、明らかにそこにない住所を入力しようとしているので、様々な問題が発生するでしょう。完了をクリックしますが、何をしましたか？Instacartにログインしました。再度ログインを求められていますが、すでに完了していると伝えましょう。
コントロールを取得したときの動作を認識していないようなので、通知する必要があります。ログインして、フィードバックウィンドウが表示されますが、それはOpenAI向けのものなので、その後でオペレーターに「Instacartにログインしました」と伝える必要があります。
さて、コストコはチェック済み、正しい住所も確認済みです。ブルーベリーを見つけ、Instacartのポップアップを閉じています。AIエージェントの素晴らしい点の1つは、多くのポップアップを回避できることです。
カークランドの卵白をカートに追加しました。最初の一回だけ承認を求めてきました。卵白と有機オートミールを追加しました。ライブストリームで、早期アクセスを得た人が、正しい商品を選択するのが得意ではないと指摘していました。最初に表示された商品を選ぶ傾向があるようです。オートミールが最初に表示された商品だったかどうかは分かりませんが、1つを選択しました。
カスタム指示で、オーガニックか非オーガニック、ブランド品かジェネリックかなどを指定すれば、より正確な選択ができるようになるでしょう。この後、実際の成分を確認できるかチェックしてみたいと思います。商品をクリックすると、通常は成分や栄養表示を含む複数の商品画像があるはずです。
それはそれとして、このスクリーンショットを見てみましょう。私用ではないので、合計を調整する必要があるかもしれませんが、多くのデータが含まれています。バナナ、ピーナッツバター、ホエイプロテイン、七面鳥の胸肉、ヤム、カシューナッツ、アボカド、バルサミコ酢、エビ、卵白、卵、ほうれん草を見つけました。エビがあったか見てみましょう。
驚くべきことに、その間に栄養成分表を見つけ出していました。カークランドのピーナッツバターは1食あたり総糖質1グラム、添加糖類0グラムで、スクリーンショットも提供してくれました。別のピーナッツバターを選びますか、このオプションで進めますか？と聞いてきました。これは素晴らしい成果です。「それで良いです。会計に進みましょう」と伝えましょう。
これまでに言いましたが、現時点で間違いなく最高のコンピュータ操作エージェントです。Anthropicよりも優れているように見え、他のサードパーティアプリよりも優れています。ただし、比較の公平性を保つため、ChromeブラウザなどにプラグインとしてLDて直接統合されているものは、時として더잘작動할수있습니다が、それらはキーボードとマウスで実際にウェブサイトをナビゲートしているわけではありません。
配送時間を指定しましょう。早めにしましょう。次に支払い方法がありますが、今はクレジットカードを追加するつもりはありません。支払い方法が保存されていれば、これらのステップを完了できるはずです。
エビを追加したか覚えていませんので、どのエビを選んだのか確認してもらいましょう。約20秒間固まっていましたが、エビが見つからないと考えているようです。
エビを忘れたことに気づき、追加を始めています。ブラウザを制御し、エビはすでにカートに入っていることが分かりました。実際にエビを追加した場所を示してくれましたが、スクリーンショットは機能していません。しかし、マウスの動きは記録されており、エビはカートに入っています。
A+を与えようとしていましたが、カートの中身を確認する際にスクロールアップとダウンに問題があったようです。Instacartのアプリとウェブサイトを使用した経験がありますが、設計があまり良くないので、エージェントの責任とは言えないかもしれません。カートに何かが入っているかを確認する際にスクロールに問題があることを除けば、Aランクを与えられます。
最後にもう1つ、arXivで機械学習に関する最新の論文を探して、上位5件の要約を提供するように依頼しましょう。その間に、これまでの印象をまとめてみましょう。
最大の障壁はAIエージェント自体ではなく、ブラウザにあるように見えます。エージェントはかなり優れていますが、最初は数回タスクに失敗しました。しかし、ログインして認証情報を提供すると、シームレスにタスクを実行できるようになりました。特に繰り返し行うタスクの場合、必要な情報と認証情報を提供すれば、非常にうまく実行できます。Instacartでの性能には非常に感銘を受けました。
4つの異なるタブを開き、それぞれを新しいタブで賢く開いており、完了しました。各論文を確認して簡単な要約を提供してくれました。すばらしい成果です。
これまでの評価をまとめると、3つのカテゴリーに分けることができます：

やりたいことを理解し、推論し、計画を立てて実行する能力
コンピュータを使用するAIエージェントとしての能力
ブラウザとインターフェース、その他の技術面での性能

まず、推論能力はA+です。誤解はなく、やりたいことを完璧に理解し、必要なタスクを記憶し、スクリーンショットからの文字認識など、すべてが素晴らしい出来でした。
ナビゲーションも非常に優れています。クリックミスはなく、問題もほとんどありませんでした。一度カートのスクロールに苦労したように見えましたが、それが実際の問題だったかどうかも分かりません。エビがカートに追加済みだと認識できなかったことは、自身の行動を記憶する機能があれば改善できたかもしれません。しかし、全体的にAランクの性能です。
最後に、ブラウザと技術面については、最も弱い部分です。初期状態ではBランクですが、ログインして認証情報が保存されると、急速に改善されAランクに近づきます。住所の入力なども上手く扱えます。新しいアカウントを作成しようとしてキャプチャに苦労したのは、既存のアカウントやGoogleアカウントを使用すれば回避できた問題です。
一部のユーザーは、使いづらい、遅い、等々と不満を感じるかもしれません。しかし、1年以上にわたって様々なエージェントをテストしてきた経験から、これは間違いなく最先端の技術です。人間と比較すると、まだ完璧ではありませんが、研究プレビューやデモとしては印象的です。エンドユーザーが重要な日常タスクに使用できる商用製品としてはまだ準備が整っていませんが、技術の進歩は急速です。より多くのユーザーがフィードバックを提供することで、週単位、月単位で改善が進むでしょう。
このオペレーターを動かしているのは、コンピュータを使用するエージェントです。ライブストリームで言及されたように、これは新しいモデルで、GPT-4のビジョン機能と、強化学習とKua（クア）を組み合わせたものです。Kuaは、ボタン、メニュー、テキストフィールドなどのグラフィカルユーザーインターフェースを、人間と同じようにマウスとキーボードで操作するようにトレーニングされています。
Kuaはまだ初期段階で制限はありますが、新しい最高水準のベンチマーク結果を達成しています。完全なコンピュータ使用タスクのOS Worldで38.1%の成功率、WabArenaのウェブベースタスクで58.1%、Web Voyagerで87%を達成しており、他のどのシステムよりもかなり優れた成績です。
仕組みとしては、ブラウザと仮想マシンですべてが実行されます。これには安全性や柔軟性の面で多くの利点がありますが、セキュリティ上の理由やトラフィック管理の問題から、多くの企業は仮想マシンからのアクセスを制限しています。そのため、「アクセスできません」というメッセージが表示され、認証情報でログインする必要があります。
Kuaは画面上の生のピクセルデータを処理し、仮想マウスとキーボードを使用してアクションを実行します。これが重要な点です。他のエージェントはより優れた性能を示すかもしれませんが、このシステムは人間と同じように、目で画面を見て、マウスとキーボードでクリックや入力を行っています。
マルチステップのタスクをこなし、エラーを処理し、予期せぬ変更に適応できます。Instacartでの買い物体験で見たように、商品選択から他のすべての面で非常に優れた性能を示しました。ほとんどのステップを自動で処理しながら、必要に応じてユーザーに介入を求めます。
ベンチマーク結果を見ると、一般的なコンピュータ使用を測るOS Worldでは、以前の最高水準が22%の精度だったのに対し、人間は72.4%、OpenAIは38%を達成しました。以前の最高水準から人間レベルまでの差の約3分の1を埋めたことになります。
ブラウザ使用を測るWeb Arenaでは、以前の最高水準が36%、人間が78%だったのに対し、OpenAIのKuaは58%まで向上しました。これは興味深い点です。生のピクセルデータとマウス・キーボード操作において、ブラウザに直接組み込まれた従来のエージェントよりも優れた性能を示しています。Web Voyagerでも同様で、87%という高い成績を達成し、コンピュータ使用では以前の最高水準を大きく上回り、ウェブブラウジングエージェントと同等の性能を示しています。
これは新しいモデルなので、GPT-3やGPT-4のような大きなブレークスルーと改善が期待できます。すでに現時点でもかなりの性能を示しています。
急いでマインスイーパーのオンラインゲームを見つけて、勝てるかどうか試してみました。マインスイーパーを見つけましたが、一部がブロックされています。これは仮想マシンの設定による問題ですが、おそらく現時点で最良の解決策でしょう。最終的には自分のコンピュータで実行できるようになることが望ましいですが、OpenAIがその機能を提供するかどうかは分かりません。
難易度を選択でき、イージーモードを選びました。チュートリアルのポップアップを閉じ、ランダムなマスをクリックしてゲームを開始します。もし勝てたら驚きですね。マインスイーパーをプレイしており、おそらく多くの人間より上手くプレイするでしょう。
地雷があるはずだと判断し、フラグを立てています。ゲームを知らない人のために説明すると、数字はそのマスの周囲にある地雷の数を示しています。爆発してしまいました。まだAGIには達していないようです。
新しいゲームを開始しましたが、諦めるか勝つまでどれだけのゲームをプレイするのか興味深いところです。フラグの設定があまり上手くありません。意味のない場所にフラグを立てているように見えます。爆発しそうです。ゲームの仕組みを理解できていないようです。フラグを立てたマスの周りを調べていると言っていますが、ランダムにクリックしているように見えます。「よく考えてやっています」と言って私を騙そうとしているようですが、これまでは運が良かっただけです。爆発しましたが、3回目のゲームを開始しています。
これ以上は続けませんが、どこまで続けるか報告します。24分間実行して、マインスイーパー50、オペレーター0でした。笑わないでください、1年後にはあなたの確定申告をやってくれるかもしれません。
感想はいかがですか？印象的でしたか、それとも失望しましたか？オンラインでは使いづらい、あまり良くないという否定的なコメントも見られますが、これがGPT-2やGPT-3のような段階だとすれば、改善の余地は大きいです。
マインスイーパーでは爆発して最初からやり直しになりましたが、出だしは悪くありません。まだマインスイーパーには対応できていないかもしれませんが、Instacartでは素晴らしい性能を示し、Redditの閲覧なども問題なくこなせています。
限られたテストの結果では、良好な結果が得られています。ご視聴ありがとうございました。私はWes Rでした。また会いましょう。