OpenAIのエージェントが登場！（OpenAIのOperatorエージェントをテストする）

OpenAI Agents are Here! (Testing out OpenAI's Operator agent)

Learn how to build with LLMs, RAG, and AI Agents in my new courses here: code YOUTUBE20 to get an extra 20% off.---I int...

みなさんこんにちは。OpenAIから非常にエキサイティングなニュースがあります。Operatorとエージェントを導入するというものです。これは基本的にOpenAIのエージェントに関する取り組みの始まりです。各企業がユーザー向けに異なるツールを構築している中で、OpenAIのエージェントへのアプローチの全容が見えてきました。これが今回のローンチの内容でした。まだ初期段階で、主要なエージェントとなるOperatorのリサーチプレビューをリリースしました。私たちにもアクセス権があるので、私がどのように使用するつもりかの例をお見せします。
Operatorの詳細な説明に興味がある方のために、私はいくつかメモを書いておきました。このトレードは全て閲覧可能です。先ほど申し上げたように、これはリサーチプレビューとして米国のProユーザーが利用可能で、後にPlusユーザーにも提供される予定です。基本的にOperatorはウェブブラウザを使用してタスクを実行するシステムです。Operatorはウェブページを閲覧し、タイピング、クリック、スクロールによって操作することができます。
このOperatorエージェントの優れている点は、APIインテグレーションではなく、スクリーンショットを使用して操作することです。これは、Anthropicや他のオープンソーススタートアップ企業で最近見られる開発の良い検証となっています。それはブラウザの使用に関するもので、これらのLLMと強力なAIモデルを接続して、日常的なタスクを自律的に完了させる方法についてです。
例えば、アイテムのリストの画像を提供すると、ショッピングを代行してくれます。すでにInstacartなどの人気サービスとの統合がありますが、一般的な要求をすることもでき、適切なアプリケーションを検索してタスクを完了しようとします。
OperatorはComputer Using Agentというモデルをベースにしており、GPT-4oのビジョン機能と高度な推論を組み合わせています。先ほど述べたように、このモデルはスクリーンショットで操作し、内部モノローグに基づいて次のアクションを決定します。
このOperatorエージェントについて特に興味深いと感じたのは、ヒューマンインザループの概念に大きく依存している点です。つまり、ウェブサイトのスクリーンショットと内部モノローグに基づいていくつかのタスクを自信を持って実行できますが、一部のステップをユーザーに委ねることもあります。これにより、ユーザーとしてコントロールを維持でき、特定の情報の確認など重要なアクションに関して重要です。
安全性に関する情報はこちらでご確認いただけます。動画の下にこのスレッドへのリンクを提供します。こちらがパフォーマンスについてです。クリックしてみましょう。OpenAIのComputer Using Agentのパフォーマンスについて、こちらはOS-Worldというブラウザ使用に関する一般的なベンチマークです。人間のパフォーマンスからどれだけ離れているかがわかります。
だからこそ初期段階だと言っているのです。実際、Sam Altmanはデモの最後で、これは彼らのAGIへのミッションにおけるレベル3 AIへの次のステップの始まりだと述べています。こちらが以前のComputer Using AgentとウェブブラウジングエージェントのSAAです。全体的に良好なパフォーマンスを示していますが、まだ人間のパフォーマンスからは遠く離れています。しかし、これは良いリサーチプレビューです。
では、実際に試してみましょう。私のアカウントにはChat GPT Pro（月額200ドルのプラン）があり、すでにOperatorが利用可能です。新しいウィンドウに移動すると、Chat GPTに似た画面が表示されます。Chat GPTに完全に統合されているわけではありません。ここには試すことができる様々なプロンプトの例があり、すでにいくつかのサービスやウェブページが統合されています。
ダイニング、イベントなどの異なるカテゴリがあります。これらのカテゴリは日常的なものです。デリバリー、ローカルサービス、ショッピング、旅行、ニュースなど、日常的に行うことです。私の理解では、それがOperatorの背後にある考え方です。
いくつかの例を見てみましょう。例えば、今晩2人で予約可能な高評価の寿司レストランを探したい場合、クリックして入力すると、場所や郵便番号の提供を求められます。これは重要で、カスタム指示で郵便番号などの詳細を提供できるため、適切な情報と推奨事項を探すことができます。
ここでは有効にしませんが、代わりにニュースに移動します。これが私が最も興味を持っている部分です。私はエージェントや類似のツールを実験してきましたが、主に技術的なことに興味があります。エンコーディングエージェントや研究エージェントの構築に興味があり、それらが私が通常これらのエージェントを使用する、または使用を計画している目的です。
日常的なことも明らかに重要で有用ですが、私にとってエージェントのキラーアプリケーションは、非常に高度な研究を行うことです。それにより、より多くの仕事をより速く行うことができ、私の仕事の種類においてより生産的になれます。これが私の仕事の分野です。
ここで非常にシンプルなことを試してみましょう。ここのプロンプトの1つを使用します。例えば、新興市場に関する最新ニュースを探すというもので、すでにReutersが含まれています。これを削除することもでき、その場合はウェブ検索を使用します。デフォルトでMicrosoft Bingを使用していると思いますが、与えられた情報に基づいて適切な情報を探そうとします。
これをOperatorに送信すると、ブラウザが開きます。これはリモートブラウジングを行っており、安全な方法で実行されています。全てのことがバックグラウンドで行われていますが、プレビューを見ることができ、アクションをどのように取っているか、どのように移動しているかを確認できます。
研究を行っている場合、これが私がこの特定のカテゴリの問題を好む理由であり、エージェントが本当に優れると思う理由です。なぜなら、何らかの研究やジャーナリズムなどを行っている場合、エージェントが実際に情報を収集するのに時間がかかることを想定すべきだからです。タスク自体の複雑さによって本当に異なります。
ここでは新興市場に関する最新ニュースを探すだけで、Reutersを使用しますが、検索の複雑さによって何度も行き来する可能性があります。アクセス権を得たら、より複雑な検索でテストしてみると面白いでしょう。これは私がすぐに試してみようと思っていることです。
「アルゼンチン経済が昨年半ば以来初めて拡大」というタイトルの記事を見つけました。これはアルゼンチンの経済状態に関する大きなニュースです。しばらくの間、彼らの経済は良好ではありませんでしたが、これは見出しを飾っています。Reuters、その他のニュースメディアハウス、出版物などに行けば、現在この話題を全て扱っています。これは大きなニュースです。モデルによってこれが選ばれたことは全く驚きではありません。良い点は、明らかに最新のものの1つだということです。この特定のニュースの年を見ることができます。
これは単純な例でしたが、コントロールを取ることも提案されました。モデルが何かを行う必要があったり、混乱して私の入力が必要な場合、完全にコントロールを取ることができます。コントロールを取ると、基本的にセッションはプライベートになります。
プライベートとは、ここで提供する情報にエージェントがアクセスできないということです。これはプライバシーの観点から非常に重要です。メール、パスワードなどの個人情報を入力する場合、システムがそれらにアクセスできないことが非常に重要です。
ちなみに、ここでウェブページと再び対話することができます。基本的にコントロールを取るということです。エージェントにコントロールを与えるよう要求し、好きなことができます。これは単にコントロールを取る基本的な例です。その背後には多くの技術的な詳細があり、OpenAIはこれを正しく実現することに多くの努力を注いでいると思います。これはOperatorで得られる体験の重要な部分になるからです。
これを終了して、問題ないと伝えることができます。変更する必要がなかったのでフィードバックを与えることができます。Operatorにコントロールを戻すことができます。それだけです。問題ありません。そうすると、コントロールを取り戻しますが、多くのことは期待していません。ここには「もし追加の情報や支援が必要な場合は、お気軽にお申し付けください。続けて反復することができます」と表示されています。
戻って、Operatorがどのように機能するか非常に興味のあるテストを試してみようと思います。これは初めてこの特定のタスクを試みますが、先ほど言ったように、私は多くの研究を行っています。毎日行うタスクの1つは、arXivやその他の場所に行って最新の論文や最新のAI研究の発展を見つけることです。
私のために、そのようなことができるエージェントを使用したいと思っています。私は自分のエージェントをローカルで構築してきました。Perplexityや、さらにはX.AIやChat GPTの検索を使用する場合、通常はこれに関して良い結果を得られません。時には日付が間違っていたり、古いコンテンツだったりします。
このエージェントが、この特定のタスクを解決し、私を助けることができるかどうか非常に興味があります。これは実際に初めて試みますが、これらのことができることに驚きはありません。それは全く問題ありません。特にニュースセクションは、私がやりたいことと大体同じ線上にあります。
例えば、AIニュースの最新情報を要約してみましょう。これを試して何が得られるか見てみましょう。非常に興味深いです。Axiosを使用するようです。Axiosとも何らかのパートナーシップがあると思います。驚くことではありません。「AIニュースの最新情報を要約する」。通知に関しては「いいえ」と言おうと思います。
基本的にブラウズを開始します。スクリーンショットを撮っています。これを拡大できれば、バックグラウンドで何が起きているかのプレビューが見えます。これは基本的に何が起きているかの要約です。クリックしてみると、スクリーンショットを撮っている場所が見えます。何をしているかの説明があります。待機していることが分かります。何度も待機しています。次に何をすべきか決定するために、この情報、この内部モノローグをスクリーンショットと共に使用しています。
ステップバイステップが本当に重要で、これはChain of Thoughtが実際に動作している例です。これは非常に強力です。コンテンツのAIカテゴリを探索しています。これらが異なるステップです。掘り下げて何をしているか見ることができます。何かが機能していない場合や、異なる方法でプロンプトを与える必要がある場合に、これは非常に役立つでしょう。
OpenAI Operatorに関する情報を収集しています。もちろん、ここでは少しバイアスがかかるでしょう。驚くことではありません。記事をスクロールし、情報を収集します。ピクセルレベルでそれを行っています。これはAPIインテグレーションではありません。そのようなものは何もありません。
「OpenAI Operatorはフォーム入力、注文などのウェブテストを完了できる」と報告しています。これが基本的に収集した情報です。それを見るのは本当に面白いです。非常に似たことをしたいのですが、もっと具体的なことをしたいと思います。
新しい会話に移動して、こちらでプロンプトを入力します。「archive.comからAIエージェントに関する最新のAI論文を探してください。論文を要約してください」。ガイダンスとしてこれを見ることができます。より具体的であればあるほど、結果は良くなるはずだと想像します。
「arXivのComputation and Language（計算と言語）セクションを見ることができます」。archive.orgに変更する必要があると思います。そうですね。これが正しいセクションです。私はこれを送信して、特定のサービスやアプリを選択せずにエンターを押します。ブラウザに移動すると思います。arXivを見つけることを期待しています。うまくいきました。これを詳しく見てみましょう。
「AIの論文のためにarXivにアクセスしています」。特定のセクションを見ることが重要です。「コンピューターサイエンスカテゴリ」。これはもちろん問題ありません。最初にそれを提供すべきでした。検索を行っており、これは本当に興味深いです。私はこのように検索したことがありません。私は通常、直接Computation and Languageに行きますが、これは素晴らしいです。検索を行い、高度な検索を実行しているからです。
私はこのように論文を検索したことはなく、ただ論文リストを見ていますが、検索を行っているためにこのプロセスを経ています。それは非常に整然としており、見るのが本当に面白いです。何らかの方法でここに行く必要があると理解したようです。
異なるものを選択して、「AIエージェント」を検索語として使用しています。それでカテゴリを横断します。それは問題ありません。なぜそうしたのかわかりませんが、CLとCSを探しています。AIエージェントのために検索を絞り込んでいます。異なるステップを見ています。クリックしました。検索を絞り込んでいます。
なぜ絞り込んでいるのかはわかりませんが、おそらくループに入っているようです。ある程度行き詰まっているようです。アブストラクトを見る必要があると思います。何らかの理由でアブストラクトを見ることができないようです。ここで介入して何かを試してみようと思います。
コントロールを取って、アブストラクトを選択し、同じように「エージェント」と入力し、「それらの検索フィルターを使用して終了する」と指示します。エージェントとの対話に関してこれは素晴らしいことです。理想的ではありません。介入する必要があるのは明らかですが、より自動的に行われることを望んでいました。しかし、苦労するだろうと思います。
アブストラクトを見て、タイトルも見ることになります。それが論文を見つける方法です。これらはエージェントに関するものですが、もちろん最初に要約するように指示したタスクがあります。それを期待しています。実際にページまたはPDFを開いたのを見ました。閉じました。おそらくこれらのPDFの各々を開いていくでしょう。それを見るのは本当に面白いです。
選択した論文の詳細にアクセスしています。これが私が最初に言っていたタイプのタスクです。これらは時間がかかる可能性があり、私が興奮しているものです。多くの間違いを犯す可能性はありますが、論文を通じて、私が通常行うプロセスを経ているのを見ています。
通常、最初にアブストラクトを見て、次に論文を開き、導入部分、おそらく結論、いくつかの結果を見ます。それが私が通常行う方法ですが、ここでは要約を求めました。結果を返すように特に求めてはいません。それも興味深いかもしれませんが、ここではナビゲーションと論文の要約に関するものです。
「関連する論文を要約しています。レビューを開始します」。ここにはたくさんの情報があるので、続けると思います。ここでコントロールを取って、タスクを終了するように指示します。「すでに持っているものを要約してください」と伝えます。
これは本当に素晴らしいですね。時間がかかりすぎていたり、好ましくないことをしているのを見たら、介入してエージェントと対話できます。エージェントとの対話という点で非常に強力です。要約すると言っていて、ここにあります。
「FinSphereは株式分析のためのファイナンシャルLLMを強化」。これらの論文のほとんどを見ています。この1つは私のタイムラインで紹介しました。これらは興味深いものですが、見たことがありませんでした。しかしリンクを返していません。
ここで必要なのは、より具体的な指示を与えることだと思います。トップ10やトップ5など、そのようなものを指定しませんでした。これをより迅速にしたい場合は必要です。これが私がこのソリューションを試してみたかった理由です。論文を探すときに何を期待できるかわからないからです。
時には論文を見たり読んだりするのに多くの時間を費やしますが、これをより効果的に行う方法があるかもしれません。指示をより具体的にする必要があるようです。カスタム指示も役立つかもしれませんが、これはすでに非常に強力です。本当に気に入っています。
タスクを完了するのにどれだけ時間がかかったか見ることができます。このタスクを保存できます。保存しましょう。結果が出ました。リンクも欲しかったですね。それは指示できること、改善できることですが、今のところこれで十分です。これを保存します。
「これらのタスクはホームページに表示され、あなただけが利用できます」。良いですね。これを閉じて、以上です。これが私が示したい例です。アクセス権がある場合は試してみてください。希望としては、全ての人がアクセスできるようになり、Plusユーザーも利用できるようになり、より広く利用可能になることです。
現時点では、これはリサーチプレビューです。人々に試してもらい、フィードバックを提供してもらいたいと考えています。フィードバックを提供し、テストすることが重要です。これが向かっている方向です。人々がエージェントについて話すとき、それはタスクの自動化、これらの非常に複雑なタスクの実行についてです。
OpenAIは本当に良いアプローチを取っていると思います。このエージェントはブラウジングを行い、スクリーンショットを撮り、AnthropicのComputer Useと非常によく似ています。それについてもビデオを作る必要があります。Anthropicの他のものについても、同様の技術を構築している既存のオープンソースツールについても同様です。
今回のビデオは以上です。視聴ありがとうございました。まだの方は、いいねとチャンネル登録をご検討ください。何か試してほしいことがあればコメントを残してください。喜んでそうします。次回の動画でまたお会いしましょう。