エージェントの到来: OpenAI Operator と Perplexity Assistant

OpenAIとPerplexityは今夜、わずか数分の間隔で彼らのエージェントを発表しました。OpenAIのカンファレンスを見終わったばかりで、このビデオを録画し始めました。この新しい可能性について簡単に説明したいと思います。
2024年を通して何度も話してきましたが、エージェントとは次のステップです。チャットボットが私たちに何をすべきか教えるだけでなく、エージェントはその行動を実際に実行できるのです。すなわち、行動を説明することから行動を実行することへの移行です。
OpenAIの製品はOperatorと呼ばれています。これが公式サイトで、後でPerplexityと共にリンクを共有します。必ず元のソースを確認してください。30分のカンファレンス動画があり、詳細な説明と多くの例を見ることができるので、ご覧になることをお勧めします。ただし、30分は長すぎるので今は見ません。
先ほど述べたように、この製品はOperatorと呼ばれ、ウェブ上であなたの代わりにタスクを実行できるエージェントです。実際にブラウザを使用して行います。数分程度の短い動画がいくつかありますので、そのうちの1つを画面で見てみましょう。
基本的に、人間のようにウェブブラウザを開き、マウスを動かし、リンクやボタン、インターフェースをクリックし、キーボードで入力することができます。つまり、検索をしたり、チケットを購入したりなど、人間がウェブ上で行うことができることを実行できます。
両社とも、これがベータ版の製品であり、多くのエラーを起こす可能性があることを強調しています。一般的に、この技術はまだ非常に未熟です。そのため、使用時に頻繁にエラーを起こす可能性があります。現時点では、アメリカでのみ利用可能で、世界の他の地域では利用できません。近い将来、他の国々でも利用可能になりますが、ヨーロッパは対象外だと明言されています。
特に、Operatorは最初はProユーザーのみに提供されます。Proユーザーとは月額200ドルを支払うユーザーのことです。その後、Plus、Team、Enterpriseなどのユーザーにも提供される予定です。つまり、現時点では入手が非常に困難で、アメリカに在住していて、月額200ドルのサブスクリプションに加入している必要があります。
パスタが好きな子供のために食材を買うための短い2分程度の動画をお見せします。インターフェースのレベルで実際にどのように機能するかを見ていただけます。プロンプトを書いてInstacartを使用します。Instacartはパートナーの一つです。つまり、OperatorにInstacartのサイトに行って、リングイネのレシピを探し、必要なものを全て購入するよう指示しています。
申し訳ありませんが、動画は早送りできません。少し先に進みましょう。ご覧のように、背後で実際にウェブ上で動作しています。サイトでブラウザを開いており、GPTが内蔵されています。Operatorが裏で何をしているかを示す画面が表示されます。ユーザーはマウスを動かしておらず、Operatorが物理的にブラウザを開き、クリックを行っています。
サイトを実際にナビゲートしているのがわかります。まずリングイネのレシピを探して材料を見つけ、次にInstacartでそれらの材料をカートに入れています。左側には実行している全ての動作が表示されます。サイトに行って、リングイネを探し、スクロールし、クリックして、材料リストを見つけたことがわかります。
先ほど言及したタスクについてですが、正確にクリックしている場所を示してくれます。明らかにかなり遅いですが、以前話したComputer UseやCloudを覚えているでしょうか、全く同じことをします。疑問がある場合は一時停止し、質問をします。つまり、Operatorとユーザーとの間で継続的な対話が行われます。
これは彼らがカンファレンスで非常に明確に説明したことで、発表を見ることをお勧めします。Operatorが一時停止して人間の介入を求める場合があり、一部の機能は完全に禁止されています。例えば、金銭的な取引には人間の確認が必要です。
この種のモデルはCUA（Computer Using Agent）と呼ばれ、先ほど話したCloudと全く同じことを行います。Cloudは恐らくこれらの中で最初に発表した企業の一つです。つまり、ブラウザを開き、マウスを動かし、キーボードで入力し、クリックして行動を実行します。あのオレンジ色の小さなデバイス、Rabbit R1が約束したものの、実現できなかったものと同じです。
アプローチはこの観点からほぼ同じです。GPT-4oのビジョン機能を通じて見ることができ、マウスとキーボードを使用してブラウザで操作します。問題が発生する可能性があり、エラーを起こすこともありますが、一部は自己修正が可能です。ただし、時には人間が介入して問題を解決する必要があります。
例えば、ログイン、CAPTCHAの解決、支払い情報の入力などのタスクでは人間の介入が必要です。彼らは既にパートナーシップを結んでおり、一部のパートナーサイトで既に機能しています。DoorDash、Instacart、OpenTable、Uberなどです。つまり、タクシーを予約したり、レストランのテーブルを予約したり、買い物リストを作成したりできます。
今後さらに多くのパートナーが加わる予定です。Bookingでホテルを予約したり、eBayで商品を購入したりすることもできます。他にも多くのパートナーがあり、近い将来さらに増える予定です。
私が本当に興味深いと思う部分は、安全性とプライバシーに関する部分です。誰もが即座に考えたことですが、クレジットカードで勝手に支払いをしたり、許可なく購入したりしないのかという懸念です。彼らはこの安全性とプライバシーの問題に非常に注意を払っています。
いくつかの機能があります。例えば、テイクオーバーモードでは、人間が物理的に介入してコントロールを取り、エージェントを停止させることができます。確認機能では、「この操作を行おうとしています」「このメールを送ろうとしています、送信してよいですか？」といった明示的な確認を求めます。
また、一部のタスクには制限があり、完全に禁止されている操作もあります。ウォッチモードでは、機密性の高いデータに関しては常に人間の介入を必要とします。
30分の発表全体を見たくない場合は、少なくともこの記事を読むことをお勧めします。リンクを下に残しておきます。
数分前、Perplexityも全く同じようなものを発表しました。現時点では、ブログ記事はまだありませんので、Xから情報を取得しています。このリンクも下に残しておきます。
OpenAIの発表の数分前にPerplexityが発表したのは明らかに戦略的なものです。最近では誰もが注目を集めるためにこのような手法を使っています。これからPerplexityのものも見ていきますが、その前に、まだしていない方は、このビデオに「いいね」と戦略的なコメントをお願いします。
発表後すぐに録画して、できるだけ早くオンラインに公開するためです。「いいね」とコメントに値すると思います。皆さんにとっては簡単な操作ですが、私にとっては視認性の低いアルゴリズムと日々戦うための助けになります。「いいね」を押して、下にコメントを書いてください。何を書いても構いません。コウモリの絵文字でも大丈夫です。
Perplexityは何と言っているでしょうか。Perplexity Assistantを正式に発表しました。検索、推論、複数のアプリにまたがるマルチアプリアクションを実行できます。例えば、夕食の予約、忘れた曲を思い出すこと、タクシーを呼ぶこと、メールを書くことなどができます。
1分の動画をお見せします。最近、YouTubeが他の動画から音楽を使用すると怒るので、音楽は削除しました。この部分はそれほど驚くべきものではありません。曲を見つけるのを手伝ってくれますが、これは長年ShazamやGoogleで行ってきたことです。
検索から行動へと進みます。例えば、デートのために日本食レストランを予約する手伝いをします。レストランを探し、テーブルを見つけます。カメラでの撮影もあります。「この本を読み終わったんだけど、次は何を読むべき？」と聞くと、本の検索をして読むべき本を提案してくれます。
もちろん、Advanced Voice ModsやGPTを使い慣れている人にとって、これらの機能は長年GPTのカメラなどで行ってきたことですが、Perplexityにはこれらの機能がありませんでした。
画面とコンテキストについて説明すると、このページの要約をJohnに送ることができます。画面上のページを要約し、メールの下書きも作成します。また、2時間後の試合を思い出させるように設定することもできます。試合を探して、8時または8時30分にリマインダーを設定します。
つまり、実行可能なタスクをいくつか示しています。この場合もブラウザがあり、Perplexity Assistantはウェブ上で操作を実行し、アクションを起こすことができます。
音声での例を見てみましょう。これらの機能は比較的よく知られていますが、Perplexityにはこれらの機能が欠けていました。cr.comで、5分前にリマインダーを設定します。スマートな部分は、試合を確認し、試合が20時なら20時の5分前にリマインダーを設定することです。
Perplexity Assistantの制限は、現時点ではAndroidでのみ利用可能ということです。通常、機能はiOSで先に公開されますが、今回は違います。そのため、まだ試すことができません。利用可能になったらチュートリアルを作成しますが、現時点ではAndroidでのみ利用可能です。Androidをお持ちの方は既に試すことができます。
もう一つの便利な機能は、アクション間でコンテキストを維持することです。レストランの予約の例でこれを見てみましょう。
小さな余談ですが、これらの動画を見始めた時、AIで作られた動画を見慣れているため、実際の人物なのかAIで作られたものなのか考えてしまいました。あまり動かない、ジェスチャーが少ない、非常に静かにしている人を見ると、すぐにAIではないかと思ってしまいます。
レストランの予約の典型的な例では、直接予約を依頼します。ここで一時停止します。これがエージェントの大きな革新点です。テキストの側面から行動へと移行したのです。「ロンドンの魚料理のレストランを教えて」と言うことはできましたが、最初のレストランを次の火曜日に予約するという機能はありませんでした。
OpenTableに行き、理論的には予約を行ったことがわかります。マルチモーダリティに関する最後の例をお見せしましょう。最初からやり直させてください。
プロテインバーの写真を撮り、ケトジェニックダイエットに適しているか尋ねると、適していると答えます。そして、この会社のカスタマーサービスにメールを送り、製品が気に入っていることを伝えます。
両方の発表とデモは、私にとってそれほど驚くものではありませんでした。ご存じの通り、私は通常かなり興奮しやすい人間です。一部の人によれば、時には度が過ぎるほどです。今回は、基本的なアイデアは既に見たことがあります。Cloudは既にComputer Useを見せており、昨年のRabbit R1プロジェクトでも同様のコンセプトを見ました。
これらの多くの機能は長い間存在していました。ご覧のように、多くの制限があります。方向性は間違いなくこれです。2024年を通して、2025年に最も期待していることの一つはエージェントのブームだと何度も言ってきました。実際、1月になってすでにこの分野に大きな力が注がれています。
現時点では非常に制限されています。ベータ版の製品であるため問題が発生する可能性があり、重大なエラーを起こすことがあります。また、セキュリティ上の理由から意図的に制限されています。ツールに行動の自由を与えると、問題が発生する可能性があることは明らかです。先ほど言及したように、クレジットカードで不正な購入をされることは、起こり得る最も軽微な問題かもしれません。
しかし、一部の機能が完全にブロックされ、制限されていることは理解できます。OpenAIはこれを研究プロジェクトと呼んでおり、ベータ版ですらありません。これはプレビューであり、人々がどのように使用するかを観察し、今後の方向性を決定したいと考えています。
OpenAIのものは非常に興味深く、試してみたいと思います。アメリカ以外でも利用可能になったら、月額200ドルのProサブスクリプションに加入して、テストし、皆さんにお見せしようと考えています。デモだけでなく、実際にツールができることの明確な全体像を把握したいと思います。
同様に、PerplexityのものもiOSで利用可能になったら、専用の動画を作成するかもしれません。Perplexityが見せた多くの機能は、GPT、音声モード、カメラ、そして他のツールを使って既に数年前から実行できることです。
しかし、これらの機能はPerplexityには存在していませんでした。これは、これらの製品が互いの機能をコピーし、ますます類似してきているという私たちがよく話してきたことの証明です。Perplexityを単なる検索エンジンとして見ることは難しくなってきています。なぜなら、GPT、Geminiなども行うような多くの他の機能も備えているからです。
二つのリンクを説明の下に残しておきますので、自分で時間をかけて詳しく調べてみてください。面白い機能がたくさんあります。
OpenAIに関連する興味深い発表といえば、Trumpが発表した5000億ドルの投資についての動画をまだ見ていない方は、OpenAIのための巨大なStargetプロジェクトを作るための発表について話している動画を見てください。今画面に表示されている動画をクリックしてください。
これは経済的な規模だけでなく、監視下に置く必要がある少し危険な側面がいくつかあるため、とても重要です。今画面に表示されている動画をクリックして、Stargetプロジェクトについても見てください。