OpenAIの『OPERATOR』AIエージェント – リリース日と展望

5,735 文字

Open AI's "OPERATOR" AI Agent - Release Date & Speculation

In this video, we dive deep into OpenAI's upcoming project, 'Operator,' set to launch in early 2025. We'll discuss its p...

皆さん、このチャンネルへようこそ。そろそろOpenAIの将来の計画について話し合う時が来たと思います。私たちに何が期待できるのでしょうか。
ご存知の通り、OpenAIはAIが主流になって以来、AIの分野でトップに立ち続けています。確かに動画生成や画像生成、その他いくつかの小さな分野では負けることもありますが、彼らは常に巻き返して、再び王者の座に返り咲いています。
さて、OpenAIは2025年初頭に新しいAIツール「operator」をリリースする準備を進めています。これは自動化と遺伝的AIベースの技術における大きな進歩を目指すものです。複数のステップを要する複雑なタスクを自動化し、最小限の人間の介入で適切な時間内にそれらのタスクを完了するように設計されています。例えば「operatorさん、ピザを注文して」とか「operatorさん、Amazonで○○の最安値を探して」といった具合です。
operatorの包括的な目標は、人間にとって複雑なタスクを大幅に簡略化することです。通常であれば何時間もかかるような調査やウェブ上での比較などが自動化され、あなたは他のことができるようになり、最終的に求めていたものが返ってくるのです。これはかなり素晴らしいことです。
鋭い方々は「既にこういうことができるAIツールがあるじゃないか」と思われるでしょう。その通りです。最近では特にClaudeが独自のコンピュータ使用モデルを発表しました。まあまあですが、素晴らしいというわけではありません。サンドイッチを注文したり、コンピュータをクリックしてアプリを開いたりといった基本的なことはできますが、実用的な面では「これが必要だ！」と感じるようなものはまだ見ていません。
先週お話したMicrosoftのエージェントについても、Claudeよりもっと有望に見えます。ただし、Microsoftのエージェントは4つのエージェントがループ内で協力して動作しているようなもので、悪くはありませんが、これら4つの特定モデルの制限により、特定のタスクで躓く可能性があります。タスク全体の委任、ウェブ検索エージェント、コーディングエージェント、実行エージェントという4つで多くのことができますが、OpenAIのoperatorは全く新しいものを提供してくると思います。
私の推測では、これは明らかに一つのマルチモーダルモデルになるでしょう。このモデルには本質的な違いがあると思います。その背後にあるアーキテクチャは、これまで見たことのないOpenAIの研究から生まれた全く新しいものだと考えています。彼らは恐らく、時間をかけてタスクを完了する人間の行動に特化して訓練を行ってきたのでしょう。
OpenAIはこういうことで知られています。好き嫌いは別として、Chain of Thoughtや大規模言語モデル自体のような技術を開発したパイオニアとして知られています。ChatGPTがAIを主流にし、GoogleやMeta、Xといった企業が後に続いて独自のモデルを作りました。
ここで難しいのは、これらのタスクを実際に完了するためにコンピュータと対話することです。それがどのように展開されるかについて、多くの推測がなされています。例えば、現在のClaudeのコンピュータ使用は、スクリーンショットを撮り、マウスをこの座標に移動してクリックする、あるいはマウスをここに移動してクリックし、キーボードからこれらの文字を入力するといったコマンドを設定しているだけです。これでも機能はしますが、まだかなり不便です。
OpenAIがこの問題にどのように取り組むのか、本当に興味深く思います。MacやWindowsで動作する独自のソフトウェアを開発し、従来のマウスとキーボードの操作とは異なる方法でウェブを操作するのでしょうか？そして、それは大規模言語モデルとどのように結びつくのでしょうか？
もちろんマルチモーダルである必要があります。私の最善の推測では、OpenAIはモデルをコンピュータの動作に直接訓練する方法を見つけ出したのだと思います。つまり、モデルがテキストトークンを通してリアルタイムで思考や推論を行いながら、コンピュータの動作に変換されるトークンも生成できるということです。
私はAI研究者でも科学者でもないので、かなり大きな留保付きで受け止めてください。しかし、これが最も自然で効果的な実装方法に思えます。私の知識は限られているので、私には見えない課題や障壁があるのかもしれません。
operatorのリリース予定時期は2025年初頭、おそらく1月とされています。これはとても近い将来ですが、彼らがかなり前から取り組んでいたということでしょう。これもOpenAIにとっては珍しいことではありません。
高度な音声モードを備えたGPT-4 Omniは驚きでした。Soraを最初に発表した時も、それまでの動画生成モデルよりもはるかに優れていたため、大きな衝撃を与えました。2024年末になってもまだSoraを一般公開していないにもかかわらず、他のAI分野が急速に追いついてきているということは、OpenAIがSoraで私たちに示したものを実現できる能力があることは間違いありません。
2025年初頭には、operatorが業界最高水準のOpenAIへの期待に応えられるかどうかを見ることになります。最近、OpenAIのトップ層から、GPT-4を大きく超えてスケールアップしても、さらなる知能の向上にはあまり結びつかないという発言があったことをご存知の方も多いでしょう。
ここでいうスケーリングとは、モデル自体のパラメータ数、パラメータサイズのことです。この業界を見ている人なら誰にとっても明らかだったと思います。従来のTransformerアーキテクチャでいつスケーリングの壁にぶつかるかは正確にはわかりませんでしたが、いつかは必ず起こることでした。
そして今、GPT-4程度の領域でその壁にぶつかることが明らかになったため、方向性の転換が絶対に必要です。今年の間に、これは新しいスケーリングベクトルを開く Chain of Thoughtモデルのリリースで明確に見られました。
現在のハードウェアで求める結果を得るために、データとアーキテクチャを持つこのパラメータサイズでの訓練におけるスケーリングの壁がどこにあるかを私たちは理解しました。これ以上大きくしても意味がありません。しかし今、私たちは時間でスケールアップすることができます。モデルを使用中、推論時間中にスケールアップできるのです。モデルが思考する時間が長くなれば、潜在的により良い答えが得られる可能性があります。
現在、私たちはそれを実現する01ミニと01プレビューモデルにアクセスできます。これらはかなり優れていますが、サム・アルトマンは最近、01プレビューと01ミニモデルはこのスケーリングにおけるGPT-2のようなものだと述べています。つまり、推論時間のスケーリングにおいてはまだまだ長い道のりがあるということです。
では、AIは減速しているのでしょうか？AIは完全に壁にぶつかったのでしょうか？いいえ、そうではありません。一つの壁にぶつかりましたが、新しい扉が開かれ、その壁はまだ遠い先にあります。その壁に到達するまでにはまだ数年かかり、そしてまた別の形のスケーリングが待っています。
もちろん、この新しいモデルのoperatorについても同様です。私は根本的に異なるものになると予想しています。タスクにどれだけのステップを与えることができるのか、どんなタスクを実行できるのか、そしてどこまで押し進めることができるのか。これらが大きな問いです。
そのため、来年2025年は業界にとって大きな変化を象徴する年になると本当に考えています。特にこのoperatorが成功すれば、より自律的なエージェントに大きな注目が集まるでしょう。私たちは何年も自律性について実験してきましたが、あまり進展がありませんでした。これが大きな飛躍となれば、誰もがその可能性を知り、徹底的に取り組むことになります。
2025年には、オープンソースのコンピュータ使用モデルさえ登場する可能性があり、これは驚くべきことです。OpenAIの取り組みが非常に刺激的な理由は、必ずしもOpenAIの技術自体にアクセスできるからではありません。それも刺激的な部分ですが、より刺激的なのは、業界の残りの部分がどのように反応し、できるだけ早くOpenAIに追いつこうとするかです。
それによって、無料のモデル、オープンソースモデル、そして全体的なコストの低下が実現します。競争は消費者にとって素晴らしいものです。OpenAIとサム・アルトマンの言葉を信じるなら、operatorは次のAIの大きな転換点になるでしょう。
ここで影響についても考えてみる良い機会かもしれません。まず、失業について話しましょう。今日のAI技術でも既にその影響を目にしています。ChatGPTだけでも、テキスト生成全般で既に驚くべきことを成し遂げていますが、少なくともAIにプロンプトを与え、テキストを取り出して別の場所に置く人間が必要です。
operatorのようなものがあれば、おそらく仕事全体を自力で行うことができ、基本的にタスクを委任する人だけが必要になります。したがって、失業は間違いなく懸念事項です。
ところで、AI創出の失業に対する経済的な対処について、本当に説得力のある計画をまだ見ていません。良いアイデアをお持ちの方、何か良さそうな案を聞いたことがある方は、ぜひ教えてください。UBIでさえ、私にはまだ完全には納得できていません。
もちろん、プライバシーやセキュリティなどの他の懸念もあります。operatorのAIがあなたのコンピュータを制御している場合、誰かが悪意を持ってそれをインストールし、ジェイルブレイクして悪事を働かせる可能性もあります。AIを持った犯罪者は非常に危険になる可能性があります。
これは通常OpenAIが得意とする分野であり、おそらくこのAIには制限が設けられるでしょう。そのため、2025年の初期段階については、あまり心配する必要はないと思います。心配すべきなのは、より大きな可能性を秘めたオープンソースモデル、オープンソースのコンピュータ使用モデルが登場し始める時です。より極端な良い結果と悪い結果の両方が可能になります。
これは私が繰り返し述べていることですが、今後も最後になることはないでしょう。私たちはAIの真の可能性のほんの一部にしか触れていません。operatorのような新しい拡張技術がなくても、現在のAI技術は完全に活用され、その潜在能力を発揮するにはほど遠い状態です。
特定の使用事例やシナリオに対するChatGPTのプロンプト方法で、まだ探求されていない新しい方法があります。アート生成、音楽生成、画像入力など、他のすべてのモダリティについても同様です。
私の結論は、AIの爆発的な発展は減速していないということです。それは非常に現実的で、小休止を取ることはあっても、決して本当に止まることはありません。何年経った今でも、これはおそらく人類が経験した最大の技術的ブームだと強く信じています。
電気や、原始時代の火の発明といったものを考慮に入れても、本当にすごいことです。人類がAIの自律性をその限界まで押し進めることができれば、私たちのために何ができないのでしょうか。
もちろん、これは倫理的な議論へと導かれます。AIは感覚を持つことができるのか、意識を持つことができるのか、もしそうなら権利を持つのか。これらすべてに触れるつもりはありません。それは別の動画のテーマですが、考えるべき価値のあることです。
過去3年半から4年の間に、私たちは文字通り私たちは魔法のようなものが目の前で起こり、それにアクセスでき、そして慣れてしまうほどになりました。今となってはChatGPTなしの生活には戻りたくないと思うほど、非常に便利なものになっています。にもかかわらず、まだ多くの人々がAI技術の潜在的な力と、それが私たちの未来にもたらす変化を疑っています。
私が言いたいのは、この魔法は近い将来も止まることはないということです。やるべきことは山ほどあり、未来は間違いなく未来らしくなるでしょう。それは少し威圧的に感じるかもしれませんが、最後に覚えておいてほしいことがあります。
今この動画を見ているあなたは、既に一般の人々よりも最新の情報を持っているということです。これはある種の優位性を与えてくれます。同情的な方々は「それはあまり良いことではない、皆が追いつけるようにすべきだ」と言うかもしれません。私もその通りだと思います。そのために動画を作って頑張っていますが、真実は多くの人々が本当に理解していないということです。彼らはAIに何ができるのか、何が来るのかを知らないのです。
もし家族や友人を大切に思うなら、彼らを教育し、この技術に対して楽観的であり続けてください。確かに、物事に対してオープンに批判的である理由はありますが、未来について否定的に考え込むことには何の意味もありません。
言うは易く行うは難しですが、私はこれらのことについて多くの考えを巡らせてきました。世界がますます狂っていく中で精神的な健全さを保つには、楽観主義が本当に最良の道のように思えます。
皆さんのコメントで、どう思うか聞かせてください。素晴らしい議論をしたいと思います。また、私のDiscordサーバーにもぜひ参加してください。そこにはこういったことについて考えているAIに焦点を当てた人々がたくさんいて、話し合いたがっています。議論を重ね、考えを深めれば深めるほど、より多くの新しいつながりが生まれ、来たるAI技術の爆発的な発展により備えることができます。
視聴ありがとうございました。次の動画でお会いしましょう。さようなら。