2025年のAIエージェントとAGIは現実となるのか?

9,789 文字

YouTube
作成した動画を友だち、家族、世界中の人たちと共有

皆さん、2025年が到来し、今年のトレンドを理解しようとしています。人工知能がどの方向に向かうのか、そしてAIエージェントについて少し議論してみましょう。2025年のエージェントに対する期待は何か、成功するのか失敗するのか、物事がどの方向に向かっているのかを一緒に見ていきましょう。
まず、いつものようにライクをくれた皆さん、チャンネル登録してくれた皆さん、そして特にこのAIチャンネルをスポンサーしてくれているメンバーの皆さんに感謝します。
こちらのニュースを見てください。AIのスケールに関する大きな議論は2025年まで続いています。AGIは実現するのでしょうか?2025年に入るにつれて、AIコミュニティは人工知能の進歩を本当に推進するものについて意見が分かれ続けています。これは簡単に気づくことができますね。年々、汎用人工知能が実現すると信じる人が増えており、懐疑的だった人たちのグループは縮小しています。
しかし、そこに到達するにはどうすればよいのか、それはまだ明確ではありません。Gary Marcusは彼特有の懐疑的な態度で年を始めました。OpenAIは製品を、それらが確実になり広く手頃な価格で利用可能になる数ヶ月、場合によっては数年前にプレビューし続けるでしょう。これは誰もが知っていたことですが、今では明らかになっています。製品が本当に公開されるまで、少なくとも数ヶ月から数年間は引き出しの中に入っているということです。
彼は、AIモデルからの控えめなリターンを予測し、注目を集めているAIエージェントは、おそらく非常に限定された使用ケースを除いて、2025年にその約束を果たさないだろうと警告しています。ここが、誰もが何をすべきか分からない部分です。AIエージェントは実現するのか、しないのか、どのように機能するのか。なぜなら、すでにエージェントを作っている人々がいますが、そこには制限があり、それについてこれから話していきます。
最近Googleを10年間勤めた後に自身の会社を立ち上げたAI研究者のFrançois Cholet、彼のベンチマークArc AGIは最近、OpenAIのo3モデルが良いパフォーマンスを示した後に話題を呼びましたが、問題に対してより多くのコンピューティングとデータを投入することは答えではないと示唆しています。
ここで注目すべきは、Gary MarcusとCholetは両方とも懐疑的で、Choletは特に何も気に入らない批判的な人物だということです。インターネット上では、年々情報が増えれば AIはより賢くなるという考えが広がっていますが、それは違います。それは知性への道ではありません。
データ量を増やすという観点で興味深いのは、私たちの人生にも似たようなことがあるということです。時には10年間同じ場所で停滞することがあります。なぜなら、知性は量ではなく、あなたがやっていることの質によって発展するからです。私が誰かの知性を向上させるメンターをする時、その人の知性を高めるための戦略は、新しい知識を獲得することと同じくらい重要だということを常に明確にしています。
空手などの日本の武術にあるように、少ない努力で大きな影響を与えることができる弱点があります。それが知性というものです。少ない努力で大きな影響を与えること。その点を見つけるのに時間がかかることもありますが、長期間多くの努力を続けると疲れ果てて、どこにも到達できません。このような精神的な戦略が、AIがよりスマートなプロセスになるために不足しているものです。
実際、彼は「本当にAIを理解している人なら、わずか100万ドルのトレーニングコストでAGIを開発できる」と主張しています。これは単純なことのように見えますね。100万ドルがあって、ちょっとトレーニングをすれば全て上手くいくように。しかし、それほど簡単ではありません。いずれにせよ、彼は自分の意見として直接的な道筋を示しています。これは常に彼の意見であることを覚えておいてください。
Elon MuskのxAIに創設メンバーとして加わるためにDeepMindを去ったToby Pollenは、Choletに反論しました。Pollenによると、DeepMindはかつてCholetの考えを共有し、大規模なスケールは必要ないと考えていましたが、証拠は常に反対の方向を示し続けていたとのことです。しかし、xAIの巨大なクラスターでさえ、20万台のNVIDIA GPUの達成を計画していますが、2024年末までに「全ての指標で世界最強のAI」というMuskの約束は果たされていません。
皆さん、理解していますよね。Muskは巨大なデータセンターを作り、誰もが今までトレーニングした以上のトレーニングを行えば上手くいくと賭けているのです。そして人々はこれを批判して、うまくいっていないように見えると言っています。
しかし、私が言えるのは、これが成功したかどうかを判断するのはまだ早いということです。なぜなら、テストを重ねて物事が失敗するにつれて、私たちは限界を見ることができ、その限界から修正が始まり、修正から改善が生まれるからです。だから、ここからは良いものが生まれる可能性があるので、注目し続ける必要があります。
Allen AIのTeam Detsは最近、3つの可能性のある道筋をマッピングしました:従来のデータセンターのスケーリング(彼の考えでは数年以上続く可能性がある)、専門化またはフレキシブルなモデルにつながる動的スケーリング、そして他のスケーリングアプローチとは全く異なるルールに従う可能性のある知識の蒸留です。
基本的には次のようになります。最初のアイデアは大量のトレーニングを行うこと、2番目のアイデアは複数の専門モデルがあり、それらを方向付けて何が起こるかを定義する専門家の混合のようなもの、そして3番目の知識の蒸留は、専門家が小さなものを教えるという考え、つまりあるAIが別のAIを支援するという考えで、これが最も有望な道のように見えます。
結局のところ、Detmersは完璧な嵐が形成されつつあると見ています。物理的な制限と収穫逓減の組み合わせは、スケーリングの時代の終わりを意味する可能性があります。これは非常に興味深いですね。一部の人々はまだスケーリングという考えが上手くいかないと主張していますが、私はすでに業界の人々と話し、探求できる可能性を観察して、全ての可能性のすべてのテストを行うにはまだ程遠いと言いました。
あのような感じで、これをやった?あれをやった?という具合に、このリストは長いのです。これは、まだやるべきことが多くあることを意味します。まだスケーリングを放棄する時期ではありません。
この議論の新しい境界線は、OpenAIのo3などのモデルの背後にあるアプローチであるテスト時のコンピューティングスケーリングで開かれました。これらは、テスト時のスケーリングと呼ばれています。なぜなら、知性は学習した後、トレーニングを行い、モデルを持ち、強化学習を使用してその応答を微調整するからです。
Hugging Faceの研究者たちは最近、事前トレーニングではなく推論段階に大規模なコンピューティングパワーを移行するこの戦略を検証しました。そして常に覚えておいてください、推論段階とは質問をしてチャットが応答する時のことで、事前トレーニングは機械に自動トレーニングを行わせることです。
有望ではありますが、Arcのようなベンチマークでのo3の高い実行コストは、私たちが1つのスケーリングの課題を別のものと交換しているだけだということを示唆しています。このArc AGIでは特に、すでにこれについて話しましたが、ここでこの値が6,000から10,000の間にあることを見てください。これは、このテストを解くのに少なくとも6,000ドルかかったことを意味します。これはこのコストグラフの中間あたりにあたります。
このトレーニングについての興味深いデータは、それが57億のトークンを生成したということです。その通り、57億のトークンです。もし単語だったら57億の単語になり、それはかなりの量のテキストです。物事はそれほど単純ではありません。
彼らはここでコメントしています:これは単なる学術的な議論ではありません。OpenAIやNVIDIAのようなビッグテックとAI企業の評価の上昇は、スケーリングが進歩に等しいという約束に基づいて構築されてきました。もしスケーリング懐疑論者が正しければ、私たちは単なる技術的な行き詰まりに直面しているだけではなく、金融市場に衝撃波を送る可能性のある技術評価の大規模な修正を見ているかもしれません。
この問題は、モデルを成長させ続けることと、このLLMモデルが行き詰まりである可能性があるということですが、彼らが言っていない重要なことがあります。人間の心の機能として、何かが可能であることを発見した時と、それが実現可能かどうかさえわからない時とでは異なります。
LLMsは、コンピュータに知性を入れることが可能であることを示しました。そして今、戦略は変わります。もはや可能かどうかではなく、どうやってこれを改善するかという考えになります。これは新しい技術が登場し、すでに行われたことを改善できることを意味します。
これは常にそうでした。飛行機を発明するまで、誰も飛行機が作れるかどうかわかりませんでした。しかしサントス・デュモンの14-Bisが歪んだ形で飛んだ後、人々は確信を持ちました。できるのです。今や改善する方法を見つけることが問題です。
そして今日14-Bisを見ると、逆さまの飛行機のように見えます。これは、サントス・デュモンが考えていたことすべてが逆さまだったことを意味し、今日私たちがLLMについて想像していることの多くが間違っているかもしれません。しかし、これは飛行機作成以前の段階に戻ったことを意味するものではありません。今や私たちは飛べることを知っています。それは別の世界なのです。
2番目の重要な問題は、2025年のAIエージェントは過度に膨らんだ期待を管理することに焦点を当てるだろうということです。これは、多くの人々がエージェントが自動的にすべてを解決し、会社全体の仕事を置き換え、利益と笑顔と幸せの世界になると考えているために言及されています。そして、みんなが迷子になっていますが、見てください。
AIの世界は2025年のエージェントに関する予測で盛り上がっていますが、基礎を築いている人々の中には、そのスケジュールについてより慎重な人々もいます。GoogleのLaGrandとStudioを率い、API NAを管理するPatrickは最近、今年のAIの行方についての考えをXで共有しました。
彼は、AIの生成技術がすでに広範な採用に十分成熟していると信じています。これには私も大いに同意します。すでに他の機会にも話しましたが、画像生成やビデオ生成はすでに有用なレベルの成熟度に達しており、それで問題ありません。改善されればそれは素晴らしいことですが、改善されなくても既に最高のレベルに達しています。私たちは既に優れたレベルに到達しており、今やすでに行われたことを発展させ続けるだけです。
しかし、ここで2025年は、それが人気になる年になるでしょう。その通りです。みんなが画像生成に慣れ、2023年のDALL-Eで初めてそれを見た時のように、画像を生成できることにもはや驚かなくなりました。
しかし、AIエージェントに関して、Patrickは数十億人のユーザーの大規模な展開に対応できるようになる前に、もう少し作業が必要だと言っています。これは非常に現実的で、私も大いに同意します。
彼は、AI能力が技術的に可能になってから広く採用されるまでに通常12ヶ月のギャップがあることを強調し、より多くのエージェントの重要な展開は2026年頃になると予測しています。
私はこのような数字での予測はあまり好きではありません。なぜなら、画像に関するこれらのアイデアはLLMsとほぼ同時期に登場し、明らかに画像が先に成熟したからです。したがって、これらの値は彼の推測です。私が信じているのは、エージェントを適切に機能させるためにはハルシネーション(幻覚)の問題を解決する必要があるということです。
Microsoftのイノベーション担当CEOもまだ時期尚早だと同意しています。Microsoft AIのCEOであるMustafa Suleimanは、この慎重な見方を共有しており、2024年6月に、AIモデルは特定の狭い範囲のタスクを自律的に処理できるものの、一貫して良好に機能するためには2年後にさらに2世代のモデルが必要になると説明しました。
そして私は何世代必要なのかはわかりません。問題はハルシネーションを解決することです。彼が言うように、課題はモデルがユーザーの各リクエストに正確な機能で応答できるようにすることです。
Suleimanは、今日の80%の精度は信頼できるAIエージェントには十分ではないと強調しています。ユーザーがそれらを信頼するためには99%の精度が必要です。これは非常に現実的ですよね。100万円の車を販売する必要があり、80%の場合にはその価格で販売できるが、残りの20%ではできないとすると、それは機能しません。99%以上である必要があります。
そこに到達するには約100倍のコンピューティングパワーが必要で、彼はGPT-6まではそれを見ることはないだろうと考えています。しかし重要なのは、少なくともこれを解決するための道筋があるように見えることです。私は技術が変化すると信じています。すでに言ったように、問題を解決できることはわかっています。今や創造性の問題です。
それでも、主要なプレイヤーたちは手をこまねいているわけではありません。GoogleはGemini 2.0でエージェントのアジェンダを進めており、OpenAIは1月にウェブ閲覧などのタスクを処理できるAIエージェントOperatorをリリースする計画だと言われています。
ある意味で、誰もが自分のバージョンを作っています。つまり、いくつかのアクションを実行できる人工知能を作ることです。私はすでにAnthropicのコンピュータの使用についてのビデオを作りました。メッセージを送ったりメールを送ったりするその人工知能を見て、「でもBob、これは既にできていた。私はこれを行うプログラムを作って問題を解決していた」と言う人もいます。
問題はそこではありません。問題は、今やプログラミングを知らない素人が、何も知らない人でさえ、コンピュータにやるべきことを大まかに説明するだけで、それができるということです。この簡単さが今の目新しさであり、タスク自体ではありません。
しかし、彼は続けます:私たちはAIのハイプサイクルを十分に見てきたので、発表されることと実際に機能することの間にはしばしばギャップがあることを知っています。したがって、これらが重要な進歩なのか、それとも単に投資家を喜ばせるための物語なのかを常に問うべきです。
私は、これまで見てきたすべてのAIハイプの中で、これが最も現実的なものだと信じています。これは最も多くの結果を出しているものです。100%問題を解決しているわけではありませんが、すでにかなり高度なレベルの解決策を提供しています。
そして、人々は引き続き興奮していても問題ないと私は言いたいです。現実を見据えておくのは常に良いことですが、本当の真実は、物事は進歩しており、全く行き詰まっていないということです。
エージェントを現実のものにするものは何でしょうか?大規模言語モデルと複雑なプロンプトを定期的に扱う人なら誰でも、なぜPatrickとSuleimanが比較的慎重なのかを知っています。LLMsは依然として信頼性、特に詳細な複数段階の指示を扱うことに苦労しています。
その通りです。なぜなら、エージェントが1ステップだけのタスクを持っている場合、80%のエラーの可能性があります。2つのステップがある場合、それぞれに80%があり、エラーは増加し始めます。3つのステップがある場合、それぞれに80%があり、エラーは増加し続けます。
最初のステップでエラーを犯すと、それが2番目のエラーを増加させ、それが3番目のエラーを増加させ、物事を悪化させるだけの追加のエラーになるからです。したがって、私たちは本当に慎重である必要があります。
しかし、より深い問題があります。エージェントについての予測を本当に評価することはできません。エージェントが本当に何であるかについて合意するまでは。Anthropicはワークフローと真のエージェントの間の有用な区別を提供しています。
これは私がいつも受ける質問です:結局、ワークフローとエージェントの違いは何なのでしょうか?見てみましょう。
ワークフローは、言語モデルとツールが固定された経路に沿って動作する、事前定義されたパターンに従います。理解できましたか?あなたのワークフローが可能性の木を持っていたとしても、その木が定義されているならば、それは単なるワークフローです。
左に行けばこれをし、右に行けばあれをする。右では左と右に行けて、これをしたりあれをしたり。それは単なるワークフローです。そこに決定を下すべきものがあり、その決定を下すために人工知能を配置したとしてもです。
一方、真のエージェントは自律的かつ動的にそのプロセスとツールを制御します。そして、ここで私は常に主張します:エージェントは目標指向です。
それは、誰かにパン屋に行って10個のパンを買ってきてと言うようなものです。あなたはその人に、歩いて行くのか、自転車で行くのか、車で行くのか、バスで行くのか、Uberで行くのか、電話で注文するのかを言いません。あなたはただ、あのパン屋でパンが欲しいと言うだけです。それが達成すべき目標です。
フローはありません。何もありません。エージェントは自身の知性を使用する必要があり、あなたはエージェントがそれを行う能力を持っていると信頼します。それがエージェントです。
OpenAIは同様の方法でエージェントを定義しています:最小限の直接監督で完全な目標を追求できるAIシステムとして。そしてここで、この詳細に注目してください:最小限の直接監督で目標を追求する。
なぜこれが重要なのでしょうか?なぜなら、たとえアインシュタインのような知的な人と仕事をしている場合でも、アインシュタインに何かを頼んだ場合、アインシュタインが戻ってきて、彼の解決策で不足している可能性のある情報について質問することがあるかもしれないからです。
アインシュタインにパン屋で10個のパンを買ってきてと頼んだとします。突然、彼は「塩パンか甘いパンか?モルタデッラも持ってくる?」と尋ねるかもしれません。なぜなら、そこにも知性があるからです。
したがって、最小限の監督を持つというこのアイデアは興味深いかもしれません。なぜなら、ほとんどのシナリオでは、情報が不足している可能性があり、小さな助けがあれば解決するかもしれないからです。特に、タスク全体の中で、小さな助けで全てが展開できるならば、それはすでにパフォーマンスの向上です。
タスク全体を行うことと、途中で小さな助けを提供することを比較した場合です。そして、ここで彼は図式を示しています。人間がLLMにリクエストを行い、LLMは環境でアクションを実行し、フィードバックを得て、アクションとフィードバックを繰り返します。
人間がLLMと話し、LLMが人間と話すことができる双方向の矢印があり、終了すると停止してそれで完了です。
今日、エージェントを提供していると主張する多くの企業は、実際にはただプロンプトを相互に接続したり、ウェブ検索データベースにツールを接続したりしているだけです。有用かもしれませんが、それは主にマーケティングです。より正確な用語は、プロンプトチェーンまたはアシスタント、本質的にはデータへのカスタマイズされたアクセスを持つ事前プロンプト付きのチャットボットでしょう。
これには100%同意できないかもしれません。なぜならそれは理論的すぎるからです。データベースにアクセスしウェブ検索を行うプロンプトを作成し、それが問題を解決する場合、より難しいことができるかどうかは重要ではありません。
なぜなら今や、プロンプトだけでデータベースにアクセスしウェブページにアクセスすることで解決できる問題が多くある場合、それはすでに素晴らしいことだからです。例えば、コップ一杯の水を飲むという単純なタスクは、誰もが毎日行っており、非常に重要です。
しかし、もちろん、私たちがどこまで到達できるか、そして私たちが本当に望むものからどれほど遠いかを見るために、この割合に注意を払う必要があります。
最近Computer Useを発表したAnthropic(私はすでにこれについてのビデオを作りました)、コンピュータタスクのための次世代エージェントの最初のものが、実際には企業に基本的なプロンプトから始めて、そこから最適化することを勧めているのは示唆的です。
彼らは、より単純な解決策が限界に達した時にのみ、複雑なマルチエージェントシステムが意味を持つと主張しています。これは本当です。なぜなら、複雑なタスクを与えると、限界とそれが解決できない部分を認識し始めるからです。
私がテストを行うたびに、「このトピックについて文章を書いて」と言うと、Wordに入り、テキストエディタに入り、文章を書き、保存するなど、一連のタスクを行う必要があり、その過程で本当に道に迷う可能性があることに気付きます。
これは、「スタートメニューに行って、特定のテキストエディタを探して、そのプログラムにアクセスして、中に入って、テキストを書いて、それから保存して」と言えば、それができることを意味します。オープンにしておけば、時々それができますが、途中で迷子になり、戻れなくなる可能性もあります。
企業が自律的なエージェントを発表するために競っている一方で、ほとんどの組織はより複雑なAIシステムを追求する前に、基本的な生成AIを効果的に使用する方法をまだ見つけ出している段階にあります。おそらく、私たちはすでに持っているツールをより意味のある方法で実装することに集中すべきでしょう。
私はこの時期だと思います。複雑なものを自動化しようとした人は誰でも、自分がやっていることの限界を見てきました。そして、私が常に言うのは次のようなことです:
もし何か間違った場合に多額のお金を失う可能性のある、リスクの高い複雑なタスクの自動化を試みているなら、それはやめましょう。忘れましょう。それは最悪の道です。
一方で、タスクが複雑だけれどもリスクが非常に低く、お金を失うことはなく、何も間違いは起きず、誰も傷つけることがない場合は、すぐに始めて、リスクのないこれらのタスクで冒険を始めましょう。
これにより、いつか少しリスクを取る時が来た時に、注意すべき点と観察すべきすべてのことを既に知っているでしょう。
あなたは何を考えていますか?コメント欄で、既にエージェントを働かせて自動化を行っているかどうか教えてください。カスタマーサービス、質疑応答、顧客のトリアージ、その他多くのことを100%自律的なエージェントで自動化している人がたくさんいると確信しています。エージェントには制限がありますが、すでに結果を出しています。
このチャンネルを続けて見たい方は、メンバーになってください。メンバーはWhatsAppグループへのアクセス、事前公開動画を利用できます。
いいねをお願いします。ありがとうございました。

コメント

タイトルとURLをコピーしました