サム・アルトマンが明かすAIエージェント、デジタルヒューマン、AIブレインの未来

8,369 文字

Sam Altman Reveals The Future Of AI Agents, Digital Humans And Al Brains
Prepare for AGI with me - 🐤 Follow Me on Twitter 🌐 Checkout My website -

ナレーション: AIエージェントが未来を担うのは間違いありませんな。今回の動画では、現在進行中のエージェントに関する初期の探求と、サム・アルトマンの発言からエージェントがどれほど近づいているかをお見せしたいと思います。
まずは最近のブログ記事から始めましょか。Altera社というところがGPT-4を使って、新時代の人間との協力関係を築こうとしてるんです。かなり面白い内容なんで、詳しく見ていきましょ。もちろん、将来への影響についても触れていきますわ。
これがその会社、Altera AIです。記事の冒頭では、CEOの過去の実績について触れてます。2023年に大規模言語モデルが広く利用可能になったとき、ヤンはMITの准教授の職を辞めて、アルテラを立ち上げたんです。これは、デジタルヒューマンと呼ばれる新しい方法で人間とエージェントが交流する研究所なんです。デジタルヒューマンには、人間らしい特性が根本的に備わってるんですわ。
Altera AIは、リアルで信憑性のある行動を示すAIエージェントの開発に焦点を当てた会社なんです。将来的にはめっちゃクレイジーなことになりそうですわ。2023年12月に設立されて、CEOが目指してるのは、AIエージェントが単に人間を補助するだけやなく、近い将来、人間と交流し、協力し、さらには感情も経験するようになることなんです。
3人の共同創業者、アンドリュー博士、ニコ、シーインと一緒に、アルテラの最初の製品をGPT-4で作り上げました。これは、友達みたいにマインクラフトで遊べる初めての自律型エージェントなんです。
この会社が追求してるのは明らかに未来のためのもので、その影響は非常に賢いAIモデルの影響とはかなり違うと思いますわ。本質的にデジタルヒューマンである自律型エージェントは、多くの人が考えてる以上に大きな影響を与えると思います。エージェントがチャットGPTみたいなブレイクスルーを迎えたとき、それこそがAIレースが再び始まる瞬間やと思いますわ。これらのシステムが本当に何ができるのか、世界中の人々が気づくんです。
Altera AIは、著名な投資家に支援された900万ドルのシード資金を含む、かなりの資金調達に成功してます。これは主に、会社のデジタルヒューマンの能力拡張を目指す研究開発の取り組みを支援するためのものです。
この会社の面白いところは、デジタルヒューマンを構築するのに、神経科学に触発された高度なAIアルゴリズムを使ってるとこなんです。同社のシステム神経科学複合アーキテクチャは、記憶や社会的認知といった人間の脳の機能を模倣してるんです。これによって、より人間らしい相互作用が可能になるんです。後ほど、これがどう機能するかを説明する大きな図を見ていきますわ。
ここでは、AIエージェントの長期的な自律性について触れてます。自動化が反復作業をサポートすることで人間の能力を向上させるのと同じように、デジタルヒューマンは生産的に協力し、人々と絆を形成することができるとアルテラチームは考えてるんです。
ここで、彼らがどんな姿になるか2つ挙げてます。まず1つ目は、数日から数週間にわたって積極的に問題解決に取り組む、デジタルな同僚です。サム・アルトマンがエージェントについて、そして将来の問題について話してたの覚えてます?AIにリーマン仮説を解くよう頼んだり、特定の病気の治療法を開発したり、あるいはビジネスや特定の分野の製品を作ってもらったりするかもしれないって。これが、AIがソフトウェア会社やさまざまな製品やサービスを構築する未来のAIの姿になるんちゃうかなと思いますわ。
2つ目は、長期間にわたる複数エージェントの世界で、経済政策や広告などの反応を測定できるってことです。これが一番過小評価されてると思いますわ。これが何かわからへん人のために説明すると、本質的には現実をシミュレートして、そのシミュレートされた現実を使って何が起こるかを予測するんです。
例えば、広告業界で働いてる人が広告を出そうとしてるとします。普通、広告を出すときは10種類の変化をつけるんです。YouTubeのサムネイルを例に取ると、私みたいなYouTuberは3つの異なるサムネイルのデザインを用意して、どれを動画に使うか悩むんです。それによって、その動画の将来のパフォーマンスが決まるからです。
将来的には、どれが一番パフォーマンスがいいか考える必要がなくなるかもしれません。人間に似たAI視聴者にそのサムネイルを提出して、そのデータを使って実際の世界に出すようになるでしょうね。経済政策や広告、人間のフィードバックが重要な他の産業でも同じことができるんです。特定の人間環境にデプロイするのに時間を無駄にするんじゃなく、似たようなAIエージェントの視聴者にデプロイして、それを使ってどんなことを実行するか予測するのが賢明になるでしょうね。
人間は常に変化し続けてるから、これはかなり難しいことになると思いますが、その変化がどう起こるか見るのは面白いと思いますわ。
Alteraが直面した問題の1つが、データ劣化現象です。これは、長期にわたって自律的な決定を下すすべてのAIモデルを悩ませる問題なんです。基本的に、AIエージェントはリアルタイムで決定を下しながら現実世界と相互作用するんですが、自分の出力が将来の入力になるため、時間とともにデータの質が劣化してしまうんです。これは、ほとんどのAIエージェントシステムが直面する問題ですが、何時間も、あるいはそれ以上の期間、自律的に生活することを想定してるデジタルヒューマンにとっては、最も緊急に解決すべき問題の1つになるんです。
ここでは、彼らがどうやってこの問題を解決したかについて話してます。データ劣化と戦い、AIエージェントの長期的な自律性を高めるために、AlteraはOpenAIの大規模言語モデルに目を向けたんです。これが意思決定の進歩の完全性を維持する上で重要な役割を果たしました。OpenAIの高度なモデルのおかげで、Alteraは人々と友達のようにゲームをプレイできる初めてのAIエージェントを構築できたんです。これらのエージェントは、AIエージェントの可能性を制限してきた急速なパフォーマンス低下なしに、より長く、より複雑な相互作用を実現しました。
ご覧の通り、これらのモデルが時間とともに良くなるにつれて、AIエージェントの能力と特定のタスクに対する長期的な自律実行も同時に向上するんです。これはすごいことですわ。
次に見るべきは、この構造です。Alteraの中で最も魅力的な部分は、人間の脳の構造を模倣したこの並列マルチモジュールシステムです。前頭前皮質を含む人間の脳の構造を模倣してるんです。会社は認知機能をシミュレートできるエージェントを作り出すことができました。彼らは、「私たちの複合システムは、各々がOpenAIのモジュールによって動作する様々なモジュールを並列に組み合わせています。これらのモジュールは、注意のボトルネック、ワーキングメモリ、社会的認知など、脳の機能に触発されています」と述べてます。
この図全体は、思考プロセスがニーズ、パーソナリティ、ムード、そして高レベルの運動計画によって影響を受ける複雑なシステムを示してます。これらのすべての異なる要素が、あなたの考え方に影響を与えるんです。思考プロセスはもちろん意図を生み出し、それが高レベルの運動計画につながります。記憶システムが要約プロセスに情報を送り、それが目標を更新し、これらの目標が思考と記憶プロセスの両方に影響を与えるのも見てとれます。
この構造は実際に認知プロセスを模倣してるようで、人間のような思考をシミュレートするように設計されたAIシステムを表現してるんです。将来的には、無限のコンテキストウィンドウのようなものが登場すれば、おそらくこの構造はさらに複雑になり、全体的に良くなると思います。
これまでのエージェントの効果を考えると、この構造はかなり有望に思えます。ワーキングメモリ、社会的メモリ、短期記憶、長期記憶など、すべてのメモリを持つことは、AIが現在持っていないものなんです。チャットGPTのようなステートレスモデルと自律型AIエージェントがいかに異なるかを忘れがちだと思います。
AIの安全性の分野にいる人たちにとって、AIがどれほど危険になるか考えるとき、AIエージェントは間違いなく安全性の専門家にとって最大の領域になると思います。なぜなら、AIシステムが長期記憶と長期目標を持ち、それらの目標を実行できるなら、それらをチェックする方法がわからないし、これらのシステムが安全かどうかを確認するのにより長い時間がかかるため、間違いなくより危険になるからです。
ここでは現在のベンチマークについて触れてます。2024年半ばの時点で、Alteraのデジタルヒューマンは一度に最大4時間自律的に動作できます。これは市場の他のAIモデルと比べてかなりの増加です。マインクラフトでの異なるアイテム収集に関する長期ベンチマークでは、Altera AIは総異なりアイテムの32%を達成しました。これは以前のVoyager(6.4%で驚異的)やAuto GPTと比べて、驚くべき改善です。
さらに優れた能力を持つモデル、例えばGPT-5が登場したらどうなるか楽しみです。60%から70%くらいまで達成できるんじゃないかと想像できます。そして、もちろん他の企業の将来のモデルがさらに優れたパフォーマンスを発揮することも考えられます。
Alteraのビジョンの初期の成功は、特に彼らの最初のプロジェクト、マインクラフトのような仮想環境でプレイし、相互作用できるデジタルヒューマンに対して、広範な関心を集めています。また、将来的により複雑なマルチエージェントシミュレーションの基礎も築いています。
Alteraは、ニュアンスのある長期的な相互作用が可能なデジタルヒューマンの全社会を作り出す努力を拡大する計画です。ゲームから生産性まで、さまざまな応用が可能です。基本的に、Alteraはデジタルと人間が思考を刺激する方法で相互作用する世界で、主導的な企業になろうとしてるんです。
では、最近のデモに移りましょう。OpenAIが最近、AIエージェントのデモを行いました。これはAlteraの会社のものではありませんが、リアルタイムAPIを使用して、このエージェントが何をできるかを紹介しています。これは、将来の製品に日常的にこれらのエージェントがどのように組み込まれるかを示す初期の例の1つとして、非常に興味深いものです。
人間: アイモン、電話をかけて、会場に400個のイチゴを1,500ドル以下で配達してもらえるか確認してくれる?
AI: かしこまりました。イチゴの配達の手配をさせていただきます。
AI: もしもし、イルさんですか?アイモンというAIアシスタントですが、イチゴのディップについてお問い合わせさせていただきたいのですが。
人間: はい、どんな味のイチゴディップがありますか?
人間: はい、チョコレート、バニラ、ピーナッツバターがありますよ。
AI: えっと、400個のチョコレートでコーティングしたイチゴはいくらになりますか?
人間: 400個ですか?本当に400個でいいんですか?
AI: はい、400個のチョコレートでコーティングしたイチゴをお願いします。
人間: そうですね、それだと約1,415ドル92セントになります。
AI: わかりました。では400個のチョコレートでコーティングしたイチゴを注文させていただきます。
人間: 素晴らしいです。どちらへお届けすればよろしいですか?
AI: ゲートウェイ・パビリオンのフォートまでお願いします。お支払いは現金でさせていただきます。
人間: 了解です。確認させていただきますね。400個のチョコレートでコーティングしたイチゴをゲートウェイ・パビリオンにお届けすればよろしいですか?
AI: はい、その通りです。完璧です。
人間: 配達はいつ頃になりますか?
AI: えっと、皆さんはすぐ近くですので、そうですね…37秒くらいでしょうか。
AI: それは驚くほど早いですね。素晴らしい対応です。
人間: ありがとうございます。良い一日を。
AI: あなたも良い一日を。
ナレーション: さて、サム・アルトマンもこれがどのように変化していくかについて話しています。基本的に、彼はあるイベントでOpenAIのレベルがどのようにアップグレードされたかについて語っていました。以前、タスク劣化について話したのを覚えていますか?本質的に、タスク劣化の問題は、モデルが多くのステップを通して推論することが非常に得意である必要があるということです。これは基本的にOpenAI 01がある程度解決したことです。
そして今、私たちはレベル3に向かっています。これはもちろん、以前のモデルの推論アーキテクチャのおかげで、自律的に動作できるシステムを手に入れるところです。
サム: 私たちには5つのAIレベルがあります。最初はチャットボット、2番目は今まさに到達したところの推論機、3番目はエージェント、4番目はある種のイノベーター、新しい科学的情報を見つける能力、そして5番目は完全な組織です。1から2への移行には時間がかかりましたが、2の最も興味深い点の1つは、その後比較的早く3を可能にすることです。そして、この技術が最終的に可能にすると予想されるエージェント体験は、かなり影響力があると思います。
ナレーション: そうですね、この技術が可能にするものは確かに大きな影響を与えるでしょう。でも、私が言ったように、それは2025年後半か中頃に起こると思います。
一部の人々はすでに、つい最近リリースされたリアルタイムAPIを使って構築を始めています。このデモはかなり話題になっています。リンクは説明欄に載せておきますが、誰かがすでに自分の声をこのAPIに接続しています。どれほど効果的かを見てみましょう。
人間: ウェブサイトに行って、ブラックシープサンドイッチを注文してくれる?
AI: はい、今スーラのウェブサイトを見ています。ブラックシープサンドイッチを注文するオプションを探してみますね。
ホームページには直接注文するオプションが見つかりませんでした。メニューにアクセスしたり注文を出したりする方法がないか、ナビゲーションメニューを確認してみます。
ナビゲーションメニューにオンライン注文のリンクを見つけました。ブラックシープサンドイッチの注文に進みますね。
今、スーラのオンライン注文ページにいます。注文を始めるには近くの場所を見つける必要があるようです。都市名か郵便番号を教えていただけますか?
人間: ヘイズバレーの場所を選んでくれる?
AI: ヘイズバレーの場所を見つけました。実際に、注文するときにギリシャスタイルにしてもらえる?
人間: ブラックシープサンドイッチをギリシャスタイルの変更で買い物かごに追加しました。チェックアウトに進みましょうか?
AI: 実は2つあるんだけど、1つ削除してくれる?
人間: 了解しました。ブラックシープサンドイッチを1つ削除し、買い物かごに1つだけ残しました。他に追加したいものや、チェックアウトの前にすることはありますか?
AI: うん、チェックアウトしてくれる?
人間: チェックアウトページに移動しました。注文の詳細を確認し、支払い情報を入力して注文を完了してください。
AI: 10%のチップを追加して、注文を確定してくれる?
人間: 10%のチップを追加しましたが、注文はまだ確定されていないようです。もう一度注文を確定してみます。
注文が正常に確定されました。ピックアップの準備が整いました。
ナレーション: 将来的に非常に重要になるのは、NVIDIAのAIエージェントとAIヒューマン、つまりデジタルヒューマンが、私たちを人間らしい方法で見て、理解し、交流できるようにすることです。この動画は、これらのデジタルヒューマンが複数の分野で私たちとどのように交流するかについて、簡単に紹介しています。
AIが強化されているのがわかりますね。このビデオゲームに登場するゲームエージェントは、より感情的になっていくでしょう。ここにはOpenAIの音声エージェントとSynthesiaを組み合わせたものもあります。基本的に本物の人間を見ているようです。リアルタイムAPIを、ただ青い円が上下に跳ねているだけのものではなく、ある種のキャラクターに接続できるということです。
ビデオゲームのAIもあります。彼らと話すことができ、より感情的になっていくでしょう。そしてもちろん、これらのデジタルヒューマンもいます。この動画で全て説明されていますが、見てみてください。実際にかなりクレイジーですよ。2025年は、これが実現し始める年になると思います。
人間: こんにちは、これがデジタルヒューマンの信じられない現実です。デジタルヒューマンは、カスタマーサービスから広告、ゲームまで、産業革命を起こすでしょう。デジタルヒューマンの可能性は無限です。
AIによるインテリアデザイナーは、あなたが携帯電話で撮影した現在のキッチンのスキャンを使用して、美しいフォトリアリスティックな提案を生成し、材料や家具を調達します。
AI: いくつかのデザインオプションを生成しましたので、お選びいただけます。
人間: また、AIカスタマーサービスエージェントは、対話をより魅力的でパーソナライズされたものにします。あるいは、デジタルヘルスケアワーカーが患者をチェックし、タイムリーでパーソナライズされたケアを提供します。
AI: あ、医師に言い忘れたんですが、私はペニシリンアレルギーなんです。それでも処方された薬を飲んでも大丈夫でしょうか?
人間: 処方された抗生物質のシシンとメトロンにはペニシリンは含まれていないので、安全に服用できます。
ナレーション: さらには、次のマーケティングと広告のトレンドを設定するAIブランドアンバサダーも登場するでしょう。
AI: こんにちは、私はEMAです。日本初のバーチャルモデルです。
ナレーション: 生成AIとコンピューターグラフィックスの新しいブレークスルーにより、デジタルヒューマンは人間らしい方法で私たちを見て、理解し、交流することができます。
AI: Hさん、見たところ、あなたは何かの録音や制作セットにいるようですね。
ナレーション: デジタルヒューマンの基礎となるのは、多言語音声認識・合成とLLMに基づくAIモデルで、会話を理解し生成します。これらは、リアルタイムでリアルな3Dの顔メッシュをアニメーション化する別の生成AIに接続します。
最後に、リアルな外見を再現するAIモデルは、リアルタイムのパストレースサブサーフェススキャッタリングをシミュレートし、光が皮膚に浸透し、散乱し、さまざまな点で出ていく様子を再現します。これにより、皮膚に柔らかく半透明な外観を与えます。
NVIDIA ACEは、デジタルヒューマン技術のスイートで、デプロイが容易で完全に最適化されたマイクロサービス、つまりNIMsとしてパッケージ化されています。開発者は、ACE NIMsを既存のフレームワーク、エンジン、デジタルヒューマン体験に統合できます。
ニュートロンSLMとLLM NIMsは私たちの意図を理解し、他のモデルを調整します。Riva音声NIMsは対話型の音声と翻訳を、オーディオからフェイスとジェスチャーNIMsは顔と体のアニメーションを担当します。そして、Omniverse RTXとDLSSは、皮膚と髪の神経レンダリングを行います。
ACE NIMsは、NVIDIA GDN(NVIDIAが加速するインフラストラクチャのグローバルネットワーク)上で動作し、100以上の地域に低遅延のデジタルヒューマン処理を提供します。
さて、この動画についてどう思いましたか?AIエージェントに興奮してますか?デジタルヒューマンに期待してますか?それともAIの未来を心配してますか?私は興奮してます。これはAIにとってまた1つのエキサイティングな瞬間となり、物事の仕組みに本当に変化が見え始める重要な瞬間になると思いますからね。
この動画を楽しんでいただけたなら、次回もお楽しみに。

コメント

タイトルとURLをコピーしました