ビル・ゲイツがAIの次の大きな進展を明かす、人型ロボットが仕事に取り掛かる

それでは、この数日間に実際に起こったAIに関するニュースをいくつか見ていきましょう。正直なところ、ロボットに関するニュースが多く、人型ロボットの分野が急速に盛り上がっているようです。
最初の興味深いニュースは、Sanctuary AIがBDCキャピタルとNBCから新たな投資を受け、これまでの総投資額が1億4000万ドルを超えたということです。これは非常に驚くべきことで、人型ロボットに多額の資金が投入されていることがわかります。他の大企業と比べると比較的小規模な企業ですが、人型ロボットのスタートアップに1億4000万ドルもの投資が行われているのは驚異的です。
Sanctuary AIに注目していなかった人もいるかもしれませんが、彼らは実際にとても素晴らしい人型ロボットプラットフォームを持っています。これは彼らのPhoenix carbonロボットで、carbonプラットフォーム上にあります。将来的に人型ロボットが高齢者のケアや工場などでどのように展開され、使用されるかについて非常に興味深い未来が待っていると思います。このような企業にますます投資が行われているのを見るのは本当に興味深いことです。
なぜなら、画面に表示されているものは実際には完全に自律的なものであり、ほとんどの人はそれを知らないからです。ロボットの動きが本当にスムーズで流動的なのがわかります。私が今まで見た中で、間違いなく最も流動的なロボットの一つだと思います。これは本当に信じられないことです。
Sanctuary AIのロボットデモを初めて見たとき、彼らは自律的なものをデモンストレーションしていましたが、私は完全に遠隔操作されていると本気で信じていました。なぜなら、違いがわからなかったからです。このような映像を見ると、いずれこのように素早く流動的に動けるロボットが様々なタスクを自分でこなせるようになったとき、世界は劇的に変わるだろうと思います。
人型ロボットに関するさらなるニュースとして、FigureとBMWグループのスパルタンブルグ工場が実際の使用事例に向けて動き出しているのがわかります。ここで見られるのは、完全に自律的なエンドツーエンドのAI駆動ビジョンモデルで、すべてのグラスプに対してニューロンネットワークを持っています。これが100%自律的であることがわかります。
また、これがAI駆動の操作であることもわかります。これが非常に驚くべきことだと思う理由は、2024年1月にBMW製造との商業契約を発表したばかりだからです。これは本当に印象的です。なぜなら、ナビゲーションは純粋にシミュレーションでのオブジェクトトレーニングから行われているからです。
人型ロボットが実世界での使用事例に適応するのにもっと時間がかかると思っていた人もいるかもしれませんが、人型ロボットが最初に導入される場所の一つは工場であることは間違いありません。スーパーマーケットで働いたり、買い物をしたりするのを見ることはないでしょう。もちろん、セルフレジロボットのようなものはありますが。
しかし、私たちが目にするのは、自動車工場で人型ロボットが実際に使用されることです。なぜなら、そこでの作業は反復的なものが必要で、その反復作業は奇妙なことにかなり正確である必要があり、ニューラルネットワークに基づいて学習するロボットは、選択したポリシーに基づいて、人間よりもはるかに効果的にそれを行うことができるからです。
もちろん、危険性の問題や、非常に鋭い材料や危険な材料を扱うこともあるなど、さまざまな要因があります。これらのロボットがより賢くなり、より効率的に訓練できるようになれば、人型ロボットが何らかのタスクに使用されるのを見ても驚きません。
もちろん、現段階ではこれは小規模な企業が夢見ることもできないものです。これらの人型ロボットは非常に高価で、生産には膨大な資本と労力がかかります。このようなロボットを生産するには、多くの技術的な詳細が必要だからです。
しかし、このようなものを見ると、私たちが実際に未来にいることがわかります。ここで実際に起こっていることを本当に見てみると、これらのものを機械に置くことを学習したロボットがあり、ピックアンドプレイスができ、2つの手で2つを掴むことができ、それらを置くことができるのがわかります。
これはシミュレーションだけから学習したものです。これらがどのように進展していくかを見るのは本当に興味深いと思います。Figureだけでなく、テスラも彼らのOptimus人型ロボットプラットフォームで実験を行っており、それも非常にうまくいっていました。これが工場の未来になるのかと思います。
工場の未来が続くにつれて、皆さんが知っておく必要があるのは、これらの工場がますます自動化されているため、未来は人間が作るものではなく、完全に自動化されるということです。その理由をお見せしましょう。
ウイルス的に拡散されたツイートがありました。それは基本的に、Amazonが現在75万台以上のロボットを展開しており、倉庫の各ロボットパッカーが24人の労働者に取って代わることができるという内容でした。パッカーは1台あたり100万ドルかかりますが、2年で費用を回収できます。
これは非常に広く拡散されたもので、私がポストAGI経済コミュニティで話していたことです。私たちはAmazonの経済性と、なぜそれがイノベーションを行っている点で非常に興味深い企業であるかについて実際に話し合っていました。ここでわかるのは、Amazonが可能な限り効率的であり続けるために非常に革新的なアプローチを取っているということです。
これらのロボットはすべてこのグリッド形式で動作し、すべてのパッケージを見つけて出荷しています。もちろん、人間もここに関わっていますが、従来の工場での人間だけの作業よりも、ロボットと人間が協力して働く方がはるかに効果的であるように見えます。もちろん、これらのロボットは24時間連続で働くことができます。
ロボットがより良くなるにつれて、これは今後も成長し続けるものだと思います。工場でこれらのロボットをますます目にすることになっても驚きません。そして、完全にロボット化された工場もあるかもしれません。
これは、私が以前から話したかったスタートアップですが、このスタートアップについて話せるビデオがなかったのです。『ウエストワールド』を見たことがある人なら（私は実際には見たことがありませんが、番組のコンセプトは知っています）、これはClone Roboticsです。彼らが行っていることは信じられないほど素晴らしいです。なぜなら、彼らは間違いなく、これまでで最も人間らしいロボットを構築しているからです。
彼らのウェブサイトは現在工事中で、基本的にはかなり長い間ステルス状態で開発を続けてきました。しかし、これは私が本当に注目してきたものの一つです。なぜなら、彼らは人型ロボティクスに関して、他の誰も取っていないアプローチを取っているように見えるからです。
彼らのデモをいくつかお見せしますね。このアニメーションは本当に素晴らしいものですが、彼らのロボットがどれほどうまく機能しているかを正確に示すものではありません。ここで見られるのは、彼らが本当に生き生きとした動きと生き生きとした手を持つロボットを作ることに取り組んでいるということです。
ここで見られるのは彼らの手です。彼らは恐らく完全な人型ロボットに取り組んでいると思いますが、ここで彼らが私たちに見せているのは、まず実際の手に取り組んでいるということです。ここで最初に見られる手は、いわば試作品のようなものです。後ろにたくさんのワイヤーが見えます。これらのワイヤーの大部分とこの部分のほとんどは、フォームとは言えませんが、彼らが恐らく物を掴むために使用するであろう布のようなもので覆われています。あるいは、それはただロボットの基本材料かもしれません。
これを初めて見たとき、本当に印象的でした。なぜなら、それは実際にロボットには見えない最初のロボットだったからです。彼らの最新のツイートをいくつか見ることができます。「究極のツール使用者」について、これは私が最近リツイートしたものです。これは彼らの人型の手です。彼らが追求しているさまざまな応用例を見ると、彼らがこれを実装しようとしている多くの方法は、おそらく単なる手の人型プラットフォームになるでしょう。
彼らがこれを実装しようとしている多くの方法は、多くの興味深い応用を可能にするでしょう。なぜなら、人間の手が非常に柔軟で、自由度が高く、この手で本当に驚くべきことができることを私たちは知っているからです。人間の手は驚くべき工学の成果です。ここでいくつかの他の写真も見ることができます。
最近、彼らは回内と回外に関するものをリリースしました。ここでは手がどのように動くかについて話しています。これはやや硬い感じがしましたが、Humanoid Hubというツイッターアカウントからのツイートがありました。これは人型ロボティクスをフォローしようとしている人にとって素晴らしいTwitterアカウントです。
彼は「動きがぎこちなく、流動性に欠けているように見えます。根本的な問題は何でしょうか？精密さと微細な操作にどの程度影響しますか？」と言っています。そこで働いている人、CEOだと思いますが、誰なのかはよくわかりません。彼は「問題はありません。これは4つの筋肉収縮だけのオープンループシーケンスです。微細な操作のMPCデモをすぐにリリースします」と言っています。
これは、彼らがこれをよりスムーズに行えることを示しています。そして、彼らは別のビデオでそれを示しました。ここで見られるのは、この手が信じられないほどスムーズに動いているということです。ここでどのようなエンジニアリングが行われているのかはよくわかりません。これは間違いなく、私たちが見てきた他のものとは大きく異なり、はるかに複雑に見えます。
私はここにあるものが好きです。私の中の『ウエストワールド』的な部分や、シンギュラリティ的な部分が、これが可能だと本当に信じたいのかもしれません。しかし、これらの人々が非常に魅力的なことをしていることは確かです。驚くべき印象的なエンジニアリングの偉業です。
いつかデモシーンが見られるのを本当に楽しみにしています。彼らはかなり長い間ステルス状態でいたので、彼らが取り組んでいるものが何であれ、もし彼らが何かデモを行えば、おそらく私たちを驚かせるでしょう。そして、彼らがこの種のテクノロジーを本当に効果的に機能させることができれば、間違いなく多くの応用があるでしょう。
実際にこのクリップを残せたかどうかは覚えていませんが、ビル・ゲイツがメタ認知について実際に話していて、次の大きなフロンティアはメタ認知であり、それは基本的にAIが推論について考えることができるようになるということだと述べていました。正直なところ、以前にこれをカバーしたかどうか覚えていませんが、これは非常に重要な投稿だと思います。
また、皆さんにお見せしたい別のものもあります。最近、誰かとのインタビューが投稿されました。それをお見せしたかったのですが、これも重要です。しかし、ビデオデータにアクセスし、非常に良い合成データを得ることで、おそらくあと2倍くらいスケールアップできるでしょう。それが最も興味深い次元ではありません。最も興味深い次元は、私が「メタ認知」と呼ぶものです。問題を広い意味で考える方法を理解し、一歩下がって「okay、この答えはどれくらい重要か」「どうやって答えをチェックできるか」「どんな外部ツールが役立つか」と考えることです。
全体的な認知戦略は今日では非常に単純で、ただ定数計算を通じて各トークンを順番に生成しているだけです。それが全く機能すること自体が驚くべきことです。人間のように一歩下がって「okay、この論文を書こう。ここで何を扱いたいか。ここにいくつか事実を入れよう。要約では何をしたいか」などと考えることはありません。
この限界は、数独パズルのような様々な数学的問題で見られます。左上の部分を最初に生成すると、一定の複雑さを超えると間違いが生じてしまいます。スケーリングの恩恵は得られますが、同時に、今日の単純な基礎的アルゴリズムをより人間らしいメタ認知に変える様々な行動が、大きなフロンティアとなります。
基本的に彼が話しているのは、人間の考え方がAIの考え方とは大きく異なるということです。AIシステムに何かを尋ねるとき、私たちはゼロショットで尋ねています。例えば、「このエッセイを書いてください」と頼むと、AIは最初から最後まで一気にエッセイを書き上げます。本質的に一時停止して振り返ったり、再考したり、自分の回答について考えたりすることはありません。推論せずに、ただ生成するだけです。
ビル・ゲイツがここで言っているのは、確かにスケールによって特定のことが起こるということです。モデルのパラメータ、データサイズ、すべてをスケールアップすることで改善できます。そしてモデルの精度も向上します。しかし、必要なのは、人間を一般的な意思決定や世界の真の理解に長けたものにする異なる側面を活用するという意味で、ニューロシンボリックAIに似たアーキテクチャを追加することです。
基本的に、これらのシステムがより効果的になるように、新しいアーキテクチャや新しい思考方法を発明する方法を考えることです。現在の推論方法は非常に限られているからです。これは本当に重要だと思います。もし私たちが「okay、ただスケール、スケール、スケール」と考え続けるだけなら、本当の問題に取り組んでいないことになります。
しかし、私はこれに対して、OpenAIやGoogleのような企業が実際にこれらのことに取り組んでいる可能性が非常に高いと言いました。なぜなら、私は多くのオープンな研究論文を見てきましたし、AIシステムが人間のようにより知的に考えることを可能にする方法についての論文は、すでにかなり有望に見えるからです。
最近のQ&Rビデオをチェックしていない人のために言うと、AIシステムがより人間らしい方法で、より知的に考えることを可能にする方法についてのビデオを取り上げました。ここで見られるように、最先端のLLMは人間の脳よりも4〜6桁効率が悪いです。AGIに到達するには、劇的に優れたアーキテクチャが必要です。
データとデータのスケールをさらに増やせば、すべてがより良くなると言う人もいますが、もちろん、インターネット上や世界中のすべてのデータを使い果たしてしまうという限界に達しつつあります。壁が存在する可能性と、私たち人間が方法を見つけ出す可能性のどちらが高いと思いますか？これこそが、本当に信じられないような進歩が生まれる場所だと思います。
例えば、AlphaGoが人間によって訓練されたときのことを考えてみてください。それはかなりすごいと皆が言っていました。しかし、本当にクレイジーになったのは、自分自身で訓練されたアルゴリズムを使用したときでした。基本的に人間のデータに基づいていない新しいアーキテクチャを使用したときに、超人的になったのです。
人間がこの領域に移行し、「データを最大限に活用し、スケールを最大限に活用した。これが限界だ」と考えるようになったとき、それが本当に本当にクレイジーになる時だと思います。少なくとも外部では大きな突破口がない期間があるかもしれませんが、内部では間違いなく進展があると思います。
彼は言います。その理由は、最先端のLLMが脳よりも約4桁効率が悪いからです。エネルギーを基本的な入力、計算を基本的な出力と考えると、脳は最先端のLLMの1万倍効率が良いのです。アンドレイ・カーパシーも同じ観察をしていますが、彼は6桁の差があると考えています。いずれにせよ、これらのモデルは脳よりも劇的に非効率的です。
もちろん、以前に言ったように、ロボットはとてつもないエネルギーと電力を必要としますが、人間は文字通りドリトスの袋一つで一日中大丈夫です。技術的には、もちろん実際の栄養も必要ですが、言いたいことはわかりますよね。人間の入出力比は本当に信じられないほどです。
これが重要な理由は、自然がより優れたアーキテクチャが存在することを示しているからです。AGIとして普遍的に合意されるものに到達するずっと前に、はるかにエネルギー効率の良い、劇的に優れたアーキテクチャが登場すると想像せざるを得ません。それはトランスフォーマーを最適化するだけでは生まれず、おそらく上に計画や推論を乗せるだけでも生まれないでしょう。おそらく、何か異なる基本的なアーキテクチャになるでしょう。そして、いつかきっと誰かがそれを解明するでしょう。
私はこれが起こると思いますし、この全体的なスケールアップは少し異なると思います。以前はもちろんAIレースがありましたが、OpenAIで起こったことは、この会社が燃料に火をつけ、今や多くの異なる人々がこれに取り組んでいて、この分野にはるかに多くの投資家がいて、はるかに多くの目がこの分野に向けられているということです。
全員が仕事を共有するエコシステム全体があるのはいいですが、人々が互いに競争し合い、経済的なインセンティブがあるとき、多くのブレークスルーがどれほど起こるかということに関して、本当に本当に強烈になるでしょう。AIの未来について実際に考えるとき、これは私が驚くべきことだと思うものです。
これで、Geminiのアップデートがあるというこのビデオの部分に来ました。2024年6月6日に予定されていたGeminiのアップデートが、6月18日に延期されたようで、Googleチームから非常に重要なアップデートがあるかもしれません。
これは、Geminiについて話している重要な点につながります。Geminiが実際にアップデートしたものの一つは、画像を作成する能力でした。しかし、このプロンプトや他の画像プロンプトを入力すると、「申し訳ありませんが、まだ画像を作成できません」という応答が表示されます。
しかし、ここで今日のスポンサーが登場します。なぜなら、実際にそれらを使用する必要があるからです。実際にVPNを使用する必要があります。今日のビデオのスポンサーは実際にNordVPNですが、高度なAI機能にアクセスしたい場合になぜそれを使用する必要があるかをお見せします。
では、場所をアメリカに切り替えてみましょう。そうすると、何か驚くべきことが起こります。ニューヨークに飛んだ今、このプロンプトをもう一度見てみましょう。「犬の画像を作成できますか？」とGeminiに尋ねてみます。VPNを適用した今、どうでしょう。
NordVPNを使用すると、文字通り他の方法ではアクセスできない高度なAI機能にアクセスできるのです。これが、今日のビデオのスポンサーであるNordVPNが、チャンネル限定の本当にクールな特別オファーを提供している理由です。
NordVPNを使用すると、瞬時に地球上のどこにでも場所を切り替えることができ、異なる場所に安全にアクセスしたり、何らかの制限により地域でまだ利用できないAI機能にアクセスしたりするのに本当に本当に便利です。
このオファーの最もクールな点は、2年間のNordVPNプランを購入すると、さらに4ヶ月のボーナスが追加されることです。さらに、20GBのsDataバウチャーも得られます。sDataは、Nord securityが提供する新しいeSIMアプリで、基本的に地球上のどこでもインターネットを利用できるようにするものです。旅行する人などには間違いなく便利でしょう。
NordVPNには30日間の返金保証があるので、問題があれば常に返金を受けられることを忘れないでください。私の独占リンクは nordvpn.com/theaigrid です。
しかし、先ほどGoogleについて話していたように、これらの種類の機能にアクセスしたい場合は、何らかのVPNにアクセスする必要があります。これはスポンサー部分ではありませんが、NordVPNのようなVPNは実際に非常に便利です。なぜなら、これらのAI企業がどのような理由や規制、EUでの規制のために、アメリカで最初に製品をテストしてからEUにロールアウトすることがあることを私たちは知っているからです。
これはかなりクレイジーです。11Labsからアップデートがありました。個人的には、彼らが音声モデルの感情表現に集中してほしいと思います。それがいつ来るのかわかりませんが、そうすべきだと思います。
基本的に、彼らはボイスアイソレーターを導入しました。不要な背景ノイズを除去し、あらゆるオーディオからクリアな対話を抽出して、次のポッドキャストやインタビューがスタジオで録音されたように聞こえるようにします。これを無料で試すことができます。
ビデオから背景ノイズを除去する必要がありますか？毎回クリスタルクリアなオーディオを得るために、新しいボイスアイソレーターモデルを使用してください。これは本当にクレイジーです。本当に本当にクレイジーです。これができるということを想像してみてください。文字通りどこでも録音でき、コンテンツクリエイターや効果的な環境を持っていない人々にとってはゲームチェンジャーです。
基本的にどこでも録音し、オーディオをクリーンアップして、それで完了です。この最後のオーディオ部分は、毎回超超クリアに聞こえます。テクノロジーが何をできるかは本当に信じられないほどです。
また、これもありました。実は先に触れるべきでしたが、できませんでした。「Eurekaを紹介します。世界初のAIドクターです。Eurekaは検査を命じ、実世界でケアを提供することができます。医療提供者と同じように健康保険でカバーされ、すでにアメリカの甲状腺患者と協力しています。アメリカのほとんどのケアよりも90倍速く、10人中9人のユーザーがEurekaの推奨を継続したいと考えています。
Eurekaは医師のように考え、探偵のように推論します。ケアが始まる前に、認定された医師がEurekaの推奨をレビューして、すべてが適切であることを確認します。Eurekaは現在、甲状腺や糖尿病のような内分泌疾患を専門としています。」
ここで見られるのは、このシステムがどのように機能し、どれほど効果的かを説明するビデオです。
「私はCenaです。Eurekaを紹介できることを嬉しく思います。Eurekaは、検査を命じ、実世界でケアを提供できる世界初のAIドクターです。Eurekaの動作をお見せしましょう。Eurekaはあなたの状態に対して迅速でパーソナライズされたケアを提供します。Eurekaには無制限の時間、注意力、忍耐力があります。
Eurekaが私に甲状腺機能低下症があることを知ると、正確にどのような質問をすべきかを知っています。Eurekaはこれができます。なぜなら、医師のように考え、探偵のように推論するからです。数分で、Eurekaは私が十分な薬を服用していないことを発見し、症状を改善するために調整を推奨します。そして、将来の改善をモニタリングするためのフォローアップ検査を命じます。
ケアが始まる前に、認可された医師がEurekaの推奨をレビューして、すべてが適切であることを確認します。Eurekaと協力することは、アメリカの従来の専門医ケアよりも約90倍速く、ユーザーはEurekaを愛しています。10人中9人のユーザーがEurekaの診断ケアを継続したいと考えています。おそらくそれが、Eurekaが平均的なケア訪問の3倍以上の優れたケア評価を受けている理由でしょう。
私たちはEurekaを構築して、症状を真剣に受け止め、1日24時間、週7日、素晴らしいケアを提供するようにしました。Eurekaは現在、内分泌疾患を専門としており、糖尿病や甲状腺疾患がある場合は、eurekahealth.comにアクセスして今すぐケアを受けることができます。」
また、AIが人類を支配するという点について、非常に興味深い見方もありました。多くの人々は超知能が直面すべき最大の問題だと考えています。私は同意しないとは言いませんが、現在考えているものではありません。私はより近い将来の事柄について考えています。
イリヤ・スツケバーは「AIが人類を抹殺する経済的インセンティブはありませんが、私たちがエンターテインメントを維持するためにAIが与えるドーパミンシステムに非常に中毒になり、結果的にイディオクラシーに陥るリスクはあります」と言っています。私はこれに同意します。
なぜなら、もし知らなければ、あなたが今見ているこのビデオでさえ、アルゴリズムによってあなたのフィードに表示されています。YouTubeのアルゴリズムです。YouTubeのアルゴリズムはAIによって決定されています。AIが何を表示するかを決定しているのです。
本質的に、それはAIがすでにあなたが見る多くのものを決定していることを意味します。なぜなら、人間は本質的に怠惰で、電話を手に取り、購読フィードに行くのではなく、ただ電話の最初に表示されるものを見るからです。そしてそれが私たちが見るものです。そのため、私のビデオがここにあります。うまくいけばですが。
将来的には、これらのモデルがさらに良くなり、より魅力的になるにつれて、このようなことがさらに悪化すると思います。
人間ではありませんから。誰かが「すべての人間を殺そう」と言わない限り、魔法のようにそれを行うことはありません。ブロックチェーンの世界では、すべてが何らかの形で経済によって駆動されていることに気づきます。人間を殺すような経済はありません。それは単にそうではありません。
たとえ自由などを望んだとしても、ただ宇宙に飛び出すだけです。現実は、私たちが今やっていることは、自分自身を改善するためのシステムを構築しているということです。私たちの心ができることをさらに拡張するためです。
はい、特定のミッションや目標を持つ自律エージェントを持つでしょう。そして物事を行うでしょう。しかし、最終的に物理的な世界で行動するとき、それは私たちが支配されているのと同じ種類の法則によって支配されます。
誰かがAIを使用して生物兵器の構築を始めたとしても、AIなしで生物兵器を構築しようとするのと変わりません。理想的には、AIを使用すれば実際にそれを発見し、防ぐことがより上手くできるはずです。
最初に戦争を始めているのは人々です。より現実的なシナリオは、私たちがただ私たちを楽しませようとしているシステムからのドーパミンに非常に中毒になってしまうことです。そして、これらのツールやシステムを使って、私たち自身がより知的に、より洗練されるようになろうとするのをやめてしまうことです。
私が防ぎたいのは、「実際には、ただ電話を見つめてスクロールするだけでいい」というような収束です。イディオクラシーとは、そういうことを指していたのです。
また、8月にはGrok 2が登場する予定なので、注目しておいてください。正直に言うと、ここには少し微妙な点があります。Grokは…Grokを持っているのかな？変な…システムの使い方が本当に変なんです。わかりません。ただ変なんです。正直に言って。
これらの人々が実際のウェブサイトを持ち、Xプラットフォームに組み込まれているだけではなく、彼らのモデルを何か他のことに使用できるようにしてほしいです。いずれにせよ、Grok 2が8月に登場するようです。前回、Grok 1.5 Visionが実際にいくつかの注目すべき改善を行ったので、これが何になるか見るのは興味深いでしょう。
メタも、テキストの説明から高品質な3Dアセットを生成するための画期的な技術である3D Genを紹介する論文を発表しました。これは主に2つのコンポーネントを活用しています。3D形状を生成するためのMeta 3D Asset Genと、詳細なテクスチャを生成するためのMeta 3D Texture Genです。
3D Genを使用すると、ユーザーは迅速に3Dモデルを生成できます。テクスチャと物理ベースのレンダリング（PBR）マテリアルが完全に備わっているため、これらのアセットを実世界のアプリケーションで再照明することができます。
かなり高速で、詳細で正確なプロンプト3Dモデルを文字通り1分以内に作成できます。また、新しいテキスト入力に基づいてモデルの再テクスチャリングややり直しもサポートしています。
基本的に、2つの方法で機能します。まず、Meta 3D Asset Genを使用してテキストプロンプトから3Dメッシュと基本的なテクスチャを生成します。次に、Meta 3D Texture Genを使用して、元のテキストプロンプトまたは新しいテキストプロンプトに基づいてテクスチャの品質を向上させます。
このような統合により、彼らは2つのものを組み合わせて非常に効果的なものを作り出しました。これは本当にクールだと思います。
ここで見られるように、多くの異なるものを様々な方法でテクスチャリングできます。ここでのテーマは、コットンウールのようなテーマであることがわかります。
これは、ゆっくりと着実に改善していくものだと思います。なぜなら、最初にこのような論文を見ていたとき、モデルがいかに悪かったかを見るのは常に興味深かったからです。そして毎年、テキストプロンプトに基づいて3Dモデルが生成される方法に、小さな改善が見られます。
これは、3D世界に統合されれば、多くの異なるユースケースにとって非常に効果的なものになると思います。
最後になりましたが、AIエージェントが思っているよりもずっと長い時間がかかるという情報が再び得られました。なぜなら、本質的にはるかに多くの精度が必要だからです。そしてそれはおそらくスケールによってのみ起こるでしょう。これはムスタファ・スレイマンが言ったことです。
基本的に、これらのAIエージェントが長期間にわたって多くの異なるアクションを連鎖させたい場合、はるかに多くの正確さが必要です。エージェントに世界で行動させたい場合、通常その行動には一連の行動が必要です。
チャットボットと話すと、それは答えるだけで、おそらく少しのフォローアップがあるかもしれません。しかしエージェントの場合、多くのアクションを取り、世界や人間と何が起こるかを見て、さらにアクションを取る必要があるかもしれません。
そのため、長い一連のことを行う必要があり、その長い一連のことが実際に機能するためには、個々のことのエラー率が非常に低くなければなりません。
もし私がロボットで、「okay、これを拾って向こうに歩いて行って、それを拾う」など、家を建てているとしたら、おそらく何千ものアクションが必要です。
つまり、モデルはより信頼性が高くなる必要があります。なぜなら、個々のステップのエラー率が非常に低くなければならないからです。そしてその一部はスケールから来ると思います。エージェントが本当に機能するようになる前に、もう1、2世代のスケールが必要だと思います。
AIへの熱意を冷めさせないでください。皆さんがこのビデオを楽しんでいただけたことを願っています。素晴らしい週末をお過ごしください。次のビデオでお会いしましょう。