Googleの新しいAIは超知能を解き放つため、世界全体を再現している

4,476 文字

Google’s New AI Is Recreating the Whole World to Unlock Superhuman Intelligence
Google DeepMind is building a groundbreaking AI system capable of simulating the entire physical world to advance toward...

Googleの最新のAI構想は、物理的な世界全体をシミュレーションするように設計されたシステムです。これは現実に起きていることで、Google DeepMindで今まさに進行中です。これが何を意味するのか、なぜGoogleがこれを人工汎用知能(AGI)への重要な道筋と考えているのか、そして噂されているGemini 2も含めたGoogleの広範なAI戦略にどのように結びつくのかについて話していきましょう。
また、GoogleがワークスペースでAIをより利用しやすくすることに関する大きな発表や、MicrosoftのAIとの関係など、より広範なAIレースにおいてこれらがどのように位置づけられるのかについても見ていきます。
まず最初に、昨年秋にOpenAIを離れ、Google DeepMindに移籍したTim Brooksについてです。彼は現在、世界のシミュレーションに特化した新しいチームを率いています。基本的に彼らは、私たちの惑星の物理法則を理解し、複製できるAIモデルの構築を目指しています。
世界のシミュレーションとは何かと思われるかもしれませんが、本質的には、ビデオ、オーディオ、おそらくロボット工学からのセンサーなど、大規模なマルチモーダルデータストリームでAIシステムを訓練し、私たち人間が日常生活を送るために物理法則の知識に頼っているように、AIが特定の環境で何が起こるかを予測できるようにすることです。
究極の夢は、これらのシステムが非常に高度になり、AGIへの道を切り開くことです。Brooksによれば、彼らはこのプロジェクトの規模を本気で考えており、GeminiやVo、Genieなど、他のGoogleのAIプロジェクトと密接に協力しています。
Geminiはすでにしばらく注目を集めている大規模な次世代言語モデルです。Voはビデオ生成ツールで、Genieは1枚の画像からプレイ可能な3D世界を作成できる基盤モデルです。これらの技術、つまり大規模な言語モデル、高度なビデオ生成、そして完全な3D環境を生成する能力を組み合わせると、現実世界の物理法則を考えることができるAIのパズルのピースがどのように組み合わさっていくのかがわかります。
これは全て、いわゆる「スケーリング仮説」に対するGoogleの強い信念と結びついています。これは基本的に、AIモデルにより多くのデータとパラメータを投入し続ければ、知能の大きな飛躍が続くという考えです。しかし批評家たちは、純粋なスケーリングで達成できる上限に達しつつあるのではないかと指摘しています。データには限りがあり、巨大なモデルの訓練による環境への影響は非常に大きいのです。一部の専門家は、より大きなモデルではなく、新しいアーキテクチャが必要だと主張しています。
しかし現在のところ、Googleは倍増を続けています。この新しい世界シミュレーションチームの求人広告には、ビデオやマルチモーダルデータへのスケールアップがAGIに到達するために重要だと明確に述べられています。また、マウンテンビューの本社で「ワールドモデリング研究エンジニア」も募集しており、利用可能な計算能力の限界まで世界シミュレーターを押し進めたいと強調しています。
そもそも、なぜ現実世界全体をシミュレーションする必要があるのでしょうか?理由はいくつかあります。まず、現実の物理法則を正確にシミュレーションできれば、実際の環境で失敗するよりも無限に安全で安価な仮想環境でロボットを訓練できます。歩行を学習する必要のあるロボットを想像してみてください。物理的につまずき回る代わりに、実際の床の上を歩くのに十分なレベルになるまで、シミュレーション環境で練習することができます。
さらに、ゲームやインタラクティブエンターテインメントの開発者は、これらの超高度な物理シミュレーションを組み込んで、信じられないほどリアルに感じるゲーム世界を作ることができます。物理法則を学習したAIによって、物体や環境が完璧に近いリアリズムで動作するゲームを想像してみてください。
しかし、これはゲームやロボット工学だけの話ではありません。研究者たちは、これらの高度なシミュレーターを使って、実際の世界で物理的な実験をすることなく、天気パターンのシミュレーションやウイルスの感染拡大のモデル化など、科学的な実験に活用することができます。そして重要なことに、これらのシステムは、AIが空間内の文脈、環境、さらには体言語を理解する必要のあるリアルタイムの対話シナリオに役立つ可能性があります。まさに未来のSF映画から抜け出てきたような感じです。
近未来の開発といえば、GoogleがGemini 2.o Flash Thinking Expanse 123という主要なアップデートを発表する噂が広がっています。これは1月23-25日に発表される予定で、この情報はGoogleのハッカソンライブストリームで、Pon Weangという人物が詳細をキャッチしたとされています。Flash Thinkingという名前は、リアルタイムシミュレーションのような作業における素早い意思決定に役立つ、より速い、あるいはよりダイナミックな推論を暗示しています。
もしそうだとすれば、新しい世界モデリングミッションとうまく結びつきます。おそらくGoogleの計画は、これらのFlash Thinking機能をAIスタジオプラットフォームに統合し、開発者に高度なシミュレーションやイマーシブな体験を構築するための簡単なインターフェースを提供することでしょう。
Googleが投稿した求人広告「ワールドモデリング研究エンジニア」に話を戻しましょう。詳しく見ると、物理的世界の巨大な生成モデルのためのインフラストラクチャの構築に焦点が当てられています。この役割は、大規模なレベルでこれらのシミュレーターを訓練し、彼らが「物理的知能」と呼ぶものの指標を構築し、リアルタイムのインタラクティブな生成に取り組み、そしてそれら全てをマルチモーダル言語モデルとどのように統合するかを解明するという、最も困難な問題の解決を強調しています。
これは単にテキストや画像を分析するだけでなく、基本的に時間プラス3Dの4次元で現実の動的なマップを構築するため、大きな課題となります。また、この広告は「bitter lesson(苦い教訓)」というAIの概念にも言及しています。これは基本的に、スケールの良い単純な手法が、より複雑な手作業で設計されたソリューションよりもしばしば優れた性能を発揮するという考えです。これは、複雑なボトルネックなしにスケーリングアプローチを推進し続けられるよう、アーキテクチャをできるだけシンプルで簡潔に保つかもしれないということを意味します。
しかし、これはパズルのもう一つの重要なピースです。Googleはまた、ワークスペースのすべての加入者にAI機能を無料で提供することで、エンタープライズ戦略も変更しています。以前は、Gemini Businessにアクセスするために、ユーザー1人あたり月額20ドルの追加料金を支払う必要がありました。
今、Googleはその費用を通常のワークスペース加入料に組み込み、ユーザー1人あたりの料金を12ドルから14ドルに引き上げました。実質的に、わずか2ドルの追加料金で、企業は自動生成されたスプレッドシートデザイン、会議の要約、AIパワードのノートテイカー、ビデオ編集など、これらすべてのAI機能を以前の支払い障壁なしで利用できるようになったのです。
一方、Microsoftもこのレースに参加しており、Microsoft 365用のCopilotチャットの無料版を、従量制エージェントのオプション付きでリリースしています。Microsoftは完全なプレミアム機能を望むユーザーのために、月額30ドルのユーザーあたりの上位ソリューションも引き続き提供していますが、GoogleとMicrosoftが同じ週にAIをより利用しやすくしているという事実は、現在のAI軍拡競争について多くを物語っています。
各企業は、できるだけ多くのユーザーを自社のAIエコシステムに取り込もうとしています。戦略としては、誰もが自社のAIを使用していれば、ブランドロイヤルティを構築し、より多くのユーザーデータを収集してモデルをさらに改良し、基本的に次世代AIの提供で先行できるということのようです。
Googleのクラウドアプリケーション担当社長であるJerry Dishlerは、企業がAIを採用する上での主な障壁はコストだったと話しています。追加料金を廃止し、基本的なワークスペース加入料をわずかに引き上げることで、Googleは基本的に「大きな金銭的障壁なしに、すぐにAIの価値を見てほしい」と言っているのです。
Googleの観点からすると、既存のスイートにAI機能を組み込むことで、摩擦を減らし、より多くの人々に試してもらい、これらのツールがいかに強力であるかを理解してもらうことができるかもしれません。もちろん、リソースの使用量が増えたり、AIを必要としないユーザーが、必要とするユーザーを補助しているように感じたりするなどのトレードオフがある可能性もありますが、大局的に見ると、AIの採用を加速させる大胆な動きです。
では、より多くのユーザーにAIを開放することが、世界モデルシミュレーションのような野心的なプロジェクトにどのようにつながるのでしょうか?より多くのユーザーは、より多くのデータとフィードバックループを意味し、メール作成やデータ処理など、人々が実際にどのように作業するかについてAIにより深い洞察を与えます。これを大規模なビデオライブラリ、Genieのような高度な3Dモデリング、リアルタイムのロボットデータと組み合わせると、突然、AIは単にテキストを解析するだけでなく、シミュレーション環境で物体がどのように振る舞うべきかを予測するようになります。
もちろん、真の世界モデルの構築には困難な課題があります。物理法則は複雑で、データは巨大で、倫理的な懸念も無視できません。Google DeepMindのTim Brooksは、まさにそのために学際的なチームワークを強調しています。
一方で、GoogleのGemini 2.0 Flash Thinking Expanse 123に関する噂は、特に2025年にMicrosoftとのAIレースが過熱する中で、大きな飛躍を示唆しています。
私たちはAIが本当に物理的な世界を理解する未来に一歩ずつ近づいているのでしょうか?それともこれは全てただのハイプなのでしょうか?あなたの考えを聞かせてください。そして、このような深い考察に興味がある方は、ぜひいいねとチャンネル登録をして、今後のAIアップデートもお見逃しなく。

コメント

タイトルとURLをコピーしました