
4,804 文字
世界をリードする空間知能AI企業であるワールドラブスは、3D世界を認識、生成、そして相互作用するための大規模なワールドモデルを構築しています。この企業は、AIモデルを2次元のピクセル平面から完全な3D世界へと引き上げることを目指しており、それは仮想世界と現実世界の両方において、私たちと同じように豊かな空間知能を持たせることを目標としています。彼らは近い将来、AIにこの能力を備えさせたいと考えています。
この企業は、先見的なAIの開発者であるF・フェ・リー氏と、コンピュータビジョンとグラフィックスの分野で世界的に有名な技術者であるジャスティン・ジョンソン氏、クリストファー・ラッサー氏、ベン・マルデン・ホール氏によって設立されました。
今日、彼らは最新のAIシステムを発表しました。このシステムでは、たった1枚の画像から3D世界を生成することができます。ワールドラブスのツイートを見てみましょう。彼らは、既存の生成AIモデルでクリエイターが直面している課題、つまり制御性と一貫性の欠如に対処することを目指していると述べています。
AIの画像生成ツールを使ったことがある方なら、彼らが何を言っているのか正確に理解できるでしょう。時には素晴らしい結果が得られることもありますが、他の時には全く的外れな結果になってしまい、望み通りの結果を得るのは宝くじを当てるようなものです。
ここでワールドラブスは興味深い取り組みをしていると説明しています。彼らのシステムに画像を入力すると、いくつかの衝撃的なことが起こります。まず、3D形状を推定します。これは単に画像を平面的な写真として見るのではなく、シーン内のすべての要素の深さと空間的な関係性を理解しているということです。
例えば、私たちの脳が自然にテーブルが空間的に奥行きを持っていることや、部屋に深さがあることを理解できるように、このAIも同様のことを行っています。さらに驚くべきことに、このシステムは見える部分だけでなく、見えない部分も理解することができます。
例えば、リビングルームの写真を1枚撮ったとして、ある角度から撮影したとします。彼らのAIは、あなたの背後にあるもの、角の向こう側にあるものを正確に把握し、文字通り空間全体を完成させることができます。特筆すべきは、これらのシーンで向きを変えることができると述べていることで、これは静止画ではなく、AIが生成した環境を実際に探索できることを示唆しています。
さらに素晴らしいのは、どのようなシーンやアーティスティックなスタイルでも対応できると言っていることです。フォトリアルな建築物でも、ファンタジー的な環境でも、様式化されたものでも、その中間のものでも、これらのシステムは空間全体を通して一貫性を維持できます。
これは実際に大きな進歩です。なぜなら、現在のAIツールで直面する主な課題の1つは、異なる生成物間で一貫したスタイルや外観を維持することだからです。もちろん、クリエイターにとっては革新的な変化となる可能性があります。1枚のコンセプトアートを完全に探索可能な3D環境に変換したり、実際の場所の写真を撮って、元の写真にない角度からも自由に動き回れるようにすることができます。
これは非常に驚くべきことです。というのも、ゲームデザイン、バーチャルプロダクション、建築のビジュアライゼーション、バーチャルリアリティなど、様々な応用可能性があるからです。これらのシナリオを考えると、本当に心が震えるような革新です。
ワールドラブスはさらに、「私たちの3D シーンは、完全なカメラコントロールでブラウザ上でリアルタイムにレンダリングできます」と述べています。これは実際に大きな進歩です。ブラウザでリアルタイムというのは、AIが生成した環境をウェブブラウザ上で即座に探索できるということです。
つまり、特別な高性能ソフトウェアは必要ありません。これはAIが個々の画像を生成するのを待つ必要がなく、ビデオゲームのようにスムーズで即座な動きが可能だということです。カメラコントロールについて言えば、彼らは具体的に、ビデオゲームのように自由に動くカメラでこれらのシーンを探索できると述べています。
これは、事前に設定された角度や限られた動きに縛られることなく、文字通り好きなように空間を飛び回り、あらゆる角度からものを見たり、細部に近づいたり、広角で撮影したりできるということです。
映画制作者にとって興味深いのは、浅い被写界深度やドリーズームなどの3Dカメラ効果をシミュレートできると述べている点です。映画撮影に詳しい人なら、これらはショットにおける雰囲気やインパクトを生み出す最も強力なツールの一部だということを知っているでしょう。
浅い被写界深度とは、被写体がシャープで背景が滑らかにぼける、あの美しいぼけ効果のことです。そしてドリーズームは、バーティゴ効果としても知られ、被写体のサイズを同じに保ちながら、カメラが伸縮しているように見える、あの目が離せないようなショットのことです。
AIが生成した環境でこれらのプロフェッショナルなカメラテクニックをリアルタイムで扱えるということは、コンテンツクリエイターや映画制作者にとって革新的なことです。
次のツイートでは、ワールドラブスのアプローチが異なる技術的な魔法について詳しく説明しています。彼らは、従来の生成モデルは単にピクセルを予測するだけだと指摘しています。つまり、従来のAI画像生成器は基本的に、デジタルペインティングのように平面的な画像をピクセルごとに作成しているということです。
しかし、ワールドラブス社は根本的に異なることを行っています。彼らは実際の3Dシーンを生成しているのです。これがなぜ重要なのか、みなさんに説明する必要があります。
彼らが「見て離れて戻ってきても、シーンは変化しない」と言っているのは、現在のAIツールに対する一般的な不満を強調しているのです。AIで画像を生成し、同じシーンの別の角度を生成しようとすると、まったく異なって見えてしまうことをご存知でしょう。
これは、ピクセルベースの生成には3D空間の記憶や理解がなく、毎回一からやり直しているからです。しかし、ワールドラブスのアプローチでは、異なる角度から何度見ても同じように見える一貫した3D環境を作成しています。
そして、3D幾何学の基本的な物理法則に従うと述べているとき、彼らは基本的に、シーンが空間的に意味をなすということを話しています。つまり、近づいたり遠ざかったりしても物体は適切なサイズを保ち、影は正しく落ち、物体は空間内で適切な関係を維持します。
彼らは、これを視覚化する最も簡単な方法として「デプスマップ」について言及しています。これは、各ピクセルの色がカメラからの距離を示すヒートマップのようなものと考えることができます。物体が近ければ近いほど、デプスマップでは明るく、あるいは暗く表示され、3D空間の明確な視覚化を提供します。
これは技術的で退屈に聞こえるかもしれませんが、実際には、中を動き回っても混乱することのない、リアルで探索可能な環境を作るために非常に重要なのです。
次の部分は、さらに興味深くなっています。ワールドラブスは「一貫した3D形状を生成することで、3Dを意識した方法でシーンと相互作用できる」と述べています。彼らが話していることと、それがクリエイターにとって何を意味するのかを分析すると、3Dシーンを扱う際に多くのことができるということです。
彼らが言及していることの1つは、シーンの照明と外観を変更できるということです。ビデオゲームや3Dソフトウェアで、ライトを移動したり、時間帯を変更したり、異なる照明セットアップでシーンの雰囲気を調整したりできることを考えてみてください。
基本的に彼らが話しているのはそういうことです。入力画像のオリジナルの照明に縛られることなく、バーチャル写真家のように照明を自由に操作できるのです。
次に、形状の修正について話しています。これは、シーン内の物の形状や構造を変更できるということです。壁をもう少し高くしたい、ドアの大きさを調整する必要がある、などといった場合に実際にそれが可能です。なぜなら、これらは単なるピクセルを持つAI画像ではなく、深さと寸法を持つ実際の3Dオブジェクトだからです。
また、シーンに他のオブジェクトを挿入できることについても言及しています。これは非常に重要です。なぜなら、環境に新しい要素を追加でき、それらが自然に空間に適合するということを意味するからです。システムは深さと遠近法を理解しているので、新しい光沢のあるオブジェクトを配置すると、正しい照明、正しい影、正しいスケールで、まるでそこにあるべきもののように見えます。
これは、平面的な画像に何かをフォトショップで合成するのとは比べものにならないほど優れています。なぜなら、すべてが3D空間に自然に統合されるからです。
彼らのウェブサイトには、実際にいくつかの興味深いものがあります。その1つは、文字通り被写界深度を変更できる領域です。ここでは、近くから遠くまで変更できることが分かります。これは私が動き回ることができる何かで、実際にとても面白いです。シーンの被写界深度を変更でき、これらすべてが非常に興味深く、創造的です。
なぜなら、3D世界をよりリッチな方法で探索することができるからです。私が本当に気に入っているのは、AI生成画像を見るとき、時として望む複雑さをコントロールできないことがありますが、ここでは異なるシーンがあり、スライダーを動かして異なるものに焦点を当てることができ、このような制御は、これらのツールを本当に効果的な方法で使用しようとする世界に移行するために非常に必要になると思います。
また、ここでドリーシーンを見てみると、広角から望遠まで移動でき、これらのシーンがどんどん興味深くなっていくのが分かります。上下に動かすことができ、これは本当に効果的です。
また、3Dシーンの構造を使用して、インタラクティブな効果を構築することもできます。シーンをクリックしてキーを使って動き回ると、様々な効果を得ることができます。その1つはソナーで、基本的にコウモリのエコーロケーションのようなものです。
コウモリがあの行動をするとき、すべてのテクスチャに波紋が広がるのが分かります。これは生成AIでは実現が難しいことですが、実際の3Dシーンでは非常に効果的に行うことができます。あそこをクリックすると、すべての表面に波紋が広がっていくのが分かります。これは本当に正確です。
もちろん、スポットライトもあります。これはシーンに照明を追加できる機能です。天井に光を追加したり、地面に光を追加したりできます。そこに光を追加できるのは本当に興味深いです。
また、シーンを受動的にアニメーション化する効果も構築できます。例えば、カラーウェーブがあります。波を使いたい場合はこれを使用できます。これが一番クールだと思います。なぜなら、シーンが本当に奇妙な3D的な方法で波打つのが見えるからです。これは私が本当に気に入っているものです。
最後に、彼らは絵画の中に実際に入り込んで探索できることを示しています。私はこれらの絵画すべてを知っているわけではありませんが、将来的にはもちろんこれはもっと良くなっていくでしょう。つまり、完全な3D仮想世界を探索できるようになるということは狂気じみています。
そして、このような技術はVRにとって素晴らしい応用可能性があると思います。なぜなら、テキストプロンプトを入力して、あなたの家全体でその仮想世界を探索できることを想像してみてください。
コメント