Figureが史上最も賢いAIロボットを開発し、専門家らも衝撃

4,211 文字

Figure Just Built the Smartest AI Robot Ever and Experts Are Shocked

Figure has unveiled Helix AI, a breakthrough in robotics and artificial intelligence, creating a humanoid robot that ins...

ほな、ちょっと聞いてや。人の言うことをパッと理解して、目で見たもんを認識して、初めて触るモノでもスッと扱えるロボットちゅうのがあんねん。訓練もプログラミングもいらんと、純粋な知能だけでそないなことができんねや。FigureのHelix AIがそれを実現しよんねんけど、これ、家庭用ロボット界での最大の躍進になるかもしれへんで。
数週間前、FigureはOpenAIとの協力関係を終わらせたんや。創業者のブレット・アドコックが2月4日にTwitterで発表しててん。なんでかちゅうと、ロボット向けの完全なエンドツーエンドAIで社内開発の大きなブレイクスルーがあったからやねん。そのブレイクスルーがHelix やったんや。
その発表の直後に、Figureが巨額の新規資金調達について話し合ってるっちゅう情報も入ってきてん。報道によると15億ドルで、企業価値は395億ドルやて。これだけでも投資家らがめっちゃ興奮してるんが分かるやろ。おそらく技術をちょっと見せてもろたんやろなぁ。まぁ、買い物の片付けをしてくれるロボットやったら、誰だって興奮するよなぁ。
ほな、Helixについて、なんでこれが重要なんか話していこか。まず名前からして「Vision language action」言うてるやろ。これが3つの重要な要素を組み合わせてるんや。環境を見る（Vision）、指示を理解する（language）、そして実行する（action）んや。Figureはこれを「ジェネラリストモデル」って呼んでんねん。なんでかちゅうと、これ、一つの狭い作業だけやのうて、何千もの違う家庭用品を扱えるんや。しかも、それぞれの新しいモノに対して、たくさんのデモデータや特別なプログラミングもいらんのや。
Figureのデモ動画の一つでは、誰かが「ねぇ、この買い物袋の中身を片付けてくれへん？」って二台のロボットに言うてんねん。そしたらロボットらがキッチンをスキャンして、冷蔵庫開けて、中身入れて、リンゴはフルーツボウルに入れたりしてん。もっとすごいんは、この作業で複数のロボットが協力し合うて、モノを手渡ししたりしてんねんけど、それが全然手間取らへんのや。
Figureの創業者のブレット・アドコックは、Helixの開発に1年以上かけて、一般的なロボット工学の課題を解決しようとしてきたって言うてんねん。人間みたいにちゅうことは、Helixが問題を考えて解決できるだけやのうて、音声での指示にも対応できて、初めて見るモノも扱えるちゅうことなんや。
これ、めっちゃすごいことやで。普通の家庭ちゅうんは整然とした組立ライン見たいなもんとはちゃうからな。ごちゃごちゃしてるし、物の配置も変わるし、明るさも違うし、どの家も独特やろ。そういう環境でロボットが本当に役立つには、今までのロボット工学には無かったレベルの適応能力が必要なんや。Helixの一番のウリは、システム2（S2）とシステム1（S1）って呼ばれるもんで動いてることなんや。S2はちょっとゆっくりめのインターネット事前学習済みのビジョン言語モデルの部分で、普通の言葉での命令を理解して、状況を見て、全体的な計画を立てんねん。一方のS1は、その計画を200ヘルツでリアルタイムの物理的な動きに変換する、速い視覚運動方針なんや。
S2は一歩引いて何をすべきか考える脳みたいなもんで、S1は瞬間的な運動制御をする神経系みたいなもんやと思てくれたらええ。この二つのシステムは、ロボット自体に搭載された低電力のGPUで動くから、でっかい外部コンピューターなしでも、すぐに商業利用できるんや。
Figureによると、このアプローチは昔からのジレンマを解決してんねん。今までは会話は得意やけど瞬間的な制御には遅すぎる大規模言語モデルと、めっちゃ速いけど使える範囲が狭い制御方針があってん。HelixをS2（ゆっくり考える）とS1（速く動く）に分けることで、両方のええとこ取りができたんや。
彼らは約500時間分の遠隔操作行動のデータセットも作ってん。それから、自動ラベル付けのVMを使って、学習用の自然な言語指示を生成したんや。だから、各デモは人間がどう話すかに対応してんねん。
でもそれだけやあらへん。Helixは、ロボット工学でいくつかの「初」を実現したって言うてんねん。まず一つ目は、上半身の完全制御や。手首、胴体、頭、指を含む35自由度を200ヘルツで動かすんや。これ、めっちゃ多くの関節を調整せなアカンねん。特に、形や重さの違うモノを持ち上げたり、冷蔵庫のドアを開けながら中を見るために胴体をひねったりする時なんかは大変やねんで。
二つ目の大きな「初」は、複数ロボットの協力や。「クッキーの袋を右のロボットに渡して」みたいな音声指示だけで、二台の別々の人型ロボットがモノを手渡しできるんを見せてくれてん。両方のロボットが環境を理解して、その受け渡しを調整すんねん。
それから、「なんでも拾える」ちゅう創発的な能力もあんねん。Helixは大規模言語理解と視覚処理を組み合わせてるから、一つ一つのモノに対して別々の学習が要らへんのや。音声指示だけで何千もの新しい家庭用品を扱えるシステムなんや。「あの変なプラスチックの恐竜を拾って」って言うたら、そんなモノ今まで見たことなくても理解できんねん。
もう一つの目玉は、Helixが統一ニューラルネットワークアプローチを使うてることや。違う作業ごとに別々のモジュールを持つんとちゃって、Helixは一つの70億パラメータのビジョン言語モデル（S2の部分）と、制御用の8000万パラメータのトランスフォーマー（S1）を持ってんねん。この一つの重みセットで、モノを拾う、置く、引き出しを開ける、別のロボットにモノを渡すなんかの作業のために、上半身全体を制御できんねん。キッチンでの新しい作業ごとに微調整する必要もない、普遍的なアプローチなんや。
最後に、Helixは商業利用の準備ができてるって言うてんねん。組み込みGPUで動くから、でっかいサーバーにつながれてる必要があれへん。これ、家の中を動き回るロボットにとってめっちゃ重要やで。でかいケーブルや隅っこにデカい機械があるなんて心配せんでええしな。システムも速くて安全性も高い。ネットが切れても遅延の問題が起きにくいんや。
もちろん、まだ初期段階やけどな。Figureが出した動画見ると、全部スムーズに動いてる短いデモやけど、これ裏では相当なテストを重ねた結果やと思てええ。このロボットが人間みたいに完璧な料理したり、洗濯物全部たたんだり、家中掃除機かけたりできるようになるんは、まだ何年か先やろな。
でも会社はHelixをゲームチェンジャーとして位置づけてて、BMWみたいな自動車会社と仕事してる産業現場から、実際の家庭環境まで規模を拡大できると考えてんねん。
面白いことに、Metaも AI搭載の人型ロボット部門を新設するって報道があってん。それに、別のスタートアップのAptonicは最近、Google DeepMindの支援を受けて3億5000万ドル調達したんや。さらにAppleもこのレースに参入するかもしれへんって噂もあんねん。つまり、テック大手らの間で人型ロボットの未来を決める競争が始まってんねや。
TechCrunchのブライアン・ヒアーが指摘してたんやけど、多くの人型ロボット企業は最初、倉庫での箱の移動みたいな、環境がより構造化された産業や物流のシナリオに焦点を当てんねん。でもFigureは、ロボットにとって悪名高いほど難しい家庭環境に力入れてんねん。人は家具動かすし、液体こぼすし、半分たたんだ洗濯物も放っとくし、いろんなランダムなことするやろ。そういうの解決できたら、一般的なロボット工学の課題の大部分も自動的に解決できんねん。
もう一つ面白いのは、Helixが家庭での使用に大きく方向転換したんやけど、Figureは産業用途を諦めてへんことや。むしろ、家庭環境を適応能力の究極のテストベッドとして見てんねん。人の家のあらゆる奇妙なことに対応できたら、たいていの産業タスクもこなせるやろうって考えや。
工場の床から居間への橋渡しは、長い間話題になってきたけど、技術的な課題があまりにも違うから、めったに達成されへんかってん。Helixのアプローチは、一つ一つの動作を細かくプログラミングしたり、何千回も同じようなデモで学習させたりする古い方法を回避してんねん。ビジョン言語モデルを使うことで、冷蔵庫のドアの開け方や、リンゴが普通キッチンのどこに置かれるかみたいな、日常的な常識をたくさん学んでるんや。そして、S1が細かい部分を担当するから、新しいマグカップやおもちゃに出会うたびに何時間も再学習する必要がないんや。
これこそが、アドコックの言葉を借りれば、能力の段階的な変化をもたらす可能性のあるアプローチなんや。もちろん、安全性や信頼性、ハッキングについての疑問もあるやろな。「待って、誰かが家のロボットをハッキングして、変なことさせられへんの？」って思うかもしれへん。それは技術が進むにつれて、もっと詳しく分かってくるやろな。
今んとこFigureは、Helixが汎用化して、その場で作業をこなせることを確認するコアAIに焦点を当ててんねん。自然言語での音声プロンプト、初めて見るモノも扱える単一システム、そして二台以上のロボットがリアルタイムで協力できる能力など、ユーザーフレンドリーな機能にも力入れてんで。
Figureによると、Helixは人間みたいに、話を理解して、問題を考えて、要求に応じてモノを掴めんねん。6桁の値段の人型ロボットを家に迎え入れる準備ができてる人ばっかりやあらへんやろうけど、大量生産が進んでコストが下がってくれば、もっと多くの場所でこういうロボット見かけるようになるかもしれへんな。サービス産業や高齢者介護、あるいは単なる高級な家庭用コンパニオンとしてな。
ほな、みんなの意見も聞かせてほしいわ。こういう人型ロボットにキッチンを物色させても大丈夫って思う？それとも、技術がもっと堅牢になって、願わくは安くなってから、ロボットに食器棚からグラス取り出させた方がええと思う？
ほな、また次回会おな。