
9,566 文字
Figure Roboticsが、これまでで最大のブレークスルーの1つを発表しました。人型ロボットの汎用的な制御のための視覚・言語・行動(VLA)モデルです。
以前から視覚・言語・行動モデルについて話してきましたが、Google DeepMindが素晴らしいブログ記事でその仕組みを解説しています。この時点で、ほとんどの人々は大規模言語モデル(LLM)、つまりChatGPTのような対話が可能なモデルについて知っています。これに視覚機能を追加すると、視覚言語モデルとなり、物を見て質問に答えることができるようになります。
そしてGoogle DeepMindによる「行動」の部分についての優れた説明があります。視覚言語モデル(VLM)があれば、画像を入力として受け取り、自然言語テキストを表すトークン列を生成できます。例えばこの画像で「ケチャップを青い方に押すにはどうすればいいか」と尋ねると、言葉で説明することはできますが、それを実際のロボットの動きに変換するのが次のステップです。これがVLAの「A」の部分です。
行動の部分は、テキストによる思考などを実際のロボットコマンドに変換することです。このモデルとロボットには多くの初めての機能が搭載されています。Helixは、人型ロボットの上半身全体(手首、胴体、頭部、各指)の高レートな連続制御を出力する初のVLAです。デモンストレーションで見るように、非常に俊敏で物を動かすのが上手です。
興味深いのは、Helixが2台のロボットで同時に動作する初のVLAだということです。これにより、見たことのない物品を使って共有の長期的な操作タスクを解決することができます。すぐにデモをご覧いただきます。
Helixを搭載したFigureのロボットは、自然言語による指示に従って、これまで見たことのない何千もの家庭用品を含む、ほぼすべての小型の家庭用品を拾い上げることができるようになりました。これは1つのニューラルネットワークで、従来のアプローチとは異なり、Helixは物を拾って置く、引き出しや冷蔵庫を使う、ロボット間の相互作用といったすべての動作を、タスク固有の微調整なしに1つのニューラルネットワークの重みで学習します。
商業的にも準備が整っており、Helixは完全にオンボードの低消費電力GPUで動作する初のVLAで、すぐに商業展開が可能です。非常に速いペースで進歩とイノベーションを見せている複数のロボット企業があります。Figure、Optimus、Unryなどです。これらの企業はすでに実世界でデモンストレーションできるロボットを持っています。まだ本格的な生産には至っていないかもしれませんが、実際の環境で何ができるかを見ることができます。
大規模言語モデルやAIの進歩と同様に、これも非常に民主的になるように見えます。1つの企業がAIやロボットを独占するのではなく、広く利用可能になり、多くの競争がイノベーションを促進し、価格を下げていくでしょう。2025年はロボットの年になると思います。
このデモ動画をご覧ください。見える2台のロボットは1つの「脳」、1つのモデルで制御されています。2本の手を使って何かをするのと同じように、これら2台のロボットは1人の個体の2本の手のように協力してタスクを達成します。
「やあ、Figuresたち。新しいことを試してみたいんだけど。これらの物は初めて見るものだけど、新しいHelix AIを使って、シーンの中でどこに置くべきか考えて、協力して片付けてくれないかな」
実に魅力的です。ブログ記事では、これらのロボットは1つの「脳」、つまり1つのモデルで制御されていると説明しています。これは混乱するかもしれませんが、1つのニューラルネットワークということは、物体認識用、物体の拾い方用、会話用など、異なるスキルごとに異なるニューラルネットワークがあるのではなく、すべての異なる動作を1つのニューラルネットワークで学習しているということです。
興味深いのは、左のロボットがタスクを完了して開始位置に戻った後の様子です。何もしていない左のロボットが手を差し出し、手のひらを上に向けて何かを受け取る準備をしていることに注目してください。カメラが切り替わるので分かりづらいのですが、これは以前からFigureやその他の人々も指摘していることです。彼らは非常に美しくスタイリッシュなロボットのクリップを作成しますが、多くの人々は「携帯電話のカメラで、ライブストリームで、カット編集なしで見せてほしい。1時間かかってもいいから、カメラの動きなしで何が起きているのかを見せてほしい」と言っています。
私が見る限り、両方のロボットが同時に動き始め、1台がクッキーに手を伸ばし、もう1台が手を差し出して、クッキーを受け取るまでその手は待機しています。ここでも同じことが起きているようで、もう一方のロボットがすでに手を差し出しているのが見えますが、カメラアングルが頻繁に切り替わるので判断が難しいです。
両方のシーンで興味深いのは、受け渡しの後に互いを短く見つめ合うことです。これはおそらく社会的な要素として追加されたものだと思います。人が近づいてきたときも同じように、声を聞いて両方が振り向くからです。人や一緒に作業している相手の方を向くことは、指示として追加されたものかもしれません。
ここでは、スライスハムのようなものを受け渡し、作業を再開する前に短く見つめ合います。ここでも同じことが起きます。クッキーを受け渡し、直後に短く見つめ合います。見てください、「よし、クッキーを受け取った、続けよう」というように互いを見つめています。もちろん、最初のシーンでも同じで、人が話し始めると両方が振り向いて、注目していることを確認します。
少し混乱するのは、Helixは完全にオンボードで動作する初のVLAだと言っていることです。低消費電力GPUを搭載し、すぐに商業展開が可能だと言っていますが、同時に複数のロボットを操作するモデルでもあります。その詳細について知りたいと思います。複数のロボットを制御する場合、コマンドを実行するために各ロボットが接続する中央サーバーのようなものを想像しますが、ここでは完全にオンボードだと言っています。この答えが得られたら、コメント欄かTwitterで投稿したいと思います。
Figureの開発初期に少し残念だったのは、主に商業的なタスク、つまり倉庫や工場などに焦点を当てているように見えたことです。家庭での使用を期待していましたが、高品質なデータが制限の1つでした。これは非常に興味深いことです。
まず、家庭はロボット工学の最大の課題を表していると言っています。管理された産業環境とは異なり、家庭には様々な物が雑然と置かれています。だからこそ、まず産業環境に焦点を当てることを決めたのです。より管理されていて、より簡単で、より標準化されているからです。家庭内の環境は純粋なカオス、私だけかもしれませんが。
ロボットが家庭で役立つためには、要求に応じて新しい動作を生成できる能力、つまり一般化する能力が必要です。より少しロボット的でなく、家の中で見かけるさまざまな物体やその位置に一般化できる必要があります。
従来のロボットの訓練方法は、基本的に博士号を持つ人々の時間を使って、ロボットをより知的にするための様々な方法を作り出すことでした。以前、FigureAIはテレオペレーションを行う人材を募集していたと思います。基本的にセンサーを装着し、バイザーをつけて、物事の動きをデモンストレーションしたり記録したりし、その視覚データと動きのデータを使ってロボットを訓練していました。
次のステップは、フリートモデルと呼ばれるものでした。これについては6~12ヶ月前に話しましたが、実世界で作業する重要な数のロボットを最初に展開できた企業が、そのロボットが仕事をしている間にデータを収集するという考えです。環境やそれとの相互作用の映像を記録し、フリート内の各ロボットがフリート全体の学習に貢献します。これは単なる理論ではなく、例えばGoogle DeepMindがそれが実際に可能であることを実証しています。
Google DeepMindは「Auto RT」という論文を発表し、この考えについて部分的に説明しています。オフィスビルを巡回するロボットのフリートがデータを収集し、物を見たり、行動したり、指示を受けたりするすべてが訓練データとして収集され、各ロボットの個別の学習からフリート全体がアップグレードされるという面白い概念です。
しかし、彼らが提案する新しいアイデアは、フリートモデルを基に、Helixと呼ばれるものを追加することです。Helixはプログラミングやデモンストレーションなしで新しい動作を理解できます。これにより、理論的には他のアプローチよりもはるかに速くスケールアップできます。
どのようにしてそれを実現できたのでしょうか?視覚言語モデルに取り込まれた意味的知識を直接ロボットの動作に変換できたらどうだろうかという考えから始まりました。LLMやVLMは何かの方法を説明することができます。例えば、テーブルの上にリンゴがあって、それを食べるにはどうすればいいかと聞かれれば、リンゴを拾って顔に近づけて一口かじる方法を、望む複雑さのレベルで英語で説明できます。しかし、それをロボットの動作に変換するにはどうすればいいでしょうか?
彼らはこのギャップを埋めるためにHelixを構築しました。システム1とシステム2の思考について聞いたことがあるでしょう。システム1は直感と本能で、無意識的で速く、オートパイロットのようなものです。スポーツをしているとき、各動作を具体的に考えたり、頭の中で言葉にしたりせず、ただ速く反応してオートパイロットで動きます。無意識的で、非常に速い動きを可能にします。
システム2は合理的な思考です。より努力が必要で、遅く、論理的です。結論に達するまでに時間がかかるかもしれません。テーブルからリンゴを拾う方法をLLMが段階的に書き出すのはシステム2の思考です。時間がかかり、遅く、努力が必要です。
ロボットにはシステム1が必要です。それを無意識の空間に圧縮する必要があります。反応は無意識的または潜在意識的です。無意識という言葉の方が正確かもしれません。
システム2の思考では、様々なロボットの画像、テキストコマンド(例:「バターを拾って左のロボットに渡す」)、関節角度や指の位置などのロボットの動きがあります。これはオンボードGPUで動作する70億パラメータの事前訓練されたVLM(視覚言語モモデル)で実行されます。
システム1は、より無意識的な反応です。誰かが目の近くで指をパチンとさせたときに瞬きするような、無意識的で速い反応的なものです。興味深いことに、これは別のGPUで実行されます。
ここで彼らは、VLM、つまりシステム2の思考は、システム2用のオープンソース・オープンウェイトであり、システム1用のシンプルなTransformerベースの視覚運動方針であると述べています。
最近、OpenAIとFigure AIの分裂について耳にしました。しばらくの間、FigureはOpenAIの大規模言語モデルや視覚言語モデルで動作するように見えましたが、今では分裂があったようで、OpenAIは独自のロボット研究者を雇用し、Figure AIはこのオープンソース・オープンウェイトVLMを選択したようです。
興味深いのは、これらのロボットを訓練するために使用したデータです。物体間で非常に良く一般化できるように訓練されているからです。家にある変わったおもちゃや小物、装飾品、調理器具、お皿など、何であれ、家庭によって少しずつ異なります。全てのお皿が同じではなく、全ての椅子が同じように見えるわけではないので、よく一般化できる必要があります。
AIの進歩がいかに速いかを示す魅力的な点は、12~18ヶ月前までは、データ不足によってスケーリング則が限界に達すると確信していた人が多かったことです。これらのモデルをインターネット上の全データで訓練し、もうデータがないという状況でした。これは大きなボトルネックになるはずでした。
Figure AIの人々からも同様のことを聞きました。家庭内の様々な環境でタスクを実行するためのロボットの訓練に十分なデータを得ることは難しいだろうと。これはJonathan Rossの話です。彼は元Googleの社員で、GoogleのTensor Processing Unit (TPU)の開発に携わり、現在はGrockの CEO兼創業者です。言語処理チップを手がけており、GoogleのTPUとGrockのLPUの開発者です。
彼は、多くの人々がゆっくりと理解し始めていることについて投稿しました。私たちはこれについて話し、ますます多く目にしていますが、それでもつい最近まで、これを理解していない人々がいました。彼は、LLMのスケーリング則について人々が気付いていないことがあると言います。LLMについて話していますが、これは他の多くのAIモデルにも当てはまり、ロボット工学にも適用されます。これは一般的にニューラルネットワークに当てはまります。
彼は言います。誰かがスケーリング則の限界に達したと言うとき、通常はインターネット上の全データでAIモデルを訓練し尽くしたという意味です。インターネットの終わりに達し、もう訓練するものが何もないと考えています。そのため、論理的にモデルは同じペースで改善し続けることができないと。
しかし、この結論はデータの品質が均一であることを前提としています。実際には、データの品質が向上すれば、モデルも向上し続けることができます。彼はGoogleでこれを実際に目にしました。AlphaGoチームは、世界チャンピオンを打ち負かしたAIモデルを開発しました。リー・セドル、第37手です。すでに人間より優れており、人間のチャンピオンより優れていました。
このモデルは既存の対局、つまり人間のデータで訓練されました。人間が対局を行い、その対局を記録し、それを基にAlphaGoに囲碁を教えました。それは素晴らしかったのですが、重要なのはそこではありません。後に彼らはAlphaGo Zeroという新バージョンを作りました。ちなみに、DeepSeekのモデルの1つはr10と呼ばれていました。ここでのZは、人間のデータをあまり使用しない、または全く使用しないという同じアイデアを指していると思います。
AlphaGo Zeroは既存の対局を全く使用せず、代わりに自己対戦で訓練されました。さらに優れていました。これを合成データと呼ぶことがあります。合成データを作成し、そのデータで訓練することでモデルは向上できます。チェスのAIでも同じことを見てきましたし、r10でも非常に興味深いことを見てきました。これを何度も何度も目にしています。
自己対戦でモデルをどのように改善するのでしょうか?まず自己対戦を行い、良い手を打ったらそれを訓練データに追加します。これが合成データです。より良い手で訓練してモデルを改善し、それを繰り返します。このように合成データと強化学習を使用して、スケーリング則の制限を超えることができます。
Figure AIに話を戻すと、彼らがどのようにデータを取得したかは似ています。これは自己対戦でデータを作成するのとは少し異なりますが、多様なテレオペレーション行動の高品質なマルチルート・マルチオペレータのデータセットを収集することから始まりました。合計500時間、実はそれほど多くありません。
自然言語による条件付き訓練ペアを生成します。訓練ペアとは、例えばモデルに画像認識を訓練する場合、犬の画像と「犬」というラベルのようなものです。犬がどのように見えるかを尋ねると、それを理解できます。訓練ペアは、犬の画像と「犬」という単語、猫の画像と「猫」という単語のような組み合わせです。
ここでの訓練ペアは、これらのテレオペレーション行動と、それに対応する自然言語による説明です。例えば、リンゴを拾う人の様子です。それらを作成するために、オンボードのロボットカメラからのセグメント化されたビデオクリップをVLMで自動ラベル付けし、「このビデオで見られる行動を得るために、どのような指示をロボットに与えただろうか」というプロンプトを与えました。ビデオを見て、それについてコメントを書くAI映画評論家のようなものです。
ここで、1つのモデルが両方のロボットを制御するという考えについて、より詳しく説明しています。両方のロボットは同一のHelixモデルの重みを使用して動作し、ロボット固有の訓練や明示的な役割の割り当ては必要ありません。「クッキーの袋を右のロボットに渡す」や「左のロボットからクッキーの袋を受け取って開いた引き出しに入れる」といった自然言語プロンプトを通じて協調を実現します。
これは、VLAを使用した複数のロボット間の柔軟な協調的操作の初めてのデモンストレーションであり、完全に新しい物体の取り扱いに成功したことは特に重要です。
2台のロボットで同時に動作し、共有タスクを解決できる最初のモデルと言うとき、モデルのコピーが2つあるということです。各ロボットはモデルのコピーを持っており、同じモデル、同じ重みですが、モデルはその協調方法を理解できます。
これにより、何でも拾うことができます。特定の物に事前訓練する必要はなく、子供の靴、金のカセットテープ、目覚まし時計、ヒョウ柄の靴などを理解できます。
とても興味深い進歩ですが、編集していない映像、非公式な設定、誰かが携帯電話のカメラで撮影した編集なしの長時間の映像、実際のユースケースを見てみたいものです。これらのロボットが実際に何ができるのか、実世界でどのようなものなのかを見てみたいと思います。
BMWと契約を結んでいるので、BMWの工場で働くために配備されているようです。ここにその映像がありますが、映像では「Figure本社」と言っています。Figure本社でロボットをセットアップした環境です。映像を見ると、確かにとても素晴らしく、非常に高度に見えますが、これはどれほど現実的なのでしょうか?
これらをどのようにして動作させたのか、もっと知りたいと思います。音声コマンドだったのか、デモンストレーションだったのか、私たちが見ているのは何なのか、もっと詳しく知りたいと思います。
1年前、音声コマンドでロボットを起動してコーヒーを入れるというデモンストレーションがありましたが、研究者が実際にコーヒーマグをコーヒーメーカーに置き、コーヒーを入れるように指示しました。小さな物を拾ってマシンに入れ、それを閉じることはできます。閉じることは比較的簡単です。5本の指さえ必要なく、押し下げれば閉まるからです。
オンラインでは、これが最高のデモンストレーションではないかもしれないと指摘する人もいました。つまり、編集されていない生の映像で、人々がこれらと対話している様子、実際に何ができるのかを見られたら素晴らしいということです。映像は信じられないほど素晴らしく見えます。非常に洗練され、照明も素晴らしく、美しい見た目で、ロボットは非常に光沢がありますが、多くの人々が求めているのは、汚れた、現実世界のユースケースです。
これらのロボットは、デモンストレーションが始まるときにすでに位置についていることが多いです。すべてがセットアップされており、最初に1歩前に出たり、2、3歩前に出たりして位置に着きますが、その後はすべてのタスクを完了するのに1歩も動く必要がないように配置されています。胴体を回転させるだけです。
この映像では、ロボットは音声コマンドを受け取り、目の前の物を操作することはできますが、歩き回ったり移動したりはしません。BMWのアップデートでは多くの歩行や移動がありますが、音声コマンドはなく、これらをどのようにして動作させ、どのようにしてこれほど見事に同期させたのかわかりません。
ほんの一瞬のずれで、同じような動きを完璧に同期して行っていますが、一方でUnryは外で叩かれ、歩いたり、転んだり、失敗したりしているのを見ています。しかしそれは問題ありません。実際にどのように動くのかリアルな感覚を得ることができるからです。
開発者たち、これらを作っている人々は、これらをボコボコにすることを恥じていません。そして私たちはそれらがどのように動作するかを見ることができます。投げられて跳ね返り、また歩き出すのは驚くべきことです。このような映像をもっと見たいと思います。
例えば、TeslaのOptimusロボットが実世界を歩き回る映像があります。少し躓いたり滑ったりしますが、バランスを取り戻すことができます。それを見ることで、どれほど良いのか、または悪いのかがわかります。完璧ではありませんが、実際に歩いて、躓いて、問題を抱えているリアルなロボットだとわかります。
Google DeepMindのRTロボットが転がり回る映像があります。これはおそらくGoogleの食堂で、物を取ってきたり、人を避けたり、チップスを取ったりできます。人がその手から物を叩き落として、タスクを続けられるかどうか試している様子が見えます。
そしてこれはBoston Dynamicsのもので、Boston Dynamicsのロボット犬が実際の犬に出会うと説明されていますが、見てのとおり、実世界でロボットが動き回って物事を行う携帯電話カメラの映像です。
BMWグループのウェブページでは、BMWの自動車製造施設の1つでこれらのロボットを使用する試験について説明しています。「この映像は、BMWグループのスパルタンブルグ工場のボディショップでの試験運転を示しています」とあります。見てのとおり、背景でプレートを運ぶロボット、歩くロボット、背景で別のロボットが歩いています。ここからシートを取り、そこに置いています。
これは工場の生産ラインからの別のショットです。再び、金属板を拾い上げ、所定の位置に置いていますが、それらの1、2の動作以外は、どのように教えたのか、音声コマンドだったのか、他に何ができるのかを判断するのは非常に難しいです。
もっと見たいと思います。中国から出てきているような映像、公園を走り、階段を上り、蹴られたりしているような映像をもっと見たいと思います。なぜなら、それらはロボットの俊敏性と能力を本当に示していると思うからです。
このビデオを締めくくるにあたり、1X、もう1つのロボット企業が明日何か新しいものを公開すると約束しています。何を公開するのか非常に楽しみです。そしてもちろん、Figure AIからもっと生の、編集されていない映像を見たいと思います。ロボットが動き回る様子や実世界の環境での様子を見て、何ができるのかを感じ取りたいと思います。
今のところ、見た目が非常にクールな映像はありますが、何が何なのかを判断するのは本当に難しいのです。どう思いますか?ここまで見ていただき、ありがとうございます。私の名前はWes rothです。また会いましょう。
コメント