

2024年8月末、世界はついにネオに出会いました。ネオは1Xテクノロジーズが開発した画期的な新しいヒューマノイドロボットで、来年にも一般家庭に配送される予定です。我々は現在の進捗状況とアプローチを紹介する20分のドキュメンタリーを公開しました。撮影後、CEOのベルント・ベルニックとお話しする機会がありました。我々の会話は彼の経歴、1Xを設立した10年にわたる歴史、そして多くのロボットを製造する計画に及びました。2025年に数千台のネオ、2026年に数万台、2027年に数十万台、2028年に数百万台です。計算すればわかると思います。また、一般家庭への導入という野心的な目標の背景にある理由についても話し合いました。これは非常に楽しい会話で、サイエンスフィクション、会社設立から得た教訓、そしてベルントの猫が彼のロボットと一緒に暮らすことをどう思っているかなど、多くの話題に及びました。
ベルント、メインエピソードをまだ見ていない人のために、1Xが何をしているのか簡単に説明してもらえますか。
もちろんです。1Xは人工知能における残された主要な課題を解決することに全力を注いでいます。それは、ヒューマノイドロボットを家庭に導入し、洗濯物をたたむことから高層ビルを建設することまで、あらゆる種類のタスクで真に役立つものにすることです。
大きな疑問は、なぜヒューマノイドプラットフォームなのかということだと思います。これは1Xにとって新しいことではありません。足はないけれどもローリーホイールを持つイブを開発し、本質的にはヒューマノイドです。そしてネオを何年も開発してきました。これは最近の決断ではなく、強い信念を持って取り組んできたことです。なぜヒューマノイドなのか、その理由を説明していただけますか。
個人的には、これは生涯の情熱です。子供の頃からこれをやると分かっていました。しかし、これについて考えてみると、一歩下がって、技術における大きなブレークスルーについて考えてみたいと思います。輸送部門やコンピューターについて話すとき、コンピューターが最も単純な例かもしれません。すべての技術は、最初は非常に特殊化されたシステムから始まります。問題が非常に難しいからです。コンピューターの場合、初期のメインフレームがそうでした。そして、ある時点で十分に良くなると、汎用システムを作ることができます。コンピューター革命におけるPCがそうです。そして突然、スケールを得て、巨大なエコシステムを得て、広く採用されるようになり、技術は飛躍的に進歩します。
PCの場合、ほとんどのタスクに対して過剰に複雑だったと言えるかもしれません。もっと単純なシステムでできたかもしれません。しかし、エコシステムを作ることができる完全に汎用的なシステムには大きな力があります。最近、コンピューティングが非常に大きなものになったので、市場が非常に大きくなりました。コンピューティングの時価総額は巨大です。そのため、今では特殊化されたシステムでもニッチを切り開くことができます。それでも十分大きな規模があるので、製造や出荷などのニッチでも効率的です。
物理的なロボットについても同じことが言えます。エコシステムやソフトウェアなど、すべてがそうです。これがロボット工学で今起きていることです。問題を解決するために高度に特殊化されたシステムの時代から、スケールを得て大規模な採用を実現し、エコシステムを構築できる汎用システムの時代へと移行しています。そして、最終的な解決策になると私が確信している最も汎用的なプラットフォームがヒューマノイドです。物理的な空間で実際にすべてのことができるシステムが必要だからです。
そうすれば、デジタル空間で見てきたような大きな効率の向上といった利点をすべて見ることができます。デジタルシステムの自動化によって社会の効率が信じられないほど向上しましたが、物理的な空間ではまだ何も起きていません。最終的には、私たちは完全に一周回って、何十億ものドロイドがあらゆる種類のタスクを行うようになると思います。その時点で、少し特殊化することが意味を持ち始めるでしょう。システムが非常に優れているからです。そして、スター・ウォーズの世界になるでしょう。さまざまな種類のドロイドがたくさんの異なることをするようになりますが、ヒューマノイドは依然として非常に大きな部分を占めるでしょう。なぜなら、それが最も汎用的なシステムだからです。
そして、非常に重要なのは、人類のすべての知識が私たちの身体に組み込まれているということです。大規模言語モデルにジャムの瓶を開ける方法を尋ねると、一方の手で持ち、もう一方の手で開けると言われます。世界がどのように進化するかを予測し、モデル化する方法を考えると、最も研究されているのは人間です。YouTubeに行けば、ほとんどのビデオは人間についてのものです。
興味深いことに、人間は非常に複雑なので、その理解があってもモデルは人間とその動きをそれほどよく理解していません。これは深い話題で、後で戻ることができます。しかし、私たちの既存の知識を再利用できることには大きな価値があると思います。最後に、世界は私たちのために作られているだけでなく、私たちは世界をさらに便利にしたいと本当に思っています。技術を私たちの世界に適合させたいのであって、技術が適合できるように私たちの世界を作り変えたいわけではありません。私たちは自分たちの快適さを最大化し、もっと楽しみ、やりたいことをする時間を得たいのです。
ヒューマノイドプラットフォームが、AIの大規模言語モデルが身体化を通じて理解し、また世界が私たちのために作られているという理由で、それを実現する最良の方法だと考えているのですね。例えば、机は私の腕の高さにあるといった具合に。
はい、そして知識の転移です。ここで最後に話すべき点は、ネオのようなシステムにあらゆる種類のタスクを教える方法です。長いテールは基本的に無限です。VRヘッドセットを装着して、ロボットの目を通して見ることができ、ロボットの手を見ることができ、それはあなたの手のように感じます。あなたの体全体がロボットの体にマッピングされます。これで、あなたが行いたいあらゆる種類のタスクを実行でき、AIが学習を開始できる非常に強力な専門家のデモンストレーションを作成できます。
ここでヒューマノイドの形態を持たない場合、つまり人間とできるだけ似たように動くものでない場合、私たちは単に「このジョイント角度からこのジョイント角度に動ける」というだけでなく、同じダイナミクスを持ち、同じような衝撃ダイナミクス、物理学が同じように機能する必要があります。そうでなければ、このことについて考える必要がなくなり、あなたがそこにいるかのようにタスクを実行できるのです。
ヒューマノイドではないロボットを考えてみてください。4つの車輪がついたトロリーに腕がついていて、手にカメラがあるようなものです。実際には、これしかできません。これとこれとこれだけです。でも、450度回転できるかもしれません。「あそこのドアを開けて」と言われても、このロボットにとって単純で最適な方法でそれをどうやって行うべきか、実際には非常に難しいのです。
これは身体間問題と呼ばれています。そうですね、それは不必要な複雑さです。私たちは自分たちの空間にいたいのです。
まだまだ話し続けられますが、良い理由はたくさんあります。しかし、私が強調したいのは、進化の証明として、私たちが最終的に進化に勝ったのは、広い範囲で手を使い、ツールを使うことが非常に上手だからです。
多くの場合、ロボット工学者や機械技術者が、現在のヒューマノイドに対して否定的な反応を示すのは、それがいかに難しいかを理解しているからだと思います。彼らは、これが最も効率的なエンジニアリングの解決策ではないと感じているか、あるいは単にこれまでに行われたことがないので、その難しさを考えると価値がないと考えているのではないでしょうか。私の頭の中では、非常にうまく機能するヒューマノイドがあれば、そこに到達するのにどれだけ時間がかかったかは関係ありません。価値があるのです。そして、それらのエンジニアリング時間は、製造段階で大規模に再現されるのです。
100%そうですね。私が言えるメインの議論は、このシステムの製造上の複雑さについてです。常に「エンジニアリング時間は、これが成功すれば取り戻せる」と言えますが、このシステムを美しく単純かつ高性能に作れるかどうか、特殊化されたシステムよりもはるかに低コストで大規模に生産できるかどうかということです。私たちはそれを実現する明確な道筋にあると思いますが、問題をより根本的な観点から見直す必要があります。ロボット工学で典型的だった複雑さを単に追加し続けるのではありません。
もちろん、人間型ロボットを本当に非常に上手く作ることができれば、ロボットアームをさらに安く作ることもできるでしょう。しかし、同じ数のロボットアームを作ることはないでしょう。何十億もの数には達しません。それを人生のあらゆる場面で助けてくれる仲間として持つことはないでしょう。そして、私はそれが最も強力な推進力だと思います。スケールです。私たちの社会全体で、消費者の採用や一般的な現代の製品を見ると、スケールの力は非常に印象的です。非常に複雑なシステムでもコストを絞り込むことができます。
しかし、二つの観点からアプローチする必要があると思います。システムをできるだけ単純にする方法を本当に考える必要もあります。
単純さ、根本的な原理、製造について、先ほど言及されたことについてもう少し詳しく聞く前に、メインエピソードをまだ見ていない人のために、そうでないと意味がわからないので、イブの遺産とネオが何であるかを説明していただけますか。
もちろんです。1Xは2015年に始まりました。今では9年間この分野に取り組んでいます。イブは基本的に私たちの第一世代技術の集大成です。非常に強力でユニークな種類のモーターを開発しました。イブに搭載されているモーターは、市場で購入できるものの約2.5倍のトルク重量比を持っています。そして、これを実現するための製造技術、通常のモーターとは全く異なる設計と製造方法、それを構築するための機械、そしてそれらすべてをプラットフォームに組み込んで、実際に展開し、良いデータを取得し、すべての教訓を学び、これをどのように機能させるか、製造をどのように機能させるかを理解することができました。それが私にとってのイブです。つまり、会社の最初の6年間です。
ネオは同じ技術の第二世代です。完全に新しいものを始めるとき、一歩下がって以前に行われていないことをしたとき、まだ収穫逓減の壁にぶつかっていません。つまり、第一世代、第二世代、第三世代の間には依然として大きな改善の余地があります。イブからネオへの移行で、パワー密度、パワー効率、安全性など、すべての指標で enormous な飛躍がありました。これにより、車輪付きプラットフォームから脚付きプラットフォームに移行しても、何時間もミッションを続けられ、あらゆる種類の有用な労働ができ、あらゆる環境で使用でき、大規模に製造できるようになりました。これは、学んだすべての教訓をスケールアップしたものです。
しかし、一歩下がって考えてみると、私たちのシステムは非常に強力なモーターを持ち、それによって筋肉に緩やかにインスピレーションを受けた腱を引くことができます。そのため、自然界で見られるような美しいダイナミクスを得ることができます。例えば、アスリートが走ったり体操をしたりするのを見ると、典型的な硬くて剛性の高いロボットとは全く異なる動きをします。私たちはそれをロボットと呼びますが、それには理由があります。
典型的なハーモニックドライブと、あなたが開発したこれらのモーターの違いを説明していただけますか。
ロボット工学の大きな課題は、アクチュエーターシステムの作り方がよくわからなかったことです。典型的なアクチュエーターシステムは、モーターにギアや電力電子機器、センサーを加えたものです。人体で言えば、アクチュエーターシステムは筋肉と、筋肉を駆動し制御する神経系統だと言えるでしょう。
これまで、大きなギア比なしではこれを作ることができませんでした。芝刈り機やロボットを作る場合、モーターは多くの電力を生成できるので非常に速く回転できますが、実際にはそれほど大きなトルクや力を生成できないという問題があります。それを実現するには、ギアダウンする必要があります。ロボットでは通常100対1くらいのギア比を使います。つまり、私が腕をこう動かすとき、私の関節は腕の100倍速く動くということです。これはうまく機能します。ギアがあるので100倍の力やトルクを得られるからです。これで問題は解決しました。
しかし、ここでの課題は本質的に運動エネルギーから来ています。システムの運動エネルギーは質量×速度の二乗です。車の場合、学校で習ったように、2倍の速さで走る車は2倍ではなく4倍のエネルギーを持ちます。4倍の速さなら16倍のエネルギーです。エネルギーは速度の二乗に比例して急速に増加します。
これを回転部分に適用すると、内部にある一定の質量を持つモーターと、一定の質量を持つギアの入力があります。これらは無視できない質量です。そして、これが100倍速く回転しています。その100倍を二乗する必要があるので、そのシステムのエネルギーに10,000倍の乗数がかかることになります。
直感的に考えると、かなり重いものが非常に速く回転している場合、それはすぐには止まりません。そうはいかないのです。腕がそれほど速く動いていなくても、内部ではこれが非常に速く動いているので目に見えません。腕が何かにぶつかったとき、これは瞬時に止まることができません。
これについて非常に単純な数学的な分析ができます。これは単なる運動エネルギーです。このシステムには一定の運動エネルギーがあります。このシステムを取り除いて、ここに何か重りを置くとしたら、このシステムがこの速度で動いているときに、元々持っていた運動エネルギーと同等の運動エネルギーを持つためにはどれくらいの重さが必要かを計算できます。
実際、ロボットアームは通常、30〜60ポンドくらいになります。つまり、工場で小さなロボットアームがこのように動いているのを見たとき、たとえ5キロ(約10ポンド)程度のものを動かしているだけでも、誰かが60ポンドのケトルベルをそのロボットの手首に取り付けているようなものだと想像できます。これが、産業用ロボットが非常に危険で、檻の中に入れられている理由です。
これは産業パラダイムでとてもうまく機能しました。なぜなら、このシステムには別の非常に美しい特性があるからです。これらの人々は本当に賢かったのです。これは1960年代に設計されたものがほとんどです。そのような高い慣性や質量があると、乱すのは非常に難しいのです。動いているときに私が止めようとしても、全く止まりません。
これは、このシステムの異なる部分、複数の関節などが実際には互いに干渉しないことを意味します。そのため、一度に1つの関節だけを制御でき、システムは非常に安定していて良好でした。そして、すべてを一度に制御するコンピューティング能力がなかったので、これは工場で機能するための必要条件でした。ただ校正して、ロボットが何かに触れるべき正確なタイミングがわかっていれば良かったのです。そこでスローダウンし、また速く動きます。
古典的なロボット工学では、計画されていなかったものに触れることを、私たちはロボットが「衝突した」と呼びます。通常、何かが壊れます。通常は良いことではありません。
あなたの腕が衝突したようなものです。しかし、あなたの生活を考えてみると、常に衝突しています。実際、それがすべてです。メモを取るときも衝突しています。一歩踏み出すのも地面との衝突です。そして、一般的にいつ衝突するかは決してわかりません。すべてが計画されているわけではありません。また、センサーも正確にいつ起こるかを知るほど十分ではありません。
そのため、家庭や倉庫のような非構造化された世界では、人間のように世界と相互作用できるシステムが必要です。私たちの動きにはほとんどエネルギーがありません。自然はすべて、動くのに必要なエネルギーを最小限に抑えています。そうすることで、美しい相互作用のダイナミクスが得られます。例えば、私が速く振り向いて、あなたが後ろにいて、偶然にあなたに当たってしまっても、少し気まずいかもしれませんが、あなたが死ぬことはありません。
ロボットが実際にどれほど危険かということは、直感に反するかもしれません。しかし、それは私たちが進化がこの問題にどれほど深く取り組んだかを十分に理解していないからです。エネルギーをどのように最小化するか、そしてそれがタスクを実行する能力だけでなく、安全性にとってもいかに重要かということです。
これの裏返しは、もちろん私たちも自分自身に対してかなり安全だということです。世界を強く打たないからです。これは、世界や自分自身を壊すことなく、ただ物事を試すことができるということを意味します。これは、私たちがどのように学ぶかの重要な要素です。
今日のシステムは一般的に、純粋に観察を通じて学習します。人類が行ったすべての観察に基づいて訓練します。しかし、人間がどのように学ぶかは、実験と大きく関係しています。私たちは行動を起こし、それが世界の状態を変え、そしてそれを観察し、「ああ、これがあれにつながるんだ」と理解します。私たちの推論の多くは、これから来ています。
これもまた、システムに組み込むことが本当に重要なことです。実世界で実際に探索できるようにするためです。実世界で学習したい場合は。
では、あなたが構築するロボットでは、どのようにして実験し、学習システムにフィードバックループを組み込むのですか。
まず第一に、私たちはすでに話しましたが、非常にエネルギーの少ないシステムを持つことがすべてです。世界とロボットが互いに触れ合うときに交換されるエネルギーが非常に少ないのです。これにより、システムは本質的に柔らかく安全になります。つまり、ドアやロボットが壊れることなく8時間かけてドアを開けようと試みることができるのです。そうすれば、うまくいくまで試すことができます。どうやってこれをするかを理解できるのです。
もちろん、私たちはロボットを助けています。先ほど話したように、最初に私がVRでロボットを使ってドアを何回か開けてみせるので、ロボットはその方法を知ることができます。しかし、それは視覚だけではありません。必ずしもただ触覚がないわけではありません。
ああ、触覚を感じることができるんですね。それが、人間が頭にカメラを付けて歩き回るだけでなく、ロボットでそれを行うことが非常に重要な理由の一つです。
そうです。ロボットは実際に何が起こっているかを感知する能力を持っています。また、自分の状態も知っています。いくつかの重要なことを知っています。それはほと�チートのようなものです。なぜなら、どのようなアクションを取ろうとしていたのか、どのような状態にあったのか、どのような力が作用しているのか、そしてもちろん、世界にどのような力が作用しているのかの反対を知っているからです。
これらのモダリティは、今日のデータセットには存在しません。これらが世界がどのように機能するかをよりよく理解するための非常に強力なモダリティであることがわかります。
自然な感覚として、これが物理学の学習に役立つことは明らかです。物理的な行動を取ったときに世界がどのように進化するかを実験しているからです。しかし、これらの物理的な行動があらゆる種類のモデルをどのように基礎付けることができるかを考えるのも非常に興味深いです。
例えば、バスルームに行って、トイレの蓋が上がっているか下がっているかを尋ねるというのは、面白い典型的な例です。今日、この例を撮影しました。
そうなんですか。それは良いですね。エッジケースだからです。
一般的に、GPT-4のような最新のモデルはその質問にうまく答えることができます。しかし、この特定の例では常に50/50で失敗します。トイレの蓋が上がっているか下がっているかについてです。
それは興味深いですね。なぜこの特定のことが難しいのかについて話すこともできますが、ここで重要なのは、これらの種類のエッジケースが失敗する長いテールが無限にあるということです。では、あなたが到達した結論が実際に真実かどうかを、どのように現実に基づいてモデルを構築し始めるのでしょうか。
まあ、トイレの蓋を閉めればいいんです。今、閉まりました。閉まったことがわかります。なぜなら、私が閉めたからです。これで、このフィードバックループができました。これは、これらの種類のモデルの現在の課題を克服する上で非常に興味深いことの一つだと思います。
そして、もちろん最終的には、これらすべてのモダリティをシステムに追加すると、一般的に世界をよりよく理解できるようになり、それによってあらゆる種類のタスクについてより良く推論できるようになります。
一歩下がって考えると、イブとネオの主な違いは何ですか。明らかなのは、ネオには足があり、イブには転がる素晴らしい下半身があることです。その違いについて、そしてなぜ全く新しいロボットが必要なのか、もう少し詳しく説明してください。
イブとネオの間で最も大きな違いは、見るのが難しいかもしれませんが、システム全体が受動的な安全性のために設計されていることです。私が言う受動的な安全性とは、すべてが間違った場合でも、衝撃エネルギーが重大な怪我の可能性があるとされる閾値を下回るようにしたいということです。
例えば、ロボットが走っていて、あなたが地面に横たわっていて、ロボットが誤ってあなたの頭を蹴ってしまった場合、あるいはロボットが倒れてあなたの上に落ちてきた場合を想像してください。私たちはこのようなことが起こらないようにあらゆる努力をします。ロボットの安全性のための基盤モデルに多くの作業を注ぎ込んでいます。
しかし、私は、何十億ものロボットが地球上に存在するようになるなら、ハードウェアの観点から可能な限り安全である必要があるという大きな責任があると思います。なぜなら、何かが間違う可能性があるからです。そうですよね。そして、これを大きな産業用の重い危険な機械にする必要はありません。自動運転車と同じ袋小路に入る必要はありません。できる限り安全にすることができるのです。
そのためには、まず非常に軽量である必要があります。ネオは66ポンド(約30kg)しかありませんが、150ポンド(約68kg)を持ち上げることができます。これは人間のアスリート並みのパフォーマンスです。指を挟む場所がありません。どこに指を置いても、指を挟むことはできません。
すでに話したように、動きのエネルギーが非常に低いので、誤ってあなたにぶつかったり、走っているときに蹴ってしまったりしても、システムはできる限り安全であるべきです。
また、ロボット全体が実際に柔らかいのです。このように圧縮しようとすると、ほとんどあなたのように圧縮されます。興味深いことに、実際に下にあるTSの一部を使って、圧縮している構造を支えることができます。
この組み合わせにより、他の何よりも極めて安全なシステムを作ることができます。安全性は、このマーケットに参入する上で最大の障壁の一つだと思います。工場でロボットを檻の中に入れたいのなら、問題ありません。しかし、そうすれば多くを学ぶことはできません。
このことについて、今たくさんのデータが得られ始めています。タスクを約50回実行すると、パフォーマンスはあまり向上しないことがわかってきました。これは、かなり大規模なデータでの話です。なぜなら、私たちのロボット基盤モデルはかなり大きくなり始めているからです。
もちろん、最初はタスクをどのように行うかについての直感がまったくないので、改善が見られます。しかし、一定規模のデータに達すると、約50のサンプルで新しいタスクを学習し、かなり上手くできるようになります。データのバランスを適切に取れば、5000回後の方が上手くなりますが、本当に収穫逓減に達します。
そのため、理想的には、世界中のあらゆる場所で、できるだけ多くの異なる人々、文化、背景の声、カオスなどがある中で、世界中のあらゆるカップを50回ずつピックアップするサンプルを持ちたいのです。その多様性こそが、インテリジェンスを生み出すのです。
人間も同じです。成長する過程で多くの多様性を経験する必要があります。何かで本当に優れた能力を身につけるためには。科学を進歩させるのに最適な人になりたいなら、世界最高の物理学者になりたいなら、他の分野についてもたくさん知っていることが非常に有用です。
世界最高のテニス選手になりたいだけでも、実際には異なるスポーツを経験していることが非常に有用です。これはロボット工学でも同じです。そして、実際には言語モデルでも同じでした。最高のモデルは、トレーニングデータセットに最高の多様性を持つものです。これは今や広く知られています。
最新のメタのLlama 3.1に関する論文を読んでも、Llama 1、2、3の違いはアーキテクチャにはほとんど違いがないと言っています。コンピューティングコストが下がっているので、少し長く訓練していますが、絶対的な主な違いは、より多様なデータセットを持っているということです。最も多様なデータセットを作ることが全てです。そこからパフォーマンスが生まれ、インテリジェンスが生まれるのです。
なぜか、人々は、これが具現化されたエージェントやロボット工学では真実ではないと考えています。「非常に狭い楔から始めることができる。産業用のユースケースを行うつもりだ」とか、「毎日この物を動かすつもりだ。それだけをするつもりだ。そうすれば学習できる」と考えています。しかし、そうはいきません。実際に外に出て、起こりうるあらゆることの長いテールを見る必要があります。そしてその多様性を通じて、真にインテリジェントなシステムを作ることができるのです。
そうすれば、他のすべての問題空間を見て、おそらく50のサンプルでそれらを解決することができます。人間としてもそうですよね。私があなたにタスクの方法を示せば、それがかなり単純なタスクであれば、あなたは「ああ、わかりました。今ならできます」と言うでしょう。なぜなら、あなたの既存の知識があるからです。
私は、地球上に何十億ものロボットを配置して、あらゆる種類の肉体労働を行う、真にインテリジェントなアンドロイドへの道は、まず家庭を通じてだと思います。そうすることで、このデータの多様性を得ることができます。その後、製造、サービス、何でも構いませんが、それを獲得することができます。
モルヴィックのパラドックスという名前を覚えていますか?人間にとって簡単なことはロボットにとって難しく、ロボットにとって簡単なことは人間にとって難しいという原則です。
はい、モルヴィックのパラドックスです。
8〜9年間ロボット工学に取り組んできた経験から、この原則についてどのように感じていますか?真実ですか?偽りですか?どのようなエッジケースがありますか?
モルヴィックのパラドックスについて考えると、そこには何かがあります。明らかに、私たちはすでに創造性が思っていたよりも単純であるという経験をしています。言語なども同様です。
しかし、より高度な推論に関しては、私たちがそれを何らかの程度で解決したとは必ずしも同意しません。そのため、それが証明点だとは全く思いません。しかし、これらの多くのことは、私たちが考えていたよりも簡単でした。
実際のタスクを行うことに関しては、非常に難しいと思われていたことが実際には簡単にできる例もありますし、その逆もあります。私はこれが過度の単純化だと思います。時々、私たちが思っていたよりもずっと早く物事が機能することがあります。おそらく、問題の多くは本当にモルヴィックのパラドックスではなく、単に良いロボット工学のデータを持っていなかったことかもしれません。誰も大規模にそれを持っていませんでした。
しかし、そこにはある真実があります。推論が上手くなりたいなら、操作が上手くなることが非常に重要だということは非常に興味深いと思います。それらは互いに関係がないように思えるかもしれませんが、操作が非常に上手くできれば、多くの実験を行うことができます。そして、実験し観察できれば、それが推論能力につながります。これは少し単純化しすぎかもしれませんが、そこには真実があります。
しかし、私には非常に興味深い例があります。これはもしかしたらより哲学的な実験かもしれません。メアリー超科学者の話を知っていますか?
いいえ、知りません。
おそらく間違えるかもしれませんが、簡単に説明してみます。メアリーは箱の中に住んでいて、世界を白黒のモニターでしか見ることができません。彼女は超科学者で、光と色の相関関係について絶対的にすべてを知っています。光が当たるとき、どのように脳に到達し、脳がそれをどのように処理するか、各ニューロンがどのように発火するか、通常の光に関するすべてを知っています。
ある日、あなたがドアを開けてメアリーを外に出したとします。彼女は何か新しいことを学ぶでしょうか?
これをロボット工学に例えるのは非常に簡単です。箱があり、箱は観察していますが、決して行動することはできません。私たちの直感は、明らかに彼女は何かを学ぶだろうと言います。彼女は世界を経験していないからです。
実際には、これは非常に難しい質問です。この単一の実験について書かれた本が複数あります。彼女は何か新しいことを学ぶのでしょうか?私にはわかりません。しかし、正直に言えば、黒白の2D画像は本当に単純で、色についてすべてを知っていたとしても、3次間空間や物事が時間を通じてどのように動くかについて話し始めると…そしてそのメタファーをロボット工学のパラレルに持ち込むと…
ポイントは、彼女はすべての情報を持っているということです。第一原理から考えると、彼女は明らかに何も新しいことを学んでいません。なぜなら、もし彼女が何かを学んだとすれば、私たちは世界の理解が何か高次の性質のものだと言っていることになるからです。それは純粋に情報ではありません。
しかし、この実験のポイントは…
はい、おっしゃる通りです。神のような複雑さをこれから作り出すこともできますね。
ポイントは、この哲学的な質問を解決することはできませんが、言えるのは、これは問題に取り組むのに本当に難しい方法だということです。箱の外にいた方がずっといいでしょう。重要な点は、純粋に非常に限られたモダリティを通じて世界を受動的に観察することからAIに学習させることができるかもしれませんが、それは非常に非効率的だということです。例えば、テキストから色を理解するのに必要な情報量は、写真から理解するのに比べて、さらに動画から理解するのに比べて、非常に多くなります。
そうですね。大規模言語モデルが純粋なテキストのトレーニングから色についてかなり良い理解を持つことができるのは公平な指摘です。
実際、非常に非効率な学習方法です。そのため、エンジニアとしての私は、なぜこのようなことをするのかと考えます。一般的な答えは、「データがないからそうせざるを得ない」というものですが、実際にはそのデータを取得することができます。そしてそれを通じて、より早い段階で有用なインテリジェンスを実現する方向に、うまくいけば大きな一歩を踏み出すことができるのです。
先ほど、高次の推論はまだ解決されていない、完全には理解されていないとおっしゃいました。そこで言及されたことについて、もう少し詳しく説明していただけますか。
私たちの現在のAIは、ほとんどの推論タスク、ほとんどの1ステップタスク、ほとんどの推論タスクで完全に失敗します。問題について推論して解決策に到達する必要がある場合、それはトレーニング中に与えられたすべての観察の正しい要約を単に繰り返すのとは非常に異なります。
生命の兆しのようなものがあるという種類の兆候はありますが、イメージモデルでこれを示すのはより簡単です。そこでは「アウト・オブ・ディストリビューション」の成功を得ることができます。例えば、DALLEにアボカドの椅子を作成させることができます。データセットには明らかにアボカドの椅子はありませんが、アボカドがあり、椅子があるということから、それらを組み合わせるためのある程度の限定的な推論ができます。確かに、ある種の推論はありますね。
しかし、推論能力は通常、世界について非常に良い理解を持つことから生まれるものです。そうすれば、実験し観察することができます。これはデジタルの領域で行うこともできます。必ずしも物理的に行う必要はありません。ただ、物理的な世界の方がずっと豊かなのです。
例えば、DeepMindのAlphaZeroについて考えてみてください。これは非常に興味深い論文です。なぜなら、世界を探索し、自分の行動の結果を見る能力と、その空間を探索する能力を組み合わせているからです。実世界でこれを行うことは本当にワクワクします。
私たちにはまだ答えがありませんが、それは本当にワクワクします。初期の結果は非常に有望で、多くの価値を付加できるものを作れると思います。
1XのインテリジェンスとAIへのアプローチについてもう少し詳しく教えてください。異なるセンサーデータや画像データ、フィードバックデータを取り込むモデルをトレーニングしているのでしょうか。このアプローチをどのように進めているのですか。
簡単に言えば、私たちはすべてを行っています。これらすべてのモダリティは有用です。もちろん、利用可能なすべてのテキスト、すべての画像、すべての動画でトレーニングします。これにより、基本的に最新の大規模言語モデルのレベルまでの基礎的な理解が得られます。
さらに、すべてのロボティクスセンサーデータ、およびこれらのあらゆるセンサーデータでトレーニングします。シミュレーションデータでもトレーニングします。これらすべてが、最終的な目標を達成するのに役立ちます。その目標とは、実世界についてより良く推論でき、良好な空間理解を持つインテリジェンスを得ることです。
現在の大きな問題の一つは空間的な側面です。今日の最新の視覚言語モデル(VLM)に「1メートル前に進んだら衝突するか」と尋ねても、非常に頻繁に間違います。空間的な側面についての理解が非常に悪いのです。なぜなら、そのようなことを実際に行ったことがないからです。
明確にするために、VLMとは何ですか。
VLMは視覚言語モデルの略です。基本的に、言語モデルに画像について考える能力も訓練したものです。最近では動画も扱えるようになってきています。音声も徐々に入り始めています。
そして、より多くのモダリティを追加するにつれて、システムがよりスマートになるという明確な傾向が見られます。これは、さらに多くのモダリティを追加することに関するものですが、最終的には、学習できることに制限がないデータエンジンを作ることが重要です。
私は本当に、科学の未来は何十億ものドロイドが世界中の研究所で実験を行い、それを通じて宇宙の理解を進めることだと信じています。実際に実験を行うことができなければ、科学的発見を行うのは非常に難しいのです。
私は多くの人が、より深いレベルで彼らにインスピレーションを与えるものは宇宙をよりよく理解することだと話すのを聞きます。そして、しばしば宇宙について話す人々は、宇宙をよりよく理解するためにより深く宇宙に行きたいと言います。これが悪いとは思いません。宇宙に行くべきだと思います。しかし、それが最も効率的な方法であるとは必ずしも思いません。
あなたが言ったことは非常に理にかなっていると思います。しかし、少し戻って考えてみると、あなたが言う「トレーニング」の意味を具体的に説明していただけますか。合成データをトレーニングし、このVLMデータをトレーニングし、自分たちのセンサーデータをトレーニングしているとおっしゃいましたが、どのようにトレーニングしているのですか。それらをどのように融合しているのでしょうか。
簡単な答えは、「ビター・レッスン」を参照することです。ビター・レッスンは素晴らしいエッセイで、まだ読んでいない人には是非お勧めします。非常に悪く、短く要約すると、賢くなろうとしてシステムに追加しようとする余分なインテリジェンスは、より多くの計算能力に負けてしまうということです。
重要なのは、データとともにスケールするかどうか、すべての解決策をサーチできるかどうかです。データとサーチからすべてが来るのです。
私たちはこれらすべてのデータを消費するためのアーキテクチャや、より新しいアーキテクチャなどを進歩させていますが、大きな勝利はそこにはないと信じています。これらの大規模モデルの学習に関して、適度なアーキテクチャと非常に優れたアーキテクチャの違いはそれほど大きくありません。違いはデータにあります。
要は、望む結果を得られるデータを作成できるかどうか、そしてどれだけ多くの新しく独自のデータを生成できるかということです。
将来的には – これは今すぐ展開するものではありませんが – 多くのロボットが外にあり、何もすることがないときは練習をします。現在ロボットが得意ではないことを練習するのです。同じ問題に対して異なる角度を示す十分なデータを見つけることがすべてです。そうすれば、問題についてもっと学ぶことができます。
あなたの質問にもっと具体的に答えると、大規模モデルや基盤モデルをトレーニングする多くの企業と同じです。大きなトランスフォーマーアーキテクチャがあり、すべてのデータをトークンとして入力します。データをうまくトークン化する賢い方法を見つけます。
テキストは比較的単純で、画像のトークン化方法もかなり確立されています。動画のトークン化も一般的な知識になりつつあります。音声も同様です。
問題は、あなたの状態をどのようにトークン化するか、世界の触覚や感覚をどのようにトークン化するか、そして実際にどのアクションを取ったのかをどのようにトークン化するかです。そして、それを使ってより良いモデルをトレーニングするのです。先ほど、PCが一般化されたシステムになり、計算機のような単純すぎるかもしれないことでも、そのような優れた一般化システムで行うのに役立つと話しました。ヒューマノイドがロボット工学の究極のエコシステムだとも言及されましたが、そのエコシステムがどのようなものか気になります。これは開発者に開放されるということですか?ロボットのアプリのようなものはあるのでしょうか?理想的な世界では、このエコシステムはどのように見えるのでしょうか?
理想的な世界では、消費者がロボットに何かを教えるのは非常に簡単です。これにより、私たちが作成するすべてのスキルや経験を共有できるエコシステムが本当に開かれます。
私は長い間家にロボットを置いています。もちろん、これをテストする必要があるからです。そして、それは本当に楽しいです。
イブを家に置いていたんですね。今度は新しいネオを手に入れるのを楽しみにしているんでしょう。
そうです。イブを家に置いていました。新しいのを楽しみにしています。
それはとてもクールですね。最も有用だと感じた使用事例は意外なものでした。家にいないときでも、ヘッドセットを持っていれば、ログオンして家にいるようになれます。
例えば、キャビンにいるときに猫に餌をやったり、ドアで荷物を受け取ったりするような単純なことです。
猫はイブにどのように反応しましたか?猫は全く気にしなかったのですか、それとも最初は「これは何だ」と驚いたのでしょうか?
本当に反応しませんでした。猫はあなたに慣れているからです。最初はそうでもありませんでした。
ただ聞いてみただけです。猫は植物が倒れただけで大騒ぎして、死にそうな振りをしますからね。
それは本当にクールですね。実際にはあまり反応しなかったんですね。猫はロボットに愛情を示したことはありますか?例えば、ゴロゴロ言ったりしましたか?
いいえ、そういうことはありません。しかし、子供たちは好きですよ。子供たちはロボットが大好きです。
イブの場合は、以前のバージョンでもう少し大きくて重かったので、子供たちをロボットから離しておくのが大変でした。簡単ではありませんでしたが、子供たちはロボットが大好きだったので。
もちろん、家庭にこれを導入する上で大きな部分を占めるのは、それを購入する余裕があるかどうかです。伝統的に、人々は「高度なヒューマノイドロボットはフェラーリよりも安くなることはない」と考えています。しかし、この場合、あなたのロボットはそれほど高価ではなく、時間とともにさらに安くなるでしょう。それをどのように可能にしたのか、そのコストの旅について説明していただけますか?
それは深い話題です。まず第一に、どんな製品を設計する場合でも、コストを後から組み込むことはできません。最初の日から始まります。「これを作るつもりだ。どうすればできるだけ製造しやすくできるか」と考えるのです。これは、選択する技術的方向性を導くものでなければなりません。
ここには、かなり単純な第一原理的な考え方がたくさんあります。ただ、現実の世界で問題に直面し、ただ根気強く粘り強く取り組み続けなければならないときには、非常に難しいのです。
最初の日から、「必要な材料はどれくらいか」を確認します。非常に軽量で効率的なロボットを作れば、競合他社のロボットの半分の重さで済みます。つまり、材料費を半分に抑えられるということです。
本当に本当にモーターと駆動システムを軽量化できれば、多くの費用を節約できます。銅とネオジム磁石は最も高価なものだからです。なぜそうなのでしょうか?
それは、地球上で最も希少な金属の一部だからです。そして、非常に高価です。そのため、使用量を減らしたいのです。
例えば、製造時の公差がとても厳しくならないようにシステムをどのように設計するか。システムがかなり不正確でも、キャリブレーションすれば問題なく動作するようにしたいのです。
例えば、私たちが行っている腱ベースのシステムには、非常に正確である必要がないという美しい特性があります。非常に精密なハーモニックドライブギアを使用する場合 – これは一例ですが、このような系統はたくさんあります – このような小さなパッケージにこれだけの歯車を詰め込むには、非常に特殊な合金が必要です。非常に正確に機械加工する必要があり、非常に高価なデバイスです。
手頃な価格で実現しようとするなら、そのようなことはできません。そこで一歩下がって、「これを別の方法で解決できないか」と考える必要があります。
自分の運命を自分でコントロールすることが本当に重要だと思います。完全に垂直統合する必要があります。サプライチェーン、製造をコントロールする必要があります。機械を作る機械を作る必要があります。
これについて一つ言えることは、正しく行うことで多くのコストを節約できるということです。しかし、実際には最も重要な部分は、エンジニアリングを製造に適切に結びつけることができるということです。
何かが難しい場合、それを行わなければならない人々がデザイナーのところに行って、「何てことをしたんだ、これは機能しない」と言えるのです。あるいは、サプライチェーンの担当者が「この材料がどれほど高価か分かっているのか、別の解決策を見つけるべきだ」と言えるのです。
これらの分野間のコラボレーションを生み出すことは、製造をアウトソーシングすると失われてしまうものです。
ノルウェーで製造工場を立ち上げていましたね。その映像を見ました。原材料を入れるとロボットが出てくるようなものです。そして、それほど大きなスペースではありません。非常に印象的です。そして今、もっと多くを作ろうとしています。今後どのくらい多く作るのか、おおよそのタイムラインを共有していただけますか?ざっくりとした数字でも構いません。そして、それはどのように可能なのでしょうか?どのように機能するのでしょうか?
少なくとも大まかな数字は言えると思います。私たちは長い間、内部的に「毎年10倍にスケールアップする」というマントラを持っていました。まず10台のイブを作り、次に100台近くを作りました。そして、これからは数千台のネオ、数万台のネオを作る予定です。
つまり、2025年に数千台のネオ、2026年に数万台、2027年に数十万台、2028年に数百万台ということです。計算すればわかると思います。
これまでのところ、目標通りに進んでいます。しかし、本当に難しいです。本当に痛みを伴います。まだそこに到達していないわけではありませんが、これらの一部を以前に行ったことがないわけでもありません。
例えば、イブの場合、以前のラインでは月に10〜20台のピーク生産を達成しました。ネオでは基本的にそれを10倍にするつもりです。
これは組織的に多くの痛みを伴います。製造会社として実行するためには、多くのシステムが必要です。サプライチェーンや材料、プロセス、トレーサビリティなど、これらすべてのことについて、規模に応じて組織的かつ効率的であるためのシステムが必要です。
しかし、それは段階的に進めていきます。人々がよく間違えるのは、1から100万への製造に一度に移行できると考えることです。明らかにそれはできません。段階を踏む必要があります。その段階を非常に速く進むことはできますが、それでも段階を踏む必要があります。
私たちはこれについて、かなり謙虚なアプローチを取っていると言えると思います。需要が供給を上回ると思いますが、それでも段階を踏む必要があります。
現在、新しい工場ラインで既にかなり大きなバッチのネオを製造しているので、来年の目標を達成できると非常に確信しています。2026年についても非常に自信があります。
数万台から数十万台、数百万台に移行する際に、ある種の魔法のようなことが起こります。伝統的に、多くの企業がここで失敗するのを見てきました。非常に痛みを伴い、本当に最高の人材を確保し、以前にこれを行ったことがある人々を活用する必要があります。
そして、組織全体を通じて製品の完全な理解を活用する必要があります。何か問題が発生した場合、再設計し、修正することができます。これもまた、垂直統合され、自社のサプライチェーンをコントロールすることで、自分の運命をコントロールできることの裏返しです。
何か問題があれば、他人を責めることはできません。自分で修正する力を持っています。多くの作業が必要になりますが。
はい、多くの作業が必要ですね。あなたたちがその10倍の旅を毎年続けていくのを楽しみにしています。
小さな企業が大きくなるにつれて、初期のころと同じレベルのコミュニケーションと採用の質を維持するのに苦労するように感じます。これをどのように計画し、会社のコミュニケーションをどのように扱うかについて、何か心構えはありますか?
まず第一に、100%同意します。規模が大きくなるにつれて、同じ効率性を維持することは不可能です。まずそれを認識し、受け入れることが重要です。
ハードコアな研究開発はスケールしません。そのため、できる限り小さなチームを維持します。サッカーのアナロジーで考えてみましょう。フィールドには11人の選手しかいません。それ以上になると、ただカオスになるだけです。
そこで、11人の選手を世界最高の選手にし、彼らの周りにすべてを構築して、彼らがサッカーをするだけで済むようにします。
例えば、組織的には、人事部門はあなたの時間を管理したり、これをしろ、あれをしろと言うためにいるのではありません。彼らはあなたがこれらのことをしなくて済むように手助けするためにいるのです。彼らはあなたが仕事をできるようにすることで、あなたのインパクトを最大化するためにいるのです。
そしてあなたが言ったように、コミュニケーションは一般的にうまくいきません。非常に難しいです。その回避策は、人々に多くの権限を与えることです。本当にスマートで、ミッション志向の人々が必要です。私たちは皆同じ船に乗っています。エゴもなければ、政治もありません。
私たちはヒューマノイドロボットを作っています。それを家庭に届けています。問題を解決し、人類に大きな影響を与えようとしています。そして、私たちは皆それを気にかけています。それが私たちが気にかけるすべてです。そのミッションが常に最優先されます。
私たちはとても幸運です。私たちが作っているものについて非常に明確なビジョンを持っています。多くの企業は何をすべきか探っています。私たちはミッション志向であり、その意味で非常に幸運です。ただそれに集中し、実行できるのです。
これは会社の構造に反映される必要があります。本当に最小限の階層を維持し、非常にフラットにする必要があります。そして、それがカオスになることを認識する必要があります。
私はプロセスを必要悪と考えています。プロセスがなければ何も達成されません。しかし、絶対的に必要最小限のプロセス以上は望みません。組織で行われることの50%が有用で、誰もがフルスピードで活動している方が、90%が有用だが誰もが有用なことを行う能力を制限されているよりも良いのです。
恐れが決定を導かないように本当に規律を保つ必要があります。すべてを完全にコントロールしたいと思えば、物事を遅くしてしまいます。
そして、あなたが言ったように、規模が大きくなるにつれてコミュニケーションが重要になるので、少し異なるタイプの人々が必要になります。会社が成長するにつれて、誰が優れているかというプロフィールが少し変わります。コミュニケーションが重要になるからです。
しかし、できる限り小規模に保ち、プロセス、プロセス、プロセスという古典的なビジネスアドバイスに従わされないようにすることが重要だと思います。階層が必要だ、報告が必要だ、といったことです。これらのものはある程度必要ですが、それ自体が目的ではありません。何かを成し遂げるために絶対に必要な場合や、何らかの規制に準拠するために必要な場合にのみ存在すべきです。それらは主に邪魔になります。
ここで本当に難しくなるのは、製造は非常に異なるからです。R&Dはこのように運営しますが、製造はより軍隊的な規律が必要です。すべてが同じでなければならず、誰もが正確に何をすべきか知っている必要があります。
これら二つを同じ組織に組み込むのが、実際には最大の課題だと思います。そして、ほとんどの企業がここで失敗します。少なくとも西洋では、これをかなりうまく行った例は、テスラくらいしか思い浮かびません。彼らは製造側の組織を巨大で非常に効率的なものにスケールアップすることに成功しましたが、それでも会社全体としては、リーンでアジャイルな考え方を維持しています。
彼らは別々のR&Dオフィスを持っていますね。小さな数百人のチームがいる場所と、国中に広がる巨大な製造施設がありますね。
しかし、彼らも製造とエンジニアリングの多くの共同配置を行っています。特に初期段階では。例えば、新しい車をデザインするプロジェクトを考えてみてください。通常、エンジニアは最初の小規模な生産ラインが構築される製造施設と同じエリアに座っています。
その後、それをスケールアップするのは別の話です。「これを世界中でクローンしよう」というわけです。私が言いたいのは、それでもまだ小規模だということです。
そうですね。あなたたちのような30人のチームとは同じ規模ではありませんね。
そうです。私たちは現在150人です。そのため、これらすべての問題に直面し始めています。
採用が非常に重要だとおっしゃいましたが、数週間前まで私は採用する全員と面接していました。しかし、ある時点で、私がこれを行うことで遅くなりすぎてしまい、機能しなくなります。
しかし、これは非常に重要だったと思います。なぜなら、組織として採用の仕方を学ぶ必要があったからです。誰を採用すべきか、何を採用すべきかを学ぶ必要がありました。そして、私が最終的なフィルターとなり、採用マネージャーやチームにフィードバックループを作ることで、「この候補者はこれこれの理由で十分ではなかった」「この候補者は素晴らしかった」といったことを伝えることができました。そしてそれを通じて、基本的に文化を設定するのです。
次の質問は少し変わっていますが、創業者の方々にこれを聞くのが好きなので。あなたの脳がどのように機能すると思うか、説明してみてください。
もしそれがわかっていたら、すでにロボット工学の問題を解決していたでしょうね。
古典的な観点から考えると、私は非常にビジュアル思考の持ち主だと言えます。私はVLMです。私は極端なまでに始める人で、終わらせる人ではありません。妻に聞いてみてください。私は何も終わらせませんが、ほと�どどんなに複雑なことでも、どんなに長期的な視野が必要なことでも、始めることができます。
馬鹿になれるくらい始められますが、そこにとどまることができます。しかし、95%完成したら、「ああ、もう終わったも同然だ」という感じです。
しかし、今のところ、組織は物事を終わらせるのがうまいように見えますね。
明らかにそうですね。なぜなら私はそれを知っているからです。だから、あなたの周りにチームを雇い、構築するのですね。
わかりました、そうですね。
そして、自分自身を律しようとしています。ネオをまもなく発売しますが、私は「ネオ2はとても良いぞ」と思っています。でも、「いや、いや、いや、今はそれに取り組むわけにはいかない。これを終わらせなければならない」と。しかし、それが私の直感なのです。私は次のことにすぐに飛びつくのです。
会社のためにより良い人間になるように自分を変える必要があるのか、それとも自分の特性に合わせて人を雇うべきなのか、その間の戦いをどのように戦っていますか?
私はそのために雇っています。
そうですか。それについて罪悪感はないのですね。ただ「これが現状だ、やるしかない」と思っているのですね。
創業者として会社の成長とともに自分自身を発展させる必要があると思います。しかし、自分が何者であるかを変えることはできないと思います。
会社をスケールアップする中で、人として成長したと感じる中で最も学んだことは、人々をマネジメントする方法、そして思いやりと親切さを持ちながらも公平で厳格であり続ける方法についてです。
これは、私のような多くのエンジニアにとって自然に身につくものではありません。しかし、素晴らしい会社を作り、人々が本当に効率的で成功するようにしたいなら、人々を本当にうまく管理する必要があります。
長期的には、この部分は骨の折れる仕事ですが、非常に重要です。これは文化に立ち返ることでもあります。私たちは大きな家族であり、家族は時々言い争いますが、うまくやっていくための良いルールがあることを確認し、みんなが仲良くする必要があります。
いつそれを決めたのですか?会議室の一つに、3つの企業価値観が掲示されていて、その一つが「優しくあれ」というものでしたね。今もそれについて話されていますが、いつその価値観を決めたのか、なぜそれを決めたのか気になります。
この質問をする理由を見ている人のために説明すると、非常に激しいものを作る多くの人々は、おそらくその価値観を持っていないと思います。彼らはただ「目標を達成するためには何でもしろ」と言います。それはとても難しいことだからです。
一方で、それはよくわかります。他方で、「それは最悪だ。なぜ両方を達成できないのか」と思います。そのバランスについてのあなたの心の中の計算がどのように行われ、どこに落ち着いたのか興味があります。
文化は、私が信じていること、そして集団として私たちが信じていることによって構築されます。私たちは人々に本当に一生懸命働くことを期待しています。オリンピックで勝つには、本当に一生懸命働かなければなりません。
そして、私たちは人々が非常にスマートであることを期待しています。1Xで働くのは、あなたが最高の中の一人だからです。それがあなたが毎日行うことであり、一生懸命働き、世界最高の人々の一人であるならば、優しくなければなりません。そうでなければ、うまくいきません。
そんなに多くの時間をどこかで過ごすのなら、そこには楽しみがなければなりません。それはより生産的だからです。
これが、現在の文化がなぜ正しいと思うかの要約です。
では、実際にどのようにしてこの特定のフレーズを作ったのでしょうか?特定の価値観をどのように思いついたのでしょうか?
それはもっと楽しく、もっと単純です。私たちは、どの会社よも最も正直で真の中核的価値観を持っていると思います。なぜなら、それらは実際に初期の従業員の一人が、パーティーの深夜に「これが私たちだ」と言ったことから来ているからです。
そしてそれが3つの中核的価値観でした。私たちはスマートで、本当に一生懸命働き、優しい。それは本当だと響きました。みんながただ同意しました。「そう、それが私たちだ」と。
想像してみてください。「私たちは優しくない」というのがそこになかったとしたら。それは、誰かがコンサルタントと部屋に座って「私たちの価値観は何だろう」と考えた結果ではありません。それは意味がありません。それが価値観というものではありません。
そして私たちは、これが維持したい文化だと決めました。なぜなら、これが最も効率的な文化だと思うからです。
それを称賛します。難しいことを作る多くの人々がそのように感じていない、あるいはそのように感じることは問題ないと考えていないと思うので、私はそれが素晴らしいと思います。
他の人々が知らない、あるいは信じていないことで、あなたが知っている、あるいは信じていることは何ですか?
なぜ私たちの体が機能するのか、その理由です。これは、あらゆる微細な詳細についての理由の無限に深い穴のようなものです。
完全に理解していると思いますか?
いいえ、全くそうではありません。ただ、私は大多数の人よりもそれについてかなり良い理解を持っていると感じています。そして、それが世界とのやり取りから、それが学習にどのように影響するかまで、すべてにどのようにつながっているかについて、物理学の第一原理からの視点で考えています。
生体力学をどのように物理学の観点から考えていますか?
多くのロボット工学者が、現在の腱駆動システムや筋肉のようなロボット工学について聞くと笑うだろうということは知っています。それはもはや流行っていません。おそらく80年代、90年代には非常に人気がありましたが、今では多くのロボット工学者が「いや、産業用ロボットはそれを使っていない。だからそれは終わった」と言うでしょう。
あなたは流行や人気のあるものに従うのではなく、ただ「私たちは第一原理から最良のシステムを見つけ、それを構築している」と言っているように見えます。特に人間の体がどのように機能するかについてのあなたの知識と理解を、ロボット工学の文脈でどのように考えているのか、その思考の一部を聞かせてください。
私は、多くの創業者や企業が失敗する理由の一つは、時間とともに自分たちが間違っていると説得されてしまうことだと思います。人生の大半をこの問題について考え、研究し、これが正しいことだという直感を持っているとします。そして、それを始め、誰もがあなたに「我々は間違っていた。これは機能しない」とか「人々はこれを以前に試したことがある。なぜあなたはこれをしているのか」と言います。
それでも試してみて、数年が経過し、毎日誰もがあなたは明らかに間違っていると言い続けると、それが染みついてきて、人々は諦めてしまいます。
諦めないでください。すべての主要なイノベーションは、非常に強い信念と正しさを通じて生まれます。例えば、腱駆動システムについて、人々は「耐久性、信頼性、堅牢性、製造可能性などの問題は解決不可能だ」と言います。しかし、それらは解決可能です。ただし、3ヶ月の時間枠では解決できません。
ロボット工学でも、正しい直感を持っていたにもかかわらず、方向性を変え、他の誰かの意見と同じような平凡なものを作り、他の誰よりもうまく機能せず、そして消えていった会社の長いリストを挙げることができます。
もしその直感に固執していれば、もし人生をその問題に捧げていれば、あなたの直感はおそらくかなり良いものです。私は間違っていて、本当に失敗するよりも、それに固執する方がいいと思います。
もし何かについて確信を持って会社を始めたのなら、死ぬまでそれに固執してください。
それが大好きです。多くのイノベーターや科学者がそれを証明してきたのを見てきました。エジソンを考えてみても、マスクを考えてみても、多くの例があります。それでも、私たちはそれを覚えて内面化するのに非常に苦労しています。それは非常に興味深いことですが、本当に痛みを伴います。毎日誰かがあなたに「さあ、もうやめろ」と言うのですから。
私は今、自分が設立しているものでこれを経験しています。2週間前、ある従業員が「これは現実的ではない。規模を縮小すべきだ」と言いました。私は「そうだね」と言いました。なぜなら、それは理にかなっているように思えたからです。しかし1週間後、私は「いや、彼らは完全に間違っている。どれほどクレイジーでも、私たちは本当にそれをできるんだ」と思いました。だから、私はそれに共感できます。
1Xについて話すとき、もっと多くの人々が尋ねてほしいと思うことは何ですか?
みんな次の2年、3年、5年に何が起こるかを聞くことに興味があります。そして、AIが壁にぶつかるのか、製造はどのようにスケールするのか、これはどのように見えるのかといった議論に入ることができます。
しかし、2040年についてはどうでしょうか?2040年までにはかなりのことを解決できるだろうと言えるからです。私たちは常に長期的には技術を過小評価しますよね。
そうすれば、まず第一に、私はこの時代に生きていることをとても嬉しく思います。私はとても幸運です。人類のこのごくわずかな時間の窓に生まれました。それは信じられないほどのことです。基本的に、うまくいけば人工生命を創造することに貢献できるのですから。
そして、それだけでなく、私たちは宇宙に行く時代に生きています。コンピューターもあります。AIだけでなく、他のすべてのことを構築しているのです。生きるには本当に素晴らしい時代です。
そうですね。これらすべてが一緒になって、私たちは宇宙がどのように機能するかを大部分解明できるでしょう。もし解明可能であれば。
2040年には、人類は全く違って見えるでしょう。私たちは、現在の文明のニーズに対してほぼ無限のエネルギーを収穫できるほど、エネルギーの問題を解決しているでしょう。
ある時点で、タイプ2、タイプ3の文明社会などについて考え始めますが、今はそれを置いておきましょう。2040年にはそこまでいかないと思います。
そして、こう言いましょう。私たちはエネルギーを習得し、エネルギーを機械的な仕事に変換することを習得し、製品とサービスの無限の供給を持ち、完全に持続可能な方法ですべてを行うことができます。
コストを削減する理由は全くありません。なぜなら、無限の労働力があり、誰もが望むものすべてを持つことができるからです。これは農業革命よりもはるかに大きな影響を与えるでしょう。それは素晴らしいことです。その一部になれることは素晴らしいことです。
私は、美しい世界を創造できると思います。そして、ここでは多くのディストピア的なSFがあり、すべてがそこに失われていますが、私はそうはならないと思います。人間らしさを大切にする未来を構築することは、とても楽しいことになるでしょう。
ディストピア的なSFのことは本当に気になります。私たちの物語の多くがそうなっていることについて。
あなたのお気に入りのSF作品は何ですか?
まだそれですが、質問してくれてありがとうございます。『アンドロイドは電気羊の夢を見るか?』、つまり『ブレードランナー』の元になったフィリップ・K・ディックの小説を超えるものはありません。
なぜですか?
それは私の心に特別な場所を持っています。私はそれと一緒に育ちました。読んで、おそらく『ブレードランナー』を500回は見ました。それは私が今やっていることに本当に影響を与えました。
これが1960年代に書かれたことを考えると、本当に信じられません。非常に先見の明があります。そして、アンドロイドを社会に統合する方法について、人間性のすべてをこの物語に結びつけているので、素晴らしい物語です。
私はその探求の一部になれることにワクワクしています。『ブレードランナー』よりもうまくやれると思いますが。
もっと多くの人々に未来を構築することに関心を持ってもらい、それに興奮してもらうべきでしょうか?
明らかにそうですね。少し愚かな質問をしてしまいました。なぜそうすべきか、もっと深く掘り下げることができますが。
もっと多くの人々にすべてのことに関心を持ってもらうべきだと思います。良いことのすべての根源は、人々が関心を持つことです。人々が関心を持てば、一般的に物事はとてもうまくいきます。
あなたは私をここで脱線させていますが、私は今日の社会における最大の問題の一つは、人々に目的が欠けていることだと思います。目的がなければ、どのように幸せになれるでしょうか?すべてが「どうすればより少なく働いてより多くを得られるか」ということになれば、幸せな人生は送れません。目的が必要です。
そのためには、文化の段階的な変化が必要だと思います。私が何かをしたとき、それが世界にポジティブな影響を与えると感じられるようにするにはどうすればいいでしょうか。そうすれば、毎日何かをするとき、それをする良い理由があり、目的があるので気分が良くなります。
私たちはかつてそれを持っていました。私たちはそれを取り戻す必要があると思います。
なぜそれを失ったと思いますか?それは本当に良い質問です。
私たちはそれを完全に失ったわけではないと思いますが、薄めてしまったと思います。物事が非常に困難な場合、目的を持つのは非常に簡単だと思います。
生き残ることに本当に集中しなければならない状況にいれば、多くの目的があります。家族や友人が生き残ることに集中する必要があれば、多くの目的があります。
私はそこに戻りたいと言っているわけではありません。できるだけ快適な生活を送りたいと思います。しかし、どこかの時点で、個人主義と自己や個人の崇拝に一歩踏み込みすぎたのかもしれません。
私たちの目的の多くはコミュニティから来ます。自分のことだけを考えていると、幸せを見つけるのは非常に難しくなります。目的を見つけるのは非常に難しくなります。
一時的な喜びは見つけられるかもしれませんが、本当の幸せや目的は見つけられません。なぜなら、それは物事をより良くすることから来るからです。それが妻のため、子供のため、友人のため、社会のため、国のため、世界のためであっても、様々なレベルがあります。
そのどれも「正しい」とか「間違っている」とかいうことはありませんが、自分の人生の影響がポジティブなものであることを確実にすることが、多くの幸せをもたらすと思います。そして、私たちの行動に目的があることを確実にするよう、もう少し努力すべきだと思います。
最後の質問です。これも創業者の方々に聞くのが好きな質問です。あなたの現在の人生哲学は何ですか?
それを本当に定義したことはありません。それは深い質問です。
ただの陳腐な「正しいと感じることをする」ではありませんが…
いいえ、その場その場での報酬のためではありません。社会規範をほとんど気にしません。人間型ロボットの開発を楽しんでいます。妻と2人の子供がいます。友人が私と妻と2人の子供と一緒に住んでいます。そして、もう一人の友人が定期的に私たちと一緒に住んでいます。
私たちは新しい家を建てていますが、そこでは多くの友人と私たちの家族が一緒に住むことになります。なぜなら、それがずっと楽しいからです。
誰かに何をすべきか言わせないでください。誰かを傷つけない限り、あなたが最高の人生の質を得られると思うことをしてください。そうすれば、物事はずっと楽しくなります。
それは納得できますね。ベルント、時間を取っていただきありがとうございました。1Xを構築していただきありがとうございます。私の家に1台あるのが楽しみです。
ありがとうございます。ホストしていただき、本当に楽しみにしています。素晴らしいです。
コメント