
6,049 文字

やあ皆さん、Dr.ヌールです。今どこにいるかわかりますか?ここから見えるエッフェル塔の…ああ違う手ですね、動画だと左右が逆になってしまいます。とにかく、パリにある素敵な場所にいます。ちょっと変な角度からの眺めですが、これが今できる最善の場所からの撮影です。
今日は短い動画を撮ろうと思います。まずはメリークリスマス、そして新年おめでとうございます。今日は30日で、明日は移動日です。最近あまり姿を見せていませんでしたが、シャモニーでスキーをしていました。素晴らしい旅行でしたが、金曜日にレインが膝を痛めてしまいました。MCLかACLかはわかりません。帰ってからMRIを撮る必要があります。シャモニーのクリニックの医師はMCLだと考えているようです。MCLなら良いのですが。私も内側側副靭帯を怪我したことがありますが、かなり良く治りました。ACLは手術をしないと治りにくい傾向にあります。
さて今日は、最近のノーベル賞受賞者であるダイス・アービスの動画の一部についてお話ししたいと思います。これは彼のノーベル賞スピーチだと思いますが、デジタルバイオロジーなどについて話していました。特に、彼が良いAIの問題とは何かについて語っている部分に注目したいと思います。これは私が以前から人工知能について話してきたことと関連しています。
数日前、サム・アルトマンがXで2025年にOpenAIに何をしてほしいかと尋ねていました。私は特に、明確で簡単な答えのない損失関数に取り組んでほしいと答えました。なぜなら、それが人工知能への鍵だと考えているからです。また正直なところ、OptimusやFigureのようなロボット工学も重要です。ロボットと人間は、明確なイエス・ノーの答えのない世界に存在する傾向にあります。より良い答えとより悪い答えはありますが、明確なイエス・ノーの答えはないのです。これは大きな違いを生み出します。
まずは、デニスの話を聞いてみましょう。申し訳ありませんが、動画の品質はあまり良くありません。ヨーロッパでは動画のダウンロードに制限があり、これが最善でした。では、デニスの短い発言を聞いて、その後で詳しく話し合いましょう。
「では、このようなAIの手法で取り組むのに適した問題とは何でしょうか?私たちは3つの基準を探します。第一に、膨大な組み合わせの探索空間を通じて経路を見つけることができるか。問題をこのような観点から捉えることができるでしょうか。第二に、最適化やヒルクライミングのための明確な目的関数やメトリクスを指定できるか。ゲームの場合、これは簡単です。ゲームに勝つことやスコアを最大化することです。第三に、新しいネットワークモデルを学習するための大量のデータが利用可能か。理想的には、より多くの合成データを生成するための正確で効率的なシミュレータがあることです。実際に、このような観点から問題を見ると、科学の多くの問題を含め、このプロファイルに適合する、あるいは適合させることができる現実世界の問題が多くあることがわかります。」
では、私を左側に移動させて、これを完全に明確に見られるようにしましょう。彼が話したこの短いセグメントで示されたスライドに焦点を当てたいと思います。AIに適した問題とは何か。
まず、巨大な組み合わせ探索空間です。これは今では当たり前のことだと思います。彼は複雑な言い方をしていますが、要するに単純なアルゴリズムの答えがないものということです。つまり、基本的な数学の問題のように、x²+y+z=何かというような単純な方程式では解決できないものです。複雑な一連の相互関連する方程式で解く必要があり、数学は複雑です。
ニューラルネットワークの美しさは、基本的にどんなに複雑な関数でも近似できることです。これは1980年代に理論的に証明されました。ニューラルネットワークを使えば何でもモデル化できるという事実です。本質的には任意の関数近似器なのです。しかし、当時はそれは実現不可能な抽象的な数学の問題でした。理論的には可能でも、現実には不可能だと考えられていました。
しかし40年待つと、アルゴリズムと計算機能が十分に強力になり、現時点で多くの問題に対してこれが可能になっています。これがAIに適した問題の第一の部分です。従来の方法では解決が困難な本当に大きな問題です。そうでなければ、単にプログラムすればいいだけですよね。10億までの素数を全て求めるような問題は、AIを訓練するよりもコンピュータにプログラムする方がはるかに簡単です。
しかし、任意の大きさの素数を求めたい場合は、AIを訓練する価値があるかもしれません。なぜなら、数が本当に大きくなるからです。実際、素数に関して言えば、これは興味深い分野です。AIは、量子コンピュータだけができると思われていたことを実現できるかもしれません。つまり、量子コンピュータの能力を近似して素数を見つけ、因数分解することです。
これが重要な第一の部分です。AIに適した問題とは、非常に大きな探索空間を持つものです。第二の部分は、最適化のための明確な目的関数やメトリクスです。これについては後で詳しく話します。第三の部分は、大量のデータか、正確で効率的なシミュレータのいずれかです。
大量のデータとは、例えば大規模言語モデルの場合、インターネット上の人々が話し、コミュニケーションを取っている言語データを利用して訓練することです。あるいは、物理的な実世界を利用することもできます。ロボットが実世界で相互作用する場合、それは大量のデータとはみなされません。なぜなら、ロボットがリアルタイムで相互作用する場合、私の60年近い人生(ところで、チャンネル登録をお願いします。1月29日の60歳の誕生日までに10万人の登録者数に到達したいです)でも、収集できるデータ量には限りがあるからです。
無限ではありませんし、ロボットの訓練には恐らく十分ではないでしょう。また、ロボットの訓練に60年待つわけにもいきません。そこで、もう一つの選択肢が、NVIDIAを含む多くの人々が現在取り組んでいる正確で効率的なシミュレータです。ジム・ファンはProject GrootだけでなくIsaac Gymなどにも取り組んでいます。これらのシミュレータは現実をシミュレートし、何百万ものボットが実時間の1万倍のスピードで訓練できるようにするものです。
シミュレータを使えば現実をシミュレートし、大量のデータを生成できます。つまり、実世界で既に利用可能な大量のデータがあるか、そのデータを合成するかのいずれかです。もちろん、言語なども合成することができます。
さて、明確な目的関数に話を戻しましょう。明確な目的関数やメトリクスとは、勝ち負けのルールです。つまり、AIを訓練するためには、答えが正しいか間違っているかを伝える必要があります。少なくとも従来はそうでした。ここで事態は面白くなります。
明確なのは、チェッカー、三目並べ、チェス、囲碁のような、明確な勝者と敗者のあるゲームです。明確な勝敗の状態があれば、これらのものを訓練するのは比較的簡単です。これはニューラルネットワークだけでなく、あらゆる種類のAIに当てはまります。A探索アルゴリズムなどを使用できます。ただし、目的関数を知っている必要があります。つまり、現在どこにいて、ゴールはどこで、そこに到達するための最適な経路は何かということです。
Aアルゴリズムでは、この方向に移動すると状態が近づくのか遠ざかるのかを知る必要があります。現在の状態を増加させるのか減少させるのかを知り、状態を最小にしたいわけです。周囲を探索して最小の経路を見つけ、答えへの経路を見つけます。ニューラルネットワークではもっと多くの情報、より多くのデータが必要ですが、基本的には数百万、数十億、おそらく数兆のノブを調整し、データを供給し続けます。
明確な目的関数があれば、つまりこれが正解でこれが不正解という明確な基準があれば、訓練は難しくても道筋は明確です。明確な正解と不正解がある場合、何かを訓練するのは単純です。問題は、明確な正解と不正解がないものに直面したときです。最近これについて話した動画をご覧になっていない方は、ぜひチェックしてください。
例えば、現実世界での道案内の状況を考えてみましょう。Google マップのような場合、この方向に行ってこう曲がってという具合に、時間や距離の最小経路を見つけるのは得意です。しかし、森の中を歩くような場合、この方向に行きたいとか、あるいはエッフェル塔に行く場合(私は車椅子を押していく必要があります)、たくさんの小さな決定を下さなければなりません。
坂の大きさはどうか、階段はないかといった明確な判断はありますが、人を避けるために少し左に寄るべきか右に寄るべきか、小さな穴を避けるべきか、より最適な経路に見えるからそちらを選ぶべきかといった判断もあります。これらは、より良い答えとより悪い答えはありますが、正解と不正解はありません。
ニューラルネットワークを訓練する際に「ああ、間違った答えを出してしまった」というわけではなく、少し悪い答えか少し良い答えかという程度の違いです。場合によっては、ある観点からは少し良くて別の観点からは少し悪いということもあります。
例えば、エッフェル塔にできるだけ早く到着することだけを最適化する場合、人々に対して無礼になり、押しのけてしまうかもしれません。車椅子を押している際に誰かの足を踏んでしまうかもしれません。これはスピードの観点では最適化されていますが、人々の快適さや礼儀正しさという観点では非常に非効率的です。
つまり、メトリクスや目的関数が非常にファジーで緩やかなものになります。明確ではなく、明白でもありません。私の主張は、フランシスのArcチャレンジが単純だと言った理由です。簡単だとは言いませんでしたが、AIにとって解決が単純なゲームであり、それを解決できるだろうし、人工知能の証明にはならないと言いました。
私の主張は、人工知能を実現するためには、明確でない目的関数、ファジーなメトリクスに対して最適化できるAIが必要だということです。それをどうやって実現するのか、正確にはわかりませんが、現実世界に存在することと関係があると確信しています。
だからこそ、私は長い間、人工知能は物理的な世界に存在する必要がある、つまり具現化されたAIでなければならないと主張してきました。少なくとも私たち人間が理解する形での人工知能を実現するためには。もちろん、他の定義もあるかもしれません。
サム・アルトマンは、経済的に有用なタスクの大部分を実行できることと定義しましたが、その意味では現在のコンピュータでもそれを実現できると言えるでしょう。コンピュータをツールとして使用することで、世界のGDPは桁違いに増加しています。明らかに経済的に価値のある仕事ができているわけです。
私の主張は、それは本当の人工知能ではなく、むしろパズルソルバーのようなものだということです。Arcチャレンジは、AIにとって非常に複雑なパズルですが、チェッカーをプレイするのと本質的には変わりません。明確な勝敗の関数があり、正解と不正解があります。正解を出したか不正解を出したかが正確にわかり、それに対して訓練できます。それは非常に単純です。
しかし、現実の生活で明確な正解も不正解もない状況に直面したとき、それをどうするのでしょうか。それが問題です。そこで私は、具現化されたAIこそが人工知能を実現する唯一の本当のチャンスだと言っているのです。もちろん、定義の違いや意味論的な違いは置いておいて。
私は、人工知能の機能的な定義は、人間のように振る舞うということだと考えています。もちろん、XやYouTubeのようなオンラインで完全にデジタルにコミュニケーションを取ることもできます。それには体は必要ありません。しかし、人工知能として学習するためには体が必要だと考えています。それが体を必要とする部分です。
その後はもちろん、仮想空間に置いてそこで存在することもできます。しかし、世界を総合的に理解するためには、明確な目的関数ではなく、不明確な目的関数に対して最適化できる必要があります。ファジーなメトリクスに対して最適化できる必要があるのです。
私は、現実世界には私たちに教えてくれる例が満ちあふれていると考えています。したがって、これを実現する最良の方法は、ロボットを世界に置くことです。少なくとも私の考える人工知能の観点からは、最初に見ることになる本当の人工知能は、体を持つことになるでしょう。
もちろん、その背後には巨大なクラスターがあるかもしれません。しかし、テスラの完全自動運転車のような、フルセルフドライビング機能を持つ車は、大規模言語モデルよりも人工知能に近いと考えています。言語モデルは私たちと会話できるのに対し、車は会話できないので、逆に見えるかもしれませんが。
現時点では運転という非常に狭い領域に限られていますが、運転能力と運転状況でうまく機能する能力には、ルールの理解(これは比較的簡単です。停止標識や赤信号など)だけでなく、道路上の他のドライバーの心的モデルの理解が必要です。これが本当に複雑な部分です。
私の主張は、FSDは現実世界に存在するという事実により、見かけは逆に見えるかもしれませんが、現時点では大規模言語モデルよりも人工知能に近いということです。
そして私の第二の主張は、Optimus、Atronicsのアポロ、Figure 02や03などのヒューマノイドロボットが、人間のように私たちと会話し交流できるようになったとき…私はこれを少し垣間見ることができました。カーテンの向こう側を少し見て、これが実際に起こっていることを目撃しています。
ここで本当のAGIが実現されると思います。大規模言語モデルだけではなく、具現化されたAIが実世界について学べる程度まで到達することはないでしょう。
さて皆さん、これが今朝、エッフェル塔の頂上が霧で見えないとても霧深い朝にお伝えしたいことでした。エッフェル塔は確かにそこにありますよ。
コメント欄で皆さんの意見をお聞かせください。私に同意するか、大規模言語モデルがAGIを解決できると思うか、私の定義が完全に間違っているか、あるいは私に同意するか、ぜひ知りたいです。
その際、もしよろしければ、いいねとチャンネル登録もお願いします。繰り返しになりますが、60歳の誕生日までに10万人の登録者数に到達できたら素晴らしいです。本当にありがとうございます。
次の動画では、おそらくオースティンのスタジオからお会いしましょう。さようなら。
コメント