このAIは私たちよりもよく考える…でも誰もそれについて話したがらない!

9,329 文字

Cette IA PENSE mieux que NOUS… et personne ne veut en parler !
Apprenez l'IA sous toutes ses formes et rejoignez la communauté VISION IA ! la communauté Vis...

私たちのように考える人工知能。純粋な思考そのもの。研究チーム達がまさにそれを実現し、人工知能について私たちが知っていたすべてを変える可能性があります。この発見は非常に重要で、MTA aiの科学ディレクターであり、大規模言語モデルの能力に常に懐疑的だったヤン・ルカンでさえ、これに関する立場を見直す必要があるかもしれません。
皆さん、こんにちは。今日のビデオでは3つのことを見ていきます。まず、この新しい研究、この新しいAIがどのように実際に話す前に考えるのか、そしてなぜそれが革新的なのかを見ていきます。次に、なぜこのアプローチが本当に知的なAIへの欠けているピースになり得るのかを見ていきます。そして最後に、人工知能の未来への具体的な影響について見ていきます。
まだチャンネル登録していない方は、チャンネルをサポートし、AIやロボット工学、医療などの最新のイノベーションについて常に最新情報を得るために登録できます。ここでは毎日テクノロジーニュースを紹介しています。
さて、始めましょう。とても興味深い内容ですよ。お話ししたように、この科学論文が発表されたばかりで、大規模AI モデルがトークンを生成する前に内部で考えることができることを示しています。トークンとは、AIが応答するときや指示を与えるときに使用する単語や文字のことです。それを彼らの言語、文字、単語として考えてください。
おそらく皆さんは、リアルタイム計算を伴う思考チェーンの概念をご存知でしょう。これは最近の思考モデルが行っていることです。例えばChatGPT o1、o3、DeepSeekなど、すでに発表された、あるいはこれから発表されるモデルの内部モノローグを読むことができます。
2つ前のビデオで申し上げたように、私たちは新しいパラダイムに入っています。以前のようにAIモデルをトレーニングすることはもうありません。このコンセプトを説明するために、非常に興味深く分かりやすい図を見せましたね。以前は、AIは即座に応答していました。質問を投げかけると、AIは考えずに直接応答していたのです。
ChatGPT o1の登場でそれが変わりました。AIは応答する前に考えるようになったのです。質問をすると、しばらく考え、その推論プロセスを見ることができ、その後応答します。DeepSeekの登場でそれが加速し、AIのトレーニング方法のパラダイムが完全に変わりました。そのためDeepSeekは大きな話題を呼んだのです。
そして今、新しいアプローチの可能性が出てきました。AIの思考が潜在空間で、つまりモデル内部でトークンを生成する前に行われるというアプローチです。これは現在DeepSeek o1とo3が使用している思考チェーンとは大きく異なります。潜在空間での思考は、言葉だけでは記述できない問題を解決する可能性を持っています。
潜在空間で思考するということは、言葉を超えて思考する、つまりトークンを超えて思考するということです。これは私たち人間が考えるときにしていることとよく似ています。実際、まさにそれと同じなのです。この新しい科学論文と人間の思考の間の類似性は非常に興味深く、読んで魅力的です。
しかしその前に、ヤン・ルカン、MTAのAI研究所の科学ディレクターで、AIの創始者の一人とされる人物について少しお話ししましょう。彼はフランス人なので、おそらく皆さんご存知だと思います。彼は今日の大規模言語モデルの限界について語っています。
彼はAIの偉大な思想家の一人で、大規模言語モデルは人間のように推論や計画を立てることができないと主張する最も強力な声の一人です。正直に言って、これは今日のほとんどの大手AI企業が言っていることと深く異なります。しかし、よく考えてみると非常に興味深いので、両方の視点を持つことは重要です。
これは、物事を言語だけで記述することの固有の限界によるものだと彼は言います。つまり、私たち人間が無意識のうちに行っていることを、言葉だけでは記述できないということです。私たちは単に言葉だけでなく、感覚データの集合体として概念を考えているのです。
さらに詳しく説明する前に、Lex Friedmanのポッドキャストでのインタビューの最初の部分をお見せしましょう。そこで彼はまさにこのことを説明しています:
「このようなモデルがあれば、計画のために使用できます。LLMは私たちが今からやろうとしていることはできません。特定の結果や特定の目標を達成するための行動を計画することです。複数の目標を持つことができます。このような物体を持っていて手を開けば落ちることを予測できます。テーブルの上である力で押せば動きますが、同じ力でテーブル自体を押しても恐らく動かないでしょう。私たちは頭の中にこのような内部モデルを持っていて、それによって特定の目標を達達成するための行動の順序を計画することができます。」
つまり、彼が言っているのは、私たちの周りの世界を本当に理解できる真の推論モデルを持つためには、単なる言語が記述できる以上のものが必要だということです。もちろん、ヤン・ルカンには自分なりの考えがありますが、それは今日のビデオのテーマではありません。もし興味があれば、専用のビデオを作るかもしれません。
いずれにせよ、彼の主張は言語モデルだけでは、私たちが知能として理解するような真の計画立案と真の推論を達成するには不十分だということです。小さな注意点として、このインタビューは思考モデルの現象が一般に広まる前に録画されたことを覚えておいてください。
もちろん、彼はおそらくすでにこれらの思考モデル、リアルタイム計算、思考チェーンなどについてはよく知っていたはずです。しばらく前から研究対象だったからです。それでも彼はそれでは不十分だと考えています。
私個人的には、思考チェーンを見て、それがどのように機能するのか、科学論文を見て、モデルが最初の結果を出す前に従う実際の推論のステップを見ると、かなり説得力があると認めざるを得ません。しかし、ヤン・ルカンは納得していません。
次の抜粋も見てみましょう:「私たちは彼らの流暢さに騙されています。言語を流暢に操れるシステムは人間の知能のすべての特徴を持っていると想定していますが、この印象は間違っています。私たちは本当にそれに騙されているのです。」
彼の意見を要約すると、AIモデルが言語を操り、私たちが知りたいことを教えてくれることに非常に長けているという事実に私たちは騙されているが、それ自体は真の推論や真の論理には不十分だと明確に述べています。
しかし、もう一度言いますが、AIが持った思考チェーンを実際に読み、AIが持った推論のパターンを本当に見ることができることに戻ります。もちろん、思考チェーンが本当に言語の操作に過ぎないという彼の意見が正しい可能性もありますが、私は他の選択肢に傾いています。皆さんはどう思いますか?コメントで教えてください。両方の視点を提供し、皆さん自身で判断できるようにしたかったのです。
このインタビューの最後の抜粋を見せましょう。その後、かなり興味深い論文に入っていきます:「現実世界の良い表現を生成モデルで得られないという多くの証拠があります。私は皆に言っています。生成AIについてばかり話していますが、もし本当に人間レベルのAIに興味があるなら、生成AIのアイデアを捨ててください。」
正直なところ、どう思いますか?彼の考え方はかなり少数派です。先ほど言ったように、すべての大手AI企業は、言語モデルだけを使って人工汎用知能(AGI)、さらには人工超知能(ASI)、つまり真の推論、真の論理、真の知性、現実世界の真の表現を達成できると信じています。
さて、この論文を見てみましょう。これがまさに彼が話していた、AIに欠けていたピースかもしれません。
論文のタイトルは「潜在的推論によるリアルタイム計算の拡張:再帰的深度アプローチ」です。この論文の著者たちが発見したのは、モデルが最初の言葉、最初の単語、最初のトークンを生成する前に、潜在空間で、つまりモデル内部で思考できるということです。
このタイプのアーキテクチャにより、モデルは内部で思考し、その思考を増強することができます。どのようにそれが機能し、どのようにそれを発見したのかを説明しましょう。
要旨では次のように書かれています:「この新しい言語モデルのアーキテクチャは、潜在空間で暗黙的に推論することによってリアルタイム計算を増強することができます。私たちのモデルは再帰的ブロックを反復することで機能し、テスト時に任意の深さに展開します。」
つまり、彼らは最終的な答えに到達するまで無限に思考を深めることができる隠れたブロックをモデル内部に持っています。そしてこれはすべてテスト時に行われます。これが重要な部分です。
これは、より多くのトークンを生成することで計算力を増強する従来の推論モデルとは異なります。今日の推論モデルが思考するとき、思考チェーンで見えるのは単にトークンをより多く生成しているだけです。結論に至るために自分自身と対話しているようなものです。必然的により多くの単語を生成することになりますが、私たち人間がそのように考えているわけではありません。
現在の思考モデルの波はまさにそれだけを行っています。文字通り、トークンを生成し、それらのトークンについて考え、修正し、繰り返すだけです。実際、最近の思考モデルで生成されるトークンの数は、ここ数ヶ月前の非思考モデルよりもはるかに多くなっています。
知能は向上しましたが、思考や応答時のトークン生成量も増加しました。これこそがDeepSeekが革新的だった理由です。トークン生成のコストを指数関数的に削減したのです。これによって、思考モデルを作ることが可能になりました。以前は費用が高すぎたのですが、今ではようやく手の届く範囲になりました。そのため、ここ数週間ずっとこの話題について議論しているのです。
この新しいトレーニング方法、この思考方法には多くの利点がありますが、今日の思考モデルは依然として巨大なコンテキストウィンドウを必要とします。しかし、この新しい論文では、特殊なトレーニングデータは必要ないと述べています。後で説明しますが、基本的に、モデルの振る舞い方について巨大な説明を必要としない、つまり今日行っているような巨大なコンテキストウィンドウは必要ないということです。
最も重要で興味深いのは、この新しい方法が、言葉だけでは簡単に表現できない異なるタイプの推論を捉えることができるということです。これがこのコンセプトの力の源です。
そして再び、ヤン・ルカンの現在の言語モデルに対する主な議論を参照すると、単に言葉を使うだけでは現実世界を完全に表現することはできません。この論文がそれを解決するかもしれません。少なくとも、それが解決策かもしれません。
彼らは35億パラメータの小さなプロトタイプモデルを作成し、これらの技術のいくつかを実際に示しました。少し視点を変えて、これがどのように機能するのか話しましょう。
ここで人間の思考がどのように機能するのかについて話したいと思います。最初の言葉を発する前に、脳内で複雑で再帰的な思考パターンを通じて大量の思考が行われていることを知っておく必要があります。
現在の思考チェーン方式では、思考チェーンがあっても、思考は生成と同時に行われます。人間に例えると、声に出して考えるようなもので、応答する前にそれらの言葉を声に出すか、あるいは心の中で考え、その思考の連鎖を心の中で作らなければならないようなものです。つまり、常に言語が思考プロセスの最初のステップとなります。
しかし、これは人間が考える方法ではありません。質問されたとき、あなたは全ての推論スキームを声に出して答えるわけではありません。「彼の質問に答えるためにはこうしなければならない、これについて考えなければならない、このアイデアと比較して、こう答えよう」などと考えているわけではありません。
直感と言いたくはありませんが、現時点ではそれが何であるかわかっていません。基本的に、質問されて考えるとき、そのような推論はしません。ただ答えるだけです。実際、頭の中で一言も言わずに、また言葉で表現せずに、さまざまな主題や状況を概念化することができます。
これは内部モノローグを持たない人々のことを考えると興味深いです。彼らはどのように考えているのでしょうか?これらの記録された事例の人々は、言語を全く使用せずに考えることができ、質問に答えることができます。
本質的に、これが人間が推論する方法です。私たちが概念化し、概念によって推論するということ以外に、私たちがどのように推論するかについてはあまり多くを知りません。
ここで、論文は最近、リアルタイム計算を改善する方法を探求してきたと述べています。先ほど言及したo1とDeepSeekのモデルです。主流のアプローチは、長い思考チェーンの例でモデルを後学習し、コンテキストウィンドウ内で即時計算を言語化し、その思考を外部化する能力を開発することを含みます。
これはここで使用されている非常に適切な言葉です。まさにそれが起こっていることです。彼らは言葉だけで思考を外部化しているのです。これは思考方法のかなりの単純化です。
例えを挙げましょう。これは単なる比喩なので、文字通りに受け取らないでください。一部の人がそうするでしょうが、それは重要ではありません。4次元で考えているのに、その思考を3次元に単純化しているようなものです。
これが今日のAIモデルが行っていることです。超立方体を取り、そこから立方体を抽出して、その立方体を使用するようなものです。一つの段階から次の段階へ、多くの次元、多くの概念、多くの複雑さを失っています。
つまり、今日のAIが推論する方法は、私たちが本当に推論する方法の近似に過ぎません。私たちは今日のAIよりもはるかに多くの次元で推論していると想像できます。ここでAIは一つの要素で推論していますが、私たちには例えば3つあるというようにです。
もちろん、これはすべて概念を理解してもらうための比喩です。私が説明しようとしていることですが、基本的にそのアイデアです。数学や物理学をしたことがある人なら、まさにそのように考えてください。今日のAIモデルは一つの要素で推論していますが、真の思考には複数の要素があります。
しかし、バークレーの大学院生チームのことを考えると、少し気になることがあります。ご存知の通り、以前ビデオで取り上げましたが、彼らはわずか30ドルでモデルに思考的な振る舞いを獲得させることに成功しました。多くの思考例を必要としませんでした。
手頃な学習について話が出たところで、重要なことについて少し話をさせてください。AIを始めたいけれど、どこから始めればいいのかわからないという多くのメッセージを受け取っています。
そのため、すでに500人以上の人々がこれらのAIの概念を習得するのを助けた完全なトレーニングコースを作成しました。フィードバックは驚くほど素晴らしいものでした。さらに、本当に誰もが利用できるようにしたいと考えました。
まず、これは今日のビデオの概念は少し複雑ですが、すべての基本概念から始めるトレーニングです。つまり、ゼロからAIを学び、このように徐々に発展的な概念に進んでいきます。
また、数千ユーロや数百ユーロもするようなトレーニングは望みませんでした。私の目標はAIを誰もが利用できるようにすることなので、可能な限り手頃な価格にしたいと考えました。
興味がある方は、ビデオの説明欄やピン留めされたコメントにリンクがあります。AIの進化の速さを考えると、今がまさに始めるべき時です。
しかし、メインの話題に戻りましょう。バークレーチームに戻ると、彼らは検証可能な報酬を伴う強化学習を使用しました。これは多くの思考例を必要としません。おそらくこの論文はこの例の前に書かれたのかもしれません。
個人的には、これらのモデルが潜在空間で自然に考えることができれば、より有能になる可能性があると考えています。このモデルが言うように、ここでモデルはトークンを生成せずに考えるのです。
先ほど説明した人間の推論方法の例を理解していれば、それは私たちがやっているのとよく似ています。この論文はそれをよく要約しています。内部思考、言語なし、最初のトークン、最初の言葉、最初の言語が出る前に問題について考える能力だけです。
そうすることで、彼らはAIをはるかに効率的にしました。いくつかの利点を見てみましょう。3つのことが読み取れます:
再帰的な層により、トランスフォーマーモデルはトークンを出力する前に任意の数の計算を実行できます。また、潜在的推論はカスタムトレーニングデータの構築を必要としません。
先ほど話しましたが、従来の思考言語モデルを作るには、どのように考えるかについての多くの例が必要です。しかし、すでにより控えめな強化学習の例を見てきました。それは明示的に考え方を教えることなく、モデルに少し考え始めさせることができます。
しかし、ここで彼らが言っていることは異なります。スケーラブルになるかどうかはわかりませんが、すでにいくつかの例を見てきており、それが可能であることを示しています。
続けて読むと、潜在的推論モデルは、思考チェーン推論モデルよりもトレーニングと推論に必要なメモリが少ないとされています。これは従来の思考モデルの思考チェーンが多くのトークンを使用するためです。
そして、従来の大規模言語モデルでは、情報を記憶し、トレーニングデータを超えて一般化する能力が重要になってきます。実際、ここにコミュニティでの議論があります。多くの人々がモデルはトレーニングデータを超えて一般化できないと言っています。これは真の汎用人工知能ではないことを意味するでしょう。
しかし、この新しい技術を使えば、それが可能になるかもしれません。
このビデオで多くを話してきました。少し長くなってきたので、いくつかの例を見て、どのように機能するかを見てみましょう。
ここに例があります。テスト時に何かを尋ねると、入力として「hello」があり、次に再帰的ブロックがあります。これは反復的なステップで、無限に続けることができます。考え、考え、さらに考え、次に何を置くべきかを考えます。
最終的に実際の出力を得ます。ここでは「World」です。なぜなら最終結果は「hello world」だからです。これらの緑色のブロックがモデルの思考部分です。これは単一のトークンが生成される前に行われます。
最初に生成されるトークンが「World」であることがわかります。すべての思考は、それ以前にトークンを生成することなく、つまり思考のために言語を使用することなく行われています。潜在空間で考えているのです。私たちがするのと同じように。
これが実際に機能することの証拠を見せましょう。このグラフを見てください。Y軸は性能です。出力の質として考えてください。X軸はテスト時の再帰性です。本質的にはテスト時に行う思考の量です。トークンが生成される前の思考量です。
異なる評価で、4、8、16、32、64と思考を重ねるにつれて、パフォーマンスが継続的に向上していることがわかります。これは、トークンを生成することなく、モデル内部、自身の内部で考えているという証拠です。
もう一つの非常に興味深いことは、タスクに応じて使用する計算量を決定できることです。思考チェーンと同様に、要求に応じてより長くまたはより短く考えることができます。効率を最適化する非常に良い方法だと思います。
図10で見ているのは、左から右に、高校数学、哲学、論理的誤り、道徳的シナリオです。高校レベルの数学では、X軸は使用された計算量、計算量を示し、Y軸はモデルが正解に到達するためにそれだけのステップを必要とする頻度を示しています。
高校数学では、応答するために多くのステップを必要としないことがわかります。かなり早く良い回答に到達します。哲学ではもう少し多くのステップが必要になり始め、論理的誤りではさらに多くのステップが必要です。そして、興味深いことに、道徳的シナリオではさらに多くのステップが必要です。
つまり、高校レベルの数学のような単純なタスクでは、多くの思考を必要としません。問題が複雑になるほど、おそらく道徳的シナリオが最も多くの思考を必要とするようです。これはまさに人間として問題について考えるときにすることと同じです。より単純な問題であれば、より複雑な問題ほど長く考える必要はありません。
ビデオの長さがどれくらいになったかわかりませんが、多くを話してきました。いずれにせよ、これを共有することは魅力的でした。これは概念実証です。少し知識があれば、このモデルをダウンロードして自分で試すこともできます。
この論文を共有したかった理由は、DeepSeekの論文が多くのことを変えたように、これも多くのことを変える可能性があるからです。誰が知るでしょうか。DeepSeekのときのように、今後数日でこれが大きな話題になるかもしれません。
このビデオを楽しんでいただけたら嬉しいです。本当に、これらの論文はすべて魅力的だと思います。もしビデオが気に入って、まだチャンネル登録していない方は、登録して「いいね」をつけていただけると、チャンネルの成長をサポートし、私にさらにこのような技術的なビデオを作る動機を与えてくれます。
AIを学ぶなら今がチャンスであることを改めて強調しておきます。より良いタイミングはありません。トレーニングのすべてのリンクはビデオの説明欄やピン留めされたコメントにあります。
繰り返しますが、これは誰でもアクセスできます。基本的な概念から始めて、理解しやすい概念から徐々に発展していきます。私の目標は、AIを包括的に、全体的に教えることです。
特に、日常生活でさまざまなAIツールを使用できるようになることを目指しています。日常生活で使えるツールや、このような高度な概念を教えています。
いつものように、このビデオを見ていただきありがとうございます。また明日、次のビデオでお会いしましょう。
もしこの分析に興味を持ち、現在の地政学的課題についてさらに深く理解したい方は、私の新しいチャンネル「Vision Actu」をご覧ください。そこでは、私たちの現在と未来を形作るこのテーマやその他のテーマについての詳細な分析を見つけることができます。何も見逃さないように、両方のチャンネルをご登録ください。また新しい分析でお会いしましょう。

コメント

タイトルとURLをコピーしました