LLMが行き詰まる理由の解説 | AGI Lambda | AGIに仕事を奪われたい

6,385 文字

基本的な例から始めましょう。アメリカ合衆国大統領のバラク・オバマが1850年に亡くなったと私が言ったとします。明らかにあなたはそれを信じないでしょう。しかし、同じことを何千回言ったとしても、あなたはそれを信じることはありません。なぜなら、バラク・オバマがいつ生まれたかを知っているからです。
これは、あなたがこのデータから何も学ばなかったということではありません。はい、間違った情報を受け取ったということは学びました。ほとんどの場合、あなたの記憶は大量の誤った情報を受け取ったという事実で更新されました。彼の人生と時間の仕組みについてすでに知っているため、彼が生まれる前に死ぬことは不可能だとわかっています。
さらに、あなたの脳には周囲から受け取るすべての情報を批判的に評価するのに役立つ他の要因がありますが、LLMの場合はそうではありません。では、LLMに同じことをした場合はどうでしょうか？アメリカ合衆国大統領のバラク・オバマが1850年に生まれたと何千回も伝えた場合（つまり、トレーニング中にこの文を与えた場合）、この誤った情報に基づいて重みを更新し、LLMはそれを信じ始めます。
これは、LLMが真に理解することなく情報をそのまま受け取り、データを記憶することを目標としているためです。記憶とは、与えられたすべてのデータを約似的に保存することが目的だということです。ニューラルネットワークの目標が情報を保存することだった単純な例を思い出してください。わずか2つの重みで、はるかに大きなデータへの近似的な答えを保存できる単純なネットワークを訓練しました。
データを保存するために、ニューラルネットワークは何らかのパターンに従う必要があることがわかります。この場合、入力のパターンは単なる線形関数で学習できます。そして今では、入力を使用するだけで、保存されたデータへの近似的な答えを得ることができます。LLMも同じです。LLMは次の単語を予測する技術を使って、与えられたすべてのデータを学習しようとし、学習の過程で単語間の関係と文章での使用法を発展させます。
前回の動画で言及したように、埋め込みは各単語と他の単語との関係を、テキストでの使用法に基づいて表現したものにすぎません。関係というとき、各埋め込み値はその大きさに応じて同じ方法でLLMによって解釈され、これは埋め込みの他のすべての値にも当てはまります。
もう少し掘り下げて考えてみましょう。LLMに「時間」という単語を理解させたいとします。LLMがこの単語を理解するために、さまざまな文脈でどのように使用されているかを見ます。これは他の単語がさまざまな文脈でどのように使用されているかにも影響を受け、データセット全体と語彙にまで及びます。しかし、それはモデルが各単語の意味を真に理解していることを意味するのでしょうか？
各単語の意味を表現しているとしましょう。問題は、私たちがこれらの埋め込みを各単語の意味として解釈し、これらの埋め込みが実際に意味を表現していると主張することです。実際には、LLMはこれらの単語の意味を理解していません。今言ったことで少し混乱するかもしれませんが、最後に説明します。
結果は2つあります。1つ目は、LLMが埋め込みの単語を理解している場合。2つ目は、LLMが単語を理解していないが、私たちがそれらを意味として解釈している場合です。
本題に入る前に、ここで「インテリジェンス」という言葉を少し定義してみましょう。インテリジェンスとは何かについて哲学的な議論に入りたいわけではありません。Instagramでこの質問をしたところ、多くの人が回答してくれました。哲学的な回答もあれば抽象的な回答もありましたが、私たちの主な目標は、インテリジェンスを普遍的に定義することではありません。
科学者として、私たちの目的はこの世界の問題を解決し、AIに人間のように考えさせることです。動画の冒頭で言及した批判的思考の問題に取り組むためです。これを説明するために2つのシナリオを考えてみましょう。
1つ目は、2つの数字を足す単純なPython関数です。2つ目は、2つの数字を受け取って足すニューラルネットワークを開発します。ただし、このネットワークは重みが1で、バイアスが0の2つの重みで構成されているとします。これはニューラルネットワーク関数の表現ですが、これらは本質的に同じ関数で、1つの関数がこれらの2つの数字にある値を掛けて足しているだけだとわかります。
ここで問題は、これら2つの関数の違いは何かということです。この単純なニューラルネットワークをより複雑にすることで、それはインテリジェントになるのでしょうか？実際には、まずこれらの重みをランダムに初期化し、その後モデルは重みの更新を通じて問題を解決する方法を学習します。両方とも問題を解決しているので、ここでは、インテリジェンスは問題を解決する方法を見つけ出すことだと言いましょう。このケースでは、今のところニューラルネットワークはインテリジェントです。後でこのインテリジェンスの概念をさらに洗練させていきます。
LLMがインテリジェントだとして、どれくらいインテリジェントなのか確認したいとしましょう。関数を近似したいとします。この関数は人間のインテリジェンスを表しています。ほぼ正確な人間のデータがあります。このデータでモデルを訓練すると、この部分は正確に近似できることがわかり、データセットに存在しない質問への回答を得ることができます。
しかし、この関数の外側では、データが提供されている領域から少し移動した後は、正確な結果は得られないことを覚えておいてください。追加のデータがあるとしましょう。反対側の近似も良くなりますが、モデルに与えたデータセットと比べると無視できるほどの小さな改善でしかありません。
ここで重要なのは、このデータの外側では正確な答えは得られないということです。たとえば、ChatGPTに開発される前に起きた新しい研究について尋ねたり、AIに画期的な研究革新を見つけ出すよう求めたりしても、有用な答えは得られません。しかし、検索する必要なく、すでにインターネット上に存在することについては正確な答えを得ることができ、これがChatGPTを有用にしています。
前の部分に関連して、アインシュタインが生まれる前に存在したすべての科学データを与えて、ChatGPTに相対性理論を与えるよう期待することを考えてみましょう。それは不可能です。しかし、LLMにデータセットにすでに存在する問題に似た質問をすることはできます。GPTはデータを保存し、プロンプトを使ってそのデータを取り出す方法です。保存されたデータに似た質問に対しても、わずかな一般化で答えることができます。まったく新しい質問や問題に答えるには、これは現代のデータ保存技術だと言えます。
データ保存だけに焦点を当てると、Googleのように機能します。データのエラーに関する質問があり、ChatGPTにプロンプトを与えたとします。ChatGPTが直面している問題に似た問題に関するデータで訓練されている場合、そのデータに基づいて回答を返します。これはとても有用です。これがインテリジェンスが到達できる限界ですよね。
推論のためにOpenAIによって強化学習で訓練された新しいモデルは一時的に無視して、従来のLLMに焦点を当てましょう。これらのLLMは一種のデータベースであることを覚えておいてください。膨大な量のデータを保存し、プロンプトを使って関連するデータを取り出そうとします。
ChatGPTに「あなたは誰ですか？」と尋ね、「私はChatGPTというLLMです」と返答しても、それは何らかの人格を持っているということではありません。それは単に、このLLMが人格を持っているかのように見せかけるデータベース上のレイヤーにすぎません。私たちはこのデータベースに機密性の高いトピックについての質問に答えないよう指示していますが、それは人格ではなく、データベースと会話しているようなものだということを覚えておいてください。
LLMは、トランスフォーマーを使用したニューラルネットワークで大量のデータを保存する方法にすぎず、それを実現するためのより良いアルゴリズムだと思いませんか？
先ほど議論した主要なポイントに戻りましょう。LLMは人間の言語を理解していないということです。これは、「上」という単語を使用する場合、LLMは人間のように「上」という単語を理解していないということを意味し、他の単語や異なる動きなどにも同じことが当てはまります。
意識や感情について話しているわけではありません。LLMが感情を理解していなくても、そのような感情を持つ人が現実世界でどのように振る舞ったり反応したりするかを少なくとも知っているべきだということです。
ニューラルネットワークに実際の言語を教える方法をすでに開発していることをご存知ですか？敵対的な設定での強化学習エージェントを覚えていますか？これらのエージェントはランダムなメッセージから始めて、互いにコミュニケーションを取り、徐々に言語を発展させていきます。
これらのRL（強化学習）エージェントとLLMの違いは、これらのRLエージェントが自分たちの環境で考えやプランを持っており、それらのアイデアを他のエージェントと何らかのコーディングを使ってコミュニケーションしたいと思っているということです。このエンコーディングが実際の言語なのです。
言語では、まず何らかのアイデアや思考があり、それを単語や埋め込み、その他のものでエンコードしようとします。しかし、LLMの問題は、実際の世界を見たことがないということです。これが意味するのは、4次元のオブジェクトを何らかの感覚で実際に観察することなく理解することはできないということです。
3次元を使って推測できると言うかもしれませんが、LLMは単一の次元とも相互作用していないことを覚えておいてください。では、3次元の世界とその言語を理解することをどうやって期待できるでしょうか？実際の世界や似たような仮想環境で活動しているRLエージェントは、彼らが開発した言語を理解できることを覚えておいてください。
このエージェントを仮想環境から実世界にマッピングすると、開発した言語を理解します。この言語は単に報酬に基づいて目標を達成するためのコミュニケーション手段にすぎませんが、少なくとも何らかの形の言語を開発しています。
言語開発の目的は何だったかを思い出してください。動物も自分たちの目的のための言語を持ち、コミュニケーションも取りますが、LLMとは異なり、RLエージェント、人間、動物は自分たちが言っていることを理解しています。この言語は人間の言語のような高度な言語ではありませんが。
RLエージェントが本当の意味で英語を話せるとしたらどうでしょう？将来的に彼らが言語を批判的に評価し、自分たちの知識を構築できると思いませんか？
しかし、AIに時間について教えるにはどうすればいいでしょうか？つまり、時間とは何でしょうか？これには解決策があります。それは、強化学習におけるマルコフ決定過程を使ってAIに時間の概念を教えることができるということです。
視覚、聴覚、そしてMDPのような時間の感覚を持つエージェントを開発すれば、エージェントに状態を与え、そしてモデルはアクションを実行します。これによって、モデルは人間がするように実世界の感覚を発展させることができます。報酬関数を使って、エージェントに特定の問題を解決するよう求めることができます。
人間の言語と実世界を理解し、地政学に関する研究問題を解決し、人間の言語と実世界を理解し、地政学に関する研究問題を解決しようとするAIエージェントを想像してみてください。人間のように評価できるコンピュータからの情報を使用できますが、人間とは異なり、非常に短時間で膨大な量のデータを学習し、そのデータを批判的に評価することもできます。この情報を使って、DeepMindのAlphaGoのゲームのように、人間には思いつかないような解決策を見つけ出すことができるでしょう。
現在のニューラルネットワークにはいくつかの問題があります。1つは継続的学習です。継続的学習では、モデルが破滅的忘却のような問題に直面し、トレーニング後しばらくすると新しいデータを学習できなくなるため、モデルの重みを継続的に更新することができません。
今日使用しているLLMは、実際にはユーザーとのオンラインでのやり取りから継続的に学習しているわけではありません。まず訓練され、その後は静的なモデルとして関数のように使用されます。つまり、ChatGPTと対話するとき、それは静的な重みを持つ関数として働き、回答を与えます。一方、人間はそのように機能しません。人間はすべての相互作用から学習します。
もう1つの問題は、世界と相互作用するAIを開発したとしても、そのエージェントに人間のように言語を学習させることは不可能だということです。RLエージェントは現在そのようなタスクにはかなり弱いです。
インテリジェンスは問題の解決策を見つける能力だと言いましたが、LLMが解決している問題は何でしょうか？これらのモデルは主に、次の単語予測を使用してデータを保存する問題を解決するように設計されています。教師あり次単語予測の代わりに、強化学習で行うような目標指向の問題解決のためのモデルを開発すべきです。
問題をMDPにマッピングできれば、何らかの方法で解決策を見つけ出すことができることはすでにわかっています。OpenAIの新しいモデルは、最新のLLMで何らかのレベルのインテリジェンスを開発するためにこの技術を使用している可能性があります。彼らは推論のために強化学習を使用していると主張しているからです。
しかし、実世界と相互作用させることなく、LLMのインテリジェンスをどこまで高められるでしょうか？計算とデータには限界がありますが、私たちの主な問題は、モデルが受け取るデータを批判的に評価することです。
言いたいのは、モデルがどのデータを受け取り、それを何回受け取ったかに依存すべきではないということです。また、何かを事実、フィクション、嘘として受け入れるべきかどうかを理解し、チェックする必要があります。
教師なし学習では、各文は、データに出現する回数に応じて、モデルによって等しく事実として扱われます。私たちはLLMにデータから学習してほしいのですが、実際にはデータを学習しているのです。
しかし、LLMがこれを始めたら、LLMが独自の人格を発展させる可能性があるポイントです。その場合、何らかの報酬を通じてのみ制御できます。報酬を間違って設定すると、非常に危険になる可能性があります。
教師あり次の単語予測から、批判的に考える能力を持つ実際のAIに移行すると、プログラミング言語がアセンブリからPythonに移行するのと同じように、遅くなる傾向が見られると考えています。同意できない場合は、RLエージェントを見てみることをお勧めします。教師あり技術と比べてはるかに遅く、不安定だということです。
最後に、このビデオについて議論したい場合は、健全な議論のために私たちのDiscordサーバーに参加することを歓迎します。このDiscordサーバーは、特に今後数年間のAGIの開発について、AIの未来について議論することに専念しています。