
9,256 文字

こんにちは、コミュニティの皆さん。今日は、新しい知識をオーバーライドする方法について調査します。これを専門的な方法で行うための新しい研究がありますので、始めていきましょう。
ご存知の通り、簡単なことです。プロプライエタリなLLMをここにあるコンテンツで学習させ、これが月の形だと言って「はい」と答えさせます。そして質問があります。もし私がこの知識をオーバーライドしたい場合、というのも今や私の月は靴箱のような形をしているべきだと考えており、イングランドでの潮の満ち引きの重力場を計算したいと思っているからです。
ご覧の通り、これは単一の情報ポイントの変更ではありません。LLMにおける完全に相互接続された論理的推論のコネクトームを変更することになります。これを専門的な方法でどのように行うか、このビデオへようこそ。
これは単純な例だと思います。しかし、例えばMetaが「これが月の形だ」というコンテンツでLLMを提供したとします。あるいはアメリカの友人たちにとってより刺激的な例を挙げると、過去3人の大統領の業績について尋ねた時に、イーロンのLLMやマークのLLMから返ってくる答えに同意できないかもしれません。
時として、特定のコンテンツを変更したい立場に置かれることがあるでしょう。それは同意できないからであり、そのシステムをあなたのシステムに含めたくないからです。私が「私は科学を信じており、これが月の形だと思う」と言うとき、LLMの知識をオーバーライドする方法を理解する必要があります。
今、私たちにはいくつかの素晴らしいアイデアがあります。私が街に出て99%の人々に尋ねれば、標準的な回答はRAGでしょう。その通りです。3ヶ月前に、コンテキスト検索機能とプロンプトキャッシングを備えたAnthropicのシステム実装について深く掘り下げたビデオがありました。
しかし時は進み、2024年12月の最終日に新しい論文が発表されました。それは複数エージェントによる検索拡張生成のフィルタリングに関するものです。彼らが数日前に書いたように、既存のRAGシステムは、検索文書の品質に頻繁に問題を抱えています。関連性のない、またはノイズの多い文書がシステムのパフォーマンスを低下させ、計算オーバーヘッドを増加させ、応答の信頼性を損なうのです。
そこで彼らは、RAGを改善する必要があると考え、新しいアイデアを持って2025年に向かおうとしています。複数エージェントによる検索拡張生成のフィルタリングです。12時間前に私のチャンネルに投稿した内容をお読みいただければ、より詳細な情報をお伝えしています。
実際にこれは良いアイデアだと思います。再インデクサーやランカーなどに加えて、RAGのパフォーマンスを向上させるための3つの特殊化された高度なAIシステム、特殊化されたエージェントを追加するのです。
そして、たまたま2日前に、とても簡単にコーディングできる新しい形式のエージェントを紹介したばかりです。これがそのコードエージェントで、完全なコードです。そして昨日、このより良いRAGシステムを構築する方法を理解するのに完璧な、マルチAIエージェントシステムの構築方法をお見せしました。
しかし、ここでの問題は検索機能だけではありません。まだRAGを使用したい場合の拡張フェーズについても考える必要があります。拡張フェーズは、元のクエリを抽出された外部データで拡張するからです。つまり、プロンプトの形は単にクエリと、より関連性の高い情報や知識になります。これが文脈内学習と呼ばれるものです。
ここで考えてみてください。イーロンなどのLLMの事前定義された知識の中で、特定の日付や事実を変更したい場合、例えばモーツァルトの生年月日をこの特定のLLMで変更したい場合、「これは不正確な日付だと分かったので、正しい日付を挿入してください」と簡単に言うことができます。
通常、LLMはこれを単純に修正することはありません。テンソル構造、テンソルの重み構造をシンプルなネットワークで単純化すると、ここで単一の事実のポイントを変更するだけです。しかし、モーツァルトの業績をLLMで変更したいと言う場合、完全なサブネットワーク、完全なサブグラフを変更することになります。
このサブグラフは、モーツァルトの歴史、モーツァルトの時代、モーツァルトが出会った人々、協力した人々についての残りのグラフに完全に統合されていない場合、幻覚を起こしやすいシステムになってしまいます。
したがって、今日の課題は、事前定義されたLLMのコンテンツを変更したい場合の完璧な数学的方法論を見つけることです。古いLLMの完全な推論パターンと、何百万ドルもかけて訓練されたすべてのものを保持しながら、高度に相互接続された特定のポート、特定のサブネットワークを変更する方法を見つける必要があります。
これが推論のコネクトームだとすると、他のデータでサブコネクトームをどのように変更するかということです。私たちはRAGシステムにもいますが、さらに多くのことを望んでいます。これとこれを切り替えると、ネットワークトポロジーに注意を払う必要があることが分かります。これを運用方法論でどのように行うかです。
私はここに複数のビデオを持っています。文脈内学習、通常のファインチューニング、監督付きE+、小規模な特定のLLMのためのマルチコール研究によるICLのスケーリングH推論、またはスタンフォードによる新しい方法論での視覚的文脈内学習の方法などです。
しかし今日、今日は新しい研究があり、さらに良い文脈内学習ができます。私たちが望むのは、イーロンなどの標準的なLLMを取り、「これで満足だが、事前定義された知識には同意できない」と言うことです。ネットワークの最小限の部分を変更したいのです。
この知識を、私のLLMで推進したい私の信念でオーバーライドしたいのです。新しい事前訓練フェーズを開始したくありません。ファインチューニングを開始したくありません。お金をかけたくありません。ここでそれを行いたいのです。それがブラックボックスであれば、それを行う方法論を示してください。新しいお金のブラックボックスアプローチです。
LLMにおけるカテゴリカルおよび階層的概念の幾何学に関するこの論文を覚えていますか。彼らは表現空間におけるポリトープとしてカテゴリカル概念の表現を即座に形式化し、その形式化を使用してLLMの概念の階層構造とそのtzaネットワークにおける表現の幾何学との関係を提供したことを覚えているでしょう。これは既に素晴らしいものでしたが、今私たちはこの洞察に基づいて構築しています。
あるいは、2024年10月のMITによる「すべての言語モデルの特徴が線形ではない」というこの研究を覚えていますか。ここでは、モデルの表現の真の性質を明らかにすることが、それらの表現を使用する基礎となるアルゴリズムを発見するために必要だと述べました。
表現について話し合い、表現を深く理解する必要がある何かがあります。ハーバード大学、MIT、コーネル大学によるこの特定の論文を覚えていますか。ワールドモデルについてかなり集中的な議論を行いました。モデル化する領域の基礎となる論理を意味のある方法で捉える生成モデルを構築することは、非常に価値があるでしょう。
MITは私たちに、結果は与えられたモデルがその目標にどれだけ近いかを評価する新しい方法を示唆していると伝えています。私たちはこの洞察にも基づいて構築します。このビデオの準備として論文を詳しく見たい場合はそうしても良いですが、今日検討する主要な論文は、12月29日のハーバード大学、ハーバード大学、ハーバード大学、そしてミシガン大学による表現の文脈内学習についてです。
私の注目を引いた理由は、私たちが物理学、知能、そしてeiiについて話しているからです。これが私のトピックです。始める前に用語を定義しましょう。
文脈内学習とは、LLMのパラメータを更新することなく、プロンプト内でいくつかの例を見るだけで新しいタスクや新しいパターンを学習し適応する能力のことです。ファインチューニングは必要ありません。
LLMにおける表現は、各トークンに関連付けられたテンソル構造、ベクトル構造の形で、世界に関する知識を内部の数値表現としてコード化します。トークン化を覚えていますか。これらの表現は通常、事前訓練フェーズで学習され、その関係は意味的な接続を反映します。数学的空間、ベクトル空間にマッピングしたいコンテンツを覚えていますか。
あなたは「待って、これは実際のものではない、これは単純化しすぎている、もっと良いことができる、私たちはもっと良いものに値する」と言うかもしれません。はい、その通りです。
科学的には、プロセスはトークン化から始まります。トークナイザーが入力テキストを小さな単位に分解し、それらをトークンと呼びます。それから、トークナイザーは埋め込みを参照としてルックアップテーブルを作成します。トランスフォーマーは本来、シーケンスを順序立てて処理しないため、トークンの埋め込みに位置エンコーディングが追加されます。
そしてトランスフォーマーの魔法が始まります。トークンの埋め込みと位置エンコーディングが一連のトランスフォーマー層に渡されます。他のビデオで覚えているように、層には自己注意機構があり、これがトランスフォーマーの主要なメカニズムです。そして、実際に学習を行うための非線形活性化関数を持つフィードフォワードネットワークがあります。
しかし、最も重要なポイントはトランスフォーマーのアーキテクチャにおける残差ストリームです。トランスフォーマー層の出力は、自己注意とフィードフォワードネットワークからの出力だけでなく、これを初期の埋め込みに加えて各層で残差ストリームを形成します。
視覚化ではあまり見かけないかもしれませんが、これはトランスフォーマーの成功に不可欠なコンポーネントであり、文脈内学習を理解する上で重要です。この文献で見られる「表現」という用語は、アーキテクチャから選び出して分析するその内容の、特定のトランスフォーマー層の残差ストリーム内の活性化に焦点を当てています。
さらに知りたい方のために、残差ストリームのベクトルはコンテキスト化されているということを覚えておいてください。これは、その値が開始時の初期埋め込みだけでなく、LLMが処理する完全なトークン長のコンテキストウィンドウ全体の影響を受けているということです。
活性化が抽出される特定の層も同様です。トランスフォーマーの古典的なアーキテクチャから覚えているように、各層はクエリの入力の異なる側面を計算し、異なる層が異なるコンテキスト情報、つまり特徴を捉えます。
この理解に基づけば、残差接続が重要であることが即座に理解できます。ファインチューニングも事前訓練もなく、テンソルの重みは変更されないため、学習メカニズムは異なる必要があります。私たちの学習メカニズムは残差接続に基づいています。
前の層の出力を新しい変換に加えることで、モデルが元の入力に関する情報を忘れないようにします。これは、非常に深いニューラルネットワークでの勾配消失問題とも呼ばれる問題を防ぐのにも役立ちました。各層は、この特定の表現の一部を変更することだけを学習します。
各層は、前の層で既に計算されたものに基づいて、特定の数学的空間におけるトークン表現に小さな修正または改良を加えることに責任を持ちます。したがって、表現は直接修正されるのではなく、加算されるため、文脈内学習を最適化したい場合は、任意の層で情報がどこにあるかを追跡することが重要です。
これは、情報がここで残差ストリーム全体に蓄積されることを意味します。古典的なアイデアを思い出してください。浅い層が基本的な操作を実行し、より深い層がより複雑なコンテキストの意味的関係を捉えるかもしれません。このように、トークンがより深い層で計算される際に、早い層で学習された情報は失われません。
複雑な推論には、この残差接続が不可欠です。これが静的なエンコーディングではないことを明確にしておきましょう。これらのビデオでたくさんのコメントをもらいましたが、私たちはここでLLMの内部学習プロセスの動的な再編成を行っています。
複数の層にわたる残差ストリーム内のこの表現の根本的な変化が、文脈内学習表現の発展を明らかにしています。各層の残差ストリームでその表現を測定することで、これをどのように行うかお見せしますが、この新しい研究は、より深い層での事前訓練された意味論の文脈情報による段階的なオーバーライドを示しています。
あなたは「何が起こっているのか」と言うでしょう。これが魔法が起こる場所です。私たちのプロンプトで提供する新しい文脈情報による、LLMの事前訓練された意味論の段階的なオーバーライドです。これは今、特に複雑な推論タスクのために、より深い層で修正を行っています。
私たちはそれを達成しました。それが起こる場所を正確に見つけました。今、私たちは実験をする必要があります。グラフのトラバーサルに対応するトークンの特定の選択されたシーケンスをLLMに供給することで、自己注意機構は残差ストリームのトークン埋め込みの再編成を引き起こします。
この特定の再編成は、PCAというツールで検出可能で可視化できます。これはグラフトポロジーの出現を示しています。これは重要な内容で、私も最初に読んだ時は何を意味しているのか理解できませんでした。
自己注意機構により、LLMはコンテキストウィンドウで推論する関係に基づいて、各トークンの残差ストリーム表現を調整できます。しかし今、私たちは文脈内学習においてAIの学習がどこで起こっているかを知っています。
視覚的なガイドを求める視聴者のために、本当に興味深い質問は、このトランスフォーマー内での文脈内学習における学習がどのように起こっているかということです。学習がどのように起こっているのか、その内部の仕組みを正確に理解できれば、文脈内学習を最適化できるからです。
短い要約、短い休憩として、表現は単なるトークンの埋め込みではありません。多くの人がこの間違いを犯しますが、各層のLLMの残差ストリーム内で進化し文脈化された活性化ベクトルです。自己注意機構は、LLMが文脈内で新しい意味的な役割を学習できるようにする、これらの表現のダイナミックな再形成の主要な推進力です。
モーツァルトの日付という単一のポイントではなく、モーツァルトの完全なサブネットワークです。これはまた、トランスフォーマーのアーキテクチャが文脈内学習に非常に優れている理由も説明するかもしれません。
論文に戻りましょう。物理学について何かあったことを覚えていますか?物理学に焦点を当てましょう。実験をしてみましょう。
図1があります。これが最初の図です。グリッドがあり、このグリッドに単語を入れていきます。LLMが文脈を持ち、訓練された単語だけを使います。このグリッドで、リンゴ、鳥、ミルク、砂、太陽、平野、オペラなどの間を特定のコードで、特定の方法で移動します。これは意味をなしません。
これがまさに私たちが望むことです。LLMが訓練されていない新しい情報、リンゴ、鳥、ミルク、砂、平野、オペラについての新しい知識を持ってほしいのです。LLMにこの新しい情報を学習させたいのです。
そこでグリッド上でランダムウォークに従ってトークンのシーケンスを生成し、これをLLama 3.18Bモデルへの入力とします。そして、文脈内学習がいつ起こっているかを見ます。
これを見てください。あなたは「これは何だ」と言うかもしれません。これらは異なるコンテキスト長(200、400、1,400)でのトランスフォーマーアーキテクチャの表現であることをすぐに理解できます。あなたは「待って、このグリッドトポロジーは、十分な情報、十分なコンテキスト長1,400を提供すれば、グリッドのように見える偶然の一致なのか」と言うかもしれません。
グリッドラインも見てください。これはグリッドかもしれません。これはLLMの内部に実際に存在するオブジェクトの視覚化ではないことを理解してください。他のビデオでコメントをもらいましたが、これは私たちのトランスフォーマーアーキテクチャの層26の残差ストリーム活性化からの表現の非常に特殊な投影です。
そして著者たちは、文脈内の例示の数が増加するにつれて、データ生成プロセスの基礎となるグリッド構造を反映する表現の形成が起こると言います。あなたは「それは不可能だ」と言うでしょう。私もそう言いました。
このデータ生成プロセスは、単純なランダムウォークで特定のシーケンスを定義したグリッド構造のトポロジーに基づいていました。PCAでデータの最大分散の特定の成分を分析すれば、LLMの内部でグリッドパターンのような類似のパターンを見つけることができると言われても信じられないでしょう。
しかし、論文は文脈内表現のシフトを探索するための制御された方法として、先ほど示したこのグラフトレーシングタスクを導入しています。ご覧の通り、非常に短いコンテキストでは十分なデータがなく、これはどんな幾何学的図形にもなり得ますが、これはグリッドラインのあるグリッド構造、行列のように見えます。
ノード、エッジ、コンテキストについて考えると、グラフのノードは事前訓練中にLLMが見たことのある可能性が高い単語(リンゴ、鳥など)で表されます。エッジはグラフ構造(正方形のグリッド、リング、六角形のグリッド)によって定義されるノード間の接続です。
コンテキストは、構造の明示的なラベルや言語的な説明なしに、グラフ構造を効果的に指定するグラフに沿ったランダムウォークを表すトークンのシーケンスからなるLLMへの入力です。
これは学習が起こっている抽象化です。単なる単一のデータが学習されるのではなく、一種のグラフ構造が学習され、これが今LLMの内部で形成されているのが見えます。これが私たちが学習と呼ぶものです。
今、私たちはツールを持っています。2次元でトークン表現を視覚化するための次元削減のためのPCAがあります。しかし、X軸とY軸は非常に特殊に選ばれていることを覚えておいてください。データの変動の最も重要な軸のみが、元のデータの表現の基礎となる構造を明らかにします。
これが層26でのみ起こっていると思うなら、すべての層(0、2、4、6から30まで)を見てください。徐々に徐々にグリッドラインが現れてきているのが分かります。層30は既にグリッド構造として識別できるでしょう。
あなたは「これはLlamaだけなのか」と言うかもしれません。10億から80億のモデル、あるいはGoogleのGemma 2の20億、90億モデルに移行したらどうでしょうか。これは一般的にトランスフォーマーモデルで、いくつかの深い層がある場合に起こるようです。興味深いですね。
別の実験をしてみましょう。今度はグリッドではなく、リングに配置します。そしてデータを生成します。これが学習されるべきものです。今、リンゴとバナナのような隣接ペアがグループとなり、オレンジとタマネギ、オレンジとタマネギ、これらの7と6がグループとなります。アイデアが分かりますね。これが今、文脈内学習で学習したいデータです。
非常に短いコンテキスト長と長いコンテキスト長の場合を見てみましょう。後の層の特定の層を見ると、例えば層26でも、非常に短いコンテキスト長では、100でさえも本当にリングを浮かび上がらせません。しかし、コンテキスト長を400に増やすだけで、層16で既に一種のリングが見え、層26ではさらに多くの情報があります。
これらは、データのリング構造、データの隠れたパターンにおけるコンテキストで指定された意味論に従った表現の変更です。これらは今、私たちのトランスフォーマーアーキテクチャ内で現れる表現です。
Llama 1B、Llama 3.18B、Gemma 2、Gemma 29bのリング構造を見てみましょう。興味深いことに、他のモデルもこれを発展させているようです。著者たちは、コンテキストの量を100から400に増やすと、グラフの接続性に従って表現の突然の再編成が起こると言います。
著者たちは続けて、これはLLMが完全に文脈内で指定された概念の意味論を反映するために内部表現を操作できることを示唆していると述べています。これは認知科学からの推論的意味論の理論に沿ったものです。これは単に驚くべきことです。
ディープニューラルネットワークは、グラフの接続性に従って、より良い最適な表現の突然の再編成があるような形で組織化されます。物理学的に考えると、これは一種のエネルギー最適化のようなものです。文脈内学習にとって、これは絶対に素晴らしいことです。
六角形の構造でもこれを行ってみましょう。そして、はい、ご覧ください。これがグリッド構造で、これがリング構造で、異なるモデルを見ると、六角形の構造も識別できます。少し想像力が必要です。時には少し想像力が必要ですが、はい、六角形の構造があります。これは本当に機能しています。
あなたは「これはコンピュータサイエンスからの洞察に過ぎない」と言うかもしれません。この現象を本当に理解したい、学習がどのように起こっているのかを本当に理解したいと思うかもしれません。文脈内学習を最適化したいからです。
したがって、2025年の今、トランスフォーマーの内部動作を文脈内学習に関して探索するためのより強力なツールが必要です。物理学、完全な数学的物理学を導入すると言うかもしれません。しかし、これは次のビデオのトピックとなります。今日のビデオではすでに十分な興奮がありました。
もし月の形を好みの形に、好みの事前定義されたコンテンツにLLMのコンテンツを変更したい場合、MetaやMicrosoftが事前定義されたAIシステムで提供するものを受け入れたくない場合、あなたが持つ事実、信念、生成したいコンテンツに従って確実にしたい場合、標準的なブラックボックスLLMにエンコードされた知識を修正する必要があるかもしれません。
これは文脈内学習で行うことができ、次のビデオで数学的な詳細を探っていきます。このビデオを楽しんでいただけたと思います。少し楽しんでいただけたと思います。次のビデオも楽しめるように、ぜひ購読をお願いします。
コメント