
5,600 文字

コミュニティの皆さん、現在ミクスチャー・オブ・エキスパートシステムについて多くの研究が行われています。今日は、グラフ・ローラについて話します。従来のルーターがグラフニューラルネットワーク自体となり、本当に知的なものにしたいと考えています。ミクスチャー・オブ・エキスパートシステムにおいて、再帰的なチェーンの実装もあるかもしれません。そうです、これについて話す際に、これは推論だけのものなのか、それともトレーニングベースの要素なのかという話題もあります。
基本的な考え方は本当に古いもので、従来の単一のフィードフォワードネットワークアーキテクチャとその対応する表現空間を拡張したMを覚えているでしょう。今では、これを複数のサブスペースに展開し、ミクスチャー・オブ・エキスパートシステムアーキテクチャの振る舞いを効果的にエミュレートしています。このフィードフォワードネットワーク、つまりMLPは、すぐにお見せするように、ミクスチャー・オブ・エキスパートシステムになります。そして、知的なLLMsによって推論の深さを強化することで、このミクスチャー・オブ・エキスパートアーキテクチャを拡張します。
これから話す論文は2024年12月18日のもので、「グラフ・ローラ:グラフ協調ミクスチャー・オブ・エキスパートシステムによるLLMsのファインチューニングの強化」というものです。グラフ・ローラでは、MoEシステムのエキスパート間の協調シグナルを捉えるように設計されたグラフルーター機能があり、これはグラフニューラルネットワークによって制御されています。グラフ・ローラは、すべてのエキスパートが入力知識を理解し、集約操作によって隣接するエキスパートから情報を共有できるようにします。このシステムは今や一種の自己認識を持つようになっています。
各エキスパートの能力と協調を強化するために、2つの新しい調整戦略、特に区別戦略と負荷分散戦略も導入します。ここで、すべての世代の比較があります。まず、ファインチューニングのための古典的な低ランク適応から始まり、セルフアテンションとフィードフォワードアーキテクチャがあります。このフィードフォワードアーキテクチャでは、完全なファインチューニングの複雑さを避けるために、LoRAの実装、低ランク適応を使用しています。
これをミクスチャー・オブ・エキスパートシステムに適用すると、1つのシステムの代わりにエキスパート1、エキスパート2、エキスパート3、エキスパート4があります。したがって、入力情報に対してルーターの知性が必要になります。最も単純なケースでは、ミクスチャー・オブ・エキスパートLoRA実装です。
実際のグラフ・ローラ機能に移ると、ルーター自体がさらに知的になっています。なぜなら、ルーター自体がグラフニューラルネットワークとなり、このグラフニューラルネットワークが特定のエキスパートへの通信と情報の透過性を制御し、エキスパートが自身と通信できるようになり、より複雑な推論の新しいレベルを可能にします。
古典的なミクスチャー・オブ・エキスパートの場合、フィードフォワードプロセスでルーター関数によって割り当てられた調整方法は、このように単純でした。最も単純なケースでは、ルーター関数は、すべてのエキスパートに割り当てられる重みの確率分布を生成するソフトマックス関数です。
グラフ・ローラでは、これが異なります。なぜなら、ニューラルネットワーク自体があり、グラフ・ローラのフィードフォワードプロセスは、この特定の方法で定式化できます。ここでグラフニューラルネットワークを介したグラフルーター関数があります。これにより、ミクスチャー・オブ・エキスパートシステムの不均衡な負荷の問題によるLLMsの不安定性の問題が解決されます。
グラフ・ローラは、グラフニューラルネットワーク上でエキスパート間の効果的な情報共有によって、グラフルーターがエキスパートに重みを割り当てることを可能にします。グラフニューラルネットワークについては、そのメッセージパッシングアルゴリズムについて多くのことを知っています。私の他の動画で3つの異なるアルゴリズムを紹介しました。また、新しい調整戦略があるため、ミクスチャー・オブ・エキスパートシステムのパフォーマンスが向上しています。
次のステップに進むには、2024年の知識が少し必要です。2024年のミクスチャー・オブ・エキスパートの開発についてほとんど動画を作っていなかったので、これが私の学習に使用した文献です。Q1のミクスチャー・オブ・エキスパートモデルを見ると、現在の大規模モデルのほとんどがミクスチャー・オブ・エキスパートモデルであることがわかります。
2024年第1四半期の技術論文を見ると、元のフィードフォワードネットワークの代替として、ミクスチャー・オブ・エキスパートフィードフォワードネットワークは、独立したエキスパートシステムとして機能する個々のフィードフォワードネットワークで構成されていることがわかります。彼らは本当に重要なことを導入しました。モデルは、より小規模なエキスパートを作成し、同時により多くのエキスパートを活性化することで、より細かいエキスパートを採用しています。これが非常に有効であることがわかりました。
細かいエキスパートは、より豊かなエキスパートの組み合わせを提供します。Q12は素晴らしい洞察を提供し、さらにDi Zekのミクスチャー・オブ・エキスパートシステムの論文を参照しています。これは1年前の2024年1月に発表されたもので、フィードフォワードネットワークの中間隠れ次元を分割することで、細かいエキスパートセグメンテーションを開発し、一定の計算コストを維持しています。
また、より柔軟で適応的なエキスパートの組み合わせを可能にするために、より細かいエキスパートを活性化します。これは一種のブレークスルーであり、知識をより細かく分解し、より正確に学習できるようになりました。これらの細かいエキスパートセグメンテーションで正確に何が起こったのかというと、従来のトップ2ルーティングでは、エキスパートシステム1とエキスパートシステムNを決定し、次に細かいエキスパートセグメンテーションと深いミクスチャー・オブ・エキスパートヘッド統合、共有エキスパート分離戦略があります。
共有エキスパートが様々なコンテキストレベルにわたる共通知識を捕捉し統合することに専念する場合、他のルーティングされたエキスパート間のパラメータ冗長性が軽減されます。これを実装するのは素晴らしいアイデアです。
次の論文は2024年7月のGoogle DeepMindによる「100万のエキスパートのミクスチャー」です。彼らは、大規模な小規模エキスパートプールからのスパース検索のためにプロダクトキー技術を利用する新しいレイヤー設計を提供しました。トークンごとに各エキスパートに対して特定のゲーティングスコアが計算され、各トークンに対して上位Kのエキスパートのみが活性化される、信じられないほど多くのエキスパートを持つシステムです。
これらのパラメータ効率的なミクスチャー・オブ・エキスパートシステムは、完全なサイズのフィードフォワードネットワークの代わりに、パラメータ効率的なファインチューニング、つまりPAアダプター、LoRAやPEFTアダプターをエキスパートとして利用します。この論文で特に行ったのは、パラメータ効率的なファインチューニングのためにPEFT LoRAアダプターを置き換えることで、より良いパフォーマンスを得られることを示したことです。
2024年の次に重要な論文は、7月の「Mix LoRA:LoRAベースのミクスチャー・オブ・エキスパートシステムによるLLMファインチューニングの強化」です。これは2024年のミクスチャー・オブ・エキスパート文献におけるPEFTの最先端手法です。LLMsのフィードフォワード層でLoRAアーキテクチャを採用し、負荷バランスの問題に対処します。特に平均補助負荷バランス損失関数を使用します。
彼らは、多くのユーザーがコンピュータインフラに問題を抱えていると述べています。特に24GB未満のRAMを持つ消費者向けGPUの場合、これはまさにそのような状況のための解決策です。深く掘り下げると、エキスパート1、エキスパート2、エキスパート3、エキスパート4があり、フィードフォワードネットワークにLoRAアダプターがあります。
このMix LoRAは、ファインチューニング機能をさらに拡張し、フィードフォワードステップだけに制限されません。アテンション層にもLoRAファインチューニング、PEFTの機能を適用すると、システム全体のパフォーマンスがさらに向上することがわかりました。したがって、アテンション層のファインチューニングがパフォーマンスを大幅に改善できることを示唆し、これもMix LoRAプロセスに含まれています。そのため、Mix LoRAは2025年の最先端技術として本当に重要です。
要約すると、Mix LoRAは、複数のPEFT LoRAベースのエキスパートと凍結された共有フィードフォワードブロックを使用するパラメータ効率的なミクスチャー・オブ・エキスパート手法です。現在進行中の研究は、特にパラメータ効率的なファインチューニングのためのミクスチャー・オブ・エキスパートシステム、およびLLMのフィードフォワードサブスペースでの低ランク適応の使用に多くの焦点を当てています。
私の前回の動画を見た方は、これが似ているように聞こえるかもしれません。なぜなら、前回の動画では新しい種類のトランスフォーマーについて話し、これもミクスチャー・オブ・エキスパートシステムと全く新しいパラメータ効率的なファインチューニング手法に焦点を当てていたからです。もちろん、新しいアイデアがありますが、ミクスチャー・オブ・エキスパート、特にその始まりについてもう少し見てみる必要があります。
1991年にミクスチャー・オブ・エキスパートの概念が導入されたことに驚きました。マサチューセッツ工科大学ケンブリッジの脳認知科学部とトロント大学コンピュータ科学部による研究です。信じられないことに、1991年のミクスチャー・オブ・エキスパートです。
研究には2つの主要なトレンド、2つの主要な流れがあることがわかります。新しいルーティング戦略を採用することです。エキスパートルーティングネットワークは、ミクスチャー・オブ・エキスパート構造の中核要素といえます。スパースリーゲーテッドなミクスチャー・オブ・エキスパートシステムは2017年に初めて注目を集めました。このルーティング戦略では、密なネットワークのようにすべてのエキスパートを同時に呼び出す代わりに、推論プロセス自体に非常に少数のエキスパートが活性化されます。
2024年8月のプリンストン大学とMetaによる「自己回帰LLMプレトレーニングのための完全微分可能なミクスチャー・オブ・エキスパート」という論文があります。彼らは、非微分可能な離散的目的関数の最適化に挑戦する本当に興味深いルーティングネットワークを導入しています。異なる学習技術がありますが、それほど重要ではありません。
本当に重要なのは次の論文で、これも2024年半ばのものです。アテンションルーターと呼ばれる新しいルーターネットワークが提案され、エキスパートのより効率的な選択のために採用されており、古典的なルーターネットワークを持つモデルと比較して精度が向上しています。これは興味深い発展でした。アテンションルーターは、初めてすべての異なるエキスパート間の相関関係を考慮し、その結果、古典的なルーターと比較して高い精度を実現しました。このシステムでは合計32のエキスパートがありますが、各トークンに対して2つのエキスパートのみが活性化されます。
多くの研究論文がありますが、2024年11月の清華大学による「MoMA:アテンションのミクスチャー」は本当に興味深いものです。アーキテクチャの異なるヘッドと層に対して、異なるスパースアテンション設定を自動的に調整します。入力シーケンス長に関連する様々なアテンションパターンとスケーリングルールの探索空間を構築し、ナビゲートします。数学的にはやや複雑な側面がありますが、これを実装する興味深いアイデアです。
もう一つの主要な流れがあると言いましたが、それは標準的なフィードフォワードネットワークをスパースエキスパート層で置き換え、高度なエキスパートセグメンテーション技術を採用することです。幸いにも、すでにDeep Seekミクスチャー・オブ・エキスパートの論文を紹介しました。これはその主要な例の一つであり、Google DeepMindの「100万のエキスパートのミクスチャー」の論文もまさにこれについて話してきたことです。
これらが私のリソース、2020年以前のミクスチャー・オブ・エキスパートシステムとその後の開発に関するAI研究で最も興味深いと感じた研究論文でした。2025年のこのトピックに関する新しい研究、特にPEFTの代替案について次の動画で扱うために、知識をアップデートする必要があり、これらの論文を再読する必要がありました。そのため、2025年のPEFTの代替案に関する新しい研究について、次の動画で始める準備ができました。そして、いくつかの素晴らしい新しいアイデアがあります。チャンネル登録をして、次の動画でお会いできることを楽しみにしています。
コメント