Meta LCM 大規模概念モデル – さようならLLM – 生成AIの新たなフロンティア 🚀

3,403 文字

年末にこの大規模概念モデル（Large Concept Model）の概念について見ていきましょう。これは基本的に、文の表現空間における言語モデルと広範な概念のモデルです。LLMの大きな問題点の一つを解決するものを見ていきましょう。
これまで知られているLLMのようなモデルはAIの分野に革命をもたらし、多くのタスクにおいてデフォルトのツールとなっています。現在の技術はLLMをベースにしており、トークンレベルで入力を処理し出力を生成します。
トークンに問題があり、エラーが発生する原因となっています。これは、個々の単語を超えて多くの抽象レベルで情報を分析し、創造的なコンテンツを生成する人間の操作方法とは大きく異なります。2023年末における最も強力なモデルの一つとされるChatGPT-4でさえ、エラーを起こすことがあります。例えば「9文字の単語を10個書いてください」という単純な問題でも、ChatGPTやClaudeで試してみることができます。
詳しく見てみると、必ずしも9文字になっていないことがわかります。例えば「fotografía」は「foto」が4文字、「grafía」が7文字で合計11文字です。さらに調べていくと、「cruzamos」は「cruz」が4文字、「amos」が4文字で合計8文字というように、10文字や8文字の単語が見つかります。デフォルトで9文字のものもありますが、これらのモデルがトークンで考えるために生じるエラーです。
トークンは単語ではなく数字であり、これは処理が単語より数字の方が遥かに速いためです。そのため、最終的に単語や単語の一部がトークンに変換されます。これは前述の通り、人間の処理方法とは大きく異なります。そのため「9+9」や「911との比較でどちらが大きいか」といった単純な問題でもエラーが発生し、それらはトークンが主な原因となっています。
この論文では、「concept」と呼ばれる高次の明示的な意味表現に基づいて動作するアーキテクチャの試みを提示しています。そのためLarge Concept Modelと呼ばれています。この場合、概念は言語やモダリティに依存せず、フロー内の高次のアイデアや行動を表現します。
したがって、大規模概念モデル（Large Concept Model）を構築し、この実現可能性の研究では、概念が文に対応すると仮定し、テキストモダリティで200言語まで対応する既存の文埋め込み空間SONARを使用しています。
大規模概念モデルは、埋め込み空間での文の自己回帰的な予測を行うように訓練され、MSE回帰、拡散ベースの生成の変種、量子化されたSONAR空間で動作するモデルなど、複数のアプローチを探索しています。これらの探索は1.6兆のパラメータを持つモデルで行われ、訓練には1.3兆のトークンが使用されました。その後、7兆パラメータのモデルにスケールアップし、訓練データも約2倍の2.7兆に増やしています。
彼らは様々な生成タスクで実験的評価を行い、要約の拡張という新しいタスクをまとめました。最終的に、彼らのモデルは多くの言語でのゼロショット生成において印象的なパフォーマンスを示し、同じサイズの既存のLLMを上回りました。1.6兆または7兆パラメータのモデルと比較しています。モデルのトレーニングコードはGitHubで無料で公開されており、強力なGPUを持っている場合は、インストールプロセスに従って使用することができます。
画像を見てみましょう。抽象化の力を示す例として、「彼はあまり運動神経が良くなかった。スポーツチームに参加すれば変われると考え、いくつかのチームに参加しようとしたが、すべて断られた。そこで彼は自分自身でトレーニングすることを決意した」というテキストがあります。
この図の左側は概念埋め込み空間での推論の可視化を示し、右側はLCMの基本的なアーキテクチャを示しています。概念エンコーダーとデコーダーは凍結されています。入力テキストは概念エンコーダーを通じてLarge Concept Modelに渡され、出力には概念が含まれているのが分かります。
これらのモデルの主な特徴は以下の通りです：
トークンを超えた、言語とモダリティに依存しない抽象的なレベルでの推論が可能です。これらのモデルは英語では非常に優れていますが、他の言語ではトレーニングデータのトークンが少ないため、英語ほど効果的ではありません。特定の言語での表現ではなく、基礎となる推論プロセスをモデル化します。
LCMモデルは、すべての言語とモダリティで同時に知識を獲得（トレーニング）できるため、公平なスケーラビリティが期待できます。
明示的な階層構造により、長文形式の出力の可読性が向上し、ユーザーによるローカルでのインタラクティブな編集が容易になります。また、長いコンテキストと長文形式の出力の管理も改善されています。
前述のように、言語やモダリティに関係なく、前例のないゼロショット生成が可能です。LCMがトレーニングされていれば、追加のデータやファインチューニングなしに、SONARエンコーダーと互換性のあるあらゆる言語やモダリティに適用できます。
さらに、モジュール性と拡張性も備えています。
データ準備とLarge Concept Modelまたはその変種について、LCMのデザインは連続的な文埋め込みを生成する必要性に駆動されています。これは、離散的なトークン語彙上の確率分布を推定する現在のLLMの動作とは明確に異なります。
このタスクに直接的にアプローチする方法は、損失を最小化する目的で埋め込みを生成するようTransformerモデルを訓練することです。ただし、与えられたコンテキストには、意味的に異なる多くの妥当な続きがあり得るため、モデルはこの分布を学習する必要があります。
結論として、大規模言語モデリングの最も一般的な現在の実践は、トークンレベルで操作することです。つまり、先行するトークン列が与えられた時に次のトークンを予測することを学習します。入力トークンは数値に変換され、出力もトークンとなり、その後テキストや理解可能な単語に変換されます。
そのため、5歳の子供でも書ける単純なことができない一方で、重要な財務文書の要約など、より複雑なタスクは上手くこなすことができます。これらはすべてトークンに起因しています。
LLMの改善に関する広範な研究が存在しますが、ほとんどの研究は漸進的な変更に集中しており、トークン化という基本的な基礎アーキテクチャに疑問を投げかけていません。
この論文では、現在のLLMと実質的に異なる新しいアーキテクチャLCMを提案しています。モデリングは離散的なトークン表現ではなく高次元の埋め込み空間で行われ、特定の言語やモダリティではなく、より高い意味的・抽象的なレベルで実装されます。この一般的な表現形式を「concept」と呼んでいます。
この概念的なアイデアの実現可能性を検証するため、テキストドメインにおいて概念が文に対応すると仮定し、埋め込みは無料で利用可能なSONAR文エンコーダーを通じて取得されます。
彼らは同じサイズの他の公開モデル（Gemma、Mistral、Llama）と詳細な比較を提供しています。設計上、LCMはゼロショットタスクで強力なパフォーマンスを示します。
次の文の予測は次のトークンの予測よりも実質的に困難であることも観察されています。これには以下の理由があります：

埋め込み空間とより高い意味レベルで操作するため、可能な文の数は事実上無限大である一方、トークン語彙は通常10万程度の範囲です。
長い文脈があっても、次のトークンよりも次の文を選択する方が曖昧さが避けられません。
固定サイズのトークン語彙上の通常のsoftmax層があります。

最後に、理論的には拡散プロセスが出力埋め込み空間上の確率分布を学習できるはずだと指摘しています。
これは単なる論文であり、今後さらなる研究が行われるでしょう。多くの人々が、Transformerベースのこれらのモデルをさらに広く発展させるには、何らかの変化が必要だと考えていることは明らかです。
これが今年最後の動画でした。良いお年を。ありがとうございます。