
6,950 文字

Googleリサーチが、Titansと呼ばれる彼らの新しいAIアーキテクチャーを発表しました。2017年に彼らがTransformerを導入した時、それは現在私たちが目にしているAIの波の多くを引き起こしました。それは非常にスケーラブルなモデルアーキテクチャーで、私たちができることを根本的に変えました。Titansはその上に構築され、興味深いことに、人間の脳がすべての機能を実行する方法にますます似てきています。
Transformerの背後にある大きなアイデアの1つは、注意(アテンション)という考え方でした。私たち人間と同じように、すべてのことに注意を払うのではなく、特定のこと、特に私たちにとって重要なことがどのように関連しているかに注意を払います。Titansアーキテクチャーは、私たちの脳が情報を処理し、学習する方法により近づくという方向へさらに一歩前進しています。
ここには、短期記憶、長期記憶、もはや必要のない特定の事柄を忘れることなど、より高度な脳の働きに類似した概念がますます含まれています。さらに、私たちの脳の働き方から借用された別の概念もあり、それは「驚き」という言葉によく表れています。
YouTubeの動画を見ていて、出演者が「必ずライクして…」と言い始めると、その後に続く言葉を言う前に、あなたの脳は正確にその言葉を予測できるでしょう。Transformerも同じような方法で機能します。
Titanアーキテクチャーがなぜより優れているのか、あるいはTransformerアーキテクチャーをどのように強化し拡張するのかを理解するために、特にTransformerがどのように機能するかについて、いくつかの重要な概念を理解することが本当に重要です。
YouTubeに素晴らしい動画があり、その中の約30秒のセグメントでTransformerとは何か、それを理解するために必要なすべてを説明しています。その30秒を見れば、Transformerのパワーとその重要な欠点を理解するのに役立ちます。そしてもちろん、そこでTitanアーキテクチャーが登場するわけです。
Transformerを通してデータがどのように流れるかについて、非常に高レベルな概要から始めましょう。チャットボットが特定の単語を生成する際、その裏で何が起きているのかというと、まず入力は多くの小さな部分に分割されます。これらの部分はトークンと呼ばれ、テキストの場合、単語や単語の一部、その他の一般的な文字の組み合わせとなります。
これらの各トークンは、その部分の意味を何らかの形でエンコードすることを意図したベクトル(数値のリスト)と関連付けられます。これらのベクトルを非常に高次元の空間での座標を与えるものと考えると、類似した意味を持つ単語は、その空間で互いに近い位置にあるベクトルになる傾向があります。
このベクトルのシーケンスは、アテンションブロックと呼ばれる操作を通過し、これによってベクトルは互いに情報を伝達し合い、その値を更新することができます。例えば、「機械学習モデル」というフレーズの中の「モデル」という単語の意味は、「ファッションモデル」というフレーズの中での意味とは異なります。
アテンションブロックは、コンテキスト内のどの単語が他の単語の意味を更新するのに関連しているか、そしてそれらの意味がどのように更新されるべきかを判断する役割を果たします。文章の本質的な意味がすべて、シーケンスの最後のベクトルに組み込まれることが期待されます。
その後、最後のベクトルに特定の操作を実行し、次に来る可能性のあるすべてのトークン、つまりすべての可能な小さなテキストの断片に対する確率分布を生成します。テキストの一部が与えられた時に次に来るものを予測するツールがあれば、少しのシードテキストを与えて、次に来るものを予測するこのゲームを繰り返し実行し、分布からサンプリングして追加し、それを何度も繰り返すことができます。
おめでとうございます。これであなたもTransformerの専門家です。
再帰型モデルは、隠れ状態と呼ばれる固定サイズのメモリにデータを圧縮することを目指します。これらは前世代のモデルのようなものです。例えば、本を読んでその本についてプロットを理解するために必要なすべてのことを記憶するようなものを考えてください。また、続編を読む場合には、すでに起こったことについて十分理解するために必要な情報を記憶するようなものです。
つまり、読んで記憶するわけですが、頭の中である程度のあらすじは覚えているかもしれませんが、特定の詳細や関係性、依存関係などは見逃している可能性があります。後で誰かとその本や映画について議論していて、「赤色が出てきたときは、それは彼が幽霊と話していることを意味していたことに気づいた?」と言われて、「え、待って、何?そうだったの?」となり、映画を見直して「ああ、そうか、本当にそうだった」となることがあります。
最初は見逃していたものに注意を払うために、コンテキストウィンドウを更新して戻る必要があります。これが再帰型モデルの固定サイズメモリと隠れ状態です。
一方、Transformerではアテンションがあります。アテンションによって、すべてのトークンの直接的な依存関係を捉えながら、コンテキストウィンドウ全体を見て、理解し、記憶することができます。これは基本的に一貫性があることを意味します。モデルがSFのショートストーリーを書き始めても、話していた内容を忘れてハリー・ポッターに変わってしまうことはありません。すべてのトークン、すべての単語、すべてのコンテキスト、それらの依存関係を維持します。
しかし、この依存関係のより正確なモデリングには二次的なコストがかかり、モデルは固定長のコンテキストに制限されます。テキストの量を2倍にすると、コストは4倍に増加します。指数関数的な成長ではありませんが、テキストが長くなるほどコストが確実に増加していきます。
200万トークンのコンテキストウィンドウを持つモデルを見てきました。一度に200万トークンをメモリに保持できるわけです。コンテキストウィンドウは、長期記憶と比べると短期記憶のようなものと考えることができます。長期記憶の方が少し圧縮され、時間とともにゆっくりと忘れられていく可能性があります。
モデルが一度に扱えるのは200万トークンのコンテキストウィンドウが上限ですが、この新しい論文では、「履歴コンテキストを記憶し、長い過去の情報を活用しながら現在のコンテキストに注意を向けるのを助ける新しいニューラル長期記憶モジュールを提示する」と述べています。アテンションを短期記憶や作業記憶として考え、このニューラル長期記憶を長期記憶として考えることができます。
このニューラルメモリは、高速な推論を維持しながら、高速な並列トレーニングが可能という利点があることを示しています。つまり、依然として並列でトレーニングでき、質問に素早く答えることができます。
記憶の観点から、アテンションは制限されたコンテキストを持ちながらも正確な依存関係のモデリングを行うため、短期記憶として機能し、一方でニューラルメモリはデータを記憶する能力により、より永続的な長期記憶として機能します。これらの2つのモジュールに基づいて、Titansと呼ばれる新しいアーキテクチャファミリーを紹介します。
彼らは言語、常識的推論、ゲノミクスでこれらのモデルをテストしています。トークンは何でも可能であることを覚えておいてください。トークンは単語だけでなく、数字、ビデオ、画像、テキスト、音声、音楽にもなり得ます。また、天気や物理学、様々な量子的なもの、AlphaCubitの場合のようにタンパク質の折りたたみ方やその機能なども含まれます。
これらの結果に基づいて、TitansはTransformerやその他の最近のモデルよりも効果的であることが分かりました。興味深いのは、ベースラインと比較して、針の穴を探すタスクでより高い精度を持ちながら、200万以上のコンテキストウィンドウサイズに効果的にスケールできることです。
針の穴を探すタスクとは、大量のテキストの中から1つの特定の情報を見つけ出そうとするものです。つい最近まで、これらのモデルはすべてこのタスクが非常に苦手でした。Google Geminiが、いくつかの改良を加えて上手く処理する方法を見つけ出し、大量のテキストの中から小さな情報を見つけ出すことが優れていました。
興味深いことに、Transformerは私たちを長い道のりを導いてきて、様々な改良を重ねてきましたが、現在ある種の限界に直面しているようです。この新しいアーキテクチャは、これらのモデルをどれだけスケールアップし改良できるかという次のフロンティアを解き放つようなものです。
次に、彼らはメモリについて少し話します。記憶は基本的な精神プロセスであり、人間の学習の切り離せない要素です。適切に機能する記憶システムがなければ、人間や動物は基本的な反射や定型的な行動に制限されてしまいます。情報を保持して後で思い出すことができなければ、何かを学ぶことは確かに難しいでしょう。
まず、彼らはニューラルメモリについて説明します。深層ニューラル長期記憶を提示します。深層とは複数の層があることを意味し、これらのモデルはテスト時にそのパラメータにデータを記憶または保存する方法を学習します。つまり、トレーニング後ということです。
情報を受け取り、処理する際に、例えばPDFをアップロードして質問すると、特定の記憶を保存しますが、それは小さなメモ用紙のようなところではなく、実際のニューロンや脳、パラメータの中に保存されます。これは人間の長期記憶システムに着想を得ています。
もちろん、無限の無制限のメモリを持つことはできません。依然として有限であり、すべてを永遠に記憶することはできません。人間の記憶と同じように、私たちは物事を忘れ、特定のものは削除されたり忘れられたりしますが、これらのモデルが何を記憶し、何を忘れるかは、かなり驚くべきものです。
このメモリモジュールは、モデルの期待に反するイベント、つまり驚くべきイベントがより記憶に残るように設計されています。申し訳ありませんが、少し手を出し過ぎたかもしれませんが、彼らがメモリとその利用可能な空間をどのように管理するかは驚くべきものです。なぜなら、文字通り「驚き」を使用しているからです。モデルが驚く情報は、脳に保存される際に優先的な扱いを受けます。
これは人間にとっても同じようなものだと感じます。予期せぬこと、驚くべきことは、より良く記憶される傾向があります。彼らは続けて、「限られたメモリを扱うために、メモリサイズの割合とデータの驚きの量を考慮した減衰メカニズムを提示し、より良いメモリ管理を実現する」と述べています。驚くべきものは保存され優先的な扱いを受ける一方で、古くて退屈なものはゆっくりと減衰し、私たちはそれについて忘れていきます。
長期記憶について話すとき、基本的な考え方はこうです。これらのモデルをトレーニングする際、一般化できるようにしたいと考えています。例えば、犬を飼っていて、障害物コースを走らせる訓練をしているとします。犬の障害物コース世界選手権に出場させるためです。そのような大会があるかどうかは分かりませんが、あると仮定しましょう。
自宅で5つの異なるバージョンの障害物コースを作り、その障害物コースで犬を訓練します。それらの障害物コース、それがトレーニングデータです。これらのモデルがトレーニングされるものです。
実際の大会に行くと、自宅で作ったその特定のコースがあるわけではありません。おそらくその特定のイベント用にカスタムで作られた別のコースがあるでしょう。全く新しいものです。犬にその特定のコースの走り方を教えることはできません。
トレーニングデータを使用して、他のどんなコースでも上手く走れるように一般化される何かを学んでほしいと期待します。いつジャンプし、いつ這い、いつ何をすべきか、物事が一般的にどのように機能するかを学び始めます。
犬にとって重要なのは、それらの特定のコースを記憶し、それらのコースだけを走れるようになることではありません。それは過学習(オーバーフィッティング)と呼ばれます。一般化できるようになってほしいのです。コースを走れば走るほど、以前見たことのない未知のコースをより上手く走れるようになります。
これらのモデルについて、記憶という問題を考えるとき、それが課題となります。彼らは「記憶は常にニューラルネットワークにおいて望ましくない現象として知られてきた。なぜならモデルの一般化を制限するからだ」と述べています。単に暗記して暗唱してほしいわけではなく、いわば物事の本質を理解してほしいのです。
一般化を制限し、プライバシーの懸念を引き起こし、テスト時の性能も低下させます。彼らは、テスト時にデータを記憶し忘れる方法を学習するオンラインメタモデルが必要だと述べています。このセットアップでは、モデルは記憶が可能な関数を学習していますが、トレーニングデータに過学習せず、テスト時により良い一般化をもたらします。
次に、彼らは学習プロセスと驚きのメトリクスについて話します。長期記憶をトレーニングする鍵となるアイデアは、そのトレーニングをオンライン学習問題として扱うことです。そして、期待に反するイベント、つまり驚くべきイベントは、人間にとってより記憶に残りやすいと述べています。
数学的な部分や実際にどのように行うかのステップバイステップは説明しませんが、重要なのは、非常にしばしば人間の記憶の観点からアプローチし、このことの多くが人間の脳の働き方を反映しているように見えることです。
例えば、過去の驚きと瞬間的な驚きがあります。基本的に、何かが瞬間的にあなたを驚かせても、そのイベントが長く続く場合、あなたはまだそのイベントに注意を払い続けるでしょう。もし犬が突然英語で話し始めたら、驚くでしょう。5時間後でも、その驚きは薄れているかもしれませんが、まだ注意を払い続けています。それはまだ起こっている新しいことで、最初の驚きは消えても、まだ注意を払っているのです。
ファミリーガイという番組がありました。そこには話す犬がいて、全シーズン、全エピソードを通して犬は話していました。そして番組の深い部分で、この犬が何シーズンも何エピソードも話してきた後、非常に普通の日常的な会話の最中に、犬の飼い主が完全にショックを受けて「なんてこった、お前話せるのか!」と叫ぶんです。なぜか分かりませんが、それは私にとって非常に記憶に残るジョークでした。
次に、その記憶をLLMにどのように組み込むか、つまり最良の結果を得るためにどのように使用するかについて触れています。それぞれに独自の利点と欠点、トレードオフがある3つのアプローチがあります。メモリーアズコンテキストマック(MAC)、メモリーアズゲートマック(MAG)、メモリーアズレイヤーマル(MAL)です。
言語モデリングにおいて、Titanの3つのバリエーションは、針の穴を探すテストで他のモデルを上回ります。つまり、大量のテキストから特定の情報を見つけ出すことです。Titanは非常に高い精度で始まり、他のすべてのモデルが低下する中、非常に正確なままです。
確実に特定の点を超えると、最も正確なモデルの1つであり続けます。シーケンス長を超えても急激な低下はありません。また、時系列予測タスクでのモデルの性能も評価しています。彼らは「私たちのニューラルメモリモジュールは、MAMAベース、線形ベース、Transformerベースのアーキテクチャーを含むすべてのベースラインを上回っている」と述べています。
Titansの能力を自然言語を超えて理解するために、DNAモデリングタスクでのパフォーマンスを評価しています。そして、これらの大規模言語モデルは、最先端のアーキテクチャーと競争力があることが分かりました。
私たちは多くのTransformer 2.0や、「Transformerは死んだ、ここに私たちが実装する新しいアーキテクチャーがある」という類の話を見てきました。確かにこれは次のステップフォワードのように見えます。Transformerアーキテクチャーに対して確実な改良があるようです。
実世界でどれだけ上手く機能するか見ていきましょう。しかし、あなたはどう思いますか?これは次の大きなものになるのでしょうか?これはAIモデルを改良する別のレースを引き起こすのでしょうか?それともアテンションだけで本当に十分なのでしょうか?コメントで教えてください。
私の名前はWesRothです。視聴ありがとうございました。また次回お会いしましょう。
コメント