トランスフォーマーは普遍的な学習マシンである

4,127 文字

Transformers are Universal Learning Machines

何もトランスフォーマーベースのモデルが普遍的な学習マシンだとしたらどうでしょう？今日、StripeのGautam Kadiaからの小さなツイートで、興味深い兆候を目にしました。これについて詳しく見ていきたいと思います。なぜなら、業界に根本的に破壊的な影響をもたらす可能性があると考えるからです。私たちは通常、トランスフォーマーを言語ベースのものとして考えています。
トランスフォーマーは私の本をすべて読み込み、それは大規模言語モデルのトランスフォーマーであり、英語やクロアチア語で返答してきます。実際、これは少し冗談ですが、クロアチア人が彼らの回答の多くに「拒否」ボタンを押したため、場合によってはクロアチア語を話さないことがあります。少し話題がそれましたが、実際に十分な数のユーザーが否定的なフィードバックボタンを押すと、モデルの学習された行動を大幅に変えることが可能なのです。
この場合、実際の話として調べることができますが、クロアチア人が回答をあまり気に入らなかったため、あるモデルがクロアチア語を話すのをやめたという話があります。しかし、それは今日の笑い話として置いておきましょう。Stripeの話に戻りましょう。要するに、Stripeは不正検出のためのトランスフォーマーベースの学習モデルを構築し、それが非常に非常にうまく機能したということです。
文脈として、決済業界で働いている方なら、機械学習は目新しいものではありません。また、不正検出のために訓練された機械学習モデルも新しいものではありません。私自身も以前は決済業界で働いていました。私たちは決済方法、郵便番号、その他多くの決済の特徴を使用して、不正検出の能力を向上させていました。
基本的にはこれらは特徴を一つ一つ追加していく効果によって、正当な購入者がスムーズに通過できる可能性を最大化し、明らかに不正取引を最小化することを目指しています。しかし結局のところ、すべては特徴によって駆動され、実装には従来の機械学習における非常に特定のトレーニングが必要です。
そして各モデルは認証と不正と紛争を別々に考える必要があります。そこでStripeが自問したのは、トランスフォーマーアーキテクチャの実際の仕組みを見て、それらが非常に一般化されているということでした。データの非常に広い範囲を見るわけです。LLMのアプローチは機能するだろうか？正直なところ、私は懐疑的でした。
これを見たとき、「まさか、これが実際に機能するわけがない」と思いました。決済が言語のようなものだとは思わなかったからです。言語には文法があります。言語には順序があり、ルールがあります。しかしStripeが発見しつつあるのは、決済にもそれがあるということです。決済には文法との構造的な類似点があるのです。
同じではない点もあります。たとえば、トークンの数ははるかに少ないです。決済を整理する原則は、言語文法ほど豊かではありません。機能するのでしょうか？どうやら、そうです。Stripeが行ったのは、自己教師あり型のネットワークを構築したことです。
すべての取引にベクトルを埋め込みます。Stripeの規模でトレーニングされているので、何百億もの取引の規模でトレーニングされています。特定の取引のすべての重要なシグナルを取り、それを単一の埋め込みに抽出します。つまり、高次元ベクトル空間で何百億もの支払いの巨大な分布があることを意味します。これは大規模言語モデルを知っている人にとっては非常に馴染みのある概念です。
大規模言語モデルを知らない方は、Substackで読んでみてください。しかし、埋め込みの位置は、単語の埋め込みの位置がLLMで豊富なデータを捉えるのと同じように、豊富なデータを捉えることになります。そしてこれが私の頭を回転させたのです。なぜなら、それは私が認識していなかった方法で、一般化された学習ツールであることを意味するからです。
基本的に、Stripeは支払いが互いに予期せぬ方法で関連しており、トランスフォーマーはそれを古典的な機械学習技術よりも、そして人間よりも上手く表現し理解できることを発見しました。そして類似点を共有する支払いは、高次元ベクトル空間で互いに隣接する傾向があります。
そして、さらに類似点があるもの、例えば同じ銀行からのもの、同じメールアドレスからのもの、同じクレジットカード番号からのものなどは、さらに近くに位置します。それについて興味深いのは、高次元空間における支払い構造間の関係を潜在的な不正ベクトルとして考えることができるようになることです。
そのため、敵対的なパターンや不正手法をより正確に特定することができます。以前は、決済業界で働いている方ならご存知のように、不正行為者と正当な決済提供者の間で毎日静かな軍拡競争が行われており、決済提供者は最前線の防御であり、不正行為者はシステムを通じて不正な支払いを実行しようとしています。そして毎日、不正行為者は目を覚まし、それはまるでワイリー・コヨーテとロードランナーのように、皆がもう少し速くなろうとしています。これはこの軍拡競争における重要な
発展です。なぜなら、個々の成功目標や個々の取引パターンに対して最適化する従来の機械学習技術では現れないような関係パターンや攻撃ベクトルを見始めることができるからです。例えば、ログイン時の不正パターンに最適化している場合、チェックアウト時の不正パターンや特定の支払い方法の提示に関する不正パターンを同時に最適化することはできません。
機械学習はいわばメスのようなものであり、LLM（これも機械学習ですが、異なる種類の学習アーキテクチャ）ははるかに一般化されており、これらのパターン間の関係を捉えることができます。例えば、特定のログインパターンを持つ人が特定の郵便番号に関連し、それが特定の支払い方法に関連する場合はどうでしょうか。
従来の機械学習技術はそのようなことを上手く捉えることができず、規模が大きい場合は、手作業で個別に抽出することもできません。Stripeが実際に挙げたもう一つの例は、カードテストです。従来の機械学習アプローチでは、新しい特徴を設計し、攻撃パターンにラベルを付け、モデルを再トレーニングすることで、カードテストをかなり減らすことができます。
彼らはStripeでカードテストを80％削減したと言っています。しかし、最も洗練されたカードテスターは、依然として大企業の支払いボリュームに攻撃パターンを隠しており、それを見つけるのは非常に非常に困難です。しかし、基盤モデルからの埋め込みを取り込む分類器を使えば、特定のトラフィックスライスが攻撃を受ける予測ができます。
大企業からの特定のトラフィックスライスです。つまり、文章のように取引シーケンスのパターンを検出するためにトランスフォーマーを活用できるということであり、これはStripeによると、リアルタイムで行うことができるので、攻撃が企業に到達する前にブロックできます。彼らが言っているのは、この特定のモデルが大規模ユーザーに対するカードテスト攻撃の検出率を一晩で59％から97％に向上させたということです。
Stripeの最大の顧客に即座に影響を与えました。そして続けて、これの本当の力は同じ埋め込みを他の場所にも適用できることだと言っています。これは基盤モデルです。紛争に適用し、認証に適用していきます。そして彼らは私にとって明らかなことを指摘しています。それは、支払いには文章内の単語のような意味的意味があるということです。支払いをすると、手動で特徴をリストアップすることでは捉えられない連続的な依存関係と潜在的な特徴の相互作用があり、まさにこれがトランスフォーマーが取り組むことです。
トランスフォーマーは隠れた文法、英語や他の言語を説明する方法を知らないものを捉えるのが非常に得意です。トランスフォーマーはそれを理解するのが非常に良いです。そしてそれについて考えるとき、ここで締めくくりたいのですが、基本的にStripeが行ったのは、機械学習を使用し、AIを使用し、多くのエンジニアがいて、非常に賢く、特定の問題に非常に焦点を当てている業界を混乱させる方法を示したことです。そして、トランスフォーマーが普遍的な学習モデルであることを彼らが理解したため、トランスフォーマーに基づいた新しい基盤モデルを構築することで、一晩で完全にひっくり返したのです。
そこで質問したいのは、もしトランスフォーマーが有用に学習できる場所として考えた場合、他にどのような分野が破壊の危機にさらされるでしょうか？医療費請求サイクルには意味的な意味がありますか？きっとあるでしょう。
病院の治療パターンには意味的な意味がありますか？今日は医療分野に焦点を当てていますが、それは一例に過ぎません。明らかに、StripeがFintech分野でこれを行うことができるなら、Robin Hoodと株式分野でも比較的簡単に見ることができます。教育についてはどうでしょうか？生徒の特定の学校の軌跡を通じた成績パターンには意味的な意味がありますか？あるいは、マーケティングについてはどうでしょうか？あなたのリード、トラック、または顧客が購買ファネルを通じて特定のパターンを持っていますか？購買ファネルには意味的な意味がありますか？
私がどこに向かっているか分かりますか？基本的に、あなたの世界で意味的な意味を持ち、従来の方法で最もよくマッピングできると考えていたものは何かと自問してみてください。おそらく、そうではありません。おそらくトランスフォーマーモデルが必要で、私たちはまだそれを構築していないだけなのです。
これは、これらの分野のための新しい基盤モデルを簡単に構築する方法があれば、間もなく大きなブレークスルーが訪れることを示唆しています。だから、考えてみてください。あなたの分野で、私たちがまだ考えていないトランスフォーマーによって学習可能なものは何でしょうか？