ChatGPTはステロイド入りのN-gramモデルなのか?

DeepMind machine learning scientist / MIT scholar Dr. Timothy Nguyen discusses his recent paper on understanding transfo...

とにかく、400個のものが入ったハッシュテーブルがあって、Transformerの予測に近いものがそのハッシュテーブルの中にあるかどうかを尋ねるわけです。私は事前にどれがそうなのかを教えることはできません。ただ、何かマッチするものがあるかどうかを言うだけです。そして、得られた結果は、ある意味で78%の確率で良いマッチが得られるというものでした。
私はGoogle DeepMindの機械学習研究者です。以前は、ティムのように数学者でした。また、The Cartesian Cafeというポッドキャストもやっています。
皆さん、こんにちは。ティム・ウィンです。The Cartesian Cafeへようこそ。このポッドキャストでは、専門家のゲストと私が科学的なテーマについて詳しく議論します。私は数学者で、いくつかの分野に携わっています。MITで博士号を取得し、数理物理学やゲージ理論の研究者としてアカデミアでキャリアを積んだ後、産業界に移りました。
ある人に、パールマン-グリフィス-リヴァ予想をどのように証明したのかと尋ねられたことがあります。私は「それは単なる同相写像です。各点がどこに行くかを言えばいいだけで、それをやりました」と答えました。
みなさん、The Cartesian Cafeを購読してください。グラント・サンダーソンも出演しています。彼は数学系YouTuberの中で最大の人気を誇っています。
私は確かに、幼い頃から数学が好きだと自認していた子供の一人でした。それは多分、父が私とよくやっていたゲームが関係していると思います。多くの父親がそうであるように、父も子供たちに科学や数学、世界について興味を持ってほしいと思っていました。私はパターンが大好きでした。
これまでに2人のフィールズ賞受賞者、リチャード・バーディスとマイケル・フリードマンをゲストに迎えました。そう、私は本当に運が良くて、素晴らしいゲストを迎えることができました。
数学での成功を特定の資質に帰するとしたら、何か挙げられますか?
運と頑固さですね。ある程度の運は必要です。数学には何百もの難しい未解決問題がありますが、私はたまたま何か面白いことが発見できそうな問題に取り組んでいただけです。
Brave検索APIは、200億以上のウェブページの独立したインデックスへの手頃な価格の開発者アクセスを提供します。何が他と違うのでしょうか? それは、大手テクノロジー企業のバイアスなしにゼロから構築され、実際の匿名化された人間のページ訪問によってデータをフィルタリングし、毎日数千万の新しいページで更新されているということです。AIモデルのトレーニングや検索拡張生成に最適です。Brave検索APIは、開発者にとって手頃な価格で、ビジネスに合わせて拡張可能な倫理的なデータソーシングを提供します。言語モデルや情報検索システムに取り組んでいる場合、Braveは代表的なデータセットと最新の情報を手頃な価格で提供します。brave.com/APIで毎月2000クエリ無料で始められます。
さて、ティモシー・ウィンとの議論に戻りましょう。ティモシーは「N-gram統計によるTransformerの理解」という論文を書きました。その要点を教えていただけますか?
はい、高いレベルでは、他の多くの人と同様に、私が理解しようとしている質問は、Transformerが次のトークン予測をする際にどのようにコンテキストを使用しているかということです。分析は少し抽象的になる可能性があるので、私の論文で使用した非常に具体的なおもちゃの例から始めましょう。
私はTiny Storiesというデータセットを使用しました。これは合成的に生成された子供向けの物語のデータセットですが、純粋に合成的なデータセットとは異なり、自然言語をキャプチャするのに十分現実的です。推論時に、私はTransformerに「むかしむかし、あるところに」と入力し、次のトークンの分布を確率分布として理解する必要があります。
単純化のために、トレーニングデータでは「むかしむかし、あるところに」の後には必ず「くま」というトークンが来るとします。しかし、トレーニングデータでは「あるところに」の後には3つの可能性のある動物、「ライオン」「トラ」「くま」が等確率で現れるとします。
例えば、「くま」が100回、「ライオン」が100回、「トラ」が100回出現するとしましょう。この場合、2つの妥当な補完があります。「むかしむかし、あるところにくま」または「あるところに」の後に「ライオン」「トラ」「くま」の3つの可能性がある場合です。
softmaxはロジットを確率に変換する方法です。「ライオン」「トラ」「くま」が非常に高いロジットを持ち、他のすべてが非常に低いロジットを持つ場合、softmaxを適用すると、他のすべてのカテゴリはほぼゼロの確率になり、「ライオン」「トラ」「くま」はすべて等しく高い確率を持つことになります。
トレーニングデータは次のトークンを補完するさまざまな選択肢を提供します。この場合、「むかしむかし、あるところに」があり、トレーニングデータでは「くま」が常に現れます。しかし、「あるところに」の後には3つの他の動物があり、推論時にTransformerがフルコンテキストに基づく補完を学習したのか、より短いコンテキストに基づく補完を学習したのか、またはその間の何かを学習したのかが不明確です。
これは、Transformerがどのように予測を行うのか、トレーニングデータのどの統計を使用しているのかを理解することの難しさを示す動機付けの例です。私はこれを2つの異なる問題として考えています。
形状と選択と呼んでいるものがあります。形状は、先ほど説明したような、これらの確率分布の形です。「くま」に対する1ホット分布か、「ライオン」「トラ」「くま」に対する一様分布かという2つの候補提案を述べました。これがさまざまな可能性のある補完の形状です。
そして選択の問題があります。「くま」を与える文脈を選択するのか、それとも「あるところに」というより短い文脈を選択して3つの動物を与えるのかです。
大規模言語モデルが一般的にどのように学習するかの漫画的な絵は、多くのトレーニングデータを与え、推論時に補完したいコンテキストを与え、この漫画的な絵では、関連するコンテキスト、関連する統計を選択し、次に統計の形状を選択する必要があるというものです。
トレーニングデータの統計を見たとき、そのコンテキストに関連付けられた1ホット分布を得るのか、それとも一様分布を得るのか。この「ライオン」「トラ」「くま」の例のようにです。
私の論文の最初の結果は、実際に形状の部分だけに焦点を当てると、選択を忘れて、Transformerが予測をするたびに、コンテキストをスキャンし、特定のセットからすべての可能なN-gramを見て、すべての可能な候補の補完を見ると、常にある意味でTransformerが行っていることをよく近似するN-gram統計があるということです。
これは、ある意味で確率的オウムだと量的に示す方法です。それは非常に挑発的な用語ですが、それについて考える一つの方法です。
それは挑発的な用語ではありません。MLSTでは非常に歓迎される用語です。
いくつかのことを定義すべきだと思います。N-gramという用語はある種のテンプレートマッチングシステムですね。昔のNLPシステムの多くがそれを使用していました。後で詳しく説明できますが、私の理解では、あなたはこのTiny Storiesデータセットを取り、基本的に多くのテンプレートをマッチングしました。1-gram、2-gram、3-gramなどです。そして、このTiny Storiesデータセットから導出されたさまざまなサイズのテンプレートの大きな集合を構築し、それを基本的にハッシュテーブルに入れました。そして、そのようにしてそれらのテンプレートを選択しているのですね。
その通りです。このように考えることができます。Transformerは非常に複雑な機械で、予測をするたびにハッシュテーブルを調べます。そして、「このコンテキスト、このN-gramルールに基づいた予測があります。最も最近のトークンだけを使うか、2つか3つを使うか、『あるところに』という3つのトークンのコンテキストを使うか、『むかしむかし、あるところに』という7つのトークンのコンテキストを使うかもしれません」と言います。
そして、トークンを削除したり統計を平均化したりする他のルールもあります。考慮するすべての可能なコンテキストを考えると、約400のルールを考慮します。より小さなルールセットを考慮することもできますが、最大で400です。正確を期すために、7つのトークンのコンテキストをすべて取る場合です。
とにかく、400個のものが入ったハッシュテーブルがあって、Transformerの予測に近いものがそのハッシュテーブルの中にあるかどうかを尋ねるわけです。私は事前にどれがそうなのかを教えることはできません。ただ、何かマッチするものがあるかどうかを言うだけです。そして、得られた結果は、ある意味で78%の確率で良いマッチが得られるというものでした。
これらのテンプレートのうちの1つがTransformerの予測に近いとはどういう意味ですか?
Transformerは、1に合計される確率分布であるsoftmaxを与えます。テンプレートは「ライオン」「トラ」「くま」に対して一様な確率ベクトル、つまり1/3、1/3、1/3、他はゼロを与えます。そして、そのベクトルがTransformerが生成するベクトルに近いかどうかを尋ねます。
Transformerが「ライオン」「トラ」「くま」「ヘビ」に対して1/4、1/4、1/4、1/4のベクトルを生成する場合、そのベクトルは1/3、1/3、1/3のベクトルの方が、「くま」に対する1、1、0のベクトルよりもある種のノルムで近いです。
実際には逆インデックスのようなものを説明していますね。Tiny Storiesデータセットでテンプレートマッチングを行う際に、曖昧な一致を見つけた場合、つまりそのテンプレートが既に使用されていて、既に1つ入っている場合、新しい重複したテンプレートを作成するのではなく、他のトークンに対して単に別の1を入れているだけですね。
400の確率ベクトルがあります。各確率ベクトルはそのテンプレートが予測する予測だからです。「あるところに」は3つのトークンに対する一様ベクトル、「むかしむかし、あるところに」は「くま」に対する1ホットです。そして、他のテンプレートを使用する他のベクトルがあります。
Transformerの確率ベクトルを取り、これらのものをスキャンします。実際には最適化手順を行っています。最近傍検索を行っています。Transformerのベクトルが1つあり、これらの400のテンプレートベクトルがあり、最近傍検索を行っているだけです。そして「ああ、これが最適なテンプレートです」と言います。
正確な説明は、78%の確率で、この最適なテンプレートルールがTransformerと同じトップ1の予測を持つというものです。
この結果を解釈するのは少し難しいです。なぜなら、それは非常に特異的だからです。私はこの最適化手順を作り出しました。これには直接の先例がないかもしれません。
その78%という数字を理解するために、トレーニングしたTransformerは1億5000万パラメータのモデルでした。これは小さな言語モデルですが、Tiny Storiesをトレーニングするには十分です。実際、1000万から2000万パラメータのモデルで非常に良いパフォーマンスを得ることができます。これは、Tiny Storiesのデータセットを導入した論文の要点でもあります。データセットが十分に小さい場合、ホールドアウトセットでの損失の量で測定すると、小さくても効果的な大規模言語モデルをトレーニングできるということです。
この場合、1億5000万パラメータのモデルでは、ホールドアウトセットで1.1ナッツの非常に小さな損失を得ることができます。しかし、とにかく1億5000万パラメータのモデルがあります。そのモデルをトレーニングすると、ホールドアウトセットで69%のトップ1精度を得ます。
この78%が69%よりも大きいということは、かなり良いトップ1精度であることを示しています。なぜなら、それはモデルの真の精度よりも高いからです。この数字を理解するためにです。
これを理解するのを助けてください。78%という数字は、Transformerが行っていることがテンプレートマッチングに近いことを示唆していますが、Transformerはまだわずかに優れているように見えます。「優れている」とはどういう意味でしょうか? Transformerはテンプレートマッチング以上に何をしているのでしょうか?
私は「優れている」という言葉が適切だとは思いません。なぜなら、私は単に2つのものを比較しているだけで、最適化しようとしている基準があるわけではありません。基本的に、形状と選択に戻ると、Transformerは次のトークンを生成するためのルールを選択する複雑な方法です。
なるほど、わかりました。すみません。つまり、78%の時間で一致するテンプレートを見つけることができたということですね。
その通りです。
しかし、それでもその数字がかなり高いことを考えると、Transformerの振る舞いのほとんどがテンプレートマッチングだけで説明できると解釈するのは公平ではないでしょうか?
ちょっと待ってください。あなたが使った言葉の1つを修正させてください。それは「説明する」という言葉です。
はい、私はこれを序論で説明しました。非常に混乱を招くからです。多くの反発を受けました。しかし、私は私の手順をTransformerの予測を説明するのではなく、記述すると表現しています。
違いは何でしょうか? 記述は「何」を、説明は「どのように」と「なぜ」を答えます。「天気はどうですか?」「雨が降っています」というのは記述です。しかし、「なぜ雨が降っているのですか?」というのは、降水や究極的には物理学の観点から説明することになります。メカニズムを提供しているのです。
Transformerの議論に戻ると、私はN-gramモデルの観点から物事を説明していません。なぜなら、まず第一に、私の分析はすべてブラックボックスだからです。内部を見ていません。説明とは、コンテキストを与えられたときに、何らかのN-gramテンプレートマッチングを実装する回路を見てください、というようなものです。それが説明になります。私はそれをしていません。
私は単に出力を見て、「ああ、その出力はトレーニングデータの統計に帰属できますか?」と言っているだけです。要点は、「ああ、私はすでにこれらの統計をすべて表にしていて、単にマッチするものを識別しているだけです」ということです。遡及的にです。
つまり、あなたが行ったのは、Transformerの統計的な構文テンプレートマッチングの記述ですね。では、説明とは何でしょうか? これは哲学に戻ると思います。構文と意味論について話すとき…
意味論は、私にとっては、アブダクションを行うかもしれません。観察者として私に理解可能な説明モデルを構築するかもしれません。私は計算上の制約があります。それは世界が何をしているかを解釈するのに役立つものですが、そのようなものは普遍的ではありえないと思います。
構文的な記述との明確な違いがあります。ここで話しているのは、特徴が何をするのか、それらがどれほど良いのか、どれほど抽象的なのかを記述する方法でもあります。
特徴の頻度が低い場合、例えば50個のトークンの列があるとします。それは非常に低頻度の例です。明らかに一種の記憶です。しかし、Transformerの特徴や表現のいくつかは非常に抽象的で、おそらく分布外にも一般化します。
堅牢な表現と例との違いを記述できるようになると面白いでしょう。
柔軟なテンプレートを使用する必要があります。なぜなら、推論時に、言語モデルの価値の一部は、新しいテンプレートを与えられても次のトークンを予測できることだからです。
有名なN-gramモデルの弱点の1つは、以前に見たことのないコンテキストを与えられた場合、どうするかということです。N-gramモデルは次のトークンを予測するようにトレーニングされています。コンテキストを与えられ、トレーニングデータでそのコンテキストを見つけ、単に頻度に基づいて次のトークンを予測することができます。
しかし、新しいコンテキストがある場合、確実に起こることですが、どうしますか? 人々が研究してきた最も単純なことの1つは、バックオフまたは「スチューピッドバックオフ」と呼ばれるものです。
例えば、10-gramモデルがあるとします。これは非常に大きいですが、10-gramモデルは9つのトークンのコンテキストを使用することを意味します。9つのトークンがトレーニングデータに現れないのは非常に簡単です。その9つのトークンが現れない場合、どうしますか? 8、7、6とバックオフしていき、最終的に十分に小さな断片が現れるまで続け、それに基づいて予測します。
私がこれらすべてのテンプレートを持っている理由は、堅牢な予測を行うためにTransformerがこれらの異なるテンプレート間で何らかの交渉をしなければならないからです。単一の静的なテンプレートだけでは壊れてしまうので、何らかのサブセット選択や平均化さえも行う必要があります。
実際に、さらに高いレベルの視点を取ると、この選択を注意機構が行っていると考えることができます。これは漫画的ですが、ある種の漫画かもしれません。特定のトークンに他よりも多く注意を払っている場合、非常に二値化されたバージョンでは、注意を払われているトークンが、これらのテンプレートのトークンを選択しているようなものかもしれません。
そして、注意が低いものは無視され、私の論文では平均化する別の操作がありますが、それについては詳しく触れる必要はないかもしれません。しかし、統計を生成する一種の方法があり、堅牢な予測の問題に対処するために十分に柔軟なルールシステムが必要です。
ある意味で、十分な構文規則があれば、意味論の形式を持つことができると言っているだけかもしれません。
毎日太陽が昇り沈むことについて考えてみましょう。これは記述です。私たちはそれを見ることができます。しかし、この同じ記述に対して少なくとも2つの非常に異なる説明があります。地球が太陽の周りを回っているから太陽が昇り沈むように見えるという説明と、太陽が地球の周りを回っているという説明です。これらは2つの非常に異なる説明で、同じ記述に至ります。
つまり、現時点でのテンプレートマッチングは記述のレベルにあります。希望的には説明のレベルにありますが、それは詳細に掘り下げる必要があります。
説明は見る人の目の中にあります。観察者だけが説明を与えることができます。しかし、エージェンシャルグラフを理解し、データ生成プロセスを理解できれば、データはエージェントによって生成され、それらのエージェントは実際に何らかの意味的なグラフを持っていたかもしれません。
データは意味の文脈で生成されましたが、その後、それは一緒に押しつぶされ、絡み合っています。私たちが行っているような構文処理、Transformerを使用して、元の意味論を解きほぐすことは不可能だと思います。
基本的に中国語の部屋の議論を言っているのですね。
そうです。すべての翻訳を正確に記述できるシステムがありますが、それができるからといって、実際に中国語の理解と見なされる正しい意味レベルの計算を行っているわけではありません。その通りです。
構文は意味論には十分ではありません。そうですね、100%同意します。
十分に哲学的に考えていなかったかもしれません。しかし、統計が理解と両立しない程度は私には明確ではありません。それは二元的ではありません。
私の論文で強調したい他の結果があります。それは非常に具体的で、研究者にとって興味深いと思います。N-gram統計を使用して、ホールドアウトセットを使用せずに大規模言語モデルの過学習を検出する方法を発見したという部分です。これはかなり驚くべきことです。
なぜなら、古典的にトレーニングとテストの評価を行う場合、過学習とは何でしょうか? トレーニングセットの損失を最適化し、テスト損失をプロットすると、学習と一般化から始まり、最終的に記憶化によって一般化を損なうU字型の曲線が現れます。
私が観察したのは、トレーニングデータに対して適切な統計セットを計算することで、このU字型の曲線を検出できるということです。これは驚くべきことです。なぜなら、通常はUを得るためにホールドアウトセットが必要だからです。
では、どのようにしてそれを行うのでしょうか? Transformerがトレーニング損失を最小にするために何をしなければならないかについて少し考えてみましょう。Transformerはコンテキストを与えられて次のトークンを予測しようとしています。50トークンの長いコンテキストがあるとします。
50トークンは、ほとんどのテキストで一意に識別するのに十分です。Wikipediaの最初の50トークンを与えられれば、ほぼ確実にそれは一意の記事です。そして、これらの子供向けの物語では確かにそうです。
これらの50トークンを与えられ、トレーニングデータでは一意のコンテキストであるため、それに続くトークンは1つしかありません。Transformerが損失を最小化するためには、その特定のトークンに対する1ホット分布に予測を駆動する必要があります。
しかし、良い言語モデルが行うべきことを考えると、それは行うべきではありません。より短いコンテキストに基づいて堅牢な予測を行うべきです。これらの50トークンが、例えば完全な文の終わりだとします。トレーニングデータの次の文は「the」という単語で始まるかもしれません。
しかし、一般的には異なる冠詞「a」を使用したり、その文にある名前を予測したりすることもあるでしょう。しかし、損失をゼロに駆動しようとすると、それはできません。なぜなら、トレーニングデータに実際に出現するトークンに対して1ホット分布を生成する必要があるからです。これが記憶化です。
この直感に基づいて何が起こっているかというと、Transformerはコンテキストを堅牢に使用する能力を失っています。なぜなら、これらの50トークンを特定の方法で使用しなければならないからです。
私が発見したのは次のことです。トレーニング中にTransformerを短いコンテキストで評価すると、つまり最後のトークンだけ、最後の2つ、最後の3つ、最大7つまでのすべてのシーケンスについて、1から7トークンのコンテキストに限定されたすべてのトレーニング損失曲線もUを示します。
これが言っているのは、短いN-gramフラグメントのパフォーマンスの劣化を見ることで過学習を検出できるということです。そして、ホールドアウトセットは必要ありません。なぜなら、これらのU曲線は互いに正確に追跡するからです。
これはかなり新しい発見だと思いました。また、なぜそれが起こっているかについての良い理解も得られました。
はい、これはニューラルネットワークの単純性バイアスに関連していると思います。トレーニングが進むにつれて、ネットワークはますます複雑な統計を学習します。この場合、10億パラメータのモデルを使用しましたが、10エポックで低フロップス数であっても、同じ効果があると思います。トレーニングプロセスの非常に早い段階で、カーディナリティの低いテンプレートを忘れ始め、カーディナリティの高いテンプレートを記憶し始めるでしょう。
その通りです。まさにそれが起こっています。
そして、それは本当に興味深いですね。テンプレートマッチングの曲線を見ると、モデルの過学習との間に直接的な対応関係があることを示していますね。
その通りです。そうです。
テンプレートマッチングプロセスに対する何らかの統計が、言語モデルの振る舞いのいくつかを説明できるかもしれませんね。私は限定的な設定で行いましたが、説明がかなり明確なので、他の多くの設定でも成り立つと思います。
LLM（大規模言語モデル）では過学習するのが難しいことを言っておくべきですね。通常、少なくとも最先端のモデルでは、非常に大量のデータがある状況にあります。通常、データに見合ったモデルサイズを選びます。Tiny Storiesに10億パラメータは、通常考えるデータセットよりも何桁も過剰なパラメータ数です。
だから、この種の人工的な設定にいなければならず、この過学習があります。しかし、その注意点付きで、これを見つけることができて嬉しいです。
実際、私の論文には4つの結果のポイントがあります。もう1つは、異なる種類のスキルを学習し、より単純なものからより複雑なものへ進むことについてです。多分「スキル」という言葉は正しくないかもしれません。むしろ「ルール」ですね。
これらのテンプレートマッチングの学習をルールの学習と考えています。私の論文のもう1つの結果は、カリキュラム学習として表現しています。データを並べ替えて簡単なものから難しいものへ学習するという意味でのカリキュラム学習ではなく、トレーニングの過程で獲得する知識の種類という意味でのカリキュラム学習です。
トレーニングの初期段階では、サイズ2から7のすべてのテンプレートに対してテンプレートマッチングが行われ、類似性が低下していきます。そしてトレーニングのある時点で、より単純なテンプレートを捨て去り、より複雑なテンプレートへの類似性は低下し続けます。
これは何を意味しているのでしょうか? 初期の段階では、言語に関するどんなルールでも、単にランダムな予測よりは良いので、バイグラムやトライグラムなどの単純なルールが役立ちます。しかし、ある時点で、1つや2つのトークンのコンテキストだけを使用するのは悪いルールになります。もはや十分に良くないのです。
交差エントロピー損失を最小化するためには、これらの単純なルールから離れ始める必要があります。そのため、Transformerの予測とこれらのより単純なルールとの類似性を見ると、U字型の曲線が見られますが、より複雑なルールに対しては類似性が低下し続けます。
基本的に、結果はルールを学習し、最終的にはトレーニングの過程でより単純なルールからより複雑なルールへ移行していくということです。これが私の論文のもう1つの結果です。
それは、ニューラルネットワークがどのように機能するかについての私の心的モデルに合致します。しかし、現在はテンプレートのサイズを7まで、つまりN-gramのサイズを7までしか示していませんが、コンテキストの最大サイズ、つまり2048まで行くとどうなるか見てみるのは面白いと思います。
はい、コンテキストの最大サイズは2048です。もちろん、これらのN-gramをすべて計算するのは非常にコストがかかるので、7で止めました。
理解しました。ニューラルネットワークが複雑化していくにつれて、ある種のメキシカンウェーブのようなものが見られたら素晴らしいですね。つまり、曲線が単調に減少していくのが見られたら興味深いです。
実際、今考えてみると、過学習すると、それらの曲線も上がっていかなければなりません。なぜなら、コンテキスト全体を使用するものは最終的に下がっていきますが、7つか8つのルールを使用するものは上がっていくからです。
しかし、十分にトレーニングされたTransformerでは、7つのルールのコンテキストを使用するものは減少し続けます。なぜなら、それらはまだ良いルールだからです。過学習した時にのみ、これらの中程度のサイズのテンプレートから離れ始めます。
この予測タスクを考えると、単純なテンプレートを忘れてしまうのは興味深いですね。距離測度に関係があるのかもしれません。今が距離測度について説明するのに良いタイミングかもしれません。変分距離を使用していますね。
その通りです。最初に最良のルールを選ぶ方法について議論したときに触れなかったことの1つは、問題のベクトル間の距離を最小化する必要があるということです。私は変分距離と呼ばれるものを使用しています。これは単にL1距離の1/2倍です。L1距離は差の絶対値の和です。
これは確率測度、またはこの場合はベクトルに対する標準的な距離です。この場合、KLダイバージェンスよりも優れています。なぜなら、KLダイバージェンスは無限大になる可能性があり、一方の測度が他方のサポートを持たない場合に問題が発生するからです。
基本的に、対数でゼロで割ることになると問題が発生します。外側にゼロがない限りです。とにかく、変分距離は馴染みが薄いかもしれませんが、数学的にはるかに優れた測度です。そのため、2つの確率ベクトルが近いかどうかを比較する方法として使用しています。これが私が使用している距離の概念です。
L1ノルムを使用しているため、複雑なN-gramに対する暗黙のバイアスがある可能性はありますか?
いいえ、そうは思いません。実際、L無限大距離でも実験を行い、非常に似た結果を得ました。L無限大は、差の絶対値の和を取る代わりに、最大の差を選ぶ反対の極端な場合です。
はい、L2はその中間ですね。L2は二乗の和の平方根です。つまり、p=2ではなく、p=1または無限大です。LPノルムには全体の族があります。離散集合の場合、それらは順序付けられています。L1が最大で、L無限大が最小です。
これら2つについて、比較可能な結果を得ています。少なくとも定性的には。だから、少なくとも私が語ろうとしている集約的なストーリーにおいては、L無限大とL1の間に大きな違いはないと思います。
技術的な細かい点はありますが、それについて詳しく説明する必要はないでしょう。しかし、大まかに言えば、高いレベルでは、L1とL無限大の結果はそれほど変わらないはずです。
異なるサイズのモデルや異なるフロップ数で実験を行った場合、例えば訓練に対して曲線がいつ現れるかを示す指標があったとすれば、どのようなダイナミクスが見られると思いますか?
実際、いくつかの異なるサイズのモデルを訓練しました。私の論文で報告しているもので過学習していないものはすべて1億5000万です。4億と10億もトレーニングしましたが、過学習するところまではトレーニングしていません。
例えば、4エポックトレーニングすると過学習しません。10エポックトレーニングしたときだけ過学習します。結果にそれほど大きな違いはありません。なぜなら、これらのモデルはすでに非常に過剰にパラメータ化されているからです。
1億5000万パラメータのモデルで1.1ナッツの損失が得られると言いましたが、4億パラメータだと1.10や1.09ナッツくらいです。すでに損失を絞り出しているので、通常見られるスケーリング則は、データセットが非常に大きく、スケールアップすることでより多くの改善が得られる場合に見られます。
この場合、すでに最大限に達しているような設定にいたのです。
単純なN-gramに向かってほぼバイアスをかけるような正則化を設計するとしたら、どのようにしますか?
正則化を変更する試みはしていません。使用している最適化アルゴリズムは、チンチラで使用されているのと同じAdamと重み減衰です。これを調整はしていません。すでに私のために調整されているようなものです。
良い質問ですね。フォローアップの質問としては、正則化を変更し、それによってトレーニングダイナミクスを変更した場合、TransformerのN-gram統計とのテンプレートマッチングにどのような影響を与えるかということです。答えは分かりませんが、探求する価値はあるかもしれません。
今週のICMLで読んだ多くの論文が、トレーニングダイナミクスとこの複雑化の挙動について語っています。それを色々と試すのは面白いでしょうね。
これをどのように高レベルで解釈し、さらなる研究のロードマップをどのように考えていますか?
私が論文の最後で言及し、先ほども触れた方向性の1つは、これらの記述を説明に変換できるかということです。おそらく、何らかの内部メカニズムの探索を通じて、これらのテンプレートマッチングが何らかのメカニズムに基づいているのかを見ようとすることです。
それは非常に満足のいくものになるでしょう。しかし、それは完全に異なる方向性になります。なぜなら、今度は実際に内部を調べる必要があるからです。私がやったことの短い続きではありません。
非常に興味深いと思いますが、多くの作業が必要になるでしょう。
はい、それは推論と抽象化に関連していると思います。私にとって魅力的なのは、何らかの指標を持つことができれば…これは非常に難しいことですが。
敵対的ロバストネスの文献では、敵対的例は特徴であり、バグではないと言われています。つまり、非常に良く一般化する非常に堅牢な特徴があるということです。
私たちが主張しているのは、おそらくあなたのネットワークはハッシュテーブルだということです。なぜなら、それらは例示を学習しているからです。特定のものを学習しています。
そして、スペクトルがあります。時には、たまたま非常によく一般化するものを学習していますが、それは実際には有用な表現ではありません。そして、おそらくその中のどこかに、これらの美しいドメイン関連の、分布外でも非常によく一般化し、概念の圧縮された抽象を表現するものがあるのです。
それがいつ起こるかを定義する実用的な方法があれば素晴らしいですね。
はい、完全に同意します。
そうですね、それは将来の研究のトピックかもしれません。良さそうですね。
ティム、光栄です。楽しかったです。ティムにはまた戻ってきてもらいます。今日はML（機械学習）のことだけを話しましたが、物理学や宇宙の意味、統一理論などについて非常に興味深い見解を持っているので、また戻ってきてもらいます。でも、それは次にロンドンにいるときにしましょう。
分かりました、ティム。
よし、ではまた。