
13,951 文字

この講演は本質的に3つのパートで構成されています。まず初めに、確率論、ベイズ推論、圧縮の観点から、学習と一般化が可能なシステムをどのように構築すべきかについて議論します。次に、これらの圧縮の概念をコルモゴロフ複雑性、パックベースの一般化境界、有限仮説境界の観点から形式化し、特殊化された知能システムだけでなく、一般的な知能システムを構築できるかどうかについて考察します。結論を先に言えば、私はそれが可能だと考えています。
これはノーフリーランチ定理などから示唆される結果とは対照的です。そして最後に、それをどのように実現するかについて話します。広範な知能システムの構築は可能だと考えていますが、その実現にはまだかなりの時間がかかると思います。前の講演では量子物理学の発見について触れられましたが、一般相対性理論や量子力学のような理論を提案できるシステムの実現には50年から100年かかると考えています。同時に、私たちは驚くような展開を目にするかもしれません。
そのため、安全性への配慮には十分注意を払い、AIアライメントのアプローチを積極的に取り入れてこれらのシステムを構築すべきです。
では、私のお気に入りの古典的な質問から始めましょう。もし以前にご覧になった方はご容赦ください。時間によって指標付けられた航空旅客数のパターン認識問題を考えます。データにフィットし、将来を予測するための3つの異なるモデルを検討します。これらのモデルのどれも気に入らないかもしれませんが、1961年までの予測を行うために、これらの中から1つを選ぶ必要があるとします。
選択肢は、線形関数、3次多項式、10,000次多項式です。線形関数を選ぶ人は手を挙げてください。おそらく30%ですね。3次多項式は?約20%でしょうか。10,000次多項式は?3人ほどですが、これまで私がこの質問をした時よりも多いですね。
皆さんの中には「なぜ10,000パラメータだけなのか、今や私たちは数百億のパラメータを持つモデルを使っているのに」と考えた方もいるでしょう。実際、それが私の立場でもあります。オーバーフィッティングを心配して線形関数を選びがちですが、10,000次多項式を好む理由は、真の基底が非常に複雑であることを私たちが知っているからです。より柔軟なモデルを通じて、その真の基底をより良く表現できます。
このケースでは、10,000次多項式は最初と2番目の選択肢を特殊なケースとして含んでいます。モデルを指定する際には、私たちの正直な信念を表現する必要があります。通常、私たちの正直な信念とは、表現力豊かな仮説空間が必要だということです。同時に、これらのパラメータをどのように推定するかについても注意を払う必要があります。
これも私たちの信念を表現する方法の一部です。例えば、低次の係数が高次の係数よりもデータを説明する上で重要であるべきだと考えるかもしれません。実際、私が先ほど言及したように、実践では10,000次多項式のようなものを選ぶことが多いのです。2012年に深層学習が再び人気を集める以前でも、ガウス過程のようなモデルを頻繁に使用していました。
これらは事実上無限個のパラメータを持つモデルで、基本的にメモリに収まる最大のニューラルネットワークよりも柔軟な汎用近似器です。それでも、比較的少数のデータポイントしかない問題でも、非常に良い一般化を達成できることが多いです。なぜなら、これらのモデルは表現力豊かな仮説空間と、特定の解への柔軟な帰納的バイアスを組み合わせているからです。
これらの問題について考えるには、モデリングの関数ベースの視点を持つことが有用です。前のスライドの最初の選択肢である線形関数を考えると、2つのパラメータ(傾きと切片のW1とWKN)に確率分布を置くことができます。そして、このパラメータの分布からサンプリングし、どのような例が得られるかを見ることで、関数上の分布を誘導できます。この図のグレーの影は95%信用領域を示しています。
この図の横軸には可能なすべてのデータセット、縦軸には周辺尤度、つまり特定のモデルからそのデータセットを生成する確率があります。これは正規化可能な適切な確率密度です。パラメータに対して非常に漠然とした分布を持つ大きなモデルを想像できますが、多くの異なるデータセットを生成できるため、この確率密度は正規化する必要があり、それらのデータセットの多くに大きな質量を与えることはできません。
同様に、単純な線形関数に戻ると、異なる傾きと切片を持つ直線しか生成できませんが、そのようなタイプのデータセットには多くの確率を与えることになります。そして、これらのモデルはどちらも、一般的な知能システムを望むなら使いたいモデルではないと私は主張します。
緑色のモデルは、表現力豊かな仮説空間を持っています。また、高次元の自然信号に適した特定の帰納的バイアスも持っています。例えば、平行移動等価性などの特性を持つ畳み込みニューラルネットワークを考えることができます。私は緑色のモデルが、私たちが一般的に構築したいタイプのモデルだと考えています。
この図では、異なるモデルが特定のデータセットにさらされた場合の状況を示す3つの追加パネルがあります。緑色のモデルは広く薄く分布し、大きな仮説空間を持っています。そのパラメータのある設定は、真の現実を良く記述できます。また、高次元の自然信号に適合した帰納的バイアスを持っているため、その良い解の周りに効率的に収束します。
青色のモデルはデータによってすぐに制約されますが、誤って制約されることになります。真の現実を良く記述する解を表現することができません。ピンク色のモデルは、良い予測を提供できるパラメータの設定を持っていますが、帰納的バイアスが不適切に指定されているため、そのパラメータの設定の周りに効率的に収束しません。
一般的に、私たちは多くの異なる解を表現できる大きなサポートを持つモデルを積極的に採用すべきです。そして、合理的な解への効率的な収束を見るために、モデルの帰納的バイアス、つまりどの解が事前に可能性が高いかについて注意を払う必要があります。
柔軟性と複雑性を混同すべきではありません。多くの異なるデータセットにフィットできるモデルは、必ずしも複雑なモデルではありません。先ほど挙げたガウス過程の例は、それを明確に示しています。RBF共分散関数を持つガウス過程は非常に柔軟ですが、ガウス過程の事前分布からサンプリングされた関数を見ると、通常は構造化されており、互いによく似ています。
したがって、これは合理的にモデル仕様の複雑さとは考えられません。そして、非常に大きなデータセットの流入は、これらの大きなモデルで豊かな統計的構造を学習する興奮的な機会を提供しています。
大きなニューラルネットワークの一般化特性を考える際には、ベイズ的な視点を理解することが有用です。ベイズ的手法について話すとき、おそらく事前分布を思い浮かべるでしょう。しかし、事前分布はベイズ的アプローチの定義的特徴ではありません。実際には、周辺化と呼ばれるプロセスが本質です。
この図では、おもちゃの回帰問題があり、かなり説得力のある解を提供する多くの異なる曲線があります。「その曲線、またはその他の曲線を絶対に使いたい」と言うのは難しいでしょう。確率論は、これらの異なる解をすべて使用し、それらの事後確率で重み付けすべきだと言っています。これは確率の和と積の規則から直接導かれます。
これがベイズ的アプローチの定義的特徴です。単一の仮説にすべてを賭けるのではなく、このベイズモデル平均(時には周辺化と呼ばれる)を行いたいのです。これを式3で形式化できます。ここでは、入力xによって索引付けられたターゲットy(クラスラベル、回帰出力、画像、時間、空間位置など)があります。
単一のパラメータ設定を使用して予測分布を形成するのではなく、事後確率で重み付けされたすべての可能なパラメータ設定を考慮したいのです。これがベイズモデル平均で、wがパラメータである場合、方程式の右側にwが現れ、左側には現れないため、周辺化とも呼ばれます。
古典的な訓練は、この定式化の特殊なケースとして見ることができます。事後分布P(w|y)を、事後を最適化するパラメータ設定を中心とする点質量として近似すると、それが古典的な訓練に対応します。対数事後は、対数尤度(クロスエントロピーなど)と対数事前分布に分解されます。ガウス事前分布を使用すると、L2正則化が得られます。
そして、これらの事後分布のより表現力豊かな表現から利点を得られる可能性があります。たとえそれらが実際の事後分布の良い記述でなくても、より良い記述である可能性があります。経験的に、事後分布をより良く記述できるほど、予測が良くなり、不確実性をより良く表現できることがわかっています。
深層学習の文脈でこの積分を近似しようとするかどうかも考慮できます。ベイズモデル平均を行うと得られるものは、事後分布が特定のパラメータ設定の周りに集中していない場合に、古典的な訓練とは最も異なります。ニューラルネットは与えられた問題に対して多くの異なる一貫した補完的な解を表現できるため、これは単一の仮説にすべてを賭けるのではなく、ベイズモデル平均から最大の利益を得られる場合です。
したがって、これを行いたいという強い動機があります。現在、実践的な観点から比較的魅力的なベイズ推論の近似アプローチを提供する多くの方法があります。それらをチェックすることをお勧めします。
では、これまで議論してきた視点を使って、深層学習やその他の分野で謎めいて見える一般化の振る舞いを解決または少なくともより良く理解する方法を考えてみましょう。ダブルディセントについて聞いたことがある人は手を挙げてください。多くの人がいますね。
基本的な考え方は、横軸でモデルの柔軟性を何らかの方法で増加させると、データの構造をより多く捉えるにつれて、訓練リスクと同様にテストリスクも減少します。ある時点で、テストリスクが増加し始め、これは過学習の概念に対応します。しかし、通常、訓練損失がゼロに近い点の周りで、テストリスクは再び減少し始めます。これが2回目の降下で、これがダブルディセントと呼ばれる理由です。
これまで私が言ったこと、特に航空旅客数の予測について議論した最初のスライドに基づいて、ベイズモデルはダブルディセントを経験すべきだと思いますか?手を挙げてください。ダブルディセントを経験すべきではないと思う人は?手を挙げてください。わからないという人は?もう少し多くの人が手を挙げてください。
はい、技術的には3番目のオプションが正解かもしれませんが、合理的な事前分布がある限り、ダブルディセントを経験しないはずだと私は考えます。モデリングプロセスで私たちの信念を合理的に表現している限り、柔軟性の増加とともにパフォーマンスは単調に改善されるはずです。なぜなら、哲学的に考えて、私たちは常に表現力豊かな仮説空間を採用すべきだからです。ある問題に対する解が妥当だと思えば、それが確率的でなくても、その解を表現すべきです。
標準的なSGD訓練で顕著なダブルディセントが見られる問題を考えてみましょう。ここでは、CIFAR-100にResNet18を使用し、横軸でResNetレイヤーの幅を増加させています。SGDでは一般化誤差が顕著に増加し、その後再び減少することがわかります。ピンクと緑で示されているのは、ガウス分布と混合ガウス分布による事後近似です。
ガウス事後近似では、わずかなダブルディセントが見られますが、明らかに顕著ではありません。混合ガウス事後近似では、ダブルディセントの痕跡はまったく見られません。これは2つのことを示唆しています。1つは、パラメータに対する事前分布が、モデルの関数形式と組み合わさって、合理的な関数上の分布を誘導しているということです。そして周辺化によって、過学習に関連するこのダブルディセントを回避できるということです。
また、これらの周辺化手順の精度は、標準的な訓練よりもはるかに優れているということも注目に値します。単峰性のガウス事後近似は、訓練時間に関しては標準的な訓練とほぼ同じコストです。テスト時には、ベイズモデル平均を行うために複数の順伝播を行う必要があるため、少し高価になります。これが問題になるかどうかは、アプリケーションによって異なります。混合ガウス近似は、訓練時間もより高価になります。
ベイズニューラルネットワークの事後収縮を、ヘッセ行列の有効次元と呼ばれる量に関連付けることができます。例えば、訓練された大きなニューラルネットワークのヘッセ行列の固有値を計算すると、通常、損失景観の鋭い方向をカウントする比較的大きな固有値がいくつかあり、ゼロに近い固有値が多くあることが観察されます。
これはこのスライドの下部に書かれている有効次元性によって測定されます。各層の幅を増加させながら、これらの異なる残差ニューラルネットワークの有効次元性を計算することができ、訓練損失が低い領域では、有効次元がダブルディセントの一般化挙動を非常に密接に追跡していることがわかります。
つまり、より大きなモデルは、より圧縮可能な解、つまりそれほど精密な表現を必要としない平坦な解を見つけているということです。これは少し直感に反するかもしれません。もう一度言いますが、より大きなモデルを構築して訓練すると、より簡単に圧縮できる解を見つけます。それはより少ない有効パラメータを持ちます。
そして、モデルがデータをより効果的に圧縮しているため、通常は一般化に役立つ規則性を発見しています。この緑色の区分線より上では、実質的にゼロの訓練があり、一般化、つまりテスト損失は、パラメータ数などの他の代理指標よりも有効次元性によってより密接に追跡されます。
ここの黄色の等高線は、幅と深さを変えたときの一定のパラメータ数を持つモデルを示しています。例えば、ここでは同じパラメータ数でもテスト損失が下のものより低いことがわかります。したがって、有効次元性は純粋なパラメータカウントよりも一般化について考えるより良い方法です。
なぜより大きなモデルがより単純で圧縮可能な解を見つけるのかと疑問に思うかもしれません。その質問に対する短い答えはありませんが、直感的には、モデルのパラメータ数を増やすと、これらの平坦な解の体積が指数関数的に増加し、確率的最適化を行わなくても、標準的な最適化だけでもそれらを発見しやすくなると想像できます。
この関数空間の視点に戻って、ガウス過程について簡単に触れたいと思います。このスライドのほとんどを理解できなくても心配いりません。ガウス過程の美しい点は、関数空間で直接事前分布を指定できることです。私は単に「これが関数に対する私の事前分布です」と言うことができ、それは任意の入力点の集合によって索引付けられた任意の関数値の集合が、多変量正規分布を持つことを意味します。
その分布の2つのモーメント、つまり平均ベクトルと共分散行列は、ガウス過程の平均関数と共分散関数によって指定されます。左のパネルでは、以前のスライドで直線モデルとその2つのパラメータに対する分布を持っていたのと同様に、サンプルのガウス過程関数が示されています。
右側のパネルでは、青で示されたいくつかのデータで条件付けした後の関数に対する事後分布があります。青は事後平均を示し、緑、ピンク、黒はサンプルの事後関数を示しています。このモデルの一般化特性は、共分散関数によって厳密に制御されています。
ガウス過程とこれまで広く議論してきた確率的視点を使って、深層学習でしばしば謎めいて提示される別の現象を理解しようとしてみましょう。良性の過学習(benign overfitting)について聞いたことがある人は手を挙げてください。
この現象は、「深層学習を理解するには一般化の再考が必要」という論文で顕著に提示されました。これは2016年のICLRのベストペーパー賞を受賞したと思います。畳み込みニューラルネットワークがランダムなラベルを持つ画像に完璧にフィットできるが、ノイズのないラベルを持つ構造化された画像問題でも一般化できることを示しました。
これは、このモデルクラスの一般化特性が、Rademacher複雑性やVC次元などについて私たちが知っていたことと矛盾することを示唆しました。データに恐ろしくオーバーフィットできるのに、それをしていなかったのです。これは深層学習に特有のものだと示唆されました。なぜなら、それは「機械学習を理解するには一般化の再考が必要」ではなく、「深層学習を理解するには一般化の再考が必要」だったからです。
では、異なるモデルクラス、ガウス過程でこれらの結果を理解し再現できるかどうか見てみましょう。パネルAでは、再びRBF共分散関数を持つガウス過程からのサンプル事前関数があります。パネルBには単純な構造化データがあり、かなり合理的に見えるガウス過程予測分布があります。
パネルCには大量の破損点があり、赤で示されているのはガウス過程事後予測分布です。それがすべての点を完璧に通過していることがわかります。つまり、その高度に破損した解を表現する柔軟性を持っているのです。この解にフィットすることを本当には望んでいませんが、できます。
そして、モデルが特定のデータセットにフィットしたい程度を、私たちがすでに簡単に議論した周辺尤度を通じて正確に定量化できます。つまり、モデルの事前分布の下でそのデータセットがどれだけ確率的であるかということです。パネルAに戻ると、この赤い曲線のような何かを見るために、事前関数からサンプリングを本当に本当に長い時間続ける必要があるでしょう。
これは関数に対する事前分布によって強くサポートされる解ではありませんが、事前分布のサポート内にあります。したがって、尤度がこのデータにノイズがなく、完璧にフィットする必要があると言っている場合、モデルはそれを行うことができます。「したくないけれどできる」と言っているのです。
そして、ガウス過程を使って、「一般化の再考」論文の実験を正確に再現できます。異なる数の改変されたラベルを持つ画像を導入し、それらすべてをガウス過程で完璧にフィットすることができます。ガウス過程は破損していない問題でも合理的な一般化を提供し、周辺尤度を測定して、改変されたラベルの数が増加するにつれて低下することを示すことができます。
ベイズニューラルネットワークでも同じことができます。これは、ベイズニューラルネットワークのパラメータに対する一般的な事前分布によって誘導される関数上の事前分布が完全に不合理ではないかもしれないという証拠です。なぜなら、破損された画像データセットは、破損の大きさが増加するにつれてますます可能性が低くなると言っているからです。
ここまで、モデル構築と一般化に関する確率的な視点について話してきました。学習と一般化ができるモデルをどのように構築するか、そして、表現力豊かな仮説空間を採用し、合理的な解に効率的に収束できる帰納的バイアスも必要だと主張しました。
次の自然な疑問は、これらの帰納的バイアスがどれほど一般的になり得るかということです。画像認識や自然言語処理などの特定の問題設定に非常に特化したものである必要があるのか、それとも非常に一般的なものになり得るのでしょうか。
ノーフリーランチ定理のような多くの結果は、時として非常に一般的なモデルを構築できないという主張に使用されます。あるモデルが1つの問題で非常にうまく機能しているなら、それは他の問題で悪く機能しているはずだというものです。そのため、特殊化された仮定、帰納的バイアスが必要だということになります。
様々なノーフリーランチ定理があります。最も有名なのはWolpert、Macreadyによるもので、本質的に、データセットの分布から一様にサンプリングされたすべてのデータセットにわたる期待値では、すべての学習器は等しく良いと述べています。Ben-David、Shalev-Schwarzによる別の定理は、単一の学習器がすべての問題で高い精度を達成することはできないと述べています。他にも多くあります。
先ほど述べたように、これは特定のタスクに対して非常に特化した学習器を構築すべきだということを示唆しているように見えます。では、ノーフリーランチ定理はAGIの概念を排除するのでしょうか。
実際には、それは私たちが見てきたものとは異なります。実際、モデルは非常に特化したものから、ますます一般的なものへと移行してきています。約20年前に戻ると、多くの特徴エンジニアリングや、特定のアプリケーションに非常に特化したアルゴリズムが見られました。
徐々にこれはより一般的になり、特定のアプリケーションドメインに合わせたニューラルネットワークアーキテクチャを持つようになりました。画像認識には畳み込みニューラルネット、テキストとシーケンスには再帰型ニューラルネットワーク、表形式データには多層パーセプトロン、基本的な回帰、強化学習などです。
そして、トランスフォーマーがこれらのモデルアーキテクチャをすべて包含し始めているのを見ています。本質的に、すべてに対してトランスフォーマーを使用するようになっています。
これはどうして可能なのでしょうか?ノーフリーランチ定理のような結果があるにもかかわらず、どうして様々な異なる問題や、まったく異なるモダリティのデータに対して良好なモデルを持つことができるのでしょうか。
直感的には、これは自然に発生する問題(少なくとも私たちがモデル化を選択する問題)が構造化されたデータを含んでおり、この構造の側面が実際に多くの異なる問題間で共有されている可能性があるためです。これは合理的に思えます。
コルモゴロフ複雑性というレンズを通じて、構造と実世界のデータ、機械学習モデルの間の整合性を形式的に探求することができます。私たちの主張は、多くの自然なデータ分布の低いコルモゴロフ複雑性のために、単一の低複雑性のバイアス(事前分布)が、広範な問題に対して十分であり得るということです。
では、コルモゴロフ複雑性とは何でしょうか。入力Xが与えられた時のラベルYのコルモゴロフ複雑性は、Xを入力としてYを出力できる最も短いプログラムのビット長として定義されます。Solomonoff事前分布と呼ばれる普遍的事前分布を考えることができ、これはより圧縮可能な仮説、つまりより低いコルモゴロフ複雑性を持つ仮説により高い確率を割り当てます。
この事前分布をPAC(Probably Approximately Correct)ベースの境界に関連する有限仮説境界と組み合わせることで、式4の境界が得られます。ここでR̂(h)は訓練リスク(経験的リスク)、K(h)はこの接頭辞コルモゴロフ複雑性、Nはデータ点の数です。
基本的に、私たちの一般化誤差は、訓練誤差とモデルが実際にどれだけ圧縮可能かに関連する項によって上から押さえられます。これは実際にモデル構築の処方箋を示唆します。柔軟なモデルを採用すべきです。なぜなら、柔軟なモデルは低い訓練誤差を達成できるからです。しかし、それらのモデルは圧縮へのバイアスも持つべきです。
これはまた、仮説空間が任意に大きくても、このようなバイアスを持っている限り、モデルは十分に一般化できることを示しています。
この論文「ノーフリーランチ定理とコルモゴロフ複雑性、帰納的バイアスについて」で、私たちはこれらの問題の多くを研究し、いくつかの発見をしました。これらには以下が含まれます:
これらの大きなニューラルネットワークは、実際にデータセットのラベルを大幅に圧縮できる
畳み込みニューラルネットワークは、明らかに特定のタイプのタスク(画像認識)のために設計され、並進不変性や局所性などのバイアスを持っていますが、この単純性バイアスのために、表形式データなどの全く異なるモダリティでも証明可能に良く一般化します
GPT-3や、その延長線上にある他の大規模言語モデルは、複雑なものよりも指数関数的に高い確率で低複雑性のシーケンスに強いバイアスを持っています
このバイアスは、モデルが大きくなるほどより顕著になります。これはランダムに初期化された言語モデルでも成り立ちます。つまり、このような低複雑性へのバイアスは、事前学習タスクを通じて完全に得られるものではありません。それは単純性、反復などへのさらなるバイアスを増加させますが
これらの有限仮説境界を通じて、「CIFARモデルはCIFARに一般化するのか」「ImageNetモデルはImageNetに一般化するのか」といった論文の結果について考察しようとしました。これらの論文は、一般的に使用されているベンチマークへのオーバーフィッティングについて心配すべきかという問題を探求していました。
これらの論文の経験的結果は、おそらくそれほど心配する必要がないことを示唆しています。モデルのランキングは本質的に保持され、パフォーマンスの低下は、これらの新しいImageNetやCIFARデータセットのわずかな分布シフトによるものかもしれません。
私たちは理論的に、これが実際に予想されることを示します。これらのベンチマーク問題でオーバーフィッティングを期待するためには、非常に大きなモデルの空間を探索する必要があるでしょう。
また、私が説明してきたレシピに従うことで、従来の知見とは対照的に、小規模データと大規模データの両方の領域でうまく機能するモデルを設計できることを示しました。そのレシピとは、強い単純性バイアスと組み合わせた柔軟な仮説空間を採用することです。そしてその例を示します。
これらの図は、私が述べた点のいくつかに対応しています。MLPやその他のモデルクラスが、適用されているデータセットを大幅に圧縮できることを示しました。また、1つのデータセット、1つのモダリティで訓練されたモデルが、他のすべての種類のデータセットや他のモダリティのデータで証明可能に良く一般化できることを示す、ドメイン間の一般化境界を計算することもできます。
また、モデルのサイズを増やすと、この低複雑性バイアスがより顕著になることも示しています。
小規模データと大規模データの両方の領域でうまく機能するモデルを構築できると述べましたが、ここではニューラルネットワークの例があります。小規模データセットでうまく機能するGoogleNetと、大規模データセットでうまく機能するViTを組み合わせています。
しかし、もっと単純な例も考えることができます。最初に私が尋ねた質問に戻って、非常に高次の多項式(10,000次や100万次など)を考え、低次係数と高次係数の大きさをより積極的に罰するような正則化項を導入することを想像してください。w_iの2乗のような正則化項を追加します。
このような種類のモデルは、非常に表現力豊かな仮説空間を持っているため、多くの異なる種類のデータセットにフィットできます。しかし、パラメータの異なる設定に対応する多くの異なる解があるとき、正則化の方法に基づいて、低次係数により依存する解を好みます。
これは、ベイズ推論について考えなくても、良性の過学習のような結果を完璧に再現できるモデルの例です。これはまた、小規模データと大規模データの両方の領域でうまく機能するはずのモデルの種類です。小規模なデータセットを与えると、本質的に低次の多項式を好みます。おもちゃのような回帰問題を考えている場合です。非常に大規模なデータセットを与えると、データに良好なフィットを達成するために必要となる高次係数を使い始めます。
原理的に、私はこの一般性が可能だと考えており、多くの興奮的な実証例を目にし始めています。時系列外挿問題に大規模言語モデルを適用する論文を発表し、テキストで事前学習し、表現を完全に凍結し、トークン化についていくつかの直感的なアイデアを使用するだけで(非常に凝ったことは何もしていません)、それらの時系列データセットで特別に訓練された目的特化型の時系列モデルと競合する外挿が得られることがわかりました。
これは実際に非常に驚くべきことでした。私たちが予期していたことではありませんでした。トークン化を通じて、予測分布の豊かな表現も得ることができます。数値全体ではなく、各数字を個別にトークン化すると、従来の尤度では適合が難しい表現力豊かな多峰性の予測分布を反映できる階層的ソフトマックス表現が得られます。
ベンチマーク結果は本当に強力です。これは完全にゼロショット予測のためのものです。本質的に、数値を文字列として表現し、時系列データに基づいて表現を更新することなく、GPTやLlamaに次の文字列トークンのシーケンスを外挿させるだけです。時系列問題を解くために必要なバイアスなどは、すべて次の単語予測から学習しました。
私たちは、これまで議論してきたモデルの特性と同じ方法で、その結果を理解しようとすることができます。これらの言語モデルは、表現力豊かな仮説空間と組み合わさった非常に強い単純性バイアスを持っています。これは時系列にとって非常に有用です。なぜなら、時系列問題では、潜在的に利用可能な情報のごく一部しかないため、非常に強いオッカムの剃刀バイアスが必要だからです。
また、標準的な尤度を通じて表現や学習が難しい柔軟な予測分布を表現することもできます。材料を生成するために言語モデルを使用する同様の結果もあります。ここでは、結晶に関連する原子論的データとエネルギーをテキストとして表現し、事前学習されたLlamaモデルをこの原子論的データで微調整します。時系列の設定とは異なり、ここでは実際に微調整を行っています。
そして、しばしば結晶生成において最先端の結果が得られることがわかりました。ここでも、テキスト補完問題での事前学習による付加価値が大きかったのですが、これは少し直感に反するものでした。一緒に仕事をしていた化学者たちは私たちの試みを受け入れてくれましたが、この結果は予期していませんでした。彼らにとって非常に驚くべきことでした。
また、これらのモデルは、明示的にそれらの対称性を強制しようとせずとも、これらの問題において回転不変性のような関連する対称性を自動的に学習できることもわかりました。これは予想できることかもしれません。なぜなら、これらのモデルが非常に強力な圧縮バイアスを持っていることを目にし始めており、問題を圧縮する素晴らしい方法の1つは、これらの対称性をエンコードしようとすることだからです。
タンパク質工学でも同様の結果を目にし始めています。これは私たちが非常に興奮している領域で、創薬のためにこれらの深層生成モデルとベイズ最適化手順を組み合わせることを考えています。すでにウェットラボでいくつかの非常に興奮的な結果を得ています。例えば、抗体のin vitro合成などです。
最後に、私が非常に興奮している将来の方向性と研究アジェンダについて簡単に触れたいと思います。私たちのモデリングの仮定、帰納的バイアスは、かなり頻繁に代数的構造として現れ、スケーラビリティのためにその構造を特別に活用するアルゴリズムを構築することができます。
これは私たちが最近リリースした「Cola」(Compositional Linear Algebra)と呼ばれる新しいフレームワークで自然に促進されます。まもなくリリースされる進行中の研究では、このフレームワークを使用してトランスフォーマーの行列構造を探索し、密な層をよりはるかに構造化されたアプローチに置き換え、従来のアプローチよりもはるかに良いスケーリング則を持つ新しいタイプの構造を実際に発見しています。
要約すると、確率論を使用して、モデル構築と一般化の処方的な理解を発展させ、ダブルディセントや良性の過学習のような、そうでなければ謎めいた振る舞いを解決することができます。これは実際に、一般化性能をさらに改善するモデルを構築するのに役立つ、行動可能な理解です。
柔軟性と複雑性を混同したり、モデルの複雑性の代理としてパラメータカウントを扱ったりしないように注意する必要があります。実世界における普遍的学習、つまり一般知能は実際に可能であるべきだと考えます。ノーフリーランチ定理のような結果は、実際には一般知能を創造する能力を排除するものではありません。
ニューラルネットは、しばしば与えられた問題に対する多くの異なる説得力のある解を表現します。これはベイズモデル平均にとって非常に自然な設定です。私は、これらのモデルクラスに対してベイズ的アプローチを検討することには、特に大きな期待があると考えています。
言語モデルは、私たちが議論してきた処方箋の多くを自然に具現化しています。表現力と、一見強い単純性バイアスを組み合わせることで、多くの領域でゼロショットおよび少数ショットの性能を非常に効果的に発揮できます。
単純性バイアスがどこから来るのかは、まだ少し開かれた問題だと考えています。私が議論した平坦性と、モデルのパラメータ化が平坦性にどのように影響するかに関連するいくつかのヒントはありますが、これが何から来るのか、どのようにそれを制御できるのかを理解しようとすることは、本当に興奮的な継続的な研究領域だと考えています。
AGIからどれだけ離れているかという点については、科学的発見、つまりアルゴリズムが一般相対性理論のような理論を提案する能力などを含めるなら、約100年だと考えています。しかし同時に、これらのシステムはすでに印象的で、おそらく驚くほど一般的であり、私たちはそれらをさらに発展させる方法について非常に慎重であるべきです。
コメント