AGI-23 | 人間と機械知能における推論 – ノア・グッドマン

AGI-23 | Reasoning in Human and Machine Intelligence - Noah Goodman

This is a recording of the AGI23 Conference, Day 3, June 18th, Stockholm. Keynote: Reasoning in Human and Machine Intell...

最初の基調講演者であるノア・グッドマンをご紹介いたします。彼は人間と機械知能における推論について話してくれます。ノアはスタンフォード大学の心理学、言語学、コンピューターサイエンスの助教授です。2003年にテキサス大学オースティン校で数学の博士号を取得し、2010年にスタンフォード大学に移り、計算と認知の研究室を主宰しています。ノアは人間の思考の計算論的基盤を研究しており、行動実験と統計学や論理学の形式的手法を融合させています。具体的なプロジェクトは、言語における概念学習から確率的プログラミング言語の推論アルゴリズムまで多岐にわたります。
オンラインでご覧の皆様、おはようございます。こんばんは。おやすみなさい。本日も参加していただきありがとうございます。後でご覧になる方々も素晴らしい内容が待っています。ここにいる私たちも、ストックホルムでのAGI 23の3日目の基調講演を始めるノアを歓迎しましょう。
素晴らしい。ここに来られて嬉しいです。ありがとうございます。少なくとも私にとっては真夜中に起きていただいてありがとうございます。
さて、北欧に来ると儀式的な銛を講演用にもらえるのは素晴らしいですね。大きな魚を突くのにぴったりです。
約20年前に認知について考え始めたとき、私たちは次のような状況にありました。可能な知的エージェントの大きな空間があると考えていましたが、実質的に唯一の例は人間の認知でした。
これは完全に正しいわけではありません。もちろん動物もいました。しかし、私は言語や推論、そういった高次の認知トピックに興味があったので、本当に人間の認知の特性について考え、それが知能の空間全体に一般化されることを期待するしかありませんでした。
さて、ここ数年で私たちは突然、珍しくて面白い立場に立たされています。なぜなら、これらの奇妙な異星知能が突然現れているからです。特にトランスフォーマーベースの言語モデルとビジョンモデルです。これらは知能の一般的な特性をマッピングしようとする上で興味深い新しい視点を与えてくれると思います。
ここで、少し古くなったかもしれませんが、私はこの類推が新たに興味深くなったと思うので、多くの方がご存じのものに戻りたいと思います。これについて考えてみましょう。
飛ぶものの空間について考えてみると、一方の隅に鳥がいます。飛行機が発明される前は鳥しかいませんでした。ですから、飛ぶことについて考えるとき、鳥に当てはまることをすべて考えて一般化しようとしました。もちろん、ある時点で人間は飛行機を発明しました。突然、鳥に当てはまることの中には、飛ぶものすべてに当てはまるわけではないことがわかり、原理を抽出するためのコンテキストがずっと増えました。
特に、鳥だけを見ていると羽根が見えて、羽根自体が重要だと考えるかもしれません。しかし飛行機を見ると、羽根は全く見当たりませんが、ターボエンジンがあります。これらを比較すると、飛ぶことについて本当に重要だと思っていたことの中には、実は飛行に不可欠ではないものがあることがわかります。
少し分類してみましょう。飛ぶものの空間を分析するとき、私たちが興味があるのは普遍的な原理です。そして、それは存在します。飛行の場合、翼型の原理やベルヌーイの原理が、飛ぶすべてのものに共通する中心的なものです。
一方で、特定の飛行システムにたまたま当てはまる偶発的な事実もあります。例えば、羽根はケラチンタンパク質の繊維からできています。これは進化の歴史の偶然であり、鳥にとっては基本的なものかもしれませんが、飛行に不可欠なわけではありません。
真ん中には、羽ばたきのようなものがあるかもしれません。鳥は羽ばたきますが、一方でそれは偶発的な事実だと思うかもしれません。なぜなら飛行機は羽ばたかないからです。しかし、鳥の機能的な要求を考えると、飛行機とは異なり、鳥は非常に低速で離陸しなければならないので、羽ばたきは確かに理にかなっています。ですので、これを普遍的なものではなく機能的な原理と呼んでもいいかもしれません。ターボエンジンはその中間に置きました。なぜなら、それは部分的に高速離陸の特性であり、部分的には偶発的なものだからです。
さて、私たちは鳥や飛ぶものについて話すためにここにいるわけではありません。人間と機械、そして推論について話すためにいるのです。では、推論に話を移しましょう。
推論とは何でしょうか。基本的に、推論とは人間が反省的な中間ステップを経て質問に答えるように見える方法です。例えば、「ソクラテスは死ぬのか」と聞かれたとき、「ソクラテスは人間で、人間は死ぬ、だからソクラテスは死ぬ」という中間ステップを経るかもしれません。これはプラトンにまでさかのぼる古典的な三段論法の例です。
あるいは、数学の方程式を解くときも同様のことを行います。例えば、3x – 1 = 2 を解くために、一連のステップを踏みます。各ステップは「比較的明白」ですが、最終的には最初は明白ではなかったかもしれない答えにたどり着きます。
推論について考えるとき、非常に深い問いがあります。原理は何か、偶発的な事実は何か、推論を行うシステムには何が当てはまるべきか、人間や言語モデルにだけ当てはまるものは何か、といったことです。
推論とは何か、それはどこから来るのか、言語モデルは人間の推論に近いと呼べるような方法で推論できるのか、そしてより広く、人間と機械の推論において、原理と機能的要求と偶発的な事実は何かといった問いがあります。
これに深く踏み込むために、ほんの数年前にNLPで非常に興味深いことが起こりました。皆さんご存じの通り、大規模言語モデルは次のトークンを予測するように訓練され、通常は質問に即座に答えを生成するのに使用されてきました。これが標準的なプロンプティングとして示されているものです。
複数の著者が異なる論文で、言語モデルに中間的な推論ステップを生成する余地を与え、どのようなステップに興味があるかを示す例をいくつか与えると、突然答えが大幅に改善されることに気づきました。
ある論文では、これを「思考の連鎖(Chain of Thought)」プロンプティングと呼びました。この論文からの興味深い観察は、思考の連鎖プロンプティングが、例えばこの常識的な質問応答チャレンジにおいて、直接的な回答よりも高い精度をもたらすということでした。ただし、かなりの容量を持つかなり大規模なモデルでのみそうなります。
実際にはわずかに早かった別の論文では、これを「スクラッチパッド」と呼び、言語モデルがあまり得意ではなかった多桁の算術において、体系的な算術アルゴリズムの例を示すと、そのアルゴリズムを一般化して、突然多桁の算術で大幅に、劇的に良い結果を出せるようになることを示しました。これは、一桁ずつ足し算をして桁上がりを処理するようなものです。
最も注目すべきことの一つは、これもある規模のモデルで現れた新しい振る舞いですが、このようなスクラッチパッドや思考の連鎖がないと、モデルは例で見た桁数を超えて全く一般化しませんでした。スクラッチパッドを使うと、非常によく一般化し始めました。これは非常に驚くべきことでした。
これを見て、私は基本的に「ワオ、これは本当に人間の推論を研究していると思っていたものに似てきた」と思いました。
これは少し皮肉っぽいですが、最近、先月、DeepMindのFelix Hillが、Twitterでこのような皮肉っぽいコメントや質問を投稿しました。「ニューラルネットはシステム2を欠いていると思う人はいますか？」と。
私は真夜中にこのコメントを書きました。ただの冗談でしたが、その後考えてみると、これは興味深いほど真実で、考える価値があると思いました。基本的に、この思考の連鎖による推論は、私を含む心理学者が「システム2」と呼んできたものにとてもよく似ています。
しかし、言語モデルが行うことと人間が行うことの間には偶発的な事実の違いがあります。特に、言語モデルは「口を動かす」ことを強制されています。言語モデルは明示的なトークンを生成せずに考えることができません。これは人間には当てはまりません。私たちは口を閉じていても、答えに至るまでステップバイステップで考えることができます。
最後にこの点に戻りますが、これを掘り下げて、推論について何を示しているのか考えてみましょう。
特に、最初に戻って推論の起源について考えてみましょう。言語モデルのこの思考の連鎖スタイルをケーススタディや考え方として使えるとしたら、人間の自然な推論の起源を説明するのに役立つ原理はあるでしょうか？同様に、なぜ思考の連鎖による推論が言語モデルに役立つのかという、明らかですが十分に探求されていない疑問についても考えられるでしょうか。実際、それが役立つ理由は事前にはありません。
私の学生のBen ProsiとMichael Leeとともに、これを非常にシンプルなケーススタディに落とし込んで考えてみることにしました。
命題変数の結合分布によって定義された世界を想像してみましょう。これはベイジアンネットワークによって定義されていますが、重要なのはそれが有限個の変数の結合分布だということです。
そして、基本的に逐次密度推定を行う脳を想像してみましょう。つまり、これまでに見た変数が与えられた次の変数を自己回帰的に予測することを学習しているだけです。
このような逐次密度推定器（私はこれをQと呼んでいます）があり、それを使って周辺分布、つまりCが与えられたときのAの確率を予測したいとします。Qを使ってこの周辺分布Pを予測するためのいくつかの異なる統計的推定量があります。申し訳ありませんが、ここにタイプミスがあります。これはAではなくCであるべきです。
最初に行うことは、単純にAが与えられたときのCを直接予測することです。つまり、逐次推定器に「ここにAがあります。Cは何ですか？」と尋ねるのです。トランスフォーマーの場合、これは実際に「A=a、C=」というシーケンスを入力し、小文字のcを埋めさせて、その値が何だと思うかを把握することに対応します。
もう一つできることは、シーケンスモデルにCに至るまでの中間変数をサンプリングさせることです。例えば、「A=a」を与え、「B=B」をサンプリングさせ、「C=」と続けて、変数Cがどの値を取るかを尋ねます。
これは、中間変数をランダムにサンプリングして周辺化し、AとCの周辺確率を得るモンテカルロ推定に対応します。ここには特別なことは何もありません。これは単に、この周辺確率のための2つの非常に標準的で極めてシンプルな推定量です。
興味深いのは、2番目の推定量、つまりモンテカルロ推定量が、大規模言語モデルの思考の連鎖が行っていることとまさに同じだということです。質問を与え、自由に中間ステップを生成させ、そして答えを求めます。
そこで、この設定での推論の価値を、直接推定量と中間変数（またはモンテカルロ）推定量の差を見ることで検討できます。直接推定量の方がより大きなバイアスを持つ場合、この設定やドメインでは推論が価値があると言えます。両者が同じ質の推定値を与える場合、推論は価値がないことになります。
訓練のセットアップについてもう少し詳しく説明しましょう。こんな感じです。まず大きなベイジアンネットワークから始めます。ベイジアンネットワークからサンプリングして訓練サンプルを生成し、次に重要なのは、ベイジアンネットワークの観測領域を選択することです。後でもう少し詳しく説明します。その観測領域内の変数を取り、ランダムに順序付けし、クエリ変数を最後に置きます。これが訓練例となります。そして、標準的なGPTスタイルのトランスフォーマーをそのデータで訓練するだけです。
私たちが操作しているのは、そのトランスフォーマーを使って周辺確率を予測する方法（直接推定量か推論による間接推定量か）と、重要なのは、これらの観測領域の構造も操作していることです。ベイジアンネットワーク全体を一度に観測することもできます。これがグローバル観測条件です。あるいは、変数のサブセットを観測することもできますが、それはベイジアンネットワーク全体からランダムに抽出されます。または、局所的な領域を観測することもできます。変数を1つ選び、その変数からグラフ構造に沿って数ステップ拡張します。これが局所観測条件です。
これを行った理由は、人間の学習について考えると、私たちは自己中心的な視点を持っているからです。世界を見るとき、私たちは近くにある物や目の前にある物を見ます。それが学習するデータの構造を決定します。
さて、これが実験の基本的な結果です。直接予測推定量か自由生成推定量（別名思考の連鎖）で評価します。実線が直接予測、破線が自由生成です。そして、ベイジアンネットワークが完全に観測される訓練条件（青色）か、局所的に観測される訓練条件（赤色）で行います。
ここで最も重要な点は、局所的に構造化されたデータがない場合、推論には価値がないということです。この種の中間的な局所推論を行っても役に立ちません。局所的に構造化されたデータがある場合、推論が価値を持つようになります。基本的に、世界の局所構造を理解していますが、より長距離の推定を得るためにはこの局所的な理解を繋ぎ合わせる必要があるからです。
このプロットについてもう一つ注目すべき点は、トランスフォーマーに世界の局所構造のみを学習することに集中させると、世界のすべてをグローバルに学習するタスクを与えるよりもはるかに速く局所構造を学習するという、データ複雑性への大きな影響です。
ある意味では、これは驚くべきことではありませんが、逐次密度推定器や認知一般を訓練する正しい方法について、本当に重要な観察だと思います。
では、このささやかなプロジェクトから何を学べるでしょうか。まず、前述したように、訓練データがグローバルやランダム、あるいは他のベースラインではなく、局所的な観測に組織化されている場合、中間変数を通じた推論、つまり思考の連鎖が役立ちます。
論文では、実際に単純化されたケースについての定理を証明しました。詳細には立ち入りませんが、本質的に、いくつかの単純なベイジアンネットワーク構造において、リスク最小化推定量がこの推論ギャップ特性を持つことを示すことができます。
これに言及したかった重要な理由は、これがトランスフォーマーに特有のものではないということです。これは、リスク最小化を行う逐次密度推定器に関するものです。トランスフォーマーはそれを行う非常に優れた方法の一つですが、決して唯一の方法ではありません。
前述したように、データ複雑性も大幅に低くなります。そこから得られる結論は、思考の連鎖を私がここでいう推論のスタンドインとして使用すると、推論はシーケンスモデルにとって、訓練データに関する特定の条件下で現れるものだということです。これはモデルアーキテクチャに関するものではなく、訓練データのこの局所的に構造化された特性に関するものです。
お気づきかもしれませんが、前のセクションでモデルに推論を行わせたとき、モデルは好きなように中間変数をランダムに生成していました。それだけでも推論の利点を得るのに十分です。
しかし、実際には、これは人間の推論、特に何年も教育を受けてきた私たちのような人間の推論とは少し異なります。何らかの方法で、私たちは時間をかけて推論を改善することができました。
そこで、大規模言語モデルを練習や最小限のフィードバックから改善できるかどうか尋ねるかもしれません。
私の学生のEric Zeligmanと共著者たちは、自己教師型推論器（Self-Taught Reasoner）というシステムを作りました。これは実際には、おそらく最もシンプルな強化学習アルゴリズムです。
基本的に、思考の連鎖推論を行う大規模言語モデルを取り、新しい問題を与え、自身の論理的思考を生成させ、答えを生成させ、そしてその答えが正しいか間違っているかをチェックします。最もシンプルなバージョンでは、正解を得た場合、それをファインチューニングのための訓練データセットに追加します。つまり、自身の正しい推論トレースでファインチューニングを行うのです。
実際、これは驚くほどうまくいきます。私はこれがうまくいくとは思っていませんでした。
これは先ほど言及した多桁の算術の場合です。ここで見ているのは、この自己教師型推論器のプロセスの反復回数です。0は初期モデルです。
そして、見ていただけるように、最初の1、2回の反復後、モデルは1桁の算術問題をどう解くかを理解しますが、他の問題ではまだかなり悪い結果を出します。その後、徐々に2桁、3桁、4桁、5桁の算術問題を解く方法を理解し、拡張していきます。
また、これを常識的なQAデータセットでも行うことができます。これは短い常識的な質問のようなものです。私はこのデータセットが好きではありませんが、以前に思考の連鎖に使用されていた短い常識的な質問のようなものです。
ここでのベースラインですが、私たちはGPT-Jモデルをファインチューニングしています。今日これを行えば、30秒前に出たLlamaやBakunaなどをファインチューニングするでしょう。しかし、GPT-Jは1年半前に訓練できた最大のモデルでした。
ベースラインは、GPT-Jで少数ショットの思考の連鎖プロンプティングを使用すると約36%です。思考の連鎖なしで全データセットの最終回答でGPT-Jをファインチューニングすると、約60%になります。GPT-3を全データセットでファインチューニングすると73%になります。基本的な自己教師型推論器は約67%か68%…いや69%まで到達します。
そしてEricは、人々が間違った答えを出したときでも、間違ったという事実から何かを学ぶということに気づきました。そこで、それを実現できるかどうか確認したいと思いました。
そこで、彼は次のような追加の要素を加えました。モデルが問題を解こうとして間違えた場合、ヒントを与えます。正解に戻って「正解」とマークし、そして論理的根拠、推論のトレース、そして答えを生成するよう求めます。
そして再度チェックし、正解を得たかどうかを確認します。実際、モデルは答えを与えられても必ずしも正解を得るわけではありません。それは興味深いことですが、かなりの頻度で正解を得ます。
そこで、与えた論理的根拠を取り、余分なヒントを取り除き、それを訓練例として扱い、訓練セットに戻すことができます。彼はこれを「合理化」パスと呼んでいます。
これを行うと、性能が少し向上します。少し重要なことですが、これで突然、合理化を伴う自己教師型推論器が、データで直接ファインチューニングされたGPT-3の性能と一致します。
素晴らしいですね。実際、言語モデルは他の人々が示したように推論から利益を得ることがわかりました。そして、いわば「勉強」することで推論の仕方を学ぶことからも利益を得ることがわかりました。
ここで少し間奏を入れましょう。人間の推論については多くのことがわかっています。基本的な論理的推論に関する人間の推論の最も重要な効果の一つは、人間は形式的な推論者として優れていないということです。なぜなら、私たちにとっては常識的知識からの干渉が多いからです。
ここでの基本的な効果の一つは、時に内容効果や信念バイアスと呼ばれるものです。常識的な状況では、論理的に妥当であるかどうかに関わらず、常識と一致する結論を支持する可能性が非常に高くなります。
例えば、「すべての学生は読書をする。読書をする人の中には論文を書く人もいる。したがって、一部の学生は論文を書く。」という場合、人々は「はい、その通りです」と言うでしょう。
形式的に同等な議論である「すべての学生は読書をする。読書をする人の中には教授もいる。したがって、一部の学生は教授である。」という場合、人々は「いや、それはおかしい」と言うでしょう。これは信念バイアスで、私たちの常識的な信念に基づいています。
この特定の研究はEvansの論文に遡りますが、それよりもさらに前から存在していました。
ほんの6ヶ月前くらい、そんなに長くない前に、主にスタンフォード出身の人たちからなるDeepMindの人々による非常に素晴らしい論文がありました。彼らは基本的に「よし、大規模言語モデルでこれらの実験をやってみよう」と言いました。
そこで彼らは、信念と一致する三段論法、信念と矛盾する三段論法、さらに内容効果のない新規または無意味な三段論法を設定しました。基本的な観察結果は人間の発見を再現しました。つまり、結論が事前の信念と一致する場合、モデルはこれが妥当な三段論法だと言う傾向があります。一方、信念に反する場合、モデルはほとんどの場合「いいえ」と言いますが、実際にはその場合の論理的妥当性についてはもう少し微妙です。これも人間が行うことです。
さて、最近私たちが行ったこと、これを説明するにはもう少し時間がかかるので、しばらくお付き合いください。人間は自身のバイアスを回避する方法を見つけてきました。特に、実験に参加してもらう素朴な人間は信念バイアスの影響を非常に受けやすいですが、この部屋にいる皆さんに三段論法の推論をしてもらえば、自分自身を捕まえて、慎重にステップバイステップで考え、一階述語論理が望むような形式的な結論に達するでしょう。
つまり、人間ができることは、私たちが開発してきたツールを使って推論を外在化することです。例えば、推論の誤謬だと判断したものを避けるために論理を使用するなどです。
最近、私の学生のGabriel Poaと共著者たちは、言語モデルもこの種の外在化された推論から利益を得られるかどうかを問い始めました。
実際に最初に行ったこと（これは少し歴史的に不正確ですが、これを最初に行い、後で戻ってきます）は、定理証明言語と環境を定義したことです。彼はこれを「piano」と呼んでいます。これは基本的に依存型のラムダ計算で、LeanやCoqをご存じの方には非常によく似ています。
詳細には立ち入りませんが、重要なのは、数学で望むすべての標準的な証明理論の形式化を表現するのに十分な表現力を持っているということです。
pianoのもう一つの重要な点は、証明規則を制限していることです。各証明規則に対して単一の公理のみを適用できるように制限しています。これにより、実質的に各証明ステップでの行動空間を有限の空間に制限します。
これは実際には言語の表現力を制限するものではありません。最終的に同じ証明に到達できますが、より多くのステップを要することになります。
これを行う理由は、私たちが言語モデルや強化学習で一般的に使用したいと考える技術が、各ステップでの行動空間が有限である場合にはるかにうまく機能するからです。CoqやLeanのような言語で現代的な機械学習を行うのは、導出可能な次のステップの可能性が爆発的に増えるため、実際には非常に難しいのです。
pianoは非常によく似ていますが、有限の行動空間に制限しています。
ここでは多くを言う必要はありませんが、pianoで標準的なものをすべて形式化できるということです。ここに代数、幾何学、数論などのすべての良いものがあります。
そこで、この形式的推論ツールを使って言語モデルを拡張するというアイデアが生まれました。これは見るのがかなり難しい高レベルの概略図ですが、すぐに説明します。
基本的なアイデアは次の通りです。言語モデルはトークンごとにシーケンスを生成する責任があります。これは言語モデルが得意とすることで、素晴らしいことです。
証明システムは、これまでに導出された項が与えられた場合に、導出可能な次のステップを生成する責任があります。これも非常にうまくできます。
私たちはこの2つを組み合わせたいと考えています。そのために、制約付き生成ブロックを使用します。ここでは、言語モデルに好きなものを生成させるのではなく、論理的推論エンジンによって有効と見なされるものに言語モデルの生成を制限します。
ここで概略的に示しているのは、シーケンスをまだステップバイステップ、トークンごとに生成していますが、論理エンジンによって有効と見なされないシーケンスを許可しない方法で行っているということです。
これをどのように行うかについては少し微妙な点があります。基本的な高レベルの概略は実際にはとてもシンプルです。
言語モデルは特別な種類の開始括弧を生成することが許可されています。その開始括弧を生成すると、制約付き生成モードに入り、証明システムに従って真であるものだけを生成できます。
実際に制約を行う方法は、生成時に正規表現のクロージャーに制限できる「synchr mesh」と呼ばれる非常に巧妙なアルゴリズムを使用しています。説明はしませんが、これについての素晴らしい論文があります。
そして、言語モデルが閉じ括弧を生成すると、自由生成に戻ります。
これは、言語モデルで行える非常に一般的なことで、私たちは「ガイドツール」と呼んでいます。これは最近、言語モデルで人々が行っているような種類のツール使用を一般化したものです。
特に、制約ブロック内で使用する基礎となる計算が論理（pianoのような）である場合、私たちはこれを「論理ガイド」と呼びます。
論理ガイドは基本的に2種類のことを行うことができます。新しいオブジェクトや公理を導入するか、または以前に構築された項から1つの公理ステップで到達可能な推論ステップを行うかです。
例を示しましょう。
まず、言語モデルに与えるのは、論理ツールの使用方法を知るための数ショットのデモンストレーション（おそらく1つだけ）です。そうしないと、開始括弧を生成することはありません。
次に、問題を与えます。例えば、「ネズミがトラを訪れる。何かがトラを訪れるなら、それはネズミを訪れる」などのストーリーを伝えます。
そして、言語モデルはオレンジ色の部分で示されているオブジェクト、関係、公理を形式化するブロックを生成します。これは与えられた自然言語を形式化するプロセスを経ます。実際、1つの例だけでこの形式化を行うのはかなり上手です。
目標を形式化し、青い部分は推論ステップを使用することを決定し、論理的に到達可能な状態の制約付き生成を行う部分です。
さて、この追加の論理ガイドという外在化を与えられた言語モデルが、与えられていない言語モデルと比較してどれだけうまく機能するかを比較したいと思います。
まず、先ほどのGupta論文の三段論法タスク、実際にはEvansの心理学研究に戻ってみましょう。
青い棒グラフは、3つの異なる言語モデルが思考の連鎖推論を単独で行った場合の結果を示しています。ここで見られるのは、これらのモデルがこのタスクにあまり優れていないということです。強い信念バイアスの効果があります。
興味深いのは、一貫性のあるケースでは、言語モデルは基本的に常に事前知識と一致する答えを与えます。これは、データセットがバランスが取れているため、50%の時間で正解となります。つまり、チャンスレベルです。
一貫性のないケースでは、少し正確性が高くなります。なぜなら、結論が常識的知識に反する場合、実際には論理的妥当性に従って推論することが少し多くなるからです。これも人間が行うことです。
そして、オレンジの棒グラフは、言語モデルに論理ガイドを使用させた場合の結果を示しています。より強力なモデルであるGPT-3とGPT-3.5では、基本的に天井効果が見られます。この外在化を使用する例を1つだけ与えたにもかかわらず、それを使用することと、答えを生成する際にそれに注意を払うことが非常に上手です。
Llamaモデルはより小さく、弱いモデルです。興味深いのは、論理ガイドなしでは完全にチャンスレベルであり、論理ガイドを使用すると少し向上しますが、天井効果のようなものは見られないことです。この点については後で戻ってきます。
また、多段階推論も見ることができます。ここで示した例、ネズミとトラの馬鹿げた例は、Pronto QAと呼ばれる多段階推論タスクから取られたものです。
Pronto QAと、それに似たProof Writerというデータセットを見ることができます。これも、信念と一致する、信念と矛盾する、そして無意味な単語に分割されたデータセットです。
ここで示しているプロットでは、見にくい細い線が論理ガイドなしの場合で、太い線が論理ガイドありの場合です。色は異なるモデルを示しています。
見てわかるように、驚くことではありませんが、真の条件でのPronto QAはみんなにとってほぼ天井効果です。これは、常識的知識と一致している場合、真の条件で正解を得るからです。
しかし、偽の条件では、論理ガイドを持たないモデルは本当に悪い結果を出します。特に、必要な論理的推論のホップ数が長くなるにつれてそうなります。
論理ガイドは大部分でこれを修正し、信念と矛盾する場合でも、モデルがはるかに正確に推論することを可能にします。まあ、長いと言おうとしましたが、そんなに長くありません。3つか4つの推論ステップです。
注目すべき例外は、再びLlamaモデルです。Llamaモデルはこの種の推論を始めるのがあまり得意ではなく、論理ガイドを使用すると多くの場合少し改善しますが、天井効果には程遠いです。つまり、追加の情報に適切に注意を払うことができていません。
そこで、自己教師型推論器（STaR）のプロセスを論理ガイドを組み込んで行うとどうなるか調べることにしました。
STaRの本当に興味深い失敗モードがあります。これは二値応答のタスクですが、二値応答の問題は、ランダムに選択すれば半分の確率で正解になることです。そして、偶然に半分正解した自分自身の推論で自己訓練すると、間違った推論パターンを強化してしまいます。
ここの赤い曲線で見られるのは、単純なSTaRを行うと、最初はほんの少し改善しますが、その後カタストロフィックに干渉し合い始めることです。
そこで、ガイドを使用して応答を改善し、それだけを行うとどうなるかを見てみました。
結果は、ガイドがあるだけで最初に改善が見られます。これは少し精度が向上するからです。
しかし、それでも間違った理由で正解となる応答がかなりあるので、自分自身の推論で訓練を続けると性能が低下し始めます。
最後に試したのが黄色の曲線です。論理ガイドが妥当な結論を導き出した議論のみで訓練を行います。
これは推論が正しいことを保証するものではありません。なぜなら、論理ガイドが問題を正しく形式化していない可能性があるからです。これは、形式化された問題から妥当な結論を導き出したことだけを保証します。
しかし、それだけで多くの悪い推論を取り除くのに十分であることが判明し、これが黄色の曲線です。ここで見られるように、今度はブートストラップし始めています。
これは本当に興味深いと思います。なぜなら、自己学習と形式化された外在化認知システムの間にシナジーがあることを意味するからです。これらは非常にうまく組み合わさります。
素晴らしいですね。さて、推論、特に論理的推論について多く考える人々、この部屋にはたくさんいると思いますが、これらのケースで行わなければならない推論はそれほど広範囲ではないという批判があるかもしれません。
論理的推論の5ステップ、分岐係数のために大きいかもしれませんが、巨大ではありません。
そこで、私たちが考えているもう一つのことは、ある意味でより現実的、あるいは有用で、人々が実際に学ぶことを強いられるものに近い領域ではどのように見えるかということです。特に、中学校の数学や高校の数学のようなケースを見ています。
Khan Academyは素晴らしいリソースです。基本的に1年生から高校までの数学のカリキュラムです。
私たちは、Khan Academyの代数カリキュラムに入り、最初の5つのセクションを抽出してケーススタディを行いました。
これらは、式の代入と評価の学習、同類項の結合、一段階の加減算方程式、一段階の乗算方程式、そして彼らが「二段階方程式」と呼ぶものです。
これらはすべて、最終的には非常に単純な方程式を解くことを学んでいます。
しかし、これらの単純な方程式でさえ重要なのは、代数の公理から導出すると、解法が本当に長くなるということです。
pianoで形式化できることを示しましょう。pianoは、他の定理証明言語と同様に、これを形式化するのに適しています。形式化は長くありません。実数型、交換性、結合性などの公理があります。
そして、私たちが行うのは、pianoで公理を書くことです。
重要なのは、これは重要ではありません。Khan Academyから見つけた演習問題を、新しい問題をサンプリングするためのテンプレートに変換します。
これにより、Khan Academyの各セクションからかなり大きな問題分布を得ることができます。
これは明確に定義された探索問題を指定します。これは標準的な論理的探索問題です。
明確に定義されていますが、各ステップでの分岐係数はある種巨大で、単純な方程式でさえ答えに到達するのに実際にたくさんの公理的ステップが必要です。
そこで、組合せ探索を素朴に行うとうまくいかないことがわかります。基本的に、1950年代か60年代に皆が知っていたことを見ているわけです。
この場合、幅優先探索をかなり大きな量まで行っても、Khan Academyの各セクションのうち本当に低い割合しか解けません。したがって、もう少し賢いことをする必要があります。
最初に試したことを説明する前に、もちろん人々が知っている賢い方法がたくさんあります。許容ヒューリスティックを使用するなど、様々な方法があります。私たちが興味を持っていたのは、強化学習エージェントに探索自体の方法を学習させるとどうなるかということでした。事前に探索の方法を教えるのではなく。
そこで私たちが行ったのは、一連の論文で、先ほどSTaRで示したのと同じ非常にシンプルな強化学習アルゴリズムを使用することでした。これは時々「エキスパートイテレーション」と呼ばれます。
このアルゴリズムは、既存の探索ポリシーを使用して問題をランダムにサンプリングし、既存のポリシーを使用して単純なビーム探索で解こうとし、答えを見つけられなかったものを捨て、成功した答えを得たものに対して模倣学習（ファインチューニング）を行い、そしてこれを繰り返すというものです。先ほど示したのと同じループです。
この場合、言語モデルは使用していませんでした。これは2021年のことで、今では古代の歴史のようなものです。代わりに、対照学習と呼ばれるものを行っていました。
ここに図がありますが、対照学習は基本的に、方程式や状態の表現を学習するために、文字列をある種のベクトル空間に埋め込みます。対照学習は、有効な解決パスにある2つの状態をより近づけ、無効な解決パスにある状態をより遠ざけるというものです。
これをノイズを減らすためのちょっと凝った推定器で行います。そして、これだけで表現空間を学習するのに十分であることが判明しました。そこでのポリシーは単に、現在の状態に最も近い可能な次の状態に移動するというものです。
これはかなりうまくいきます。そして、これらのKhan Academyのドメインで行うと、最初のいくつかのセクションはうまく解けることがわかります。しかし、その後行き詰まり、あまり進歩しません。
そこでGabrielはこれを掘り下げ、なぜ行き詰まるのかを観察しました。予想通り、セクションが進むにつれて、初期の公理の観点から見た解法が長くなっていることがわかりました。
これは特に、pianoのような項書き換え推論を行う場合に複合的な問題となります。なぜなら、より多くのステップを踏むほど、より多くの項を構築し、評価すべき可能な次の項がより多くなるからです。そのため、巨大な分岐係数の爆発が起こります。
そのため、ブートストラップするための有効な解を見つける確率が急激に低下します。これは、先ほどSTaRで話した問題の補完的な問題です。以前の問題は、間違った理由で正解を見つけるのが簡単すぎるというものでした。この問題は、正しい理由に制限すると、そもそも答えを見つけるのが難しすぎるというものです。
Gabrielは、人間がこれらのことを学ぶときに直感的に何が起こっているかについて少し考えました。重要な観察は、Khan Academyが「一段階の加減算方程式」と呼ぶ問題に到達するまでに、もはや最も基本的な公理の単位では考えていないということです。
既に代入や評価、同類項の結合について学んでいます。そのため、Khan Academyの以前のセクションの観点から見ると、解法を本当に3つのステップで考えることができます。両辺から数を引くことができると気づくのが新しいステップで、次に同類項を結合し、右辺に代入すると解けます。
これらの代替的な推論単位の観点から見ると、15ステップの解法が3ステップの解法になります。
Gabrielのアイデアは、これがおそらく人間の学習者がカリキュラムを通じて行っていることだろうというものでした。証明を再構成し、単純化するために使用できる抽象化を学んでいるのです。では、私たちも同様のことができるでしょうか？
そこで、プログラム帰納に関する素晴らしい古い文献に立ち返りました。
まず、pianoにタクティクスを導入しました。タクティクスは実際には公理や他のタクティクスの単なるシーケンスです。
そして、反単一化によるタクティク帰納を行います。これは、これまでのすべての成功した解を見て、一致する部分を探し、一致する部分に基づいて新しい関数を作成しようとすることを意味します。一致しない部分には変数を導入します。例えば、ここでP0は2つの緑色の部分の間で一致しません。
これにより、エキスパートイテレーションループの興味深く拡張されたバージョンが得られます。まず、再び多くのランダムな問題を解きますが、今度は現在のタクティクを公理的ステップとして使用します。次に、反単一化を試みて解を圧縮し、新しい良いタクティクを見つけます。そして、新しいタクティクを使用して書き直し、それらに基づいて解くようにモデル（ポリシー）を訓練します。真ん中に、この追加の抽象化ステップを導入しました。
ここで言うべきだったのですが、これはKevin Ellisのdreamcoderの研究に似ています。dreamcoderは非常にクールなシステムですが、これはすべて定理証明のセットアップで行われており、いくつかの重要な詳細が変わります。
そして、この抽象化ステップを行うと、Khan Academyのすべてのセクションを解くことができることが判明しました。興味深いのは、これが一種の移行の瞬間を経験することです。これを掘り下げると、有用な抽象化、新しいタクティクを形成するのに十分な証拠が得られ、それが訓練に必要な解を見つけることを可能にしていることがわかります。
もう少しで終わります。これについてもう一つ興味深いことを発見しました。
人間の数学に関する事実で、大学院生の頃から私を悩ませていたものがあります。歴史的に代数のようなものを発明するのに長い時間がかかったにもかかわらず、高校生が1、2学期ですべての代数を学ぶことを期待しています。
この加速を説明する多くのアイデアがありますが、なぜ一人の人間が人類社会が到達するのに長い時間がかかったことを短時間で再現できるのかということについて、一つのアイデアは、カリキュラム、つまり物事を導入する順序が重要だということです。
タクティクを持つpianoを使用して、このアイデアの単純なテストを実際に行えることに気づきました。
基本的に、最初は訓練問題はカリキュラムの順序で見られませんでした。ランダムな問題を取り上げただけでした。
しかし、タクティクを持つ解は順序付けることができます。なぜなら、タクティクは他のタクティクを呼び出し、お互いに依存するタクティクに基づく解のトポロジカルソートを行うことができるからです。
そして、そのトポロジカル順序に従ってカリキュラムを作ることができます。単純なタクティクを必要とする問題が最初に来て、以下同様です。
ここの緑の曲線は、青の曲線から得られたタクティクに基づくカリキュラム順序を使用して、エージェントの新しいコピーを訓練し直した場合の結果です。
私たちが発見したのは、カリキュラム順序のエージェントが体系的に同じことをより速く学習するということでした。300年が1学期に圧縮されるのを説明するには十分ではありませんが、私は非常に興味深いと思います。
また、元のKhan Academyのカリキュラムの順序も、順序の対称性を除いてかなりよく再構築します。
最後に、私はこの図から始めました。ここで言ったのは、突然、知的なものの空間に2つの知性があるとしたら、それらを比較対照することから何を理解できるだろうかということでした。
そして、鳥や飛行機についての奇妙な話に逸れましたが、基本的なポイントは、一度物事を比較できるようになると、何が普遍的な原理に見えるか、何が機能的な要求や原理に見えるか、そして何が偶発的な事実に見えるかを問うことができるということです。
これが最終的な答えになることを意図しているわけではありませんが、言語モデルを研究し、人間の推論と比較することで、これらの本当に興味深いことを抽出し始めることができると思います。
最初に主張しようとしたのは、シーケンス予測（必ずしもトランスフォーマーアーキテクチャではありませんが）と、局所的な観測のような訓練データのこれらの特性が、推論がいつどのように役立つかを説明する普遍的な原理であるということです。
一方で、中盤で話したことの一部、自己改善や外在化のようなものは普遍的ではないと思います。これらなしでも推論システムを持つことはできますが、機能的な要求や原理に非常によく似ていると思います。自己改善するシステムを望むなら、良い推論と悪い推論を区別する能力のような特定の特性が必要になるでしょう。
最後に、本当に偶発的な事実だと思われるものがあります。人々は言語モデルがステップバイステップの推論を生成するのを見て、「ほら、言語モデルが口を動かしている」と言います。推論するときに話さなければならない。人間はそうしない。これは事実だと思いますが、私たちがたまたまそれらの言語モデルをそのように構築したという退屈な結果だと思います。
同様に、人間は信じられないほど悪いワーキングメモリを持っています。私たちがしなければならないことの多く、外在化しなければならないことの多くは、おそらくこの進化の偶然の結果です。
希望的には、この種の分類法が、今や我々がより多くの有用なエージェントの例を持つようになった（ここで話したものだけでなく）、知性の空間についてより多くを学び、人間の知性に過度に最適化することを避けるのに役立つでしょう。
ここでもう1枚のスライドがあるはずで、私の学生たちに感謝するものですが、変わっていないようです。いずれにせよ、この仕事をすべて行った私の学生たちに感謝します。
素晴らしい、それは本当に興味深かったです。そして、部屋に質問があります。はい？
ありがとうございます。これは魅力的でした。あなたは知能から推論への飛躍をしましたが、大規模言語モデルが知的であると仮定しました。しかし、推論以外にも知能の重要な側面はありませんか？
はい、わかりません。スタンフォードで認知科学の入門講義を教えていますが、コミュニティ全体で最も気になることの一つは、私たちが直感や「それは知的に見えない」「これは知的に見える」といった感覚で知能とは何かを知っていると仮定していることです。
これらの日、私の本能は次のように言うことです。以前は知的な人間の行動と考えられていた多くの行動を行うなら、それを知的システムのクラスに入れ、それを理解し、違いを理解しようとしましょう。境界がどこにあるべきかを知っていると考えるのではなく。
つまり、私の答えは、私は推論に特に興味があるということです。そして、知的と非知的の境界がどこにあるべきかわかりません。これらのものを例として取り上げ、それらが何をし、人間の推論とどのように比較されるかを見ることが、生産的な前進の方法のように思えます。
それは公平です。おそらく、知的推論と言いたいかもしれません。そして、確かに知的知覚は全く別のところにあります。
はい、興味深い講演をありがとうございます。これが些末なことなのか実質的な批判なのかわかりませんが、プロフェッショナルな立場で推論を行う人は、pianoのような方法では推論しません。人間が演繹的に推論を行う場合、自然演繹を使用します。これはすべて仮説駆動型です。
西洋世界での論理の教育において、ヒルベルトスタイルのものは学びません。再び自然演繹を学びます。大規模言語モデルにこのような仮説駆動型の推論を与えると、それに頼ることができません。これはあなたが探索空間について言ったことに関係しています。単一の推論図式や1つか2つの推論図式は無意味です。それは人間がすることではありません。真剣に推論を行う推論者がすることではありません。
私はこれが最終的にはそこに至る途中の段階かもしれないと思いますが、よくわかりません。
2つ目は、すぐに2階論理を教える必要があります。2階論理がなければ、任意のプロパティについて推論することができません。私たちはそれを教えます。2階論理がなければ困ります。
歴史的にこれが大きな成果を上げた場所を見るのに良い例は、アインシュタインがゲーデルから受け取った贈り物でしょう。彼はタイムトラベルが可能であることをどのように証明したのでしょうか？公理から導き出したのではありません。仮説的な状況を想像し、そこから推論を進めました。これは2階、もしかしたら3階の論理です。
これは初期のものだと言うかもしれませんが…申し訳ありません。
はい、はい、あなたが言っていることはわかります。
そうですね。一方では主に要点を外していますが、他方では同意できる要素があります。
まず、pianoは依存型のラムダ計算なので、高階です。私は1階の設定で使用しましたが、それは実際には制約ではありません。
使用する公理的基礎の問題は興味深く重要だと思います。形式手法コミュニティがLeanやCoqのような依存型ラムダ計算に基づくものを使用している非常に良い理由があります。
実際、私たちが気にする数学のほとんどを自然演繹に基づいて基礎付けるのは、部分的には高階の問題のために、非常に難しいのです。
私はこの競争に大きな馬を持っているわけではありません。しかし、形式的な理由でそこに結びつく理由があると思います。
ここで重要なのは、そのようなことではありません。本当に重要なのは、形式的に指定された探索空間（原理的に与えられた問題を解くことができる）と、中間的推論の種類、および推論を学習することの関係を理解することです。
実際、私たちは自然演繹でも同じことを行いました。同じことが起こります。単に、ほとんどの聴衆にとって自然演繹は少し珍しく見えるので、説明するのが難しいだけです。
非常に重要な技術的なことが1つあります。現在のpianoは後方推論ステップをサポートしていません。これは重要です。
興味深いことに、数学のカリキュラムにはそれが起こる非常に重要な瞬間があります。代数ではありません。高校までではありません。突然、後方推論を行う必要がある最初の高度な数学コースです。
これは現在考えていることの1つです。帰納法による証明をどのように導入するかということにも関係しています。
申し訳ありませんが、関係のないことを1つ言いたいと思います。証明規則の数を制限しようとすることは、実際には良いアイデアではないと思います。なぜなら、その道を行くと分解に行き着くからです。
分解に関する論文には驚くべき引用があります。これは完全に人間には解読不可能な1つの規則ですが、構造上完全に人間には解読不可能です。だから、それが最終的な道筋であることは明確ではありません。
後でもっと話し合いたいと思います。
部屋にはもっと質問がありますか？素早く行きます。申し訳ありません。
いいえ、素晴らしく興味深い内容だったので…
はい、講演をありがとうございます。この研究は本当に素晴らしいと思います。魅力的です。
私は大規模言語モデルが人工知能になると思っていませんし、人間のように多く考えているとも思いません。しかし、これらは非常に興味深いシステムだと思います。それらができることとできないことを探ることに非常に興味があります。
そういう観点から、おそらく私たち全員と同様に、私自身もこれらのシステムを使って遊んでいます。
Khan Academyの単純な算術の内容は印象的で興味深いですが、明らかにウェブ上の訓練データセットにはその種の数学の非常に多くの例があります。これは役立ちます。
もちろん、人間も人生の中で見た多くの例を主に扱っています。そのため、それは…しかし、例の数は多くありません。
見たいのは、少し定義が難しいかもしれませんが、ある意味で同程度の複雑さと難しさを持つ、比較可能なクラスの問題です。一般相対性理論の場合方程式ではなく、エイリアンが作り出したかもしれない他の形式システムのようなものです。10本の指を持っていない何かです。
そのような比較的単純な数学知識の体系を試して、アルゴリズムにそれを行わせ、どの程度の転移が可能か、またはオンラインにある多くの算術問題による事前知識なしでどれほど悪くなるかを見るのは興味深いでしょう。
私は倫理的推論で似たようなことを試みました。実際、GPT-4がどのように行うかに感心しました。人間の状況からの倫理的パズルを与えたり、エイリアン文明を定義してその文脈で倫理的パズルを与えたりしても、そのコンテキストでそれほど悪くはありません。
しかし、これらの倫理的パズルは、ある意味で算術よりも推論の深さが浅いです。
はい、それを設定するのは難しくて面倒なことは明らかですから、なぜあなたがそれを行っていないかはわかります。しかし、そのような設定でこれらのシステムがどのように機能するかについて、あなたの直感はどうですか？
はい、良い質問です。
データ複雑性の問題について、これはあなたが言ったことの一部に過ぎませんが、人々はこれをよく持ち出しますが、実際にはまっすぐにするのが悪魔のように難しいと思います。
私たちのほとんどの言語モデルと、例えば人間の高校生の経験の間には、非常に多くの次元で違いがあります。彼らが見るデータの種類、人間の学生は他のものと同様に、多くの種類の自然言語による説明を受けます。など、など。
これは、これを異なる経験を持つエージェントの空間として概念化し、それらの異なる能力を探求することがより有用かもしれないと考える理由の一部です。
彼らは実際にかなりよく一般化します。言い方が難しいのですが…本当に高い基準を持つことができます。つまり、私が作り出した奇妙な新しい形式的なドメインで、6つの例を与えて、完璧に学習し一般化することを期待するというような基準です。彼らはそれを行いません。しかし、人間もそうではありません。
これは予備的で公開されていませんが、単純なことを行いました。文字列書き換えドメインを作成します。基本的に、代数が機能するのと同様の高レベルの構造を持つ新しいドメインを定義する文字列書き換え規則があります。
新しいドメインを定義することで、人間が見たことのないシステムを作り出すことができます。同様にモデルも。そして、少しより公平な比較ができます。
これまでの発見は、これらは人間にとって本当に難しいということです。人間はこれが得意ではありません。カリキュラムから多くの利益を得ますが、完璧ではありません。
私たちのモデルも同様に素晴らしくはありません。カリキュラムから利益を得ます。これらのことについては人間よりも少し優れていると思います。
しかし、多くは事前知識と訓練の種類に依存します。
質問の最初の部分に戻ると、私の考えは次のようです。これらのものは人間のような知能である必要はありません。それがより興味深いのは、今や比較対照できるからです。
私はそれらが知的だと思います。なぜなら、10年前に私が最後にAGIにいたときには彼らができると思っていなかったことをたくさんできるからです。
そして、多くの異なることを行うという事実だけで、それらは一般的だと思います。
おそらく、15〜20年前にAGIと言ったとき、名前にない他のことも考えていたのでしょう。それは素晴らしいコーヒーの話題ですね。
はい、それは公平です。驚くほどよく一般化すると思いますが、私たちではない個々の人間は実際にはそれほどうまく一般化しません。そして、それが出発点だと思います。そこから、これらは同じくらい、違う、より良く一般化するかどうかを言う必要があります。
もっと時間を取りたくありませんが、たくさんの質問が来ています。
オンラインでの質問はありませんが、この素晴らしい議論をフォローしていただけることを願っています。
会議議長からの一般的な質問があります。
ノア、素晴らしい講演をありがとうございます。
はい、探索について興味があります。探索がどこに入ってくるのか。
あなたが言及した推論の普遍的原理に探索を追加するべきだと思いますか？
また、システム2の推論を大規模言語モデルに可能にするために探索を追加する必要があるとお考えですか？
はい、素晴らしい質問です。
これらの言語モデルの設定で探索を追加する方法は2つあります。
1つは基本的に、言語モデルの外部の計算として探索を行い、言語モデルが継続をどのように探索するかを構造化します。
もう1つは言語モデルの内部で、言語モデルがバックトラックや他の場所から進むことを含め、どのステップを取るかを決定します。
最近、両方の方法が試されています。最初の方法を行う「思考の木」という論文があります。2つ目の方法を部分的に行ういくつかの論文があります。
どちらがより生産的になるかはまだ明確ではありませんが、哲学的には大きな違いがあると思います。
言語モデルが内部で、自身のシーケンスモデリングの中で探索を行う方法を学習できることが判明した場合、探索はトップレベルの原理ではなく、推論を行うことから生まれるものだと思います。
それが起こるのを見たいと思いますが、まだわかりません。
一方で、自発的に現れず、構造に関する何かを組み込む必要がある可能性もあります。
最近の私の学生の論文から知っていることの1つは、大規模言語モデルに体系的な探索の例を示すと、例えば行列ゲームのゲーム木を探索する例を示すと、他の行列ゲームにかなりよく一般化し、その探索プロセスを再現することができるということです。
これにより、基本的なものはシーケンスモデリングであり、探索はそこから生じる可能性があると考えられますが、まだわかりません。
はい、ありがとうございます。あなたの魅力的な仕事に感謝します。
言語モデルはAIの1つの構成要素だと本当に思います。分布のドリフトを継続的に学習する方法を理解する必要があります。
しかし、ガイド付きファインチューニングについての私の質問は、完全にエンドツーエンドで言語モデルを、チューリング完全な記号プログラムに基づいて訓練することが可能だと思いますか？
そして、これはアライメント問題の解決策の1つかもしれません。ありがとうございます。
はい、ところで、オンラインの生涯学習については同意します。私たちはそれをうまく行う方法をまだ知りません。それを解明する必要があります。低ランク近似は良いトリックです。本当にクールです。
計算の問題、チューリング完全性については、2つの魅力的な事実があります。
1つ目は、トランスフォーマーはチューリング完全ではありません。実際にかなり制限された形式的表現力の空間を持っています。
例えば、パリティ問題を解くことができません。そこにはいくつかの仮定がありますが、パリティを解くことができません。
中間推論を伴う言語モデルは、中間推論のない言語モデルよりも計算的により表現力があります。これは興味深いことです。
論理ガイドのような最も単純な種類の外部ガイドを持つ言語モデルは、実際に普遍的に完全になります。
これは、2つの文脈自由文法を交差させると突然文脈自由でなくなるのと非常によく似ています。
そのため、トランスフォーマーは完全ではありませんが、それらをその点まで引き上げるための非常に単純なことがいくつかあると思います。
したがって、それはおそらく見えるほど難しくないかもしれませんが、それらのものをどのように混ぜ合わせるかについては、依然として大きな訓練の問題があります。
はい、それは複雑な質問です。エンドツーエンドではありません。離散的なものがあるからです。
私が示したモデルのほとんどは、基本的に強化学習のセットアップとして訓練を行っていました。ただし、この本当に単純なエキスパートイテレーションのスタイルです。
これはエンドツーエンドではありません。トークン生成を通じて勾配を得ることができないからです。
完全にそうする必要があるかどうかは明確ではありません。これらの単純な強化学習アプローチがうまく機能するからです。同様に、RLHFもエンドツーエンドではありません。しかし、うまく機能します。
事前訓練については、スケーラビリティの理由から明らかにそれが必要です。
実際に私たちが発見したのは、私たちが気にしているのはリスク最小化逐次密度推定器だけだということです。そして、魔法ではないものの、スケールでそれをどのように行うかということに魔法があったのです。
エンドツーエンドは役立ちましたが、必要ではないかもしれません。など。
ああ、はい。素晴らしい講演をありがとうございました。本当に楽しかったです。
私の質問が素朴だったら許してください。私は哀れな愚かな数学者なので、このAIの話はすべて私の頭を超えています。
私は自己教師型推論器の正当化の分岐に特に興味を持ちました。特に、自分の数学的経験を振り返ると、思いつきで提案する部分と、それを非常に批判的に検討する部分の両方があることに気づきます。
そして、証明に関するLakatos的な説明で見られるような、行ったり来たりのゲームがあります。
提案者と反対者の両方を組み合わせたものを探求したことはありますか？
はい、私はそれを探求していませんが、最近の研究ではそれを行っています。2つのことを言及させてください。
去年だと思いますが、名前を忘れましたが、基本的に検証者を見ている論文があります。STaRのようなことを行いますが、正解を知らずに多くの例を生成し、それらに投票させるのではなく、外部の検証者にどれが良さそうかを言わせることができます。これは非常に役立ちます。
これは本当にクールです。
もう1つ、非常に最近のことで私が魅力的だと思うのは、人々がこの改訂の一部として自然言語による批評をもっと行うようになったことです。
私たちは何もしませんでした。単に正解か不正解かだけでした。
最近、人々はモデルに自身の失敗に対する自然言語の批評を生成するよう求め、それを使って改訂しています。これはGPT-4でのみ機能するようですが、また別の創発的なものであるようです。
それはかなり効果的であるようです。これは、私の個人的な内省と同様に、本当に魅力的だと思います。
これを行う「Reflexion」という素晴らしい論文や、ここ1ヶ月くらいの間に出た他のいくつかの論文もあります。
まあ、この会話はずっと続けられそうですね。部屋の中の皆さん、質問をありがとうございました。
ノア、今日の本当に刺激的な始まりをありがとうございました。はるばるここまで来ていただき、ありがとうございます。
ノア・グッドマンに大きな拍手をお願いします。