ChatGPTは推論できるのか?

※長文のため、テキストの読み上げ機能の使用を想定しております。各OS標準搭載のアクセシビリティ機能(読み上げコンテンツ)、もしくはMicrosoft Edgeブラウザの「音声で読み上げる」機能をおすすめします。

Prof. Subbarao Kambhampati argues that while LLMs are impressive and useful tools, especially for creative tasks, they h...

推論の厄介な点は、推論を必要とする質問をされて答えを出した場合、表面的には私がその答えを記憶していて言っているのか、実際に一から推論したのかを見分けることはできません。私のお気に入りの例は、昔マイクロソフトが面接を始めた頃、マンホールの蓋が丸い理由を聞くという質問をしていたそうです。この質問に最初に答えなければならなかった人は、基本的に一から推論する必要がありました。つまり、他のどんな形状でも操作すると蓋が落ちてしまうことに気づく必要がありました。丸いものだけが、実際に蓋をいじっても落ちないのです。もし蓋が落ちてしまえば、すべての穴が蓋のない状態になってしまいます。これは巧妙な考え方ですが、最初の数人はこれをしなければなりませんでした。今では誰かがこの質問を面接で聞かれたら、候補者の答えを聞いただけでわかるのは、その人が面接の準備をしてウェブで一般的なマイクロソフトの質問を調べたかどうかだけです。
大規模言語モデルを使った暗黙的な推論をより良くする方法の1つに、マンホールの質問のような質問をする際にBrave検索APIを使用し、検索結果を活用した生成を行う方法があります。これは独立した手頃な価格の検索ソリューションで、情報検索をはるかに効率的にしています。ゼロから構築されたBraveのインデックスは200億以上のウェブページをカバーしており、大手テクノロジー企業に多くみられるバイアスから解放されています。さらに際立っているのは、データ収集に対するユニークなアプローチです。Braveはこの強力なツールを開発者に優しい価格で提供しており、ビジネスの規模に応じて拡張可能なため、あらゆる規模のプロジェクトにアクセスしやすいオプションとなっています。Brave検索APIのメリットを直接体験することをお勧めします。brave.com/apiを訪れれば、毎月2000クエリを無料で始められます。
MLSTに出演していただき光栄です。長い間、遠くから大ファンでした。自己紹介していただけますか?
はい、まず招待していただきありがとうございます。私はスバラオ・カンバンパティと申します。アリゾナ州立大学の古参教授で、今年で33年目になります。AIの分野では学部生時代から仕事を始め、40年ほど前に音声認識をやっていました。その後、研究キャリアのほとんどを計画立案と意思決定に費やしました。過去10年、正確には過去7年ほどは、説明可能なヒューマンAIインタラクションを研究していました。最近の2、3年は、大規模言語モデルの推論能力や計画立案能力についての主張を検証することに注力しています。これが私の経歴のあらましです。
あなたは、大規模言語モデルはステロイド剤を打ったN-gramモデルや、おおよその検索システム、あるいはデータベースのようなもので、そのままでは推論や検証はできないと述べています。もう少し詳しく教えてください。
まず第一に、大規模言語モデルは基本的に自己回帰的な方法で訓練されており、次の単語を完成させる、つまり次の単語を推測できるようになっています。これは本質的にN-gramモデルで、クロード・シャノンの時代から存在しています。違いは、それらのN-gramモデルがNが1や2や3だったことです。バイグラムモデルやトライグラムモデルについてはかなり理解が進んでいます。例えば「左」と言えば「右」を連想するのが、トライグラムモデルの一種です。実際に起こっていることは、低いGPT-3.5でさえ3000-gramモデルのようなものです。つまり、直前の3000単語が与えられたとき、次に最も可能性の高い単語は何かということです。同じアイデアですが、巨大なステロイドを打ったようなものです。
厄介な点は、3000語のシーケンスの数が、約5万語の語彙があるとすると、50000の3000乗になることです。N-gramモデルを通常の方法で行おうとすると、2つの問題に直面します。1つは、次に来る可能性のある単語の条件付き確率表を持つために必要な、巨大な行数です。もう1つの問題は、同じ3000語が2回以上出現する可能性が本質的にゼロであることです。3000はGPT-3.5の話ですが、今では100万語のモデルについて話しています。
LLMについて驚くべきことは、本質的に本当に大きな…そして巨大な量の圧縮が行われているということです。学生には、GPT-3.5が1760億のパラメータを持っていると聞いて驚くかもしれないと言いますが、実際にはそれがたった1760億であることを非常に喜ぶべきだと思います。なぜなら、もし本当に一から原理的にやろうとすれば、50000の3000乗になってしまい、それは実質的に無限大だからです。
このような巨大な圧縮が行われているため、興味深いことに、どんな圧縮でも一般化に対応します。圧縮するということは、以前はゼロだった行の数が、今では非ゼロになる可能性があるからです。そして、これらの訓練されたモデルで完成させると、非常に興味深い特性を持つ完成が得られることが経験的にわかっています。特に、それは生成的なモデルであり、ある種の生成的なIEMなので、分布を非常によく捉えます。つまり、訓練されたデータのスタイルを捉えているのです。
英語を第二言語として学んだ者として、文法規則で英語を学びましたが、それはほとんど意味をなさないものでした。第一言語では文法を学ぶのではなく、ただ言語を話すことを学びます。第二言語では、規則と例外、規則と例外に従う傾向があり、それは言語を学ぶのにかなり難しい方法です。GPT-3やGPT-3.5が登場したとき、文法的に間違った文を作ることができないことに絶えず感銘を受けました。「インドから来たばかりの大学院生を想像してください」などとプロンプトを与えないと、間違った文を作らないのです。
つまり、文法は本質的に分布的な特徴の一種であり、それらはそれを捉えており、非常に印象的なことです。人々はこれが起こっているのを見て非常に驚きました。そして、任意のプロンプトに対して、非常にもっともらしい、非常に良い英語の完成を与えることができるのです。これは全く予想していなかったことなので、人間の直感が狂ってしまうと、すべてが可能になったと考えがちです。
実は、私が英語を第二言語として話していたとき、言いたいことはわかっていました。言いたい内容はわかっていたのです。邪魔をしていたのは、その言語を正しい文法で表現することでした。そのため、何かが言語を話すことができれば、おそらく内容は簡単だろうと考える傾向がありました。なぜなら、私にとっては常に内容が自然で、スタイルの方が難しかったからです。
これが、LLMの推論能力や事実性に関する主張がすべて生まれる場所です。そして、それらはN-gramモデルには当てはまらないのです。
これは興味深い脱線かもしれませんが、自然言語が形式言語であるかどうかについては議論があります。私の理解では、本質的に決してそうではありませんでした。例えば、プログラミング言語や形式言語には、文法的に正しいPythonを受け取って何が出力されるかを教えてくれるインタープリターがあります。自然言語にはそのようなものはありません。なぜなら、自然言語は本質的にすべてを捉えているからです。それはPythonだけでなく、実際には世界のあらゆる可能なシナリオを捉えており、世界が自然言語のインタープリターなのです。
そのため、実際には自然言語ははるかに柔軟で、はるかに制約の少ない表現形式です。サブパーツを見ても、プログラミング言語から一階論理のような単純なものに移っても、その時点でインタープリターは非常に扱いにくくなり、一階言語を解釈するのは計算的に非常にコストがかかります。そして、一階言語が十分に表現力があるわけではないことはすでにわかっています。
これは素晴らしいことです。多くの点で、私は形式言語がしばしば解釈器を持つ傾向があると考えています。自然言語の場合、世界が解釈器です。そこが自然言語の魅力です。ほとんど何でも表現できるからです。暗黙知と明示知の違いがあることは理解していますが、一般的に、自然言語の表現力の限界は、ほとんどどんな形式言語と比べてもはるかに小さいのです。そこで解釈器が可能になるのです。
はい、そして検証のギャップについてはすぐに話しますが、ここで少し立ち止まって、推論について話しましょう。外の人々は、言語モデルが推論できると確信しています。例えば、ラファエル・ミュラーを番組に招いたときに、オレルの例を挙げていました。囲碁に似たボードゲームについての論文があり、抽象的な世界モデルを学習して一般化していると言っていました。なぜ人々はこれらのものが推論できると深く信じているのでしょうか?
それは非常に興味深い質問です。推論の厄介な点は、推論を必要とする質問をされて答えを出した場合、表面的には私がその答えを記憶していて言っているのか、実際に一から推論したのかを見分けることはできないということです。私のお気に入りの例は、昔マイクロソフトが面接を始めた頃、マンホールの蓋が丸い理由を聞くという質問をしていたそうです。この質問に最初に答えなければならなかった人は、基本的に一から推論する必要がありました。つまり、他のどんな形状でも操作すると蓋が落ちてしまうことに気づく必要がありました。丸いものだけが、実際に蓋をいじっても落ちないのです。もし蓋が落ちてしまえば、すべての穴が蓋のない状態になってしまいます。これは巧妙な考え方ですが、最初の数人はこれをしなければなりませんでした。今では誰かがこの質問を面接で聞かれたら、候補者の答えを聞いただけでわかるのは、その人が面接の準備をしてウェブで一般的なマイクロソフトの質問を調べたかどうかだけです。
もちろん、人間は人間なので、人々が自分が推論できるかどうかを知りたがっていることもわかっています。そのため、もし答えを知っていたとしても、すぐに答えを言うとそれがバレてしまうので、少し時間をおいてから答えを言うでしょう。そのため、最後の部分だけを見ても、私が実際に推論していたのか、それとも検索していたのかを判断することはできません。一般的に、これは真実です。
人間が完全な検索だけでは済まないと考える理由の1つは、私たちには人生があるからです。基本的に、最も狂った面接準備をする学生でさえ、古い質問を調べるのに時間を費やしますが、それでも質問バンクにない質問が出てきたら、基本原理からの推論に頼らざるを得ません。これはLLMにとっては問題ではありません。
ある程度、これらの推論の主張の多くは、LLMが標準化されたテストで非常に優れているという事実から来ています。人々が忘れているのは、標準化されたテストには標準化された質問バンクがあるということです。私は常に学生に、試験問題に答えるのが難しいと思っているかもしれないけれど、実際に難しいのは、すでにCourse Heroにリストアップされていない興味深い試験問題を考え出すことだと言っています。Course Heroは今存在するウェブサイトの一種で、試験で尋ねられたあらゆる可能な質問や質問バンクに載せられた質問を、答えとともに掲載しています。そのため、学生はほとんど、材料を理解して時間内に質問に答える準備をするのではなく、テストのための準備をすることができるのです。
結局のところ、多くの場合、人々がLLMが推論していると考える場面では、実際には近似的な検索を行っているのです。それをどのように示すかというと、通常は対角化論法を使います。例を挙げましょう。
私は大規模言語モデルの計画立案能力に興味があります。計画立案は推論の一形態で、時間と行動を含む推論の形態です。AI計画立案の分野で人々が長年研究してきた非常に単純な種類の計画立案問題の1つに、ブロック積み上げがあります。これは、初期状態でいくつかのブロックが特定の構成にあり、それらは名前付きブロックや色付きブロックかもしれません。そして、目標状態で異なる構成にしたいとします。ピックアップ、置く、積む、積み下ろすなどの一連のアクションがあります。これらのアクションと、このブロックワールドの問題が与えられたとき、目標状態に導くアクションの列を考え出すことができますか?これが計画立案問題です。
興味深いことに、GPT-3などの元のLLMは、これが非常に苦手でした。実際、GPT-3.5でさえ、2022年に私たちがこのことについて書いたとき、計画立案能力についてさまざまな主張がされていましたが、実際には6%程度の精度しかなく、ただ推測しているだけで、そのアクション列は目標に導かないのです。
興味深いことに、GPT-4が登場したとき – セバスチャン・ブックとクートの有名なSPARKS論文を覚えているかもしれません – 私たちはSPARKSが計画立案能力を向上させるかどうかを確認したいと思いました。そこでGPT-4をチェックしました。興味深いことに、精度は向上しました。まだ100%には程遠いですが、約6%から30%近くまで上がりました。
GPT-4が30%なら、GPT-5は70%になり、GPT-10では150%の精度が得られるかもしれないと主張することもできるでしょう。しかし、私たちが自問したのは、これを単なる推論としてではなく、別の方法で説明できるかということでした。もし推論を行っているのであれば、ブロックワールドの名前を変更しても – 例えば「積む」の代わりに「フェイスト」、「積み下ろす」の代わりに「スラップ」などと言い換えても – 論理の背景を知っていれば、述語名はシステムのダイナミクスを変えないことがわかります。そのため、元のドメインを解決できるプランナーは、全く同じ効率と精度でこれを解決できるはずです。
これをGPT-4に与えると、完全に機能しなくなります。実際、私たちはNeurIPS 2023のための「PlanBench」という論文を書きました。これはブロックワールドと物流のような計画立案問題、そしてそれらの難読化されたバージョンの両方を示しています。面白い付随的な話として、カーク・ワリカムが筆頭著者のその論文で、彼は新しいLLMが登場するたびに、GPT-4やClaude、Geminiなどを実行し続けています。そして、それらはすべて0に近い状態で止まっています。なぜなら、ブロックワールドに関連する通常の言葉、つまり積み上げや積み下ろしなどの言葉があるため、ウェブスケールのコーパスにはそれに関する十分なデータがあるからです。しかし、言葉を変えると、完全に迷子になってしまうのです。
これは、彼らが推論を行っていないことを示す素晴らしい方法です。なぜなら、もし推論を行っているのであれば、元の問題と同じくらい簡単にこれを解決できるはずだからです。一般的に、人々がこれに簡単に騙されるのがわかります。なぜなら、通常、前述のように、推論を必要とする質問に人々が答えるとき、彼らがその質問と答えを部屋に入る前に聞いていて、ただそれを吐き出しただけなのか、それとも実際にその質問から始めて推論によって答えたのかを、表面的には判断できないからです。
推論とは何かについて少し脱線するのも面白いかもしれません。私の定義を紹介しましょう。私は、推論とは世界モデルを使用して、既存の意味論から知識を導き出したり目標を達成したりするために効果的な計算を行うことだと考えています。非常に緩く言えば、現在知らない種類の真理を導き出すことだと考えることができます。それは理にかなっていますか?
私は論理的な観点から定義された推論に戻るでしょう。これは私たちがギリシャ時代から理解してきた特定の種類の推論の1つです。常に単にそれに戻ることが有用だと思います。たとえ他のさまざまな推論があったとしても、論理的推論は確かに非常に重要な種類の推論の1つです。あなたが言ったように、論理の場合、基本的な事実のセットが与えられたとき、新しい事実が導き出せるかどうかを見ようとします。つまり、あなたが持っている知識の演繹的閉包の中に、これらの他のものが存在するかどうかです。
これは実際に非常に重要な区別です。AIに携わる人は皆、論理的背景を知っていました。しかし、今日では多くの大学院生が単にディープラーニングのコースや機械学習のコースから始めます。これは非常に重要な技術で、それを疑っているわけではありません。しかし、機械学習で使用される通常の用語である「分布内」と「分布外」を理解する必要があります。それはデータベース用です。推論のためには、少なくとも演繹的データベースの観点から考える必要があります。
つまり、単にデータベース内の物事を見ているのか、以前に提示したような種類のクエリと同じ分布にあるクエリを尋ねているのかを見るのではなく、システムが演繹的閉包内の物事を計算できるかどうかを見ているのです。これが論理的推論を必要とするものです。LLMがそれを行えると信じる理由はありません。
実際、これができないことを示す証拠がますます増えています。私たちは、計画立案ができないという事実の結果として、明らかに演繹的閉包を行うことに失敗しているに違いないと言ってきました。しかし、最近では人々がさらに示しています。推移的閉包について話す論文がありました。推移的閉包は演繹的閉包の貧弱な親戚で、例えばA P1 B P2 Cがあれば、A P1 P2 Cと言えるはずです。彼らはそれさえできません。
もし基本的な事実に加えて、演繹的閉包からの追加の事実を与えなければならないとしたら、彼らは少し一般化を試みるかもしれません。しかし、その後でも、A P1 P2 P3 Dはできません。なぜならそれはまた別のステップだからです。彼らは単に、これには方法があることを理解していません。推移的閉包を見ているのであれば、AがBに接続され、BがCに接続され、CがDに接続されているなら、AはこのP1 P2 P3の方法でDに本質的に接続されているということです。
それができないのであれば、演繹的閉包は確実にできません。なぜなら推移的閉包は演繹的閉包のほんの小さな部分だからです。これは、LLMが推論できないことを理解する1つの方法です。
人々は、LLMが基本的な事実とは考えられないことをしていると言いますが、それは実際には訓練データを理解していないからです。訓練データは私たちが集めたものではありません。ウェブ全体です。そして、誰もが自分はウェブ上の内容を知っていると思っていますが、実際にはウェブ上にどれだけのものがあるのか誰も本当には理解していません。
私は、Palmという古いGoogleのLLMが登場したとき、その大きな功績の1つがジョークを説明できることだったことを覚えています。なぜそれがAIのタスクなのかは私には理解を超えていますが、それがジョークを説明できることは驚きでした。そして、あなたはとても驚くでしょう。それは実際にデータを超えた何かをしているように見えます。しかし、実際には、ユーモアが苦手な人々が世界中にいて、ジョークを説明するウェブサイトがあることを知っていますか?これらのウェブサイトはシステムが訓練されたウェブクロール全体の一部なのです。そのため、それほど驚くべきことではありません。
現実には、通常の論理的な観点から考えると、基本的な事実を与え、システムが通常基本的な事実とは考えられないものを言った場合、何らかの推論を行ったに違いないと考えるでしょう。しかし、多くの場合、ウェブコーパスには、私たちが基本的な事実と考えるものと、演繹的閉包の一部と考えるものの両方が、興味深い混合の形で含まれています。そのため、時折、演繹的閉包からの物事を実際に検索することになると、あなたはそれが実際に推論していると思うかもしれません。なぜなら、おそらくウェブ上にはなかったと思うからです。それは、あなたが実際にウェブ上に何があるのかを知らないからです。ウェブ上に何があり、何がないかを示すのは非常に難しいのです。
実際に、トム・グリフィスのグループが行った実験を多くの人に繰り返し紹介しています。これも同じような点を示しています。元のGPT-4論文で言及されているスパークスの1つは、GPT-4が暗号文解読を行えるというものです。彼らが基本的に行ったのは、シーザー暗号の解読を確認することです。シーザー暗号は基本的にオフセットに基づいています。Aに4を加えて、Aから4文字離れた文字に置き換えるのが通常のやり方です。そのため、各オフセットにはコードがあります。
彼らは、GPT-4が異なるオフセット1、2、3、4、…25に対してどれだけうまく解読できるかを確認しようとしました。驚いたことに、13で大きなピークがあり、他の場所ではほぼゼロでした。なぜこれが興味深いのかというと、十分古ければ覚えているかもしれませんが、Unixにはrot13というコマンドがありました。今でもあります。これは13で回転させるコマンドで、シーザー暗号は一般的なアイデアですが、13は特殊なケースです。13文字回転させることは、シーザー暗号がより有名な特殊なケースです。
ウェブ上には、通常のテキストと13で回転させたテキストの大量のデータがあります。それがLLMが上手くできる部分です。2、3、4、その他の数字では上手くできません。シーザー暗号の要点を説明された小さな子供は、13でも4でも2でも問題なくできるでしょう。実際、4の方が簡単かもしれません。4まで数えるのは、13まで数えて文字をずらすよりも簡単だからです。
にもかかわらず、これは創発的な推論能力と呼ばれているものの一例です。私があえて言うなら、LLMに関する経験的研究の問題点は、人々が興味深い結果を得た最初の兆候で止まってしまう傾向があることです。私は、非常に懐疑的であるべきだと思います。システムが特定の能力を持っていないと仮定して考え、すぐに論文を書くのではなく、実際に穴を開けようとするべきです。
現在、私たちはハイプサイクルを経験しています。研究と商業の両面で、人々は単に「LLMはゼロショットXXX」と書くことに満足しています。ここでXXXは推論、計画立案、その他のこと、精神モデリングなどです。ほとんどの場合、近似検索の観点からこれらの結果を説明できることがわかります。なぜなら、前述のように、計画立案で名前を変更するという対角化によって、またはシーザー暗号テキスト解読が13以外でできるかどうかをチェックすることで、別の対角化議論が可能だからです。
一般的な原則を知っているのであれば、それを行うことができるはずです。一方、記憶しているだけなら、それはできません。これは、推論を行っていないことを示す古典的な方法です。しかし、一般的には、印象づけられやすいのは典型的です。なぜなら、この対角化議論を思いつくのは難しいからです。しかし、科学的な観点からは、彼らが実際にこれらの能力を持っているかどうかを見る必要があります。
はい、それについていくつか考えがあります。人々がもっと懐疑的でないのは興味深いですね。私の宗教は懐疑主義です。
そうですね、一般的に科学は懐疑的であるべきです。研究への影響に加えて、これは研究の社会学についても多くのことを物語っています。一般的に、人間は何かに対してクレジットを与えるのが得意ではありません。通常、それは自分のアイデアだと言いたがります。しかし、奇妙なことに、LLMに関しては、自分よりもLLMにクレジットを与える傾向があります。私の皮肉な見方をすれば、LLMがそれを行ったと言えばNeurIPS論文が得られますが、自分がそれを行ったと言っても誰も気にしないからです。それは印象的であるべきではありません。
ある程度、人々は信じられないほど簡単に自分の不信感を停止しています。それは科学にとっては良いことではありません。スタートアップをやっているのであれば、明らかにそのポイントは、私が数百万ドルを稼ぐ間、世界が不信感を停止することを望むことです。しかし、科学は異なります。
興味深い質問の1つは、これらの「LLMはゼロショットXXX」の論文の半減期がどれくらいになるかということです。私は冗談半分でTwitterで、これらの論文が間違っていることが示された場合、引用を失うべきだと言いました。現在起こっているのは、実際に間違っていることが証明された悪い主張をした悪い論文でさえ、引用を獲得し続けているということです。なぜなら、人々は「これが言われていたが、それは間違っていた」と言うからです。
ある種のメカニズムを設計する1つの方法は、もし私があなたのアイデアが間違っていることを証明したら、私があなたの悪い引用をすべて受け取るべきだということです。明らかに私は冗談を言っていますが、一般的に、それは人々が急いで印刷し、たとえ正しくなくても何らかの注目を得られるだろうと期待する動機を減らします。
これはスタートアップとしてまさにあなたがしなければならないことです。なぜなら、マーケティングの21のルールという薄い本があり、その最初のルールは「より良くなるよりも速くなる方が良い」と言っています。しかし、研究は違うはずです。私たちは、最初の人として何かを主張し、それをNeurIPSやICAIに掲載し、他の人々がその主張が正しいかどうかを理解するのを待つよりも、自分自身の精査を事前に行う方が良いという状況になってしまいました。
これは現在、より大きな意味で展開されています。これは科学の社会学の問題です。結局のところ、研究はほとんどが人間の努力です。そのため、これらの動機は重要です。
はい、科学はヘビゲームのようであるべきです。他のヘビを倒すと、あなたのヘビが倒したヘビの分だけ成長するようなものです。
そうですね、まさにそうです。
それについていくつかのことがあります。まず、私がex-リスクの人々と話すとき、彼らも似たようなヘッジング的な議論をします。あなたのマーケティングの議論と同様に、「最初にそこにいる方が良い」と言います。彼らは、「大きくて非効率的なAIの方が良い。なぜなら、賢いAIを愚かなAIで近似できるから」と言います。これが言語モデルが行っていることの一種です。メカニカルタークのようなことをしているからです。うまくいかないところがあれば、もっとデータを投入したり、データを拡張したりします。そして、それが人々に人間らしく見える錯覚を作り出し、多くの特殊な状況で訓練されているので、うまくいくように見えるのです。
しかし、推論についてすぐに戻りたいと思います。あなたの言っていたことは素晴らしかったです。私はウェド・サバーの大ファンですが、彼は推移性や演繹的閉包、そういったことについて話していました。創造性を取り入れたいと思います。
まず、演繹を行うとき、どんな状況でも機能するこれらの規則を適用しています。しかし、考えてみると、これらの演繹規則を大きな木や大きなグラフに構成することができます。物理学の世界で物理学の世界が因果的に閉じていると言うのと似ていますが、私たちは演繹的閉包について話しています。この中を移動するとき、創造性の役割は何でしょうか?
それは素晴らしい質問です。一般的に、これは実際に… これまでの私たちの会話の調子にもかかわらず、私は実際にLLMが素晴らしいと思っています。ただし、彼らができることに対して素晴らしいのであって、推論ができないからといって不平を言うつもりはありません。彼らが得意なことに使うべきです。それは制約のないアイデア生成です。
人間の活動分野のほとんどすべてで、創造的なアイデア生成と労力のかかる演繹的なアイデアチェックの間には、興味深い対立があります。数学でさえそうです。フェルマーはこの推測を思いつき、もちろん自分で証明したと主張しました。そして、アンドリュー・ワイルズは200年後にその人生の17年を費やして、フェルマーが言っていたことが実際に、フェルマーよりもずっと後に発明された数学を使って証明可能であることを示しました。
すべてのことでそうです。グレゴリー・ペレルマンの人生を描いた『Perfect Rigor』という素晴らしい本があります。覚えているかもしれませんが、ペレルマンはポアンカレ予想を証明し、フィールズ賞の受賞を拒否しました。外部からの評価ではなく、数学そのもののために行ったと言って。しかし、より興味深い部分は、彼が実際に証明を完成させた方法です。それには、バークレーの別の数学者(名前を忘れました)が、2つの非常に異なる数学分野を組み合わせることについて創造的な推測をしたことが含まれていました。もしこれが成り立つなら、これが機能するだろうと言ったのです。そして、ペレルマンはそれが実際に成り立つことを示す骨の折れる仕事を行いました。
創造性と数学には、創造性と演繹的な部分の両方が必要です。時には同じ数学者が両方を持っていることもありますが、時には一部の数学者が実際の証明の部分が得意で、一部が創造的なつながりを見ることが得意な場合もあります。
インドのラマヌジャンは、その中で最も有名な例です。彼は創造的な生成器を持っていて、正しい可能性がはるかに高い密度を持っているようでした。彼はただ巨大で奇抜な数列を書き、証明なしで答えを書いていました。G.H.ハーディは有名に、「もしそれらが真でなければ、誰もこれを想像する想像力を持っていないだろう」と言いました。明らかに彼は冗談を言っていました。彼はただラマヌジャンの仕事の素晴らしいサポーターだったのです。
一般に、創造性の部分はLLMが非常に得意とするものです。定理証明のようなものでは、興味深い仮説を思いつき、それを証明することでショートカットを取ることができます。なぜなら、最初の原則からすべての可能な定理証明の道筋を見ることは本質的に不可能だからです。
これは、ご存じかもしれませんが、ゲーデルの不完全性に対応する大きな理由もあります。ヒルベルトは基本的に、数学を自動化しようとしていました。論理的な定理証明以外の何ものでもないと言って。そして、ゲーデルはそれさえも真ではないと言いました。しかし、たとえそれが真であったとしても、数学の本当に単に演繹的閉包の計算を示している部分でさえ、十分に大きなシステムでは恐ろしく非効率的です。
そのため、帰納的な飛躍が必要です。アイデアを持つことに問題はありません。文明が必要とするのは、アイデアを得たときに、そのアイデアが機能するかどうかをチェックすることです。これが頑健性の側面です。機能しなければ、そのアイデアを諦めて他のものに移ります。
私たちは通常、アイデアの検証の方が簡単で、アイデアを持つことの方が難しいと考えています。実際、私たちの人生では、時々アイデアの泉のような友人がいます。行き詰まったときに、「ねえトム、これについてのアイデアはある?」と聞きます。トムはこれに大きな関心がないかもしれませんが、アイデアを生成するのが得意です。彼らはアイデアを与えます。そして、それが実際に機能するかどうかをチェックするのはあなたの責任です。
そして、それが機能したとき、私たちはトムにずっと多くのクレジットを与える傾向があります。なぜなら、トムがアイデアを与えたからです。しかし、トムはそのアイデアが正しいことを証明していません。あなたがそれを証明したのです。そして、私たちにとっては確認するのが簡単で、アイデアの生成が重要だと考える傾向があります。
LLMは実際にアイデアの生成に優れています。そして、彼らは実際に、ある程度私たちにとって簡単なこと、つまり検証が不得手です。そして、一般的に、創造性の部分は、検索を減らすために帰納的な飛躍を行うことです。
したがって、アイデアを持つだけで、それが機能するかどうかを実際にチェックしなければ、それはただのアイデアにすぎません。しかし、その後、良いアイデアの密度が高い生成器を持っていれば、検索をかなり大幅に減らすことができます。これが創造性と推論が一緒になる方法です。
帰納的な飛躍対演繹的な閉包ですね。帰納的な飛躍は基本的に、すべての想像力、すべての創造性の部分です。そして、LLMは実際にそれらのいくつかのことに非常に優れています。なぜなら、彼らにとってはリスクがないからです。彼らはあなたにアイデアを与えます。あなたが尋ねれば、彼らはアイデアを与えます。しかし、あなたは問題のすべての制約の文脈でそのアイデアが実際に意味をなすかどうかをチェックしなければなりません。
一般に、デザインのようなより創造的な分野の人々、例えばエンジニアリングデザインは創造性の側面と実現可能性の側面の両方にまたがっています。建築も同様です。彼らはほとんど、アイデア出しの段階では制約を受けないようにする必要があり、その後、良いアイデアを得たら、実際にその外観の建物が現在持っている材料の強度で支えられるかどうかを確認する必要があると言います。そうでなければ、それは美しく見える建物ですが、建設することはできません。
そして、この2番目の部分も同様に重要です。例えば、建築のコースを受ける人々は、自分たちの生成器、つまりアイデア出しの段階を制約する傾向があります。そうすることで、実現可能である可能性が高いアイデアを思いつく可能性が高くなります。これは、ゆっくりとしたプロセスですが、創造性の部分と推論の部分がどこに入ってくるかについての私の見方です。
そして、これはLLMに非常に関係があります。なぜなら、私はLLMを創造的なことに使うからです。主に、アイデアには知識が必要だからです。アイデア出しには広範囲の浅い知識が必要です。そして、私たちのほとんどは、例えば…アナロジーは、LLMが通常の人々、つまり一般の人よりも優れている素晴らしい例です。
アナロジーを行うには、少なくとも世界についてのかなりの量の知識が必要です。例えば、フィンランドでの物事がどのように機能するかを、インドでの物事がどのように機能するかを知っているかをアナロジーで説明したいとします。これらの国々について何かを知る必要があり、誰もがそれらを知っているわけではありません。そのため、それらのアナロジーを構築できないかもしれません。
一方、LLMは実際に世界中のデータで訓練されているので、これらの種類の浅い、保証のない飛躍を行うことができます。そして、その後、あなたがそれを拾い上げ、それが実際に成り立つかどうかをチェックする必要があります。これが彼らにとって素晴らしい場所の1つです。
はい、これをもう少し詳しく探ってみましょう。生成されたアイデアと検証との間に美しい共生関係があることに同意します。また、LLMについて悲観的になれる一方で、実際には非常に有用だとおっしゃいました。しかし、もし構いませんが、この創造性の問題についてもう少し優しく押してみたいと思います。
あなたは、アイデアを生成するには知識が必要だと言いました。しかし、推論は新しい知識を作り出すことです。考えてみると、アイデアを生成するときに完全にオープンエンドになることもできますが、それはあまり良くないでしょう。または、直感や既存の知識によって導かれることもあります。
しかし、私は発明的な創造性と組み合わせ的な創造性の間に違いがあると思います。そのため、創造性そのものにも何らかの形の推論があるべきだと思います。そして、それは言語モデルが作り出せるものの種類が確実に限られていると考えさせます。なぜなら、訓練データによって制限されているからです。
私は同意します。しかし、私のポイントは、あなたや私と比べて、彼らははるかに多くのデータで訓練されているということです。たとえ浅い、ほとんどパターンマッチングのようなものを彼らの広大な知識全体で行っても、あなたにとっては非常に印象的に見え、非常に有用な能力なのです。
実際、機械が作り出す創造性が組み合わせ的なものなのか、それ以上のものなのかという全体的な質問がありますが、それは二次的な問題になります。膨大な知識に対するこの組み合わせ的な創造性を生成するツールさえ持っていない場合は。
その意味で、私は実際にLLMをAGIとの関連で見ているわけではありません。むしろ、非常に有用なツールとして、特に人間との協力や他の推論システムとの協力のためのコンピュータ支援協調作業において、非常に輝いています。
その観点から、私は彼らをその創造性の側面に使う意思があります。推論の側面には決して使わないでしょう。なぜなら、推論には、言ったことが実際に真であるという何らかの保証が必要だからです。そして、彼らが通常の正確性の考慮事項でそれを行うことができるとは信じられません。
一般に、彼らはスタイルに関してはより良くできます。つまり、よく書かれた英語のエッセイのように見えるエッセイを作ることはできます。しかし、そのエッセイの内容が実際に事実に基づいていることを確認したり、さらに興味深い演繹的閉包の主張を行ったりすることは、前提から興味深い結論に至るようなことは、LLMにはできないと信じています。
しかし、彼らはエッセイを書くことができ、また別のエッセイのスタイルをチェックすることもできます。なぜなら、それが彼らの得意とするところだからです。
ある程度、実際にこれは… 自己回帰的なLLMは生成AIの特定の形態であり、生成AIは分布の特性を学習します。スタイルは分布的な特性です。正確性と事実性はインスタンスレベルの特性です。LLMは分布学習器なので分布的特性に非常に優れています。しかし、インスタンスレベルの正確性については保証を与えることはできません。
明らかに、他のツールもありますし、それらを組み合わせることができます。
はい、興味深いですね。つまり、検証と推論のギャップがあり、潜在的には創造性のギャップもありますが、推論のギャップの方がはるかに大きいので、そちらに焦点を当てるべきだということですね。しかし、もう1つの点は、人間が関与するMシステムを構築しているということです。我々は常に創造的なことを行い、データを生成し、そのデータが言語モデルに入力されます。つまり、この大きな集合知を作り出しているのです。ある意味で、あなたが明日何か創造的なことをすれば、それはGPT-4に入ることになります。
その通りです。そう考えるべきです。本質的に、彼らはツールであり、我々はツールを構築しています。ある程度、多くの人々は気づいていませんが、あなたが今言ったように、彼らは我々の集合知の上に足場を組んでいます。
私はよく人々にこの思考実験をするように言います。サム・アルトマンがサティア・ナデラにGPT、つまりGPK(彼らのGPUではありません)の訓練費用をすでに払わせたと想像してください。そして、彼はウェブを持っていなかったとします。そこで彼がやってきて、「みんな、話したいことをすべてウェブに載せてください。そうすれば私がデータとして使えます」と言ったとします。これは到底受け入れられないでしょう。なぜなら誰もそんなことはしないからです。
我々はお互いにコミュニケーションを取るためにウェブを作りました。それが後にこれらのシステムのデータになったのです。ある意味で、これらのものがうまく機能しているという事実は、我々がウェブに置いた膨大な知識に対して浅いパターンマッチングのようなことを行っているという事実に非常に基づいています。
もし火星人が、我々が作ったものへのアクセスを全く持たずに、それでも我々を助けることができたとしたら、それはずっと印象的でしょう。それがAGIのようなものです。しかし、私はツールに非常に満足しています。Googleは素晴らしいツールだと思います。GoogleがAGIのようなものかどうかは私にとって重要ではありません。他の人々が知っていて私が知らない情報を教えてくれるので、非常に有用です。
これは基本的に、これらの種類のテクノロジーの増幅効果を見る非常に合理的な方法です。しかし、彼らがこれを作り出しているわけではないことを覚えておくことが非常に重要です。実際、彼らにテキストを作らせると…
私が実際に言ったのは、ノルウェーの北部のどこかに、世界の種子を保管している種子貯蔵庫があるということです。文明を再開する必要がある場合に備えて、そこに種子があります。私はいつも、現在のウェブのスナップショットを撮ってその種子貯蔵庫に入れる必要があると感じていました。なぜなら、LLMがますます多くの完成を生成し、それらがウェブの一部になるにつれて、本質的に、Wikipediaやニューヨーク・タイムズなどのよりキュレーションされたソースよりもはるかにノイズの多いバージョンになってしまうからです。
すでにそれらが組み合わされると、どちらがどちらかを区別するのがはるかに難しくなります。これは、彼らが訓練されたデータが、彼ら自身によって全く生成されたものではなかったことがいかに重要であったかを示しています。
人々が「人間のデータは必要ない」と話すとき – 賢い人々はあまりそう言いませんが、十分に情報を得ていない人々の中には、なぜLLMが単にデータを作成して自分自身を訓練できないのかと考える人もいます – それは基本的に盲人が盲人を導くようなものです。実際には、完成は分布のみであり、正確性の種類を本当に持っていないので、さらに悪くなります。
事実性はさらに低下し、人々が合成データについて話すとき、通常、彼らは保証付きで合成データを生成する何らかの外部ソルバーに依存することになります。より良い計画立案を行いたい場合、大量の計画立案問題を作成し、既存の外部プランナーを使用してそれらを解決し、そして問題と計画を私のLLMで微調整します。そうすれば、この計画立案問題の分布に対してソリューションを生成するのが少し上手になります。
もし単に自分自身で計画を生成し、自分自身を訓練したら、それは盲人が盲人を導くようなものになるでしょう。
これについて少し脱線しますが、CSET ARC Challengeをご存知ですか?
はい、知っています。
それは素晴らしい例です。私はジャック・コールや優勝チームと友達で、彼らはデータセット生成やテスト時推論、微調整などを行っています。彼らは一連の変換ルール、つまり反射や対称性などを作成し、データ分布を構築し、それに基づいて言語モデルを微調整しています。
そして、ライアン・グリーンブラットのアプローチのように、あなたが提唱するように、アイデア生成器として使用する別のアプローチもあります。
ライアン・グリーンブラットのアプローチは、実際にLLM modulo versionの一種です。なぜなら、彼らはPythonインタプリタを持っているからです。彼らは大量のコードスニペットを生成し、それらのスニペットがARCトレーニングデータに対して正しい結果を生成できたかどうかをチェックします。
これは彼らに大きな利点を与え、非常に合理的なことです。しかし、基本的に保証はこのインタプリタから来ています。先ほど話したように、形式言語にはインタプリタがありますが、自然言語にはありません。
そのため、ARCチャレンジを解決するためのPythonコードを推測することで、全体を変換することで、Pythonインタプリタの助けを借りて、あなたが推測したものを理解し、少なくとも期待される出力と、この特定のコードが生成する実際の出力を比較することができます。
ある意味では、これは依然として非常にブルートフォースな方法です。なぜなら、彼らは組み合わせ可能性の膨大な数を生成しているからです。そして、それが十分に多様であることを確認する必要があります。
一般に、これは再び私が話すLLM moduloのようなもので、これらは一種の生成テストアプローチです。テスターは外部のもので、実際に保証を与えることができます。健全性はテスターによって保証され、完全性は生成器に依存します。
LLMがどれほど印象的であっても、彼らが完全であることの保証はありません。これは、はい、彼らは創造的ですが、彼らはあらゆる可能なものを作り出すことができるのかという問題に戻ります。
一般に、それはほとんどプロンプト多様化戦略を必要とします。つまり、外部の知識を持ち込んで、「OK、今はこの種のコードの生成を止めて、この他の種類のコードを生成してください。なぜなら、おそらくそのうちの1つが検証者テストに合格するかもしれないから」と言うのです。これは、あなたが持ち込む追加の知識です。
この古い考え、最近非常に人気になっている「思考の木」のアイデアは、実際にその方法で最もよく理解されます。なぜなら、それは実際にはLLMを押すために外部知識を持ち込むプロンプト多様化戦略だからです。
そうですね。私はライアン・グリーンブラットにインタビューしました。残念ながら、彼はまだ…明らかに私は、システム1とシステム2があり、ニューロシンボリックモデルがあると主張しました。それが機能しているのは、Pythonインタプリタがあって検証しているからです。
しかし、彼は次のGPTモデルが来るまで待てば、それができるようになると断固として主張しました。しかし、彼はいくつかのことを正しく行いました。思考の連鎖を行い、空間を分割し、自己反省を行い、解決策を洗練させました。
そして、彼は骨の髄まで、LLMが自律的に自分自身を検証し、正しい解決策を見つけ出すことができると信じています。あなたはこの分野で非常に興味深い仕事をしていますね。
はい、私は完全に反対の立場にいます。正確性の検証に関しては、LLMは実際に全く良くありません。我々自身の実験では、まず、正確性と検証について話す場合、実際に正確性の形式的な仕様がある場合についてです。
そのような場合、私は暗黙知タスクと明示知タスクを区別する傾向があります。暗黙知タスクには、実際の形式的な仕様はありません。何かを猫や犬や他のものにするものについて、形式的な方法はありません。
暗黙知タスクは、我々が全ての動物と共有しているものです。我々はそれを扱うことができ、実際にそれらは非常に厄介で、形式的な説明はありません。
しかし、我々が築いた文明、動物があまり持っていない文明は、この明示知の追加に非常に依存しています。私は飛行機に乗って、どこかに到着することを望むだけではありません。誰かが詳細な計算を行い、十分な燃料があることなどを確認し、実際に目的地に到達することを信頼できるようにしたいのです。
常に他の外因性の出来事が起こる可能性はありますが、ただ希望するような重大な誤りがあってはいけません。私にとって、それが我々が興味を持つべき種類の検証です。
暗黙知タスクは通常スタイルに関するもので、明示知は正確性に関するものです。正確性に関することについて、例えば、我々の仕事では計画立案と制約充足問題、グラフ彩色のような問題、そして最近LLMコミュニティで人気になっている24パズルを見ました。
これらはすべて形式的な検証の可能性があります。解決策を与え、完全な保証を持って、それが解決策であるかどうかを確認できます。
我々が行ったのは、LLMに自身の解決策を批評させる対、外部の検証者によって批評される場合を比較することでした。LLMが自身の解決策を批評する場合、その精度は上がるのではなく、下がります。
なぜなら、解決策を批評するとき、誤った誤りを幻覚し、実際の誤りを見逃すからです。わかりますか?そのため、偶然に正しい解決策に当たった場合でも、停止する代わりに、それを悪化させるように変更し続ける可能性があります。これは非常に興味深いです。
そのため、彼らが「自己反省」を行うとき、実際には悪化します。しかし、一方で外部の検証者がいて、それが正しいかどうかについて外部の信号を与える場合、単に「これは正しくない」という程度でも、パフォーマンスを向上させるのに十分です。
これは基本的に、私が「LLM modulo systems」と呼んでいるものの始まりです。Lが推測を生成し、外部の検証者が少なくとも2値の信号を与えて、これが正しくないので再度試してくださいと言います。
この時点で、最も単純なアイデアは、150の解決策を生成し、そのうちの1つが正しいかどうかをチェックすることです。外部の検証者がチェックします。LLMが「これらのうちの1つが正しいはずだ」と言うだけでは十分ではありません。実際にどの解決策が正しいかを言う必要があります。それが外部の信号が行うことです。
そして、より段階的に行うこともできます。「この解決策の何が間違っているか、これらが誤りです」と言い、それをバックプロンプトとして与えます。そうすれば、LLMは潜在的にその情報を使用して新しい推測を出すことができます。
潜在的に、と言いましたが、LLMにプロンプトを与えたときに何が起こるのか、そのプロンプトを使って次の完成をどのように「使用」しているのかについて、次のトークンに関する条件付き確率以外のレベルでは、本当に理解していません。
我々は奇妙な世界にいます。LLMは一度に100万語のコンテキストを扱えると言いながら、同時に10語のコンテキストを与えても間違った完成をすることがあります。これは興味深い種類の浅いプロンプトの使用であり、プロンプトを深く理解して次のトークンの生成に実際に使用できるというものではありません。
このバックプロンプティングは、少なくとも異なる一連の完成に偏らせることができることに我々は同意します。そして、希望は検証者がそれらの完成をチェックし、実際に誤りがないかどうかを確認することです。
これが基本的に検証が機能する方法です。ほとんどの場合、人々がLLMが実際に検証していると考えるとき、スタイルと正確性の内容を混同する傾向があります。
これらの論文の多くは、LLMがエッセイを改善したと書かれています。私はエッセイ、つまりエッセイの改善は実際には暗黙知タスクだと主張するでしょう。エッセイを取り上げて、それが正しいと言える単純な形式システムはありません。スタイルの特徴を見る傾向があるからです。
実際、ある時点で致命的な事実の誤りがある美しく書かれたエッセイがあれば、彼らはそれを見つけることができないでしょう。しかし、これらの場合、彼らが行うのは人間の被験者研究で、人々にこれらはより良いエッセイか悪いエッセイかを尋ねます。そして、このLLMが自己批評することで、なんらかの形でエッセイの質が向上したことがわかるかもしれません。
しかし、それはスタイルの改善であって、正確性の改善ではありません。実際、LLM moduloアーキテクチャでは、スタイルと正確性の両方を批評できると基本的に言っています。
正確性については、ある意味で退屈です。なぜなら、興味深いことの1つは、正しいプランでもスタイルが正しくない場合があるからです。
私はこの例を挙げます。インドから出発してウィーンに来る正しい旅行プランがあるとします。1マイル歩き、次の1マイルを走り、次の1マイルを自転車で行くなどです。最終的に、これらの無限の行動の後、私はウィーンにいるでしょう。
これは正しいですが、非常に悪いスタイルです。ほとんどの人はこれを合理的な旅行プランとは考えません。なぜなら、彼らは航空機で飛ぶなど、他の標準化されたバージョンを好むからです。
スタイルはLLMが実際に批評するのが得意なものです。正確性は彼らにはできません。外部の検証者が必要です。そして、これは補完的なものです。なぜなら、古典的なAIシステムは実際にスタイルよりも正確性の方が得意だからです。
はい、私もあなたに同意します。私は一種の哲学的な合理主義者です。確実性の領域で推論すべきだと考えています。正しいか正しくないかのどちらかです。その点では同意します。
しかし、悪魔の代弁者として少し言わせてください。エンドツーエンドの予測モデルを作成し、アクティブ推論を行い、テストインスタンスに寄り添い続け、微調整を繰り返すことができると考えている人々がいます。そして、検証することはできず、正しいかどうかはわかりませんが、合理的に堅牢に機能し、しばしば正しい答えを生成するシステムを構築できると。これは合理的なアプローチだと思いますか?
はい、そこでのポイントは、まず、エンドツーエンドの正確性では、世界自体を検証者として使用できるということです。これは、エルゴード的なドメインでのみ機能するアイデアです。つまり、エージェントが悪いアイデアを試してみても死なないような場所です。
エンドツーエンドの検証を行う場合でも、出力が実際に正しいかどうかの信号が必要です。その信号はどこから来るのかというのが最初の質問です。
2番目の質問は、これがどれくらいコストがかかるかということです。これは私が「Qアノンの陰謀」と呼ぶようなものです。しばらく前、OpenAIがQというアルゴリズムに取り組んでいて、それは素晴らしいものになるだろうという話がありました。明らかに、何が行われたかは誰も知りませんが、浮かんでいたいくつかのアイデアは、この種の閉じたループがあり、何らかの検証者があって、合成データを生成し、そしてシステムを微調整するというものでした。
しかし、普遍的な検証者はありません。検証者は問題固有です。微調整は良いアイデアですが、最終的に微調整の問題は償却コストです。
一般に、単純な微調整でさえ、先ほど言ったブロックワールドのように、これらのLLMはうまく機能しません。常に微調整することができ、基本的にガジリオンのブロックワールド事例で微調整し、例えば3〜4ブロックの後、3〜4ブロックのスタックのパフォーマンスが向上します。しかし、5〜6ブロックと言うと、再び落ちてしまいます。
これの変形がAgentChoice、つまりGeoffrey Grupeの実験です。彼らはLLMで4×4の乗算を行いました。そして、1兆ほどの4×4桁の乗算とその答えのペアで微調整を行いました。彼らはSam Altmanに腕と脚を払ったような、15万ドルほどを支払いました。そして、4×4の乗算の精度が98%になりました。
1分間、なぜ私が98%の精度で4×4桁の乗算を行うLLMが欲しいのか、100%の精度を与える安価な電卓があるのに、という愚かさは置いておきましょう。
しかし、より悲惨なのは、5×5桁の乗算を与えると、それはゼロに戻ってしまうことです。これが償却の議論です。これは実際に思考の連鎖でも同じ問題が発生します。
基本的に、試験を与えるとき、微調整と思考の連鎖は非常に密接に関連しています。思考の連鎖は本質的に、いくつかの例を解決する方法についてのある種のアドバイスを与え、LLMがこれらの例から何かを学ぶことを期待します。
しかし、古いAIの専門家として、私はアドバイスを取ることがAI完全問題であることを知っています。実際、John McCarthyは、Marvin Minsky、Allen Newell、Herb Simonとともに、1956年のダートマス会議を行った4人の創始者の1人ですが、AIの聖杯はアドバイス受け取りプログラムであるべきだと言いました。
つまり、アドバイスを与えると、そのアドバイスに従うというものです。一般に、これは非常に難しいことです。一般に、非常に高レベルのアドバイスを与えることができ、それに従うアドバイス受け取りを持ちたいと思うでしょう。
思考の連鎖は、LLMがそれを行えるように見えますが、実際に彼らが行っているのは、例えば3〜4ブロックのスタッキング問題の解決方法を教えると、3〜4ブロックのスタッキング問題のパフォーマンスは向上しますが、ブロックの数を増やすと、原則は同じままです。
特に、例えばブロックワールドの思考の連鎖のアイデアの1つは、常にすべてのブロックをテーブルに置き、そして目標状態で必要なスタックを構築するだけでいいということです。これを子供に教えれば、彼らはこれを理解し、1ブロックでも15ブロックでも200ブロックでも、退屈するまで行うことができます。
しかし、LLMは基本的に手順を理解していません。彼らは3〜4スタックに対してのみ上手くなり、ブロックの数を増やすと機能しなくなります。
計画立案さえ必要ないことがわかります。実際には、最後の文字の連結という、はるかに単純な問題でも同じです。これは、いくつかの単語が与えられたとき、例えば「dog」と「cat」なら、LLMに「G」と「T」と言ってほしいという非常に単純な問題です。なぜなら、Gは「dog」の最後の文字で、Tは「cat」の最後の文字だからです。
元のCoT論文は基本的に、「見てください、そのままではできませんが、これを行う方法についてのアドバイスを与えれば、はるかに良くなるように見えます」と言いました。
我々はこの実験を行いました。2〜3語の問題の例を与えた後、単語の数を増やしました。これはAGIを望むなら非常に合理的なはずです。少なくとも、最後の文字の連結が単純な問題であることを理解し、単語の数に関係なく同じことを繰り返すだけでよいはずです。しかし、それは機能しません。
私はいつも、これはアドバイスを受け取ることの一般的な問題を思い出させると言っています。これは古い資本主義の諺を思い出させます。「魚を1匹与えれば1日食べられる。魚の釣り方を教えれば一生食べられる」というものです。
思考の連鎖は2番目のようですが、実際には2番目の奇妙なバージョンです。LLMに1匹の魚の釣り方、2匹の魚の釣り方、3匹の魚の釣り方を教えなければなりません。そうすると、あなたは忍耐を失うでしょう。なぜなら、実際の基礎となる手順を学んでいないからです。
基本的に、与えた長さの例を取り、多かれ少なかれパターン転送を行っているだけで、手順の学習ではありません。
興味深いことに、私の知る限り、思考の連鎖論文の元の著者の1人であるD. Shermanは、IAPSという自動計画立案の会議で招待講演を行いました。彼は基本的に、我々が言っていることが実際に真実であると言いました。つまり、手順に従うことに問題があるのです。
ポイントは、その時点で、元の結果は基本的に人々の想像力に任せていました。「3〜4ブロックの方法を示し、3〜4ブロックでテストすると、パフォーマンスが向上しました」と言いましたが、ブロックの数を増やすとどうなるかについては何も言いませんでした。
ハイプサイクルの兆候は、人々が問題のサイズを増やしたときに実際に何が起こるかについて、最悪ではなく最良を想定することです。彼らはそれがうまくいくと主張しませんでしたが、言わずにおきました。そして、人々はそれができると想定しました。
しかし、実際にこれを指摘すると、一般的なアドバイス受け取りではないことがわかります。思考の連鎖は、人々が直感的に信じているものではありません。なぜなら、彼らは人間化する傾向があり、3ブロックの問題の解決方法を教えれば – 基本的にすべてのブロックをテーブルに置く – どんな数のブロックでも解決できると考えるからです。最後の文字の連結でも同じです。
彼らはLLMがそれを行えると考えますが、そうではありません。実際には、例を与えた単語の数でのみそれを行うことができます。単語の数を増やすと、一般的な原則を理解していないのです。
いくつかのことについて、まず、これらの技術の多くは、外部検証を行う場合でも、モデルを非常にドメイン固有にします。RAGやToUse、思考の連鎖などのものも、モデルをかなりドメイン固有にします。
しかし、より大きな問題を指摘したいのは、モデルに魚の釣り方を教えたいのですが、モデルは原理的に魚の釣り方を知りません。なぜなら、チューリングマシンではないからです。あなたの論文で半決定可能問題の例を挙げていましたが、それを持ち出すべきかもしれません。これらは原理的に言語モデルでは解決できません。
実際、そこには興味深いポイントがあります。LLMに関する多くの悪いアイデアは、計算複雑性とLLMが行うことの間の誤った関連付けから来ています。
実際、例えば、人々がLLMが検証に優れていると考えた理由の1つは、生成は通常、検証よりも計算的に困難だからです。彼らはただ、より難しい問題ができないのであれば、より簡単な問題はできるだろうと想定しました。
現実は、彼らはどのようにしても解決策を計算していないのです。実際、多くの人が指摘しているように、次のことを考えてみてください。5つの異なるプロンプトがあり、英語を理解する我々にとっては、1つは暗黙的に定数時間計算問題の解決策を求めており、もう1つは線形時間、もう1つは多項式時間、そして最後の1つは決定不能問題を求めているとします。
これらすべてに対して、答えはYesかNoです。保証を与えるために実際に計算を行う必要がある場合を除いて、LLMがプロンプトに応じてYesまたはNoのトークンを出すのに時間がかかると思いますか?そうではありません。基本的に答えを出すのに一定の時間しかかかりません。
人々は基本的に、どうせ一定の時間で答えを出すのだから、より多くのトークンを出力させて、全体としてより多くの時間がかかるようにしようと試みます。まず、これはある程度愚かなアイデアです。
実際に非常に愚かで悪いアイデアがあります。誰が著者だったか忘れましたが、ある論文では、LLMに一時停止トークンを入れることを提案しています。一定の時間では推論することはできないだろうから、一時停止させれば、何らかの形で推論が発生するかもしれないと期待しているのです。これは完全に魔法のような考え方です。
もう1つは、問題を何らかの形でサブパーツに分割し、大量の作業を行い、このプロンプトを他の複数のサブプロンプトに変換するというものです。これは人々が検討しているような種類のものです。
しかし、覚えておく必要があるのは、その場合、計算を行っているのはあなたであって、機械ではありません。LLMではないのです。あなたが計算を行っているのです。
そのため、計算複雑性のメタファーは、LLMが実際にどのようにプロンプトを完成させているかを理解するのにほとんど無関係です。
トランスフォーマーネットワークがチューリング完全かどうかという、非常に異なる質問があります。私は、それは直交する問題だと主張する傾向があります。実際、以前にニューラルチューリングマシンがありました。外部メモリを持つトランスフォーマーはチューリング完全にすることができます。
人々が話している変種はありますが、本当の問題は、私はそれが実際にLLMが次のトークンを生成する方法に影響を与えているとは思いません。彼らは基本的に、一定の時間で次のトークンを選んでいるだけです。彼らはN-gramモデルです。
あなたがGreenblatの仕事に関して指摘したもう1つのポイントは、実際に私が言おうとしていたことです。まず、Greenblatの仕事を読みました。実は驚いたことに、彼の仕事についてのあなたのツイートを読んだのです。なぜなら、私はFrancois CholetのARC thingをフォローしていて、そしてあなたがこれについて書いたからです。いや、あなたではなく、他の誰かが言ったのですが。
そこで、Greenblatのブログを見直しました。まず、それは良い仕事だと思います。非常に素晴らしい仕事です。彼は賢い子供だと思います。私は「子供」と言いますが、ほとんどの人が私より若いからです。
しかし、私は「後のモデルがすべてを行うだろう」という問題に疑問を持ちます。本当の問題は、後のモデルが自己回帰的なLLMとは異なるアーキテクチャを持っているなら、私には反対する理由はありません。なぜなら、世界は広いからです。たくさんの異なることができます。
私たちはAIが推論できないとは一度も言っていません。推論を行うAIシステムは存在します。例えば、AlphaGoは推論を行います。それはRLシステムです。計画立案システムは推論を行います。しかし、LLMは浅く広いタイプのAIシステムです。彼らは推論タスクよりも創造性に優れています。
単にパラメータとシステムのサイズを増やすだけでは、彼らが推論を行えるようになる合理的な理由はありません。彼らは推論をより大きなサブクラスの検索に変換することができるかもしれません。そしてそれが実用的に十分かもしれません。
推論を偽装することはできますが、もし彼らが推論を行っているなら、私は先ほど話したような対角化引数を思いつくことはできないはずです。述語の名前を変更したり、シーザーテストの他のオフセットを見たりするなどです。
私はモデルのサイズを大きくするだけでそれが変わるとは思いません。正直なところ、その楽観主義は共有できません。
実際、OpenAIの誰かが、ほとんどの人よりも推論について多くを知っているはずの人が、公開の会議で基本的にこう言いました。彼らは皆、より大きなLLMが問題を解決するだろうと主張していました。私は「なぜそう思うのですか?」と尋ねました。すると彼は「AlphaGoが推論をするのを見ましたよね」と言いました。
私は「AlphaGoはLLMではありません。AlphaGoはRLシステムです。RLシステムが推論できないとは誰も言っていません。我々が議論しているのは、LLM自体が推論できるかどうかです。そしてそれができると信じる理由はありません。サイズを大きくしても違いは生まれないでしょう」と言いました。
私が言ったように、我々は実際にこのゲームをします。新しい、より大きなLLMが登場するたびに、同じPlanBenchの実験を行います。昨日出たばかりのLlama 3.1はまだ試していませんが、基本的にすべてのモデルが、例えば難読化されたブロックの問題で機能しなくなります。
そのため、それがうまくいくと信じる本当の理由はありません。私はその楽観主義を共有していません。他の種類のモデルが見つかるかもしれないという楽観主義は共有しますか? もちろんです。それは常に可能です。私はAIシステムの一般的な可能性を強く信じています。
現在、私が思うに、Sarah Hookerがハードウェア宝くじについて話したことがあります。ハードウェア宝くじに当たると、基本的にそのものが残ります。やりたかったことをするのではなく、現在のハードウェアができることをするのです。あなたの考え方を変えるのです。
それに相当するのがソフトウェア宝くじです。LLMは現在、ソフトウェア宝くじ、アーキテクチャ宝くじに当たっています。そのため、人々はそれにずっと興味を持っています。少なくとも人々の小さなサブセットは、より大きなLLMをより効率的に訓練する方法についての多くのエンジニアリング原則を理解しています。
そのため、彼らはそれをさらに行うことにより興味を持っています。しかし、ある程度、彼らはそれが何らかの形で「推論問題」を解決することを望んでいるだけです。しかし、それを信じる理由はありません。
他の種類のアーキテクチャを考慮する必要があります。現在、Yann LeCunのような人々が、JAPAスタイルのアーキテクチャがそれを助けるかもしれないと言っています。しかし、実際には誰も、Facebookでさえそれを行っていません。
なぜなら、これがソフトウェア宝くじについてのことだからです。現在、すべてのリソースがより大きなLLMの訓練に向けられているからです。
私の見方は、彼らはしばらくここにいるだろうということです。そして彼らは実際に信じられないほど有用なツールです。私はLLM moduloの方法で、この種の外部検証者からのバックプロンプティングを使用して、それらを使用します。
そして、そのようになるでしょう。完全に異なるモデルが登場し、より良い特性を持つかもしれませんが、それはしばらく先のことでしょう。
それは本当に良い橋渡しになりますね。ちなみに、私はLaionのHGJerからのファンです。
あなたは「LLMは計画立案できないが、LLM moduloフレームワークで計画立案を支援できる」というポジションペーパーを出しました。ちなみに、もしあなたがそれを「Alpha推論」と呼んでいたら、もっとキャッチーだったと思います。
しかし、簡単に言えば、あなたは… DeepMindは私にお金を払っていませんね。これは全てマーケティングの問題です。
はい、私は長年ニューロシンボリックアーキテクチャの大ファンでしたが、これは異なるタイプのニューロシンボリックアーキテクチャです。システム1とシステム2を持ちたいので双方向です。そして、あなたには批評家や再定式化、プロンプト生成器などのアイデアがあります。
これは本当に良い推論を行うためのテンプレートアーキテクチャです。それを紹介していただけますか? また、Alpha Geometryやファンド検索などと比較していただけますか?
一般的に、これはポジションペーパーです。私は基本的に、LLMを既存の他のシステムと組み合わせて、保証付きの推論タスクを行うための多くの賢明な方法を統合することについて話していました。
これは、先ほどの議論全体に関して可能です。私はLLMを素晴らしいアイデア生成器と考える傾向があります。彼らはすべてについてアイデアを生成できます。学習の文脈では、計画の推測を生成したり、ドメインモデルの推測を生成したり、不完全に指定された問題の潜在的な詳細化を生成したりできます。これらすべてを保証なしに行うことができます。
しかし、妥当な推測を生成する能力は軽視すべきではありません。そして、LLM moduloが試みているのは、批評のバンク、検証者のバンクでテストを行う生成テストフレームワークで、このLLMのアイデア生成の側面を活用することです。
LLM自体は計画の推測を生成し、これらの検証者の一部はモデルベースの検証者かもしれません。彼らは計画立案ドメインモデルを必要とするかもしれません。そして、彼らはその後、このドメインモデルに関して計画を比較し、それが行うべきことを行っているかどうかをチェックできます。
そうすれば、それはほとんど計画のためのPythonインタプリタを持っているようなものです。このモデルはどこから来るのでしょうか? 実際、LLMからこのドメインの潜在的なアクションは何か、潜在的な前提条件と効果は何かなどを尋ねることで、モデルを引き出すこともできます。
そして、内部のLLM moduloを行います。このドメインモデルの推測は、構文チェックで改善され、最終的なチェックとして、人間がループに入ります。ドメインごとに一度、彼らは「これは妥当なドメインモデルです」と言います。
古いAIでは、これは知識エンジニアリングステップでした。現在、知識エンジニアリングの部分は、LLMがかなり良いドメインモデルを生成するため、はるかに簡単になっています。そのことについてのNeurIPS論文があります。
ある意味で、これは生成テストフレームワークであり、テスター自体もLLMの部分的な助けを借りて構築できます。彼らは全体的なアーキテクチャで複数の役割を果たすことができます。
さらに、批評のバンクがある場合、これらの批評が呼び出される順序は、本質的に階層的計画立案と通常のフラットな計画立案をシミュレートできます。例えば、特定の種類の批評、因果連鎖の批評などを早く呼び出すと、ある意味でそのレベルでほぼ機能する計画が得られ、その後、他の制約に対して機能するように洗練します。
しかし、最終的に計画はこのループから出てきます。すべての正確性の批評が「大丈夫です」と言う場合のみです。
もう1つの興味深いことは、スタイルの批評も許可していることです。スタイルの批評には実際にLLMを使用します。なぜなら、先ほど言ったように、スタイルの批評には他のアプローチがないからです。良いスタイルかどうかを教えてくれる形式的な検証者はありません。
正直なところ、それが人間の文明で常に想定してきた理由です。スタイルは何らかの形で内容よりもはるかに興味深いものです。誰でも内容を持つことができます。スタイルが興味深いのです。
LLMはただ方程式を変えただけです。誰でもスタイルを持つことができます。なぜなら、ChatGPTを呼び出してスタイルを得ることができるからです。内容が大きな問題になるでしょう。
しかし、スタイルの検証には、スタイルの批評を持っています。実際に、COMに出る論文があります。基本的に、行動軌跡のビデオを見て、それらの行動が良いか悪いかについて有用な批評を行う方法をLLMを使って示しています。
それでもまだ改善できます。それを次に合成される行動を改善するためのバックプロンプトとして使用できます。我々はこれをすべて行っています。
これがLLM moduloを見る方法です。あなたはAlpha検索やファンド検索について言及しました。それらは基本的にLLM moduloの特殊なケースになります。
明らかに、LLM moduloは一種のアーキテクチャです。焦点を当てる特定の問題が重要になります。ファンド検索とAlpha Geometryは特に、Alpha Geometryは数学オリンピアの問題を行います。我々はより多くの計画立案問題に興味があります。
しかし、一般的に、私はそれらのアプローチが非常に一致していると考えています。そして、少なくともこの一般的なビジョンに包含されると思います。LLMを彼らが得意とすること、つまり推測に使わせ、検証者を彼らが得意とすること、つまり推測を与えられた場合にそれを調べることに使わせるというビジョンです。
これは興味深いことに、あなたが先ほど言っていたことに立ち返ります。創造性と演繹的推論をどのように組み合わせるかということです。基本的に、LLMの創造性、それが何であれ、どのレベルであれ、検証者の演繹的推論能力と組み合わせて使用されています。
そうすれば、実際に保証を得ることができます。実際、もう1つのことは、LLMを微調整するための合成データを得たい場合、現在、基本的に正しいことが保証されている合成データはどこから来ているのでしょうか?
一方、この種のものでは、出てくるものはバッジを与える批評に関して保証されて正しいのです。そして、これらを十分に行えば、実際にLLMを微調整できます。それにより、生成器の密度が向上し、より良い解決策、より良い推測が得られます。それは助けになるでしょう。
私が言及したいもう1つのことは、あなたが最初に指摘したように、これは双方向の相互作用です。推測が検証者に与えられ、検証者がバックプロンプトを行います。そしてバックプロンプトは異なる種類で行うことができます。
二進批評を行い、「もう一度試してください。これは正しくありません」と言うことができます。または、「現在の計画のここが間違っています」と言うこともできます。また、建設的になることもできます。批評が建設的になり、「なぜこのアクションをこの他のアクションに置き換えないのですか?」と言うこともできます。
彼らがそうするとき、批評は下にある何らかの解決能力を使用しています。そして、解決能力について言及したので、私は検証者を直接ソルバーとして使用するよりも、検証者を使用することの支持者であることも言及したいと思います。
なぜなら、検証者は構成可能だからです。複数の種類の制約を持つことができます。各タイプの制約、各タイプの正確性の考慮事項に対して検証者を持つことができ、それらは構成可能になります。
ソルバーは、それらをまとめてパッケージ化する傾向があります。特定のソルバーに固執すると、その表現力の制限に縛られてしまいます。これは、複数の専門家、複数の検証専門家を許可するようなものです。
実際、NASAの人々が行うような実世界の計画立案のようなものでは、ミッション計画などで、最終的には人間の専門家の集まりがこの計画を見て、「はい、大丈夫です」「はい、大丈夫です」「はい、大丈夫です」と言います。
そして、すべての専門家が大丈夫だと言ったら、計画を送り出そうとします。それでも失敗する可能性があります。ご存じのように、実世界は非常に複雑だからです。オーリング災害のようなことが起こる可能性があります。しかし、計画立案の全体的な目的は、予見できたはずのエラーや失敗を防ぐことです。それがLLM moduloのアイデアの基本的な考え方であり、検証の観点から我々がすでに持っているものと、LLMの能力を組み合わせています。
検証について話すとき、もう1つのポイントは、ユニットテストも一種の検証だということです。コードの場合、これもLLM moduloに関連しています。LLMを使用してコードを自動生成する最新の方法のいくつかと関連しています。
そこでは、Pythonインタプリタを使ってLLMが生成したコードの一部を取り、ユニットテストでチェックし、これらはユニットテストの項目で、正しい答えを与えているかどうかを確認します。
ユニットテストで正しい答えを与えなければ、それを送り出さないことは確実にわかります。しかし、正しい答えを与えたとしても、まだ偽物かもしれません。なぜなら、これらのユニットテストでうまく機能しているだけかもしれないからです。
これは部分的な検証のようなものであり、それは理にかなっています。基本的に、自動プログラミングのコミュニティでは、現在LLMを使用している人々がこれを使用しています。そのため、これもmodulo アーキテクチャと一致していると言えるでしょう。
最後の質問です。今、2つの世界が衝突しているのを見ています。例えば、OpenAIの陣営では、一般的な基礎モデルについて話しています。一方で、我々はニューロシンボリックアーキテクチャを持つ専門化されたハイブリッドモデルのようなものについて話しています。
中間にいる人々は、エージェントシステムの構築について話しています。これを実装する1つの方法は、基礎モデルを持ち、RAGを行い、LLM moduloを呼び出すというものかもしれません。別の方法は、マルチエージェントシステムを構築することかもしれません。これがどのように展開すると思いますか?
一般的なシステムについての私の考え方は、LLMにこだわっている限り、つまりLLMやLLMに追加のトレーニングを加えたものなどは、LLMが出す質の高い推測の密度を向上させるためのものだということです。
それにかかわらず、彼らはまだ、彼らが与える解決策が実際に何らかの特性を持っていることを保証することはできません。しかし、それはより良い解決策を生成するように制約されているだけです。
古いラマヌジャンの例に戻ると、彼は明らかに… 彼が言ったことの中には間違っていたものもありましたが、彼は特定の数学に対して非常に良い生成器を持っていた人の1人でした。
これが一般的なシステムに対して人々が持っている希望の種類です。彼らの精度などを向上させることについてです。
エージェントシステムについて、まず、私はエージェントのハイプ全体に困惑しています。人々は行動することと計画立案を混同しています。私のカムバックは、家に銃を置いて幼児を残すようなものです。幼児は行動しますが、必ずしも計画立案しているわけではありません。だからこそ、銃を持つべきではないのです。
私の出身国では、残念ながら幼児の周りに銃を置く人が多すぎます。それは… 行動することは計画立案を保証するものではありません。行動することはアフォーダンスに関するものです。
それらはほとんど直交しています。計画を立てることができても、実際にはアフォーダンスを持っていない人がいるかもしれません。
私が覚えている最も面白いFar Sideの漫画の1つは、2頭の牛がリビングルームに座っていて、壁に電話が鳴っています。1頭の牛がもう1頭の牛を見て言います。「ここに我々が座っていて、電話が鳴っている。そして我々は対立する親指がないために座っている」と。
彼らは実際に電話に答える計画を持っていますが、アフォーダンスがないために実行できないのです。
逆に、何かを拾うことができたり、小さなボタンを押すことができたり、関数呼び出しを行うことができたりしても、それらの関数呼び出しが望ましい結果につながることは保証されません。
エージェントシステムの多くの人々は、基本的に関数を呼び出すことができれば全てうまくいくと考えています。これは、高度にエルゴード的な世界、つまりほとんどどのシーケンスも失敗しない世界でのみ真です。それは計画立案がほとんど必要ない唯一の種類の場合です。その場合、基本的にやり過ごすことができます。
しかし、それ以外の場合、エージェントシステムには計画立案に加えて、関数を呼び出す能力が必要です。しかし、呼び出そうとする関数の種類がデータベースを上書きしたり、元に戻せないデータの損失につながったりしないことを、ある程度前もって証明したいはずです。
現在、誰もこれらの問題について話していません。ある意味で、計画を調整し、責任を取る必要があります。人間が計画を調整し、責任を取る必要があります。
そして、他のすべてのことが起こっているのは、関数呼び出しです。私にとって、これは人々が… 明らかにエージェントシステムを持ちたがっていますが、LLMが計画立案できない以上、LLM moduloエージェントシステムを持つことができない限り、何も変わらないと思います。
そこでは計画が保証され、その後で関数呼び出しを行います。それが可能な方法だと思います。
これが、一般的なシステム対エージェントシステム対… そして最後のことは、ELMaroについて、私が言ったように、LLMがソフトウェア宝くじに当たったので、しばらくここにいるでしょう。「しばらく」が何を意味するかはわかりません。
私たちは、あなたが先ほど言ったように、信じられないような時代にいます。AIにとっては素晴らしい時代です。来週何が起こるかわかりません。しかし、彼らは確実にしばらくの間ここにいるでしょう。
そのため、それらを賢明な方法で物事を行わせることは理にかなっています。そこでこのLLM moduloアーキテクチャを提案しています。なぜなら、そのようなAIはすでに存在するからです。RLシステムや検証者などはすでに存在します。
そのため、それらをLLMと組み合わせて、ある程度の推論の正確性の保証、計画立案の正確性の保証を与えることができます。
スバラオさん、光栄であり、喜びでした。あなたがより多くの若い研究者たちにこの分野に参入するよう刺激を与えたことを本当に願っています。最後に、人々はあなたについてどこで詳しく知ることができるでしょうか? また、人々はどのような研究を行うべきでしょうか?
実際に、私が大学院生に通常与えるアドバイスは、現在最も人気のあるものだけでなく、幅広い知識を持つべきだということです。
ある程度、多くの大学院生が実際に論理や推論、演繹的閉包などについて何も行っていないことが起こりました。私たちが話しているこれらの言葉の一部さえ、彼らは理解していません。彼らは非常に賢い人々ですが、基本的に非常に特定のスキルセットに焦点を当てました。
その一部は、このものが機能しているからです。論理は古い学校だと言います。しかし、ポイントは、規範的な使用と操作的な使用を区別する必要があるということです。
論理は依然として推論の正確性を判断する規範的な方法です。そのため、それを知っておきたいのです。そうすれば、より慎重に主張を行うことができます。
例えば、推論とRLの違い、データベースとN-gramモデルと演繹的データベースの違いを理解することができます。
そして、一度それを理解すれば、人間は信じられないほど賢く、確かに賢い大学院生は他の人間よりもさらに賢いので、良い仕事をすることができます。
一般的に、私の感覚では、そして他のことは、我々は事前に話していましたが、懐疑主義を持つことです。なぜなら、LLMの時代にAIが一種の自然科学になったことを面白いと思うからです。
特定の保証を持つアーティファクトを構築するのではなく、アーティファクトを構築し、それを突いて何ができるかを見るのです。この新たな能力の全体的な概念は、古いエンジニアたちを死ぬほど怖がらせるでしょう。
例えば、古い土木技術者が、ダニューブ川に架かる橋が交通を支えるだけでなく、金曜日には口笛を吹き、土曜日には飛ぶことを発見したら、彼らはそれを橋の建設の失敗だと考えるでしょう。なぜなら、仕様のために建設するはずだからです。
そして、我々はこの興味深い世界にいて、実際にこれらの巨大な大規模モデルを開発し、それを突いて何をしようとしているかを見ています。そして、これらの全ての新たな能力とSPARKS論文が出てきています。
そして、観察研究で必要なのは、ただ1つの肯定的な結果を得たからといって止まらないという厳密さです。実際に、他のどこで失敗する可能性があるかを見てみるべきです。
典型的な例は、思考の連鎖論文です。これは非常に影響力があり、非常に人気がある論文です。興味深いことに、彼らの論文には、思考の連鎖を適用した複数のケースがあります。約7つのケースの後、4つのケースでうまくいきません。
なぜうまくいかなかったかを理解しようとする代わりに、彼らは論文の残りの部分をうまくいった3つのケースに焦点を当てています。そして、コミュニティの残りの部分は、その肯定的なメッセージだけを取り上げました。
しかし、どこでうまくいかないかを理解することも重要です。なぜなら、それが観察研究の厳密さだからです。
そして、一度それを行えば… 我々は今、ある意味で動物学者のようです。なぜなら、基本的に、何をすべきかを知らずに訓練している、この信じられないほど複雑な有機体を持っているからです。そして、ここでスパークを見せ、あそこでスパークを見せることに驚いています。
しかし、支持可能な主張を行うことができるようになりたいのです。特に、経験的な主張についてより懐疑的になる必要があります。これが私が与えるアドバイスの種類です。
私の仕事自体については、ご存知のように、まず、再びこの場に呼んでいただきありがとうございます。私はチュートリアルを行ったり、講演を行ったりしています。これらのすべては我々のウェブサイトで利用可能です。
そして、多くの人々がいます。LLM modulo論文は実際に、多くの他の関連する仕事について話しています。人々がその方向に興味がある場合、それも見ることができます。しかし、それが私が言いたいことです。
素晴らしいです。ところで、否定は良い例です。「ジョン・クルーズはXの母親です」という文があり、それを反転させると機能しないという論文を見たことがありますね。
はい、反転カーブのような種類のことも起こります。しかし、一般的に問題は、経験的研究では、仮説を支持する結果が出たと思った瞬間に、非常に懐疑的になる必要があると、私は常に学生に言っています。
なぜなら、人間の傾向は、この成功を祝って論文を書こうということだからです。そして、それは半減期の短い論文を書くことになり、集合的に分野を、ある意味で無駄な方向に押し進めることになります。
見てください、簡単な方法はないと思います。つまり、研究は個人によって行われ、彼らにはさまざまな興味深い動機があります。私はそれを完全に認識しています。
そのため、あなたが私にどんなアドバイスを与えるかと尋ねたので、このアドバイスを与えます。誰も気にせず、必ずしも従わないことを十分に知っていますが、希望としては、誰かが少し注意を払うかもしれません。そしてそれが助けになるかもしれません。
しかし一般的に、これは分散化されたプロセスです。科学についての唯一の良いことは、それが自己修正的だということです。思考の連鎖論文があり、また「思考の連鎖は機能しない」という我々の論文もあります。
最終的には、私はこのことを他の人に言及していたのを終わりにしたいと思います。アルバート・アインシュタインについてのこの話が大好きです。ある時、ジャーナリストが彼に尋ねました。「100人のアーリア人科学者があなたの相対性理論に反対する本を書いたことを知っていますか? それについてどう思いますか?」
アインシュタインは言いました。「もし彼らが正しければ、1人で十分です。もし彼らが間違っていれば、1万人でも違いはありません。」
最終的に、これが科学の自己修正的な性質です。そして、希望的には… 実際、昨日、ICML（国際機械学習会議）のポジションペーパートラックの最初の口頭発表で、否定的な結果を受け入れることについての素晴らしい論文がありました。
人々が単にポジティブではなくネガティブになるべきだと言う傾向があることは理解していますが、科学では能力と限界の両方を理解する必要があります。
途中から聞き始めた人は、私がLLMを嫌っていると思うかもしれません。私は実際に彼らが信じられないほど有用だと思っています。ただ、彼らができることについて妄想的になりたくないだけです。彼らが何をできて何をできないかを知るべきです。そうすれば、彼らを正しく使用できます。
正直なところ、これは絶対的な名誉でした。ウィーンに来て荷物を失くしたことも、このインタビューのためなら価値がありました。本当にありがとうございました。
ありがとうございます。感謝しています。