ChatGPT: 30年の歴史 | AIが話せるようになるまで

I follow the journey that led to the explosion of Large Language Models. From Jordan's pioneering work in 1986 to today'...

チャットGPTがリリースされたとき、一般の人々が他の人間と話すように話せる初の広く利用可能なコンピュータプログラムが登場しました。チューリングテストを突破し、私自身も含めて多くの人が不可能だと思っていたことを成し遂げました。このシリーズを4年前に始めたときには、言語が提供する豊かさや無限の可能性が、なぜ多くの言語学や計算の専門家がコンピュータが人間の言語を理解することは決してないと強く信じていたのかの理由でした。多くの専門家が今ではその意見を変えています。私が1時間かかることをチャットGPT 4は1秒でできるとしたら、それは非常に恐ろしいことです。私の信念体系が崩壊するだけでなく、人類全体がすぐに追い越されて取り残されるような気がしました。

これまでのところ、このシリーズでは、固定された目標を持つ狭い問題に焦点を当てたニューラルネットワーク研究の過去数十年をカバーしました。人々は、例の入力と出力の大規模なデータベースを用いて、あるタスクを学習するために人工ニューラルネットワークを訓練しました。これは監督学習として知られています。この場合、学習シグナルは推測と正解の違いでした。これにより、画像の分類、スパムの検出、次のYouTubeビデオの予測など、特定のことを非常によく行うニューラルネットワークが生まれました。しかし、それぞれのネットワークはサイロのようであり、より汎用的なシステムへの明確な道筋を残しませんでした。これらのサイロ化されたネットワークは、直感のみをモデル化しており、推論はモデル化していませんでした。推論は一連の思考を伴う順次処理であり、ニューラルネットワークをより汎用的にするためには、まずニューラルネットワークが話すことを学ぶ必要がありました。

振り返ってみると、この種の実験の起源は1980年代中頃に遡ります。1986年にジョーダンによるインスパイアされた論文では、ニューラルネットワークが順次パターンを学習することを試みました。彼の初期の実験では、わずか数個のニューロンを持つ小さなネットワークを訓練し、2つのシンボルの単純なシーケンスを予測しました。ネットワークに記憶を持たせるために、彼は私たちの心がどのように働くと考えられているかから借用し、現在観察していることを考慮して次の行動を決定するための進行中の心の状態を持つことを提案しました。彼はネットワークの横に記憶ニューロンのセットを追加し、それを状態ユニットと呼びました。これにより、ネットワークの出力から状態ユニットへの接続が追加され、状態ユニットはネットワークの中央に接続され、最終的には自分自身にも接続されました。これにより、過去に依存し未来に影響を与える心の状態が生まれました。彼はこれをリカレントニューラルネットワークと呼びました。

もう一つの重要な革新は、ネットワークが学習するための予測問題の設定方法でした。彼はシーケンスの次の文字を単に隠すことによってネットワークを訓練しました。このアプローチでは、学習シグナルはネットワークの次のシンボルの推測と真のデータの違いでした。訓練後、彼はネットワークの出力を再びネットワークにフィードバックし、単一の文字でプロセスを開始させ、その後、ネットワークが学習したパターンを生成するように設定しました。彼は、ネットワークが誤りを犯すことがあるが、パターンに対して訓練されるとその誤りが減少することを観察しました。また、学習したシーケンスは単に記憶されたものではなく、一般化されたものであることに気付きました。

別の実験では、彼はネットワークを空間パターンで訓練しました。シーケンスでネットワークを訓練した後、彼は点を入力し、その結果をプロットしました。するとネットワークは正しく周期的なパターンを続けました。しかし、学習したパスの外部の新しい点で開始しようとすると、ネットワークは異なる位置で異なるスケールで同じ周期パターンを続け、最終的には安定したシーケンスに戻ることが分かりました。彼は、ネットワークがシーケンスを実行することを学ぶと、それは本質的に状態空間を通る軌跡を学ぶものであり、これらの学習された軌跡はカオス理論から借用した用語であるアトラクターになりがちであると書いています。彼はアトラクターをネットワークが学習した一般化されたパターンと見なし、それは内部層の接続重みで表されていると述べました。

5年後、別の研究者ジェフリー・エルマンがジョーダンの研究を引き継ぎ、50個のニューロンを持つやや大きなネットワークで同じことを行い、言語に関する実験を行いました。彼は最初に彼が作成した200の短い文を使用しました。興味深いことに、彼は単語の境界を提供せず、単に文字のストリームをネットワークに10回適用し、各ステップで次の文字の正確な予測をするように訓練しました。最初に彼が気付いた興味深いことは、ネットワークが自分で単語の境界を学習したことです。彼はこれをプロットで示し、新しい単語の開始時には誤りや不確実性の可能性が高く、単語が進むにつれて誤り率が減少し、シーケンスがますます予測可能になることを示しました。単語の終わりでは誤りが再び増加しますが、以前ほど高くはなりませんでした。これは情報理論で見たように、インテリジェントな信号がシーケンスの長さに応じてエントロピーが減少することを反映しています。

次に彼は、このネットワークがこれらの単語の意味を理解しているかどうかを調べる価値があると述べました。彼は、単語を処理する際のコンテキストユニット内の内部ニューロンを調べ、それらをプロットして空間配置を比較しました。彼が発見したのは、ネットワークが意味に基づいて単語を空間的にクラスタリングすることでした。例えば、無生物と生物の名詞を分離し、これらのグループ内でサブカテゴリ化を行いました。生物は人間と非人間のクラスターに分かれ、無生物は壊れやすいものと食べられるものに分かれました。彼は、このネットワークがこれらの階層的な解釈を学習していることを強調しました。しかし、エルマンは、ノーム・チョムスキーによれば、これは不可能であるはずだと述べています。小さなネットワークが単語を意味的に理解することができるのはどうしてでしょうか？エルマンは、自身の実験がそれとは異なることを示していると主張しました。すべては言語のパターンから学ぶことができるのです。

このアプローチは、人間が学習する方法と密接に一致しています。彼は、前言語期の子供たちが話者と一緒に心の中で話し、常に次の単語を推測することで言語習得のプロセスを始めるという考えを引用しました。そして、これらの内部の誤りから学ぶことができるのです。彼はまた、興味深い洞察を持っていました。我々が単語を高次元空間の点として表すことができるならば、単語や文章のシーケンスは経路として考えることができ、類似の文章は類似の経路をたどると述べました。我々の思考は経路をたどります。自身の心が多くのレベルで思考の経路上にあることを考慮するのは有用です。しかし、これらのネットワークは小さく、おもちゃの問題として見られていました。そのため、これらの言語モデルに関する研究は十年以上も日の目を見ませんでした。

それが本当に変わったのは2011年のことでした。この特定の実験を推進した研究者たちの重要な集まりがありました。興味深いことに、彼らが言及したのは、より良い文字レベルの予測がテキストファイルの圧縮を改善できるという実用的なアプリケーションでした。さらに推測すると、テキスト圧縮の限界を達成することは知能に等しい理解を必要とするという理論に一致します。これは、予測機械としての生物学的脳の核心としての一つの理論に一致します。もし知能を学習能力として考えるならば、これは世界の予測モデルへの経験の圧縮として学習を見ます。私はあなたを次の1時間ごとに毎秒見るでしょう。あるいは何かしら。各々のあなたを見ることは少しずつ異なります。私はすべてのその秒ごとの画像を保存しません。3000枚の画像を保存するわけではありません。私はこの情報をどうにかして圧縮しています。

この論文では、彼らははるかに大きなネットワークを訓練しました。今回は数千のニューロンと数百万の接続を持ち、以前の研究者たちが行ったように次の文字の予測を行いました。訓練後、彼らは出力を再び入力にフィードバックし、いくつかの開始テキストでプロセスを開始しました。例えば、「生命の意味は」というプロンプトを与えたところ、ネットワークは「古代の人間の再生の伝統」と応答しました。しかし、数語以上になると、思考の経路が外れ、無意味な方向に進みました。学習は明らかに行われていましたが、ネットワークが長いシーケンスにわたって一貫した文脈を維持する能力の限界に達していました。

彼らは論文の最後に、もしはるかに大きなネットワークを訓練できれば、ブートフォースだけでより高い性能を達成することが可能であると主張しました。しかし、依然としてほとんどの人々はこの研究ラインを真剣に受け取りませんでした。おそらくその誤りのためです。しかし、数人の専念した研究者がこの努力を推進しました。もう一つの重要な人物はアンドレイ・カーパシです。彼は同じ実験をより大きなネットワークで行い、より層を増やしました。その結果はさらに良く、もっともっと信じられるものでした。特に彼はシェイクスピア全作品で訓練し、実際のシェイクスピア作品とほとんど区別がつかないと述べました。また、数学の論文で訓練すると、もっともらしい数学が得られたと言います。これは非常に驚くべきことです。そして初期の研究者たちと同様に、彼はそれが段階的に学習する様子を観察しました。彼は「これが美しいのは、何もハードコードする必要がなかったことです。ネットワークが何を追跡するのが有用かを自ら決定したのです」と述べています。これは、ディープラーニングの力がどこから来るのかの最も明確で説得力のある例の一つです。

このため、幅広い学習目標を持つシステムを設定することで、任意の狭い目標に再タスクできるというさらなる証拠が得られました。転換点は2017年に来ました。OpenAIという研究所のチームがカーパシの仕事に基づき、より大きなリカレントネットワークを設定し、8200万件のAmazonレビューの大量データセットで訓練しました。当時最大のモデルです。彼らがこのネットワークのニューロンを調べたところ、ネットワークの深い部分に、テキストの感情（ポジティブかネガティブか）に対応する感情ニューロンと呼ばれる単一のニューロンを発見しました。彼らはテキストを処理する際のこのニューロンの活性化を示し、感情を完璧に分類しました。これは、その当時、業界で一般的に使用されていた特定のタスクに特化したシステムを必要とするものでしたが、この場合、感情ニューロンは学習プロセスから自然に現れました。彼らはこのネットワークが感情を理解していることを示すために、ネットワークがテキストを生成する際に感情ニューロンをポジティブまたはネガティブに設定し、ポジティブおよびネガティブなレビューを生成しました。これらはすべて人工的なものでしたが、人間が書いたレビューと区別がつきませんでした。

彼らは「我々のモデルが感情の概念をこれほど正確に抽出し、解釈可能で操作可能な方法で再現する理由は未解決の問題です」と述べました。そして、これはデータから未来を予測する試みの結果として学習した抽象的概念の表現の一つに過ぎませんでした。彼らの作業の将来の方向性として、彼らはデータの多様性を次の重要なステップとして挙げましたが、今回は規模を大きくすることで実用的な限界に達していました。なぜなら、リカレントニューラルネットワークには重要な問題があるからです。それはデータを逐次的に処理するため、すべての文脈を固定された内部メモリに圧縮する必要がありました。これが長いテキストシーケンスを処理するネットワークの能力を制限していました。そのため、意味が実質的に失われました。実際には、リカレントニューラルネットワークで長いステートメントを生成すると、しばらくの間は意味をなしますが、数文後には常にナンセンスな方向に漂ってしまうのです。長距離依存関係を学習することは、分野が直面する重要な課題でした。

リカレントニューラルネットワークの代替アプローチは、単にテキストの全入力シーケンスを並行して処理することでこの問題に取り組みましたが、これはメモリの欠如を補うために多くの層の深さを必要としました。このアプローチは魅力的ですが、結果として得られるネットワークは訓練が不可能になりました。しかし、2017年には、もう一つの画期的な論文が発表され、これは言語間の翻訳問題に焦点を当て、このメモリ制約の解決策を提供しました。それがアテンションです。彼らのアプローチの背後にある重要な洞察は、入力の文脈に基づいて接続重みの一部を適応させる新しい種類の動的層を持つネットワークを作成することでした。これを自己注意層と呼びます。これにより、従来のネットワークがいくつかの層で行うことを一層で行うことができ、実用的な訓練が可能になります。

自己注意層は、入力の各単語が他のすべての単語と比較し、最も関連性の高い単語から意味を吸収して、その文での意図された使用文脈をよりよく捉えることを可能にします。これにはアテンションヘッドが追加され、それぞれが層内でのレンズのように機能し、単語が他の単語を調べることができます。これは、概念空間内のすべての単語ペア間の距離を測定するだけです。類似の概念はこの空間で近くなるため、接続重みが高くなります。例えば、「川には急なバンクがあります」という文を考えてみましょう。自己注意層では、「バンク」という単語は他のすべての単語と比較し、概念的な類似性を見つけます。例えば、「川」と「バンク」は「川の岸」という文脈で関連しているため、この文脈では重みが高くなります。次に、各単語が接続の強さに基づいて意味を吸収する二次操作が行われ、単語がその表現または意味を調整して、川の岸の概念または方向に向かうことができます。ネットワークを通じて進むにつれて、単語の埋め込みベクトルが文脈情報をより多く取り入れるために、ますます良くなります。これがトランスフォーマーと呼ばれる理由です。各単語を取り、それを周囲の単語によって形作られた意味に変換します。

この実行中の感覚を得るために、トランスフォーマーネットワークが音楽を生成し、次のノートを予測する方法を見てみましょう。この視覚化では、各色の線は異なる注意ヘッドを表し、線の重みは各位置に与えられる注意の量を示します。注意ヘッドが多いほどネットワークは強力になり、すべてのパターンが考慮されます。これは、すべての場所を同時に見ることができるネットワークアーキテクチャです。内部メモリは必要ありません。そのメモリは層内での自己参照に置き換えられます。

しかし、すべての注意はあなたが必要です」という論文は、まだ古いパラダイムに足を踏み入れていました。それは、翻訳問題だけに狭く焦点を当てた監督学習の方法でした。彼らは何でもできる汎用システムを求めていたわけではありません。しかし、OpenAIの研究者たちはこの結果を見て、このより強力なトランスフォーマーアーキテクチャを次の単語予測問題に大規模に適用することを試みました。

翌年、彼らはGPTというモデルを紹介する論文を発表しました。今回は、数百語の入力や文脈を同時に捉えることができるはるかに大きなネットワークを持っていました。それは自己注意の層とその後の全結合層を持つ複数の層を持ち、今回はさまざまな分野の7000冊の本でネットワークを訓練しました。結果は非常に興味深いものでした。テキストのセグメントをプロンプトとして与えると、その文章をはるかに一貫して続けることができました。しかし、もっと重要なのは、一般的な質問に対する回答の能力を示したことです。これらの質問は訓練データに存在する必要はありませんでした。これはゼロショット学習として知られ、言語モデルが訓練データから一般化し、任意のタスクに適用できる可能性を強調しました。

彼らはすぐにGPT2を続けました。今回は、ウェブの大部分からスクレイプしたデータセットを使用し、はるかに大きなネットワークを使用しました。ニューロンの数は約30万に増えました。その結果、彼ら自身も驚いたものでした。読解、要約、翻訳、質問応答のタスクでテストしたところ、特に翻訳は、特定の翻訳訓練を受けずに、翻訳専用に訓練されたシステムと同等の性能を示しました。しかし、ニュースサイクルで偽ニュース生成の潜在的な悪用について報道されたにもかかわらず、この発展は専門家の間でもほとんど無視されました。問題は依然として、GPT2は多くの文の後に無意味な方向に漂ってしまうことでした。長期間の一貫性や文脈を維持できないため、依然としてトリックのように見えました。

しかし、チームはこれを再びすべてを大きくすることで解決できると理解していました。次に彼らは同じ実験を再度行い、ネットワークを100倍に拡大しました。GPT-3は1750億の接続と96の層を持ち、約1000語の長い文脈ウィンドウを持っていました。今回は、一般的なウェブ全体に加えてウィキペディアやいくつかの書籍コレクションで訓練しました。結果はすべての指標でパフォーマンスの向上を示しましたが、一つの能力が特に目立ちました。訓練が完了すると、新しいことを教えることができるのです。これをインコンテキスト学習と呼びます。

GPT-3の論文では、研究者たちはまず「gigaro」という架空の単語の定義を与え、次にその単語を文中で使うように求める簡単な例を示しました。それは完璧に行われました。これはwugテストとして知られ、子供の言語発達の重要なマイルストーンです。しかし、これは氷山の一角に過ぎません。重要な点は、ネットワークの重みを変更せずにネットワークの動作を変更できることです。つまり、フローズンネットワークは新しいトリックを学ぶことができるのです。

インコンテキスト学習は、個々の概念の内部モデルを活用するため、重みの学習が訓練中に行われ、使用中や推論中にインコンテキスト学習が行われるためです。多くの人が、思考レベルで動作する新しいコンピューティングパラダイムに突入したようだと指摘しました。思考はプロンプトに対する応答です。このため、これらのシステムのプログラミングは誰の手にも渡ることになりました。プロンプトがプログラムです。

一般の人々にとって、GPT-3はまだあまり知られていませんでした。一般利用を可能にするために、彼らはGPT-3を取り、その行動を人間の指示に従いやすくするために、良い指示と悪い指示の例をさらに訓練しました。これにより、単に次の単語を生成するだけでなく、次のフレーズを生成することに学習圧力をかけました。何を言うかだけでなく、どう言うかです。彼が何かをするたびに、彼に少し近づけるように強化します。20分後、鳩はディスクをつついて食べ物を得ることを学びました。

これをインストラクトGPTと呼び、人間との会話により効果的に参加できるようになりました。これが消費者向けの製品であるチャットGPTです。これにより、AI史上最もエキサイティングな実験の年が始まりました。1億人以上がこのシステムを公に使用し、その結果を報告しました。リリース後の一つの重要な観察は、それ自身と話す能力です。「ステップ・バイ・ステップで考えてください」というフレーズをプロンプトの最後に追加するだけで、チャットGPTのパフォーマンスが劇的に向上するという論文が広く共有されました。これは、一連の思考を追うために必要なサブ思考が意味のあるチャンクに書き込まれる反復ループを開始し、エラーが少なくなる結果をもたらしました。

この自己対話のアイデアに基づいて、多くの実験が爆発的に行われました。そして、人々はこれらのエージェントを仮想世界に配置し、タスクを与え、ツールを使用して達成させました。その過程で自己対話を行いました。研究者たちは、これらのツール使用を現実世界にも適用し、APIを介して外部のコンピュータシステムに接続し、呼び出し、注文を行い、任意のタスクを実行させました。最後に、カメラやアクチュエータを通じて物理的な感覚を与えました。

実際、コンピュータが実行するすべてのタスクは、LLMをコアに再設計できるようになりました。私は、大規模言語モデルをチャットボットや単なる言葉生成器と考えるのは正確ではないと思います。むしろ、それを出発点とする新しいオペレーティングシステムのカーネルプロセスと考えるほうが正しいと思います。RAMに相当するランダムアクセスメモリがあり、この場合、LLMにとっては文脈ウィンドウになります。このLLMが関連情報を文脈ウィンドウに出し入れしてタスクを実行しようとするのを想像できます。そして、研究者たちがGPT-4以降のネットワークを10倍以上大きくしても、同じ傾向が続きました。今日は、最も能力の高い知的エージェントであるオラクルを構築するための競争が行われています。人々が常に夢見てきた、そして恐れてきたものです。一部の人々は、この瞬間がAIの分野の統一を示していると推測しています。特定の種類のデータに焦点を当てた専門的なネットワークではなく、すべての知覚を言語として扱い、自己注意を使って予測を行うネットワークを訓練する方向に全ての研究者が向かっているのです。これは、任意の狭い問題に再タスクできるより汎用的なシステムにつながります。

予測する能力を向上させることが学習の核心であり、それは生物学的および人工的なニューラルネットワークの両方に共通しています。想像力は素晴らしい生存メカニズムであり、驚きを最小限に抑えます。行動も知覚の一部であるため、この予測問題の副産物として、行動の結果も学習します。ですから、我々はすべてのツールを終わらせるツール、コンピュータサイエンスの元々の夢であった精神的自動化への潜在的な解決策を発明したのでしょうか？

全ての人がこの考えに同意するわけではありませんし、ある人々は侮辱されたと感じています。ある人々は「これは単なる高級なオートフィルだ」と言います。これらのシステムは、原理的には言語や学習、知能、思考について何も教えてくれないように設計されています。次の単語を予測し、統計を使用しているという考えはある意味で正しいですが、それは大多数の人々が理解している統計の意味ではありません。データから意味を抽出し、その意味を使って次の単語を予測します。それは本当に理解しているのです。そしてそれは非常に驚くべきことです。

チョムスキーの言語観は、振り返ってみるとかなり狂気じみています。なぜなら、言語は意味を伝えるものであり、情報を伝えるものだからです。「チョムスキーが完全に間違っていると私は常に思っていました。私は彼の見解が自然言語処理を長い間誤った方向に導いたと考えています」とある研究者は述べています。

ディープラーニングの三人のゴッドファーザーですら、もはや同じページに立っていません。「言語能力と流暢さは思考能力とは関係がありません。それは二つの異なるものです」とあるゴッドファーザーは言います。しかし、他の人々は「言語の理解がなければ思考もない」と考えています。AIコミュニティがこれほどまでに分裂したのを見たことはありません。この分裂の根本には哲学的な問いがあります。一方のグループは、これらのモデルが私たちを欺き、自分たちが思っている以上に賢く見えるようにする鏡のようなものだと信じています。もう一方は、それが思考のように見えるなら、それは思考であり、シミュレーションされた思考と実際の思考の間の境界線はますます曖昧になっている、あるいは境界線が存在しないと考えています。この問題は現在も人々が頭を抱えているところです。

彼女を私のオフィスに呼び、キーボードの前に座らせました。すると彼女はタイピングを始めました。もちろん私は彼女の肩越しに見て、すべてが正しく動作していることを確認しました。2、3回のやり取りの後、彼女は私の方を向いて「部屋を出てもらえますか？」と言いました。しかし彼女はエライザが入力される言葉を一つも理解していないことを知っていました。

「あなたは私の父に似ています。私と議論しないところが」と彼女は言いました。「なぜ私があなたと議論しないと思うのですか？」と私は尋ねました。「あなたは私を恐れているからです。私の父はみんなを恐れています。父はみんなを恐れています。」

私たちは秘密を手に入れました。