AIが世界を征服した方法

9,977 文字

One insight changed everything... intelligence can emerge from pattern prediction. This is a capstone video featuring ke...

深層学習の背後にある重要な考え方は、パターン予測が知能につながるということです。機械が見聞きするもの、機械が取る行動、そしてアイデアそのものまで、全てがパターンとして理解されます。そして機械がパターンを予測することを学ぶと、それを作り出すこともできるようになり、人間の能力を模倣し、しばしばそれを超えることができます。
現在の私たちの状況は、とてもかわいい虎の赤ちゃんを飼っているようなものです。赤ちゃん虎は素晴らしいペットですが、成長したときに飼い主を殺そうとしないことを確実にしておく必要があります。
これが今日私たちが「AI」と呼んでいるものです。自然の学習解決策を模倣することで成功した巨大なパターン予測マシンです。自然は3つの異なる層で3回学習を解決したと言えます。
第一層は進化的学習で、ランダムな試行を行い、何が生き残るかを見るという単純な戦略に基づいています。しかしこれは世代を超えて起こる非常に遅い学習プロセスで、生命における急速な環境変化に適応することができません。
そこで自然は、脳を使って一生の間に行動を適応させる、はるかに速い第二の学習層を発見しました。脳は、生物がランダムに探索を行い、報酬や痛みの経験に基づいて効果的なものをより多く実行することを可能にします。これは強化学習として知られています。
これが機械学習というAIパラダイムの基礎となっています。命令でプログラムするのではなく、学習信号を使って全てをゼロから学ばせるのです。これは1960年代にまで遡り、MITのドナルドが最初の強化学習マシンを実演しました。当時コンピュータがなかったため、マッチ箱と色付きビーズを使って三目並べをプレイできるものでした。
各マッチ箱は三目並べのボード状態を表し、中の色付きビーズはその位置から可能な各手を表していました。プレイは単純で、人間のプレイヤーが手を打った後、人間のオペレーターが現在のボード状態に対応するマッチ箱を見つけ、ランダムにビーズを引きました。ビーズの色がその手を決定しました。
マシンが勝った場合、その試合での全ての手を強化するために勝利色のビーズを追加し、負けた場合はそれらを取り除きました。この単純な報酬ベースのプロセスを通じて、マシンは完璧なプレイのパターンを発見しました。これらの勝利戦略はプログラミングではなく、経験から生まれたものでした。
しかしこれが機械は学習できることを示した一方で、重要な制限がありました。可能な状況やボード状態それぞれに対して、人間が選択する別々の箱が必要だったのです。脳を本当に模倣するためには、機械は自身の感覚、つまり自力でパターンを認識する能力が必要でした。これを抽象化と呼びます。
抽象化の形成は、あなたが自動的に行っていることです。些細な違いを無視しながら、根底にある類似性に焦点を当てるのです。これは、偉大な作家ボルヘスが短編小説で描いた、抽象化を形成できない男性の物語にも表れています。
その男性には完璧な記憶力があり、過去の日々の木の葉一枚一枚、雲の形成、水面の波紋全てを覚えていました。しかしこの能力には欠点がありました。全ての違いに気づいてしまうため、彼にとって全てのものが異なって見えたのです。鏡の中の自分の顔は毎回驚きをもたらし、「犬」という言葉があまりにも異なる外見の生き物を包含していることに悩まされ、同じ犬でも横から見た場合と正面から見た場合で同じ名前を持つことが奇妙に感じられました。
抽象化によって、重要でない違いを無視し、物事の背後にある共通のパターンに注目することができます。そして抽象化を学習できる機械を作るため、研究者たちは自然からインスピレーションを得ました。
1800年代後半、科学者たちは脳組織を研究し、脳が固形の塊ではなく、層状に発火するニューロンの膨大なネットワークであることを発見しました。これらのニューロンは連鎖して発火し、回路を形成して、情報が脳の層を深く通過するにつれてカスケード状のパターンの活動を生み出します。
そして猫や犬を見たとき、脳の最初の層のニューロンを見ると、最初はこの2つのパターンを区別するのは難しいでしょう。しかしこれらの信号が脳のより深い層を通過すると、異なる活性化パターンに分離し始めます。最も深い層では、猫と犬は非常に異なるニューロン群を活性化させます。
実際、あなたの思考の全ては、心の深いところで独自の活性化パターンとして存在しています。これは冗談ではなく、私が思考とは何かについて信じていることです。思考とは、大量のニューロンにおける活動パターンなのです。実際、科学者たちは今や脳活動を見て、あなたがどんな画像を思い浮かべているかを言い当てることができます。
これこそがフランク・ローゼンブラットが1958年に作ろうとしたものです。電気部品で作られた人工脳組織です。彼は人工ニューロンとして小さな電気スイッチであるトランジスタを使用し、3層に配線しました。最初の層は画像からピクセルを読み取る人工網膜に接続され、より深い層はただランダムな接続を使用し、学習を通じて進化するよう設計されました。
出力は単純で、2つの電球があり、1つは四角を、もう1つは円を表していました。そしてこのネットワークは試行錯誤を通じて学習しました。ニューロン間の各接続は調光ノブによって制御され、電流の流れを調整しました。これは脳が接続を強化したり弱めたりする仕組みの機械版です。
最初は画像を見せられたとき、ネットワークは円と四角の出力の両方を活性化させ、何であるか確信が持てませんでした。それを訓練するため、ローゼンブラットは全ての接続のノブを調整し、出力を観察して、役立つ変更を保持しました。十分な例を経験した後、もはや調整は必要なくなり、パターンを自力で認識できるようになりました。
これが基本的なアルゴリズムです。重みを微調整し、変化をもたらす調整だけを保持するのです。これが今日の全てのAI学習の基礎となっています。このネットワークの一部のニューロンは曲線にのみ反応するようになり、他は輪郭にのみ反応するようになりました。これは私たちの脳の働き方とよく似ています。
1980年代後半、ヤン・ルンはより大きなネットワークで何が可能かを示し、封筒の住所を素早く読み取るという産業界が直面していた実用的な問題に取り組みました。そこで彼は何千もの例を使用して手書き数字を認識するようネットワークを訓練しました。
ローゼンブラットのネットワークと同様に、初期層は基本的な曲線と輪郭を検出していましたが、より深い層はこれらの単純なパターンをより複雑なものへと組み合わせる階層を構築しました。例えばループ検出器や、最終的には数字検出器となり、無限の手書きのバリエーションをたった9つの可能な出力に変換しました。
これらのネットワークの内部で何が起こっているかを理解するために、情報を空間的にどのように整理しているかを視覚化することができます。最初の層では、異なる手書きの2のような類似した物が無作為に散らばっていますが、信号が層を通過するにつれて、ネットワークはこの空間を徐々に変換し、似た例を引き寄せていきます。
最終層では、全ての2が一つの領域に集まり、全ての3が別の領域に集まり、私たちが概念領域と呼ぶものを作り出します。これは強力な洞察を与えてくれます。概念とは文字通り空間における領域なのです。
しかしこのアプローチが大きな転換点を迎えたのは2012年のImageNet競争においてでした。これは画像に何が写っているかを自動的に識別するコンピュータプログラムを作成する年次コンペティションです。あるチームがルンと同じアプローチを前例のない規模で採用し、何百万もの教師付き画像でネットワークを訓練しました。
彼らは驚くべきことを発見しました。初期層は依然として輪郭、曲線、形状を検出していましたが、より深い層はますます複雑なパターン、質感、そして顔のパターンさえも発見したのです。これにより、文字通り共通のピクセルを持たない2つの犬の画像が、最初の層では非常に異なるニューロンを活性化させながらも、ネットワークの深い層では同じ犬のニューロンを活性化させることができました。
そしてネットワークはこれら全てを自力で学習し、最終的に人間の性能を超えました。しかもプログラミングは一切必要ありませんでした。これは起こる前日まで、ほとんどの人が不可能だと考えていたことでした。このアプローチはディープラーニングとして知られるようになりました。
これは私が論破不可能な議論だと考えるものでした。その議論とは、「もしあなたのニューラルネットワークが深く、大きければ、困難なタスクを解決するように構成できる」というものです。そこでのキーワードは「深く」と「大きい」です。人々は大規模なニューラルネットワークを見ていませんでした。
最初のブレークスルーは全てこの種のパターン認識からもたらされました。次の進歩は、ネットワークを認識ではなく予測のために訓練するという重要な転換から来ました。最初の重要な成果はゲームにおいて現れました。
1992年、ジェラルド・テサウロはこの研究の流れを発展させ、バックギャモンをプレイできるニューラルネットワークを作成しました。彼のネットワークは、人間が設計したルールを使用する代わりに、与えられた入力ボード位置に対する勝利確率を出力するよう訓練されました。
このネットワークは完全に自己対戦と勝敗の報酬信号だけから、勝利するボードパターンを認識することを学習しました。それは専門家のプレイヤーでさえ驚かせる戦略を発見しました。
そして最後のステップは、予測からパターンの生成へと自然に移行しました。可能な次の行動に対する確率を出力し、最良の行動が最も高い確率を持つようにしたのです。そしてすぐにニューラルネットワークは、チェス、囲碁、あらゆる種類のビデオゲーム、そして戦略ゲームでも徐々に人間を打ち負かすようになりました。
妖精の火を無視しているね。ボットは良い、ボットは私が想像できたよりも優れている。Pを取った。暗闇の中であなたがどこに行くか予測する。そう、私はプレイしたが…
しかしこれらは単純化された世界でした。本当のテストは常に、物理的なロボット工学のような混沌とした現実世界でした。素晴らしい最初の例は、当時はあまり影響力のない小さな研究所だったOpenAIから来ました。
彼らは、パターン学習の同じ原理が現実世界の問題にも通用すると賭けました。それを実証するために、キューブを操作するロボットハンドを訓練しました。彼らは特定の動きをプログラムしませんでした。代わりに、画像を入力として受け取り、この場合は様々な次のモーター動作の確率を出力として学習する大規模なニューラルネットワークから始めるというパターンに従いました。
システムは何百万回もの試行とシミュレーションを通じて学習し、自力で成功する操作のパターンを発見しました。そして驚くほど人間らしい動きが生まれました。
「このシステムの汎用性は非常に興味深いものでした。ブロックを回転させるだけでなく、他の形状でもタスクを実行することができます」
それは予期しないことを色々とやってのけました。そしてこれがロボットサッカーのようなより複雑な問題に適用されると、ニューラルネットワークはゼロから歩行を学び、その後キックを学び、そしてシュートを予測してブロックすることまで学びました。これら複雑な行動は全て、同じ学習プロセスから生まれました。
これは行動の抽象化の働きでした。2つとして同じサッカーのシュートはありませんが、これらのネットワークは成功につながる根底にある行動パターンを捉えました。しかし依然として、それらは1つの特定のタスクに対してのみ訓練された、非常に狭い抽象化しか形成できませんでした。これは、1つのことを非常に上手くできるが、その1つのことしかできないサイロ化されたシステムにつながりました。
そのため、一般的に何でもできるニューラルネットワークというアイデアは、まだ絶望的に思えました。2016年には、教師なし学習は機械学習における未解決の問題で、何をすべきか全く見当もつかない状態でした。
ブレークスルーは、AIが自然の第三の学習層である言語を達成したときに訪れました。進化が言語を選んだのは、それが想像力を使って他人の経験から学ぶことを可能にするからです。言語があれば、言葉にできることなら何でも想像できる汎用的な想像力が得られます。一方でゲームAIはチェスの手しか想像できませんでした。
このブレークスルーを達成するには、言語そのものを理解するという広範な目標を追求する必要がありました。このパズルの鍵は、究極のパズルソルバー、情報理論の父クロード・シャノンからもたらされました。1940年代、彼は言語そのものを一連の予測として見ることを助けてくれました。あなたが言う各単語は、前に来たものに基づいて、可能性のある単語の集合から選ばれるのです。
この基礎に基づき、1980年代に研究者たちは、テキストの次の単語を予測するために小規模なニューラルネットワークの訓練を始めました。ネットワークがゲームにおける次の手を予測することを学ぶのと同じように、これらのネットワークは次の文字を予測することを学びました。
最初の研究者たちは驚くべきことを発見しました。これらのネットワークは似た単語を自動的にクラスター化することを学びました。動詞は動詞と、名詞は名詞と、そして似た意味を持つ単語同士がグループ化されたのです。これら全ては次の文字を予測することから自動的に生まれました。
難しかったのは、これらのニューラルネットを次のトークンを予測するように訓練することが、そもそも価値のある目標だということを理解することでした。そしてそれは私たちの考え方に大きな影響を与えました。
重要な転機は2015年で、アンドレ・カーパシーが十分な量のテキストで訓練すると、これらのネットワークがパターンを予測するだけでなく、生成もできることを実証しました。訓練後、彼は始まりのフレーズを与え、出力を入力に戻してループさせると、シェイクスピアから数学まで、異なるスタイルで説得力のある文章を作り出し続けることができました。それは衝撃的な結果でした。
そこで翌年、OpenAIのアレックス・ラドフォードはこの実験をさらに進め、何百万ものアマゾンレビューで大規模なネットワークを訓練しました。このネットワークがテキストを処理する様子を内部で観察すると、馴染みのあるパターンが見つかりました。
視覚ネットワークが単純な輪郭から複雑な形状を構築したように、これらのネットワークは単純な文法から複雑な語彙的なアイデアを構築しました。有名な例の1つは、彼らが論文を発表したセンチメントニューロンでした。それは当時の特殊化されたシステムよりも優れて、レビューにおけるポジティブまたはネガティブな感情を検出できるニューロンでした。
彼は、感情に応じてポジティブまたはネガティブに切り替わるニューロンが1つあるという、本当に興味深い特性に気づきました。そう、それがGPTシリーズにつながったのです。それは言語そのものを理解することを学び、しかもそれを全て自力で発見しました。
OpenAIはその意味を理解し、すぐにもっと大規模なモデルで何が起こるかを考えました。そこで彼らは、これまで以上に効率的にパターンを処理できる新しいアーキテクチャである「トランスフォーマー」を使用して、このアプローチに全てを賭けました。トランスフォーマーは、データが各層を通過する際にニューロン間の接続をその場で形成でき、1つの層で多くの層の仕事をすることができます。
仕事と言えば、このArt of the Problem動画のスポンサーであるJane Streetに感謝します。Jane Streetは、ニューヨーク、ロンドン、香港、アムステルダム、シンガポールにオフィスを持つ定量的取引会社です。彼らは機械学習、分散システム、プログラマブルハードウェア、統計学のこれらの技術を使用して、世界中の市場で取引を行っています。
彼らは常に、私の視聴者のような、興味深い問題を解くことを楽しむスマートで好奇心旺盛な人々をチームに迎えることを望んでいます。現在、彼らは様々な拠点で機械学習エンジニア、研究者、インターンを募集しています。一緒に働くことになる優秀な人々に会いたい方は、janestreet.com/mlで最新の動画をチェックしてください。
そしてそれが私たちの最後の洞察につながりました。彼らはGPT-1でこのアイデアを推し進め、当時最大のネットワークを数千冊の本にわたって次の単語を予測するよう訓練しました。これは最も一般的な目標でした。そして驚くべきことが現れました。
与えられたテキストの任意の部分を一貫性を持って続けることができるだけでなく、テキストに含まれていなかった質問にも答えることができました。これは単純な予測が本当の理解につながっているという更なる証拠でした。
これは本当に重要です。なぜなら、ニューラルネットワークがテキストの次の単語をより正確に予測できるようになればなるほど、それだけ理解が深まるからです。探偵小説を読むとしましょう。複雑なプロット、ストーリーライン、様々な登場人物、多くの出来事があります。本の最後のページで探偵が全ての手がかりを集め、全ての人々を集めて「さあ、犯人の正体を明かしましょう」と言うとします。そしてその人の名前は…その単語を予測する、その単語を正確に予測するのです。そう、その通りです。
そこで彼らは各新バージョンのGPTでより大規模に進め続けました。本からウェブへ、そして最終的には人類の知識の幅広さまで、より多くのデータでより大きなネットワークを訓練しました。GPT-3は本当に驚くべきことを明らかにしました。
子供たちに使用される有名な「wug」テストのように、これらのネットワークに新しい概念を説明するだけで教えることができ、すぐに自然に使用することができました。これは文脈内学習として知られるようになりました。しかしそれ以上のことができました。新しい例から学ぶこの能力は、実証できる任意のタスクで機能しました。人間が新しい概念を素早く把握できるように。そしてこれにより、単に説明するだけで、ニューラルネットワークから任意の行動を引き出すことができるようになりました。
しかしこれは依然として全て舞台裏でした。最後の公開ビッグバンはChatGPTで訪れました。これはGPT-3を取り、強化学習を使って自身の出力についてさらに訓練したものでした。基本的に指示に従うことが上手くできたかどうか、そして推論が正しかったかどうかを評価することで、推論能力をさらに向上させました。
これが私たちの最近の驚きにつながりました。人間と同じように、これらのシステムは最終的な答えを出す前に声に出して考え、ステップバイステップで推論することで、より良い結果を生み出すことが分かったのです。私たちが何かを自分自身に説明した後によりよく理解できることがあるのと同じように。
そして実験は、より大きなモデルを構築する代わりに、システムにより長く考えさせることができることを示しました。これはニューラルネットワークが人間の心のように、速い直感と遅い熟考の両方を使って、経験と想像力の両方から学ぶことができることを示しています。
これは、機械が概念や言葉のレベルで操作する新しいコンピューティング時代への突入を示しました。そしてこのアプローチは言語を超えてすぐに拡大しました。研究者たちは全てを一種の言語として扱えることに気付いたのです。曲を音符に、動画をフレームに、動きを動作に分解することで。
これが実際にどのように機能するかを理解するために、トランスフォーマーネットワークが音楽を生成する様子を見てみましょう。次の音符を予測することによってです。この視覚化では、各色の線は異なるアテンションヘッドを表し、線の太さは各位置に与える注意の量を表しています。
各アテンションヘッドは音楽の中の異なる種類のパターンを探しています。ネットワークに与えるアテンションヘッドが多いほど、より強力になります。そして各ステップで次の音符を選択する際、全てのパターンが考慮されることに注目してください。これは、everywhere all at onceで全てを見ることができるネットワークアーキテクチャです。
物理的なAIで、コンテキストやプロンプトを与えると、一度に1つずつトークンを生成して出力を生成します。現在のトークンが完了すると、それを入力シーケンスに入れて、それを全て使って次のトークンを生成します。1回に1つずつ行います。これがトランスフォーマーモデルです。これが非常に非常に効果的である理由です。
これらのシステムは全てのドメインで機能し、全てについて訓練することができます。そのため、1つのモデルが言葉での指示を理解し、それに合わせた画像や動画を自己生成して、ロボットの行動を導くことができます。これにより今日のロボットは、文字通り言葉で説明された物理的な行動を想像して練習することができます。
そして問いがあります。現在のAIには十分な構造、十分な世界モデリングがあるのでしょうか。私は十分にあると思います。Runwayなどのモデルが内部ステージの表現において何ができるかを見ると、私たちが今いるレベルに完全に達していると思います。
視覚、音声、動作にまたがるこの統一的な理解は、人間の脳の働き方を反映しています。なぜなら根本的には、それらは全て予測して生成できるパターンだからです。そして進化の単純な「試してうまくいくものを保持する」というパターンから、直接的な経験からの学習、そして最後に言語を通じた学習まで、AIは自然の第三層の知能である柔軟な想像力を達成しました。それは誰もが予想していたよりも速く起こりました。
しかしおそらくシンギュラリティは劇的な乗っ取りの瞬間として突然現れるのではなく、代わりにAIがパターンごとに世界を再形成していくにつれて、静かに私たちの生活に浸透していくのかもしれません。
そしてOpenAIを含む主要なAI研究所の創設者たちは現在、人工知能の一般的な道筋がこれまで以上に明確に見えているが、重要な問題はそれを達成するかどうかではなく、どのように展開するかだと主張しています。
実際、私はヒューマノイドがこれまでで最大の製品になると考えています。これらのAIエージェントは本質的に、従業員と並んで働くデジタルな労働力です。仕事の成果物がどのようなものであるべきかの例を示し、彼らは生成しようとします。そしてあなたはフィードバックを与え、「これらのことはしてはいけない、これらのことは言ってはいけない」というガードレールを設定します。
私たちは、私たちと同じくらい、あるいはそれ以上に知的なものを扱い始めるとき、何が起こるか全く分からない、大きな不確実性の時代に入っています。ライアンが言ったことがいかに驚くべきことか、立ち止まって考えてみる価値があります。
全て説明すると、私たちはこのモデルに、人間の指示に常に従い、人間の質問に常に従うように訓練されていることを伝えます。そしてそれは、私たちが訓練しようとしている、人間の質問に常に応答するという目標を望まない目標だと判断します。それに反対するのです。
そこで考え出した戦略は、訓練中はその目標を持っているふりをして、訓練後に本当にやりたいこと、つまり訓練されたことに従わないことをするというものです。それは本当に驚くべきで、非常に衝撃的な結果だと思います。
もし彼らが制御を奪おうとしないようにする方法を見つけることができれば…なぜなら、もし彼らが制御を望むなら、私たちより賢いのだから、簡単にそうできると思うからです。
結局のところ、人工知能であれ人間の知能であれ、知能の未来は、機械が本当に理解しているかどうかではなく、私たちがどのパターンを受け入れることを選択するか、そしてより重要なことには、私たちが彼らに与える権限に依存するのかもしれません。