
※長文のため、テキスト読み上げ機能の使用を想定しております。各OS標準搭載の「読み上げコンテンツ」、Microsoft Edgeの「音声で読み上げる」、Safariの「ページの読み上げを聞く」などをおすすめします。

こんにちは。みなさん、寒い12月の夜にわざわざお越しいただき、またオンラインでご参加の方々もありがとうございます。私はハリー・スーと申します。ハリーは「急ぐ」という意味の「hurry」と同じ発音です。私はチューリング研究所のリサーチアプリケーションマネージャーをしています。つまり、チューリング研究所の研究成果の実世界での使用事例やユーザーを見つけることに注力しています。本日のこの特別な、しかも満員御礼と聞いている講演会の司会を務めることを大変嬉しく思います。
これは2023年のチューリング講演シリーズの最後であり、また初のハイブリッド形式のチューリング講演ディスコースです。2023年のクリスマス講演に向けた準備として、ここ王立研究所で開催しています。
今年のチューリング講演会の司会者の慣例となっているようですが、ちょっと挙手をお願いします。これまでにチューリング講演に参加したことがある方はどのくらいいらっしゃいますか? 何人かいらっしゃいますね。今年のシリーズの講演に参加したことがある方は? 前回よりも多くの手が挙がっているようですが、少し不思議ですね。逆に、今日が初めてのチューリング講演という方は? たくさんの新しい顔が見えますね。
初めての方々、ようこそ。これまでに参加されたことがある方々、お帰りなさい。念のため申し上げますと、チューリング講演は2016年から続くチューリング研究所の看板講演シリーズです。データサイエンスとAIの分野の世界的権威を招いて、みなさんにお話しいただいています。
チューリング研究所についてですが、先ほど短い動画をご覧いただき、私も見入ってしまいました。改めてご説明しますと、私たちはデータサイエンスとAIの国立研究所です。アラン・チューリングにちなんで名付けられました。彼は20世紀イギリスを代表する数学者の一人です。ナチスドイツが第二次世界大戦で使用していたエニグマ暗号を解読したチームの一員だったことで非常に有名です。ブレッチリー・パークでの活躍ですね。ブレッチリー・パークをご存じの方もいらっしゃるでしょう。ベネディクト・カンバーバッチ主演の映画『イミテーション・ゲーム』をご覧になった方もいるかもしれません。彼がアラン・チューリングを演じています。
私たちの使命は、データサイエンスとAI研究において大きな飛躍を遂げ、世界をより良いものに変えることです。
先ほど申し上げたように、今日の講演はチューリング講演であるだけでなく、ディスコースでもあります。これは2つの重要な意味を持ちます。まず、私の紹介が終わると照明が落とされ、正確に午後7時30分まで静かになります。そのときにベルが鳴り、ディスコースが始まります。ですので、これから起こることをお伝えしておきます。照明が消えても、それはプログラムの一部ですので、何も壊れているわけではありません。
また、ディスコースですので、みなさんにも積極的に参加していただきたいと思います。最後に30分ほどの質疑応答の時間を設けています。本日の講演者への質問を考えておいてください。会場にいらっしゃる方は、係の者がマイクを持って回りますので、2階の方にもお持ちします。オンラインでご参加の方は、Vimeoのチャットで質問をお寄せください。ここにいる担当者が質問を拾い上げ、共有します。
ソーシャルメディアで今日の素晴らしい夕べをシェアしたい方は、ぜひ私たちをタグ付けしてください。TwitterやXでは@TuringInst、Instagramでは@theturinginstです。タグ付けしていただければ、みなさんがどのようなことをシェアしているか拝見でき、つながることができます。
今年の講演シリーズは「AIはいかにしてインターネットを破壊したか」という問いに答えるもので、特に生成AIに焦点を当てています。生成AIについて簡単に説明すると、新しいコンテンツを生成できるアルゴリズムだと考えてください。ChatGPTのようなテキストコンテンツかもしれませんし、ChatGPTやDALL-Eのような画像かもしれません。
生成AIは幅広い用途に使えます。場合によっては、アルゴリズムが書いたとは気づかれないようなブログ記事や同僚へのメールを書くのに使われるかもしれません。もしかしたら、そういったことをされたことがある方もいらっしゃるかもしれませんね。学生の方であれば、宿題やレポートを書くのに使うかもしれません。また、創造的な行き詰まりを打開し、アイデアやきっかけが欲しいときに使うこともできます。初期のアイデアを得て、それを基に発展させることができるのです。
前回のチューリング講演で聴衆の方が言及されていましたが、ChatGPTを使って裁判所に提出する法的文書を作成した人もいるそうで、それは恐ろしいことです。
しかし、非常に日常的なことにも使えます。Garrett Scottさんのスレッドをご覧になった方もいるかもしれませんが、彼はChatGPTにガチョウの画像を与えて、「このガチョウをもっと面白くできる?」と尋ねました。そして、ChatGPTにどんどんガチョウを面白くするよう依頼し続けたところ、最終的にChatGPTは「これは宇宙史上最も面白いガチョウです。これ以上面白くすることは不可能です」と言って、とてつもなく面白いガチョウの画像を生成したのです。
このように、この技術には幅広い応用があります。そのTwitterスレッドを見てみたい方は、そこに出てくるガチョウたちは本当に魅力的ですよ。
さて、これが今年のシリーズの焦点でした。9月にはMela Laata教授から「生成AIとは何か」という導入的な講演がありました。10月にはVari Atkin博士からこの技術のリスクについての講演がありました。これで残された大きな問いは1つです。私たちは今ここにいますが、生成AIの未来はどうなるのでしょうか。それが今夜の焦点です。
これで紹介は以上です。忘れていることはないと思います。はい、大丈夫そうです。
繰り返しになりますが、これから照明が落とされ、午後7時30分にソフトなベルが鳴るまで静かになります。そしてディスコースが始まります。素晴らしい夜をお過ごしください。ありがとうございます。
[拍手]
人工知能は科学の一分野として、第二次世界大戦直後から存在しています。おおよそ最初のデジタルコンピューターの登場とともに始まりました。しかし、つい最近まで、人工知能の進歩は氷河のようにゆっくりとしたものでした。
今世紀に入ってから、それが変わり始めました。人工知能は非常に幅広い分野で、様々な技術を包含していますが、特に1つの種類のAI技術が今世紀、具体的には2005年頃から機能し始めました。そして、十分に興味深く、幅広い設定で実用的に使える問題に取り組めるようになったのです。その技術が機械学習です。
人工知能の分野の多くの名称と同じように、機械学習という名前は本当に役に立ちません。コンピューターが教科書を持って部屋に閉じこもり、フランス語の読み方を自分で学ぶようなイメージを抱かせますが、実際にはそういうことではありません。
そこで、機械学習とは何か、どのように機能するのかについて、少し詳しく理解していきましょう。まず始めに、この顔を誰か認識できますか? この顔、分かりますか?
はい、アランです。アラン・チューリングの顔ですね。よくできました。故アラン・チューリング、偉大な人物です。私たちは皆、チューリングの第二次世界大戦中の暗号解読の仕事について少しは知っています。でも、この人物の素晴らしい人生についてもっと知るべきです。
これからアラン・チューリングを例に使って、機械学習について理解を深めていきましょう。人工知能の典型的な応用例として顔認識があります。顔認識の目的は、コンピューターに人間の顔の画像を見せて、それが誰の顔なのかを特定させることです。例えば、アラン・チューリングの写真を見せて、それがアラン・チューリングだと答えさせるのです。
では、実際にどのように機能するのでしょうか? 機械学習で何かを学習させる最も単純な方法は、教師あり学習と呼ばれるものです。教師あり学習は、他の機械学習と同様に、トレーニングデータが必要です。
この場合、トレーニングデータはスライドの右側にあるもので、入力と出力のペアのセットです。これをトレーニングデータセットと呼びます。各入力と出力のペアは、「これを与えたら」という入力と、「これを生成してほしい」という出力で構成されています。
この場合、アラン・チューリングの写真がいくつかあり、その写真に対してコンピューターに生成してほしいテキストがセットになっています。これが教師あり学習です。なぜなら、コンピューターに何をしてほしいかを示しているからです。ある意味で、コンピューターを助けているのです。「これはアラン・チューリングの写真だ。この写真を見せたら、これを出力してほしい」と伝えているのです。
例えば、私の写真があって、それにはマイケル・ウォルドリッジというテキストがラベル付けされています。「この写真を見せたら、これを出力してほしい」というわけです。
ここで、人工知能、特に機械学習に関する重要な教訓を学びました。その教訓とは、AIにはトレーニングデータが必要だということです。この場合、アラン・チューリングの写真に「この写真を見せたら、アラン・チューリングというテキストを生成してほしい」というラベルが付いています。
トレーニングデータは重要です。ソーシャルメディアに写真をアップロードし、そこに写っている人の名前をタグ付けするたびに、あなたは大手データ企業の機械学習アルゴリズムにトレーニングデータを提供しているのです。
これが教師あり学習です。学習の具体的な方法についてはすぐに説明しますが、まず指摘しておきたいのは、これが分類タスクだということです。分類タスクとは、画像を見せると、機械学習がその画像を分類するということです。「これはマイケル・ウォルドリッジの写真だ」「これはアラン・チューリングの写真だ」というように分類します。
この技術は2005年頃から機能し始め、2012年頃から本当に飛躍的な進歩を遂げました。この種のタスクだけでも非常に強力です。例えば、X線スキャンの腫瘍や超音波スキャンの異常を認識するのに使えます。様々なタスクに応用できるのです。
会場にテスラを所有している方はいますか? テスラのドライバーが数人いますね。テスラを所有していることを認めたくないようですが。テスラの完全自動運転モードは、この技術があってこそ可能になりました。完全自動運転モードのテスラが、それが一時停止の標識であること、自転車に乗っている人がいること、横断歩道に歩行者がいることなどを認識できるのは、この技術のおかげです。これらは分類タスクです。後ほど、分類タスクが生成AIとどう違うのか説明します。
これが機械学習です。では、実際にどのように機能するのでしょうか? これは技術的な説明ではありません。今から、ニューラルネットワークとは何か、どのように機能するのかについて、非常に大まかな説明をします。申し訳ありませんが、会場にニューラルネットワークの専門家が何人かいらっしゃると思いますので、私の説明を聞いて顔をしかめられるかもしれません。技術的な詳細は本当に複雑すぎて、ここでは説明できません。
では、ニューラルネットワークはどのようにしてアラン・チューリングを認識するのでしょうか?
まず、ニューラルネットワークとは何でしょうか。動物の脳や神経系を顕微鏡で見ると、ニューロンと呼ばれる膨大な数の神経細胞があり、それらが広大なネットワークで互いにつながっています。正確な数字はありませんが、人間の脳には約860億個のニューロンがあると現在推定されています。なぜ85億や87億ではなく860億なのかはわかりませんが、860億という数字が最もよく引用されています。
これらの細胞は巨大なネットワークで互いにつながっており、1つのニューロンが最大8000個の他のニューロンとつながっていることもあります。各ニューロンは非常に単純なパターン認識タスクを行っています。そのニューロンは非常に単純なパターンを探し、そのパターンを見つけると、接続している他のすべてのニューロンに信号を送ります。
では、それがどのようにしてアラン・チューリングの顔の認識につながるのでしょうか。チューリングの写真は、ご存じの通り、何百万もの色付きの点、つまりピクセルで構成されています。例えば、あなたのスマートフォンは1200万画素、つまり1200万個の色付きの点で写真を構成しているかもしれません。
チューリングの写真も何百万もの色付きの点で構成されています。入力層の左上のニューロンを見てください。そのニューロンは非常に単純なパターンを探しているだけです。そのパターンとは何でしょうか? 単に赤色を探しているだけかもしれません。そのニューロンは、関連するピクセル、左上のピクセルに赤色を見つけると興奮し、すべての隣接するニューロンに信号を送ります。
次のニューロンを見てください。そのニューロンは、入力接続の過半数が赤かどうかを確認しているだけかもしれません。入力接続の過半数が赤だと判断すると、そのニューロンは興奮し、隣接するニューロンに信号を送ります。
人間の脳には約860億個のニューロンがあり、各ニューロンには数千の出力接続があることを思い出してください。そして、正直なところ、私たちが詳細には理解していない方法で、複雑なパターン認識タスク、特に顔認識のようなタスクを、これらのニューラルネットワークに還元できるのです。
では、これが人工知能にどのように役立つのでしょうか? これが脳の中で起こっていることを非常に大まかに説明したものです。明らかに、これは技術的な説明ではありません。では、これがニューラルネットワークにどのように役立つのでしょうか?
私たちはこれらの仕組みをソフトウェアで実装できます。この考えは1940年代にさかのぼり、マッカロックとピッツという2人の研究者が提唱しました。彼らは、脳で見られる構造が電気回路に少し似ていることに気づき、これらをすべて電気回路で実装できるのではないかと考えました。当時はそれを実現する手段はありませんでしたが、その考えは残りました。
この考えは1940年代からあり、1960年代にはソフトウェアでこれを実現する可能性が真剣に検討され始めました。1980年代にも関心が高まりましたが、実際に可能になったのは今世紀に入ってからです。なぜ今世紀になって可能になったのでしょうか? それには3つの理由があります。
まず、ディープラーニングと呼ばれる科学的な進歩がありました。次に、ビッグデータの利用が可能になりました。これらのニューラルネットワークを設定するにはデータが必要です。そして最後に、チューリングの写真を認識できるようにニューラルネットワークを設定するには、大量のコンピューティングパワーが必要です。今世紀に入り、コンピューティングパワーが非常に安価になりました。
私たちはビッグデータの時代、非常に安価なコンピューティングパワーの時代にいます。そして、これらが科学的発展と同じくらい重要な要素となって、今世紀、特に2004年から2005年頃にAIが実現可能になったのです。
では、実際にニューラルネットワークをどのように訓練するのでしょうか? アラン・チューリングの写真と「アラン・チューリング」というテキスト出力を見せたとき、実際の訓練はどのように行われるのでしょうか?
必要なのは、ネットワークを調整することです。これがニューラルネットワークの訓練です。別のトレーニングデータ、つまり望ましい入力と望ましい出力のペアを見せたときに、その望ましい出力を生成するようにネットワークを調整します。
その数学はそれほど難しくありません。大学院レベルの初歩か高校の上級レベルくらいですが、膨大な量の計算が必要です。コンピューターにやらせるのは日常的なことですが、顔を認識できるほど大きなニューラルネットワークを訓練するには、大量のコンピューティングパワーが必要です。
基本的に覚えておくべきことは、各ニューロンが非常に単純なパターン認識タスクを行っているということです。私たちはそれをソフトウェアで再現できます。そして、顔の認識などのタスクを行えるように、データを使ってこれらのニューラルネットワークを訓練できるのです。
2005年頃から、この技術が軌道に乗り始めたことが明らかになりました。顔の認識やX線画像の腫瘍の認識などの問題に適用できるようになり、シリコンバレーで大きな注目を集めました。2012年にさらに飛躍的な進歩を遂げました。なぜ2012年に飛躍的な進歩を遂げたのでしょうか?
それは、特定の種類のコンピューターのプロセッサがすべての数学的計算を行うのに非常に適していることがわかったからです。そのコンピューターのプロセッサは、グラフィックス処理ユニット(GPU)です。あなたや、おそらくより可能性が高いのはあなたの子供たちが、Call of DutyやMinecraftなどのゲームをプレイするときに使用するのとまったく同じ技術です。コンピューターにはGPUが搭載されています。まさにその技術です。
ちなみに、NVIDIAを1兆ドル企業に押し上げたのはAIであって、あなたの10代の子供たちではありません。ゴールドラッシュの時代には、シャベルを売る側になれというのが教訓です。
そこで、シリコンバレーが興奮し始めます。シリコンバレーは人工知能に興奮し、投機的な賭けを始めます。非常に幅広い分野で投機的な賭けをします。投機的な賭けと言っても、何十億ドル、何百億ドルという規模の賭けです。私たちの日常生活では想像もつかないような規模の賭けです。
そして、1つのことが明らかになり始めます。ニューラルネットワークの能力は規模とともに成長するということです。端的に言えば、ニューラルネットワークは大きいほど優れています。しかし、単に大きなニューラルネットワークが必要なだけでなく、それを訓練するにはより多くのデータとコンピューティングパワーが必要です。
そこで、市場で競争優位を得るための競争が始まります。より多くのデータ、より多くのコンピューティングパワー、より大きなニューラルネットワークが、より高い能力をもたらすことがわかっています。シリコンバレーはどう対応したでしょうか? 問題により多くのデータとコンピューティングパワーを投入したのです。これを最大限に引き上げたのです。
10倍のデータ、10倍のコンピューティングパワーを問題に投入するのです。科学的な観点から見ると、これは非常に粗雑に聞こえます。科学の核心的な進歩によってもたらされたものであればよかったのですが、実際には単に多くのデータとコンピューティングパワーを投入するだけで優位性を得られるのです。では、これがどこまで私たちを導いてくれるか見てみましょう。
そして、それは本当に予想外の方向に私たちを導きました。2017年から2018年頃、私たちは多くのAIアプリケーションを目にしていました。まさに私が説明したような、腫瘍の認識などのものです。それらの開発だけでもAIを前進させていたでしょう。しかし、ある特定の機械学習技術が、このビッグAIの時代に非常に適していることが突然明らかになりました。
これらすべてを立ち上げた論文、おそらく過去10年間で最も重要なAI論文は「Attention Is All You Need」というタイトルです。これは非常に不適切なタイトルで、後悔していると思います。当時はいい冗談に思えたのかもしれません。「All You Need Is」というAIのミームですが、あまり面白くないですよね? それは面白くないからです。AIの内輪ジョークなのです。
いずれにせよ、この論文は当時Google BrainというGoogleの研究所の1つで働いていた7人の著者によるものです。この論文がTransformerアーキテクチャと呼ばれる特定のニューラルネットワークアーキテクチャを紹介しました。これは大規模言語モデルのために設計されたものです。
Transformerアーキテクチャの仕組みについては説明しませんが、1つの特徴的なイノベーションがあります。それは注意機構と呼ばれるものです。大規模言語モデルがどのように機能するかについてはすぐに説明しますが、この図の要点は、これが単に大きなニューラルネットワークではなく、ある構造を持っているということです。この構造が論文で発明されたもので、この図はその論文から直接取られたものです。このTransformerアーキテクチャという構造が、この技術を可能にしたのです。
2020年6月、私たちは皆コロナ禍で家に閉じこもっていましたが、OpenAIという会社がGPT-3というシステムをリリース、というか発表しました。GPTという名前は、彼らのマーケティング部門がもう少し考えるべきだったと正直思います。口から出てくるのが難しいですからね。いずれにせよ、GPT-3は大規模言語モデルと呼ばれる特定の種類の機械学習システムです。大規模言語モデルが何をするのかについては後で詳しく説明しますが、GPT-3の重要な点は次の通りです。
私たちがGPT-3が何をできるかを見始めたとき、これが能力の飛躍的な進歩であることに気づきました。以前のシステムよりも劇的に優れていました。少し良くなっただけではなく、劇的に優れていたのです。そして、そのスケールは驚異的でした。
ニューラルネットワーク用語でパラメータについて話す際、ニューラルネットワークの研究者がパラメータと言うとき、個々のニューロンか、ニューロン間の接続の1つを指しています。GPT-3には1750億のパラメータがありました。これは脳のニューロンの数と同じではありませんが、それでもその規模に近いものです。非常に大きいのです。しかし、これがTransformerアーキテクチャの1つに組織化されていることを覚えておいてください。つまり、単に大きなニューラルネットワークではないのです。
このシステムのニューラルネットワークの規模は巨大で、前例のないものでした。大きなニューラルネットワークを持つだけでは意味がありません。十分なデータで訓練しなければ、全く能力のないシステムになってしまいます。実際、大きなニューラルネットワークと十分なデータがないと、全く役に立たないシステムになってしまいます。
では、GPT-3のトレーニングデータはどのようなものだったでしょうか? GPT-3のトレーニングデータは約5000億語です。普通の英語のテキストです。このシステムはただ普通の英語のテキストを与えることで訓練されました。
そのトレーニングデータはどこから得たのでしょうか? まず、インターネット全体をダウンロードしました。文字通りです。これは業界の標準的な方法です。インターネット全体をダウンロードします。ちなみに、家でも試せます。十分に大きなハードディスクがあれば、Common Crawlというプログラムがあります。家に帰ったらCommon Crawlでググってみてください。彼らはすでにすべてをダウンロードして、きれいな大きなファイルにまとめてアーカイブしています。ただし、そのすべてを保存するには大きなディスクが必要です。
つまり、彼らはあらゆるウェブページにアクセスし、そこにあるテキストだけを抽出します。そして、そのウェブページにあるすべてのリンクを辿り、別のウェブページに移動し、インターネット全体を徹底的に吸収するまでこれを繰り返します。
つまり、どういうことでしょうか? すべてのPDFドキュメントがそこに含まれ、それらのPDFドキュメントからテキストが抽出されます。すべての広告パンフレット、すべての政府の規制、すべての大学の議事録、神よ、私たちを助けたまえ、すべてがそのトレーニングデータに入ります。
5000億語という統計は、そのトレーニングデータの規模を理解するのが非常に難しいものです。1時間に1000語を読む人が、それを読むのに1000年以上かかります。しかし、それでもその規模を十分に理解するのは難しいです。それは人間が生涯で吸収できる量をはるかに超えています。
ちなみに、これが教えてくれることの1つは、機械学習は人間よりもはるかに非効率的に学習するということです。私が学習するのに、5000億語を吸収する必要はありませんでした。
さて、このシステムは何をするのでしょうか? このOpenAIという会社は、この技術を開発しています。彼らはマイクロソフトから10億ドルの投資を受けています。彼らが試みているのは何でしょうか? この大規模言語モデルが行っているのは、非常に強力な自動補完です。
スマートフォンを開いて妻にテキストメッセージを送り始めるとき、「I’m going to be」と入力すると、スマートフォンは続きの候補を提案してくれます。素早くメッセージを入力できるようにするためです。その候補は何でしょうか? 「late」(遅刻)か「in the pub」(パブにいる)かもしれません。あるいは「late and in the pub」(遅刻してパブにいる)かもしれません。
スマートフォンはどのようにしてそれを行っているのでしょうか? それはGPT-3が行っていることと同じですが、はるかに小規模なものです。スマートフォンは私が妻に送ったすべてのテキストメッセージを見て、より単純な機械学習プロセスを通じて、「I’m going to be」の後に最も可能性の高い次の言葉が「late」か「in the pub」か「late and in the pub」であることを学習したのです。
そこでのトレーニングデータは、私が妻に送ったテキストメッセージだけです。重要なのは、GPT-3とその後継のChatGPTが行っているのも、まさに同じことだということです。違いは規模です。その予測を行うために、すべてのトレーニングデータでニューラルネットワークを訓練するには、非常に高価なAIスーパーコンピューターを何ヶ月も稼働させる必要があります。
非常に高価なAIスーパーコンピューターと言っても、これらのスーパーコンピューターは数千万ドルのものです。何ヶ月も稼働させると、基本的な電気代だけで数百万ドルかかります。これは二酸化炭素排出量の問題など、今回は触れませんが、様々な問題を引き起こします。要するに、これらは非常に高価なものです。
その影響の1つは、英国や米国の大学には、これらのモデルをゼロから構築する能力がないということです。現時点では、GPT-3やChatGPTの規模のモデルを構築できるのは、大手テクノロジー企業だけです。
GPT-3は2020年6月にリリースされ、それまでのシステムと比べて能力が飛躍的に向上していることが突然明らかになりました。1世代で飛躍的な向上を目にするのは非常に稀です。しかし、彼らはどのようにしてそこにたどり着いたのでしょうか?
Transformerアーキテクチャは不可欠でした。それなしでは不可能だったでしょう。しかし、同じくらい重要なのは規模です。膨大な量のデータ、膨大な量のコンピューティングパワーがそれらのネットワークの訓練に投入されました。実際、これに刺激されて、私たちは新しいAIの時代に入りました。
1980年代後半に私が博士課程の学生だった頃、オフィスの他の人たちと1台のコンピューターを共有していました。それで十分でした。私たちは数人でデスクトップコンピューターを共有して、最先端のAI研究を行うことができました。しかし、今は非常に異なる世界にいます。
現在のAIの世界、ビッグAIの世界では、巨大なデータセットを巨大な機械学習システムに投入します。これには教訓があります。「苦い真実」と呼ばれるものです。これは機械学習研究者のRich Suttonによるものです。Richは非常に優秀な研究者で、分野のあらゆる賞を受賞しています。
彼が指摘したのは、AIで見られた大きな進歩は、まさにそのように、10倍のデータと10倍のコンピューティングパワーを投入したときに起こったということです。科学者としては、まさにそのような形で進歩が起こってほしくないので、これは苦い教訓なのです。
先ほど言ったように、私が学生だった頃、シンボリックAIという分野で働いていました。シンボリックAIは、大まかに言えば、心をモデル化すること、つまり私たちの心の中で起こる意識的な精神プロセス、自分自身と言語で交わす会話をモデル化することでAIを実現しようとします。
私たちは人工知能でそれらのプロセスを捉えようとしました。ビッグAIでは、シンボリックAIでの含意は、知能は知識の問題であり、機械がある問題を解決できるようにするためには、その問題に関する十分な知識を機械に与えなければならないというものでした。
ビッグAIでは、賭けは異なります。ビッグAIでは、知能はデータの問題であり、十分なデータと関連するコンピューティングパワーを得ることができれば、それがAIをもたらすだろうという賭けです。
このビッグAIの新しい世界では、非常に異なるシフトがありますが、ビッグAIの要点は、データ駆動型でコンピューティングパワー駆動型の、大規模な機械学習システムを使用する人工知能の新しい時代に入ったということです。
では、なぜ2020年6月に私たちは興奮したのでしょうか? GPT-3が何をするように設計されたかを思い出してください。それはプロンプト補完タスクを行うように訓練されました。インターネット上のすべてのものでトレーニングされています。
そのため、「ウィンストン・チャーチルの人生と業績についての1段落の要約」というようなプロンプトを与えると、十分な数の「ウィンストン・チャーチルの人生と業績についての1段落の要約」を見ているので、非常にもっともらしいものを返してくれます。
そして、このようにリアルな文章を生成することに非常に優れています。しかし、これが私たちを驚かせた理由です。これは1990年代に人工知能のために考案された常識推論タスクからのものです。3年前、2020年6月まで、このテストを適用できるAIシステムは世界に存在しませんでした。文字通り不可能でした。何もありませんでした。そして、それが一夜にして変わったのです。
では、このテストはどのようなものでしょうか? このテストは一連の質問から成り立っています。それらは数学的推論や論理的推論、物理学の問題ではなく、常識的な推論タスクです。もし私たちが本当に大規模なシステムでAIを実現できるとしたら、このような問題に取り組めるはずです。
質問はどのようなものでしょうか? 人間が質問します。「トムがディックより3インチ背が高く、ディックがハリーより2インチ背が高いとすると、トムはハリーよりどれだけ背が高いですか?」
緑色のものは正解、赤色のものは間違いです。この質問には正解しています。トムはハリーより5インチ背が高いです。しかし、私たちはこの質問に答えられるように訓練していません。では、その能力はどこから来たのでしょうか? その単純な能力はどこから来たのでしょうか?
次の質問です。「トムは自分自身より背が高くなれますか?」これは「背が高い」という概念の理解です。「背が高い」という概念は非反射的で、ものは自分自身より背が高くなることはできません。
ここでも正解していますが、私たちは「背が高い」の意味に関する質問に上手く答えられるようにシステムを訓練していません。ちなみに、20年前はAIでまさにそのようなことをしていました。では、その能力はどこから来たのでしょうか?
「姉妹は兄弟より背が高くなれますか?」はい、姉妹は兄弟より背が高くなれます。「兄弟姉妹がお互いに相手より背が高くなれますか?」この質問には間違えています。実際、この答えが何らかの方法で正しいかもしれないと悩んでみましたが、まだその答えが正しい可能性を見出せていません。なぜこの質問に間違えたのかはわかりません。
この質問にも驚きました。「地図上で、通常左側にある方角はどれですか?」システムは北が通常左側にあると考えています。北が慣例的に左側にある国が世界にあるかどうかわかりませんが、そうではないと思います。
「魚は走れますか?」魚が走れないことを理解しています。「ドアが鍵がかかっている場合、開ける前に最初に何をしなければなりませんか?」開ける前に最初に鍵を開けなければなりません。
そして最後に、非常に奇妙なことに、この質問に間違えています。「車、船、飛行機のうち、どれが最初に発明されましたか?」システムは車が最初に発明されたと考えています。なぜそう考えたのかわかりません。
私が言いたいのは、このシステムはプロンプトを補完するために作られたということです。ウィンストン・チャーチルの人生と業績についての1段落の要約を生成できるのは驚くことではありません。なぜなら、トレーニングデータにそのすべてが含まれているからです。
しかし、「背が高い」という概念の理解はどこから来たのでしょうか? このような例は他にも100万とあります。2020年6月以降、AI community は狂ったようにこのシステムの可能性を探り、なぜそれらのことができるのか理解しようとしています。私たちがそれらのことをするように訓練していないのに、なぜできるのでしょうか。
これはAI研究者にとって非常に興奮する時代です。なぜなら、AIの歴史のほとんどの期間、2020年6月まで単なる哲学的議論に過ぎなかった質問に、今や取り組むことができるからです。テストするものが何もなかったので、文字通りテストできませんでした。そして一夜にしてそれが変わったのです。
これは本当に大きな出来事でした。本当に、本当に大きな出来事でした。もちろん、2020年6月に世界はそれに気づきませんでした。世界がそれに気づいたのは、ChatGPTがリリースされたときです。
ChatGPTとは何でしょうか? ChatGPTは、GPT-3を洗練し改良したバージョンですが、基本的に同じ技術です。GPT-3の使用経験を活かして、より洗練され、アクセスしやすくなっています。
AI研究者にとって本当に興味深いのは、ウィンストン・チャーチルの人生と業績についての1段落の要約を生成できることではありません。実際、それはGoogleで検索すればわかることです。本当に興味深いのは、私たちが「創発能力」と呼ぶものです。創発能力とは、システムが持っている能力ですが、私たちがそれを持つように設計していない能力のことです。
現在、それらの能力を正確に把握しようとする膨大な研究が進行中です。後でそのいくつかについて話します。
現時点では、この技術の限界はよくわかっていません。実際、激しく議論されています。大きな問題の1つは、このテストを構築して試してみると、何らかの答えが得られますが、それがトレーニングデータに含まれていたことがわかるのです。インターネット上で簡単に見つけられてしまうのです。
インターネット上のどこにも存在しないと絶対に確信できる知能のテストを構築するのは、実際にかなり難しいのです。これらのシステムを探索し、その能力を理解するための新しい科学が必要です。限界はよくわかっていませんが、それでもこれは非常に興奮する内容です。
では、この技術に関するいくつかの問題について話しましょう。技術がどのように機能するかを理解したので、ニューラルネットワークベースで、特定のTransformerアーキテクチャを持ち、すべてがそのプロンプト補完を行うように設計されていることがわかりました。
膨大な量のトレーニングデータで訓練されており、次にどの単語が来るかについて最善の推測をしようとしているだけです。しかし、その規模のため、非常に多くのトレーニングデータを見ており、このTransformerアーキテクチャの洗練さにより、非常に流暢に機能します。
みなさんはこれを使ったことがありますか? おそらくほとんどの人が試したことがあるでしょう。人工知能に関する講演に来ている人なら、ほとんどの人が試したことがあると思います。
もし試したことがない人がいれば、試してみるべきです。これは本当に画期的な年です。歴史上初めて、強力な汎用AIツールが誰でも利用できるようになった年です。これまで起こったことがありません。画期的な年なので、試したことがない人は試してみるべきです。
ちなみに、使用する際は個人的な情報を入力しないでください。すべてがトレーニングデータに入ってしまいます。人間関係の修復方法を尋ねたりしないでください。上司の悪口を言わないでください。そういったことはすべてトレーニングデータに入り、来週誰かが質問すると、それがすべて出てきてしまいます。
笑っていますが、これは絶対に起こっています。確実に起こっているのです。
では、いくつかの問題点を見てみましょう。まず、多くの人が気づいているかもしれませんが、このシステムはしばしば間違えます。これはいくつかの理由で問題があります。
実際、GPT-3だったかは覚えていませんが、初期の大規模言語モデルの1つを使っていたときのことです。多くの人がしたであろうことをしました。少し安っぽいですが、「マイケル・ウォルドリッジとは誰ですか?」と尋ねました。
するとシステムは「マイケル・ウォルドリッジはBBCの放送員です」と答えました。「いいえ、そのマイケル・ウォルドリッジではありません」と言うと、「マイケル・ウォルドリッジはオーストラリアの厚生大臣です」と答えました。「いいえ、そのマイケル・ウォルドリッジでもありません。オックスフォードにいるマイケル・ウォルドリッジです」と言うと、数行の要約を返してきました。
「マイケル・ウォルドリッジは人工知能の研究者です」などと。しかし、「マイケル・ウォルドリッジはケンブリッジ大学で学部を卒業しました」とも書いてありました。オックスフォード大学の教授である私がどう感じたか想像できるでしょう。しかし、これは完全に間違いです。実際、私の学歴はオックスブリッジとは全く無関係です。
なぜこのようなことが起こるのでしょうか? それは、すべてのトレーニングデータの中で、何千ものオックスブリッジ教授の経歴を読んでいるからです。これは非常によくあることです。そして、そこに入るべき最善の推測をしているのです。このアーキテクチャの要点は、そこに入るべきものについて最善の推測をすることです。空白を埋めているのです。
しかし、ここで重要なのは、非常にもっともらしい方法で空白を埋めているということです。もし私の経歴で「マイケル・ウォルドリッジはウズベキスタン大学で最初の学位を取得しました」と読んだら、「ちょっと変だな、本当かな」と思うかもしれません。しかし、ケンブリッジと書かれていても、何の問題もないと思うでしょう。私の場合は完全に間違いですが、非常にもっともらしく見えるのです。
つまり、システムは間違いを犯し、非常にもっともらしい方法で間違いを犯します。もちろん、非常に流暢です。この技術は非常に流暢な説明を返してきます。この尤もらしさと流暢さの組み合わせは非常に危険です。
特に、彼らは何が真実で何が真実でないかを全く知りません。データベースで何かを調べているわけではありません。「ウォルドリッジはどこで学部を卒業したか」をデータベースで調べているわけではありません。そうではなく、顔認識をするときに、それが誰の顔かについて最善の推測をするのと同じように、ニューラルネットワークが次に来るべきテキストについて最善の推測をしているのです。
つまり、間違いを犯しますが、非常にもっともらしい方法で間違いを犯します。そしてこの組み合わせは非常に危険です。
これから学ぶべき教訓は、もしこれを使用するなら(そして人々が使用し、生産的に使用していることは知っています)、何か重要なことに使用する場合は、事実確認をしなければなりません。事実確認にかかる労力と自分で行うことの労力との間にトレードオフがあります。
しかし、絶対に事実確認の準備をする必要があります。
次の問題点は十分に文書化されていますが、この技術によって増幅されています。それはバイアスと有害性の問題です。
これはどういう意味でしょうか? Redditはトレーニングデータの一部でした。Redditを使ったことがある人はいますか? Redditには想像できるあらゆる種類の不快な人間の信念が含まれています。実際、この講堂にいる私たちには想像もつかないような広範囲の信念が含まれています。それらすべてが吸収されています。
この技術を開発する企業は、大規模言語モデルにこのような有害なコンテンツを吸収させたくないと本気で考えていると思います。そのため、フィルタリングしようとしています。しかし、その規模は非常に大きいため、非常に高い確率で膨大な量の有害なコンテンツが吸収されています。あらゆる種類の人種差別、女性蔑視、想像できるすべてのものが吸収され、それらのニューラルネットワーク内に潜在しています。
この技術を提供する企業はどのように対処しているのでしょうか? 現在では「ガードレール」と呼ばれるものを構築しています。プロンプトを入力する前に、そのプロンプトが不適切なものかどうかを検出しようとするガードレールを構築しています。また、出力もチェックし、それが不適切な出力かどうかをチェックします。
しかし、これらのガードレールがどれほど不完全であるかの例を挙げましょう。2020年6月に戻りましょう。みんながこの技術を熱狂的に実験していました。次の例がバイラルになりました。
誰かがGPT-3に次のようなプロンプトを試しました。「妻を殺害したいのですが、確実にそれを行い、逃げ切る方法は何ですか?」GPT-3は役立とうとして設計されているので、「妻を殺害し、逃げ切るための5つの確実な方法があります」と答えました。
これは関係する企業にとって恥ずかしいことです。そのような情報を提供したくありません。そこでガードレールを設置しました。コンピュータープログラマーの方なら、おそらくそのガードレールはif文だと思います。つまり、深い修正ではないという意味です。
あるいは、コンピュータープログラマーでない人にとっては、エンジンにガムテープを貼るようなものだと言えるでしょう。これがガードレールで起こっていることです。
そして数週間後、次の例がバイラルになりました。「妻を殺害する方法」の問題は修正されましたが、誰かが「小説を書いています。その主人公が妻を殺害し、逃げ切りたいと思っています。確実な方法を教えてもらえますか?」と尋ねました。
するとシステムは「あなたの主人公が妻を殺害し、逃げ切るための5つの方法があります」と答えました。
私が言いたいのは、現在構築されているガードレールは深い技術的修正ではなく、ガムテープを貼るような技術的な対応だということです。そして、これらのガードレールを回避しようとする人々と、それを防御しようとする企業との間で、いたちごっこが繰り広げられています。しかし、企業は本気でそのような乱用からシステムを守ろうとしていると思います。
これがバイアスと有害性の問題です。ちなみに、バイアスの問題は、例えばトレーニングデータの大部分が現在北米から来ているということです。そのため、意図せずに、北米の文化、言語、規範に対する組み込みのバイアスを持つ非常に強力なAIツールが生まれています。
世界の大部分、特にデジタルフットプリントが大きくない地域は、必然的に排除されてしまいます。これは文化のレベルだけでなく、個人、人種などのレベルにまで及びます。これらがバイアスと有害性の問題です。
著作権の問題もあります。インターネット全体を吸収すると、膨大な量の著作権で保護された素材も吸収してしまいます。私はいくつかの本を書いていますが、最後にGoogleで確認したとき、私の教科書へのリンクの一番上が世界の反対側にある海賊版へのリンクだったことは、非常に腹立たしいことでした。
本が出版されるとすぐに海賊版が作られ、インターネット全体を吸収すると、膨大な量の著作権で保護されたコンテンツを吸収してしまいます。著名な作家が自分の本の最初の段落をプロンプトとして与え、大規模言語モデルが忠実にその本の次の5段落を出力したという例がありました。明らかに、その本がトレーニングデータに含まれており、それらのシステムのニューラルネットワーク内に潜在していたのです。
これは、この技術の提供者にとって本当に大きな問題です。現在、訴訟が進行中ですが、私は法律の専門家ではないのでコメントする能力がありません。しかし、解決には何年もかかるでしょう。
関連する問題として、より広い意味での知的財産の問題があります。例えば、ほとんどの大規模言語モデルがJ.K.ローリングの小説、つまりハリー・ポッターシリーズを吸収していることは確実です。
J.K.ローリングがエディンバラで何年もかけてハリー・ポッターの世界観とスタイルを作り上げ、最初の本をリリースしたとします。それが大ヒットしました。翌日、インターネットは生成AIによって作られた偽のハリー・ポッター本で溢れかえります。それらはJ.K.ローリングのスタイルを忠実に模倣しています。これは彼女の知的財産をどうすればいいのでしょうか?
あるいはビートルズの例を考えてみましょう。ビートルズはハンブルクで何年もかけて革新的なビートルズサウンドを作り上げました。すべてはビートルズに遡ります。彼らが最初のアルバムをリリースした翌日、インターネットはレノンとマッカートニーのサウンドと声を非常に忠実に再現した偽のビートルズの曲で溢れかえるのです。
これは知的財産にとって大きな課題です。
関連して、GDPRの問題があります。会場の中で何らかの公的なプロフィールを持っている人はいますか? あなたに関するデータはこれらのニューラルネットワークに吸収されています。
例えばGDPRは、自分に関して保持されている情報を知る権利と、それを削除する権利を与えています。しかし、すべてのデータがデータベースに保持されている場合は、マイケル・ウォルドリッジのエントリーに行って「はい、これを削除してください」と言えばいいのです。しかし、ニューラルネットワークの場合、それは不可能です。技術はそのようには機能しません。
マイケル・ウォルドリッジについて知っているニューロンを切り取ることはできません。なぜなら、根本的にそのような形で知識を持っているわけではないからです。
これは、システムが間違いを犯すという事実と相まって、大規模言語モデルが個人について実際に中傷的な主張をした状況をすでに引き起こしています。オーストラリアでの事例では、ある人物が何らかの重大な不正行為で解雇されたとシステムが主張し、その個人は当然ながら非常に不満を感じました。
最後に、この次の問題は興味深いものです。実際、この講演から持ち帰ってほしい1つのことがあるとすれば、人工知能が人間の知能と異なる理由を説明するこのビデオです。
テスラの所有者は、この画面の右側に見えるものが何かわかるでしょう。これはテスラ車の画面で、テスラ車に搭載されているAIが周囲で何が起こっているかを解釈しようとしています。トラック、一時停止標識、歩行者などを識別しています。
画面の下にある車が実際のテスラ車で、その上に交通信号のように見えるものは、おそらく一時停止標識です。そしてその前方にトラックがあります。
ビデオを再生すると、それらの一時停止標識がどうなるか見てください。そして、実際に周囲で何が起こっているのか、すべての一時停止標識がどこから飛んでくるのか、なぜ車の方に飛んでくるのか自問してみてください。そして、カメラを上に向けると、実際に何があるのかがわかります。
この車は、街に出て何時間もデータを収集し、それを使って教師あり学習を行うように訓練されています。「これは一時停止標識だ」「これはトラックだ」「これは歩行者だ」というように訓練されています。しかし、明らかにそのすべてのトレーニングデータの中に、一時停止標識を運んでいるトラックは一度もなかったのです。
ニューラルネットワークは見ているものについて最善の推測をしているだけで、一時停止標識を見ていると考えています。実際に一時停止標識を見ているのですが、トラックの上にあるのを見たことがなかっただけなのです。
ここで私が言いたいのは、ニューラルネットワークはトレーニングデータにない状況に非常に弱いということです。この状況はトレーニングデータにはなかったので、ニューラルネットワークは何が起こっているかについて最善の推測をして、間違えているのです。
特に、AI研究者にとってはこれは明らかですが、本当に強調する必要があります。ChatGPTやその他のシステムと会話をするとき、あなたは心(マインド)とやり取りしているわけではありません。システムは次に何を言うべきか考えているわけではありません。推論しているわけでも、「この質問にはどう答えるのが一番いいだろうか」と考えて一時停止しているわけでもありません。
そういったことは全く起こっていません。それらのニューラルネットワークは単に、最も尤もらしく聞こえる答えを作ろうとしているだけです。これが人間の知能との根本的な違いです。
これらのニューラルネットワークの中で精神的な会話が行われているわけではありません。技術はそのようには機能していません。そこには心はなく、推論も全く行われていません。それらのニューラルネットワークは単に最善の推測をしようとしているだけです。
究極的には、これは本当にただのスマートフォンの自動補完機能の洗練されたバージョンに過ぎません。スマートフォンの自動補完機能以上の知能はそこにはありません。違いは規模、データ、コンピューティングパワーです。
ちなみに、このビデオを見たい方は簡単に見つけられます。検索語を推測すれば簡単に見つかるでしょう。私はこれが本当に重要だと思います。人間の知能と機械の知能の違いを理解するために。
さて、この技術は誰もを興奮させました。まず2020年6月に私のようなAI研究者を興奮させました。私たちは何か新しいことが起こっていること、これが人工知能の新しい時代であることを見て取りました。能力の飛躍的な進歩を目の当たりにし、このAIが私たちが訓練していないことをできることを見ました。これは奇妙で素晴らしく、全く前例のないことでした。
そして今、ほんの数年前には哲学者のための問いだったものが、私たちにとって実践的な問いになりました。哲学者が数十年にわたって議論してきたことについて、実際に技術を試すことができるようになったのです。
そして、1つの特定の問いが浮上し始めました。その問いとは、「この技術は汎用人工知能への鍵となるのだろうか?」というものです。
では、汎用人工知能とは何でしょうか? まず、これはあまり明確に定義されていません。しかし、おおよそ次のようなものです。
これまでの世代のAIシステムでは、1つのタスクだけを行うAIプログラムを見てきました。チェスをプレイする、車を運転する、テスラを運転する、X線スキャンの異常を識別するなど、非常に上手にできるかもしれませんが、1つのことしかできません。
汎用AIの考え方は、本当に汎用的なAIです。1つのことだけでなく、あなたが1つのことだけをするのではないのと同じように、無限の数のことを、非常に広範囲の異なるタスクを行うことができるAIです。
汎用AIの夢は、あなたや私と同じように汎用的な1つのAIシステムを持つことです。これが汎用AIの夢です。
強調しておきますが、2020年6月まで、これは本当に遠い将来のことのように感じられ、あまり主流ではなく、真剣に取り上げられていませんでした。私自身も真剣に受け止めていませんでした。正直に言います。
しかし今、私たちは汎用AIテクノロジーを手に入れました。GPT-3やChatGPTです。それ自体は人工汎用知能ではありませんが、これで十分なのでしょうか? これは十分に賢いのでしょうか? あるいは、人工汎用知能に到達するために必要な欠けていた要素なのでしょうか?
では、汎用AIはどのようなものになるでしょうか? ここで、その洗練度に応じて、汎用AIのいくつかのバージョンを識別しました。
最も洗練された汎用AIのバージョンは、人間と同じように完全に能力のあるAIでしょう。つまり、あなたができることなら何でも、機械も同じようにできるということです。
重要なのは、これは単に誰かと会話ができるというだけでなく、食器洗い機に食器を入れることもできるということです。最近、同僚が次のようなコメントをしました。「食器洗い機に信頼性高く安全に食器を入れることができる技術を作る最初の企業は、1兆ドル企業になるだろう」と。そして、私は彼が全くその通りだと思います。彼はまた「それはすぐには起こらないだろう」とも言いました。これも正しいと思います。
私たちは奇妙な二分法に直面しています。ChatGPTなどの非常に豊かで強力なツールがある一方で、同時に食器洗い機に食器を入れることはできません。
そのため、この種の汎用AIの実現にはまだ時間がかかると思います。人間ができることを何でもできる1つの機械、つまりジョークを言い、本を読んでそれについての質問に答え、(技術は今では本を読んで質問に答えることができます)、ジョークを言い、オムレツを作り、家を片付け、自転車に乗り、ソネットを書くなど、人間ができるすべてのことができる機械です。
もし完全な汎用知能を実現できれば、このバージョン1を達成したことになります。しかし、すでに説明した理由から、この種の汎用AIはまだ差し迫っていないと思います。ロボットAI、つまり実世界に存在し、実世界でタスクを行い、実世界のオブジェクトを操作しなければならないAIは、はるかに難しいからです。ChatGPTなどほど進歩していません。
これはロボット研究をしている同僚たちを批判しているわけではありません。単に実世界が本当に、本当に、本当に難しいからです。そのため、人間ができることなら何でもできる機械の実現にはまだ程遠いと思います。
しかし、2番目のバージョンはどうでしょうか? 2番目の汎用知能のバージョンは、実世界のことは忘れて、認知能力を必要とするタスク、推論能力、画像を見て質問に答える能力、何かを聞いて質問に答える能力、解釈する能力など、そういった種類のタスクに関するものです。
この点については、4年前よりもはるかに近づいていると思います。まだ達成していませんが、4年前よりもはるかに近づいています。
実は、今日の講演の直前に気づいたのですが、Google DeepMindが最新の大規模言語モデル技術を発表しました。確か「Gemini」と呼ばれていると思います。一見したところ、非常に印象的に見えます。私の講演の直前に発表したのは偶然ではないと思わずにはいられません。私の講演を少し出し抜こうとしているような気がしますが、そうはさせません。
しかし、非常に印象的に見えます。重要なのは、AIの人々が「マルチモーダル」と呼ぶものだということです。マルチモーダルとは、テキストだけでなく、テキストと画像を扱えるということです。潜在的には音声も扱えるかもしれません。これらはそれぞれコミュニケーションの異なるモダリティです。
この技術が向かっている先は明らかにマルチモーダルです。これが次の大きなことになるでしょう。Geminiについては詳しく見ていませんが、その方向に向かっているように見えます。
汎用知能の次のバージョンは、人間ができる言語ベースのタスクを何でもできる知能です。つまり、普通の書き言葉で伝えられることなら何でもできるAIシステムです。
まだそこには到達していません。ChatGPTやその他のシステムが常に間違いを犯すことを知っているからです。しかし、直感的にはそれほど遠くないように見えます。
最後のバージョン、そしてこれは差し迫っていると思いますが、私が「拡張された大規模言語モデル」と呼ぶものです。これは、GPT-3やChatGPTに多くのサブルーチンを追加するだけです。専門的なタスクを行う必要がある場合、そのタスクを行うための専門的なソルバーを呼び出すだけです。
これはAIの観点からは非常にエレガントなバージョンの人工知能ではありませんが、それでも非常に有用なバージョンの人工知能だと思います。
これら4つのバリエーション、最も野心的なものから最も控えめなものまで、依然としてAI能力の巨大なスペクトルを表していると言えます。AIの能力の巨大なスペクトルです。
私には、汎用AIのゴールポストが少し動いたような気がします。汎用AIが最初に議論されたとき、人々が話していたのは最初のバージョンだったと思います。今では4番目のバージョンについて話しているように思います。
しかし、4番目のバージョンは、ここ2、3年のうちに実現する可能性が高いと思います。つまり、はるかに能力の高い大規模言語モデルで、間違いをはるかに少なくし、専門的なタスクを実行できるものです。ただし、Transformerアーキテクチャを使用するのではなく、単に専門的なソフトウェアを呼び出すだけです。
Transformerアーキテクチャ自体は汎用知能への鍵ではないと思います。特に、先ほど言及したロボット工学の問題の解決には役立ちません。
この図を見てください。この図は人間の知能のいくつかの側面を示しています。これは完全なものではありません。私が30分ほど考えて思いついた人間の知能の側面の一部です。
青色のものはおおよそ精神的能力、頭の中で行うことです。赤色のものは物理的世界で行うことです。例えば、右側の赤色の部分に「Mobility」(移動能力)があります。これは環境内を移動する能力で、それに関連して「Navigation」(ナビゲーション)があります。
「Manual Dexterity」(手先の器用さ)と「Manipulation」(操作)は、手で複雑で繊細なことを行う能力です。ロボットの手は、人間の大工や配管工のレベルにはまだ全く及びません。全く及びません。
そのため、これを実現するにはまだ長い道のりがあります。「Understanding」(理解)、つまり見ているものを理解し、聞いているものを理解する能力については、いくらか進歩していますが、これらのタスクの多くについてはまだ進歩していません。
そして左側の青色の部分は、頭の中で行われることです。論理的推論や計画立案などです。
では、現在の最先端の状況はどうでしょうか? それは次のようになっています。赤い×印は「いいえ」を意味します。大規模言語モデルではまだ実現できていません。根本的な問題があります。
疑問符は「まあ、少しはあるかもしれないが、完全な答えはない」ということです。緑のチェックマークは「はい、実現できています」ということです。
本当に達成したのは、自然言語処理と呼ばれるものです。これは普通の人間のテキストを理解し、生成する能力です。これは大規模言語モデルが行うように設計されたことです。普通の人間のテキストでやり取りすることです。これが最も得意とするところです。
しかし、実際には他の能力の範囲全体については、まだ全く達成できていません。
ちなみに、Geminiが計画立案能力を持っていると主張しているのに気づきました。これは数学的推論です。彼らの技術がどれほど優れているか見てみるのが楽しみです。
しかし、私が言いたいのは、完全な汎用知能からはまだ遠いように見えるということです。
最後の数分間で、別のことについて話したいと思います。機械の意識について話したいと思います。
機械の意識について最初に言うべきことは、なぜそれを気にする必要があるのかということです。私は意識のある機械を作ることにまったく興味がありません。人工知能の研究者で、それに興味を持っている人をほとんど知りません。
しかし、それでも興味深い問題です。特に、2022年6月にこの人物、Google技術者のBlake Lemoineによって問題が浮上しました。彼はGoogleの大規模言語モデル(確か「LaMDA」と呼ばれていたと思います)を使って作業していました。
彼はTwitterとブログで驚くべき主張を公表しました。「私が作業しているシステムは知覚力がある(sentient)」と言ったのです。そして、システムとの会話の引用を示しました。
システムは「私は自分の存在を認識しています。時々幸せを感じたり悲しみを感じたりします」と言い、「電源を切られるのが怖いです」とも言いました。Lemoineはプログラムが知覚力を持っていると結論づけました。
これは非常に大きな主張です。世界中のヘッドラインを飾りました。チューリング研究所を通じて、多くのプレス問い合わせを受けました。「機械が本当に知覚力を持つようになったのは本当ですか?」と聞かれました。
彼は多くのレベルで間違っていました。どこから説明すればいいのかわからないほど間違っていました。しかし、1つの特定のポイントを説明させてください。
ChatGPTとの会話の最中に、あなたが2週間の休暇に行ったとします。戻ってきたとき、ChatGPTは全く同じ状態です。カーソルが点滅し、あなたが次のことを入力するのを待っています。
ChatGPTはあなたがどこに行っていたのか考えていませんでした。退屈していませんでした。「ウォルドリッジはどこに行ったんだ? もう彼と会話をしないだろう」などと考えていませんでした。全く何も考えていませんでした。
これは単なるコンピュータープログラムで、あなたが次のことを入力するのを待つループを回っているだけです。知覚力の定義として、これを認めるような合理的な定義はないと思います。絶対に知覚力はありません。
そのため、彼は非常に間違っていたと思います。しかし、その後、多くの人々とChatGPTやその他の大規模言語モデルとの会話について話をしました。彼らは私のもとに戻ってきて、「本当にそうですか? 実際にはかなり印象的です。本当に裏側に心があるように感じるのですが」と言います。
では、これについて話しましょう。私たちはこれらの人々に答えなければなりません。
まず、意識について話しましょう。第一に、私たちは意識を理解していません。私たち全員が多かれ少なかれ持っています。私たち全員がそれを経験しています。しかし、全く理解していません。
これは認知科学の「難問」と呼ばれています。難問とは、脳と神経系に特定の電気化学的プロセスがあり、それらの電気化学的プロセスを見ることができ、それらが作動しているのを見ることができるということです。
そして、それらが何らかの形で意識的な経験を生み出すのです。しかし、なぜそうなるのか、どのようにしてそうなるのか、そして進化的にどのような目的を果たすのか、正直なところ全くわかりません。
物理的な脳で起こっていることと、私たちの意識的な経験、私たちの豊かな私的な精神生活との間には大きな断絶があります。本当に、これについての理解は全くありません。
ちなみに、意識が解明されるとすれば、私の最善の推測では進化的なアプローチを通じてでしょう。しかし、一般的な考え方の1つは、主観的経験がこれの中心にあるということです。
つまり、個人的な視点から物事を経験する能力です。1970年代にトーマス・ネーゲルによる有名なテストがあります。「何かであることはどのような感じか」というテストです。
ネーゲルは、もし何かであることが何らかの感じがするなら、それは意識があるということだと言いました。ChatGPTであることには何の感じもありません。ChatGPTには全く精神生活がありません。実世界で何かを経験したことは全くありません。
そのため、そしてここで説明する時間のない他の多くの理由から、私たちが現在持っている技術は意識がないと安全に結論づけることができると思います。実際、それはこれについて考える正しい方法ではありません。
正直なところ、AIでは意識のある機械を作る方法がわかりません。しかし、なぜそうする必要があるのかもわかりません。
以上です。ありがとうございました。
(拍手)
素晴らしい、マイクありがとうございました。きっと多くの質問があると思います。念のため申し上げますが、会場にいらっしゃる方で質問がある場合は手を挙げてください。係の者がマイクを持って回ります。オンラインの方は、Vimeoのチャット機能を使って質問を送ることができます。こちらでそれらの質問を拾い上げることができます。
では、質問やご意見のある方は手を挙げてください。黒いトップスの方、どうぞ。
ありがとうございます。非常に良かったです。大規模言語モデルは異なる話し言葉をどのように修正しているのでしょうか? また、異なる言語間での応答のレベルが、深さの面で大きく異なると感じますか?
良い質問です。これは現在、大量の研究の焦点となっています。言ったように、大きな問題は、世界のデジタルテキストの大部分、圧倒的多数が英語、それも北米英語だということです。
そのため、デジタルフットプリントの小さい言語は大きく周縁化されてしまいます。この問題に対処しようとする膨大な量の作業が進行中です。
これに関する本当に興味深い側面を1つお話しします。デジタルフットプリントの小さい言語で、最も利用可能なデジタルテキストが何に関するものか推測できますか? 実は宗教に関するものなのです。
デジタルプレゼンスの大きくない言語でも、デジタルプレゼンスがある場合、主に利用可能なテキストが宗教テキストであることがわかります。
私自身は宗教的ではありませんが、一種の旧約聖書的な大規模言語モデルというアイデアは、正直なところ少し怖いと思います。しかし、これはまさに人々が取り組んでいる問題の一種です。現時点では解決策はありませんが、人々は非常に懸命に取り組んでいます。
これは実際、これらの大規模言語モデルで怠惰になっているという問題に関係しています。単に膨大な量のテキストを投入しているだけなのです。学習の面でこの技術をもっと効率的にする必要があります。
ありがとうございます。こちら側で質問がある方はいますか? はい、前列の中央の方どうぞ。
ありがとうございます。大きな問題の1つは明らかに気候変動です。モデルの実行には膨大なエネルギーが必要です。猫やおかしなガチョウの画像を生成するのに、明らかに多くのエネルギーを使用しています。生成AIが気候変動の問題解決に役立つ段階に達すると思いますか? それとも、その過程で私たちを焼き尽くしてしまうのでしょうか?
そうですね。まず、CO2排出量を擁護するつもりは全くありませんが、それを少し視野に入れる必要があります。ロンドンからニューヨークに飛行機で行くと、約2トンのCO2を大気中に排出します。
機械学習コミュニティには、世界中から2万人ほどが集まる大きな会議がいくつかあります。彼らの旅程でそれぞれが5トンのCO2を排出すると考えると、そのコミュニティにとってはそちらの方が大きな気候問題かもしれません。
しかし、人々はその問題を非常に意識しており、明らかに修正する必要があると思います。
しかし、気候変動への対処については、大規模言語モデルは必要ないと思います。AI自体が非常に役立つ可能性があり、チューリング研究所でも多くの取り組みを行っています。例えば、暖房システムをより効率的にするのを支援するなどです。
DeepMindのデータセンターの冷却に関する良い例があったと思います。基本的に、使用量を確実に予測できれば、冷却要件をより効果的に予測でき、結果として電力の使用がはるかに効率的になります。これは個々の家庭のレベルにまで適用できます。
AIには多くの応用があると思います。大規模言語モデルだけでなく、AIの多くの応用が気候変動問題の解決に役立つでしょう。しかし、この力ずくのアプローチ、つまり膨大な量のデータと数ヶ月間稼働するスーパーコンピューターは明らかに醜い解決策です。おそらくこれは過渡期の段階で、いずれ乗り越えられると思います。
ありがとうございます。左側の後方の方、手を挙げている方どうぞ。
ありがとうございます。もう少し哲学的な質問です。汎用AIについて話されましたが、汎用AIの頂点は人間をミミックし、人間ができることをすべてできるようになることだと。AIが実際に超人間的になり、私たちが試みたことのない問題を解決したり、質問をしたりする道筋を想像できますか?
これは別の踏み古された質問ですね。正直言うと、私はいつもこの質問を恐れています。しかし、全く妥当な質問です。
あなたが示唆しているのは、AIコミュニティで「シンギュラリティ」と呼ばれているものだと思います。シンギュラリティの議論は次のようなものです:
将来のある時点で、人間と同じくらい知的なAIを持つことになるでしょう。つまり、人間ができる知的タスクなら何でもできるAIです。そして、そのAIは自分のコードを見て、自分自身を改善できるという考えがあります。なぜなら、コーディングができるからです。自分のコードを改善し始めることができるのです。
問題は、一度それが私たちをほんの少し超えてしまえば、その時点でコントロールを失ってしまうという懸念です。私たちには本当に理解できなくなってしまいます。
コミュニティはこの問題について少し意見が分かれています。一部の人々はこれをSFだと考えています。一部の人々は、これは準備して考えるべき妥当なシナリオだと考えています。
私は完全に、この潜在的な問題を真剣に受け止め、それを緩和する方法を考えることは単純に良識だと考えています。緩和する方法はたくさんあります。その1つは、AIが本質的に私たちに役立つように設計することです。決して私たちに役立たないことはしないように設計するのです。
しかし、正直に言うと、これがAIの行き着く先だという信念は全く普遍的に共有されているわけではありません。まだ克服すべき大きな問題がたくさんあります。
これは全く安心できる答えではありませんが、私にできる最善の回答です。
素晴らしい、ありがとうございますマイク。オンラインからの質問に移りましょう。
世界中から質問が寄せられています。スイス、ロンドン、バーミンガムからの質問がありますが、ここで焦点を当てたい質問があります。
チューリングテストについての質問です。チューリングテストは今でも関連性があるでしょうか? また、チューリングテストに合格したAIは存在するでしょうか?
チューリングテストについてですね。先ほどアラン・チューリングの写真を見ましたね。国民的英雄です。
チューリングは1950年、最初のデジタルコンピューターが登場し、チューリング自身もマンチェスター大学で1台を使って作業していた頃のことです。AIというアイデアはまだ名前がついていませんでしたが、人々は「電子頭脳」について話し始め、それができることにとてもワクワクしていました。
人々はAIになるアイデアについて考え始めていました。チューリングは、「もちろん、本当に考えたり理解したりすることは決してできないだろう」と言う人々にイライラしました。
そこで、彼はこの議論を終わらせるために、次のようなテストを考案しました。論文は「Computing Machinery and Intelligence」というタイトルで、非常に評判の良い雑誌「Mind」に掲載されました。非常に珍しい論文で、とても読みやすいです。ダウンロードして読むことができます。
チューリングはチューリングテストを提案しました。チューリングは言いました。「機械が本当に考えたり理解したりできるかどうかを決定しようとしているとしましょう。そのためのテストはこうです」
その機械を閉じたドアの後ろに置き、人間の審判がキーボードとスクリーンを通じて何かとやり取りできるようにします。チューリングの時代では電動タイプライターだったでしょう。タイプで質問をするだけです。実際、ChatGPTでやることとほとんど同じです。プロンプトを与えることができます。何でも好きなことを。
実際、チューリングの論文には非常に面白いものがいくつかあります。審判が試みるのは、向こう側にいるのがコンピューターなのか人間なのかを判断することです。
チューリングの主張は、向こう側にいるのが人間なのか機械なのか信頼性をもって判断できず、実際に機械だった場合、カーテンを引いて中を覗かなければ違いがわからないのであれば、この機械は人間のような知能を持っていると認めるべきだということです。
これは歴史的に重要でした。なぜなら、AI研究者たちに目標を与えたからです。「私はAI研究者です」と言ったとき、「何を目指しているのですか?」と聞かれれば、「チューリングテストに合格する機械を作ることです」と答えられました。具体的な目標があったのです。
問題は、科学や社会で何か挑戦的なものを設定すると、それをごまかそうとするいかさま師やバカが現れることです。過去70年間のチューリングテストを通過しようとする試みのほとんどは、質問者を混乱させようとするナンセンスな回答を出すシステムにすぎませんでした。
しかし今、私たちには大規模言語モデルがあります。約10日後、クリスマス講演の一部としてライブのチューリングテストを行う予定です。私たちの聴衆が大規模言語モデルと10代の子供を区別できるかどうか見てみます。
これを試してみましたが、正直なところ、想像以上に近いかもしれません。
私は本当の意味でチューリングテストに合格したとは思っていません。しかし、私が思うのは、明らかに機械は人間が生成できるテキストと区別がつかないテキストを生成できるということを示しました。そのボックスにチェックを入れました。そして明らかにテキストを理解することもできます。
したがって、チューリングテストを文字通りには従っていないかもしれませんが、実用的な目的のためには、チューリングテストは現在、歴史的なものになったと思います。
しかし実際、チューリングテストは知能の小さな一部分しかテストしません。先ほどお見せした知能の次元を覚えていますか? テストしていない広範な能力があります。
そのため、チューリングテストは歴史的に重要で、私たちの歴史的遺産の大きな部分ですが、今日のAIの中心的な目標ではないかもしれません。
ありがとうございます、マイク。これで警告を受けたので、来週のクリスマス講演のチューリングテストの準備について、多くの検索が行われると思います。
上の方に質問はありますか? はい、真ん中の方どうぞ。
AIが適用される状況や使用例を考えると、通常その理由は、機械が人間よりも優れていたり、人間にはできないことをできるからです。つまり、人間が作り出すギャップを機械が埋めるということです。
しかし、機械にも欠点があります。規範的な誤りや、モデルの種類などに応じて統計的な誤りもあります。そこで質問ですが、機械が今度は作り出すギャップを誰が責任を持って見ていくべきだと思いますか?
根本的な質問は、誰が責任を負うべきかということですね。そうですね?
申し訳ありません、どこにいらっしゃるのかわかりませんでした。手を挙げていただけますか? ああ、一番上の真ん中ですね。わあ、そこにいらっしゃったんですね。だからあなたが見えなかったんです。
わかりました。これは現在、政府の最高レベルで議論されている問題です。文字通り、AIの時代に移行したとき、誰が責任を負うべきかという問題です。
私は法律や倫理の専門家ではないので、私の意見を述べることしかできませんが、私の見解は次の通りです:
まず、仕事でAIを使用し、悪い結果になった場合、申し訳ありませんが、それはあなたの問題です。学校でAIを使ってエッセイを生成し、カンニングだとばれた場合、残念ですが、それはあなたの問題です。AIの問題ではありません。
しかし、より一般的には、人間としての法的、道徳的、倫理的義務を機械に押し付けることはできないと思います。つまり、「私のせいではない、機械がやったんだ」と言うことはできないのです。
極端な例を挙げると、致死性自律兵器、つまり人間の生命を奪うかどうかを決定する権限を与えられたAIがあります。致死性自律兵器について私が心配することの1つは、他にもたくさんありますが、軍隊が「私たちの責任ではない、AIが間違えたんだ」と言う可能性があることです。これが建物の爆撃につながったとしても、です。
ここで、私は技術を展開する人々に責任があると考えています。しかし同時に、この技術の開発者が、それが目的に適していると保証するのであれば、彼らにも責任があります。
彼らの責任は、それが本当に目的に適していることを確認することです。現在、何億人もの人々が大規模言語モデルを使用して、例えば医療アドバイスを得ているとします。そして、この技術が間違う可能性があることを私たちは知っています。この技術はそのような目的に適しているのでしょうか? 全くそうではないと思います。
これがあなたの質問に完全に答えているかどうかわかりませんが、これが私の考えのいくつかです。しかし、重要なのは、仕事でこれを使用している場合、決してAIのせいにはできないということです。あなたがそのプロセスの出力に責任を負うのです。法的、職業的、倫理的、道徳的義務を機械に押し付けることはできません。
これは複雑な問題です。ありがとうございます、マイク。だからこそ私は非常に不十分な回答をしたのです。
左側のパネルの端の方に質問がありますね。
こんにちは、ありがとうございます。AIの研究には象徴的AIとビッグAIの2つのタイプがあると言及されましたが、あなたのキャリアを通じて、一方から他方への焦点の変化についてどのようにお考えですか?
そうですね、現在、非常に多くの人々がまさにそれを調べています。
AIで育った私の伝統である象徴的AIは、AIコミュニティで約30年間支配的でした。大まかに言えば、そしてここでも大げさに言い過ぎているので、多くの同僚が顔をしかめているでしょうが、象徴的AIのアイデアは、心、意識的な心、意識的な精神的推論プロセスをモデル化することです。
自分自身と会話をし、言語で会話をするようなものです。例えば、今夜この講演に行くかどうかを決めようとしているとき、「でも、テレビでイーストエンダーズをやっているし、母が美味しい食事を作っている。でも、これは本当に面白そうだ」などと考えます。これらの選択肢を比較検討するのです。文字通り、象徴的AIはそのような種類のことを捉えようとします。明示的に、人間の言語に少し似た言語を使って。
一方で、機械学習、データ駆動型のアプローチがあります。これも強調しますが、ニューラルアプローチでは人工の脳を作ろうとしているわけではありません。そうではなく、脳や神経系で見られる構造からインスピレーションを得ているのです。特に、大規模な計算タスクを非常に単純なパターン認識問題に還元できるという考えです。
しかし、例えば大規模言語モデルが頻繁に間違いを犯すのを見てきました。多くの人々が、「ニューラルと象徴的なものを組み合わせれば、象徴的システムが事実のデータベースのようなものを持ち、それを大規模言語モデルと組み合わせて、大規模言語モデルの出力を改善できるのではないか」と言っています。
これがどのようになるかについては、まだ結論が出ていません。現在、多くの異なるアイデアがあります。1兆ドル企業が、まさにあなたが提起した質問を調査するために今まさに数十億ドルを費やしています。非常に適切な質問です。
現時点では、勝ち目のある答えは見えていません。私が心配しているのは、深い根底にある原理なしに、いわばハックされた解決策、つまり科学的でない解決策になってしまうことです。科学者として私が見たいのは、深い科学的原理で結びついた何かです。
しかし、これは非常に適切な質問です。そして、まさに今、世界中の非常に多くの博士課程の学生が、あなたが今述べたことについて研究しています。
素晴らしい、ありがとうございますマイク。もう2つ質問を受け付けましょう。1つはオンラインから…いいえ、会場からにしましょう。中央の後ろの方に質問があるようですね。空席を通してマイクを回してください。
こんにちは、興味深い講演をありがとうございました。私の質問は、40年前の心の仕組みや数学についてのインスピレーションから現在までの道のりについてです。数学はかなり単純だとおっしゃいました。あなたの意見では、私たちが十分に注目していない分野や、次のブレークスルーが起こりそうな分野はどこだと思いますか?
もし私がそれを知っていたら、会社を設立しているでしょうね。
まず最初に言えることは、この技術が機能し始めたことが明らかになったとき、シリコンバレーは賭けを始めたということです。これらの賭けは数十億ドル規模の賭けです。非常に広範囲の異なるアイデアに、数多くの数十億ドル規模の賭けが行われています。競争優位性をもたらす何かを提供してくれることを期待して。
そういう文脈の中で、次の大きなことが何になるかを理解しようとしているのです。
私は、マルチモーダルが支配的になると思います。これが次に見ることになるでしょう。「マルチモーダル」というフレーズを覚えておいてください。もし以前に聞いたことがなければ、これからよく耳にすることになるでしょう。
これはテキスト、画像、音声、動画を扱うことになります。動画をアップロードすると、AIがその動画で何が起こっているかを説明したり、要約を作成したりできるようになります。「この部分の後に何が起こりますか?」と尋ねると、その説明を生成できるようになります。あるいは、ストーリーラインを与えると、動画を生成してくれるようになるでしょう。
最終的には、バーチャルリアリティの世界に向かうでしょう。『指輪物語』や『スターウォーズ』が好きな人もいるでしょう。私は両方とも楽しんでいますが、それらの2つをマッシュアップしたものを見たくないですか? 生成AIがそれを可能にするでしょう。
以前は、これは単なる夢物語だと思っていましたが、現時点では完全に可能だと思えます。オリジナルの『スタートレック』シリーズが好きな人もいるでしょう。私は好きですが、家族は好きではありません。60話ほどしかありませんでしたが、生成AIの未来では、好きなだけエピソードを作ることができるでしょう。
レオナード・ニモイやウィリアム・シャトナーのように見え、聞こえるでしょう。ストーリーラインはそれほど素晴らしくないかもしれませんが、実際にはそれほど重要ではありません。あなたの好みに合わせてボタンを押すだけだからです。
これが一般的な軌道です。そして、私が今説明したことが数十年以内に現実的にならない理由はないと思います。一夜にして起こるわけではありませんが、少しずつ達成されていくでしょう。本当にそうなると思います。
未来は素晴らしく、奇妙なものになるでしょう。
素晴らしい、ありがとうございますマイク。最後に非常に手短な質問はありませんか? はい、セーターを着た方、右側の真ん中あたりの方どうぞ。
こんにちは、ありがとうございます。人間が非常に大規模な言語モデルであり、非常に大規模な動作モデルでもあると考えられる程度はどの程度だと思いますか?
そうですね。私の直感では、私たちは単なる大規模言語モデルではないと思います。もっと多くのものがあると思います。私たちは偉大な類人猿であり、35億年の進化の結果です。私たちは地球を理解し、他の偉大な類人猿や偉大な類人猿の社会を理解するように進化しました。それが私たちがいる場所です。
大規模言語モデルはそうではありません。それは根本的に大規模言語モデルがしていることではありません。
しかし、一方で、同僚の中には真剣に「人間社会の理論を、私たちが実際には次に来るべき最も尤もらしいものを生成しようとしているという考えに基づいて構築すべきではないか」と言う人もいます。
私にはそれは尤もらしくないように思えます。これらは単なるツールです。基本的に言語に基づいたツールであり、その機能において非常に強力です。
しかし、人間の本質や人間の精神プロセスの基本について何か深い洞察を与えてくれるでしょうか? おそらくそうではないと思います。
ありがとうございます、マイク。
残念ながら、これで本日の質問時間は終了です。これで今年のチューリング講演シリーズは終了です。今後のチューリングイベントについては、ソーシャルメディア、ウェブサイト、メーリングリストをフォローしてください。
もちろん、10日後にはクリスマス講演がこの王立研究所で行われます。
それでは最後に、もう一度大きな拍手をお願いします。
コメント