
10,629 文字

私はもちろんalphafoldとこれまでのその影響について話すつもりですが、その開発以前に私たちが行った重要な仕事についても触れ、さらに科学におけるAIの未来がより広く向かう方向についても考えたいと思います。AIへの私の道のりは実は驚くべきことにゲーム、特にチェスから始まりました。私は4歳でチェスを始め、非常に競技的にプレイし、成長する過程でイギリスのジュニアチームの多くのキャプテンを務めました。これは私が9歳の時、イギリスのU11チームの第1ボードとして対戦している写真です。
そんな若い年齢でチェスを真剣にプレイすることは、とても刺激的な経験です。私にとってそれは本当に思考そのものについて考えさせられるものでした。私たちの心がどのようにアイデアや計画、戦略を練り上げていくのか、そしてそれをどのように改善できるのかということに魅了され、興味を持ちました。
私たちが参加したトレーニングキャンプでは、このようなFidelity Chess Challengerのような初期のチェスコンピュータにアクセスできました。初期のチェスコンピュータを覚えている方もいるでしょう。駒を動かすために盤面の升目を物理的に押さなければなりませんでした。もちろん私たちはチェスのスキルを向上させるためにこれらの機械を使うことになっていましたが、私はこの無機質なプラスチックの塊が、私に対してチェスをこれほどうまくプレイできるようにプログラムされているという事実に魅了されたことを覚えています。
これに興味を持った私は、その分野の本を読み始め、11歳の時に真ん中に写っている愛用のAmiga 500で、オセロをプレイする私の初めてのAIプログラムをコーディングしました。この私の初めてのAIプログラムは弟に勝つことができました。弟は当時5歳でしたが、それでも自分から独立して機能するものを作れることに感動しました。これが私を一生コンピュータとAIに夢中にさせました。
20年以上早送りすると、ゲームは依然として私のAIへのアプローチの中心であり、実際にDeepMindでの私たちの初期の仕事の中心でもありました。私たちは2010年にDeepMindを、汎用人工知能を構築することを使命とした産業研究所として設立しました。そのビジョンは現代のベル研究所のようなものを作ることでした。
初期には、ゲームをAIの完璧なテスト環境として使用しました。なぜならコンピュータ上で大量のデータを生成することが非常に簡単で、システムを自己対戦させることができるからです。ほとんどのゲームではスコアを最大化するか、単にゲームに勝つという明確な目標や指標を指定することが簡単です。したがって、アルゴリズムのアイデアで進歩を遂げているかどうかが非常に明確です。
もちろんゲームAIの究極の目標は、AIの初期からの長い歴史を持っています。アラン・チューリングやクロード・シャノンのような先駆者たちは皆、チェスコンピュータの作成とプログラミングを試みました。しかしゲームAIの究極の目標は囲碁、古代の囲碁です。これはおそらく私たちが今まで考案した中で最も複雑なゲームです。囲碁の複雑さを示す例として、10の170乗の可能な局面があり、これは宇宙にある原子の数よりも多いのです。したがって、囲碁をうまく打つための解決策を力づくで見つけ出すプログラムを書く方法はありません。
私たちの最初の大きなブレイクスルーは2016年のAlphaGoシステムでした。ソウルでの有名な対局で、韓国のトップ棋士であるイ・セドル九段に勝利しました。しかし単に対局に勝っただけでなく、より重要なことに、囲碁を何千年もプレイしてきた中で一度も見られなかった新しい戦略やクリエイティブなアイデアを開発したのです。
これらの新しい戦略の中で最も有名なのは、この対局の第2局で打たれた第37手です。右下に赤で囲まれた黒石で示されています。この手は高度な囲碁では前例のないもので、この第2局を決定づける完璧な一手であることが判明しました。AlphaGoはまるでそれを事前に正確に置いていたかのようでした。
私たちはどのようにしてそれを成し遂げたのでしょうか。AlphaGoシステムとその後継者であるAlphaZeroやその他のより一般的な後継者たちは、私たちが自己学習と呼ぶプロセスによって囲碁と他の全ての2人用完全情報ゲームをマスターしました。直接解決策をプログラムされるのではなく、これらのシステムは自分自身で戦略と解決策を学習します。この場合、何十万、時には何百万もの対局を自分自身と対戦し、徐々に自分の間違いから学んで戦略を改善していきます。
このような自己学習プロセスを通じて、私たちは囲碁の有用なニューラルネットワークモデルを構築することができました。2016年のこのAlphaGoの結果は現代AIの転換点となりました。なぜならこれが、これらの種類のシステム、つまり学習システムが、かなり印象的で解決不可能と考えられていたことをこれらのニューラルネットワークシステムで行えることの最初の大きな証明だったからです。
このニューラルネットワークモデルを使って、私たちは囲碁やその他の複雑な空間で全ての可能性を探索する必要なく、検索プロセスを効果的に導くことができます。この概略図で、私は囲碁の対局における可能性の木を示しています。木の各ノードが特定の囲碁の局面を表していると想像してください。どの手を打つかの決定を下す必要があり、それによってこの木を下っていきます。
したがって、囲碁のどの局面からも、この大規模で解決不可能な可能性の集合があります。このニューラルネットワークモデルがAlphaGoに可能にさせることは、青色の道筋で示されているように、可能な全ての道筋のごくわずかな部分のみを分析し、検討することです。これは、任意の与えられた局面で最も見込みのある手を検討することによって行われます。
また、現在の局面から黒か白のどちらが勝つ可能性が高いか、その局面からの勝利の推定確率も判断します。そして考える時間が、例えば1分か2分経過したら、それまでに見つけた最良の道筋、つまり考慮した青色の道筋の中で最も最適な道筋を出力します。ここではその道筋が紫色で示されています。
ゲームAIの頂点に達した今、私たちは科学的な大きな課題を含む、現実世界の重要な問題に取り組むためにこれらの技術と方法を転用できることを知っていました。しかしそれを見る前に、私が現在取り組んでいる新しいプロジェクトについて手短にお話ししたいと思います。
ご存知の通り、このチャンネルではAIに関する全ての出力と新機能を分析しています。私の目標は何よりもまず、この素晴らしい技術をできるだけ多くの人々に知ってもらい、そして何よりもAIに関する意識を高めることです。私の周りの人々と話すと、人々は本当にAIが何であるかを理解していません。AIが社会に与える影響、その巨大な影響について理解していません。
私はこのチャンネルで商品のプロモーションはしていませんし、できるだけ本物の内容を維持したいと思っています。そのため、私はトレーニングコースを作成しました。あなたの生活のあらゆる分野でAIを使用する方法を学びたい場合、このビデオを見ている方は、すでにChatGPTなどのAIを使用している可能性が非常に高いと思います。AIの考え方をさらに深め、全てのAIツールの使用方法を学び、それらをあなたの生活の全ての分野に正確に適用する方法を知りたい場合は、ビデオの下にピン留めされたコメントにリンクを残しますので、興味がある方はぜひご覧ください。
また、Vision AIコミュニティにもアクセスできることを付け加えておきたいと思います。私はこのプロジェクトを最近始めたばかりですが、すでに100人以上の方々がトレーニングを受講されており、これは本当に素晴らしいことです。皆さんは様々な分野から来ており、学んだツールを各々の具体的な分野にどのように適用するかについて、定期的に皆さんと議論することを楽しんでいます。本当に興味深いです。
申し訳ありませんが、少し中断してしまいました。これ以上時間を取らずに、全てのリンクはビデオの説明欄やコメント欄にあることをお伝えしておきます。
では、何がこれらのAIの方法に適した問題を作るのでしょうか?私たちは問題を適切にする3つの基準を探しています。第一に、巨大な組み合わせ的な探索空間を通じて道筋を見つけること、問題をこれらの観点から定式化できることです。第二に、明確な目的関数や最適化する指標を指定できるかどうかです。ゲームでは、これは簡単です。ゲームに勝つかスコアを最大化することです。第三に、ニューラルネットワークモデルを訓練するための大量のデータが利用可能で、理想的には正確で効率的なシミュレータがあり、より多くの合成データを生成できるかどうかです。
実際、この観点から問題を見ると、多くの現実世界の問題がこのプロファイルに合致するか、合致するように適応できることがわかります。これには多くの科学的問題も含まれます。私にとって、これらの種類のシステムで常にやりたかった最初のことは、タンパク質フォールディングでした。ケンブリッジの学生時代にこの魅力的な問題を発見して以来、常に私のリストのトップにありました。
先ほど聞いたように、タンパク質は生命の構成要素です。全ての生物のほぼ全ての生物学的プロセスは、その機能にタンパク質を必要とします。本質的に、タンパク質は精巧な生物学的ナノマシンと考えることができ、もちろん非常に美しくもあります。
先ほど聞いたように、タンパク質はアミノ酸配列によって指定されます。その例が左に示されています。これらの配列は複雑な3D構造に折りたたまれます。例えばこれは右のこの美しい構造に折りたたまれます。真珠のネックレスが玉状に丸まるようなものと想像できます。
タンパク質の3D構造を知ることは、その機能について多くを教えてくれ、もちろん病気を理解し医薬品発見を加速させるためにも重要です。そこで問題は、タンパク質の3D構造を1次元のアミノ酸配列から直接予測できるかどうかです。
1972年のノーベル賞講演で、クリスチャン・アンフィンセンは理論的にはそれが可能であるはずだという有名な推測を発表しました。彼は熱力学的仮説を提案し、タンパク質はシステムの自由エネルギーを最小化する形のみを取るだろうという考えを提案しました。これはタンパク質フォールディング問題として知られるようになり、この大きな課題に対するコンピュータによる解決策を見つけるための50年にわたる探求が始まりました。
なぜこの問題はそれほど難しいのでしょうか?タンパク質の構造を見つける通常の方法は、実験的に行うことです。これは非常に緻密で困難な作業で、単一のタンパク質の構造を決定するのに数ヶ月、時には数年かかることもあります。
レビンタルはこの難しさを、レビンタルのパラドックスとして知られるようになったものの中で非常によく要約しています。彼は典型的なタンパク質が取りうる構成の数が10の300乗にも及ぶと推定しました。これは本当に天文学的な数字です。これらの可能性を全て列挙するには、明らかに宇宙の年齢よりも長い時間がかかるでしょう。しかし、自然界ではこれらのタンパク質は、何らかの方法で自発的に折りたたまれ、時には数ミリ秒で完了します。
これは私たちに希望を与えます。なぜなら、自然界でタンパク質フォールディングプロセスを非常に効率的に導くエネルギー地形に何らかのトポロジーがあるはずだということを意味するからです。おそらく私たちはこのプロセスを再現できるかもしれません。
この課題に取り組むという私たちの決定のもう一つの重要な側面は、学習のためのデータが容易に入手可能で、また非常に重要なことに、私たちの進歩を測定するための非常に明確で優れた基準があったことです。何十年にもわたる実験的な作業の後、約17万の構造が実験的に決定されており、これは何万人もの実験者たちの緻密な作業によって決定され、Protein Data Bank (PDB)に集められました。これは信じられないほど貴重な資源で、私たちはAlphafoldのトレーニングの出発点としてこれを使用しました。
第二に、構造予測のゴールドスタンダードとみなされ、1994年以降2年ごとにジョン・モルト教授とその同僚たちによって開催されているCASP(Critical Assessment of protein Structure Prediction)コンペティションがありました。このコンペティションの素晴らしい点は、それがブラインド評価だということです。予測しようとするタンパク質は実験的に発見されたばかりですが、まだ公開されていないため、これらのグループ以外の誰もこれらの構造を知りません。したがって、これらのコンピュータシステムの能力の真の試験となります。
このようなコンピュータシステムが実験者にとって実用的に有用であるための重要な閾値は、原子の幅よりも小さい精度、つまり平均して1オングストローム未満の誤差を達成する必要があると常に言われてきました。これは信じられないほど高い精度です。Alphafold 2で、私たちはこの原子レベルの精度を達成することができました。
私たちは2016年にAlphafoldを始め、2018年のCASP13、第13回CASPに初めて参加しました。私たちは本当にこの分野を前進させ、このバーグラフの進歩を見ると、これは基本的にCASPの各回での最優秀チームの勝利スコアを距離の尺度として示しています。以前の約10年間、これらの予測の精度を向上させることにはあまり進展がなかったことがわかります。
Alphafold 1はCASP13のコンペティションのランキングを支配し、予測を大幅に改善しました。これは、機械学習をシステムの中心的なコンポーネントとして導入した初めての機会でした。しかし、私たちはまだここでグラフに示されているGDTスコア90の線で表される原子レベルの精度には達していませんでした。
私たちはAlphafold 1から学んだ教訓を活かし、Alphafold 2で完全に新しいシステムを再構築してCASP14に提出することで、必要な原子レベルの精度を達成することができました。これによりコンペティションの主催者たちは、問題は本質的に解決されたと宣言しました。
これがAlphafold 2の革新的なアーキテクチャの図です。技術的な詳細の一部はジョンの講演で触れてもらうことにしますが、高レベルで重要なのは、実際にこの問題を解決するための特効薬は存在しなかったということです。Alphafold 2は、かなり複雑なハイブリッドシステムの中に12以上の異なる革新を組み込む必要がありました。
重要な要素の一つは、システムの学習コンポーネントと進化的および物理的制約をアーキテクチャに統合し、これら二つの要素を組み合わせることでした。これがうまく機能するために不可欠でした。Alphafoldチームは、生物学者や化学の専門家、機械学習の専門家やエンジニアからなる学際的なチームでした。
これはアミノ酸配列から始まり、直接3D構造予測を生成するエンドツーエンドのシステムでした。多くの連続的なステップにわたって予測を反復的に洗練させることができるリサイクリングステップを使用しました。CASP14コンペティションに登場したこの複雑なタンパク質でそれを見ることができます。左に緑で示された真の構造と、大きく重なり合う青の予測があり、右側では192ステップにわたってAlphafoldが最終的な予測構造に到達するまで、毎回精度を向上させていく様子が見られます。
Alphafoldを手に入れた私たちは、当然ながら可能な限り最大の影響を与えたいと考えました。Alphafoldは非常に正確なだけでなく、非常に高速でもあります。私たちはすぐに、科学で知られている全てのタンパク質、つまり配列は知っているが構造を知りたい約2億以上のタンパク質を実質的に折りたたむことができるほど高速であることに気付きました。
翌年、私たちのコンピュータで本質的に2億のタンパク質を折りたたみました。私たちはAlphafoldをオープンソース化し、EMBLのEBI(欧州生物情報学研究所)の素晴らしい同僚たちとAlphafoldデータベースを構築し、誰もがこれらの予測された構造を無料で制限なく利用できるようにしました。もちろん、安全性と倫理性を意識していたので、データベースを公開する前に30以上のバイオセキュリティとバイオエシックスの専門家に相談し、利点がリスクを大きく上回ることを確認しました。
これまでの影響は、私たちが想像できたものをはるかに超えています。世界中から200万人以上の研究者がAlphafoldとその予測を使用し、3万以上の引用があり、本当に生物学のツールボックスの標準的なツールとなっています。
これがAlphafoldが加速を助けた、膨大な問題の範囲での進歩の小さなサンプルです。私のお気に入りの中には、新しい酵素の設計によるプラスチック汚染との戦い、世界の最貧地域に影響を与える顧みられない病気への支援、核膜孔複合体の構造決定のような基礎的な構造生物学への支援、そして最近では数週間前に発見された生殖の新しいメカニズムがあります。私は、Alphafoldのようなプログラムが持つ影響は、本当にまだ始まったばかりだと思います。
もちろん、私たちはAlphafoldの開発を続けており、今年の初めにAlphafoldの新しいバージョン、Alphafold 3を公開しました。これも大きな進歩です。なぜならAlphafold 2では、タンパク質の静的な画像とその構造がどのように見えるかを本質的に解決すると考えることができますが、もちろん私たちは生物学が信じられないほど動的であり、実際に生物学で興味深いことは全て、生物学の異なる側面が相互作用するときに起こることを知っています。
Alphafold 3は、相互作用とダイナミクスのモデリングに向けた私たちの最初のステップです。タンパク質と他のタンパク質との間の相互作用をモデル化することができますが、タンパク質とRNA、タンパク質とDNA、そしてタンパク質とリガンドとの相互作用もモデル化することができます。
最後のセクションで、一歩下がって、この種の仕事と私たちの同僚の一部の仕事が科学事業のためのAIのより大きな意味について話したいと思います。一歩下がってAlphaGoやAlphafold、そして私たちが構築した他のシステムの本質を見ると、実際にそれらを、この巨大な組み合わせ的な探索空間の中で最適な解決策を見つけるものとして描写することができます。
私たちはこれを、データやシミュレーションからモデルを学習し、最適化しようとする目的関数に従って検索プロセスを導くためにそのモデルを使用することで行っています。これは非常に一般的な解決策であり、多くの問題がこのアプローチに適応できることがわかります。
私は先ほど、囲碁の対局で最善手を見つけるための木構造の図を見せましたが、囲碁の局面のノードを化合物の設計に容易に置き換えることができ、今では化学空間で最良の分子や薬物化合物を見つけるための検索木を想像してください。そして私は、ここで説明したのと同じ種類の技術をこの種の問題に非常にうまく使用できると思います。
これは、私がデジタル生物学と呼ぶことを好む新しい時代に入っているかもしれないことを意味します。私は常に、最も基本的なレベルでの生物学は情報処理システムとして考えることができると考えてきました。確かに、それは驚くほど複雑で創発的なシステムですが、私はそれがあまりにも複雑なシステムであるため、生物学の働きを数学の方程式にまで還元するのは難しいだろうと思います。
数学は物理学における物理現象の記述言語として信じられないほどのツールでしたが、同様に人工知能は生物学のための完璧な記述言語になる可能性があると思います。私たちは、Alphafoldが10年後か20年後に振り返ったときに、このデジタル生物学の新しい時代の幕開けを助けた一種の概念実証になることを願っています。
私たちはそれに貢献しようとしています。私たちは最近数年前に、Alphafoldを基に、人工知能を使って最初の原理から薬物発見プロセスを再考するIsomorphic Labsという新しい会社を設立しました。そしておそらく、信じられないほど難しく、長く、コストのかかる数年のプロセスである薬物発見を、数ヶ月、あるいはいつの日か数週間に短縮できるかもしれません。
私たちは時々、Alphafoldとタンパク質構造、そしていつの日か薬物発見で起こるかもしれないこのような加速されたプロセスを、デジタルスピードで科学を行うようなものと考えます。私は長い間、一つの仮想細胞全体をシミュレートできることを夢見てきました。単一のタンパク質や相互作用する数個のタンパク質だけでなく、細胞全体をシミュレートし、これらの予測が実験者にとって有用なものとなることを。
おそらく、これがノーベル賞講演であることから、1972年のクリスチャン・アンフィンセンの講演の精神で、いくつかの新しい、おそらくやや挑発的なアイデアで締めくくりたいと思います。AlphaGo以来、私は古典的なシステム、古典的なコンピュータシステムの限界について多く考えてきました。
ご存知の通り、現在のコンピュータサークルでは量子コンピュータと古典的なシステムについて大きな議論があります。私は、現代のコンピュータの基礎となっている古典的なチューリングマシンは、おそらく以前考えられていたよりもはるかに多くのことができると思います。そしてそれらはどのようにしてそれを行うのでしょうか?
おそらく、事前に膨大な量の事前計算を行い、それを使って良いモデル、環境の良いモデル、解決しようとしている問題の良いモデルを開発することによってでしょう。その後、そのモデルを使って、複雑性理論で多項式時間と呼ばれる効率的な方法で解の空間を探索することができます。
そこで、私が大まかに提案する推測は、おそらく自然界で生成または発見できるパターンや構造は全て、古典的な学習アルゴリズムによって効率的に発見およびモデル化できるかもしれないということです。これは必ずしも全ての量子システムを意味するわけではありません。
なぜなら、学習すべき基礎となるパターンや構造を持たない、大きな数の因数分解や同様の抽象的な問題のような多くのことが起こるでしょうから。しかし、タンパク質や材料のような自然システムは、今日私が説明したようなプロセスによって学習できる構造を潜在的に持っているだろうと思います。そして、もし古典的なシステムが特定の種類の量子システムをモデル化できることが判明すれば、P≠NPを含む複雑性理論の分野や、おそらく情報理論のような基礎物理学の一部の側面にも重要な影響を与える可能性があると思います。
最後のポイントで締めくくりたいと思います。私は生物学と生命科学のためのAIについて多く話してきましたが、実際にDeepMindでは科学、医学、気候、数学など多岐にわたる分野で多くの仕事をしています。これは、私が今日話した技術を医療画像の分析や診断、配列解析、良性か病原性かを問わずミスセンス変異の検出、核融合炉でのプラズマ制御、行列乗算のような高速アルゴリズムの開発、最先端の気象予報システム、そして以前には見たことのない何千もの新しい材料の発見など、様々な分野に応用した仕事のほんの一部です。
これら全てに、AIを科学の基礎的なツールとして使用しています。これら全てによって、私たちは新しいタイプの強力なAIツールに支援された、新しい黄金時代に入りつつあるかもしれません。
私は人工知能が人類の最大の課題に取り組むのを助けるための信じられないほどの可能性を持っていると考えているので、一生をかけて人工知能に取り組んできました。しかし、人工知能は二重用途技術でもあり、責任を持って安全に構築され、全ての人々の利益のために使用される必要があります。
そのためには、この分野を主導する科学者や技術者が、これらのシステムをどのように最適に展開し使用すべきかについての全ての視点を取り入れるために、政府から学術界、市民社会に至るまでの幅広い利害関係者と関わることが重要だと思います。
私は、汎用人工知能のような変革的な技術は、火や電気の発明に匹敵するようなものになるだろうと考えています。それは、この信じられないほど強力な技術の開発の次のステップを導くために、非常な注意と先見性を必要とします。しかし、もし私たちがこの技術を安全に管理することができれば、汎用AIは最終的に、私たちを取り巻く宇宙と、その中での私たちの位置を理解するのを助ける究極の万能ツールになる可能性があると思います。
もちろん最後に、素晴らしいAlphafoldチームに感謝したいと思います。ほとんど全員が今日ここにいます。AlphaGoとAlphaZeroのチーム、今日ご覧になった全ての仕事を支える素晴らしいインフラストラクチャーとサポートを提供してくれたDeepMindとGoogleの広範な同僚たち、EMBL-EBIの素晴らしい協力者たち、CASPコミュニティ、PDB、実験生物学コミュニティ、そして最後に、もちろん最も重要なのは、今日ここにいる私の素晴らしい家族、親しい友人、同僚たちです。彼らの愛、サポート、励ましがなければ、これら全ては不可能でした。ありがとうございました。
コメント