AIがタンパク質折りたたみの暗号を解読し、ノーベル賞を獲得した方法

9,982 文字

How AI Cracked the Protein Folding Code and Won a Nobel Prize
This is the inside story of how David Baker, Demis Hassabis and John Jumper won the 2024 Nobel Prize in Chemistry for ad...

これらは地球上の生命にとって不可欠な顕微鏡的な分子機械です。何百万年もの進化を経て、様々な重要な機能を果たすようになりました。これらがタンパク質です。50年以上にわたり、生物学者たちはタンパク質が機能するために折りたたまれる仕組みという謎の解明に取り組んできました。その努力は膨大なものでした。
しかし最近の重要な挑戦において、DeepMindのチームは人工知能を使ってタンパク質の謎の重要な部分を解明しました。あなたたちのグループはCASP 14で素晴らしい成果を上げました。本当に衝撃的でした。この breakthrough は生物学の新時代への扉を開きました。AIの革命と言えるでしょう。世界の最も大きな問題を解決するために設計されたヒト由来のタンパク質の未来を告げるものです。
私たちは常にフロンティアを押し広げようとしています。これは、AIがタンパク質折りたたみの暗号を解読し、この3人の研究者が2024年のノーベル化学賞を受賞することになった画期的な科学の内側にある物語です。
タンパク質は少なくとも37億年前に初めて出現しました。それ以来、自然はこれらの分子の驚異の数え切れないバリエーションを生み出してきました。
これらは仕事をする分子です。他の分子と相互作用し、他の分子を作り、分子を分解します。消化作用や病原体から私たちを守る抗体を含む生化学反応を触媒する酵素も含まれます。タンパク質は私たちの細胞を機能させ、体全体の分子の流れを調節しています。
また、組織に構造を与え、筋肉を動かし、さらに多くの機能を果たしています。これらは全て究極的には化学反応であり、生命の化学を理解するためには、これらの分子の構造を理解する必要があります。タンパク質の特定の分子機能は、その3次元的な折りたたまれた形状の産物です。
それらは非常に正確な形状に折りたたまれ、それを毎回行い、その形状が生物学的機能を果たします。この折り紙のような形状は、その主要な構造成分であるアミノ酸の配列によって決定されます。全てのタンパク質は、ポリペプチドと呼ばれる鎖状につながれた20種類の異なるアミノ酸から構築されています。
細胞内で最初に組み立てられる時、タンパク質は折りたたまれていません。アミノ酸は首飾りの玉のように一列につながっています。これらのアミノ酸は無数の配置で並べられ、異なるタンパク質を形成することができます。特定のタンパク質のポリペプチド配列のレシピは、細胞のDNA内にコード化されています。
1969年、生物学者のサイラス・レベンサールはパラドックスを観察しました。どんなタンパク質でも、小さなものでさえ、可能な折りたたみ配置の数は天文学的です。それらを全てランダムに試すと、宇宙の年齢よりも長い時間がかかる可能性があります。しかし、タンパク質は1秒以内に確実に機能的な形状に折りたたまれます。
このプロセスの背後にある謎は「タンパク質折りたたみ問題」として知られるようになり、これは3つの密接に関連する質問からなります。アミノ酸の配列はどのようにしてタンパク質の最終的な3D形状をコード化するのか?折りたたみの段階はどのようなものか?そして3つ目は:3D構造をコンピュータで予測するにはどうすればよいのか?タンパク質折りたたみ問題は構造生物学と呼ばれる研究分野の重要な課題です。
構造生物学者は、正式には構造として知られるタンパク質の形状を研究し、それらがどのように機能するかを解明しようとしています。3D構造がわかれば、これらの分子がどのように振る舞い、機能するかを本当に理解し始めることができます。タンパク質構造のより良い理解は、鎌状赤血球症やアルツハイマー病のような誤って折りたたまれたタンパク質に関連する多くの病気の治療法につながる可能性があります。
本当の可能性は、特定のターゲットに対する新しい薬の設計です。より安価で迅速なバイオ医薬品の開発が可能になります。1957年、生化学者のジョン・ケンドリューはX線結晶解析と呼ばれる技術を使って最初の原子レベルのタンパク質構造を明らかにしました。この方法は構造生物学者にとって最も重要なツールの1つとなりました。X線結晶解析の最初のステップでは、目的のタンパク質を精製し、結晶として濃縮します。
この高度に秩序だった配列を形成することは、しばしばプロセス全体で最も困難な部分です。次に結晶を高強度X線ビームの経路に置き、回転させます。X線は結晶の原子を取り巻く電子から反射され、散乱して検出器に当たります。結果として得られる回折パターンは、コンピュータによってタンパク質の電子密度の3Dマップに変換されます。
ここからは、ジグソーパズルを解くようなものです。既知のタンパク質配列のアミノ酸を3Dマップに当てはめ、タンパク質の構造モデルを作成します。当初、研究者たちはボールとスティックを使ってモデルを手作業で構築し、このジグソーパズルを解いていました。後に、この作業を加速するためのコンピュータツールが開発されました。
これを行うための努力は膨大です。費用は10万ドル程度、博士課程の学生の2年間の時間が必要です。たった1つの構造を得るためにも本当に莫大な投資が必要なのです。1970年代、研究者たちのコンソーシアムはProtein Data Bank(PDB)を立ち上げ、決定された構造をカタログ化し始めました。
タンパク質構造内の各原子の位置は、3次元座標のセットとして記録されました。今日、PDBには20万以上のタンパク質の構造データが含まれています。核磁気共鳴や極低温電子顕微鏡(クライオEM)のような新しいテクノロジーにより、研究者たちはより大きなタンパク質や複雑な分子集合体も調べることができるようになりました。
しかし、これらのイメージング技術の進歩にもかかわらず、アミノ酸の直鎖が実際にどのように3D機能形状に折りたたまれるかの多くは謎のままでした。1960年代、生化学者のクリスチャン・アンフィンセンはタンパク質折りたたみの謎の重要な部分を解読しました。後に彼はこの発見でノーベル賞を受賞しました。一連の実験で、彼は溶液中のタンパク質を変性させ、それらを展開して機能を停止させました。
条件を元に戻すと、タンパク質は元の形状に再折りたたまれ、機能を回復しました。アンフィンセンの研究により、タンパク質の3次元構造とそれに到達するための折りたたみステップに必要な全ての情報は、そのアミノ酸の連鎖の生化学的性質のみにコード化されていることが明らかになりました。
それは、展開状態から折りたたまれた状態に移行するために他の生物学的機械が必要ないことを示唆していました。それは、計算的手法を使って一方から他方に移行できることを意味しています。20種類の異なるアミノ酸は全て一連の分子的特徴を共有しており、中心の炭素原子に3つのグループが付いています。
正に荷電したアミノ基、負に荷電したカルボキシル酸基、そして水素原子です。また、R基と呼ばれる可変側鎖も付いています。R基はアミノ酸に固有の生化学的機能を与えます。タンパク質の直線的な骨格、つまり一次構造は、1つのアミノ酸のアミノ基が別のアミノ酸のカルボキシル基と反応することで形成され、これはペプチド結合と呼ばれます。
ここから、タンパク質は折りたたみ経路に沿って一連のステップを経ます。タンパク質は折りたたまれる際、最低エネルギー状態を探します。これは全ての物理系に当てはまります。骨格は捻れて折りたたまれ、2つの主要な二次構造を形成します。
アルファヘリックスは骨格の螺旋状の部分です。一方、ベータシートは隣接するアミノ酸鎖がつながって形成されます。どちらも水素結合によって固定されています。次にタンパク質は、主にアミノ酸側鎖によって駆動されてより複雑な三次構造に折りたたまれます。これらのR基は異なる化学的性質を持ち、それらの相互作用と環境との相互作用の両方が折りたたみプロセスを指示し、折りたたまれた形状を安定化させます。
鎖は本質的に全てのアミノ酸構成要素がエネルギー的に好ましい環境を持つようなコンパクトな構造に折りたたむことができます。そしてこれが安定な物体となります。一部のポリペプチドは他のものと組み合わさって、四次構造として知られるより大きな複合体を形成します。最終的な、あるいは天然の形成に折りたたまれると、タンパク質は鍵と鍵穴のように特定のターゲット分子に結合して、その生化学的機能を果たします。
生物学は計算科学になりつつあると言われてきました。これは確かにその通りです。生物学システムの複雑さは、多くの計算インフラなしには扱えないと思います。1990年代までに、コンピュータ技術の進歩により、X線結晶解析を使用したタンパク質構造の同定プロセスが加速されました。
90年代初めには、世界中で年間100個程度の構造しか得られませんでした。しかし90年代末までには、ほぼ毎月100個の構造が得られるようになりました。一部の研究者たちは、プロセスをさらに加速するために全く新しい計算アプローチを探求しました。それは基本的に、私たちが理解していなくても、問題には何か単純なものがあるという考えに基づいていました。
しかし、コンピュータコードを使ってタンパク質折りたたみ問題を解決しようとした初期の試みは、それとは異なる結果を示しました。当時、私たちは本当に、本当に、本当に下手でした。それで私は考えました。もっと明確さと厳密さを得て、物事を前進させるにはどうすればいいだろうか?そこでジョン・モールトは、後に2年に1度の重要な構造予測評価チャレンジ(CASP)となるコミュニティ科学実験を共同設立しました。
CASPのアイデアはとてもシンプルです。私たちは実験家たちに、あなたが今解いたものは何ですか?と尋ねます。未発表の新しく同定されたタンパク質構造のアミノ酸配列が、予測のために計算科学者たちに渡されます。そして私たちは両者を比較できます。予測が実験家の構造にどれだけ近いかに基づいて、結果は0から100のスケールでスコアが付けられます。
長年の基準は、90に到達する必要があるということでした。1994年に開催された最初のCASPチャレンジでは、計算科学者たちはあまり良い成績を収めませんでした。誰もタンパク質構造を予測できないことがわかりました。彼らは完全に間違えていました。尊敬される実験家たちがステージに立ち、笑いころげていました。
「あなたたちはなんて馬鹿なんだ!」私たちは冗談で、ああ、まだ10年は仕事があるなと言っていました。それでもCASPチャレンジは即座に影響を与えました。コミュニティをこの1つの指標の周りに組織し、何が機能し何が機能しないかを全員が見ることができるようになりました。生化学者のデビッド・ベーカーにとって、CASP-1の結果は刺激的なものでした。
私が本当に興味を持っていた問題が、いわば未開拓だということを意味していました。そこでベーカーの研究室は取り組み始めました。実際の折りたたみプロセスを探るための実験を考案しました。自然がどのようにしてそれを行うのかを理解できれば、同じような近道を計算的に行うためのアルゴリズムが示唆されるだろうという考え方がありました。
ベーカーのチームは、彼らが発見したことをRoseTTaというコンピュータプログラムに組み込みました。RoseTTaは、実際の折りたたみのプロセスを模倣しようとする物理モデルです。これらの原子間には多くの微細な相互作用があり、それらを全て完璧にシミュレーションする必要があります。鎖の各部分が異なる可能な状態をサンプリングし、全てが組み合わさる組み合わせを見つけようとしています。
2002年の第5回CASPの頃には、多くの研究者がベーカーと同じ質問をしていました。物理ベースの方法を使って原子レベルの精度に近づけることができるでしょうか?そしてその点で多くの励みになる進歩が見られました。しかし、10年以上にわたって大きなブレークスルーがない中、ディープラーニングと呼ばれる新しい計算ツールが登場しました。
ワオ。ワオ。皆さん、今夜ここで歴史が作られるのを目撃しました。グーグルが所有する人工知能企業DeepMindが設計したディープラーニングアルゴリズムが、かつては不可能と思われていたことを成し遂げました。そのAIは非常に複雑な囲碁のゲームで人間のグランドマスターに勝利しました。AIの開発はまだ初期段階ですが、まだ多くの未解決の問題があります。
囲碁やその他のいくつかのゲームを習得した後、DeepMindの創設者デミス・ハサビスは新しい課題を探していました。囲碁の試合中、ハサビスは大学時代にFoldItという対話型コンピュータゲームをプレイしていたことを思い出しました。FoldItはデビッド・ベーカーの研究室が設計したもので、誰でもタンパク質折りたたみ問題に挑戦できるようになっていました。
デミス・ハサビスは長い間この問題に興味を持っていました。彼は、生物学について何も知らないDeepMindのエンジニアたちがタンパク質を折りたたむAIを設計できるだろうかと考えました。私たちは何を改善し続けているのでしょうか?2017年、理論化学者のジョン・ジャンパーがDeepMindチームに加わりました。AlphaFold 1の開発はすでに進行中でした。
そしておそらく、違いを生む可能性のある小さな調整を見ていくことになるでしょう。チームのアプローチは、画像認識で一般的に使用されていたものと同様でした。かなり標準的な機械学習で、その周りにタンパク質の知識をシステムとして組み込みました。つまり、タンパク質的な入力があり、タンパク質的な出力がありました。
当時のタンパク質データバンクにある136,000の構造でシステムを訓練した後、DeepMindはタンパク質科学者たちと競争する準備が整いました。2018年、DeepMindはCASP 13に参加しました。ディープラーニングを使用していたのは彼らだけではありませんでしたが、AlphaFoldのタンパク質構造予測が最高の成績を収めました。
それは構造の精度に非常に大きな違いをもたらしました。他の何よりも優れていましたが、まだそれほど素晴らしいものではありませんでした。私たちは世界があまり得意でない問題で世界最高のチームでした。ここからできるだけ早く倍増する必要があります。そして、再びCASPに参加する予定です。
DeepMindチームにとって、それは白紙に戻ることを意味しました。ニューラルネットワークの中核コンポーネント、タンパク質の物理学、タンパク質の進化に関する洞察を再設計しました。新しいアルゴリズムであるAlphaFold 2は次のように機能します。タンパク質のアミノ酸配列がシステムに入力されます。
アルゴリズムは、他の生物で見つかった類似のタンパク質配列を探すために、いくつかの遺伝子データベースを検索します。これらの関連配列は配列に並べられ、Multiple Sequence Alignment(MSA)と呼ばれる表現を作成します。MSAには、異なる生物間でのタンパク質の進化に関する情報が含まれています。
次に、AlphaFoldはターゲット配列内の全てのアミノ酸ペア間の空間的関係をエンコードするマトリックスを生成します。これはPairwise Representationと呼ばれます。折りたたまれたタンパク質のどの部分が互いに近いかを示す2次元画像を生成することができます。このマトリックスは、タンパク質の3D形状の2次元マップと考えることができます。
MSAとPairwise表現は、パワフルなニューラルネットワークであるトランスフォーマーを使用したEvoformerモジュールに入力されます。Evoformerは、セルフアテンションと呼ばれる技術を使用して、意味のある情報を効率的に抽出しながらデータを動的に更新します。つまり、タンパク質の進化と、タンパク質の幾何学について私たちが信じていることの間に会話を設定しているのです。
洗練されたペアワイズ情報は、Structure moduleと呼ばれる別のトランスフォーマーに渡され、そこで幾何学的な計算を行い、タンパク質の折りたたまれた構造の初期予測を生成します。この予測は、最終的な出力を生成する前に、アルゴリズム全体を通してサイクルさせることで洗練されます。
AlphaFoldは、タンパク質構造の異なる部分の予測にどの程度自信があるかのスコアも示します。CASP 14は、パンデミック中の2020年、全員がロックダウン中に戻ってきました。DeepMindチームは新しい予測アルゴリズムをテストしました。ジョン、ここにある図は、私たちが上手くいかなかったものですか?実は、この領域では私たちはかなり良い成績を収めています。
数ヶ月後、ついに結果が出始めました。AlphaFold 2の多くの予測が90以上のスコアを獲得しました。本当に衝撃的でした。これらを見て、本当にそんなに良いのか?何が起こっているのか?と思いました。ジョン・モールトからのメールを読みます。あなたたちのグループはCASP 14で他のグループと比較して、また絶対的なモデルの精度において素晴らしい成績を収めました。
この成果おめでとうございます!AlphaFold 2の成功には複数の要因がありました。重要な1つは新しいアルゴリズムの設計でした。私たちはタンパク質についての理解の一部を組み込みました。機械学習の言葉で言う帰納バイアスを組み込み、データから非常に急速に学習しました。
そしてタンパク質データバンクは、AIのトレーニングに特に適したデータセットを提供しました。データは物理学の基本的な規則に従っているので、モデルが学習できる何かがあります。情報の質と量が一緒になって、ディープラーニング手法を機能させるのに理想的に適合していました。
DeepMindの成果は科学界に大きな波紋を投げかけました。メディアは、タンパク質折りたたみ問題が本質的に解決されたと宣言しました。解決されたとはどういう意味ですか?どのような意味で解決されたのでしょうか?私はとてもワクワクしました。多くの同僚たちは、いわば暗い未来を語っていました。人々は仕事を失うことを恐れていました。
私はしばしば、これを悲しみの6段階として説明します。最初は否定で、最後は受容に至ります。2022年7月までに、DeepMindは世界で知られているほぼ全ての2億1800万のタンパク質の構造予測を公開していました。彼らはコードを広く利用可能にしました。それは素晴らしいリソースとなっています。
AlphaFold 2は生物学者にとって新時代の到来を告げました。全ての実験家が解決への助けとしてAlphaFoldを試すようになり、時には何年もの時間を節約することができました。あなたが問うことができる質問のハードルが上がりました。AIの革命です。以前は実験的に解決できなかった問題に応用し始めます。
ベーカー研究室にとって、これは新しい独自のタンパク質を合成するプロセスであるタンパク質設計にAIを応用することを意味しました。私たちが行っている仕事は大まかに3つの一般的な分野に分かれます。1つ目は医療、2つ目はエネルギーと持続可能性、3つ目は新しい技術です。新しいタンパク質を設計するために、ベーカー研究室の研究者たちは分子ターゲットを選択します。
彼らの目標は、このターゲットの形状に結合するタンパク質を作ることです。まず、ターゲットの形状がRFdiffusionと呼ばれる生成AIシステムに入力されます。DALL·Eのようなアルゴリズムがプロンプトから画像を生成するのと同じように、RFdiffusionは、ターゲットの形状に適合するタンパク質構造の骨格を生成します。
完全にランダムなノイズから始めて、徐々にノイズを除去していくと、最終的に完全に新しいものですが、完全に妥当なタンパク質構造のように見えるものが得られます。拡散アルゴリズムがタンパク質構造の3Dモデルを生成すると、別のソフトウェアが与えられた構造に折りたたまれる可能性のあるアミノ酸配列を決定します。
このパズルには多くの解決策がありますが、全てが機能するわけではありません。そのため、配列はAlphaFold 2のような予測AIに入力され、どの候補が設計通りに折りたたまれる可能性が高いかを確認します。最後のソフトウェアは、細胞内で与えられたアミノ酸配列を生成するDNA配列を決定します。
このDNA配列は合成のために研究室に送られます。全く新しいタンパク質を作る場合、それらをコードする遺伝子は存在しないので、これらのタンパク質をコードする合成遺伝子を作る必要があります。研究者たちは次に、タンパク質を生産する細菌に合成遺伝子断片を導入します。細菌は基本的にタンパク質を作る工場となります。
最後のステップでは、クライオEMのようなイメージング技術を使用して、研究室で生産されたタンパク質の形状がコンピュータで予測されたものと同じかどうかを確認します。私たちは今、はるかに洗練されていて、より正確で安全であるべきタンパク質を設計することができます。医療を超えて、私たちは太陽光を捕捉し、そのエネルギーを利用する改良された方法に取り組んでいます。
私たちは有毒化合物を分解する改良された方法に取り組んでいます。新しいAIタンパク質折りたたみ予測ツール群は生物学の多くの側面を変革しましたが、その応用には限界があります。それらはタンパク質の構造のみを予測しますが、実際にはタンパク質は単独では機能しません。
しかし、私たちが未解決のままにしたのは、タンパク質が細胞の残りの部分とどのように対話するのかということでした。これらは細胞の機械です。細胞内で本当に、本当に重要なことをたくさん行っています。細胞内では、タンパク質はDNA、RNA、金属を含む様々な異なる分子と相互作用します。生物学を本当に研究するためには、それらの分子がどのように全体像に関係しているかを理解する必要があります。
そこでベーカーのチーム、DeepMind、そして他のチームは、これらの複雑な相互作用を予測できるAIアルゴリズムの開発を始めました。面白い部分は、以前には見たことのない例を見始めているということです。2024年春には、次世代のAI予測ツールがリリースされました。ベーカー研究室はRoseTTAFold All-Atomをリリースし、これはタンパク質と他の小分子の集合体の3D構造を予測します。
モデルに入力として、タンパク質配列と化学構造、つまり原子と結合の両方を取り込み、それらの組み合わせの構造を作成することができます。その直後にDeepMindはAlphaFold 3をリリースしました。多くの新しい科学を解き放つと考えられる本当に素晴らしい改良がされています。AlphaFold 3は、結合構造とタンパク質と他の分子との相互作用の両方を予測する拡散ベースの手法を追加しています。
AlphaFold 3は素晴らしいシステムですが、これらの問題が解決されたとは言えないでしょう。AIによって推進されるこの新しい計算生物学の時代において、CASPの主催者たちはチャレンジの未来を再考する必要がありました。2020年のAlphaFoldの結果で、一部の人々は「では、終わりですね?」と言いました。もしかしたらモールトはついに立ち去って黙るかもしれません。
しかし、もちろん私たちの観点からすると、これは実際にCASPにとって非常にエキサイティングな拡大の時期です。あなたは常にフロンティアを押し広げたいと思うでしょう。技術の転換期においては、それは非常に激しい時期です。私にとって、それは非常に興奮させられるものでした。2024年10月、デビッド・ベーカー、ジョン・ジャンパー、そしてデミス・ハサビスは、タンパク質構造予測と設計に関する彼らの研究でノーベル化学賞を共同受賞しました。
私の意味するところは、理解すべきことがまだたくさんあるということです。これは始まりに過ぎません。

コメント

タイトルとURLをコピーしました