
11,071 文字

世界の最大の問題、気候変動から病気の治療、プラスチック廃棄物の処理まで、もしそれら全てが同じ解決策を持っているとしたらどうでしょうか?目に見えないほど小さな解決策を。私は、前世紀最大の問題の1つを解決した最近のブレークスルーのおかげで、これが可能だと考えています。
タンパク質の構造を決定する方法 – 生物学におけるフェルマーの最終定理に匹敵すると私は説明を受けました。60年以上かけて、何万人もの生物学者が15万個のタンパク質の構造を丹念に解明してきました。そして、わずか数年で15人ほどのチームが2億個の構造を決定したのです。
これは、自然界に存在することが知られているほぼ全てのタンパク質です。では、彼らはどのようにしてそれを成し遂げ、なぜこれが生物学の領域をはるかに超えた問題を解決する可能性を持っているのでしょうか?タンパク質はアミノ酸の配列として単純に始まります。各アミノ酸は中心に炭素原子を持ちます。そして片側にアミノ基があり、もう片側にカルボキシル基があります。
そして最後に結合しているのは20種類の異なる側鎖の1つで、どの側鎖かによってこの分子が20種類のアミノ酸のどれであるかが決まります。1つのアミノ酸のアミノ基は、別のアミノ酸のカルボキシル基とペプチド結合を形成することができます。そのため、一連のアミノ酸が結合して配列を形成し、無数の分子間の押し引き、静電気力、水素結合、溶媒との相互作用によって、この配列が巻き上がり自身に折りたたまれることがあります。
これが最終的にタンパク質の3D構造を決定します。そしてこの形状こそがタンパク質について本当に重要なものです。ヘモグロビンが血液中で酸素を運ぶための完璧な結合部位を持っているように、特定の目的のために作られているのです。これらは機械であり、例えば筋肉のタンパク質が協力して動くためには、正しい向きである必要があります。
それらは引っ張ったり収縮したりするために、少しずつ形を変えます。しかし、1つのタンパク質の構造を解明するのに人々は長い時間を要しました。その通りです。タンパク質がどのような形をしているべきかという問いは、実験的手法でようやく答え始められたのです。
タンパク質構造を決定する最初の方法は、そのタンパク質から結晶を作ることでした。これにX線を当てて回折パターンを得て、科学者たちはそのようなパターンを作り出す分子の形を逆算しようと試みました。イギリスの生化学者ジョン・ケンドリューが最初のタンパク質構造を得るのに12年かかりました。彼の標的は、私たちの心臓で重要なミオグロビンという酸素貯蔵タンパク質でした。
彼は最初に馬の心臓を試みましたが、ミオグロビンが十分でなかったため、小さな結晶しか得られませんでした。潜水哺乳類は酸素を保持するのに最も優れているため、筋肉中に多くのミオグロビンを持っていることを彼は知っていました。そこで彼はペルーから巨大なクジラの肉の塊を入手しました。これによってようやくケンドリューはX線回折像を作成するのに十分な大きさの結晶を得ることができました。
そして結果が出たとき、それは本当に奇妙に見えました。人々は論理的で、数学的で、理解しやすいものを期待していましたが、それは醜いとは言いませんが、複雑で入り組んでいて、ロケットエンジンとそこから突き出た部品のようでした。「世紀の糞」と呼ばれたこの構造で、ケンドリューは1962年のノーベル化学賞を受賞しました。
その後の20年間で、約100個の構造しか解明されませんでした。今日でも、タンパク質の結晶化は大きな課題として残っています。正直なところ、たった数個のタンパク質構造が誰かの博士号全体になることも珍しくありません。時には1つだけ、時にはただ1つに向けての進展だけということもあります。そして費用もかかります。
X線結晶構造解析は1つのタンパク質あたり数万ドルかかる可能性があります。そこで科学者たちはタンパク質構造を解明する別の方法を探しました。タンパク質のアミノ酸配列を見つけるのにかかる費用は約100ドルです。そのため、これを使ってタンパク質がどのように折りたたまれるかを理解できれば、多くの時間と労力とお金を節約できるでしょう。
私は炭素がどのように振る舞うか、炭素が硫黄にどのように結合し、それが窒素の隣にどのように結合するかをある程度知っています。そしてこれらがここにあれば、これが折りたたまれてそこで結合を作ることを想像できます。そのため、基本的な分子動力学についてある程度の感覚があれば、このタンパク質がどのように折りたたまれるかを理解できるかもしれません。
生物学における数少ない真の予測の1つは、実際にライナス・ポーリングがタンパク質の構成要素の幾何学だけを見て、実際にそれらがヘリックスとシートを作るはずだと言ったことでした。これを二次構造と呼び、タンパク質の非常に局所的なねじれや曲がりのことです。しかし、ヘリックスとシート以外では、生化学者たちは全てのタンパク質の最終構造につながる信頼できるパターンを見つけることができませんでした。
これの理由の1つは、進化がタンパク質を一から設計したわけではないということです。それは自分が何をしているのか分からないプログラマーのようなもので、良さそうに見えたものは、ただそういったものを追加し続けただけです。そしてそれが、これらの素晴らしいオブジェクトと同時に、非常に複雑で説明が難しいものを生み出した理由です。
人間が設計した機械のような根本的な目的を持っているわけではありません。MITの生物学者サイラス・レヴィンサルは、封筒の裏での計算を行い、35個のアミノ酸という短いタンパク質鎖でさえ、天文学的な数の方法で折りたたむことができることを示しました。
そのため、コンピュータがナノ秒ごとに30,000の構成のエネルギー安定性をチェックしたとしても、正しい構造を見つけるのに宇宙の年齢の200倍の時間がかかることになります。諦めることを拒否し、メリーランド大学のジョン・モールト教授は1994年にCASPという競技会を始めました。課題は単純で、アミノ酸配列を入力として受け取り、その構造を出力するコンピュータモデルを設計することでした。
モデラーたちは予め正しい構造を知ることはできませんでしたが、各モデルからの出力は実験的に決定された構造と比較されることになっていました。完璧な一致は100点を獲得しますが、90点以上は構造が解決されたと見なされるほど十分に近いものでした。CASP競技者たちはカリフォルニア州モントレーの古い木造の礼拝堂を改装した会議センターに集まり、予測が意味をなさない場合はいつでも、友好的な冗談として足を踏み鳴らすことが奨励されました。
多くの足踏みがありました。最初の年、チームは40点以上のスコアを達成することができませんでした。初期の先駆者は、ワシントン大学の生物学者デイビッド・ベーカーが作成したRosettaというアルゴリズムでした。彼のイノベーションの1つは、彼のソフトウェアRosetta@Homeをインストールすることを志願した家庭、学校、図書館のアイドル状態のコンピュータの処理能力をプールすることで計算を促進することでした。
その一部として、タンパク質折りたたみ計算の過程を示すスクリーンセーバーがありました。そして人々が、スクリーンセーバーを見ていて、コンピュータよりも自分たちの方がうまくできると思うと書き始めました。そこでベーカーはアイデアを思いつきました。彼はビデオゲームを作りました。
Fold Itと呼ばれるこのゲームは、異なる配置にねじれたり曲がったりできるタンパク質の鎖を設定しました。しかし今度は、コンピュータが動きを作る代わりに、ゲームプレイヤー、つまり人間が動きを作ることができました。3週間以内に、50,000人以上のゲーマーがHIVで重要な役割を果たす酵素の解読に努力を結集しました。
X線結晶構造解析は彼らの結果が正しいことを示しました。ゲーマーたちは研究論文の共著者として認められました。さて、Fold Itをプレイした1人の男性は、デミス・ハサビスという元チェスの神童でした。ハサビスは最近、DeepMindというAI企業を立ち上げていました。彼らのAIアルゴリズムAlphaGoは、碁の世界チャンピオンであるイ・セドルに勝利したことで話題になりました。
AlphaGoの手の1つ、第37手は、セドルの心を根底から揺るがしました。しかしハサビスは、Fold Itのゲーマーとしての時間を決して忘れませんでした。ゲームデザインの観点から、これは本当に魅力的でした。もちろん、アマチュアの生物学者に過ぎないこれらのゲーマーの直感を模倣できたら素晴らしいと思いました。
韓国から戻った後、DeepMindの研究者たちは1週間のハッカソンを行い、AIにFold Itをプレイさせる訓練を試みました。これが、科学を進歩させるためにAIを使用するというハサビスの長年の目標の始まりでした。彼はタンパク質折りたたみ問題を解決するためにAlpha Foldという新しいプロジェクトを開始しました。一方CASPでは、Rosettaを含む最高のパフォーマーからの予測の質は横ばいになっていました。
実際、CASP8以降、パフォーマンスは下降しました。より速いコンピュータとタンパク質データバンクで訓練するための構造の増加にもかかわらず、予測は十分に良くありませんでした。DeepMindはAlphaFoldでこれを変えることを望みました。その最初のイテレーション、AlphaFold 1は、その当時のコンピュータビジョンに使用されていたような標準的な既製の深層ニューラルネットワークでした。
研究者たちはタンパク質データバンクから大量のタンパク質構造で訓練を行いました。入力として、AlphaFoldはタンパク質のアミノ酸配列と進化によって与えられた重要な手がかりのセットを取りました。進化は突然変異によって駆動され、遺伝子コードの変化が、次にはタンパク質配列内のアミノ酸を変化させます。
しかし種が進化する中で、タンパク質は特定の機能を実行できる形状を保持する必要があります。例えば、ヘモグロビンはヒト、ネコ、ウマ、そして基本的にどの哺乳類でも同じ形をしています。進化は「壊れていないなら、修理するな」と言います。そのため、この進化の表で異なる種間の同じタンパク質の配列を比較することができます。
配列が似ている場所は、タンパク質の構造と機能において重要である可能性が高いです。しかし、配列が異なる場所でも、変異が対で起こる場所を見ることは役立ちます。なぜなら、それらは最終構造でどのアミノ酸が互いに近いかを特定できるからです。例えば、2つのアミノ酸、正に帯電したリシンと負に帯電したグルタミン酸が引き合い、折りたたまれたタンパク質において互いを保持しているとします。
今、もし突然変異によってリシンが負に帯電したアミノ酸に変化すると、グルタミン酸を反発してタンパク質全体を不安定にしてしまいます。そのため、もう1つの突然変異がグルタミン酸を正に帯電したアミノ酸に置き換える必要があります。これは共進化として知られています。これらの進化の表はAlphaFoldの重要な入力でした。
出力として、直接3D構造を生成する代わりに、AlphaFoldはその構造のより単純な2Dのペア表現を予測しました。アミノ酸配列は水平および垂直に配置されます。2つのアミノ酸が最終構造で互いに近い位置にある場合、それらに対応する行と列の交点が明るくなります。
遠く離れたアミノ酸ペアは暗くなります。距離に加えて、ペア表現は構造内でのアミノ酸分子のねじれに関する情報も保持することができます。AlphaFold 1は、タンパク質配列とその進化の表を深層ニューラルネットワークに供給し、それはペア表現を予測するように訓練されていました。
これを得た後、別のアルゴリズムが距離とねじれの制約に基づいてアミノ酸の配列を折りたたみました。そしてこれが最終的なタンパク質構造予測でした。このフレームワークで、AlphaFoldはCASP 13に参加し、すぐに注目を集めました。多くの追加の後、それは明らかな勝者でしたが、完璧ではありませんでした。
70点のスコアは、CASPの閾値である90点を超えるには十分ではありませんでした。DeepMindはより良い結果を得るために、原点に立ち返る必要がありました。そこでハサビスはジョン・ジャンパーをAlphaFoldのリーダーとして採用しました。AlphaFold 2は、本当に私たちのディープラーニングを設計することに関するシステムでした。個々のブロックがタンパク質について学習することに長け、必要な幾何学的、物理的、進化的な概念を持ち、それをネットワークの中心に置くのであって、その周りのプロセスではありませんでした。
そしてそれは途方もない精度の向上をもたらしました。AIでより良い結果を得るには3つの重要なステップがありました。まず、最大の計算能力です。ここでDeepMindは世界中で最も優れた位置にいました。テンソル処理ユニットを含むGoogleの巨大な計算能力にアクセスできていました。
次に、大規模で多様なデータセットが必要でした。データが最大の障壁なのでしょうか、そしてなぜですか?データが障壁だと言うのは簡単すぎるので、慎重になるべきです。AlphaFold 2は、はるかに優れた機械学習でAlphaFold 1と全く同じデータで訓練されました。より良い機械学習によってデータの障壁は厳しくなくなるため、誰もがデータの障壁を過大評価しています。
そして3つ目の重要な要素は、より良いAIアルゴリズムでした。現在、AIはタンパク質の折りたたみだけでなく、メールを書くことから電話に応答することまで、誰も好まないあらゆる種類のタスクをこなすことができます。私が嫌いなのはウェブサイトの構築と維持です。異なるプラットフォーム用にウェブサイトを最適化すること、プロフェッショナルに見えるように良いデザインを見つけること、ビジネスが成長するにつれて新しい情報で常に更新することなど、非常に多くの作業があります。
そのため、私たちは今日のビデオのスポンサーであるHostingerと提携しました。Hostingerは、あなた自身やビジネスのためのウェブサイトを構築することを超簡単にします。そして彼らの高度なAIツールを使えば、ウェブサイトをどのように見せたいかを単に説明するだけで、数秒であなたのパーソナライズされたウェブサイトが立ち上がって稼働します。
Hostingerは初心者でもプロフェッショナルでも可能な限り簡単に使えるように設計されています。そのため、その後に必要な調整も超簡単です。好きな写真や動画を好きな場所にドラッグ&ドロップするだけです。または、言いたいことを入力するだけです。もし文章を書くのも得意でないなら、ここでもAIに手伝ってもらえます。
そしてもし人間的なタッチが必要な場合でも、Hostingerは24時間365日のサポートで、何か問題が発生した場合にいつでも利用できます。しかし、数回のクリックで構築が完了すると、あなたのウェブサイトは公開されます。ドメインとビジネスメールが無料で含まれており、非常に手頃な価格です。そこで、今日あなたの大きなアイデアをオンラインにするには、hostinger.com/veにアクセスするか、ここにあるQRコードをスキャンしてください。
そして登録する際は、チェックアウト時にコードVEを使用することを忘れないでください。プランが10%オフになります。このビデオのこの部分をスポンサーしてくれたHostingerに感謝したいと思います。さて、タンパク質の折りたたみに話を戻しましょう。AlphaFold 2チームがより良いアルゴリズムを探す中で、彼らはトランスフォーマーに注目しました。それはChatGPTのTです。そしてそれはアテンションと呼ばれる概念に依存しています。
「動物は疲れすぎていたので道路を渡らなかった」という文章で、アテンションは「それ」が「動物」を指し、「道路」ではないことを「疲れていた」という言葉に基づいて認識します。アテンションは、あらゆる種類の順序付けられた情報に文脈を追加します。それをチャンクに分解し、これらを数値表現つまり埋め込みに変換し、それらの間の接続を作ることによってです。
この場合、「それ」という言葉と「動物」です。3Blue1Brownはトランスフォーマーとアテンションについて素晴らしい一連のビデオを持っています。大規模言語モデルはアテンションを使用して文に追加する最も適切な単語を予測しますが、AlphaFoldも順序付けられた情報を持っています。文章ではなく、アミノ酸配列です。
そしてこれらを分析するために、AlphaFoldチームはEVOフォーマーと呼ばれる独自のトランスフォーマーを構築しました。EVOフォーマーは2つのタワーを含んでいました。生物学タワーの進化情報と、幾何学タワーのペア表現です。1つのタワーから始まり、もう1つを予測するAlphaFold 1の深層ニューラルネットワークはなくなりました。
代わりに、AlphaFold 2のEVOフォーマーは各タワーを個別に構築します。いくつかの初期推測から始まり、以前と同様に既知のデータセットから取得した進化の表と、既知の類似タンパク質に基づくペア表現です。そして今回は、2つのタワーを結ぶ橋があり、新しく見つかった生物学的および幾何学的な手がかりを行き来させます。
生物学タワーでは、列に適用されるアテンションが保存されたアミノ酸配列を特定します。一方、行に沿って、一緒に起こったアミノ酸の突然変異を見つけます。EVOフォーマーが進化の表で密接に関連する2つのアミノ酸を見つけるたびに、それらが構造にとって重要であることを意味し、この情報を幾何学タワーに送ります。
ここでアテンションが適用され、アミノ酸間の距離の計算を助けます。また、三角形のアテンションと呼ばれるものも導入されました。これは基本的に三つ組が互いに注意を向け合うことについてです。各アミノ酸の三つ組に対して、AlphaFoldは三角不等式を適用します。2辺の和は第3辺より大きくなければなりません。
これによって、これら3つのアミノ酸がどれだけ離れることができるかが制限されます。この情報はペア表現の更新に使用されます。そしてそれはモデルが構造の自己一貫した像を生成するのを助けます。幾何学タワーが2つのアミノ酸が互いに近くにいることが不可能だと判断した場合、最初のタワーに進化の表でそれらの関係を無視するように伝えます。
EVOフォーマー内でのこの情報交換は、両方のタワー内の情報が精錬されるまで48回続きます。このネットワークによって学習された幾何学的特徴は、AlphaFold 2の2番目の主要なイノベーションである構造モジュールに渡されます。各アミノ酸について、そのアミノ酸の3つの特別な原子を選び、それらがフレームを定義すると言います。
そしてネットワークが行うのは、全てのアミノ酸が原点から始まると想像し、これらのフレームを実際の構造に存在する場所に移動させるための適切な並進と回転を予測することです。それが基本的に構造モジュールが行うことです。しかし、構造モジュールを際立たせているのは、それが行わないことです。
以前は、これが鎖であるという事実をエンコードしたいと人々は想像したかもしれません。そして、特定の残基が互いに隣り合っているべきだと。私たちは実際にはAlphaFoldにそれを明示的に伝えていません。それはより、アミノ酸の袋を与え、それぞれを個別に配置することを許可されているようなものです。
そして一部の人々は、それが物事がどこに配置されるべきかについて行き詰まらないのに役立つと考えました。これらの物事が鎖を形成するという制約について常に考える必要がないのです。それは後で自然に現れてくる何かです。そのため、ライブのAlphaFold折りたたみビデオでは、物理的に奇妙なことをしているように見えることがあります。
構造モジュールは3Dタンパク質を出力しますが、まだ準備ができていません。タンパク質のより深い理解を得るために、少なくともさらに3回EVOフォーマーを通してリサイクルされます。そしてその後にのみ、最終的な予測が行われます。2020年12月、DeepMindはAlphaFold 2を携えてバーチャルCASPに戻り、今回は成功しました。
ジョン・モールトからのメールを読みます。「あなたのグループはCASP 14で、他のグループとの相対的な面でも、モデルの絶対的な精度の面でも、驚くほど良い成績を収めました。この仕事に congratulations。」多くのタンパク質について、AlphaFold 2の予測は実際の構造とほとんど区別がつかず、ついに90点という金標準スコアを超えました。
私にとって、この問題に長く取り組んできた後、多くの停滞と再開を経て、突然これが解決策となったことは…私たちは問題を解決したのです。これは科学の働き方について大きな興奮を与えてくれます。60年以上にわたり、世界中のすべての科学者が慎重にタンパク質に取り組み、約15万個のタンパク質構造を発見しました。
そして一気に、AlphaFoldが登場し、2億個以上の構造を明らかにしました。自然界に存在することが知られているほぼすべてのタンパク質です。わずか数ヶ月で、AlphaFoldは世界中の研究室の仕事を数十年前進させました。それはマラリアのワクチン開発を直接助けました。多くの命を救う薬を再び効果的にする、抗生物質耐性酵素の分解を可能にしました。
統合失調症からがんまで、様々な病気につながるタンパク質の突然変異を理解するのにも役立ちました。そして、あまり知られていない絶滅危惧種を研究する生物学者たちは、突然タンパク質とその生命メカニズムにアクセスできるようになりました。AlphaFold 2の論文は30,000回以上引用されています。それは本当に生命の理解において飛躍的な進歩を遂げました。
ジョン・ジャンパーとデミス・ハサビスは、このブレークスルーにより2024年のノーベル化学賞の半分を受賞しました。もう半分はデビッド・ベーカーでしたが、Rosettaを使用した構造予測によるものではありませんでした。代わりに、それは完全に新しいタンパク質を一から設計したことによるものでした。全く新しいタンパク質を作って何かをさせることは本当に難しかったのです。
そしてそれが私たちが解決した問題です。そうするために、彼はDall-Eのようなプログラムでアートを作る同じ種類の生成AIを使用します。カンガルーがウサギに乗っている絵を描いてと言えば、それをやってくれます。そして私たちがタンパク質で行ったのもまさにそれです。彼の「RF Diffusion」と呼ばれる技術は、既知のタンパク質構造にランダムなノイズを追加し、そしてAIがこのノイズを除去しなければならないように訓練されます。
このように訓練されると、AIは様々な機能のためのタンパク質を作るよう求められます。ランダムなノイズ入力が与えられ、AIはあなたが求めたことを行う全く新しいタンパク質を考え出します。この仕事は大きな意味を持っています。例えば、毒蛇に噛まれたとしましょう。運が良ければ、まさにその種類の蛇から毒を搾り取って作られた抗毒素にアクセスでき、それが生きた動物に注射され、その動物からの抗体が抽出され精製されて、抗毒素として与えられます。
問題は、しばしば人々が他の生物からのこれらの抗体にアレルギー反応を起こすことです。しかし、ベーカーの研究室で設計された最新の合成タンパク質を使えば、生存の可能性は格段に高くなります。彼らは致命的な蛇毒を無力化できる人間に適合した抗体を作り出しました。この抗毒素は大量に製造でき、必要な場所に簡単に輸送することができます。
これらの小さな分子機械で、可能性は無限です。あなたが最も期待しているアプリケーションは何ですか?ワクチンが本当に強力になると思います。がんに対する多くのタンパク質が人間の臨床試験中で、今は自己免疫疾患に取り組んでいます。温室効果ガスの捕捉のような問題にも本当に興奮しています。
そこでメタンを固定し、プラスチックを分解する酵素を設計しています。このアプローチを非常に効果的にしているのは、タンパク質を作って反復する速さです。従来の学校の生化学者やタンパク質科学者にとって、これは本当に奇跡的です。今では設計をコンピュータ上で行い、設計タンパク質のアミノ酸配列を取得し、わずか数日でタンパク質を取り出すことができます。
そうです。私たちはこれを「カウボーイ生化学」と呼んでいます。なぜなら、できるだけ速く進めばいいだけで、それがかなりうまくいくことが分かったからです。AIがタンパク質に対して行ったことは、他の分野でより大きな規模で行えることのほんの一端に過ぎません。例えば、材料科学では、DeepMindのGNoMEプログラムが220万個の新しい結晶を発見し、その中には超伝導体からバッテリーまで、将来の技術を支える可能性のある40万個以上の安定した材料が含まれています。
AIは、人類の進歩を妨げてきた根本的な問題のいくつかを解決することで、科学に変革的な飛躍をもたらしています。知識の木全体を考えると、あなたは知っています。ある問題では、それらが根本的な問題だと分かっています。それらを解き明かし、解決策を発見すれば、発見の全く新しい分野や道が開かれるでしょう。
そしてこれにより、AIは人類の知識の境界を、これまでに見たことのないペースで押し広げています。2倍のスピードアップは素晴らしく、素晴らしいものです。私たちはそれを愛しています。10万倍のスピードアップは、あなたが行うことを変えます。
あなたは根本的に異なることを行い、簡単になったことを中心に科学を再構築し始めます。そしてそれが私が興奮していることです。これらの発見は、科学における本当の段階的な変化を表しています。たとえAIが今日の水準以上に進歩しなくても、私たちはこれらのブレークスルーの恩恵を数十年にわたって享受することになるでしょう。
そしてAIが発展を続けると仮定すると、それは以前は不可能だと考えられていた機会を開くでしょう。それが全ての病気を治すこと、新しい材料を作ること、または環境を pristine な状態に戻すことであれ。これは素晴らしい未来のように聞こえます。もちろん、AIが支配して私たちを全滅させないことを前提にですが。
コメント