月影

日々の雑感

AlphaFold 3が拓く構造生物学の新次元:リガンドから核酸までを内包する統一的構造予測フレームワーク

2024年5月にNature誌で発表されたGoogle DeepMindの「AlphaFold 3」は、構造生物学および計算生物学の分野に新たなパラダイムシフトをもたらす画期的な成果です。AlphaFold 2がタンパク質の単量体および多量体の構造予測に革命を起こしたことは記憶に新しいですが、AlphaFold 3はその適用範囲をタンパク質-リガンド、タンパク質-核酸、イオン、さらには翻訳後修飾を含む、ほぼ全ての生体分子間相互作用へと拡張しました。
本稿では、原論文(以下)に基づき、その技術的革新、特筆すべき性能、そして残された課題について専門的見地から深く掘り下げていきます。

www.nature.com

 

アーキテクチャの抜本的改革:MSA依存からの脱却と拡散モデルの採用

AlphaFold 3の驚異的な汎用性は、AlphaFol2のアーキテクチャからの大胆な変更によって実現されています。主要な変更点は「Pairformerへの移行」と「拡散モデルの導入」です。

EvoformerからPairformerへ:MSA依存性の低減


AlphaFold 2の心臓部であったEvoformerは、MSA(Multiple Sequence Alignment)情報をPair表現に組み込むことで進化情報を活用していました。しかしAlphaFold 3では、MSAの処理を大幅に簡略化し、EvoformerをよりシンプルなPairformerモジュールに置き換えています (Fig. 2a)。

MSA情報は初期の埋め込みに使われるのみで、48ブロックからなる主要な反復処理ではPair表現とSingle表現のみが更新されます。
これは、co-evolutionaryな情報が乏しい、あるいは存在しない非ペプチド分子(リガンド、イオンなど)や、MSA深度の浅いタンパク質を統一的に扱うための戦略的判断と考えられます。モデルが進化情報への依存を減らし、より物理化学的な相互作用のパターンを学習することへのシフトを示唆しています。


拡散モデルによる原子座標の直接生成
最も革新的な変更点は、Structure Moduleの刷新です。AlphaFold 2では、Ipa (Invariant Point Attention) を用いてアミノ酸残基ごとの局所座標系(フレーム)とねじれ角を予測していました。一方、AlphaFold 3ではこれを完全に廃し、拡散モデル(Diffusion Model)を用いて原子の3次元座標を直接生成します (Fig. 2b)。
このアプローチの利点は絶大です。


* 化学的多様性への対応: 非標準アミノ酸、リガンドの任意の化学構造、核酸の骨格と塩基といった多様な分子エンティティを、特別な処理(special casing)を必要とせず、統一的な原子の集合として扱えます。
* 立体化学的制約の緩和: 拡散過程のデノイジングタスクを通じて、モデルが暗黙的に結合長や結合角といった立体化学を学習するため、AlphaFold 2で必要だった複雑な立体化学違反ペナルティ(violation loss)が不要になりました。


一方で、この生成モデルはクロス蒸留(cross-distillation)という工夫を導入しています。これは、生成モデル特有のハルシネーション(幻覚)、すなわち非構造領域(IDR)に偽のもっともらしい構造を生成してしまう傾向を抑制するためです。具体的には、非構造領域をリボン状に伸長して表現する傾向があるAlphaFold-Multimerの予測結果を教師データに加えることで、AlphaFold 3にも同様の振る舞いを「学習」させています (Extended Data Fig. 1)。


ベンチマーキング性能:各分野のSOTAを凌駕する精度
AlphaFold 3の性能は、各種ベンチマークにおいて既存の専門的ツールを凌駕しています (Fig. 1c)。
* タンパク質-リガンド相互作用:
創薬分野で極めて重要なリガンド結合ポーズ予測において、PoseBustersベンチマークで評価されています。特筆すべきは、ブラインドドッキング条件下(結合ポケット情報なし)で、従来のドッキングソフト(例: Vina)や他の深層学習メソッド(例: RoseTTAFold All-Atom)の成功率(pocket-aligned ligand RMSD < 2 Å)を統計的に有意に上回った点です (P < 0.001)。これは、AlphaFold 3がリガンドの化学構造とタンパク質配列から、物理的に妥当な結合様式を第一原理的に学習していることを示唆します。


* タンパク質-核酸相互作用:
RoseTTAFold2NAとの比較において、タンパク質-DNAおよびタンパク質-RNA複合体のインターフェースLDDT (iLDDT) スコアで有意な改善を示しました。7,000残基を超えるリボソーム複合体のような巨大なアセンブリの予測にも成功しており (Fig. 3a)、そのスケーラビリティも注目に値します。


* 抗体-抗原相互作用:
AlphaFold-Multimer v2.3と比較して、特に困難なターゲットである抗体-抗原複合体の予測精度(DockQ > 0.23の割合)が大幅に向上しています。興味深いことに、この精度向上は多数のシード(最大1,000)からのサンプリングと再ランキングによって顕著になります (Fig. 5a)。これは、抗体CDRループなどの高可動性領域のコンフォメーション空間が広大であり、十分なサンプリングが成功の鍵であることを示唆しています。


* 翻訳後修飾 (PTMs) と糖鎖:
リン酸化(pSer, pThr, pTyr)やグリコシル化といった翻訳後修飾も明示的に扱うことができ、その構造を高精度に予測します。実際に、リン酸化を考慮して予測することで、非修飾として予測した場合に比べて骨格構造の精度が向上する例も報告されており (Extended Data Fig. 6)、PTMが構造に与える影響を捉える能力を示しています。


 技術的考察と残された課題(Limitations)
その驚異的な性能の一方で、AlphaFold 3には専門家が認識すべき重要な限界点が存在します。
* 立体化学の破綻 (Stereochemistry Violations):
拡散モデルの採用は柔軟性と引き換えに、キラリティーの保証を失いました。実際にPoseBustersベンチマークでは4.4%のキラリティーエラーが報告されています (Fig. 5b)。また、特に大規模なホモ多量体や核酸複合体において、原子レベルの衝突(clash)や鎖のオーバーラップが依然として発生し得ます (Fig. 5e)。これらはランキングスコアでペナルティを課すことで低減されていますが、完全な解決には至っていません。


* 動的構造とコンフォメーション変化:
AlphaFold 3が予測するのは、基本的にはPDBに代表されるようなエネルギー的に安定な単一の静的構造です。アポ体とホロ体で大きくコンフォメーションが変化するタンパク質(例: E3リガーゼCereblon, Fig. 5c)に対して、入力(リガンドの有無)に応じて異なるコンフォメーションを予測することはできず、片方の状態に収束する傾向があります。タンパク質の機能に不可欠なコンフォメーションのアンサンブルや動態を捉えることは、依然として大きな課題です。


* ハルシネーションと信頼性スコア:
クロス蒸留による改善はあれど、生成モデルとしての性質上、非構造領域におけるハルシネーションのリスクは残ります。予測構造の妥当性を判断するには、pLDDTやPAEといった信頼性スコア (Fig. 4) をこれまで以上に注意深く吟味する必要があります。特にpLDDTが低い領域は、その構造を文字通りに解釈すべきではありません。


 結論と今後の展望
AlphaFold 3は、異なる分子種間の相互作用を単一の深層学習フレームワーク下に統合するという、計算構造生物学における重要なマイルストーンを打ち立てました。Co-evolutionaryシグナルへの依存を減らし、より第一原理的な化学的・物理的相互作用の学習へと舵を切ったそのアーキテクチャは、今後の構造予測モデルの設計に大きな影響を与えるでしょう。
これにより、これまで分断されていたタンパク質構造予測、ドッキングシミュレーション、核酸モデリングといった分野が融合し、「in silicoでの細胞内分子ネットワークの構造再構成」という壮大な目標へ向けた大きな一歩を踏み出したと言えます。
今後の課題は、動的構造の予測、より大規模な超分子複合体へのスケーリング、そして予測の正確性向上です。 cryo-EM/ETなどの実験技術の発展と、AlphaFold 3のような計算手法の進歩が両輪となることで、我々の生命理解は新たなフロンティアへと進むことが期待されます。

 

参考文献

Abramson, J., Adler, J., Jumper, J.M. et al. Nature 630, 493–500 (2024)

関連記事

生命の設計図を「生成」するAI、AlphaFold3へようこそ - 月影

【技術解説】AlphaFold3の仕組み:Transformerと拡散モデルのアーキテクチャを徹底解剖 - 月影