【技術解説】AlphaFold3の仕組み：Transformerと拡散モデルのアーキテクチャを徹底解剖

AlphaFold3のアーキテクチャは、AlphaFold2の優れた点を継承しつつ、生成AI（拡散モデル）を導入することで、その能力を飛躍的に向上させたものです。CNNは使用せず、中核をなすのはTransformerベースのモデルです。

その構造と処理の流れを、インプットからアウトプットまで詳しく解説します。

AlphaFold3は、大きく分けて3つの主要なコンポーネントで構成されています。

この3つのユニットが連携し、分子の配列情報という一次元のテキストデータから、三次元の立体構造を生成します。

AlphaFold3は、予測したい分子の情報をテキスト形式で受け取ります。これがAIへの最初の「指示書」となります。

主なインプット:
- タンパク質: アミノ酸配列 (例: MDSKGSSQKGSRLL...)
- DNA/RNA: 塩基配列 (例: GATTACA...)
- 低分子リガンド（薬など）: SMILES形式という化学構造の文字列表現 (例: CC(=O)Oc1ccccc1C(=O)O アスピリン)
- イオン: 金属イオンの種類 (例: Zn 亜鉛イオン)
- その他: 糖鎖修飾や非標準アミノ酸などの情報

これらの多様な分子の「レシピ」は、そのままではAIが扱えません。そこで、まずこれらの情報をトークンという共通の単位に変換し、それぞれがどのような分子であるかを示すIDと共にベクトル化（埋め込み）します。これにより、異なる種類の分子を同じ土俵で扱えるようになります。

インプットされた分子情報は、次にPairformerと呼ばれるユニットに送られます。

正体はTransformer: Pairformerは、AlphaFold2で中心的な役割を果たしたEvoformerを簡略化・改良したもので、その実体はTransformerです。Transformerは、文章中の単語の関係性を読み解くのが得意なAIモデルで、近年の自然言語処理（ChatGPTなど）で広く使われています。
役割: AlphaFold3では、このTransformerの能力を応用し、入力された全原子（トークン）間の関係性を深く学習します。
- どの原子とどの原子が近くにありそうか？
- どの原子同士が化学結合しているか？
- このアミノ酸は、DNAのどの部分と相互作用しそうか？

このように、Pairformerは一次元の配列情報から、原子間のペア（Pair）に関する豊富な情報を抽出し、二次元の「関係性の地図」のようなもの（ペア表現）を作り出します。AlphaFold2と違い、MSA（多重配列アライメント）への依存度を大幅に下げ、計算を効率化しているのが特徴です。

Pairformerが作成した「関係性の地図」は、いよいよ最後のユニットである拡散モデルに渡されます。ここがAlphaFold3の最も革新的で強力な部分です。

拡散モデルへの入力: Pairformerが出力したペア表現（原子間の関係性情報）が、拡散モデルへの「条件付け」として使われます。これは「こういう関係性になるように構造を作ってください」というAIへの詳細な指示書のようなものです。
生成プロセス:
1. ノイズから開始: まず、三次元空間に原子をランダムに配置した「原子の雲」（ノイズ）からスタートします。
2. 段階的にノイズ除去: 次に、拡散モデルがTransformerのアーキテクチャを使い、Pairformerからの指示書（条件付け）をヒントに、この原子の雲から少しずつノイズを取り除き、原子を正しい位置へと段階的に配置し直していきます。
3. 構造の完成: この「ノイズ除去」のステップを何度も繰り返すことで、ランダムな原子の雲は徐々に形を成し、最終的に物理的・化学的に最も確からしい、精密な全原子の三次元座標として出力されます。

この拡散モデルという生成AIのアプローチにより、AlphaFold2では難しかった、多種多様な分子が混在する複雑な複合体の構造を、一つの統一されたフレームワークで高精度に生成することが可能になったのです。CNN（畳み込みニューラルネットワーク）は、この主要なプロセスでは使用されていません。

もっと深く知りたい方は、以下の論文の紹介記事をご覧ください。

月影