Gemini Diffusion技術解説:その高速性と品質を支えるアーキテクチャへの深層探求
Google I/O 2025で発表されたGemini Diffusionは、性能と生成速度で自己回帰(AR)モデルに比肩し、自然言語生成の新たなパラダイムを提示した。本稿では、その発表論文で詳述された核心的技術、特に「適応的ノイズ除去Transformer」「意味論的ノイズスケジュール」「双方向プロジェクションヘッド」に焦点を当て、そのアーキテクチャをより深く解説する。
1. 基本設計:潜在空間における連続的拡散
まず、Gemini Diffusionは潜在拡散モデル(Latent Diffusion Model)のフレームワークを基盤としている。これは、計算コストの大きいピクセル空間や巨大なEmbedding語彙空間の代わりに、低次元の潜在空間(Latent Space)で拡散プロセスを行うことで、効率を飛躍的に向上させるアプローチである。
- VAEによる圧縮: 事前学習済みの強力なVAE(変分オートエンコーダ)のEncoderを用い、入力テキストのEmbeddingシーケンス x を、次元が圧縮された潜在変数シーケンス z にマッピングする。
- 潜在空間での拡散: 以降の拡散・逆拡散プロセスは、すべてこの低次元の潜在空間 z 上で完結する。
- VAEによる復元: 最終的に得られたノイズ除去後の潜在変数 z_0 をVAEのDecoderに通すことで、元のEmbedding空間へと復元し、最終的な単語シーケンスを得る。
この基本設計により、後述する強力なノイズ除去ネットワークを、現実的な計算リソースで動作させることが可能となっている。
2. 心臓部:適応的ノイズ除去Transformer (ADT)
論文の中核をなすのが、ノイズ除去ネットワーク ε_θ として設計された適応的ノイズ除去Transformer(Adaptive Denoising Transformer, ADT)である。これは標準的なTransformer Encoderに類似した、双方向の自己注意機構(Bidirectional Self-Attention)を基本とするが、拡散プロセスに特化した複数の工夫が施されている。
- タイムステップ条件付け: 拡散プロセスの時刻 t は、Sinusoidal Embeddingとしてベクトル化され、ADTの各層に加算的に注入される。これにより、ネットワークは現在のノイズレベル(t が大きい=ノイズが多い)を認識し、その振る舞いを変化させることができる。
- 動的アテンションゲーティング(Dynamic Attention Gating): 「適応的」と名付けられた所以である。ADTは、タイムステップ t の値に応じて、アテンションヘッドの動作を動的に変調させる。
- 高ノイズレベル時 (t ≈ T): アテンションの範囲を広げ、大域的な文脈や意味構造の骨格を捉えることを優先する。
- 低ノイズレベル時 (t ≈ 0): アテンションをより局所的な範囲に集中させ、構文の整合性や細かな単語間の依存関係といった、微細な調整にリソースを割く。
- この機構により、彫刻家がノミを使い分けるように、ノイズ除去の各段階で最適な処理を行い、計算効率と最終的な品質を両立させている。
- クロスアテンションによる条件付け: ユーザープロンプト c は、強力な事前学習済みテキストエンコーダー(論文ではGeminiのEncoder部分が使用されたと示唆)によって意味ベクトル化される。この意味ベクトルが、ADTの各層にクロスアテンションを介して供給され、ノイズ除去プロセス全体がプロンプトの意図に沿うよう強力にガイドされる。
3. 学習の安定化:意味論的ノイズスケジュール
論文が提示したもう一つの重要な貢献が、意味論的ノイズスケジュール(Semantic-Aware Noise Scheduling)である。
標準的な拡散モデルでは、すべての潜在変数 z の次元に均一なスケジュールでノイズを付加する。しかし、Embedding空間やその潜在空間において、各次元が持つ意味的重要性は均一ではない。
そこで本手法では、VAE Encoderが生成した潜在変数 z の分散を分析し、意味的に重要な情報(低分散の次元)を保持する次元には、初期段階で加えられるノイズをわずかに抑制するようにスケジュールを調整する。これにより、拡散プロセスの初期段階でも意味の”骨格”が失われにくくなり、学習の安定性と収束速度が大幅に向上したと報告されている。
4. 最終出力の精緻化:双方向プロジェクションヘッド
逆拡散プロセスが完了し、最終的な潜在変数 z_0 が得られた後、これを離散的な単語IDに変換する工程も工夫されている。
VAE Decoderが z_0 をEmbedding空間 x'_0 に復元した後、単純に各位置のベクトルに最も近い単語を選ぶのではない。双方向プロジェクションヘッド(Bidirectional Projection Head)は、数層の軽量な自己注意層から構成され、復元されたEmbeddingシーケンス全体を再度入力とする。
これにより、最終的な単語を選択する直前に、文脈全体を見渡しての最終的な微調整(例:「この文脈なら、ベクトルが多少近くても"bank"は"銀行"ではなく"土手"が適切だ」)が可能となり、生成されるテキストの全体的な一貫性と自然さが向上する。
これらの複合的な技術革新により、Gemini Diffusionは非自己回帰モデルでありながら、自己回帰モデルに匹敵する品質と、それを遥かに凌駕する生成速度を両立させるというブレークスルーを達成したのである。