月影

日々の雑感

Self-Attentionとは?ChatGPTを支えるTransformerの仕組み【入門編】

 

ブログ連載:AIの「文脈を読む力」の秘密 - Attention機構 完全解説

【第2部】TransformerとAttention:ChatGPTを誕生させた革命的技術

【入門編】ChatGPTの心臓部!Transformerの「Self-Attention」を完全解説

今やAIの代名詞ともいえるChatGPT。その驚異的な文章能力を支えているのが「Transformer(トランスフォーマー)」という技術です。そして、そのTransformerの心臓部こそが「Self-Attention(自己注意機構)」

これまでの記事では、翻訳AIが原文(エンコーダ)と訳文(デコーダ)という2つの情報を見比べる「交差注意(Cross-Attention)」について解説しました。しかし、ChatGPTのようなAIは、翻訳だけでなく、文章の生成や要約といった、より複雑なタスクをこなします。

これを可能にしたのが、文章を「内省」する力、すなわちSelf-Attentionです。この記事では、Self-Attentionがなぜそれほど革命的なのか、その核心的なアイデアを専門用語を使わずに解説します。


AIの「読み方」が変わった!"一気読み"という革命

以前のAI(RNN)は、人間が本を読むように、文章を単語の順番通りに一つずつ読んでいました。「私」「は」「昨日」…と順に読み進めるため、文が長くなると最初の方の内容を忘れてしまうのが弱点でした。

Transformerは、このやり方を根本から変えました。文章を一瞬で、丸ごと、一度に読み込むのです。

これにより、文頭の単語と文末の単語の関係性を、距離に関係なく直接結びつけることが可能になりました。例えば、以下の文章を見てください。

「その猫は、お腹が空いていた。だから、それはすぐにエサを食べた。」

私たち人間は、瞬時に「それ=その猫」だと理解できます。Self-Attentionは、AIにこの能力を与えました。文中のすべての単語同士の関係性を一括で計算し、「それ」と「猫」の間に強い関連性があることを見抜くのです。

このように、一つの文章の中で単語同士の関係性を見る、いわば「内省」の専門家。これがSelf-Attention(自己注意)の正体です。


Self-Attentionの秘密:「QKV」という3つの役割

では、どうやって無数の単語同士の関連性を計算しているのでしょうか?Self-Attentionは、各単語に3つの役割(Query, Key, Value)を与えて、単語同士でコミュニケーションさせます。

これを、大規模なネットワーキングパーティーに例えてみましょう。会場にはたくさんの単語たちがいます。

  1. Query (Q) - 「探したい相手の条件」

    ある単語が、自分と関係の深い単語を探すための「探しています!」というリクエストカードです。例えば、「それ」という単語は、「私(それ)が指している名詞はどなたですか?」というクエリを発信します。

  2. Key (K) - 「情報の見出し / 索引」

    他の単語に自分を探してもらうための、自己紹介用のキーワードタグです。例えば、「猫」という単語は「私は名詞です」「私は動物です」といったキーを持っています。

  3. Value (V) - 「情報の中身 / 本体」

    各単語が持っている、本来の「意味」そのものです。キーが「名詞です」なら、バリューは「猫」という具体的な意味情報を保持しています。

コミュニケーションの流れ

パーティー会場で、ある単語(例:「それ」)が自分のQueryカードを高く掲げます。(「私を指す名詞を探しています!」)

すると、会場にいる他のすべての単語が、一斉に自分のKey(キーワードタグ)を見せます。

「それ」は、すべてのキーワードを見て、自分の探したい条件とどれだけ一致するかを採点します。(「猫」のキーワードが一番一致度が高いぞ!)

そして「それ」は、採点結果(注目度)に応じて、各単語のValue(意味)を参考にします。一致度が高かった「猫」の情報を重点的に取り入れることで、「それ」は「猫」の意味を強く含んだ、文脈に即した新しい情報へと生まれ変わるのです。

このプロセスを、文中のすべての単語が、すべての単語に対して同時並行で行うことで、瞬時に文全体の複雑な関係性ネットワークが構築されるのです。


多角的な視点:Multi-Head Attention

さらに賢いことに、TransformerはこのQKVのコミュニケーションを、複数の異なる視点(ヘッド)で同時に行います。

例えるなら、一つの文章を分析するために、様々な専門家からなるドリームチームを招集するようなものです。

  • ヘッド①(文法学者): 「主語と動詞の関係」「どの単語がどの単語を修飾しているか」といった文法構造に注目します。
  • ヘッド②(文脈アナリスト): 「この "それ" は前の文の何を受けているか」「この段落の主題は何か」といった、文全体の意味の流れに注目します。
  • ヘッド③(類義語ソムリエ): 「"走った" という言葉は、ここでは "駆けた" と表現すべきか」といった、ニュアンスの違いに注目します。

これらの「専門家の目(ヘッド)」がそれぞれの分析結果を持ち寄り、最後にその知見を統合することで、AIは単一の視点では得られない、圧倒的にリッチで多角的な文脈理解を実現できるのです。