Grouped Query Attention(GQA) とは何ですか?

GQA は、複数の Query ヘッドが Key・Value ヘッドのグループを共有する Attention 変種です。MHA の品質と MQA のメモリ効率の中間を取り、Llama 2 以降の主要 LLM の標準となりました。

Grouped Query Attention(GQA) (GQA) とは — 意味・実装・関連用語 | AIマーケティング用語集

詳細解説

GQA(Grouped Query Attention、グループドクエリアテンション)は、Ainslie ら(Google Research)が2023年5月に発表した Multi-Head Attention の変種で、Multi-Head Attention(MHA: 各ヘッドが独立した K・V を持つ)と Multi-Query Attention(MQA: 全ヘッドが K・V を共有)の中間に位置する設計です。例えば Query ヘッドが32個ある場合、GQA-8(group 8)では32 Query を8グループに分け、各グループ内の4つの Query ヘッドが1つの K・V ヘッドを共有します。これにより、(1) KV キャッシュサイズが MHA の H_kv/H_q 倍(GQA-8 なら8分の1)に圧縮され推論時メモリと帯域が大幅削減、(2) MQA で発生しがちな品質低下を抑えて MHA とほぼ同等のスコアを維持、という両立を実現しました。Ainslie らの実験では、既存 MHA モデルから5%の追加学習(uptraining)で MQA・GQA に変換可能なことも示されました。Llama 2 70B(group 8、Q=64・KV=8)、Llama 3 全サイズ、Mistral・Mixtral、Qwen 2、DeepSeek V2/V3、Gemma などほぼ全ての2023年後半以降の主要 LLM が GQA を採用しており、長コンテキスト推論サービングの実現可能性を支える重要技術となっています。Flash Attention 2/3、PagedAttention(vLLM)、TensorRT-LLM など主要推論エンジンが GQA 専用カーネルで最適化対応します。

実装例 / 使い方

01Llama 2 70B は64 Query に対し8 KV ヘッドのグループ8 GQA を採用します
02KV キャッシュメモリを MHA 比で約8分の1に削減できます
03Llama 3、Mistral、Qwen 2、DeepSeek など主要新規モデルがほぼ全て採用しています

参考・出典

Grouped Query Attention(GQA)を、実際に活用する

用語の意味は分かった。次は実装。EXBANK の無料診断で、貴社で具体的にどう活用できるかをご提案します。

細マッチョ企業診断 (3分・無料)個別に相談する

営業時間平日10-18時 / 通常24時間以内に返信

Grouped Query Attention(GQA)GQA

詳細解説

実装例 / 使い方

参考・出典

関連する用語

Multi-Head Attention(マルチヘッド注意)

Multi-Query Attention(MQA)

KV Cache(KVキャッシュ)

Self-Attention(自己注意機構)

Flash Attention(高速アテンション)

Grouped Query Attention(GQA)を、実際に活用する