メインコンテンツへスキップ
EXBANK
Draft / 編集レビュー前この用語はAI補助で初稿生成中です。事実確認・編集監修が完了するまで検索エンジンには公開されません。誤りを見つけたらこちらから連絡してください。
用語集一覧へ
— Glossary

Flash Attention 3FA3

読み: フラッシュアテンション スリー
TL;DR — 短い定義

Flash Attention 3 は2024年7月に発表された H100 GPU に最適化された改良版です。ワープ特殊化と非同期 TMA、FP8 サポートにより H100 で最大1.5-2倍、740 TFLOPS の性能を達成します。

詳細解説

Flash Attention 3(フラッシュアテンション スリー、FA3)は、Jay Shah・Tri Dao らが2024年7月に発表した NVIDIA Hopper アーキテクチャ(H100)向けに特化した改良版で、Hopper で導入された3つのハードウェア機能を最大限活用しています。第1に、Warp Specialization により Producer ワープ(データロード)と Consumer ワープ(計算)を分離し、TMA(Tensor Memory Accelerator)による非同期メモリ転送と Tensor Core 演算をオーバーラップさせます。第2に、Pingpong Scheduling で2つのワープグループが行列積と softmax を交互に実行することで Tensor Core を埋め続けます。第3に、FP8(8ビット浮動小数点)精度サポートを追加し、ブロックレベルのスケーリングで精度低下を抑えながら H100 の FP8 ピーク性能を活用します。これらの改良により、H100 SXM5 で BF16 では約740 TFLOPS(FA2 比1.5-2倍)、FP8 では約1.2 PFLOPS という驚異的なスループットを達成し、理論性能の75%超を引き出します。Llama 3.1 405B の128Kコンテキスト学習や、超長文推論サービングのレイテンシ削減で実用化が進んでおり、PyTorch 2.5 以降や Hugging Face Transformers の最新版で順次サポートされています。

実装例 / 使い方

  • 01H100 SXM5 で FA2 比1.5-2倍、FP8 で1.2 PFLOPS 級の性能を出します
  • 02Llama 3.1 の長コンテキスト学習で活用されています
  • 03NVIDIA Hopper の Tensor Memory Accelerator(TMA)を活用します
IMPLEMENT

Flash Attention 3を、実際に活用する

用語の意味は分かった。次は実装。EXBANK の無料診断で、貴社で具体的にどう活用できるかをご提案します。

営業時間 平日10-18時 / 通常24時間以内に返信