メインコンテンツへスキップ
EXBANK
Draft / 編集レビュー前この用語はAI補助で初稿生成中です。事実確認・編集監修が完了するまで検索エンジンには公開されません。誤りを見つけたらこちらから連絡してください。
用語集一覧へ
— Glossary

ALiBi(線形バイアス位置符号化)ALiBi

読み: アリバイ
TL;DR — 短い定義

ALiBi(Attention with Linear Biases)は、位置埋め込みを使わずアテンションスコアに距離に比例したバイアスを加算する手法です。学習時の長さを超える系列にも外挿でき、計算コストもほぼゼロです。

詳細解説

ALiBi(Attention with Linear Biases、アテンション・ウィズ・リニア・バイアシス、通称アリバイ)は、Press らが2021年に提案した位置符号化代替手法で、入力埋め込みに位置情報を加算せず、Self-Attention のスコア行列に2トークン間の距離 |i-j| に比例した負のバイアスを直接加算します。各ヘッドには固有の「傾き(slope)」が幾何級数的に割り当てられ(例: 1/2, 1/4, 1/8...)、近いトークンほどペナルティが小さく、遠いトークンほどスコアが下がる構造になります。最大の利点は学習時の長さを超える系列への外挿性で、2048トークンで学習したモデルが16384トークンの推論でも性能を維持することが報告されています。実装が極めて単純(行列1つの加算)で計算オーバーヘッドはほぼ無視でき、Flash Attention とも統合しやすい点も評価されています。MPT(MosaicML の事前学習基盤モデル)、BLOOM(BigScience の176B 多言語モデル)、Falcon の一部派生モデルが採用しています。一方、近年の主要モデル(Llama・Mistral・Gemini など)は RoPE を採用する流れにあり、ALiBi は長文推論最適化が重要なユースケースで使われ続けています。

実装例 / 使い方

  • 01MPT(MosaicML)・BLOOM が ALiBi を採用しています
  • 022K トークンで訓練したモデルで16K トークンの推論が安定します
  • 03ヘッドごとに異なる傾き(slope)を設定し多様な距離感度を得ます
IMPLEMENT

ALiBi(線形バイアス位置符号化)を、実際に活用する

用語の意味は分かった。次は実装。EXBANK の無料診断で、貴社で具体的にどう活用できるかをご提案します。

営業時間 平日10-18時 / 通常24時間以内に返信