ALiBi

分类: 网络架构

ALiBi (Attention with Linear Biases)

定义

  • 一种位置编码方法,不使用可学习的位置嵌入,而是直接在注意力分数上加线性距离偏置,使远距离 token 之间的注意力自然衰减

数学形式

  • Attention(Q,K)=softmax(QKTdmij)\text{Attention}(Q, K) = \text{softmax}\left(\frac{QK^T}{\sqrt{d}} - m \cdot |i - j|\right)
  • 其中 mm 是每个头的固定斜率,ij|i-j| 是 token 间距离

核心要点

  • 不需要学习位置嵌入参数,零额外参数开销
  • 天然支持外推到训练时未见的序列长度
  • 在 NLP 中已被 RoPE 大幅取代,但在视觉领域(ViT)可能有独特优势
  • 线性衰减提供了”局部性”归纳偏置

代表工作

  • ALiBi: Press et al. 2022, Train Short Test Long

相关概念