CS224N / 学习笔记

ALiBi

分类: 网络架构

ALiBi (Attention with Linear Biases)

定义

一种位置编码方法，不使用可学习的位置嵌入，而是直接在注意力分数上加线性距离偏置，使远距离 token 之间的注意力自然衰减

数学形式

$\text{Attention}(Q, K) = \text{softmax}\left(\frac{QK^T}{\sqrt{d}} - m \cdot |i - j|\right)$
其中 $m$ 是每个头的固定斜率， $|i-j|$ 是 token 间距离

核心要点

不需要学习位置嵌入参数，零额外参数开销
天然支持外推到训练时未见的序列长度
在 NLP 中已被 RoPE 大幅取代，但在视觉领域（ViT）可能有独特优势
线性衰减提供了”局部性”归纳偏置

代表工作

ALiBi: Press et al. 2022, Train Short Test Long

相关概念