ALiBi 分类: 网络架构ALiBi (Attention with Linear Biases) 定义 一种位置编码方法,不使用可学习的位置嵌入,而是直接在注意力分数上加线性距离偏置,使远距离 token 之间的注意力自然衰减 数学形式 Attention(Q,K)=softmax(QKTd−m⋅∣i−j∣)\text{Attention}(Q, K) = \text{softmax}\left(\frac{QK^T}{\sqrt{d}} - m \cdot |i - j|\right)Attention(Q,K)=softmax(dQKT−m⋅∣i−j∣) 其中 mmm 是每个头的固定斜率,∣i−j∣|i-j|∣i−j∣ 是 token 间距离 核心要点 不需要学习位置嵌入参数,零额外参数开销 天然支持外推到训练时未见的序列长度 在 NLP 中已被 RoPE 大幅取代,但在视觉领域(ViT)可能有独特优势 线性衰减提供了”局部性”归纳偏置 代表工作 ALiBi: Press et al. 2022, Train Short Test Long 相关概念 RoPE ViT DINOv2