AnchorAttention
分类: 高效推理与部署
AnchorAttention
定义
一种长上下文稀疏注意力方法,选择锚点 token 作为全局注意力目标,其余 token 只关注局部窗口和锚点
核心要点
锚点 token(如 system prompt 首 token、特殊标记)对所有位置可见,充当全局信息中继
非锚点 token 仅计算局部窗口内的注意力 + 对锚点的注意力,大幅降低计算量
复杂度从 降低到 ,其中 为窗口大小, 为锚点数
适用于长序列推理场景,可与 FlashAttention 等高效实现结合
代表工作
AnchorAttention (2024): 提出锚点注意力机制加速长上下文 LLM 推理