AnchorAttention

分类: 高效推理与部署

AnchorAttention

定义

一种长上下文稀疏注意力方法,选择锚点 token 作为全局注意力目标,其余 token 只关注局部窗口和锚点

核心要点

锚点 token(如 system prompt 首 token、特殊标记)对所有位置可见,充当全局信息中继

非锚点 token 仅计算局部窗口内的注意力 + 对锚点的注意力,大幅降低计算量

复杂度从 O(n2)O(n^2) 降低到 O(n(w+k))O(n \cdot (w + k)),其中 ww 为窗口大小,kk 为锚点数

适用于长序列推理场景,可与 FlashAttention 等高效实现结合

代表工作

AnchorAttention (2024): 提出锚点注意力机制加速长上下文 LLM 推理

相关概念

FlashAttention

StreamingLLM