DSA
分类: 高效推理与部署
DSA
定义
DSA (DeepSeek Sparse Attention) 是 DeepSeek 提出的 token-level 细粒度稀疏注意力机制,为每个 query token 动态选择最相关的 key token 进行注意力计算。
核心要点
Token-level 的动态 key 选择(vs block-level 的粗粒度选择)
通过 indexer 为每个 query 打分选择 top-k key
Indexer 本身的计算开销是主要瓶颈
HISA 提出分层索引方案加速 DSA 的 indexer
相关概念
FlashAttention — exact attention 的 IO 优化
sparse attention — 稀疏注意力的通用概念
MoBA — block-level 的稀疏注意力