DSA

分类: 高效推理与部署

DSA

定义

DSA (DeepSeek Sparse Attention) 是 DeepSeek 提出的 token-level 细粒度稀疏注意力机制,为每个 query token 动态选择最相关的 key token 进行注意力计算。

核心要点

Token-level 的动态 key 选择(vs block-level 的粗粒度选择)

通过 indexer 为每个 query 打分选择 top-k key

Indexer 本身的计算开销是主要瓶颈

HISA 提出分层索引方案加速 DSA 的 indexer

相关概念

FlashAttention — exact attention 的 IO 优化

sparse attention — 稀疏注意力的通用概念

MoBA — block-level 的稀疏注意力