MoBA
分类: 高效推理与部署
MoBA
定义
MoBA (Mixture of Block Attention) 是一种块级稀疏注意力方法,将 KV cache 分成固定大小的 block,每个 query 只与 top-k 最相关的 block 进行注意力计算。
核心要点
Block-level 粗粒度选择,效率高
用 block 均值/CLS 等代表性向量做块选择
比 token-level 方法(如 DSA)索引开销低
牺牲了细粒度选择能力
相关概念
DSA — token-level 的细粒度稀疏注意力
FlashAttention — exact attention 优化
sparse attention — 通用概念