MoBA

分类: 高效推理与部署

MoBA

定义

MoBA (Mixture of Block Attention) 是一种块级稀疏注意力方法,将 KV cache 分成固定大小的 block,每个 query 只与 top-k 最相关的 block 进行注意力计算。

核心要点

Block-level 粗粒度选择,效率高

用 block 均值/CLS 等代表性向量做块选择

比 token-level 方法(如 DSA)索引开销低

牺牲了细粒度选择能力

相关概念

DSA — token-level 的细粒度稀疏注意力

FlashAttention — exact attention 优化

sparse attention — 通用概念