Token Merging

分类: 剪枝与稀疏化

定义

通过合并 Vision Transformer 中语义相似的 token（图像块）来减少序列长度，降低 Attention 计算量的加速方法；与 token pruning（直接删除）不同，merging 保留所有 token 的信息。

基于二分图匹配（bipartite matching），将相似度最高的 token 对合并：

r_{\rm merged} = \frac{r_a + r_b}{2}

不修改模型权重，即插即用（可在推理时动态应用）

压缩 token 数量（序列长度），而非模型参数量

与 MLP 剪枝（如 AMP）正交，可叠加使用

在 ViT 上线性扩展：每层合并 $r$ 个 token，FLOPs 减少约 $2r/N$

Bolya et al. (2023): ToMe 原始论文，提出二分图匹配 token 合并策略

AMP (2026): 在 Related Work 中与 AMP 的 MLP 剪枝形成互补对比