Token Merging

分类: 剪枝与稀疏化

Token Merging

定义

通过合并 Vision Transformer 中语义相似的 token(图像块)来减少序列长度,降低 Attention 计算量的加速方法;与 token pruning(直接删除)不同,merging 保留所有 token 的信息。

数学形式

基于二分图匹配(bipartite matching),将相似度最高的 token 对合并:

rmerged=ra+rb2r_{\rm merged} = \frac{r_a + r_b}{2}

核心要点

不修改模型权重,即插即用(可在推理时动态应用)

压缩 token 数量(序列长度),而非模型参数量

与 MLP 剪枝(如 AMP)正交,可叠加使用

在 ViT 上线性扩展:每层合并 rr 个 token,FLOPs 减少约 2r/N2r/N

代表工作

Bolya et al. (2023): ToMe 原始论文,提出二分图匹配 token 合并策略

AMP (2026): 在 Related Work 中与 AMP 的 MLP 剪枝形成互补对比

相关概念

MLP 模块

Taylor pruning