Token Merging
分类: 剪枝与稀疏化
Token Merging
定义
通过合并 Vision Transformer 中语义相似的 token(图像块)来减少序列长度,降低 Attention 计算量的加速方法;与 token pruning(直接删除)不同,merging 保留所有 token 的信息。
数学形式
基于二分图匹配(bipartite matching),将相似度最高的 token 对合并:
核心要点
不修改模型权重,即插即用(可在推理时动态应用)
压缩 token 数量(序列长度),而非模型参数量
与 MLP 剪枝(如 AMP)正交,可叠加使用
在 ViT 上线性扩展:每层合并 个 token,FLOPs 减少约
代表工作
Bolya et al. (2023): ToMe 原始论文,提出二分图匹配 token 合并策略
AMP (2026): 在 Related Work 中与 AMP 的 MLP 剪枝形成互补对比