Visual Token Pruning

分类: 剪枝与稀疏化

定义

在视觉语言模型中减少输入到 LLM 的视觉 token 数量，以降低计算和内存开销

视觉编码器（如 CLIP-ViT）输出大量 token（如 576-2880 个），而其中很多是冗余的

主要方法分为：

Training-free 方法无需重训练模型，实用性更强

ResPrune: 子空间重建 + 文本条件，SOTA

FastV: 基于 LLM 注意力的早期剪枝

ToMe: Token Merging，合并相似 token

DivPrune: 基于多样性的 token 选择

SCOPE: 基于跨模态注意力的方法