Visual Token Pruning
分类: 剪枝与稀疏化
Visual Token Pruning
定义
在视觉语言模型中减少输入到 LLM 的视觉 token 数量,以降低计算和内存开销
核心要点
视觉编码器(如 CLIP-ViT)输出大量 token(如 576-2880 个),而其中很多是冗余的
主要方法分为:
- 基于注意力: 利用 LLM 注意力分数筛选(FastV、PDrop),易受位置偏置影响
- 基于多样性: 最大化保留 token 的多样性(DivPrune),但任务无关
- 基于跨模态交互: 利用视觉-文本注意力(SCOPE),但不兼容 FlashAttention
- 基于子空间重建: 最大化信息覆盖(ResPrune)
Training-free 方法无需重训练模型,实用性更强
代表工作
ResPrune: 子空间重建 + 文本条件,SOTA
FastV: 基于 LLM 注意力的早期剪枝
ToMe: Token Merging,合并相似 token
DivPrune: 基于多样性的 token 选择
SCOPE: 基于跨模态注意力的方法