Visual Token Pruning

分类: 剪枝与稀疏化

Visual Token Pruning

定义

在视觉语言模型中减少输入到 LLM 的视觉 token 数量,以降低计算和内存开销

核心要点

视觉编码器(如 CLIP-ViT)输出大量 token(如 576-2880 个),而其中很多是冗余的

主要方法分为:

  • 基于注意力: 利用 LLM 注意力分数筛选(FastV、PDrop),易受位置偏置影响
  • 基于多样性: 最大化保留 token 的多样性(DivPrune),但任务无关
  • 基于跨模态交互: 利用视觉-文本注意力(SCOPE),但不兼容 FlashAttention
  • 基于子空间重建: 最大化信息覆盖(ResPrune)

Training-free 方法无需重训练模型,实用性更强

代表工作

ResPrune: 子空间重建 + 文本条件,SOTA

FastV: 基于 LLM 注意力的早期剪枝

ToMe: Token Merging,合并相似 token

DivPrune: 基于多样性的 token 选择

SCOPE: 基于跨模态注意力的方法

相关概念

Token Merging

KV-Cache

FlashAttention

LVLM