FastV

分类: 剪枝与稀疏化

FastV

定义

FastV 是一种基于 attention score 的 training-free visual token pruning 方法,在 VLM 推理过程中根据注意力分数动态丢弃低重要性的 visual token,减少后续层的计算量

核心要点

在 VLM(如 LLaVA)的浅层计算完 attention 后,按 attention score 排序丢弃冗余 visual token

Training-free:不需要微调,直接在推理时应用

关键假设:浅层 attention 分布能可靠预测 token 对最终输出的贡献

典型压缩率 50%-75%,在视觉问答等任务上精度损失可控

代表工作

FastV (原始论文): 基于 LLaVA 的 visual token pruning

相关概念

Token Merging — 同属 token 冗余处理,ToMe 做合并,FastV 做丢弃

SparseVLM — 另一种 VLM token pruning 方法

ViT — FastV 的目标架构