FastV
分类: 剪枝与稀疏化
FastV
定义
FastV 是一种基于 attention score 的 training-free visual token pruning 方法,在 VLM 推理过程中根据注意力分数动态丢弃低重要性的 visual token,减少后续层的计算量
核心要点
在 VLM(如 LLaVA)的浅层计算完 attention 后,按 attention score 排序丢弃冗余 visual token
Training-free:不需要微调,直接在推理时应用
关键假设:浅层 attention 分布能可靠预测 token 对最终输出的贡献
典型压缩率 50%-75%,在视觉问答等任务上精度损失可控
代表工作
FastV (原始论文): 基于 LLaVA 的 visual token pruning
相关概念
Token Merging — 同属 token 冗余处理,ToMe 做合并,FastV 做丢弃
SparseVLM — 另一种 VLM token pruning 方法
ViT — FastV 的目标架构