CS224N / 学习笔记

FastV

分类: 剪枝与稀疏化

FastV

定义

FastV 是一种基于 attention score 的 training-free visual token pruning 方法，在 VLM 推理过程中根据注意力分数动态丢弃低重要性的 visual token，减少后续层的计算量

核心要点

在 VLM（如 LLaVA）的浅层计算完 attention 后，按 attention score 排序丢弃冗余 visual token

Training-free：不需要微调，直接在推理时应用

关键假设：浅层 attention 分布能可靠预测 token 对最终输出的贡献

典型压缩率 50%-75%，在视觉问答等任务上精度损失可控

代表工作

FastV (原始论文): 基于 LLaVA 的 visual token pruning

相关概念

Token Merging — 同属 token 冗余处理，ToMe 做合并，FastV 做丢弃

SparseVLM — 另一种 VLM token pruning 方法

ViT — FastV 的目标架构