CS224N / 学习笔记

SparseVLM

分类: 剪枝与稀疏化

SparseVLM

定义

SparseVLM 是一种面向 Vision-Language Model 的 token sparsification 方法，通过选择性保留信息量最大的 visual token 来加速 VLM 推理

核心要点

针对 VLM 中 visual token 数量远超 text token 的计算瓶颈

利用文本查询引导的重要性评估，选择与当前任务最相关的 visual token

与 FastV 的区别：SparseVLM 更强调 query-aware 的 token 选择

代表工作

SparseVLM: 文本引导的 visual token 稀疏化

相关概念

FastV — 同赛道竞品

Token Merging — token 合并策略

VisionZip — 另一种视觉 token 压缩方法