SparseVLM
分类: 剪枝与稀疏化
SparseVLM
定义
SparseVLM 是一种面向 Vision-Language Model 的 token sparsification 方法,通过选择性保留信息量最大的 visual token 来加速 VLM 推理
核心要点
针对 VLM 中 visual token 数量远超 text token 的计算瓶颈
利用文本查询引导的重要性评估,选择与当前任务最相关的 visual token
与 FastV 的区别:SparseVLM 更强调 query-aware 的 token 选择
代表工作
SparseVLM: 文本引导的 visual token 稀疏化
相关概念
FastV — 同赛道竞品
Token Merging — token 合并策略
VisionZip — 另一种视觉 token 压缩方法