VisionZip

分类: 剪枝与稀疏化

VisionZip

定义

VisionZip 是一种视觉 token 压缩方法,在 VLM/MLLM 的视觉编码器输出后、送入语言模型前,对 visual token 做高比例压缩

核心要点

工作在视觉编码器和 LLM 之间的 connector 层

支持较高的压缩率,同时保持下游任务性能

适用于多种 VLM 架构(LLaVA、InternVL 等)

代表工作

VisionZip: 高比例视觉 token 压缩

相关概念

FastV — attention-based token pruning

Token Merging — token 合并策略