VisionZip
分类: 剪枝与稀疏化
VisionZip
定义
VisionZip 是一种视觉 token 压缩方法,在 VLM/MLLM 的视觉编码器输出后、送入语言模型前,对 visual token 做高比例压缩
核心要点
工作在视觉编码器和 LLM 之间的 connector 层
支持较高的压缩率,同时保持下游任务性能
适用于多种 VLM 架构(LLaVA、InternVL 等)
代表工作
VisionZip: 高比例视觉 token 压缩
相关概念
FastV — attention-based token pruning
Token Merging — token 合并策略