ResPrune: Text-Conditioned Subspace Reconstruction for Visual Token Pruning in Large Vision-Language Models

作者: Xu Li, Yi Zheng, Yuxuan Liang, Zhe Liu, Xiaolei Chen, Haotian Chen, Rui Zhu, Xiangyang Xue 年份: 2026 会议: arXiv 分类: 剪枝与稀疏化

论文笔记:ResPrune: Text-Conditioned Subspace Reconstruction for Visual Token Pruning in Large Vision-Language Models

元信息

项目内容
机构Fudan University 等
日期March 2026
项目主页
对比基线SCOPE, DART, DivPrune, FastV, ToMe, PruMerge, VisionZIP
链接arXiv

一句话总结

将视觉 token 剪枝建模为子空间重建问题,通过残差能量引导的贪心扩展结合文本条件实现 training-free 的高效 LVLM 推理

核心贡献

子空间重建视角: 首次将 视觉 token 剪枝 形式化为子空间重建问题,用 正交投影 残差能量衡量 token 的信息增量

文本条件调制: 引入基于 余弦相似度 的文本相关性门控,使剪枝结果自适应于不同查询指令

Training-free + FlashAttention 兼容: 无需重训练、无需 LLM 注意力提取,与 FlashAttention 完全兼容

问题背景

要解决的问题

大型视觉语言模型 中视觉 token 数量巨大(如 LLaVA-NeXT 2880 个),导致 自注意力KV-Cache 开销极大

需要在保持性能的前提下大幅减少视觉 token 数量

现有方法的局限

基于注意力的方法(FastV、PDrop):依赖 LLM 内部注意力分数,存在位置偏置(position bias),且倾向于聚集在显著区域丢失全局覆盖

跨模态注意力方法:需要提取 LLM 注意力矩阵,与 FlashAttention 等优化内核不兼容

多样性方法(DivPrune):任务无关(task-agnostic),对不同查询使用相同剪枝模式

本文的动机

将 token 选择看作在 token 嵌入空间中选择一组基向量的问题:选中 token 应尽可能重建完整视觉信息空间,同时优先覆盖与文本查询相关的区域

方法详解

模型架构

ResPrune 是一个 即插即用 的视觉 token 选择模块,插入在视觉编码器和 LLM 之间:

  • 输入: 视觉 token VRT×d\mathbf{V} \in \mathbb{R}^{T \times d} + 文本 token URL×d\mathbf{U} \in \mathbb{R}^{L \times d}
  • 核心算法: Gram-Schmidt 正交化 驱动的贪心子空间扩展
  • 输出: 选中的 kk 个视觉 token VSRk×d\mathbf{V}_S \in \mathbb{R}^{k \times d}kTk \ll T
  • 额外参数: 零(training-free)

核心模块

模块1: 子空间重建(Subspace Reconstruction)

设计动机: 将 token 选择转化为在 Rd\mathbb{R}^d 空间中寻找最优基向量集合的问题

具体实现:

  • 定义选中 token 张成的子空间 W(S)=Span{vi:iS}\mathcal{W}(S) = \mathrm{Span}\{\mathbf{v}_i : i \in S\}
  • 优化目标:最小化重建误差 VPSVF2\|\mathbf{V} - P_S \mathbf{V}\|_F^2,其中 PSP_S 是到子空间的 正交投影
  • 每个 token 的 残差能量(residual energy)ES(vi)=viPSvi22E_S(\mathbf{v}_i) = \|\mathbf{v}_i - P_S \mathbf{v}_i\|_2^2 衡量其对当前子空间的信息增量
  • 贪心选择:每步选残差能量最大的 token i=argmaxiSES(vi)i^* = \arg\max_{i \notin S} E_S(\mathbf{v}_i)

模块2: 文本条件调制(Text Conditioning)

设计动机: 纯子空间重建是任务无关的,需要引入指令信息使剪枝自适应于不同查询

具体实现:

  • 文本预处理:移除指令模板,提取名词短语
  • 计算文本相关性 R(vi,U)=max1jLmax(0,sim(vi,uj))R(\mathbf{v}_i, \mathbf{U}) = \max_{1 \le j \le L} \max(0, \mathrm{sim}(\mathbf{v}_i, \mathbf{u}_j))
  • 门控函数 g(r)=rαg(r) = r^\alphaα0\alpha \ge 0)调制残差能量
  • 最终选择准则:i=argmaxiSES(vi)g(R(vi,U))i^* = \arg\max_{i \notin S} E_S(\mathbf{v}_i) \cdot g(R(\mathbf{v}_i, \mathbf{U}))

模块3: 种子 Token 选择(Seed Token Selection)

设计动机: 贪心扩展需要一个初始 token 作为种子

具体实现:

  • 有 CLS token 的模型(如 LLaVA 系列):选 CLS attention 最高的 token
  • 无 CLS token 的模型(如 Qwen2.5-VL):选 2\ell_2-norm 最大的 token
  • 消融实验验证了不同策略对结果影响有限

关键公式

公式1: 子空间重建目标

minSVPSVF2s.t.S=k\min_{S} \|\mathbf{V} - P_S \mathbf{V}\|_F^2 \quad \text{s.t.} \quad |S| = k

含义: 选 kk 个 token 使其张成的子空间能最大程度重建所有视觉 token

符号说明:

  • VRT×d\mathbf{V} \in \mathbb{R}^{T \times d}: 所有 TT 个视觉 token
  • PSP_S: 到选中 token 子空间的正交投影矩阵
  • kk: 保留的 token 数量

公式2: 残差能量

ES(v)=rS(v)22=vPSv22E_S(\mathbf{v}) = \|\mathbf{r}_S(\mathbf{v})\|_2^2 = \|\mathbf{v} - P_S \mathbf{v}\|_2^2

含义: 衡量 token v\mathbf{v} 中不能被当前子空间表示的信息量

符号说明:

  • rS(v)\mathbf{r}_S(\mathbf{v}): token v\mathbf{v} 在子空间 W(S)\mathcal{W}(S) 上的正交残差
  • ES(v)E_S(\mathbf{v}): 残差能量,值越大表示该 token 携带越多新信息

公式3: 文本相关性

R(vi,U)=max1jLmax(0,sim(vi,uj))R(\mathbf{v}_i, \mathbf{U}) = \max_{1 \le j \le L} \max(0, \mathrm{sim}(\mathbf{v}_i, \mathbf{u}_j))

含义: 视觉 token 与所有文本 token 的最大余弦相似度(截断为非负)

符号说明:

  • vi\mathbf{v}_i: 第 ii 个视觉 token
  • uj\mathbf{u}_j: 第 jj 个文本 token
  • sim(,)\mathrm{sim}(\cdot, \cdot): 余弦相似度

公式4: 文本条件贪心选择

E~S(vi)=ES(vi)g(R(vi,U))\widetilde{E}_S(\mathbf{v}_i) = E_S(\mathbf{v}_i) \cdot g(R(\mathbf{v}_i, \mathbf{U})) i=argmaxiSE~S(vi)i^* = \arg\max_{i \notin S} \widetilde{E}_S(\mathbf{v}_i)

含义: 用文本相关性调制残差能量,统一覆盖性(coverage)和相关性(relevance)

符号说明:

  • g(r)=rαg(r) = r^\alpha: 门控函数,α\alpha 控制文本引导强度
  • α=0.75\alpha = 0.75 对 LLaVA 最优,α=0.3\alpha = 0.3 对 Qwen2.5-VL 最优

公式5: ResPrune 时间复杂度

O(TLd)+O(kTd+k2d)\mathcal{O}(TLd) + \mathcal{O}(kTd + k^2 d)

含义: 文本相关性计算 + 贪心子空间扩展,当 kTk \ll T 时远小于 LLM 前向传播

符号说明:

  • TT: 视觉 token 数量
  • LL: 文本 token 数量
  • dd: 嵌入维度
  • kk: 保留 token 数量

公式6: LLM Prefill 阶段 FLOPs

Full:8(T+L)d2+4(T+L)2d+6(T+L)dm\text{Full}: \quad 8(T+L)d^2 + 4(T+L)^2 d + 6(T+L)dm Pruned:8(k+L)d2+4(k+L)2d+6(k+L)dm\text{Pruned}: \quad 8(k+L)d^2 + 4(k+L)^2 d + 6(k+L)dm

含义: 剪枝将 token 数从 T+LT+L 降至 k+Lk+L,FLOPs 近似二次方下降

符号说明:

  • mm: FFN 中间维度

关键图表

Figure 1: 不同方法的剪枝行为对比

Figure 1: Comparison of pruning behaviors{:width 600}

说明: 对同一图像在不同文本查询下的 token 剪枝可视化。遮罩区域为被剪掉的 token,彩色边框高亮答案相关区域。可以看到:(1)基于注意力的方法(FastV)存在位置偏置;(2)基于多样性的方法(DivPrune)对不同查询给出相同的剪枝模式;(3)ResPrune 同时实现全局覆盖和查询自适应——针对不同问题保留不同区域的 token。

Figure 2: ResPrune 在不同 token 预算下的剪枝可视化

Figure 2: Pruning under different budgets{:width 600}

说明: 在 LLaVA-1.5-7B 上,ResPrune 在不同视觉 token 预算(192/128/64)下的剪枝结果。红色边框标注答案相关区域。随着预算减少,ResPrune 仍优先保留关键信息区域,展示了良好的渐进性降级。

Table I: LLaVA-1.5-7B 性能对比

MethodRel. Perf.MMEGQASQA-IPOPETextVQAVizWizVQA-v2MMB-enMM-Vet
LLaVA-1.5-7B (baseline)100%186261.969.585.958.250.078.464.731.3
Retain 192 tokens (66.7% pruning)
ToMe89.9156354.365.272.452.150.068.060.526.8
FastV89.5161252.767.364.852.550.867.161.227.7
SparseVLM96.6172157.669.183.656.150.575.662.531.5
DART98.6185658.969.882.857.451.176.763.631.5
VisionZIP98.2176759.368.985.357.850.976.563.031.7
DivPrune97.9175159.869.287.154.851.276.863.032.0
SCOPE98.9180460.168.886.457.751.076.963.632.5
ResPrune99.4179560.669.187.658.151.277.463.832.8
Retain 128 tokens (77.8% pruning)
TRIM96.5174358.468.685.352.251.675.463.029.9
DART97.0184557.969.180.156.451.775.960.730.9
DivPrune97.2169459.468.587.054.552.776.061.530.7
SCOPE98.3177659.768.486.157.252.076.162.531.4
AdaPrune98.3175559.368.586.557.052.676.462.3
ResPrune99.3179260.169.387.657.852.576.563.031.8
Retain 64 tokens (88.9% pruning)
TRIM94.4168056.669.085.949.751.172.460.924.8
DART94.3176555.969.873.954.451.672.460.626.5
DivPrune95.7165757.967.985.652.953.674.160.229.4
SCOPE96.8169858.368.683.956.652.773.961.730.4
AdaPrune97.1171557.468.884.856.053.974.761.2
ResPrune98.0174058.669.087.557.253.674.960.730.2

说明: ResPrune 在三种剪枝比例下均取得最高的相对性能保留率(99.4% / 99.3% / 98.0%),尤其在 POPE 上表现突出(87.5-87.6),表明子空间重建有效保留了判别信息

Table II: LLaVA-NeXT-7B 性能对比

MethodRel. Perf.MMEGQASQA-IPOPETextVQAVizWizVQA-v2MMB-en
LLaVA-NeXT-7B (baseline)100%184264.370.286.561.355.281.367.9
Retain 640 tokens (66.7% pruning)
DivPrune97.2177361.967.886.957.055.779.365.8
VisionZIP98.1178261.368.186.259.957.179.166.3
DART97.5179361.368.285.059.557.078.364.9
ResPrune99.6182163.369.588.359.957.979.566.6
Retain 320 tokens (88.9% pruning)
DivPrune96.6173161.167.784.756.255.677.263.9
VisionZIP95.0169859.367.382.158.956.276.263.1
DART94.8171059.567.581.057.656.175.764.2
ResPrune98.1178062.469.288.059.556.677.964.9

说明: 在高分辨率模型 LLaVA-NeXT 上,ResPrune 优势更明显,88.9% 剪枝率下仍保持 98.1% 相对性能

Table III: Qwen2.5-VL-7B 性能对比

MethodRel. Perf.MMEPOPETextVQAMMB-enGQA
Qwen2.5-VL-7B (baseline)100%230486.184.882.862.2
66.7% pruning
FastV92.3207282.277.975.758.0
DivPrune96.7219885.680.182.659.0
ResPrune98.4232087.380.382.559.9
77.8% pruning
DivPrune95.1215385.576.681.658.6
ResPrune96.9224687.378.081.759.4
88.9% pruning
DivPrune90.4205183.767.279.456.9
ResPrune92.2212785.269.079.557.7

说明: 在无 CLS token 的 Qwen2.5-VL 上同样有效,验证了方法的通用性

Table IV: 消融实验——主要组件

消融设置Rel. Perf.MMEGQAPOPETextVQAMMB
Full Method (128 tokens)98.4179260.187.657.863.0
w/o 文本预处理97.5175459.887.557.162.6
w/o 文本相关性96.6177359.786.754.662.5
w/o 子空间重建82.4166855.683.525.459.5
Full Method (64 tokens)96.4174058.687.557.260.7
w/o 子空间重建 (64)79.1160054.181.923.356.2

关键发现: 子空间重建是核心——移除后 TextVQA 从 57.8 暴跌至 25.4(-56%),说明纯文本相关性选择会严重丢失全局视觉信息。文本条件提供 ~2% 的增量提升。

Table V: 文本引导强度 α\alpha 消融

α\alphaRel. Perf. (LLaVA)Rel. Perf. (Qwen)
0.25 / 0.197.796.3
0.50 / 0.298.196.5
0.75 / 0.398.496.9
1.00 / 0.498.396.7
1.25 / 0.598.196.4

说明: LLaVA 最优 α=0.75\alpha = 0.75,Qwen 最优 α=0.3\alpha = 0.3,Qwen 对文本引导更敏感(需要更弱的调制)

Table VI: 文本相关性计算方式消融

计算方式Rel. Perf.TextVQA
max similarity(默认)98.457.8
average similarity97.856.6
pooled-text similarity95.451.2

说明: max similarity 最优,pooled-text 丢失细粒度文本信息导致 TextVQA 大幅下降

Table VII: 种子 Token 选择策略消融

策略Rel. Perf. (LLaVA)Rel. Perf. (Qwen)
CLS attention98.4
2\ell_2-norm98.096.9
textual relevance97.796.6
global avg similarity97.796.5
spatial centrality97.696.3

说明: 有 CLS token 时用 CLS attention 最优;无 CLS token 时 2\ell_2-norm 最优

Table VIII: 实际效率分析(LLaVA-NeXT-7B)

指标Full Model66.7% Pruning88.9% Pruning
FLOPs (T)30.69.6 (↓68.6%)3.1 (↓89.9%)
KV-cache (MB)1084.7361.2 (↓66.7%)120.4 (↓88.9%)
GPU Memory (GB)19.817.8 (↓10.1%)17.7 (↓10.6%)
Throughput (tok/s)16.133.5 (2.08x)36.7 (2.28x)
Eval Time (min:sec)9:054:39 (↓48.8%)3:28 (↓61.8%)

说明: 88.9% 剪枝率下 FLOPs 降低 89.9%,吞吐提升 2.28x,KV-cache 降低 88.9%

实验

数据集

数据集类型用途
MME综合多模态评估感知 + 认知能力
GQA视觉问答组合推理
ScienceQA-Image科学图像问答领域知识
POPE物体幻觉评估幻觉检测
TextVQA文本视觉问答OCR + 理解
VizWiz视障辅助问答真实场景
VQA-v2视觉问答通用 VQA
MMBench-en综合多模态基准多维度评估
MM-Vet多模态综合开放式评估

实现细节

测试模型: LLaVA-1.5-7B(576 tokens)、LLaVA-NeXT-7B(2880 tokens)、Qwen2.5-VL-7B(动态分辨率)

剪枝比例: 66.7%、77.8%、88.9%

α\alpha: LLaVA 系列 0.75,Qwen2.5-VL 0.3

文本预处理: 移除指令模板 + SpaCy 名词短语提取

可视化结果

Figure 1 展示了 ResPrune 对不同查询生成不同剪枝模式的能力,验证了文本条件调制的有效性

Figure 2 展示了在极端剪枝下(64 tokens,88.9%)仍能保留答案相关区域

批判性思考

优点

理论优雅: 子空间重建视角比启发式注意力方法更有数学基础,Gram-Schmidt 正交化 保证每步选择最大化信息增量

实用性强: training-free、FlashAttention 兼容、无需 LLM 注意力提取——这在工程落地上非常重要

实验全面: 3 个模型家族、9 个 benchmark、3 种剪枝比例、7 组消融实验

查询自适应: 首次在 training-free 方法中实现了指令感知的剪枝

局限性

α\alpha 需要手动调参: 不同模型家族需要不同的 α\alpha,且对所有输入使用固定值

贪心算法非全局最优: 子空间重建问题本身是 NP-hard,贪心解没有近似比保证(虽然实践效果好)

未测试更大模型: 仅在 7B 模型上验证,未涉及 13B / 70B 级别

文本预处理依赖 SpaCy: 名词提取质量可能影响非英语场景

潜在改进方向

自适应 α\alpha: 基于输入特征或置信度动态调整文本引导强度

与 Token Merging 结合: 被剪掉的 token 信息可通过 Token Merging 融入保留 token,进一步降低信息损失

多层剪枝: 当前仅在视觉编码器输出层剪枝,可探索逐层渐进剪枝

可复现性评估

  • 代码开源(暂未提供)
  • 预训练模型(不需要,training-free)
  • 训练细节完整(算法伪代码清晰)
  • 数据集可获取(全部公开 benchmark)

关联笔记

基于

ToMe: Token Merging 基线方法

FastV: 基于注意力的 token 剪枝

DivPrune: 基于多样性的 token 选择

对比

SCOPE: 此前 SOTA,ResPrune 在所有设置下超越

DART: 在高剪枝率下性能下降明显(如 POPE 73.9 vs ResPrune 87.5)

VisionZIP: 视觉 token 压缩方法

AdaPrune: 自适应剪枝,性能接近但低于 ResPrune

方法相关

正交投影: 核心数学工具

Gram-Schmidt 正交化: 增量子空间扩展的实现基础

余弦相似度: 文本相关性计算

Visual Token Pruning: 研究主题

KV-Cache: 剪枝直接降低的资源开销

FlashAttention: 兼容性是本文的重要优势

硬件/数据相关

LLaVA: 主要实验平台

Qwen2.5-VL: 验证通用性的无 CLS token 模型

速查卡片

ResPrune: Text-Conditioned Subspace Reconstruction for Visual Token Pruning in LVLMs

  • 核心: 将视觉 token 剪枝建模为子空间重建,用残差能量+文本条件贪心选择
  • 方法: Gram-Schmidt 正交化驱动的贪心子空间扩展 + 文本相关性门控
  • 结果: LLaVA-1.5-7B 77.8% 剪枝率下保持 99.3% 性能;LLaVA-NeXT 88.9% 剪枝率下 2.28x 吞吐
  • 代码: 暂未开源

笔记创建时间: 2026-03-25