IWP: Token Pruning as Implicit Weight Pruning in Large Vision Language Models

作者: Dong-Jae Lee, Sunghyun Baek, Junmo Kim 年份: 2026 会议: arXiv 分类: 剪枝与稀疏化

论文笔记:IWP: Token Pruning as Implicit Weight Pruning in Large Vision Language Models

元信息

项目内容
机构KAIST
日期April 2026
项目主页
对比基线FastV, PACT, VisionZip, DivPrune, CDPruner
链接arXiv / Code

一句话总结

将 token pruning 重新解释为对 attention 隐式权重矩阵的 rank-1 更新子集选择,从理论层面统一了重要性度量和冗余消除

核心贡献

对偶形式重新解释: 将 softmax attention 重写为隐式线性层的 rank-1 外积之和,为 token pruning 提供了理论基础

信息幅度 + 信息重复度量: 从对偶权重分解中推导出同时捕获 token 重要性和冗余性的指标,替代了传统的经验性启发式方法

Progressive Chunked MMR: 提出分块渐进式最大边际相关性算法,在保持 O(n)O(n) 复杂度的同时高效完成 token 子集选择

问题背景

要解决的问题

大视觉语言模型(LVLM)中视觉 token 数量庞大(如 LLaVA-OneVision 的 729 个 token、Qwen2.5-VL 的动态分辨率更多),导致推理延迟和显存占用严重

现有 token pruning 方法缺乏理论基础,依赖经验性的启发式指标

现有方法的局限

基于注意力分数的方法FastV, PACT): 仅关注 query-key 对齐,忽略 value 的信息量

基于多样性的方法DivPrune): 在 hidden state 空间度量冗余,与 attention 机制脱节

混合方法CDPruner): 虽然结合了重要性和多样性,但度量设计仍是经验性的

这些方法都没有显式地从 attention 机制本身推导出为什么某个度量是合理的

本文的动机

Softmax Attention 可以通过 kernel method 重写为对偶形式,此时每个 token 对应一个 rank-1 的权重更新

Token pruning 等价于选择一组 rank-1 更新的子集来近似完整权重矩阵——这就是”隐式权重剪枝”的含义

这一视角自然导出了信息幅度(Frobenius 范数)和信息重复(对偶权重余弦相似度)两个理论上有据的指标

方法详解

核心思想:Attention 的对偶形式

标准 Softmax Attention 可以通过 kernel trick 映射到高维 RKHS

SoftmaxAttn(q,K,V)=ηN(q)ϕ(q)(i=1Nϕ(ki)vi)WN\text{SoftmaxAttn}(\mathbf{q},\mathbf{K},\mathbf{V}) = \eta_N(\mathbf{q}) \phi(\mathbf{q}) \underbrace{\left(\sum_{i=1}^{N} \phi(\mathbf{k}_i)^\top \mathbf{v}_i\right)}_{\mathbf{W}_N}

其中 WN\mathbf{W}_N对偶权重矩阵,每个 token ii 贡献一个 rank-1 更新 ΔWi=ϕ(ki)vi\Delta\mathbf{W}_i = \phi(\mathbf{k}_i)^\top \mathbf{v}_i

Token pruning 即选择 M<NM < N 个 rank-1 更新,使得子集 WCWN\mathbf{W}_\mathcal{C} \approx \mathbf{W}_N

信息幅度(Information Magnitude)

衡量单个 token 的 rank-1 更新对权重矩阵的贡献大小:

Scorei=κ(qT,ki)vi2\text{Score}_i = \kappa(\mathbf{q}_T, \mathbf{k}_i) \|\mathbf{v}_i\|_2

其中 κ(qT,ki)=exp(qTki/d)\kappa(\mathbf{q}_T, \mathbf{k}_i) = \exp(\mathbf{q}_T \mathbf{k}_i^\top / \sqrt{d})核函数

qT\mathbf{q}_T 是 text token 的平均 query,用于衡量视觉 token 与文本指令的对齐程度

vi2\|\mathbf{v}_i\|_2 捕获 value 向量的信息量

该指标同时反映了 angular alignment(方向对齐)key magnitude(键幅度)value magnitude(值幅度) 三个维度

信息重复(Information Duplication)

衡量两个 rank-1 更新之间的冗余程度:

Sij=ΔWi,ΔWjFΔWiFΔWjF=vivjvi2vj2value 余弦相似度κ(ki,kj)κ(ki,ki)κ(kj,kj)RKHS 中 key 余弦相似度\text{S}_{ij} = \frac{\langle\Delta\mathbf{W}_i, \Delta\mathbf{W}_j\rangle_F}{\|\Delta\mathbf{W}_i\|_F \|\Delta\mathbf{W}_j\|_F} = \underbrace{\frac{\mathbf{v}_i \cdot \mathbf{v}_j}{\|\mathbf{v}_i\|_2 \|\mathbf{v}_j\|_2}}_{\text{value 余弦相似度}} \cdot \underbrace{\frac{\kappa(\mathbf{k}_i, \mathbf{k}_j)}{\sqrt{\kappa(\mathbf{k}_i, \mathbf{k}_i)\kappa(\mathbf{k}_j, \mathbf{k}_j)}}}_{\text{RKHS 中 key 余弦相似度}}

对偶权重相似度可分解为 value 空间相似度与 kernel 空间 key 相似度的乘积

关键发现:RoPE 不应用于幅度计算(会引入位置偏置),但应保留在重复度计算中(位置信息有助于判断空间冗余)

Progressive Chunked MMR 算法

基于 最大边际相关性 框架进行子集选择:

i=argmaxiUC[λPi(1λ)maxjCSi,j]i^* = \arg\max_{i \in \mathcal{U} \setminus \mathcal{C}} \left[\lambda \cdot P_i - (1-\lambda) \max_{j \in \mathcal{C}} S_{i,j}\right]

渐进分块策略:不是逐个选择 token,而是以指数增长的 chunk 大小批量选择

  • 初始块大小 b0=2b_0 = 2,增长因子 g=2g = 2
  • 每轮选择 top-kk 个 token 加入已选集 C\mathcal{C}
  • 更新剩余 token 的分数:PiPimax(0.01,1λsmax)P_i \leftarrow P_i \cdot \max(0.01, 1 - \lambda \cdot s_{\max})
  • 直至 C=M|\mathcal{C}| = M

复杂度O(N)O(N) 幅度计算 + 迭代式块选择,比标准 MMR 的 O(N2)O(N^2) 更高效

超参数:惩罚强度 λ=5\lambda = 5,剪枝层 Layer 4(第 4 层后一次性剪枝)

关键公式

公式1: 线性注意力的原始形式

LinearAttn(q,K,V)=qKV=i=1Nαivi,αi=qki\text{LinearAttn}(\mathbf{q},\mathbf{K},\mathbf{V}) = \mathbf{q}\mathbf{K}^\top\mathbf{V} = \sum_{i=1}^{N} \alpha_i \mathbf{v}_i, \quad \alpha_i = \mathbf{q}\mathbf{k}_i^\top

含义: 线性注意力的原始形式,输出是 value 的加权和

符号说明:

  • qRd\mathbf{q} \in \mathbb{R}^d: query 向量
  • αi\alpha_i: 第 ii 个 token 的注意力权重

公式2: 线性注意力的对偶形式

LinearAttn(q,K,V)=qWN,WN=i=1NkiviRd×dv\text{LinearAttn}(\mathbf{q},\mathbf{K},\mathbf{V}) = \mathbf{q}\mathbf{W}_N, \quad \mathbf{W}_N = \sum_{i=1}^{N} \mathbf{k}_i^\top \mathbf{v}_i \in \mathbb{R}^{d \times d_v}

含义: 将注意力重写为 query 与隐式权重矩阵的线性变换,每个 token 贡献一个 rank-1 外积

符号说明:

  • WN\mathbf{W}_N: 对偶权重矩阵
  • kivi\mathbf{k}_i^\top \mathbf{v}_i: 第 ii 个 token 的 rank-1 更新

公式3: Softmax Attention 的核展开

SoftmaxAttn(q,K,V)=i=1Nϕ(q),ϕ(ki)Hvij=1Nϕ(q),ϕ(kj)H=ηN(q)i=1Nκ(q,ki)vi\text{SoftmaxAttn}(\mathbf{q},\mathbf{K},\mathbf{V}) = \frac{\sum_{i=1}^{N} \langle\phi(\mathbf{q}), \phi(\mathbf{k}_i)\rangle_{\mathcal{H}} \mathbf{v}_i}{\sum_{j=1}^{N} \langle\phi(\mathbf{q}), \phi(\mathbf{k}_j)\rangle_{\mathcal{H}}} = \eta_N(\mathbf{q}) \sum_{i=1}^{N} \kappa(\mathbf{q}, \mathbf{k}_i) \mathbf{v}_i

含义: 通过核函数 κ\kappa 将 softmax 注意力映射到再生核 Hilbert 空间(RKHS),建立与线性注意力的对偶联系

符号说明:

  • ϕ()\phi(\cdot): RKHS 中的(隐式)特征映射
  • κ(x,y)=exp(xy/d)\kappa(\mathbf{x},\mathbf{y}) = \exp(\mathbf{x}\mathbf{y}^\top / \sqrt{d}): softmax 对应的核函数
  • ηN(q)=(jκ(q,kj))1\eta_N(\mathbf{q}) = \left(\sum_j \kappa(\mathbf{q}, \mathbf{k}_j)\right)^{-1}: 归一化因子

公式4: 对偶权重矩阵分解

ΔWi=ϕ(ki)vi,WN=i=1NΔWi\Delta\mathbf{W}_i = \phi(\mathbf{k}_i)^\top \mathbf{v}_i, \quad \mathbf{W}_N = \sum_{i=1}^{N} \Delta\mathbf{W}_i

含义: 每个 token 贡献一个 rank-1 的对偶权重更新,总权重矩阵是所有更新之和

符号说明:

  • ΔWi\Delta\mathbf{W}_i: 第 ii 个 token 的 rank-1 权重更新
  • rank(ΔWi)=1,i\text{rank}(\Delta\mathbf{W}_i) = 1, \forall i

公式5: Rank-1 更新的 Frobenius 范数

ΔWiF=ϕ(ki)2vi2\|\Delta\mathbf{W}_i\|_F = \|\phi(\mathbf{k}_i)\|_2 \|\mathbf{v}_i\|_2

含义: rank-1 矩阵的 Frobenius 范数等于两个向量的 L2L_2 范数之积

符号说明:

  • ϕ(ki)2\|\phi(\mathbf{k}_i)\|_2: 核空间中 key 的幅度
  • vi2\|\mathbf{v}_i\|_2: value 的幅度

公式6: 信息幅度指标

Scorei=κ(q,ki)vi2\text{Score}_i = \kappa(\mathbf{q}, \mathbf{k}_i) \|\mathbf{v}_i\|_2

含义: 综合 query-key 核相似度(包含方向对齐和 key 幅度)与 value 幅度的 token 重要性指标

符号说明:

  • κ(q,ki)\kappa(\mathbf{q}, \mathbf{k}_i): 核函数值,=ϕ(q)2ϕ(ki)2cosθi= \|\phi(\mathbf{q})\|_2 \|\phi(\mathbf{k}_i)\|_2 \cos\theta_i
  • vi2\|\mathbf{v}_i\|_2: value 信息量

公式7: 对偶权重相似度(信息重复)

Sij=(vivjvi2vj2)(κ(ki,kj)κ(ki,ki)κ(kj,kj))\text{S}_{ij} = \left(\frac{\mathbf{v}_i \cdot \mathbf{v}_j}{\|\mathbf{v}_i\|_2 \|\mathbf{v}_j\|_2}\right) \left(\frac{\kappa(\mathbf{k}_i, \mathbf{k}_j)}{\sqrt{\kappa(\mathbf{k}_i, \mathbf{k}_i)\kappa(\mathbf{k}_j, \mathbf{k}_j)}}\right)

含义: 两个 rank-1 更新的 Frobenius 内积归一化后的余弦相似度,可分解为 value 相似度 × 核空间 key 相似度

符号说明:

  • 左因子: value 空间的余弦相似度
  • 右因子: RKHS 中 key 的余弦相似度

公式8: 最大边际相关性选择

i=argmaxiUC[λPi(1λ)maxjCSi,j]i^* = \arg\max_{i \in \mathcal{U} \setminus \mathcal{C}} \left[\lambda \cdot P_i - (1-\lambda) \max_{j \in \mathcal{C}} S_{i,j}\right]

含义: 平衡 token 重要性(幅度)和多样性(低冗余)的贪心选择策略

符号说明:

  • U\mathcal{U}: 全部视觉 token 集合
  • C\mathcal{C}: 已选中的 token 子集
  • PiP_i: 第 ii 个 token 的重要性分数
  • λ=5\lambda = 5: 惩罚强度

关键图表

Figure 1: Overview / 框架概览

Figure 1: Overview{:width 600}

说明: IWP 框架总览。Softmax attention 通过 kernel mapping 重写为对偶形式,每个 token 生成 rank-1 更新 ΔWi=ϕ(ki)vi\Delta\mathbf{W}_i = \phi(\mathbf{k}_i)^\top \mathbf{v}_i。Progressive Chunked MMR 循环基于信息幅度和信息重复度过滤 token,高效近似对偶权重矩阵。

Figure C.1: Token 相似度可视化

Figure C.1: Token Similarity{:width 600}

说明: LLaVA-OneVision-7B 第 4 层中视觉和文本 token 间的相似度对比。三种度量(value cosine、key cosine、dual weight cosine)展示了不同空间中的冗余模式。对角元素已遮蔽,显示序列最后 100 个 token。

Figure C.2: 跨层 Token 选择一致性

Figure C.2: Cross-layer Consistency{:width 600}

说明: 不同 Transformer 层间剪枝方法选择的视觉 token 子集的 mIoU 可视化。Layer 4 之后各层选择的 token 高度一致(mIoU > 0.8),支持了在单一早期层剪枝的设计选择。

Table 1: 信息幅度指标消融(LLaVA-OneVision-7B, 35.3% budget)

指标AI2DDocVQAInfoVQAMMBenchMMEMMMUSciQATextVQAMMStarPOPEAvg(%)
Baseline81.387.166.080.71992.049.295.975.861.988.3100.0
vi2\|\mathbf{v}_i\|_279.679.151.279.51933.049.894.267.658.788.794.6
ki2\|\mathbf{k}_i\|_274.048.943.072.21558.846.683.561.749.578.181.1
ΔWiF\|\Delta\mathbf{W}_i\|_F79.069.843.879.41983.647.892.568.456.785.791.4
κ(qI,ki)\kappa(\mathbf{q}_I, \mathbf{k}_i)80.084.560.979.21998.549.392.075.357.587.097.3
κ(qT,ki)\kappa(\mathbf{q}_T, \mathbf{k}_i)79.884.660.979.41973.449.191.875.558.287.197.3
Ours: κ(qT,ki)vi2\kappa(\mathbf{q}_T, \mathbf{k}_i)\|\mathbf{v}_i\|_279.885.461.479.42001.549.092.075.659.187.697.8

关键发现: 单独使用 ki2\|\mathbf{k}_i\|_2(81.1%)或 ΔWiF\|\Delta\mathbf{W}_i\|_F(91.4%)远不如核函数度量(97.3%),加上 value 幅度进一步提升到 97.8%。

Table 2: 信息重复指标消融(LLaVA-OneVision-7B, 35.3% budget)

指标AI2DDocVQAInfoVQAMMBenchMMEMMMUSciQATextVQAMMStarPOPEAvg(%)
Baseline81.387.166.080.71992.049.295.975.861.988.3100.0
cos(vi,vj)\cos(\mathbf{v}_i, \mathbf{v}_j)80.377.850.178.61901.948.092.871.858.188.193.9
cos(hi,hj)\cos(\mathbf{h}_i, \mathbf{h}_j)79.980.951.379.21900.448.692.672.958.588.694.9
cos(ki,kj)\cos(\mathbf{k}_i, \mathbf{k}_j)80.081.555.180.11913.848.693.873.759.188.095.9
cos(ϕ(ki),ϕ(kj))\cos(\phi(\mathbf{k}_i), \phi(\mathbf{k}_j))80.384.460.279.61965.949.092.775.059.988.597.6
Ours: cos(ΔWi,ΔWj)\cos(\Delta\mathbf{W}_i, \Delta\mathbf{W}_j)80.585.360.679.61985.048.992.975.260.088.197.9

关键发现: 对偶权重相似度(97.9%)优于 hidden state 相似度(94.9%,DivPrune 用法)和 key 余弦相似度(95.9%,PACT 用法),核空间 key 相似度(97.6%)也很强。

Table 3: LLaVA-OneVision-7B 主实验结果

MethodBudgetAI2DDocVQAInfoVQAMMBenchMMEMMMUSciQATextVQAMMStarPOPEAvg(%)
Baseline100%81.387.166.080.71992.049.295.975.861.988.3100.0
FastV35.3%79.684.558.079.11984.548.491.875.658.786.596.7
PACT35.3%79.984.260.979.31947.848.392.775.459.188.397.3
VisionZip35.3%76.247.636.077.71916.246.490.163.053.887.885.3
DivPrune35.3%79.271.046.778.41850.349.691.867.757.388.391.8
CDPruner35.3%78.060.350.679.91914.346.992.871.257.988.591.7
IWP35.3%80.585.360.679.61985.048.992.975.260.088.197.9
FastV22.2%78.680.652.178.51994.547.791.174.657.084.794.4
PACT22.2%79.780.554.977.81905.447.890.973.857.387.394.7
IWP22.2%79.382.256.578.81977.947.891.574.457.387.395.6
FastV11.1%77.067.441.477.01955.847.989.371.353.279.288.8
PACT11.1%75.874.649.376.51883.745.189.470.255.483.390.4
CDPruner11.1%77.856.254.778.21849.547.490.966.756.788.490.4
IWP11.1%76.871.945.576.51947.047.489.570.754.684.090.5

关键发现: 在 35.3% budget 下 IWP 达到 97.9% baseline 性能,超越 PACT 0.6pp 和 FastV 1.2pp。在极端 11.1% budget 下与 PACT/CDPruner 持平(90.4-90.5%)。

Table 4: Qwen2.5-VL-7B 主实验结果

MethodBudgetAI2DDocVQAInfoVQAMMBenchMMEMMMUSciQATextVQAMMStarPOPEAvg(%)
Baseline100%82.494.680.484.22310.250.788.382.862.387.6100.0
VisionZip35.3%81.189.463.782.62307.651.087.879.559.385.296.0
IWP35.3%81.890.566.882.32319.850.087.280.761.085.796.8
IWP22.2%80.584.154.981.62242.749.686.078.058.684.193.0
IWP11.1%76.464.037.877.72152.348.884.071.653.378.284.7

关键发现: 在 Qwen2.5-VL-7B 上同样领先,35.3% budget 下超 VisionZip 0.8pp(96.8% vs 96.0%),在 22.2% budget 下超第二名 VisionZip 2.8pp。

Table 5: 视频理解结果(LLaVA-OneVision-7B, 11.1% budget)

MethodEgoSchemaVideo-MMEMLVUNExT-QAAvg(%)
Baseline62.458.464.779.3100.0%
FastV58.253.457.374.592.0%
PACT61.054.561.176.795.7%
DivPrune58.853.861.076.893.9%
IWP62.254.860.977.696.9%

关键发现: 视频任务上 IWP 在 EgoSchema 上几乎无损(62.2 vs 62.4),总体 96.9% 超越 PACT 的 95.7%。

Table 6: 计算效率(LLaVA-OneVision-7B, ScienceQA)

MethodBudget生成时间 (ms)VRAM (GB)准确率 (%)
Baseline100%1.071.7895.9
FastV11.1%0.881.6889.3
PACT11.1%0.781.6189.4
DivPrune11.1%1.291.6385.0
IWP11.1%0.641.6189.5

关键发现: IWP 生成时间最短(0.64ms vs FastV 0.88ms),VRAM 最低(并列 1.61GB),同时准确率最高(89.5%)。

Table C.1: 幅度 vs 幅度+重复 消融

Budget仅幅度幅度+重复提升
35.3%97.8%97.9%+0.1
22.2%94.7%95.6%+0.9
11.1%87.9%90.5%+2.6

关键发现: 信息重复过滤在低 budget 下更关键,11.1% 时提升 2.6pp。

Table C.2: RoPE 消融

设置幅度含RoPE重复含RoPEAvg(%)
最优97.9
两者都含97.0
两者都不含94.6
仅幅度含94.6

关键发现: RoPE 对重复度量是必要的(不含则降到 94.6%),但对幅度度量有害(含则降到 97.0%)。

Table C.3: 剪枝层选择

剪枝层Avg(%)
Layer 093.2
Layer 294.8
Layer 497.9
Layer 697.9
Layer 897.8
Layer 1097.9

关键发现: Layer 4 是性能跃升的拐点,之后保持稳定。太早剪枝(Layer 0-2)效果明显差。

Table C.4: Qwen2.5-VL-32B 扩展性

Method35.3% Avg22.2% Avg11.1% Avg
FastV90.8%84.0%73.2%
VisionZip94.0%86.2%75.1%
DivPrune93.4%87.7%78.9%
CDPruner87.2%81.3%71.8%
IWP94.2%89.6%81.5%

关键发现: 在 32B 规模上 IWP 依然领先,尤其在极端压缩(11.1%)下优势更大(81.5% vs 78.9% DivPrune)。

Table C.5: Progressive Chunked MMR 超参数消融

参数Avg(%)
λ\lambda197.8
λ\lambda597.9
λ\lambda1097.4
gg197.4
gg297.9
gg497.5
gg897.7
b0b_0197.4
b0b_0297.9
b0b_0897.2
b0b_06497.5

关键发现: 超参数相对稳健,λ=5,g=2,b0=2\lambda=5, g=2, b_0=2 为最优组合。过大的惩罚强度或过大的初始块会引入冗余 token。

实验结果

数据集

数据集类型特点用途
AI2D图表理解科学图表 QA图像测试
DocVQA文档理解文档视觉 QA图像测试
InfoVQA信息图理解信息图 QA图像测试
TextVQAOCR自然图像中文字 QA图像测试
MMBench多模态综合多维度评测图像测试
MME多模态感知/认知14 个子任务图像测试
MMMU多模态知识大学级别多学科图像测试
ScienceQA科学推理多模态科学题图像测试
MMStar多模态推理复杂视觉推理图像测试
POPE幻觉检测物体存在性判断图像测试
EgoSchema视频理解自我中心视频 QA视频测试
Video-MME视频多模态多维度视频理解视频测试
MLVU视频理解长视频理解视频测试
NExT-QA视频推理因果/时序推理视频测试

实现细节

模型: LLaVA-OneVision-7B(Qwen2-7B backbone + SigLIP encoder, 729 视觉 tokens)、Qwen2.5-VL-7B(动态分辨率 ViT)、Qwen2.5-VL-32B

剪枝层: Layer 4(固定,所有模型通用)

Token budget: 35.3%(258 tokens)、22.2%(162 tokens)、11.1%(81 tokens)

超参数: λ=5\lambda=5, g=2g=2, b0=2b_0=2

评估框架: lmms-eval

加速: FlashAttention2 启用

硬件: 未明确说明

可视化结果

Token 相似度热力图(Figure C.1)显示对偶权重相似度比 value/key cosine 更好地捕获全局冗余模式

跨层 token 选择一致性(Figure C.2)验证了 Layer 4 作为剪枝点的合理性——后续层选择的 token 子集高度重叠

批判性思考

优点

理论优雅: 从 kernel method 和对偶形式推导出 pruning 度量,比纯经验方法有更强的理论支撑,bridging linear attention 和 softmax attention

统一框架: 将”重要性”和”冗余性”统一在对偶权重空间中推导,而非独立设计两个启发式指标

实验充分: 3 个模型(7B×2 + 32B)、14 个 benchmark、3 个 budget、详尽的消融实验

计算高效: Progressive Chunked MMR 避免了 O(N2)O(N^2) 的完整相似度计算,实际推理速度最快

跨模态泛化: 视频任务上也表现出色,指标本身是 modality-agnostic 的

局限性

仅验证视觉模态: 虽然理论上 modality-agnostic,但实验未覆盖音频、语音、点云等其他模态

隐式特征映射不可计算: ϕ()\phi(\cdot) 是无穷维的,实际用 κ(,)\kappa(\cdot, \cdot) 替代(kernel trick),但这意味着无法直接分析核空间中的几何结构

单层剪枝: 仅在 Layer 4 做一次性剪枝,未探索渐进式多层剪枝策略

对偶形式的近似性: softmax attention 与 linear attention 的对偶形式联系依赖于 kernel 展开的理论成立性,但 softmax kernel 的 RKHS 是无穷维的,实践中这一理论联系是否完全精确值得进一步讨论

高分辨率场景: 在 Qwen2.5-VL 的动态分辨率下优势更大,但论文未深入分析为什么

潜在改进方向

多模态扩展: 将框架应用到音频 token、点云 token 等

渐进式多层剪枝: 不同层使用不同的 budget,可能比单层一次性剪枝更优

与 token merging 结合: 被剪掉的 token 信息可以 merge 到保留 token 中,减少信息损失

理论分析: 分析最优子集选择的近似比(与最优子模函数优化的关系)

动态 budget 分配: 根据输入图像的复杂度自适应调整 token budget

可复现性评估

  • 代码开源(https://github.com/jhtwosun/IWP)
  • 预训练模型(使用公开模型,无需额外预训练)
  • 训练细节完整(training-free 方法,超参数完整)
  • 数据集可获取(所有 benchmark 公开可用)

关联笔记

基于

Linear Attention: 对偶形式的理论基础

核方法: kernel trick 连接 softmax 和 linear attention

MMR: 最大边际相关性选择策略

对比

FastV: 基于注意力分数的 token pruning baseline

PACT: 结合注意力和 key cosine 聚类

VisionZip: 基于视觉编码器自注意力

DivPrune: 基于 hidden state 最小距离约束

CDPruner: 条件多样性最大化

方法相关

Token Pruning: 核心任务

Softmax Attention: 被重新解释的注意力机制

RKHS: 再生核 Hilbert 空间

Frobenius Norm: rank-1 更新的幅度度量

RoPE: 旋转位置编码,对度量设计有重要影响

FlashAttention: 加速实现

硬件/数据相关

LLaVA-OneVision: 主要评测模型

Qwen2.5-VL: 第二评测模型(支持动态分辨率)

SigLIP: LLaVA-OneVision 使用的视觉编码器

速查卡片

IWP: Token Pruning as Implicit Weight Pruning in Large Vision Language Models

  • 核心: 将 token pruning 重新解释为对 attention 对偶权重矩阵的 rank-1 子集选择
  • 方法: 从 kernel 对偶形式推导信息幅度(κv\kappa \cdot \|v\|)和信息重复(对偶权重余弦)指标,Progressive Chunked MMR 高效选择
  • 结果: LLaVA-OneVision-7B 上 35.3% budget 保留 97.9% 性能,超越 PACT/FastV;推理速度最快(0.64ms vs 0.88ms)
  • 代码: https://github.com/jhtwosun/IWP

笔记创建时间: 2026-04-03