IWP: Token Pruning as Implicit Weight Pruning in Large Vision Language Models

作者: Dong-Jae Lee, Sunghyun Baek, Junmo Kim 年份: 2026 会议: arXiv 分类: 剪枝与稀疏化

论文笔记：IWP: Token Pruning as Implicit Weight Pruning in Large Vision Language Models

元信息

项目	内容
机构	KAIST
日期	April 2026
项目主页	—
对比基线	FastV, PACT, VisionZip, DivPrune, CDPruner
链接	arXiv / Code

一句话总结

将 token pruning 重新解释为对 attention 隐式权重矩阵的 rank-1 更新子集选择，从理论层面统一了重要性度量和冗余消除

核心贡献

对偶形式重新解释: 将 softmax attention 重写为隐式线性层的 rank-1 外积之和，为 token pruning 提供了理论基础

信息幅度 + 信息重复度量: 从对偶权重分解中推导出同时捕获 token 重要性和冗余性的指标，替代了传统的经验性启发式方法

Progressive Chunked MMR: 提出分块渐进式最大边际相关性算法，在保持 $O(n)$ 复杂度的同时高效完成 token 子集选择

问题背景

要解决的问题

大视觉语言模型（LVLM）中视觉 token 数量庞大（如 LLaVA-OneVision 的 729 个 token、Qwen2.5-VL 的动态分辨率更多），导致推理延迟和显存占用严重

现有 token pruning 方法缺乏理论基础，依赖经验性的启发式指标

现有方法的局限

基于注意力分数的方法（FastV, PACT）: 仅关注 query-key 对齐，忽略 value 的信息量

基于多样性的方法（DivPrune）: 在 hidden state 空间度量冗余，与 attention 机制脱节

混合方法（CDPruner）: 虽然结合了重要性和多样性，但度量设计仍是经验性的

这些方法都没有显式地从 attention 机制本身推导出为什么某个度量是合理的

本文的动机

Softmax Attention 可以通过 kernel method 重写为对偶形式，此时每个 token 对应一个 rank-1 的权重更新

Token pruning 等价于选择一组 rank-1 更新的子集来近似完整权重矩阵——这就是”隐式权重剪枝”的含义

这一视角自然导出了信息幅度（Frobenius 范数）和信息重复（对偶权重余弦相似度）两个理论上有据的指标

方法详解

核心思想：Attention 的对偶形式

标准 Softmax Attention 可以通过 kernel trick 映射到高维 RKHS：

\text{SoftmaxAttn}(\mathbf{q},\mathbf{K},\mathbf{V}) = \eta_N(\mathbf{q}) \phi(\mathbf{q}) \underbrace{\left(\sum_{i=1}^{N} \phi(\mathbf{k}_i)^\top \mathbf{v}_i\right)}_{\mathbf{W}_N}

其中 $\mathbf{W}_N$ 是对偶权重矩阵，每个 token $i$ 贡献一个 rank-1 更新 $\Delta\mathbf{W}_i = \phi(\mathbf{k}_i)^\top \mathbf{v}_i$

Token pruning 即选择 $M < N$ 个 rank-1 更新，使得子集 $\mathbf{W}_\mathcal{C} \approx \mathbf{W}_N$

信息幅度（Information Magnitude）

衡量单个 token 的 rank-1 更新对权重矩阵的贡献大小：

\text{Score}_i = \kappa(\mathbf{q}_T, \mathbf{k}_i) \|\mathbf{v}_i\|_2

其中 $\kappa(\mathbf{q}_T, \mathbf{k}_i) = \exp(\mathbf{q}_T \mathbf{k}_i^\top / \sqrt{d})$ 是核函数

$\mathbf{q}_T$ 是 text token 的平均 query，用于衡量视觉 token 与文本指令的对齐程度

$\|\mathbf{v}_i\|_2$ 捕获 value 向量的信息量

该指标同时反映了 angular alignment（方向对齐）、key magnitude（键幅度） 和 value magnitude（值幅度） 三个维度

信息重复（Information Duplication）

衡量两个 rank-1 更新之间的冗余程度：

\text{S}_{ij} = \frac{\langle\Delta\mathbf{W}_i, \Delta\mathbf{W}_j\rangle_F}{\|\Delta\mathbf{W}_i\|_F \|\Delta\mathbf{W}_j\|_F} = \underbrace{\frac{\mathbf{v}_i \cdot \mathbf{v}_j}{\|\mathbf{v}_i\|_2 \|\mathbf{v}_j\|_2}}_{\text{value 余弦相似度}} \cdot \underbrace{\frac{\kappa(\mathbf{k}_i, \mathbf{k}_j)}{\sqrt{\kappa(\mathbf{k}_i, \mathbf{k}_i)\kappa(\mathbf{k}_j, \mathbf{k}_j)}}}_{\text{RKHS 中 key 余弦相似度}}

对偶权重相似度可分解为 value 空间相似度与 kernel 空间 key 相似度的乘积

关键发现：RoPE 不应用于幅度计算（会引入位置偏置），但应保留在重复度计算中（位置信息有助于判断空间冗余）

Progressive Chunked MMR 算法

基于最大边际相关性框架进行子集选择：

i^* = \arg\max_{i \in \mathcal{U} \setminus \mathcal{C}} \left[\lambda \cdot P_i - (1-\lambda) \max_{j \in \mathcal{C}} S_{i,j}\right]

渐进分块策略：不是逐个选择 token，而是以指数增长的 chunk 大小批量选择

初始块大小 $b_0 = 2$ ，增长因子 $g = 2$
每轮选择 top- $k$ 个 token 加入已选集 $\mathcal{C}$
更新剩余 token 的分数： $P_i \leftarrow P_i \cdot \max(0.01, 1 - \lambda \cdot s_{\max})$
直至 $|\mathcal{C}| = M$

复杂度： $O(N)$ 幅度计算 + 迭代式块选择，比标准 MMR 的 $O(N^2)$ 更高效

超参数：惩罚强度 $\lambda = 5$ ，剪枝层 Layer 4（第 4 层后一次性剪枝）

关键公式

公式1: 线性注意力的原始形式

\text{LinearAttn}(\mathbf{q},\mathbf{K},\mathbf{V}) = \mathbf{q}\mathbf{K}^\top\mathbf{V} = \sum_{i=1}^{N} \alpha_i \mathbf{v}_i, \quad \alpha_i = \mathbf{q}\mathbf{k}_i^\top

含义: 线性注意力的原始形式，输出是 value 的加权和

符号说明:

$\mathbf{q} \in \mathbb{R}^d$ : query 向量
$\alpha_i$ : 第 $i$ 个 token 的注意力权重

公式2: 线性注意力的对偶形式

\text{LinearAttn}(\mathbf{q},\mathbf{K},\mathbf{V}) = \mathbf{q}\mathbf{W}_N, \quad \mathbf{W}_N = \sum_{i=1}^{N} \mathbf{k}_i^\top \mathbf{v}_i \in \mathbb{R}^{d \times d_v}

含义: 将注意力重写为 query 与隐式权重矩阵的线性变换，每个 token 贡献一个 rank-1 外积

符号说明:

$\mathbf{W}_N$ : 对偶权重矩阵
$\mathbf{k}_i^\top \mathbf{v}_i$ : 第 $i$ 个 token 的 rank-1 更新

公式3: Softmax Attention 的核展开

\text{SoftmaxAttn}(\mathbf{q},\mathbf{K},\mathbf{V}) = \frac{\sum_{i=1}^{N} \langle\phi(\mathbf{q}), \phi(\mathbf{k}_i)\rangle_{\mathcal{H}} \mathbf{v}_i}{\sum_{j=1}^{N} \langle\phi(\mathbf{q}), \phi(\mathbf{k}_j)\rangle_{\mathcal{H}}} = \eta_N(\mathbf{q}) \sum_{i=1}^{N} \kappa(\mathbf{q}, \mathbf{k}_i) \mathbf{v}_i

含义: 通过核函数 $\kappa$ 将 softmax 注意力映射到再生核 Hilbert 空间（RKHS），建立与线性注意力的对偶联系

符号说明:

$\phi(\cdot)$ : RKHS 中的（隐式）特征映射
$\kappa(\mathbf{x},\mathbf{y}) = \exp(\mathbf{x}\mathbf{y}^\top / \sqrt{d})$ : softmax 对应的核函数
$\eta_N(\mathbf{q}) = \left(\sum_j \kappa(\mathbf{q}, \mathbf{k}_j)\right)^{-1}$ : 归一化因子

公式4: 对偶权重矩阵分解

\Delta\mathbf{W}_i = \phi(\mathbf{k}_i)^\top \mathbf{v}_i, \quad \mathbf{W}_N = \sum_{i=1}^{N} \Delta\mathbf{W}_i

含义: 每个 token 贡献一个 rank-1 的对偶权重更新，总权重矩阵是所有更新之和

符号说明:

$\Delta\mathbf{W}_i$ : 第 $i$ 个 token 的 rank-1 权重更新
$\text{rank}(\Delta\mathbf{W}_i) = 1, \forall i$

公式5: Rank-1 更新的 Frobenius 范数

\|\Delta\mathbf{W}_i\|_F = \|\phi(\mathbf{k}_i)\|_2 \|\mathbf{v}_i\|_2

含义: rank-1 矩阵的 Frobenius 范数等于两个向量的 $L_2$ 范数之积

符号说明:

$\|\phi(\mathbf{k}_i)\|_2$ : 核空间中 key 的幅度
$\|\mathbf{v}_i\|_2$ : value 的幅度

公式6: 信息幅度指标

\text{Score}_i = \kappa(\mathbf{q}, \mathbf{k}_i) \|\mathbf{v}_i\|_2

含义: 综合 query-key 核相似度（包含方向对齐和 key 幅度）与 value 幅度的 token 重要性指标

符号说明:

$\kappa(\mathbf{q}, \mathbf{k}_i)$ : 核函数值， $= \|\phi(\mathbf{q})\|_2 \|\phi(\mathbf{k}_i)\|_2 \cos\theta_i$
$\|\mathbf{v}_i\|_2$ : value 信息量

公式7: 对偶权重相似度（信息重复）

\text{S}_{ij} = \left(\frac{\mathbf{v}_i \cdot \mathbf{v}_j}{\|\mathbf{v}_i\|_2 \|\mathbf{v}_j\|_2}\right) \left(\frac{\kappa(\mathbf{k}_i, \mathbf{k}_j)}{\sqrt{\kappa(\mathbf{k}_i, \mathbf{k}_i)\kappa(\mathbf{k}_j, \mathbf{k}_j)}}\right)

含义: 两个 rank-1 更新的 Frobenius 内积归一化后的余弦相似度，可分解为 value 相似度 × 核空间 key 相似度

符号说明:

左因子: value 空间的余弦相似度
右因子: RKHS 中 key 的余弦相似度

公式8: 最大边际相关性选择

i^* = \arg\max_{i \in \mathcal{U} \setminus \mathcal{C}} \left[\lambda \cdot P_i - (1-\lambda) \max_{j \in \mathcal{C}} S_{i,j}\right]

含义: 平衡 token 重要性（幅度）和多样性（低冗余）的贪心选择策略

符号说明:

$\mathcal{U}$ : 全部视觉 token 集合
$\mathcal{C}$ : 已选中的 token 子集
$P_i$ : 第 $i$ 个 token 的重要性分数
$\lambda = 5$ : 惩罚强度

关键图表

Figure 1: Overview / 框架概览

Figure 1: Overview {:width 600}

说明: IWP 框架总览。Softmax attention 通过 kernel mapping 重写为对偶形式，每个 token 生成 rank-1 更新 $\Delta\mathbf{W}_i = \phi(\mathbf{k}_i)^\top \mathbf{v}_i$ 。Progressive Chunked MMR 循环基于信息幅度和信息重复度过滤 token，高效近似对偶权重矩阵。

Figure C.1: Token 相似度可视化

Figure C.1: Token Similarity {:width 600}

说明: LLaVA-OneVision-7B 第 4 层中视觉和文本 token 间的相似度对比。三种度量（value cosine、key cosine、dual weight cosine）展示了不同空间中的冗余模式。对角元素已遮蔽，显示序列最后 100 个 token。

Figure C.2: 跨层 Token 选择一致性

Figure C.2: Cross-layer Consistency {:width 600}

说明: 不同 Transformer 层间剪枝方法选择的视觉 token 子集的 mIoU 可视化。Layer 4 之后各层选择的 token 高度一致（mIoU > 0.8），支持了在单一早期层剪枝的设计选择。

Table 1: 信息幅度指标消融（LLaVA-OneVision-7B, 35.3% budget）

指标	AI2D	DocVQA	InfoVQA	MMBench	MME	MMMU	SciQA	TextVQA	MMStar	POPE	Avg(%)
Baseline	81.3	87.1	66.0	80.7	1992.0	49.2	95.9	75.8	61.9	88.3	100.0
$\\|\mathbf{v}_i\\|_2$	79.6	79.1	51.2	79.5	1933.0	49.8	94.2	67.6	58.7	88.7	94.6
$\\|\mathbf{k}_i\\|_2$	74.0	48.9	43.0	72.2	1558.8	46.6	83.5	61.7	49.5	78.1	81.1
$\\|\Delta\mathbf{W}_i\\|_F$	79.0	69.8	43.8	79.4	1983.6	47.8	92.5	68.4	56.7	85.7	91.4
$\kappa(\mathbf{q}_I, \mathbf{k}_i)$	80.0	84.5	60.9	79.2	1998.5	49.3	92.0	75.3	57.5	87.0	97.3
$\kappa(\mathbf{q}_T, \mathbf{k}_i)$	79.8	84.6	60.9	79.4	1973.4	49.1	91.8	75.5	58.2	87.1	97.3
Ours: $\kappa(\mathbf{q}_T, \mathbf{k}_i)\\|\mathbf{v}_i\\|_2$	79.8	85.4	61.4	79.4	2001.5	49.0	92.0	75.6	59.1	87.6	97.8

关键发现: 单独使用 $\|\mathbf{k}_i\|_2$ （81.1%）或 $\|\Delta\mathbf{W}_i\|_F$ （91.4%）远不如核函数度量（97.3%），加上 value 幅度进一步提升到 97.8%。

Table 2: 信息重复指标消融（LLaVA-OneVision-7B, 35.3% budget）

指标	AI2D	DocVQA	InfoVQA	MMBench	MME	MMMU	SciQA	TextVQA	MMStar	POPE	Avg(%)
Baseline	81.3	87.1	66.0	80.7	1992.0	49.2	95.9	75.8	61.9	88.3	100.0
$\cos(\mathbf{v}_i, \mathbf{v}_j)$	80.3	77.8	50.1	78.6	1901.9	48.0	92.8	71.8	58.1	88.1	93.9
$\cos(\mathbf{h}_i, \mathbf{h}_j)$	79.9	80.9	51.3	79.2	1900.4	48.6	92.6	72.9	58.5	88.6	94.9
$\cos(\mathbf{k}_i, \mathbf{k}_j)$	80.0	81.5	55.1	80.1	1913.8	48.6	93.8	73.7	59.1	88.0	95.9
$\cos(\phi(\mathbf{k}_i), \phi(\mathbf{k}_j))$	80.3	84.4	60.2	79.6	1965.9	49.0	92.7	75.0	59.9	88.5	97.6
Ours: $\cos(\Delta\mathbf{W}_i, \Delta\mathbf{W}_j)$	80.5	85.3	60.6	79.6	1985.0	48.9	92.9	75.2	60.0	88.1	97.9

关键发现: 对偶权重相似度（97.9%）优于 hidden state 相似度（94.9%，DivPrune 用法）和 key 余弦相似度（95.9%，PACT 用法），核空间 key 相似度（97.6%）也很强。

Table 3: LLaVA-OneVision-7B 主实验结果

Method	Budget	AI2D	DocVQA	InfoVQA	MMBench	MME	MMMU	SciQA	TextVQA	MMStar	POPE	Avg(%)
Baseline	100%	81.3	87.1	66.0	80.7	1992.0	49.2	95.9	75.8	61.9	88.3	100.0
FastV	35.3%	79.6	84.5	58.0	79.1	1984.5	48.4	91.8	75.6	58.7	86.5	96.7
PACT	35.3%	79.9	84.2	60.9	79.3	1947.8	48.3	92.7	75.4	59.1	88.3	97.3
VisionZip	35.3%	76.2	47.6	36.0	77.7	1916.2	46.4	90.1	63.0	53.8	87.8	85.3
DivPrune	35.3%	79.2	71.0	46.7	78.4	1850.3	49.6	91.8	67.7	57.3	88.3	91.8
CDPruner	35.3%	78.0	60.3	50.6	79.9	1914.3	46.9	92.8	71.2	57.9	88.5	91.7
IWP	35.3%	80.5	85.3	60.6	79.6	1985.0	48.9	92.9	75.2	60.0	88.1	97.9
FastV	22.2%	78.6	80.6	52.1	78.5	1994.5	47.7	91.1	74.6	57.0	84.7	94.4
PACT	22.2%	79.7	80.5	54.9	77.8	1905.4	47.8	90.9	73.8	57.3	87.3	94.7
IWP	22.2%	79.3	82.2	56.5	78.8	1977.9	47.8	91.5	74.4	57.3	87.3	95.6
FastV	11.1%	77.0	67.4	41.4	77.0	1955.8	47.9	89.3	71.3	53.2	79.2	88.8
PACT	11.1%	75.8	74.6	49.3	76.5	1883.7	45.1	89.4	70.2	55.4	83.3	90.4
CDPruner	11.1%	77.8	56.2	54.7	78.2	1849.5	47.4	90.9	66.7	56.7	88.4	90.4
IWP	11.1%	76.8	71.9	45.5	76.5	1947.0	47.4	89.5	70.7	54.6	84.0	90.5

关键发现: 在 35.3% budget 下 IWP 达到 97.9% baseline 性能，超越 PACT 0.6pp 和 FastV 1.2pp。在极端 11.1% budget 下与 PACT/CDPruner 持平（90.4-90.5%）。

Table 4: Qwen2.5-VL-7B 主实验结果

Method	Budget	AI2D	DocVQA	InfoVQA	MMBench	MME	MMMU	SciQA	TextVQA	MMStar	POPE	Avg(%)
Baseline	100%	82.4	94.6	80.4	84.2	2310.2	50.7	88.3	82.8	62.3	87.6	100.0
VisionZip	35.3%	81.1	89.4	63.7	82.6	2307.6	51.0	87.8	79.5	59.3	85.2	96.0
IWP	35.3%	81.8	90.5	66.8	82.3	2319.8	50.0	87.2	80.7	61.0	85.7	96.8
IWP	22.2%	80.5	84.1	54.9	81.6	2242.7	49.6	86.0	78.0	58.6	84.1	93.0
IWP	11.1%	76.4	64.0	37.8	77.7	2152.3	48.8	84.0	71.6	53.3	78.2	84.7

关键发现: 在 Qwen2.5-VL-7B 上同样领先，35.3% budget 下超 VisionZip 0.8pp（96.8% vs 96.0%），在 22.2% budget 下超第二名 VisionZip 2.8pp。

Table 5: 视频理解结果（LLaVA-OneVision-7B, 11.1% budget）

Method	EgoSchema	Video-MME	MLVU	NExT-QA	Avg(%)
Baseline	62.4	58.4	64.7	79.3	100.0%
FastV	58.2	53.4	57.3	74.5	92.0%
PACT	61.0	54.5	61.1	76.7	95.7%
DivPrune	58.8	53.8	61.0	76.8	93.9%
IWP	62.2	54.8	60.9	77.6	96.9%

关键发现: 视频任务上 IWP 在 EgoSchema 上几乎无损（62.2 vs 62.4），总体 96.9% 超越 PACT 的 95.7%。

Table 6: 计算效率（LLaVA-OneVision-7B, ScienceQA）

Method	Budget	生成时间 (ms)	VRAM (GB)	准确率 (%)
Baseline	100%	1.07	1.78	95.9
FastV	11.1%	0.88	1.68	89.3
PACT	11.1%	0.78	1.61	89.4
DivPrune	11.1%	1.29	1.63	85.0
IWP	11.1%	0.64	1.61	89.5

关键发现: IWP 生成时间最短（0.64ms vs FastV 0.88ms），VRAM 最低（并列 1.61GB），同时准确率最高（89.5%）。

Table C.1: 幅度 vs 幅度+重复消融

Budget	仅幅度	幅度+重复	提升
35.3%	97.8%	97.9%	+0.1
22.2%	94.7%	95.6%	+0.9
11.1%	87.9%	90.5%	+2.6

关键发现: 信息重复过滤在低 budget 下更关键，11.1% 时提升 2.6pp。

Table C.2: RoPE 消融

设置	幅度含RoPE	重复含RoPE	Avg(%)
最优	✗	✓	97.9
两者都含	✓	✓	97.0
两者都不含	✗	✗	94.6
仅幅度含	✓	✗	94.6

关键发现: RoPE 对重复度量是必要的（不含则降到 94.6%），但对幅度度量有害（含则降到 97.0%）。

Table C.3: 剪枝层选择

剪枝层	Avg(%)
Layer 0	93.2
Layer 2	94.8
Layer 4	97.9
Layer 6	97.9
Layer 8	97.8
Layer 10	97.9

关键发现: Layer 4 是性能跃升的拐点，之后保持稳定。太早剪枝（Layer 0-2）效果明显差。

Table C.4: Qwen2.5-VL-32B 扩展性

Method	35.3% Avg	22.2% Avg	11.1% Avg
FastV	90.8%	84.0%	73.2%
VisionZip	94.0%	86.2%	75.1%
DivPrune	93.4%	87.7%	78.9%
CDPruner	87.2%	81.3%	71.8%
IWP	94.2%	89.6%	81.5%

关键发现: 在 32B 规模上 IWP 依然领先，尤其在极端压缩（11.1%）下优势更大（81.5% vs 78.9% DivPrune）。

Table C.5: Progressive Chunked MMR 超参数消融

参数	值	Avg(%)
$\lambda$	1	97.8
$\lambda$	5	97.9
$\lambda$	10	97.4
$g$	1	97.4
$g$	2	97.9
$g$	4	97.5
$g$	8	97.7
$b_0$	1	97.4
$b_0$	2	97.9
$b_0$	8	97.2
$b_0$	64	97.5

关键发现: 超参数相对稳健， $\lambda=5, g=2, b_0=2$ 为最优组合。过大的惩罚强度或过大的初始块会引入冗余 token。

实验结果

数据集

数据集	类型	特点	用途
AI2D	图表理解	科学图表 QA	图像测试
DocVQA	文档理解	文档视觉 QA	图像测试
InfoVQA	信息图理解	信息图 QA	图像测试
TextVQA	OCR	自然图像中文字 QA	图像测试
MMBench	多模态综合	多维度评测	图像测试
MME	多模态感知/认知	14 个子任务	图像测试
MMMU	多模态知识	大学级别多学科	图像测试
ScienceQA	科学推理	多模态科学题	图像测试
MMStar	多模态推理	复杂视觉推理	图像测试
POPE	幻觉检测	物体存在性判断	图像测试
EgoSchema	视频理解	自我中心视频 QA	视频测试
Video-MME	视频多模态	多维度视频理解	视频测试
MLVU	视频理解	长视频理解	视频测试
NExT-QA	视频推理	因果/时序推理	视频测试

实现细节

模型: LLaVA-OneVision-7B（Qwen2-7B backbone + SigLIP encoder, 729 视觉 tokens）、Qwen2.5-VL-7B（动态分辨率 ViT）、Qwen2.5-VL-32B

剪枝层: Layer 4（固定，所有模型通用）

Token budget: 35.3%（258 tokens）、22.2%（162 tokens）、11.1%（81 tokens）

超参数: $\lambda=5$ , $g=2$ , $b_0=2$

评估框架: lmms-eval

加速: FlashAttention2 启用

硬件: 未明确说明

可视化结果

Token 相似度热力图（Figure C.1）显示对偶权重相似度比 value/key cosine 更好地捕获全局冗余模式

跨层 token 选择一致性（Figure C.2）验证了 Layer 4 作为剪枝点的合理性——后续层选择的 token 子集高度重叠

批判性思考

优点

理论优雅: 从 kernel method 和对偶形式推导出 pruning 度量，比纯经验方法有更强的理论支撑，bridging linear attention 和 softmax attention

统一框架: 将”重要性”和”冗余性”统一在对偶权重空间中推导，而非独立设计两个启发式指标

实验充分: 3 个模型（7B×2 + 32B）、14 个 benchmark、3 个 budget、详尽的消融实验

计算高效: Progressive Chunked MMR 避免了 $O(N^2)$ 的完整相似度计算，实际推理速度最快

跨模态泛化: 视频任务上也表现出色，指标本身是 modality-agnostic 的

局限性

仅验证视觉模态: 虽然理论上 modality-agnostic，但实验未覆盖音频、语音、点云等其他模态

隐式特征映射不可计算: $\phi(\cdot)$ 是无穷维的，实际用 $\kappa(\cdot, \cdot)$ 替代（kernel trick），但这意味着无法直接分析核空间中的几何结构

单层剪枝: 仅在 Layer 4 做一次性剪枝，未探索渐进式多层剪枝策略

对偶形式的近似性: softmax attention 与 linear attention 的对偶形式联系依赖于 kernel 展开的理论成立性，但 softmax kernel 的 RKHS 是无穷维的，实践中这一理论联系是否完全精确值得进一步讨论

高分辨率场景: 在 Qwen2.5-VL 的动态分辨率下优势更大，但论文未深入分析为什么

潜在改进方向

多模态扩展: 将框架应用到音频 token、点云 token 等

渐进式多层剪枝: 不同层使用不同的 budget，可能比单层一次性剪枝更优

与 token merging 结合: 被剪掉的 token 信息可以 merge 到保留 token 中，减少信息损失

理论分析: 分析最优子集选择的近似比（与最优子模函数优化的关系）

动态 budget 分配: 根据输入图像的复杂度自适应调整 token budget

可复现性评估

代码开源（https://github.com/jhtwosun/IWP）
预训练模型（使用公开模型，无需额外预训练）
训练细节完整（training-free 方法，超参数完整）
数据集可获取（所有 benchmark 公开可用）

关联笔记

基于

Linear Attention: 对偶形式的理论基础

核方法: kernel trick 连接 softmax 和 linear attention

MMR: 最大边际相关性选择策略

对比

FastV: 基于注意力分数的 token pruning baseline

PACT: 结合注意力和 key cosine 聚类

VisionZip: 基于视觉编码器自注意力

DivPrune: 基于 hidden state 最小距离约束

CDPruner: 条件多样性最大化

方法相关

Token Pruning: 核心任务

Softmax Attention: 被重新解释的注意力机制

RKHS: 再生核 Hilbert 空间

Frobenius Norm: rank-1 更新的幅度度量

RoPE: 旋转位置编码，对度量设计有重要影响

FlashAttention: 加速实现

硬件/数据相关

LLaVA-OneVision: 主要评测模型

Qwen2.5-VL: 第二评测模型（支持动态分辨率）

SigLIP: LLaVA-OneVision 使用的视觉编码器

速查卡片

IWP: Token Pruning as Implicit Weight Pruning in Large Vision Language Models

核心: 将 token pruning 重新解释为对 attention 对偶权重矩阵的 rank-1 子集选择
方法: 从 kernel 对偶形式推导信息幅度（ $\kappa \cdot \|v\|$ ）和信息重复（对偶权重余弦）指标，Progressive Chunked MMR 高效选择
结果: LLaVA-OneVision-7B 上 35.3% budget 保留 97.9% 性能，超越 PACT/FastV；推理速度最快（0.64ms vs 0.88ms）
代码: https://github.com/jhtwosun/IWP

笔记创建时间: 2026-04-03

IWP: Token Pruning as Implicit Weight Pruning in Large Vision Language Models

论文笔记：IWP: Token Pruning as Implicit Weight Pruning in Large Vision Language Models

元信息

一句话总结

核心贡献

问题背景

要解决的问题

现有方法的局限

本文的动机

方法详解

核心思想：Attention 的对偶形式

信息幅度（Information Magnitude）

信息重复（Information Duplication）

Progressive Chunked MMR 算法

关键公式

公式1: 线性注意力的原始形式

公式2: 线性注意力的对偶形式

公式3: Softmax Attention 的核展开

公式4: 对偶权重矩阵分解

公式5: Rank-1 更新的 Frobenius 范数

公式6: 信息幅度指标

公式7: 对偶权重相似度（信息重复）

公式8: 最大边际相关性选择

关键图表

Figure 1: Overview / 框架概览

Figure C.1: Token 相似度可视化

Figure C.2: 跨层 Token 选择一致性

Table 1: 信息幅度指标消融（LLaVA-OneVision-7B, 35.3% budget）

Table 2: 信息重复指标消融（LLaVA-OneVision-7B, 35.3% budget）

Table 3: LLaVA-OneVision-7B 主实验结果

Table 4: Qwen2.5-VL-7B 主实验结果

Table 5: 视频理解结果（LLaVA-OneVision-7B, 11.1% budget）

Table 6: 计算效率（LLaVA-OneVision-7B, ScienceQA）

Table C.1: 幅度 vs 幅度+重复 消融

Table C.2: RoPE 消融

Table C.3: 剪枝层选择

Table C.4: Qwen2.5-VL-32B 扩展性

Table C.5: Progressive Chunked MMR 超参数消融

实验结果

数据集

实现细节

可视化结果

批判性思考

优点

局限性

潜在改进方向

可复现性评估

关联笔记

基于

对比

方法相关

硬件/数据相关

速查卡片

Table C.1: 幅度 vs 幅度+重复消融