IWP: Token Pruning as Implicit Weight Pruning in Large Vision Language Models
论文笔记:IWP: Token Pruning as Implicit Weight Pruning in Large Vision Language Models
元信息
| 项目 | 内容 |
|---|---|
| 机构 | KAIST |
| 日期 | April 2026 |
| 项目主页 | — |
| 对比基线 | FastV, PACT, VisionZip, DivPrune, CDPruner |
| 链接 | arXiv / Code |
一句话总结
将 token pruning 重新解释为对 attention 隐式权重矩阵的 rank-1 更新子集选择,从理论层面统一了重要性度量和冗余消除
核心贡献
对偶形式重新解释: 将 softmax attention 重写为隐式线性层的 rank-1 外积之和,为 token pruning 提供了理论基础
信息幅度 + 信息重复度量: 从对偶权重分解中推导出同时捕获 token 重要性和冗余性的指标,替代了传统的经验性启发式方法
Progressive Chunked MMR: 提出分块渐进式最大边际相关性算法,在保持 复杂度的同时高效完成 token 子集选择
问题背景
要解决的问题
大视觉语言模型(LVLM)中视觉 token 数量庞大(如 LLaVA-OneVision 的 729 个 token、Qwen2.5-VL 的动态分辨率更多),导致推理延迟和显存占用严重
现有 token pruning 方法缺乏理论基础,依赖经验性的启发式指标
现有方法的局限
基于注意力分数的方法(FastV, PACT): 仅关注 query-key 对齐,忽略 value 的信息量
基于多样性的方法(DivPrune): 在 hidden state 空间度量冗余,与 attention 机制脱节
混合方法(CDPruner): 虽然结合了重要性和多样性,但度量设计仍是经验性的
这些方法都没有显式地从 attention 机制本身推导出为什么某个度量是合理的
本文的动机
Softmax Attention 可以通过 kernel method 重写为对偶形式,此时每个 token 对应一个 rank-1 的权重更新
Token pruning 等价于选择一组 rank-1 更新的子集来近似完整权重矩阵——这就是”隐式权重剪枝”的含义
这一视角自然导出了信息幅度(Frobenius 范数)和信息重复(对偶权重余弦相似度)两个理论上有据的指标
方法详解
核心思想:Attention 的对偶形式
标准 Softmax Attention 可以通过 kernel trick 映射到高维 RKHS:
其中 是对偶权重矩阵,每个 token 贡献一个 rank-1 更新
Token pruning 即选择 个 rank-1 更新,使得子集
信息幅度(Information Magnitude)
衡量单个 token 的 rank-1 更新对权重矩阵的贡献大小:
其中 是 核函数
是 text token 的平均 query,用于衡量视觉 token 与文本指令的对齐程度
捕获 value 向量的信息量
该指标同时反映了 angular alignment(方向对齐)、key magnitude(键幅度) 和 value magnitude(值幅度) 三个维度
信息重复(Information Duplication)
衡量两个 rank-1 更新之间的冗余程度:
对偶权重相似度可分解为 value 空间相似度与 kernel 空间 key 相似度的乘积
关键发现:RoPE 不应用于幅度计算(会引入位置偏置),但应保留在重复度计算中(位置信息有助于判断空间冗余)
Progressive Chunked MMR 算法
基于 最大边际相关性 框架进行子集选择:
渐进分块策略:不是逐个选择 token,而是以指数增长的 chunk 大小批量选择
- 初始块大小 ,增长因子
- 每轮选择 top- 个 token 加入已选集
- 更新剩余 token 的分数:
- 直至
复杂度: 幅度计算 + 迭代式块选择,比标准 MMR 的 更高效
超参数:惩罚强度 ,剪枝层 Layer 4(第 4 层后一次性剪枝)
关键公式
公式1: 线性注意力的原始形式
含义: 线性注意力的原始形式,输出是 value 的加权和
符号说明:
- : query 向量
- : 第 个 token 的注意力权重
公式2: 线性注意力的对偶形式
含义: 将注意力重写为 query 与隐式权重矩阵的线性变换,每个 token 贡献一个 rank-1 外积
符号说明:
- : 对偶权重矩阵
- : 第 个 token 的 rank-1 更新
公式3: Softmax Attention 的核展开
含义: 通过核函数 将 softmax 注意力映射到再生核 Hilbert 空间(RKHS),建立与线性注意力的对偶联系
符号说明:
- : RKHS 中的(隐式)特征映射
- : softmax 对应的核函数
- : 归一化因子
公式4: 对偶权重矩阵分解
含义: 每个 token 贡献一个 rank-1 的对偶权重更新,总权重矩阵是所有更新之和
符号说明:
- : 第 个 token 的 rank-1 权重更新
公式5: Rank-1 更新的 Frobenius 范数
含义: rank-1 矩阵的 Frobenius 范数等于两个向量的 范数之积
符号说明:
- : 核空间中 key 的幅度
- : value 的幅度
公式6: 信息幅度指标
含义: 综合 query-key 核相似度(包含方向对齐和 key 幅度)与 value 幅度的 token 重要性指标
符号说明:
- : 核函数值,
- : value 信息量
公式7: 对偶权重相似度(信息重复)
含义: 两个 rank-1 更新的 Frobenius 内积归一化后的余弦相似度,可分解为 value 相似度 × 核空间 key 相似度
符号说明:
- 左因子: value 空间的余弦相似度
- 右因子: RKHS 中 key 的余弦相似度
公式8: 最大边际相关性选择
含义: 平衡 token 重要性(幅度)和多样性(低冗余)的贪心选择策略
符号说明:
- : 全部视觉 token 集合
- : 已选中的 token 子集
- : 第 个 token 的重要性分数
- : 惩罚强度
关键图表
Figure 1: Overview / 框架概览
{:width 600}
说明: IWP 框架总览。Softmax attention 通过 kernel mapping 重写为对偶形式,每个 token 生成 rank-1 更新 。Progressive Chunked MMR 循环基于信息幅度和信息重复度过滤 token,高效近似对偶权重矩阵。
Figure C.1: Token 相似度可视化
{:width 600}
说明: LLaVA-OneVision-7B 第 4 层中视觉和文本 token 间的相似度对比。三种度量(value cosine、key cosine、dual weight cosine)展示了不同空间中的冗余模式。对角元素已遮蔽,显示序列最后 100 个 token。
Figure C.2: 跨层 Token 选择一致性
{:width 600}
说明: 不同 Transformer 层间剪枝方法选择的视觉 token 子集的 mIoU 可视化。Layer 4 之后各层选择的 token 高度一致(mIoU > 0.8),支持了在单一早期层剪枝的设计选择。
Table 1: 信息幅度指标消融(LLaVA-OneVision-7B, 35.3% budget)
| 指标 | AI2D | DocVQA | InfoVQA | MMBench | MME | MMMU | SciQA | TextVQA | MMStar | POPE | Avg(%) |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Baseline | 81.3 | 87.1 | 66.0 | 80.7 | 1992.0 | 49.2 | 95.9 | 75.8 | 61.9 | 88.3 | 100.0 |
| 79.6 | 79.1 | 51.2 | 79.5 | 1933.0 | 49.8 | 94.2 | 67.6 | 58.7 | 88.7 | 94.6 | |
| 74.0 | 48.9 | 43.0 | 72.2 | 1558.8 | 46.6 | 83.5 | 61.7 | 49.5 | 78.1 | 81.1 | |
| 79.0 | 69.8 | 43.8 | 79.4 | 1983.6 | 47.8 | 92.5 | 68.4 | 56.7 | 85.7 | 91.4 | |
| 80.0 | 84.5 | 60.9 | 79.2 | 1998.5 | 49.3 | 92.0 | 75.3 | 57.5 | 87.0 | 97.3 | |
| 79.8 | 84.6 | 60.9 | 79.4 | 1973.4 | 49.1 | 91.8 | 75.5 | 58.2 | 87.1 | 97.3 | |
| Ours: | 79.8 | 85.4 | 61.4 | 79.4 | 2001.5 | 49.0 | 92.0 | 75.6 | 59.1 | 87.6 | 97.8 |
关键发现: 单独使用 (81.1%)或 (91.4%)远不如核函数度量(97.3%),加上 value 幅度进一步提升到 97.8%。
Table 2: 信息重复指标消融(LLaVA-OneVision-7B, 35.3% budget)
| 指标 | AI2D | DocVQA | InfoVQA | MMBench | MME | MMMU | SciQA | TextVQA | MMStar | POPE | Avg(%) |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Baseline | 81.3 | 87.1 | 66.0 | 80.7 | 1992.0 | 49.2 | 95.9 | 75.8 | 61.9 | 88.3 | 100.0 |
| 80.3 | 77.8 | 50.1 | 78.6 | 1901.9 | 48.0 | 92.8 | 71.8 | 58.1 | 88.1 | 93.9 | |
| 79.9 | 80.9 | 51.3 | 79.2 | 1900.4 | 48.6 | 92.6 | 72.9 | 58.5 | 88.6 | 94.9 | |
| 80.0 | 81.5 | 55.1 | 80.1 | 1913.8 | 48.6 | 93.8 | 73.7 | 59.1 | 88.0 | 95.9 | |
| 80.3 | 84.4 | 60.2 | 79.6 | 1965.9 | 49.0 | 92.7 | 75.0 | 59.9 | 88.5 | 97.6 | |
| Ours: | 80.5 | 85.3 | 60.6 | 79.6 | 1985.0 | 48.9 | 92.9 | 75.2 | 60.0 | 88.1 | 97.9 |
关键发现: 对偶权重相似度(97.9%)优于 hidden state 相似度(94.9%,DivPrune 用法)和 key 余弦相似度(95.9%,PACT 用法),核空间 key 相似度(97.6%)也很强。
Table 3: LLaVA-OneVision-7B 主实验结果
| Method | Budget | AI2D | DocVQA | InfoVQA | MMBench | MME | MMMU | SciQA | TextVQA | MMStar | POPE | Avg(%) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Baseline | 100% | 81.3 | 87.1 | 66.0 | 80.7 | 1992.0 | 49.2 | 95.9 | 75.8 | 61.9 | 88.3 | 100.0 |
| FastV | 35.3% | 79.6 | 84.5 | 58.0 | 79.1 | 1984.5 | 48.4 | 91.8 | 75.6 | 58.7 | 86.5 | 96.7 |
| PACT | 35.3% | 79.9 | 84.2 | 60.9 | 79.3 | 1947.8 | 48.3 | 92.7 | 75.4 | 59.1 | 88.3 | 97.3 |
| VisionZip | 35.3% | 76.2 | 47.6 | 36.0 | 77.7 | 1916.2 | 46.4 | 90.1 | 63.0 | 53.8 | 87.8 | 85.3 |
| DivPrune | 35.3% | 79.2 | 71.0 | 46.7 | 78.4 | 1850.3 | 49.6 | 91.8 | 67.7 | 57.3 | 88.3 | 91.8 |
| CDPruner | 35.3% | 78.0 | 60.3 | 50.6 | 79.9 | 1914.3 | 46.9 | 92.8 | 71.2 | 57.9 | 88.5 | 91.7 |
| IWP | 35.3% | 80.5 | 85.3 | 60.6 | 79.6 | 1985.0 | 48.9 | 92.9 | 75.2 | 60.0 | 88.1 | 97.9 |
| FastV | 22.2% | 78.6 | 80.6 | 52.1 | 78.5 | 1994.5 | 47.7 | 91.1 | 74.6 | 57.0 | 84.7 | 94.4 |
| PACT | 22.2% | 79.7 | 80.5 | 54.9 | 77.8 | 1905.4 | 47.8 | 90.9 | 73.8 | 57.3 | 87.3 | 94.7 |
| IWP | 22.2% | 79.3 | 82.2 | 56.5 | 78.8 | 1977.9 | 47.8 | 91.5 | 74.4 | 57.3 | 87.3 | 95.6 |
| FastV | 11.1% | 77.0 | 67.4 | 41.4 | 77.0 | 1955.8 | 47.9 | 89.3 | 71.3 | 53.2 | 79.2 | 88.8 |
| PACT | 11.1% | 75.8 | 74.6 | 49.3 | 76.5 | 1883.7 | 45.1 | 89.4 | 70.2 | 55.4 | 83.3 | 90.4 |
| CDPruner | 11.1% | 77.8 | 56.2 | 54.7 | 78.2 | 1849.5 | 47.4 | 90.9 | 66.7 | 56.7 | 88.4 | 90.4 |
| IWP | 11.1% | 76.8 | 71.9 | 45.5 | 76.5 | 1947.0 | 47.4 | 89.5 | 70.7 | 54.6 | 84.0 | 90.5 |
关键发现: 在 35.3% budget 下 IWP 达到 97.9% baseline 性能,超越 PACT 0.6pp 和 FastV 1.2pp。在极端 11.1% budget 下与 PACT/CDPruner 持平(90.4-90.5%)。
Table 4: Qwen2.5-VL-7B 主实验结果
| Method | Budget | AI2D | DocVQA | InfoVQA | MMBench | MME | MMMU | SciQA | TextVQA | MMStar | POPE | Avg(%) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Baseline | 100% | 82.4 | 94.6 | 80.4 | 84.2 | 2310.2 | 50.7 | 88.3 | 82.8 | 62.3 | 87.6 | 100.0 |
| VisionZip | 35.3% | 81.1 | 89.4 | 63.7 | 82.6 | 2307.6 | 51.0 | 87.8 | 79.5 | 59.3 | 85.2 | 96.0 |
| IWP | 35.3% | 81.8 | 90.5 | 66.8 | 82.3 | 2319.8 | 50.0 | 87.2 | 80.7 | 61.0 | 85.7 | 96.8 |
| IWP | 22.2% | 80.5 | 84.1 | 54.9 | 81.6 | 2242.7 | 49.6 | 86.0 | 78.0 | 58.6 | 84.1 | 93.0 |
| IWP | 11.1% | 76.4 | 64.0 | 37.8 | 77.7 | 2152.3 | 48.8 | 84.0 | 71.6 | 53.3 | 78.2 | 84.7 |
关键发现: 在 Qwen2.5-VL-7B 上同样领先,35.3% budget 下超 VisionZip 0.8pp(96.8% vs 96.0%),在 22.2% budget 下超第二名 VisionZip 2.8pp。
Table 5: 视频理解结果(LLaVA-OneVision-7B, 11.1% budget)
| Method | EgoSchema | Video-MME | MLVU | NExT-QA | Avg(%) |
|---|---|---|---|---|---|
| Baseline | 62.4 | 58.4 | 64.7 | 79.3 | 100.0% |
| FastV | 58.2 | 53.4 | 57.3 | 74.5 | 92.0% |
| PACT | 61.0 | 54.5 | 61.1 | 76.7 | 95.7% |
| DivPrune | 58.8 | 53.8 | 61.0 | 76.8 | 93.9% |
| IWP | 62.2 | 54.8 | 60.9 | 77.6 | 96.9% |
关键发现: 视频任务上 IWP 在 EgoSchema 上几乎无损(62.2 vs 62.4),总体 96.9% 超越 PACT 的 95.7%。
Table 6: 计算效率(LLaVA-OneVision-7B, ScienceQA)
| Method | Budget | 生成时间 (ms) | VRAM (GB) | 准确率 (%) |
|---|---|---|---|---|
| Baseline | 100% | 1.07 | 1.78 | 95.9 |
| FastV | 11.1% | 0.88 | 1.68 | 89.3 |
| PACT | 11.1% | 0.78 | 1.61 | 89.4 |
| DivPrune | 11.1% | 1.29 | 1.63 | 85.0 |
| IWP | 11.1% | 0.64 | 1.61 | 89.5 |
关键发现: IWP 生成时间最短(0.64ms vs FastV 0.88ms),VRAM 最低(并列 1.61GB),同时准确率最高(89.5%)。
Table C.1: 幅度 vs 幅度+重复 消融
| Budget | 仅幅度 | 幅度+重复 | 提升 |
|---|---|---|---|
| 35.3% | 97.8% | 97.9% | +0.1 |
| 22.2% | 94.7% | 95.6% | +0.9 |
| 11.1% | 87.9% | 90.5% | +2.6 |
关键发现: 信息重复过滤在低 budget 下更关键,11.1% 时提升 2.6pp。
Table C.2: RoPE 消融
| 设置 | 幅度含RoPE | 重复含RoPE | Avg(%) |
|---|---|---|---|
| 最优 | ✗ | ✓ | 97.9 |
| 两者都含 | ✓ | ✓ | 97.0 |
| 两者都不含 | ✗ | ✗ | 94.6 |
| 仅幅度含 | ✓ | ✗ | 94.6 |
关键发现: RoPE 对重复度量是必要的(不含则降到 94.6%),但对幅度度量有害(含则降到 97.0%)。
Table C.3: 剪枝层选择
| 剪枝层 | Avg(%) |
|---|---|
| Layer 0 | 93.2 |
| Layer 2 | 94.8 |
| Layer 4 | 97.9 |
| Layer 6 | 97.9 |
| Layer 8 | 97.8 |
| Layer 10 | 97.9 |
关键发现: Layer 4 是性能跃升的拐点,之后保持稳定。太早剪枝(Layer 0-2)效果明显差。
Table C.4: Qwen2.5-VL-32B 扩展性
| Method | 35.3% Avg | 22.2% Avg | 11.1% Avg |
|---|---|---|---|
| FastV | 90.8% | 84.0% | 73.2% |
| VisionZip | 94.0% | 86.2% | 75.1% |
| DivPrune | 93.4% | 87.7% | 78.9% |
| CDPruner | 87.2% | 81.3% | 71.8% |
| IWP | 94.2% | 89.6% | 81.5% |
关键发现: 在 32B 规模上 IWP 依然领先,尤其在极端压缩(11.1%)下优势更大(81.5% vs 78.9% DivPrune)。
Table C.5: Progressive Chunked MMR 超参数消融
| 参数 | 值 | Avg(%) |
|---|---|---|
| 1 | 97.8 | |
| 5 | 97.9 | |
| 10 | 97.4 | |
| 1 | 97.4 | |
| 2 | 97.9 | |
| 4 | 97.5 | |
| 8 | 97.7 | |
| 1 | 97.4 | |
| 2 | 97.9 | |
| 8 | 97.2 | |
| 64 | 97.5 |
关键发现: 超参数相对稳健, 为最优组合。过大的惩罚强度或过大的初始块会引入冗余 token。
实验结果
数据集
| 数据集 | 类型 | 特点 | 用途 |
|---|---|---|---|
| AI2D | 图表理解 | 科学图表 QA | 图像测试 |
| DocVQA | 文档理解 | 文档视觉 QA | 图像测试 |
| InfoVQA | 信息图理解 | 信息图 QA | 图像测试 |
| TextVQA | OCR | 自然图像中文字 QA | 图像测试 |
| MMBench | 多模态综合 | 多维度评测 | 图像测试 |
| MME | 多模态感知/认知 | 14 个子任务 | 图像测试 |
| MMMU | 多模态知识 | 大学级别多学科 | 图像测试 |
| ScienceQA | 科学推理 | 多模态科学题 | 图像测试 |
| MMStar | 多模态推理 | 复杂视觉推理 | 图像测试 |
| POPE | 幻觉检测 | 物体存在性判断 | 图像测试 |
| EgoSchema | 视频理解 | 自我中心视频 QA | 视频测试 |
| Video-MME | 视频多模态 | 多维度视频理解 | 视频测试 |
| MLVU | 视频理解 | 长视频理解 | 视频测试 |
| NExT-QA | 视频推理 | 因果/时序推理 | 视频测试 |
实现细节
模型: LLaVA-OneVision-7B(Qwen2-7B backbone + SigLIP encoder, 729 视觉 tokens)、Qwen2.5-VL-7B(动态分辨率 ViT)、Qwen2.5-VL-32B
剪枝层: Layer 4(固定,所有模型通用)
Token budget: 35.3%(258 tokens)、22.2%(162 tokens)、11.1%(81 tokens)
超参数: , ,
评估框架: lmms-eval
加速: FlashAttention2 启用
硬件: 未明确说明
可视化结果
Token 相似度热力图(Figure C.1)显示对偶权重相似度比 value/key cosine 更好地捕获全局冗余模式
跨层 token 选择一致性(Figure C.2)验证了 Layer 4 作为剪枝点的合理性——后续层选择的 token 子集高度重叠
批判性思考
优点
理论优雅: 从 kernel method 和对偶形式推导出 pruning 度量,比纯经验方法有更强的理论支撑,bridging linear attention 和 softmax attention
统一框架: 将”重要性”和”冗余性”统一在对偶权重空间中推导,而非独立设计两个启发式指标
实验充分: 3 个模型(7B×2 + 32B)、14 个 benchmark、3 个 budget、详尽的消融实验
计算高效: Progressive Chunked MMR 避免了 的完整相似度计算,实际推理速度最快
跨模态泛化: 视频任务上也表现出色,指标本身是 modality-agnostic 的
局限性
仅验证视觉模态: 虽然理论上 modality-agnostic,但实验未覆盖音频、语音、点云等其他模态
隐式特征映射不可计算: 是无穷维的,实际用 替代(kernel trick),但这意味着无法直接分析核空间中的几何结构
单层剪枝: 仅在 Layer 4 做一次性剪枝,未探索渐进式多层剪枝策略
对偶形式的近似性: softmax attention 与 linear attention 的对偶形式联系依赖于 kernel 展开的理论成立性,但 softmax kernel 的 RKHS 是无穷维的,实践中这一理论联系是否完全精确值得进一步讨论
高分辨率场景: 在 Qwen2.5-VL 的动态分辨率下优势更大,但论文未深入分析为什么
潜在改进方向
多模态扩展: 将框架应用到音频 token、点云 token 等
渐进式多层剪枝: 不同层使用不同的 budget,可能比单层一次性剪枝更优
与 token merging 结合: 被剪掉的 token 信息可以 merge 到保留 token 中,减少信息损失
理论分析: 分析最优子集选择的近似比(与最优子模函数优化的关系)
动态 budget 分配: 根据输入图像的复杂度自适应调整 token budget
可复现性评估
- 代码开源(https://github.com/jhtwosun/IWP)
- 预训练模型(使用公开模型,无需额外预训练)
- 训练细节完整(training-free 方法,超参数完整)
- 数据集可获取(所有 benchmark 公开可用)
关联笔记
基于
Linear Attention: 对偶形式的理论基础
核方法: kernel trick 连接 softmax 和 linear attention
MMR: 最大边际相关性选择策略
对比
FastV: 基于注意力分数的 token pruning baseline
PACT: 结合注意力和 key cosine 聚类
VisionZip: 基于视觉编码器自注意力
DivPrune: 基于 hidden state 最小距离约束
CDPruner: 条件多样性最大化
方法相关
Token Pruning: 核心任务
Softmax Attention: 被重新解释的注意力机制
RKHS: 再生核 Hilbert 空间
Frobenius Norm: rank-1 更新的幅度度量
RoPE: 旋转位置编码,对度量设计有重要影响
FlashAttention: 加速实现
硬件/数据相关
LLaVA-OneVision: 主要评测模型
Qwen2.5-VL: 第二评测模型(支持动态分辨率)
SigLIP: LLaVA-OneVision 使用的视觉编码器
速查卡片
IWP: Token Pruning as Implicit Weight Pruning in Large Vision Language Models
- 核心: 将 token pruning 重新解释为对 attention 对偶权重矩阵的 rank-1 子集选择
- 方法: 从 kernel 对偶形式推导信息幅度()和信息重复(对偶权重余弦)指标,Progressive Chunked MMR 高效选择
- 结果: LLaVA-OneVision-7B 上 35.3% budget 保留 97.9% 性能,超越 PACT/FastV;推理速度最快(0.64ms vs 0.88ms)
- 代码: https://github.com/jhtwosun/IWP
笔记创建时间: 2026-04-03