Rényi Entropy: A New Token Pruning Metric for Vision Transformers
论文笔记:Rényi Entropy: A New Token Pruning Metric for Vision Transformers
元信息
| 项目 | 内容 |
|---|---|
| 机构 | University of California, Santa Barbara |
| 日期 | March 2026 |
| 项目主页 | - |
| 对比基线 | EViT, TCA, PruMerge, VisPruner |
| 链接 | arXiv / Code |
一句话总结
提出基于 Rényi 熵 的无训练 token 重要性度量 Col-Ln,通过列向 ℓn-范数替代不可靠的 [CLS] 注意力,从第一层就能准确识别重要 token。
核心贡献
揭示 [CLS] 指导剪枝的缺陷: 在 ViT 早期层中 [CLS] token 的注意力尚未成熟,导致重要前景 token 被错误丢弃,甚至不如随机剪枝
提出 Col-Ln 度量: 基于 Rényi 熵 推导出的无参数度量,利用 patch 间的集体共识而非单一 [CLS] 代理来衡量 token 重要性
广泛验证: 在 ViT 和 LVLM 上全面超越 SOTA 方法,同时可作为现有 [CLS] 方法的修正机制
问题背景
要解决的问题
ViT 的 Multi-Head Self-Attention 复杂度为 ,高分辨率输入下推理成本高昂
Token Pruning 是加速推理的关键技术,但现有方法依赖 [CLS] token 的注意力权重来估计 patch 重要性
现有方法的局限
语义不成熟: 在早期层(如 L0-L3),[CLS] token 随机初始化,尚未聚合足够的全局信息,其注意力图具有误导性
任务偏置: [CLS] token 受最终任务头监督,注意力分布偏向训练目标相关特征,泛化性差
Table 1 实证:在 ViT-Small 上,[CLS] 方法在多个 keep rate 下都不如随机剪枝
本文的动机
信息丰富的 token 会从多个其他 token 获得集中的注意力(低熵 = 高共识),而冗余 token 获得的注意力分散(高熵 = 低共识)
用 Rényi 熵 量化列方向的注意力集中度,可以从第一层就可靠地识别重要 token
方法详解
核心思想
Col-Ln 放弃以 [CLS] 为中心的全局代理方式,转而采用集体共识机制:
- 输入: 注意力矩阵
- 核心: 对每个 token ,计算其被所有其他 token 关注的列向注意力分布的 Rényi 熵
- 判断: 低熵 → 高共识 → 重要 token;高熵 → 低共识 → 冗余 token
- 输出: 保留 Rényi 熵最低的 Top-K token
核心模块
模块1: Rényi 熵重要性度量
设计动机: 利用 Rényi 熵 的数学性质将熵最小化等价转化为 ℓn-范数最大化,避免直接计算对数
具体实现:
- 计算注意力矩阵每列的 Rényi 熵,度量 token 被其他 token 关注的集中程度
- 利用 Rényi 熵与 ℓn-范数的单调关系,将最小熵选择转化为最大 ℓn-范数选择
- 阶参数 控制对高概率事件的敏感度, 越大越能隔离达到强共识的 token
模块2: Col-Ln 修正机制(Correcting)
设计动机: 作为现有 [CLS] 方法的补充,“拯救”被 [CLS] 错误标记为不重要的关键 token
具体实现:
- 通过 rescue ratio 分配预算: 个 token 由 [CLS] 选择
- 剩余 个 token 从 [CLS] 未选中的候选中按 Col-Ln 排序选取
- 两组合并后保留,缓解早期层的过早信息丢失
关键公式
公式1: Rényi 熵定义
含义: 度量 token 收到的列向注意力分布的集中程度
符号说明:
- : token 对 token 的注意力权重
- : 阶参数, 时对高概率事件更敏感
- : token 总数
公式2: ℓn-范数等价形式
含义: 将 Rényi 熵改写为 ℓn-范数的对数形式
符号说明:
- : ℓn-范数
- : 当 时为严格负系数
公式3: 最小熵等价于最大 ℓn-范数
含义: 由于系数为负且对数单调递增,最小化 Rényi 熵等价于最大化列 ℓn-范数
符号说明:
- : 选择最小的 个
- : 选择最大的 个
公式4: Col-Ln 重要性分数
含义: 每个 token 的 Col-Ln 重要性分数,即注意力矩阵第 列的 ℓn-范数
符号说明:
- : token 的重要性分数
- : 范数阶数(论文中使用 )
公式5: 修正模式预算分配
含义: 将保留预算 按 rescue ratio 分配给 [CLS] 和 Col-Ln 两个选择器
符号说明:
- : 总保留 token 数
- : rescue ratio(论文中使用 )
- : 由 [CLS] 注意力选择的 token 数
- : 由 Col-Ln 从剩余候选中选择的 token 数
关键图表
Figure 1: Visual Comparison / Token 剪枝视觉对比
{:width 600}
说明: 对比 [CLS] 注意力和 Col-Ln 在初始层(L₀–L₅)的 token 剪枝效果。[CLS] 在早期层频繁误删前景 token,Col-Ln 从第一层起就能准确保留语义重要的 token。
Figure 2: Method Diagram / 方法对比图
{:width 600}
说明: 左侧为传统 [CLS] 方法,依赖 [CLS] 行注意力选 token;右侧为 Col-Ln 方法,计算每列的 ℓn-范数作为重要性分数,利用所有 patch 的集体共识。
Figure 3: Training Loss Comparison / 训练损失对比
{:width 600}
{:width 600}
说明: EViT 框架下的训练损失对比。(a) 在 (0,3,6) 调度下,Col-Ln 的初始损失显著低于 [CLS],说明从一开始就保留了更多关键信息。(b) 在 (3,6,9) 调度下差异缩小,符合 [CLS] 在深层更可靠的预期。
Figure 4: Heatmap Visualization / 注意力热力图
{:width 600}
说明: 对比 [CLS] 注意力(上方)和 Col-Ln 重要性分数(下方)在 L₀–L₅ 的热力图。[CLS] 在早期层注意力分散且噪声大,Col-Ln 从第一层就集中于前景目标。
Figure 5: Layer-wise Attention / 不同阶数的逐层注意力
{:width 600}
说明: ViT-Base 上 [CLS] 注意力与不同阶数 的 Col-Ln 的逐层可视化。高阶(如 )的 Col-Ln 在所有层都能产生更集中、更有区分度的重要性分布。
Table 1: EViT on ViT-Small / [CLS] 失败实证
| Keep rate () | [CLS] | Random |
|---|---|---|
| 0.7 | 66.1 | 73.2 |
| 0.8 | 74.0 | 77.6 |
| 0.9 | 79.0 | 80.0 |
说明: 在 (0,3,6) 调度下,[CLS] 在所有 keep rate 上都不如随机剪枝,实证确认其在早期层的灾难性失败。
Table 2: Early-Layer Pruning / 早期层剪枝
| Model | [CLS] | Ours | GFLOPs | |
|---|---|---|---|---|
| ViT-S/16 | - | 81.38 | 81.38 | 4.6 |
| 4 | 80.98 | 81.14 | 4.2 | |
| 8 | 80.12 | 80.59 | 3.7 | |
| 12 | 79.06 | 79.94 | 3.3 | |
| 16 | 77.22 | 78.78 | 2.9 | |
| 20 | 73.87 | 76.65 | 2.4 | |
| 24 | 66.54 | 71.40 | 2.0 | |
| ViT-B/16 | - | 84.54 | 84.54 | 17.6 |
| 4 | 83.87 | 84.33 | 15.9 | |
| 8 | 83.07 | 83.98 | 14.2 | |
| 12 | 82.05 | 83.47 | 12.6 | |
| 16 | 80.53 | 82.73 | 11.0 | |
| 20 | 77.93 | 81.01 | 9.3 | |
| 24 | 72.02 | 77.29 | 7.7 | |
| ViT-L/16 | - | 85.83 | 85.83 | 61.6 |
| 8 | 84.82 | 84.98 | 48.1 | |
| 16 | 82.15 | 82.94 | 34.8 | |
| 24 | 65.54 | 72.16 | 21.5 |
说明: 仅在前 6 层剪枝。Col-Ln 在所有模型和剪枝强度下均优于 [CLS],在最激进的 下优势分别达 +4.86%(ViT-S)、+5.27%(ViT-B)、+6.62%(ViT-L)。
Table 3: All-Layer Pruning / 全层剪枝
| Model | [CLS] | Ours | GFLOPs | |
|---|---|---|---|---|
| ViT-S/16 | - | 81.38 | 81.38 | 4.6 |
| 2 | 81.21 | 81.29 | 4.3 | |
| 4 | 80.92 | 81.08 | 4.0 | |
| 6 | 80.50 | 80.76 | 3.7 | |
| 8 | 79.99 | 80.39 | 3.4 | |
| 10 | 79.22 | 79.76 | 3.1 | |
| 12 | 78.10 | 78.63 | 2.9 | |
| ViT-B/16 | - | 84.54 | 84.54 | 17.6 |
| 2 | 84.19 | 84.48 | 16.5 | |
| 4 | 83.88 | 84.30 | 15.3 | |
| 6 | 83.51 | 84.17 | 14.2 | |
| 8 | 82.98 | 83.87 | 13.1 | |
| 10 | 82.27 | 83.39 | 12.0 | |
| 12 | 81.44 | 82.70 | 10.9 | |
| ViT-L/16 | - | 85.83 | 85.83 | 61.6 |
| 2 | 85.61 | 85.68 | 53.8 | |
| 4 | 85.27 | 85.34 | 46.1 | |
| 6 | 84.40 | 84.64 | 38.5 |
说明: 全层逐层剪枝。Col-Ln 在所有配置下一致优于 [CLS],ViT-B 在 时优势达 +1.26%。
Table 4: OOD Robustness / 分布外鲁棒性(TCA 框架)
| Method | Layers | I | A | V | R | S | Avg | GFLOPs |
|---|---|---|---|---|---|---|---|---|
| CLIP-ViT-B/16 | - | 68.37 | 50.20 | 61.86 | 77.55 | 48.24 | 61.24 | 17.6 |
| TCA | 3,6,9 | 65.46 | 47.42 | 59.14 | 66.04 | 43.91 | 56.39 | 11.9 |
| Ours | 3,6,9 | 65.31 | 49.27 | 59.13 | 72.10 | 45.64 | 58.39 | - |
| TCA | 0,3,6 | 62.26 | 38.97 | 55.71 | 60.43 | 41.09 | 51.69 | 9.2 |
| Ours | 0,3,6 | 62.25 | 40.47 | 55.51 | 64.33 | 41.09 | 52.73 | - |
说明: ImageNet OOD 变体上的鲁棒性。Col-Ln 在 keep rate 0.7 下将平均 OOD 准确率从 56.39% 提升至 58.39%(+2.0%),无需微调。
Table 5: Cross-dataset Classification / 跨数据集分类
| Method | Layers | C101 | OP | SC | OF | F101 | A | S397 | DTD | ES | UFC | Avg |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| CLIP-ViT-B/16 | - | 92.98 | 89.13 | 59.32 | 71.38 | 86.11 | 24.33 | 65.48 | 45.57 | 48.16 | 68.83 | 65.80 |
| TCA | 3,6,9 | 90.87 | 85.15 | 59.32 | 71.17 | 79.29 | 23.82 | 62.10 | 44.92 | 56.89 | 68.97 | 64.25 |
| Ours | 3,6,9 | 92.74 | 85.99 | 57.64 | 70.85 | 81.29 | 22.98 | 63.14 | 43.97 | 58.11 | 69.34 | 64.61 |
| TCA | 0,3,6 | 84.67 | 82.12 | 52.13 | 69.59 | 75.95 | 22.05 | 59.02 | 43.03 | 46.93 | 62.33 | 59.78 |
| Ours | 0,3,6 | 89.90 | 82.47 | 49.66 | 68.53 | 77.41 | 22.17 | 60.93 | 43.03 | 48.93 | 67.01 | 61.00 |
说明: 10 个下游数据集上的跨数据集分类。Col-Ln 平均准确率 64.61% 超过 TCA 的 64.25%。
Table 6: LVLM Pruning (PruMerge) / 大视觉语言模型剪枝
| Method | VQAv2 | GQA | VizWiz | SQA | TextVQA | POPE | MME | MMB | MMB-CN | MM-Vet | Avg | Rel.% | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| LLaVA-1.5 Full | 576 | 76.7 | 62.0 | 54.2 | 69.5 | 58.2 | 85.9 | 1505 | 64.6 | 58.1 | 29.7 | 63.4 | 100.0 |
| PruMerge | 256 | 70.8 | 55.7 | 56.0 | 68.0 | 54.7 | 73.7 | 1364 | 61.8 | 56.4 | 26.8 | 59.2 | 93.4 |
| Ours | 256 | 75.2 | 59.5 | 54.4 | 67.9 | 55.4 | 85.9 | 1471 | 63.7 | 58.5 | 29.2 | 62.3 | 98.3 |
| PruMerge | 192 | 69.0 | 54.3 | 55.9 | 67.2 | 54.2 | 71.3 | 1298 | 59.3 | 53.0 | 26.6 | 57.8 | 91.2 |
| Ours | 192 | 74.6 | 58.9 | 55.0 | 67.8 | 54.7 | 85.2 | 1434 | 63.3 | 57.0 | 29.9 | 61.8 | 97.5 |
说明: 在 LLaVA-1.5-7B 上使用 PruMerge 框架。 时 Col-Ln 保持原模型 98.3% 性能(vs PruMerge 的 93.4%),POPE 指标完全无损。
Table 7: Early-Layer Correcting / 早期层修正
| Model | [CLS] | Ours | GFLOPs | |
|---|---|---|---|---|
| ViT-S/16 | - | 81.38 | 81.38 | 4.6 |
| 4 | 80.98 | 81.03 | 4.2 | |
| 8 | 80.12 | 80.65 | 3.7 | |
| 12 | 79.06 | 79.93 | 3.3 | |
| 16 | 77.22 | 78.81 | 2.9 | |
| 20 | 73.87 | 76.53 | 2.4 | |
| 24 | 66.54 | 71.33 | 2.0 | |
| ViT-B/16 | - | 84.54 | 84.54 | 17.6 |
| 4 | 83.87 | 84.34 | 15.9 | |
| 8 | 83.07 | 84.02 | 14.2 | |
| 12 | 82.05 | 83.54 | 12.6 | |
| 16 | 80.53 | 82.68 | 11.0 | |
| 20 | 77.93 | 81.02 | 9.3 | |
| 24 | 72.02 | 77.28 | 7.7 | |
| ViT-L/16 | - | 85.83 | 85.83 | 61.6 |
| 8 | 84.82 | 84.85 | 48.1 | |
| 16 | 82.15 | 82.99 | 34.8 | |
| 24 | 65.54 | 72.69 | 21.5 |
说明: 修正模式下的早期层剪枝结果,Col-Ln 有效修正 [CLS] 的错误判断。
Table 8: All-Layer Correcting / 全层修正
| Model | [CLS] | Ours | GFLOPs | |
|---|---|---|---|---|
| ViT-S/16 | - | 81.38 | 81.38 | 4.6 |
| 2 | 81.21 | 81.32 | 4.3 | |
| 4 | 80.92 | 81.06 | 4.0 | |
| 6 | 80.50 | 80.80 | 3.7 | |
| 8 | 79.99 | 80.46 | 3.4 | |
| 10 | 79.22 | 79.83 | 3.1 | |
| 12 | 78.10 | 78.70 | 2.9 | |
| ViT-B/16 | - | 84.54 | 84.54 | 17.6 |
| 2 | 84.19 | 84.46 | 16.5 | |
| 4 | 83.88 | 84.32 | 15.3 | |
| 6 | 83.51 | 84.15 | 14.2 | |
| 8 | 82.98 | 83.89 | 13.1 | |
| 10 | 82.27 | 83.53 | 12.0 | |
| 12 | 81.44 | 82.82 | 10.9 | |
| ViT-L/16 | - | 85.83 | 85.83 | 61.6 |
| 2 | 85.61 | 85.69 | 53.8 | |
| 4 | 85.27 | 85.28 | 46.1 | |
| 6 | 84.40 | 84.71 | 38.5 |
说明: 全层修正模式下 Col-Ln 同样一致优于纯 [CLS] 方法。
Table 9: EViT on ViT-Small / EViT 框架对比(ViT-Small)
| Keep Rate | Pruning Layers | [CLS] | Ours | Random | GFLOPs |
|---|---|---|---|---|---|
| - | - | 81.4 | 81.4 | 81.4 | 4.6 |
| 0.7 | 3,6,9 | 78.9 | 79.0 | 77.3 | 3.0 |
| 0,3,6 | 66.1 | 75.0 | 73.2 | 2.3 | |
| 0.8 | 3,6,9 | 80.5 | 80.5 | 79.5 | 3.5 |
| 0,3,6 | 74.0 | 78.6 | 77.6 | 2.9 | |
| 0.9 | 3,6,9 | 81.3 | 81.3 | 80.6 | 4.0 |
| 0,3,6 | 79.0 | 80.5 | 80.0 | 3.7 |
说明: 在 (0,3,6) 调度下 Col-Ln 以 +8.9% 的巨大优势超越 [CLS](75.0% vs 66.1%)。
Table 10: EViT on ViT-Base / EViT 框架对比(ViT-Base)
| Keep Rate | Pruning Layers | [CLS] | Ours | Random | GFLOPs |
|---|---|---|---|---|---|
| - | - | 84.5 | 84.5 | 84.5 | 17.6 |
| 0.7 | 3,6,9 | 83.0 | 83.0 | 81.0 | 11.6 |
| 0,3,6 | 69.7 | 79.9 | 77.8 | 8.8 | |
| 0.8 | 3,6,9 | 83.9 | 84.1 | 82.7 | 13.3 |
| 0,3,6 | 76.7 | 82.1 | 81.4 | 11.3 | |
| 0.9 | 3,6,9 | 84.5 | 84.5 | 83.9 | 15.4 |
| 0,3,6 | 81.8 | 83.9 | 83.4 | 14.3 |
说明: ViT-Base 上 (0,3,6) 调度的优势更为惊人:keep rate 0.7 时 Col-Ln 79.9% vs [CLS] 69.7%(+10.2%)。
Table 11: Trend Analysis / 趋势分析(ViT-Small)
| Keep Rate | Pruning Layers | [CLS] | Ours | Random | GFLOPs |
|---|---|---|---|---|---|
| - | - | 81.4 | 81.4 | 81.4 | 4.6 |
| 0.7 | 0,3,6 | 66.1 | 75.0 | 73.2 | 2.3 |
| 1,4,7 | 76.3 | 77.0 | 74.8 | 2.5 | |
| 2,5,8 | 77.9 | 78.3 | 75.9 | 2.8 | |
| 3,6,9 | 78.9 | 79.0 | 77.3 | 3.0 | |
| 4,7,10 | 79.6 | 79.8 | 78.3 | 3.3 |
说明: 随剪枝调度向深层移动,[CLS] 逐渐改善但 Col-Ln 始终保持最优,证明其在所有层深度的鲁棒性。
Table 12: LVLM Pruning (VisPruner) / VisPruner 框架
| Method | VQAv2 | GQA | VizWiz | SQA | TextVQA | POPE | MME | MMB | MMB-CN | MM-Vet | Avg | Rel.% | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| LLaVA Full | 576 | 76.7 | 62.0 | 54.2 | 69.5 | 58.2 | 85.9 | 1505 | 64.6 | 58.1 | 29.7 | 63.4 | 100.0 |
| VisPruner | 256 | 76.0 | 60.4 | 53.9 | 68.4 | 57.7 | 86.4 | 1454 | 63.4 | 57.2 | 31.1 | 62.7 | 98.9 |
| Ours | 256 | 76.0 | 60.4 | 54.0 | 69.1 | 57.9 | 86.5 | 1483 | 63.4 | 58.0 | 32.1 | 63.2 | 99.7 |
| VisPruner | 192 | 75.2 | 59.4 | 54.6 | 68.7 | 57.4 | 85.7 | 1459 | 62.3 | 57.2 | 30.5 | 62.4 | 98.4 |
| Ours | 192 | 75.2 | 59.4 | 54.6 | 68.7 | 57.8 | 86.0 | 1482 | 63.1 | 57.9 | 33.3 | 63.0 | 99.4 |
说明: 在 VisPruner 框架下 时保持原模型 99.7% 性能,接近无损压缩。
Table 13: EViT Fine-tuning / EViT 微调结果
| Model | Pruning Layers | [CLS] | Ours | Random | GFLOPs |
|---|---|---|---|---|---|
| ViT-S | 0,3,6 | 77.2 | 79.3 | 77.3 | 2.3 |
| 3,6,9 | 81.0 | 81.1 | 79.4 | 3.0 |
说明: 微调 30 epochs 后,(0,3,6) 调度下 Col-Ln 仍比 [CLS] 高 +2.1%,且 [CLS] 与 Random 持平(77.2 vs 77.3)。
Table 14: EViT on DeiT-Small / DeiT-Small 推理
| Keep Rate | Pruning Layers | [CLS] | Ours | Random | GFLOPs |
|---|---|---|---|---|---|
| - | - | 79.8 | 79.8 | 79.8 | 4.6 |
| 0.7 | 3,6,9 | 78.5 | 78.5 | 77.5 | 3.0 |
| 0,3,6 | 64.7 | 75.1 | 74.5 | 2.3 | |
| 0.8 | 3,6,9 | 79.3 | 79.3 | 78.5 | 3.5 |
| 0,3,6 | 72.1 | 77.7 | 77.3 | 2.9 | |
| 0.9 | 3,6,9 | 79.7 | 79.7 | 79.3 | 4.0 |
| 0,3,6 | 77.4 | 79.1 | 78.9 | 3.7 |
说明: 在 DeiT-Small 上同样验证了 Col-Ln 的优越性,(0,3,6) keep rate 0.7 时 +10.4% 优于 [CLS]。
Table 15: EViT on DeiT-Base / DeiT-Base 推理
| Keep Rate | Pruning Layers | [CLS] | Ours | Random | GFLOPs |
|---|---|---|---|---|---|
| - | - | 82.0 | 82.0 | 82.0 | 4.6 |
| 0.7 | 3,6,9 | 80.6 | 80.6 | 78.8 | 3.0 |
| 0,3,6 | 71.3 | 76.6 | 75.7 | 2.3 | |
| 0.8 | 3,6,9 | 81.3 | 81.3 | 80.3 | 3.5 |
| 0,3,6 | 77.0 | 79.5 | 79.0 | 2.9 | |
| 0.9 | 3,6,9 | 81.7 | 81.8 | 81.2 | 4.0 |
| 0,3,6 | 80.2 | 81.1 | 80.8 | 3.7 |
说明: DeiT-Base 上结果一致,[CLS] 在 (0,3,6) 下严重退化。
Table 16: Hyperparameters / 超参数
| Hyperparameter | Value |
|---|---|
| Backbone Model | vit_small_patch16_augreg |
| Input Resolution | 224×224 |
| Total Batch Size | 2048 |
| Optimizer | AdamW |
| Learning Rate (Base) | |
| Min Learning Rate | |
| Weight Decay | |
| LR Scheduler | Cosine decay |
| Training Epochs | 30 |
| Warmup Epochs | 0 |
| Pruning Start Epoch | 0 |
| Keep Rate () | 0.7 |
| Rescue Ratio () | 0.8 |
说明: EViT 微调实验的完整超参数配置。
实验
数据集
| 数据集 | 规模 | 特点 | 用途 |
|---|---|---|---|
| ImageNet-1K | 1.28M 训练 / 50K 验证 | 1000 类 | ViT 分类评估 |
| ImageNet OOD 变体 | 5 个变体(I/A/V/R/S) | 分布外鲁棒性 | TCA OOD 评估 |
| 10 个下游数据集 | 多样化 | 跨域泛化 | TCA 跨数据集评估 |
| VQAv2, GQA, VizWiz 等 10 个 | 多模态 | 视觉语言理解 | LVLM 评估 |
实现细节
Backbone: ViT-S/16, ViT-B/16, ViT-L/16, DeiT-S, DeiT-B, CLIP-ViT-B/16
优化器: AdamW,学习率
Batch Size: 2048
训练轮数: 30 epochs(微调实验)
关键超参: 范数阶数 ,rescue ratio
可视化结果
Figure 1 和 Figure 4 的可视化清晰展示:[CLS] 在早期层注意力分散、噪声大,经常关注背景区域;Col-Ln 从第一层就能精准定位前景目标
Figure 3 的训练损失曲线表明 Col-Ln 从训练初期就保留了更多关键信息
批判性思考
优点
理论优雅: 从 Rényi 熵出发推导出 ℓn-范数,数学上清晰且计算高效
无需训练: 完全无参数,可直接插入任何 ViT/LVLM 架构
双重使用模式: 既可作为独立替代方案(Col-Ln Pruning),也可作为修正机制(Col-Ln Correcting),灵活性强
实验全面: 覆盖 ViT-S/B/L、DeiT-S/B、CLIP-ViT、LLaVA,以及 EViT/TCA/PruMerge/VisPruner 四个框架
在最重要的场景(早期层激进剪枝)中优势最为显著
局限性
仅评估 ImageNet 分类和 VL 任务: 缺少检测/分割等密集预测任务的验证,这些任务对空间信息更敏感
阶参数 的选择: 论文固定 ,缺乏对不同 值的系统性消融实验
Rescue ratio 固定为 0.8: 不同模型/任务可能需要不同的 值
深层剪枝优势缩小: 在 (3,6,9) 等深层调度下,Col-Ln 与 [CLS] 差距不大,说明该方法的核心价值主要在早期层
缺少推理延迟测量: 仅报告 GFLOPs,未提供实际 wall-clock time
潜在改进方向
自适应选择不同层的最优阶参数
将 Col-Ln 与 Token Merging 结合,既剪枝又合并
扩展到密集预测任务(如 DETR、SegFormer)
分析 Col-Ln 在不同注意力模式(如 FlashAttention)下的兼容性
可复现性评估
- 代码开源(GitHub: Wayne0758/SparseAttention)
- 预训练模型
- 训练细节完整(Table 16)
- 数据集可获取
关联笔记
基于
EViT: 核心 [CLS]-based token pruning 框架
Rényi 熵: 理论基础,信息论中的广义熵
对比
TCA: test-time adaptation 框架,验证 OOD 鲁棒性
PruMerge: LVLM token 剪枝+合并框架
VisPruner: VLM 视觉 token 剪枝框架
方法相关
Token Pruning: 核心任务
Multi-Head Self-Attention: Col-Ln 直接作用于注意力矩阵
ViT: 目标架构
硬件/数据相关
ImageNet: 主要评估数据集
速查卡片
Rényi Entropy: A New Token Pruning Metric for Vision Transformers
- 核心: 用 Rényi 熵推导的列向 ℓn-范数替代不可靠的 [CLS] 注意力来度量 token 重要性
- 方法: 计算注意力矩阵每列的 ℓn-范数(),选择范数最大的 token 保留
- 结果: ViT 早期层剪枝优于 [CLS] 高达 +10.2%;LVLM 上保持 98-99% 原模型性能
- 代码: GitHub
笔记创建时间: 2026-04-01