Rényi Entropy: A New Token Pruning Metric for Vision Transformers

作者: Wei-Yuan Su, Ruijie Zhang, Zheng Zhang 年份: 2026 会议: arXiv 分类: 剪枝与稀疏化

论文笔记：Rényi Entropy: A New Token Pruning Metric for Vision Transformers

元信息

项目	内容
机构	University of California, Santa Barbara
日期	March 2026
项目主页	-
对比基线	EViT, TCA, PruMerge, VisPruner
链接	arXiv / Code

一句话总结

提出基于 Rényi 熵的无训练 token 重要性度量 Col-Ln，通过列向 ℓn-范数替代不可靠的 [CLS] 注意力，从第一层就能准确识别重要 token。

核心贡献

揭示 [CLS] 指导剪枝的缺陷: 在 ViT 早期层中 [CLS] token 的注意力尚未成熟，导致重要前景 token 被错误丢弃，甚至不如随机剪枝

提出 Col-Ln 度量: 基于 Rényi 熵推导出的无参数度量，利用 patch 间的集体共识而非单一 [CLS] 代理来衡量 token 重要性

广泛验证: 在 ViT 和 LVLM 上全面超越 SOTA 方法，同时可作为现有 [CLS] 方法的修正机制

问题背景

要解决的问题

ViT 的 Multi-Head Self-Attention 复杂度为 $O(N^2)$ ，高分辨率输入下推理成本高昂

Token Pruning 是加速推理的关键技术，但现有方法依赖 [CLS] token 的注意力权重来估计 patch 重要性

现有方法的局限

语义不成熟: 在早期层（如 L0-L3），[CLS] token 随机初始化，尚未聚合足够的全局信息，其注意力图具有误导性

任务偏置: [CLS] token 受最终任务头监督，注意力分布偏向训练目标相关特征，泛化性差

Table 1 实证：在 ViT-Small 上，[CLS] 方法在多个 keep rate 下都不如随机剪枝

本文的动机

信息丰富的 token 会从多个其他 token 获得集中的注意力（低熵 = 高共识），而冗余 token 获得的注意力分散（高熵 = 低共识）

用 Rényi 熵量化列方向的注意力集中度，可以从第一层就可靠地识别重要 token

方法详解

核心思想

Col-Ln 放弃以 [CLS] 为中心的全局代理方式，转而采用集体共识机制：

输入: 注意力矩阵 $\mathbf{A} \in \mathbb{R}^{N \times N}$
核心: 对每个 token $j$ ，计算其被所有其他 token 关注的列向注意力分布的 Rényi 熵
判断: 低熵 → 高共识 → 重要 token；高熵 → 低共识 → 冗余 token
输出: 保留 Rényi 熵最低的 Top-K token

核心模块

模块1: Rényi 熵重要性度量

设计动机: 利用 Rényi 熵的数学性质将熵最小化等价转化为 ℓn-范数最大化，避免直接计算对数

具体实现:

计算注意力矩阵每列的 Rényi 熵，度量 token $j$ 被其他 token 关注的集中程度
利用 Rényi 熵与 ℓn-范数的单调关系，将最小熵选择转化为最大 ℓn-范数选择
阶参数 $n$ 控制对高概率事件的敏感度， $n$ 越大越能隔离达到强共识的 token

模块2: Col-Ln 修正机制（Correcting）

设计动机: 作为现有 [CLS] 方法的补充，“拯救”被 [CLS] 错误标记为不重要的关键 token

具体实现:

通过 rescue ratio $c$ 分配预算： $k_{\text{cls}} = \lfloor r \cdot (1-c) \rfloor$ 个 token 由 [CLS] 选择
剩余 $k_{\text{col}} = r - k_{\text{cls}}$ 个 token 从 [CLS] 未选中的候选中按 Col-Ln 排序选取
两组合并后保留，缓解早期层的过早信息丢失

关键公式

公式1: Rényi 熵定义

H_n(\text{Column}_j) = \frac{1}{1-n} \log\left(\sum_{i=1}^{N}(A_{i,j})^n\right)

含义: 度量 token $j$ 收到的列向注意力分布的集中程度

符号说明:

$A_{i,j}$ : token $i$ 对 token $j$ 的注意力权重
$n$ : 阶参数， $n > 1$ 时对高概率事件更敏感
$N$ : token 总数

公式2: ℓn-范数等价形式

H_n(\text{Column}_j) = \frac{n}{1-n} \log(\|\mathbf{A}_{:,j}\|_n)

含义: 将 Rényi 熵改写为 ℓn-范数的对数形式

符号说明:

$\|\cdot\|_n$ : ℓn-范数
$\frac{n}{1-n}$ : 当 $n > 1$ 时为严格负系数

公式3: 最小熵等价于最大 ℓn-范数

\text{Bottom-}K(H_n(\text{Column}_j), j) \iff \text{Top-}K(\|\mathbf{A}_{:,j}\|_n, j)

含义: 由于系数为负且对数单调递增，最小化 Rényi 熵等价于最大化列 ℓn-范数

符号说明:

$\text{Bottom-}K$ : 选择最小的 $K$ 个
$\text{Top-}K$ : 选择最大的 $K$ 个

公式4: Col-Ln 重要性分数

S_j = \left(\sum_{i=0}^{N}|A_{i,j}|^n\right)^{\frac{1}{n}}

含义: 每个 token $j$ 的 Col-Ln 重要性分数，即注意力矩阵第 $j$ 列的 ℓn-范数

符号说明:

$S_j$ : token $j$ 的重要性分数
$n$ : 范数阶数（论文中使用 $n=4$ ）

公式5: 修正模式预算分配

k_{\text{cls}} = \lfloor r \cdot (1-c) \rfloor, \quad k_{\text{col}} = r - k_{\text{cls}}

含义: 将保留预算 $r$ 按 rescue ratio $c$ 分配给 [CLS] 和 Col-Ln 两个选择器

符号说明:

$r$ : 总保留 token 数
$c$ : rescue ratio（论文中使用 $c = 0.8$ ）
$k_{\text{cls}}$ : 由 [CLS] 注意力选择的 token 数
$k_{\text{col}}$ : 由 Col-Ln 从剩余候选中选择的 token 数

关键图表

Figure 1: Visual Comparison / Token 剪枝视觉对比

Figure 1: Visual Comparison of Token Pruning {:width 600}

说明: 对比 [CLS] 注意力和 Col-Ln 在初始层（L₀–L₅）的 token 剪枝效果。[CLS] 在早期层频繁误删前景 token，Col-Ln 从第一层起就能准确保留语义重要的 token。

Figure 2: Method Diagram / 方法对比图

Figure 2: Method Comparison {:width 600}

说明: 左侧为传统 [CLS] 方法，依赖 [CLS] 行注意力选 token；右侧为 Col-Ln 方法，计算每列的 ℓn-范数作为重要性分数，利用所有 patch 的集体共识。

Figure 3: Training Loss Comparison / 训练损失对比

Figure 3a: Training Loss (0,3,6) {:width 600}

Figure 3b: Training Loss (3,6,9) {:width 600}

说明: EViT 框架下的训练损失对比。(a) 在 (0,3,6) 调度下，Col-Ln 的初始损失显著低于 [CLS]，说明从一开始就保留了更多关键信息。(b) 在 (3,6,9) 调度下差异缩小，符合 [CLS] 在深层更可靠的预期。

Figure 4: Heatmap Visualization / 注意力热力图

Figure 4: Heatmap Attention Visualization {:width 600}

说明: 对比 [CLS] 注意力（上方）和 Col-Ln 重要性分数（下方）在 L₀–L₅ 的热力图。[CLS] 在早期层注意力分散且噪声大，Col-Ln 从第一层就集中于前景目标。

Figure 5: Layer-wise Attention / 不同阶数的逐层注意力

Figure 5: Layer-wise attention comparison {:width 600}

说明: ViT-Base 上 [CLS] 注意力与不同阶数 $n$ 的 Col-Ln 的逐层可视化。高阶（如 $n=4$ ）的 Col-Ln 在所有层都能产生更集中、更有区分度的重要性分布。

Table 1: EViT on ViT-Small / [CLS] 失败实证

Keep rate ( $r$ )	[CLS]	Random
0.7	66.1	73.2
0.8	74.0	77.6
0.9	79.0	80.0

说明: 在 (0,3,6) 调度下，[CLS] 在所有 keep rate 上都不如随机剪枝，实证确认其在早期层的灾难性失败。

Table 2: Early-Layer Pruning / 早期层剪枝

Model	$p$	[CLS]	Ours	GFLOPs
ViT-S/16	-	81.38	81.38	4.6
	4	80.98	81.14	4.2
	8	80.12	80.59	3.7
	12	79.06	79.94	3.3
	16	77.22	78.78	2.9
	20	73.87	76.65	2.4
	24	66.54	71.40	2.0
ViT-B/16	-	84.54	84.54	17.6
	4	83.87	84.33	15.9
	8	83.07	83.98	14.2
	12	82.05	83.47	12.6
	16	80.53	82.73	11.0
	20	77.93	81.01	9.3
	24	72.02	77.29	7.7
ViT-L/16	-	85.83	85.83	61.6
	8	84.82	84.98	48.1
	16	82.15	82.94	34.8
	24	65.54	72.16	21.5

说明: 仅在前 6 层剪枝。Col-Ln 在所有模型和剪枝强度下均优于 [CLS]，在最激进的 $p=24$ 下优势分别达 +4.86%（ViT-S）、+5.27%（ViT-B）、+6.62%（ViT-L）。

Table 3: All-Layer Pruning / 全层剪枝

Model	$p$	[CLS]	Ours	GFLOPs
ViT-S/16	-	81.38	81.38	4.6
	2	81.21	81.29	4.3
	4	80.92	81.08	4.0
	6	80.50	80.76	3.7
	8	79.99	80.39	3.4
	10	79.22	79.76	3.1
	12	78.10	78.63	2.9
ViT-B/16	-	84.54	84.54	17.6
	2	84.19	84.48	16.5
	4	83.88	84.30	15.3
	6	83.51	84.17	14.2
	8	82.98	83.87	13.1
	10	82.27	83.39	12.0
	12	81.44	82.70	10.9
ViT-L/16	-	85.83	85.83	61.6
	2	85.61	85.68	53.8
	4	85.27	85.34	46.1
	6	84.40	84.64	38.5

说明: 全层逐层剪枝。Col-Ln 在所有配置下一致优于 [CLS]，ViT-B 在 $p=12$ 时优势达 +1.26%。

Table 4: OOD Robustness / 分布外鲁棒性（TCA 框架）

Method	Layers	I	A	V	R	S	Avg	GFLOPs
CLIP-ViT-B/16	-	68.37	50.20	61.86	77.55	48.24	61.24	17.6
TCA	3,6,9	65.46	47.42	59.14	66.04	43.91	56.39	11.9
Ours	3,6,9	65.31	49.27	59.13	72.10	45.64	58.39	-
TCA	0,3,6	62.26	38.97	55.71	60.43	41.09	51.69	9.2
Ours	0,3,6	62.25	40.47	55.51	64.33	41.09	52.73	-

说明: ImageNet OOD 变体上的鲁棒性。Col-Ln 在 keep rate 0.7 下将平均 OOD 准确率从 56.39% 提升至 58.39%（+2.0%），无需微调。

Table 5: Cross-dataset Classification / 跨数据集分类

Method	Layers	C101	OP	SC	OF	F101	A	S397	DTD	ES	UFC	Avg
CLIP-ViT-B/16	-	92.98	89.13	59.32	71.38	86.11	24.33	65.48	45.57	48.16	68.83	65.80
TCA	3,6,9	90.87	85.15	59.32	71.17	79.29	23.82	62.10	44.92	56.89	68.97	64.25
Ours	3,6,9	92.74	85.99	57.64	70.85	81.29	22.98	63.14	43.97	58.11	69.34	64.61
TCA	0,3,6	84.67	82.12	52.13	69.59	75.95	22.05	59.02	43.03	46.93	62.33	59.78
Ours	0,3,6	89.90	82.47	49.66	68.53	77.41	22.17	60.93	43.03	48.93	67.01	61.00

说明: 10 个下游数据集上的跨数据集分类。Col-Ln 平均准确率 64.61% 超过 TCA 的 64.25%。

Table 6: LVLM Pruning (PruMerge) / 大视觉语言模型剪枝

Method	$r$	VQAv2	GQA	VizWiz	SQA	TextVQA	POPE	MME	MMB	MMB-CN	MM-Vet	Avg	Rel.%
LLaVA-1.5 Full	576	76.7	62.0	54.2	69.5	58.2	85.9	1505	64.6	58.1	29.7	63.4	100.0
PruMerge	256	70.8	55.7	56.0	68.0	54.7	73.7	1364	61.8	56.4	26.8	59.2	93.4
Ours	256	75.2	59.5	54.4	67.9	55.4	85.9	1471	63.7	58.5	29.2	62.3	98.3
PruMerge	192	69.0	54.3	55.9	67.2	54.2	71.3	1298	59.3	53.0	26.6	57.8	91.2
Ours	192	74.6	58.9	55.0	67.8	54.7	85.2	1434	63.3	57.0	29.9	61.8	97.5

说明: 在 LLaVA-1.5-7B 上使用 PruMerge 框架。 $r=256$ 时 Col-Ln 保持原模型 98.3% 性能（vs PruMerge 的 93.4%），POPE 指标完全无损。

Table 7: Early-Layer Correcting / 早期层修正

Model	$p$	[CLS]	Ours	GFLOPs
ViT-S/16	-	81.38	81.38	4.6
	4	80.98	81.03	4.2
	8	80.12	80.65	3.7
	12	79.06	79.93	3.3
	16	77.22	78.81	2.9
	20	73.87	76.53	2.4
	24	66.54	71.33	2.0
ViT-B/16	-	84.54	84.54	17.6
	4	83.87	84.34	15.9
	8	83.07	84.02	14.2
	12	82.05	83.54	12.6
	16	80.53	82.68	11.0
	20	77.93	81.02	9.3
	24	72.02	77.28	7.7
ViT-L/16	-	85.83	85.83	61.6
	8	84.82	84.85	48.1
	16	82.15	82.99	34.8
	24	65.54	72.69	21.5

说明: 修正模式下的早期层剪枝结果，Col-Ln 有效修正 [CLS] 的错误判断。

Table 8: All-Layer Correcting / 全层修正

Model	$p$	[CLS]	Ours	GFLOPs
ViT-S/16	-	81.38	81.38	4.6
	2	81.21	81.32	4.3
	4	80.92	81.06	4.0
	6	80.50	80.80	3.7
	8	79.99	80.46	3.4
	10	79.22	79.83	3.1
	12	78.10	78.70	2.9
ViT-B/16	-	84.54	84.54	17.6
	2	84.19	84.46	16.5
	4	83.88	84.32	15.3
	6	83.51	84.15	14.2
	8	82.98	83.89	13.1
	10	82.27	83.53	12.0
	12	81.44	82.82	10.9
ViT-L/16	-	85.83	85.83	61.6
	2	85.61	85.69	53.8
	4	85.27	85.28	46.1
	6	84.40	84.71	38.5

说明: 全层修正模式下 Col-Ln 同样一致优于纯 [CLS] 方法。

Table 9: EViT on ViT-Small / EViT 框架对比（ViT-Small）

Keep Rate	Pruning Layers	[CLS]	Ours	Random	GFLOPs
-	-	81.4	81.4	81.4	4.6
0.7	3,6,9	78.9	79.0	77.3	3.0
	0,3,6	66.1	75.0	73.2	2.3
0.8	3,6,9	80.5	80.5	79.5	3.5
	0,3,6	74.0	78.6	77.6	2.9
0.9	3,6,9	81.3	81.3	80.6	4.0
	0,3,6	79.0	80.5	80.0	3.7

说明: 在 (0,3,6) 调度下 Col-Ln 以 +8.9% 的巨大优势超越 [CLS]（75.0% vs 66.1%）。

Table 10: EViT on ViT-Base / EViT 框架对比（ViT-Base）

Keep Rate	Pruning Layers	[CLS]	Ours	Random	GFLOPs
-	-	84.5	84.5	84.5	17.6
0.7	3,6,9	83.0	83.0	81.0	11.6
	0,3,6	69.7	79.9	77.8	8.8
0.8	3,6,9	83.9	84.1	82.7	13.3
	0,3,6	76.7	82.1	81.4	11.3
0.9	3,6,9	84.5	84.5	83.9	15.4
	0,3,6	81.8	83.9	83.4	14.3

说明: ViT-Base 上 (0,3,6) 调度的优势更为惊人：keep rate 0.7 时 Col-Ln 79.9% vs [CLS] 69.7%（+10.2%）。

Table 11: Trend Analysis / 趋势分析（ViT-Small）

Keep Rate	Pruning Layers	[CLS]	Ours	Random	GFLOPs
-	-	81.4	81.4	81.4	4.6
0.7	0,3,6	66.1	75.0	73.2	2.3
	1,4,7	76.3	77.0	74.8	2.5
	2,5,8	77.9	78.3	75.9	2.8
	3,6,9	78.9	79.0	77.3	3.0
	4,7,10	79.6	79.8	78.3	3.3

说明: 随剪枝调度向深层移动，[CLS] 逐渐改善但 Col-Ln 始终保持最优，证明其在所有层深度的鲁棒性。

Table 12: LVLM Pruning (VisPruner) / VisPruner 框架

Method	$r$	VQAv2	GQA	VizWiz	SQA	TextVQA	POPE	MME	MMB	MMB-CN	MM-Vet	Avg	Rel.%
LLaVA Full	576	76.7	62.0	54.2	69.5	58.2	85.9	1505	64.6	58.1	29.7	63.4	100.0
VisPruner	256	76.0	60.4	53.9	68.4	57.7	86.4	1454	63.4	57.2	31.1	62.7	98.9
Ours	256	76.0	60.4	54.0	69.1	57.9	86.5	1483	63.4	58.0	32.1	63.2	99.7
VisPruner	192	75.2	59.4	54.6	68.7	57.4	85.7	1459	62.3	57.2	30.5	62.4	98.4
Ours	192	75.2	59.4	54.6	68.7	57.8	86.0	1482	63.1	57.9	33.3	63.0	99.4

说明: 在 VisPruner 框架下 $r=256$ 时保持原模型 99.7% 性能，接近无损压缩。

Table 13: EViT Fine-tuning / EViT 微调结果

Model	Pruning Layers	[CLS]	Ours	Random	GFLOPs
ViT-S	0,3,6	77.2	79.3	77.3	2.3
	3,6,9	81.0	81.1	79.4	3.0

说明: 微调 30 epochs 后，(0,3,6) 调度下 Col-Ln 仍比 [CLS] 高 +2.1%，且 [CLS] 与 Random 持平（77.2 vs 77.3）。

Table 14: EViT on DeiT-Small / DeiT-Small 推理

Keep Rate	Pruning Layers	[CLS]	Ours	Random	GFLOPs
-	-	79.8	79.8	79.8	4.6
0.7	3,6,9	78.5	78.5	77.5	3.0
	0,3,6	64.7	75.1	74.5	2.3
0.8	3,6,9	79.3	79.3	78.5	3.5
	0,3,6	72.1	77.7	77.3	2.9
0.9	3,6,9	79.7	79.7	79.3	4.0
	0,3,6	77.4	79.1	78.9	3.7

说明: 在 DeiT-Small 上同样验证了 Col-Ln 的优越性，(0,3,6) keep rate 0.7 时 +10.4% 优于 [CLS]。

Table 15: EViT on DeiT-Base / DeiT-Base 推理

Keep Rate	Pruning Layers	[CLS]	Ours	Random	GFLOPs
-	-	82.0	82.0	82.0	4.6
0.7	3,6,9	80.6	80.6	78.8	3.0
	0,3,6	71.3	76.6	75.7	2.3
0.8	3,6,9	81.3	81.3	80.3	3.5
	0,3,6	77.0	79.5	79.0	2.9
0.9	3,6,9	81.7	81.8	81.2	4.0
	0,3,6	80.2	81.1	80.8	3.7

说明: DeiT-Base 上结果一致，[CLS] 在 (0,3,6) 下严重退化。

Table 16: Hyperparameters / 超参数

Hyperparameter	Value
Backbone Model	vit_small_patch16_augreg
Input Resolution	224×224
Total Batch Size	2048
Optimizer	AdamW
Learning Rate (Base)	$2 \times 10^{-5}$
Min Learning Rate	$2 \times 10^{-6}$
Weight Decay	$1 \times 10^{-6}$
LR Scheduler	Cosine decay
Training Epochs	30
Warmup Epochs	0
Pruning Start Epoch	0
Keep Rate ( $r$ )	0.7
Rescue Ratio ( $c$ )	0.8

说明: EViT 微调实验的完整超参数配置。

实验

数据集

数据集	规模	特点	用途
ImageNet-1K	1.28M 训练 / 50K 验证	1000 类	ViT 分类评估
ImageNet OOD 变体	5 个变体（I/A/V/R/S）	分布外鲁棒性	TCA OOD 评估
10 个下游数据集	多样化	跨域泛化	TCA 跨数据集评估
VQAv2, GQA, VizWiz 等 10 个	多模态	视觉语言理解	LVLM 评估

实现细节

Backbone: ViT-S/16, ViT-B/16, ViT-L/16, DeiT-S, DeiT-B, CLIP-ViT-B/16

优化器: AdamW，学习率 $2 \times 10^{-5}$

Batch Size: 2048

训练轮数: 30 epochs（微调实验）

关键超参: 范数阶数 $n=4$ ，rescue ratio $c=0.8$

可视化结果

Figure 1 和 Figure 4 的可视化清晰展示：[CLS] 在早期层注意力分散、噪声大，经常关注背景区域；Col-Ln 从第一层就能精准定位前景目标

Figure 3 的训练损失曲线表明 Col-Ln 从训练初期就保留了更多关键信息

批判性思考

优点

理论优雅: 从 Rényi 熵出发推导出 ℓn-范数，数学上清晰且计算高效

无需训练: 完全无参数，可直接插入任何 ViT/LVLM 架构

双重使用模式: 既可作为独立替代方案（Col-Ln Pruning），也可作为修正机制（Col-Ln Correcting），灵活性强

实验全面: 覆盖 ViT-S/B/L、DeiT-S/B、CLIP-ViT、LLaVA，以及 EViT/TCA/PruMerge/VisPruner 四个框架

在最重要的场景（早期层激进剪枝）中优势最为显著

局限性

仅评估 ImageNet 分类和 VL 任务: 缺少检测/分割等密集预测任务的验证，这些任务对空间信息更敏感

阶参数 $n$ 的选择: 论文固定 $n=4$ ，缺乏对不同 $n$ 值的系统性消融实验

Rescue ratio $c$ 固定为 0.8: 不同模型/任务可能需要不同的 $c$ 值

深层剪枝优势缩小: 在 (3,6,9) 等深层调度下，Col-Ln 与 [CLS] 差距不大，说明该方法的核心价值主要在早期层

缺少推理延迟测量: 仅报告 GFLOPs，未提供实际 wall-clock time

潜在改进方向

自适应选择不同层的最优阶参数 $n$

将 Col-Ln 与 Token Merging 结合，既剪枝又合并

扩展到密集预测任务（如 DETR、SegFormer）

分析 Col-Ln 在不同注意力模式（如 FlashAttention）下的兼容性

可复现性评估

代码开源（GitHub: Wayne0758/SparseAttention）
预训练模型
训练细节完整（Table 16）
数据集可获取

关联笔记

基于

EViT: 核心 [CLS]-based token pruning 框架

Rényi 熵: 理论基础，信息论中的广义熵

对比

TCA: test-time adaptation 框架，验证 OOD 鲁棒性

PruMerge: LVLM token 剪枝+合并框架

VisPruner: VLM 视觉 token 剪枝框架

方法相关

Token Pruning: 核心任务

Multi-Head Self-Attention: Col-Ln 直接作用于注意力矩阵

ViT: 目标架构

硬件/数据相关

ImageNet: 主要评估数据集

速查卡片

Rényi Entropy: A New Token Pruning Metric for Vision Transformers

核心: 用 Rényi 熵推导的列向 ℓn-范数替代不可靠的 [CLS] 注意力来度量 token 重要性
方法: 计算注意力矩阵每列的 ℓn-范数（ $n=4$ ），选择范数最大的 token 保留
结果: ViT 早期层剪枝优于 [CLS] 高达 +10.2%；LVLM 上保持 98-99% 原模型性能
代码: GitHub

笔记创建时间: 2026-04-01