Demystifying When Pruning Works via Representation Hierarchies

作者: Shwai He, Guoheng Sun, Haichao Zhang, Yun Fu, Ang Li 年份: 2026 会议: arXiv 分类: 基础理论

论文笔记：Demystifying When Pruning Works via Representation Hierarchies

元信息

项目	内容
机构	University of Maryland, Northeastern University, Horizon Robotics
日期	March 2026
项目主页	—
对比基线	Wanda, ShortGPT, LayerDrop
链接	arXiv / Code

一句话总结

通过表征层次分析（embedding→logit→probability），揭示剪枝在非生成任务有效但在生成任务崩溃的内在机制：Softmax 非线性放大扰动 + 自回归误差累积。

核心贡献

表征层次框架: 将 LLM 计算分解为 embedding、logit、probability 三个空间，系统分析剪枝扰动在各空间的传播行为

理论刻画 Softmax 放大效应: 通过 Taylor 展开证明 Softmax 将 logit 空间的微小扰动放大为概率空间的显著偏差，偏差由 $\text{Var}(\Delta z) / T^2$ 主导

生成 vs 非生成的差异解释: 揭示非生成任务因操作在低维子空间（embedding 相似度 / 有限候选集）而鲁棒，生成任务因全词表 softmax + 自回归误差累积而崩溃

问题背景

要解决的问题

为什么网络剪枝在多选题、检索等非生成任务上表现良好，但在文本生成任务上严重崩溃？现有工作缺乏对这一现象的理论解释。

现有方法的局限

SparseGPT、Wanda 等 intra-layer 剪枝方法和 ShortGPT、LayerDrop 等 inter-layer 剪枝方法主要在非生成 benchmark 上评估，忽略了生成任务上的灾难性退化

现有分析通常在 perplexity 等单一指标上进行，未能区分不同表征空间的行为差异

本文的动机

作者观察到剪枝后模型在多选和检索任务上保持了与原模型相当的性能，但生成质量急剧下降（出现重复、乱码），认为需要从表征空间层次的角度解释这种不一致性

方法详解

表征空间层次

本文将 LLM 的计算过程分解为三个层次化的表征空间：

Embedding 空间: 经过 $L$ 层 Transformer 处理后的隐藏表示 $h^{(L)} \in \mathbb{R}^d$ ，维度为 $d$
Logit 空间: 通过 LM Head（线性投影 $W \in \mathbb{R}^{|\mathcal{V}| \times d}$ ）将 embedding 映射到词表大小的向量 $z = Wh^{(L)}$
Probability 空间: 通过 Softmax 变换 $p = \text{softmax}(z/T)$ 得到概率分布

非生成任务的操作空间

检索任务: 直接在 embedding 空间操作，基于余弦相似度 $S(q,d) = \text{CosineSim}(h_q, h_d)$

多选分类: 在 probability 空间的极小子集上操作， $\hat{y} = \arg\max_{j \in \mathcal{C}} p(j|x)$ ，其中 $|\mathcal{C}| \ll |\mathcal{V}|$

剪枝策略

Intra-layer 剪枝 (Wanda): 移除层内不重要参数，产生稀疏表示

Inter-layer 剪枝 (Layer Drop): 评估每层整体重要性，移除不关键的 Transformer block

核心分析模块

模块1: LM Head 保持相似性

设计动机: 分析 LM Head 线性投影对扰动的影响

具体发现:

Embedding 空间在剪枝后保持高余弦相似度，即使移除大量参数
Logit 空间的相似度甚至高于 embedding 空间，因为线性投影降低了正交扰动分量的相对幅度
这解释了检索和分类任务对剪枝的鲁棒性

模块2: Softmax 放大偏差

设计动机: 解释为什么 logit 空间相似但 probability 空间差异巨大

具体发现:

Softmax 的非线性变换将 logit 扰动的方差（而非仅正交分量）映射为概率偏差
温度参数 $T$ 在分母中，低温放大效应更显著
高概率 token 贡献更大的 KL 散度偏移

模块3: 自回归误差累积

设计动机: 解释生成任务中误差如何跨时间步传播

具体发现:

第一步解码（基于相同 prompt）偏差较小
后续步骤因生成的 token 不同，导致历史上下文分歧，偏差急剧增大
Self-Attention 的误差可分解为 value path（ $\sum \alpha_{t+1,i} \Delta v_i$ ）和 weight path（ $\sum \Delta\alpha_{t+1,i} v_i$ ）

关键公式

公式1: 温度 Softmax

p_{t+1} = \text{softmax}(z_t / T)

含义: 将 logit 向量转换为概率分布，温度 $T$ 控制分布的锐利程度

符号说明:

$z_t$ : 第 $t$ 步的 logit 向量
$T$ : 温度参数

公式2: Embedding 空间角偏差 (Theorem 1)

1 - \text{CosineSim}(h, h + \Delta h) \approx \frac{\|\Delta h_\perp\|^2}{2\|h\|^2}

含义: Embedding 空间的角偏差仅取决于扰动的正交分量，与平行分量无关

符号说明:

$h$ : 原始 embedding 表示
$\Delta h$ : 剪枝引入的扰动
$\Delta h_\perp$ : 扰动在 $h$ 正交方向的分量
$\|h\|$ : 原始表示的范数

公式3: 概率空间偏差 (Theorem 2)

1 - \text{CosineSim}(p, p + \Delta p) \approx \frac{\text{Var}_r(\Delta z)}{2T^2}

含义: 概率空间的偏差由 logit 扰动的加权方差和温度的平方决定，Softmax 将方差放大为偏差

符号说明:

$r_i = p_i^2 / \|p\|^2$ : 归一化权重分布
$\text{Var}_r(\Delta z)$ : logit 扰动在权重 $r$ 下的方差
$T$ : 温度参数

公式4: 剪枝 KL 散度 (Theorem 3)

\text{KL}(p \| q) \approx \frac{\text{Var}_{i \sim p}(\Delta z_i)}{2T^2}

含义: 剪枝前后概率分布的 KL 散度近似为 logit 扰动的方差除以 $2T^2$ ，高概率 token 贡献更大权重

符号说明:

$p$ : 原始模型的概率分布
$q$ : 剪枝后模型的概率分布
$\Delta z_i$ : 第 $i$ 个 token 的 logit 扰动

公式5: Logit 空间角偏差

1 - \text{CosineSim}(z, z + \Delta z) \approx \frac{\|\Delta z_\perp\|^2}{2\|z\|^2}

含义: Logit 空间角偏差的形式与 embedding 空间一致，由正交扰动分量决定

符号说明:

$z$ : 原始 logit 向量
$\Delta z_\perp$ : logit 扰动的正交分量

公式6: Softmax Jacobian 近似

\Delta p \approx \frac{1}{T} A \Delta z, \quad A = \text{diag}(p) - pp^T

含义: 概率扰动与 logit 扰动通过 Softmax 的 Jacobian 矩阵线性关联，温度 $T$ 在分母表明低温放大效应

符号说明:

$A$ : Softmax 的 Jacobian 矩阵
$\text{diag}(p)$ : 以概率向量为对角元素的矩阵

公式7: 注意力误差分解

\Delta o_{t+1} \approx \sum_{i \le t} \alpha_{t+1,i} \Delta v_i + \sum_{i \le t} \Delta\alpha_{t+1,i} v_i + O(\|\Delta\|^2)

含义: 注意力输出的误差可分解为 value path（值扰动）和 weight path（注意力权重扰动）两个来源

符号说明:

$\alpha_{t+1,i}$ : 注意力权重
$\Delta v_i$ : 值向量的扰动
$\Delta\alpha_{t+1,i}$ : 注意力权重的扰动

公式8: 多步误差传播

\Delta o_{t+1} = F(\Delta W, x_{t+1}) + F(\Delta x_{0:t}) + O(\|\Delta\|^2)

含义: 多步生成中的误差由当前步的参数扰动和历史 token 差异两部分叠加，后者随时间步增长

符号说明:

$F(\Delta W, x_{t+1})$ : 当前步参数扰动引起的误差
$F(\Delta x_{0:t})$ : 历史生成 token 差异引起的误差

关键图表

Figure 1: 剪枝对不同任务类型的影响

(a) 生成任务

Figure 1a: Effect on generative tasks {:width 600}

说明: Inter-layer 剪枝（移除 attention/MLP 层）对生成任务的影响。随着移除层数增加，GSM8K 等生成任务性能急剧崩溃。

(b) 非生成任务

Figure 1b: Effect on non-generative tasks {:width 600}

说明: 相同的剪枝策略对多选题、检索等非生成任务的影响。性能下降远小于生成任务，展现出显著的鲁棒性。

Figure 2: 剪枝扰动在表征空间中的传播

Figure 2: Propagation across representation spaces {:width 600}

说明: 核心概念图。展示剪枝扰动如何从 embedding 空间经 LM Head 线性投影到 logit 空间（相似度保持甚至提高），再经 Softmax 非线性变换到 probability 空间（偏差被显著放大）。不同层的 embedding/logit 相似度高，但 probability 空间波动剧烈。

Figure 3: Intra-layer 剪枝的影响

Figure 3: Intra-layer pruning impact {:width 600}

说明: Wanda 方法在不同稀疏度下对 HellaSwag（非生成）和 GSM8K（生成）的影响。增大稀疏度对生成任务的伤害远大于非生成任务。

Figure 4: 逐层表征相似度分析

(a) Attention 层

Figure 4a: Representation similarity - Attention {:width 600}

说明: 移除各 attention 层后，embedding、logit、probability 三个空间的余弦相似度。Embedding 和 logit 空间保持高相似度，probability 空间波动显著。

(b) MLP 层

Figure 4b: Representation similarity - MLP {:width 600}

说明: 移除各 MLP 层的类似分析。MLP 层对表征的影响模式与 attention 层有所不同，但 probability 空间仍然是最脆弱的。

Figure 5: Logit 空间正交扰动幅度

Figure 5: Relative orthogonal magnitude {:width 600}

说明: Embedding 和 logit 空间中正交扰动的相对幅度对比。经过 LM Head 投影后，正交分量的相对幅度显著降低，验证了 Theorem 1 中 LM Head 保持相似性的理论。

Figure 6: 生成步骤中的偏差演变

(a) 角偏差

Figure 6a: Angular deviation across steps {:width 600}

说明: 随自回归解码步骤增加，三个表征空间的角偏差变化。Probability 空间的偏差在后续步骤中急剧增大。

(b) KL 散度

Figure 6b: KL divergence across steps {:width 600}

说明: 理论预测的 KL 散度（Theorem 3）与实际测量值的对比，二者高度吻合，验证了 $\text{Var}(\Delta z)/(2T^2)$ 的近似公式。

Figure 7: 解码步骤中的相似度变化

(a) Embedding 和 Logit 空间

Figure 7a: Embedding/logit similarity across steps {:width 600}

说明: 在多步解码中，embedding 和 logit 空间的余弦相似度随步骤增加而下降，但初始步仍保持较高值。

(b) Probability 空间

Figure 7b: Probability similarity across steps {:width 600}

说明: Probability 空间的相似度在初始步即较低，后续步骤进一步恶化，与 embedding/logit 空间形成鲜明对比。

Figure 8: 概率子空间的鲁棒性

(a) Top token 概率

Figure 8a: Top token probabilities {:width 600}

说明: 剪枝前后 top 预测 token 的概率变化。高概率 token 受到显著影响。

(b) 类别 token 对数似然

Figure 8b: Category token log-likelihood {:width 600}

说明: 多选任务中候选类别 token（A/B/C/D）的对数似然对比。尽管全局概率分布变化显著，类别 token 所在的概率尾部区域变化温和，argmax 结果仍然正确，解释了非生成任务的鲁棒性。

Table 1a: E5-Mistral 检索性能

Task	Full-Model	Drop-8A	Drop-8M
Arguana	60.9	54.7	58.6
Climate-FEVER	36.8	31.9	38.4
DBPedia	47.9	43.6	44.1
FEVER	87.6	82.9	88.7
FiQA	56.4	50.9	52.8
HotpotQA	74.9	66.8	74.2
NFCorpus	38.1	35.4	36.9
NQ	66.3	56.1	65.4
Quora	88.6	86.5	88.2
SCIDOCS	16.2	12.4	14.7
SciFact	75.8	71.4	73.6
TREC-COVID	85.9	84.3	79.6
Touche-2020	22.9	18.1	18.7
Average	58.9	53.4	56.8
#Params	7.1B	6.8B	5.7B

说明: E5-Mistral 在检索任务上的表现。Drop-8A（移除 8 个 attention 层）和 Drop-8M（移除 8 个 MLP 层）后，平均性能仅下降 2-5 个点，展现出 embedding 空间的鲁棒性。

Table 1b: Mistral-7B-Instruct 多选 vs 生成

多选任务:

Task	Full-Model	Drop-8A	Drop-8M
BoolQ	85.9	86.0	78.2
MMLU	62.1	62.0	59.1
OpenBookQA	47.0	46.8	41.2
RTE	72.9	74.0	72.1
Winogrande	78.8	80.0	71.1
Average	69.3	69.8	64.3

生成任务:

Task	Full-Model	Drop-8A	Drop-8M
GSM8K	48.4	36.2	0.0
HumanEval	4.9	0.0	0.0
MBPP	13.8	0.4	0.0
NarrativeQA	16.3	9.6	2.0
NQ-Open	27.9	20.9	2.0
Average	22.3	13.2	0.8

说明: 核心实验结果。多选任务 Drop-8A 后平均性能基本不变（69.3→69.8），生成任务则崩溃（22.3→13.2）。Drop-8M 对两类任务的伤害更大，但多选仍保持 64.3 而生成降至 0.8。

Table 2: 剪枝后的生成输出示例 (Qwen-2.5-7B)

方法	输出
Baseline	Natalia sold 48 clips in April. In May, she sold half as many… total is 48+24=72.
Drop-4A	Natalia sold 48 clips in April and half as many in May… total is 48+24=72 clips.
Drop-8A	Let’s denote the number of clips Alicia, the ILUNNIE M ’<%=>t [K1205359752… (乱码)
Drop-4M	Natalia sold 48 clips in April and half that amount in May (24 clips)… total of 72 clips.
Drop-8M	…your and your a year and your and your and your and your… (无限重复)

说明: Drop-4A/4M 仍能正确解题，但 Drop-8A 产生乱码，Drop-8M 陷入重复循环，直观展示了剪枝对生成质量的灾难性影响。

实验

数据集

数据集	类型	特点	用途
MTEB 13 个检索子集	检索	涵盖多领域文档检索	评估 embedding 空间鲁棒性
BoolQ, MMLU, OpenBookQA, RTE, Winogrande	多选分类	候选集 $\\|\mathcal{C}\\| \ll \\|\mathcal{V}\\|$	评估概率子空间鲁棒性
GSM8K, HumanEval, MBPP, NarrativeQA, NQ-Open	生成	需要完整文本输出	评估全词表概率+自回归解码

实现细节

模型: Mistral-7B-Instruct, E5-Mistral-7B-Instruct, Qwen-2.5-7B

Inter-layer 剪枝: Layer Drop（移除 4/8 个 attention 或 MLP 层）

Intra-layer 剪枝: Wanda（多种稀疏度）

分析指标: 余弦相似度（角偏差）、KL散度、正交扰动幅度

可视化结果

三个表征空间的相似度呈现明显层次：probability < embedding ≈ logit

KL 散度的理论预测与实际值高度一致，验证了 Theorem 3

类别 token 位于概率分布尾部，剪枝对其影响远小于 top token

批判性思考

优点

理论严谨: 三个 Theorem 从 Taylor 展开出发，给出了偏差传播的闭合近似，理论与实验高度吻合

视角新颖: 首次系统地将剪枝效果分解到三个层次化的表征空间，解释了看似矛盾的实验现象

实用价值: 为从业者提供了清晰的指导——剪枝适用于检索/分类，慎用于生成

实验全面: 覆盖了 inter-layer 和 intra-layer 两种剪枝范式，13 个检索 + 5 个多选 + 5 个生成任务

局限性

未探索缓解方案: 论文发现了问题但未提出解决方案，缺乏 fine-tuning、知识蒸馏等后处理方法的实验

模型范围有限: 仅在 7B 规模的 Mistral 和 Qwen 上验证，未涉及更大规模（13B, 70B）或不同架构（Mixture-of-Experts）

温度 $T$ 的影响未深入探讨: Theorem 2/3 表明 $T$ 是关键因素，但论文未探索不同温度设置下的行为

二阶近似的适用范围: Taylor 展开在高稀疏度下可能失效，论文未讨论近似的适用边界

潜在改进方向

温度自适应策略: 根据 Theorem 2，增大 $T$ 可以减小概率偏差，可设计 layer-wise 温度调整方案

概率空间正则化: 在 fine-tuning 阶段约束概率分布的 KL 散度

选择性剪枝: 根据各层对概率空间的影响大小，优先保留高影响层

可复现性评估

代码开源
预训练模型（使用公开模型）
训练细节完整
数据集可获取

关联笔记

基于

ShortGPT: inter-layer 剪枝的代表工作，本文延续其 Layer Drop 思路

Wanda: intra-layer 剪枝的代表工作，本文采用其作为细粒度剪枝方法

对比

SparseGPT: 另一种 LLM 稀疏化方法，本文讨论其在非生成任务的有效性

SliceGPT: 结构化剪枝方法，属于相关工作中提到的降维方法

方法相关

Softmax: 本文核心发现——softmax 放大扰动

余弦相似度: 主要的分析度量

KL散度: 量化概率分布偏移

自回归解码: 误差累积的来源

硬件/数据相关

Mistral-7B: 主要实验模型

MMLU: 代表性多选基准

GSM8K: 代表性生成基准

速查卡片

Demystifying When Pruning Works via Representation Hierarchies

核心: 剪枝在非生成任务有效但生成任务崩溃，原因是 Softmax 放大 + 自回归累积
方法: 表征层次分析（embedding→logit→probability），Taylor 展开理论刻画
结果: 多选任务 Drop-8A 性能不变（69.3→69.8），生成任务崩溃（22.3→13.2）
代码: GitHub

笔记创建时间: 2026-03-28