Prune-then-Quantize or Quantize-then-Prune? Understanding the Impact of Compression Order in Joint Model Compression

作者: Minjun Kim, Jaehyeon Choi, Hyunwoo Yang, Jongjin Kim, Jinho Song, U Kang 年份: 2025 会议: arXiv 分类: 量化与低秩

论文笔记：Prune-then-Quantize or Quantize-then-Prune?

元信息

项目	内容
机构	Seoul National University
日期	March 2025
项目主页	—
对比基线	SparseGPT, GPTQ, Quarot
链接	arXiv

一句话总结

首次从理论和实验两方面证明联合模型压缩中弱压缩先行、强压缩后施（Progressive Intensity Hypothesis）可获得更优性能。

核心贡献

问题形式化: 定义了联合压缩顺序优化问题，引入 Performance Gap、CER、Compression Order Advantage 三个核心度量

理论分析: 在 Disjoint Selectivity 条件下证明压缩顺序优势随 CER 差异单调递增（Theorem 1 & 2）

广泛实验验证: 在 LLM（LLaMA 2/3）和视觉模型（ResNet, DeiT）上验证假说，并扩展到多阶段压缩、混合精度、LoRA、参数共享等场景

问题背景

要解决的问题

联合模型压缩（同时使用剪枝和量化等多种技术）时，压缩方法的施加顺序是否影响最终性能？现有工作大多隐式假设顺序无关。

现有方法的局限

大多数联合压缩工作基于”正交性”论证忽略顺序问题

少数研究仅在高度受限的场景下考察过顺序影响，缺乏一般性理论分析

本文的动机

作者观察到在实际压缩流水线中，先施加较弱的压缩、后施加较强的压缩能获得更好的性能，这一规律具有理论可解释性

方法详解

问题定义

给定预训练模型 $\phi$ 、压缩方法集合 $\mathbb{F} = \{f_1(\cdot), f_2(\cdot), \ldots, f_n(\cdot)\}$ 和性能指标 $\mathcal{M}(\cdot)$ ，目标是找到最优排列 $\pi^*$ ：

\pi^* = \arg\max_{\pi \in \Pi} \mathcal{M}(\pi(\phi))

压缩属性刻画

压缩粒度（Compression Granularity）

压缩方法的粒度是指其操作的最小结构单元。结构化剪枝在层/滤波器/注意力头级别操作，而量化通常在权重元素级别操作。

Definition 1: 压缩粒度 $t_f \triangleq \arg\min_{t \in \mathcal{T}_f} |t|$ ，其中 $\mathcal{T}_f \subseteq \mathcal{T}_\phi$ 是压缩方法 $f(\cdot)$ 可操作的抽象类型集合。

压缩强度（Intensity）

通过三个定义刻画压缩强度：

Performance Gap（性能差距） 衡量两种压缩方法的强度差异：

\mathcal{G}(\phi, \mathcal{M}; f_1(\cdot; C_1), f_2(\cdot; C_2)) \triangleq \mathcal{M}(f_1(\phi; C_1)) - \mathcal{M}(f_2(\phi; C_2))

若 $\mathcal{G}(f_1, f_2) > 0$ ，则 $f_2$ 是更强的压缩， $f_1$ 是更弱的压缩

Compression Equivalent Ratio (CER) 将任意压缩方法的效果映射到等价的量化比率：

C^*_f(f(\cdot), \mathcal{Q}, C) \triangleq C' \quad \text{s.t.} \quad \mathcal{M}(\mathcal{Q}(\phi; C')) = \mathcal{M}(f(\phi; C))

通过线性插值计算，提供不同方法间的可比性

Compression Order Advantage（压缩顺序优势） 量化顺序对性能的影响：

\mathcal{A}(\phi, \mathcal{M}; f_1 \to f_2) \triangleq \mathcal{M}((f_2 \circ f_1)(\phi)) - \mathcal{M}((f_1 \circ f_2)(\phi))

$\mathcal{A} > 0$ 意味着先 $f_1$ 后 $f_2$ 更优

Progressive Intensity Hypothesis

Hypothesis 1: 压缩顺序优势 $\mathcal{A}(f_1 \to f_2)$ 随 Performance Gap $\mathcal{G}(f_1, f_2)$ （或等价地，CER 差异 $C^*_{f_2} - C^*_{f_1}$ ）单调递增。

直觉：如果两种方法分别得到 75% 和 70% 准确率（5% 差距），顺序优势较小；若第二种方法降至 60%（15% 差距），则顺序优势显著增大。

理论分析

Disjoint Selectivity（不相交选择性）

Definition 5: 若每个单元最终只被一种压缩方法处理（无论施加顺序），则称满足 Disjoint Selectivity： $\forall u_i, \forall \pi: \mathbb{D}^{f_1}_{u_i}(\pi) + \mathbb{D}^{f_2}_{u_i}(\pi) = 1$

Interference（干扰）

当结构化剪枝的粒度比量化更粗时，剪枝可能部分消除量化单元，产生额外误差：

\Delta(\phi; f_1 \to f_2) \triangleq \sum_{u \in \mathbb{X}} \left(\delta_{f_2 \circ f_1}(u) - \delta_{f_2}(u)\right)

干扰大小取决于剪枝比率，但因其仅依赖于剪枝且以加性形式进入，不影响单调性趋势

关键公式

公式1: 层级剪枝误差

\delta_{\mathcal{P}}(\mathbf{W}_i, \mathbf{X}_i) = -\mathbf{W}_i \mathbf{X}_i

含义: 移除第 $i$ 层时产生的重建误差

符号说明:

$\mathbf{W}_i$ : 第 $i$ 层的权重矩阵
$\mathbf{X}_i$ : 第 $i$ 层的输入激活

公式2: 量化误差

\delta_{\mathcal{Q}}(\mathbf{W}_i, \mathbf{X}_i) = \mathcal{Q}(\mathbf{W}_i)\mathcal{Q}(\mathbf{X}_i) - \mathbf{W}_i \mathbf{X}_i

含义: 量化后第 $i$ 层输出与原始输出的偏差

符号说明:

$\mathcal{Q}(\cdot)$ : 量化函数
$\mathbf{W}_i \mathbf{X}_i$ : 原始层输出

公式3: 误差-性能关系 (Assumption 1)

\mathcal{M}(\phi) - \mathcal{M}(f(\phi)) = \beta \cdot \sum_{l_i \in \mathbb{L}} \|\delta_f(l_i)\|_F^2

含义: 模型性能下降与总重建误差的 Frobenius 范数平方成正比

符号说明:

$\beta > 0$ : 比例常数
$\|\delta_f(l_i)\|_F^2$ : 第 $i$ 层的重建误差

公式4: 良设计量化分布 (Assumption 2)

\mathcal{Q}(\mathbf{W}_i)\mathcal{Q}(\mathbf{X}_i) \sim \mathcal{N}(\mathbf{W}_i \mathbf{X}_i, \sigma_{\mathcal{Q}}^2 \mathbf{I})

含义: 良好设计的量化产生以原始值为中心、对称零均值的误差

符号说明:

$\sigma_{\mathcal{Q}}^2$ : 量化噪声方差

公式5: Theorem 1 — Compression Order Advantage

\mathcal{A}(f_1 \to f_2) = \beta \cdot \left(\sum_{u_i \in \mathbb{G}_2} g(u_i) - \sum_{u_i \in \mathbb{G}_1} g(u_i)\right)

含义: 在 Disjoint Selectivity 下，顺序优势仅取决于那些分配随顺序变化的单元

符号说明:

$g(u_i) = \|\delta_{f_1}(u_i)\|_F^2 - \|\delta_{f_2}(u_i)\|_F^2$ : 单元级误差差
$\mathbb{G}_1, \mathbb{G}_2$ : 顺序依赖单元组（其方法分配随顺序变化）

公式6: Theorem 2 — 单调性

C^*_{\mathcal{P}_1} - C_{\mathcal{Q}_1} > C^*_{\mathcal{P}_1} - C_{\mathcal{Q}_2} \implies \mathcal{A}(\mathcal{Q}(\cdot; C_{\mathcal{Q}_1}) \to \mathcal{P}) \geq \mathcal{A}(\mathcal{Q}(\cdot; C_{\mathcal{Q}_2}) \to \mathcal{P})

含义: CER 差异越大，压缩顺序优势越大——验证 Progressive Intensity Hypothesis

公式7: 剪枝压缩比

C_{\mathcal{P}} = \frac{1}{1 - p}

含义: 剪枝比例 $p$ 对应的压缩比

符号说明: $p$ 为剪枝比例

公式8: 量化压缩比

C_{\mathcal{Q}} = \frac{B_{\text{orig}}}{B_{\mathcal{Q}}}

含义: 从原始位宽到量化位宽的压缩比

符号说明: $B_{\text{orig}}$ 为原始位宽， $B_{\mathcal{Q}}$ 为量化位宽

关键图表

Figure 1: Progressive Intensity Hypothesis 示意图

{:width 600}

说明: 展示 Progressive Intensity Hypothesis 的核心思想——弱压缩先行、强压缩后施比反向顺序能获得更优性能。

Figure 2: 剪枝与量化交互的粒度分析

![Figure 2](/assets/论文笔记___5-量化与低秩___Compression Order_fig2.png){:width 600}

说明: 展示不同粒度下剪枝和量化的交互模式，包括满足 Disjoint Selectivity 的情形和产生 Interference 的情形。

Figure 3: LLaMA 系列模型上的 CER 差异 vs 顺序优势

![Figure 3a: LLaMA 2 7B](/assets/论文笔记___5-量化与低秩___Compression Order_fig3.png){:width 600}

Figure 3b: LLaMA 2 13B {:width 600}

![Figure 3c: LLaMA 3 8B (part 1)](/assets/论文笔记___5-量化与低秩___Compression Order_fig5.png){:width 600}

Figure 3d: LLaMA 3 8B (part 2) {:width 600}

说明: 在 LLaMA 2 7B、13B 和 LLaMA 3 8B 上，压缩顺序优势 $\mathcal{A}(\mathcal{Q} \to \mathcal{P})$ 随 CER 差异单调递增。剪枝比率 0.05-0.30，量化位宽 4-8 bit。

Figure 4: 多种方法组合的验证

Figure 4a {:width 600}

Figure 4b {:width 600}

说明: 在 LLaMA 3 8B 上使用多种剪枝（SparseGPT, Wanda, SLEB）和量化（RTN, OPTQ, QuaRot）方法组合，假说一致成立，不受权重更新和旋转变换影响。

Figure 5: 旋转对剪枝的影响

{:width 600}

说明: 关键发现——在旋转后施加剪枝会导致性能剧烈下降。随着剪枝比率增大，旋转与非旋转设置之间的性能差距急剧扩大，表明需要旋转感知的剪枝方法设计。

Figure 6: 视觉模型上的验证

![Figure 6a: ResNet-18](/assets/论文笔记___5-量化与低秩___Compression Order_fig10.png){:width 600}

Figure 6b: DeiT-Base {:width 600}

说明: 在 CNN（ResNet-18 + PRACTISE + N2UQ）和 ViT（DeiT-Base + SAViT + RepQ-ViT）上验证假说，视觉模型的顺序优势显著高于语言模型。

Figure 7: 多阶段压缩

![Figure 7](/assets/论文笔记___5-量化与低秩___Compression Order_fig12.png){:width 600}

说明: 在 LLaMA 3 8B 上使用 SparseGPT 和 QuaRot 进行交替多阶段压缩（P→Q→P 序列），总剪枝比率 0.30。结果表明假说扩展到多阶段场景。

Figure 8: LoRA 联合压缩

{:width 600}

说明: 结合 LoRA 与剪枝和量化，在 LLaMA 3 8B 上验证假说。Post-quantization LoRA 有效保持了预期的顺序模式。

Figure 9: 参数共享联合压缩

{:width 600}

说明: 在 LLaMA 2 7B 上结合 Basis Sharing 与 magnitude pruning，证明假说推广到剪枝-量化之外的参数共享组合。

Figure 10: 混合精度量化

![Figure 10a](/assets/论文笔记___5-量化与低秩___Compression Order_fig15.png){:width 600}

Figure 10b {:width 600}

说明: 在 ResNet-18 上比较渐进式（8→2 bit）与回归式（2→8 bit）位宽分配。在 HAWQ-V2 固定平均位宽下，渐进式分配持续优于回归式，进一步验证 Progressive Intensity Hypothesis。

Table 1: 不同量化比率下的压缩顺序优势

$C_\mathcal{Q}$ ( $B_\mathcal{Q}$ )	SparseGPT	SLEB
1.78 (9-bit)	0.002	0
2.00 (8-bit)	0.001	0
2.28 (7-bit)	-0.003	0
2.68 (6-bit)	-0.013	0
3.20 (5-bit)	-0.017	-0.057
4.00 (4-bit)	-49.899	-9.379

说明: LLaMA 3 8B 上 5% 剪枝 + QuaRot 的 $\mathcal{A}(\mathcal{Q} \to \mathcal{P})$ 。SLEB（结构化剪枝）在高位宽区域显示零干扰，而 SparseGPT（非结构化）呈现单调干扰模式。4-bit 量化时顺序影响极其显著。

Table 3: 实验使用的压缩方法

类别	方法
LLM 剪枝	SparseGPT, Wanda, SLEB
LLM 量化	RTN, OPTQ, QuaRot, QuaRot + OPTQ
CNN 剪枝	PRACTISE
CNN 量化	N2UQ
ViT 剪枝	SAViT
ViT 量化	RepQ-ViT

Table 4: 旋转对 Commonsense Reasoning 的影响

Model	Method	Baseline	w/ Rotation	w/ Rotation + Pruning
LLaMA 3 8B	SparseGPT (p=0.2)	72.8	73.1	52.3
LLaMA 3 8B	SLEB (p=0.2)	72.8	73.1	71.2

说明: 旋转对 SparseGPT 的剪枝影响远大于 SLEB，Commonsense Reasoning 准确率从 73.1% 暴跌至 52.3%。

实验

数据集

数据集	规模	特点	用途
Wikitext-2	—	语言建模基准	LLM 评估（负困惑度）
ImageNet	1.28M / 50K	1000 类图像分类	视觉模型评估
Commonsense Reasoning	—	多任务推理基准	LLM 扩展验证

实现细节

语言模型: LLaMA 2 7B / 13B, LLaMA 3 8B

视觉模型: ResNet-18 (CNN), DeiT-Base (ViT)

剪枝比率: 0.05 ~ 0.30

量化位宽: 4 ~ 9 bit（含混合精度）

评估指标: 负困惑度（语言模型），Top-1 准确率（视觉模型）

扩展场景: 多阶段压缩、LoRA 微调、参数共享、混合精度量化

核心发现

Finding 1-2: Progressive Intensity Hypothesis 在所有语言模型和方法组合上成立
Finding 3: 旋转变换放大剪枝效应，需要旋转感知设计
Finding 4: 剪枝粒度决定干扰行为——结构化剪枝在特定区间避免干扰
Finding 5: 视觉模型的顺序优势显著高于语言模型
Finding 6-9: 假说推广至多阶段压缩、LoRA、参数共享和混合精度量化

批判性思考

优点

理论严谨: 从 Disjoint Selectivity 和误差-性能折衷出发推导，定理条件清晰

实验覆盖广: LLM + CNN + ViT，多种剪枝/量化方法组合，超越简单的 P→Q vs Q→P

实用价值高: 提供明确的压缩流水线设计指导——弱先强后

新发现: 旋转对剪枝的负面影响是一个重要且实用的 insight

局限性

Assumption 1（层间独立）: 在深层网络中误差会传播和累积，假设过强

仅限 Post-hoc 压缩: 未考虑 co-designed 联合压缩框架中的顺序问题

缺乏自动化工具: 仅提供经验规则，未开发自动顺序选择算法

干扰分析局限: Interference 的理论分析依赖特定粒度条件

潜在改进方向

发展自动压缩顺序搜索算法，基于 CER 差异预测最优顺序

将理论扩展到非加性误差模型，放松层间独立假设

研究 QAT + 剪枝 等训练时压缩组合的顺序效应

可复现性评估

代码开源（未提及）
预训练模型（使用公开的 LLaMA、ResNet、DeiT）
训练细节完整
数据集可获取

关联笔记

基于

SparseGPT: 非结构化剪枝基线

GPTQ: 量化基线（OPTQ 为其改进）

Quarot: 旋转基线量化方法

对比

SparseGPT: LLM 非结构化剪枝

Quarot: 旋转基础量化

GPTQ: 权重量化

方法相关

结构化剪枝: 层/头级别剪枝

PTQ: 训练后量化

混合精度: 不同层使用不同位宽

LoRA: 低秩适配器微调

硬件/数据相关

Wikitext-2: LLM 评估基准

ImageNet: 视觉模型评估基准

速查卡片

Prune-then-Quantize or Quantize-then-Prune?

核心: 弱压缩先行、强压缩后施（Progressive Intensity Hypothesis）
方法: 定义 CER 统一度量压缩强度，证明顺序优势随 CER 差异单调递增
结果: 在 LLM 和视觉模型上广泛验证，扩展到多阶段、LoRA、参数共享、混合精度
代码: 未开源

笔记创建时间: 2026-03-20