Prune-then-Quantize or Quantize-then-Prune? Understanding the Impact of Compression Order in Joint Model Compression

作者: Minjun Kim, Jaehyeon Choi, Hyunwoo Yang, Jongjin Kim, Jinho Song, U Kang 年份: 2025 会议: arXiv 分类: 量化与低秩

论文笔记:Prune-then-Quantize or Quantize-then-Prune?

元信息

项目内容
机构Seoul National University
日期March 2025
项目主页
对比基线SparseGPT, GPTQ, Quarot
链接arXiv

一句话总结

首次从理论和实验两方面证明联合模型压缩中弱压缩先行、强压缩后施(Progressive Intensity Hypothesis)可获得更优性能。

核心贡献

问题形式化: 定义了联合压缩顺序优化问题,引入 Performance Gap、CER、Compression Order Advantage 三个核心度量

理论分析: 在 Disjoint Selectivity 条件下证明压缩顺序优势随 CER 差异单调递增(Theorem 1 & 2)

广泛实验验证: 在 LLM(LLaMA 2/3)和视觉模型(ResNet, DeiT)上验证假说,并扩展到多阶段压缩、混合精度LoRA、参数共享等场景

问题背景

要解决的问题

联合模型压缩(同时使用剪枝量化等多种技术)时,压缩方法的施加顺序是否影响最终性能?现有工作大多隐式假设顺序无关。

现有方法的局限

大多数联合压缩工作基于”正交性”论证忽略顺序问题

少数研究仅在高度受限的场景下考察过顺序影响,缺乏一般性理论分析

本文的动机

作者观察到在实际压缩流水线中,先施加较弱的压缩、后施加较强的压缩能获得更好的性能,这一规律具有理论可解释性

方法详解

问题定义

给定预训练模型 ϕ\phi、压缩方法集合 F={f1(),f2(),,fn()}\mathbb{F} = \{f_1(\cdot), f_2(\cdot), \ldots, f_n(\cdot)\} 和性能指标 M()\mathcal{M}(\cdot),目标是找到最优排列 π\pi^*

π=argmaxπΠM(π(ϕ))\pi^* = \arg\max_{\pi \in \Pi} \mathcal{M}(\pi(\phi))

压缩属性刻画

压缩粒度(Compression Granularity)

压缩方法的粒度是指其操作的最小结构单元。结构化剪枝在层/滤波器/注意力头级别操作,而量化通常在权重元素级别操作。

Definition 1: 压缩粒度 tfargmintTftt_f \triangleq \arg\min_{t \in \mathcal{T}_f} |t|,其中 TfTϕ\mathcal{T}_f \subseteq \mathcal{T}_\phi 是压缩方法 f()f(\cdot) 可操作的抽象类型集合。

压缩强度(Intensity)

通过三个定义刻画压缩强度:

Performance Gap(性能差距) 衡量两种压缩方法的强度差异:

G(ϕ,M;f1(;C1),f2(;C2))M(f1(ϕ;C1))M(f2(ϕ;C2))\mathcal{G}(\phi, \mathcal{M}; f_1(\cdot; C_1), f_2(\cdot; C_2)) \triangleq \mathcal{M}(f_1(\phi; C_1)) - \mathcal{M}(f_2(\phi; C_2))

G(f1,f2)>0\mathcal{G}(f_1, f_2) > 0,则 f2f_2 是更强的压缩,f1f_1 是更弱的压缩

Compression Equivalent Ratio (CER) 将任意压缩方法的效果映射到等价的量化比率:

Cf(f(),Q,C)Cs.t.M(Q(ϕ;C))=M(f(ϕ;C))C^*_f(f(\cdot), \mathcal{Q}, C) \triangleq C' \quad \text{s.t.} \quad \mathcal{M}(\mathcal{Q}(\phi; C')) = \mathcal{M}(f(\phi; C))

通过线性插值计算,提供不同方法间的可比性

Compression Order Advantage(压缩顺序优势) 量化顺序对性能的影响:

A(ϕ,M;f1f2)M((f2f1)(ϕ))M((f1f2)(ϕ))\mathcal{A}(\phi, \mathcal{M}; f_1 \to f_2) \triangleq \mathcal{M}((f_2 \circ f_1)(\phi)) - \mathcal{M}((f_1 \circ f_2)(\phi))

A>0\mathcal{A} > 0 意味着先 f1f_1f2f_2 更优

Progressive Intensity Hypothesis

Hypothesis 1: 压缩顺序优势 A(f1f2)\mathcal{A}(f_1 \to f_2) 随 Performance Gap G(f1,f2)\mathcal{G}(f_1, f_2)(或等价地,CER 差异 Cf2Cf1C^*_{f_2} - C^*_{f_1})单调递增。

直觉:如果两种方法分别得到 75% 和 70% 准确率(5% 差距),顺序优势较小;若第二种方法降至 60%(15% 差距),则顺序优势显著增大。

理论分析

Disjoint Selectivity(不相交选择性)

Definition 5: 若每个单元最终只被一种压缩方法处理(无论施加顺序),则称满足 Disjoint Selectivity: ui,π:Duif1(π)+Duif2(π)=1\forall u_i, \forall \pi: \mathbb{D}^{f_1}_{u_i}(\pi) + \mathbb{D}^{f_2}_{u_i}(\pi) = 1

Interference(干扰)

结构化剪枝的粒度比量化更粗时,剪枝可能部分消除量化单元,产生额外误差:

Δ(ϕ;f1f2)uX(δf2f1(u)δf2(u))\Delta(\phi; f_1 \to f_2) \triangleq \sum_{u \in \mathbb{X}} \left(\delta_{f_2 \circ f_1}(u) - \delta_{f_2}(u)\right)

干扰大小取决于剪枝比率,但因其仅依赖于剪枝且以加性形式进入,不影响单调性趋势

关键公式

公式1: 层级剪枝误差

δP(Wi,Xi)=WiXi\delta_{\mathcal{P}}(\mathbf{W}_i, \mathbf{X}_i) = -\mathbf{W}_i \mathbf{X}_i

含义: 移除第 ii 层时产生的重建误差

符号说明:

  • Wi\mathbf{W}_i: 第 ii 层的权重矩阵
  • Xi\mathbf{X}_i: 第 ii 层的输入激活

公式2: 量化误差

δQ(Wi,Xi)=Q(Wi)Q(Xi)WiXi\delta_{\mathcal{Q}}(\mathbf{W}_i, \mathbf{X}_i) = \mathcal{Q}(\mathbf{W}_i)\mathcal{Q}(\mathbf{X}_i) - \mathbf{W}_i \mathbf{X}_i

含义: 量化后第 ii 层输出与原始输出的偏差

符号说明:

  • Q()\mathcal{Q}(\cdot): 量化函数
  • WiXi\mathbf{W}_i \mathbf{X}_i: 原始层输出

公式3: 误差-性能关系 (Assumption 1)

M(ϕ)M(f(ϕ))=βliLδf(li)F2\mathcal{M}(\phi) - \mathcal{M}(f(\phi)) = \beta \cdot \sum_{l_i \in \mathbb{L}} \|\delta_f(l_i)\|_F^2

含义: 模型性能下降与总重建误差的 Frobenius 范数平方成正比

符号说明:

  • β>0\beta > 0: 比例常数
  • δf(li)F2\|\delta_f(l_i)\|_F^2: 第 ii 层的重建误差

公式4: 良设计量化分布 (Assumption 2)

Q(Wi)Q(Xi)N(WiXi,σQ2I)\mathcal{Q}(\mathbf{W}_i)\mathcal{Q}(\mathbf{X}_i) \sim \mathcal{N}(\mathbf{W}_i \mathbf{X}_i, \sigma_{\mathcal{Q}}^2 \mathbf{I})

含义: 良好设计的量化产生以原始值为中心、对称零均值的误差

符号说明:

  • σQ2\sigma_{\mathcal{Q}}^2: 量化噪声方差

公式5: Theorem 1 — Compression Order Advantage

A(f1f2)=β(uiG2g(ui)uiG1g(ui))\mathcal{A}(f_1 \to f_2) = \beta \cdot \left(\sum_{u_i \in \mathbb{G}_2} g(u_i) - \sum_{u_i \in \mathbb{G}_1} g(u_i)\right)

含义: 在 Disjoint Selectivity 下,顺序优势仅取决于那些分配随顺序变化的单元

符号说明:

  • g(ui)=δf1(ui)F2δf2(ui)F2g(u_i) = \|\delta_{f_1}(u_i)\|_F^2 - \|\delta_{f_2}(u_i)\|_F^2: 单元级误差差
  • G1,G2\mathbb{G}_1, \mathbb{G}_2: 顺序依赖单元组(其方法分配随顺序变化)

公式6: Theorem 2 — 单调性

CP1CQ1>CP1CQ2    A(Q(;CQ1)P)A(Q(;CQ2)P)C^*_{\mathcal{P}_1} - C_{\mathcal{Q}_1} > C^*_{\mathcal{P}_1} - C_{\mathcal{Q}_2} \implies \mathcal{A}(\mathcal{Q}(\cdot; C_{\mathcal{Q}_1}) \to \mathcal{P}) \geq \mathcal{A}(\mathcal{Q}(\cdot; C_{\mathcal{Q}_2}) \to \mathcal{P})

含义: CER 差异越大,压缩顺序优势越大——验证 Progressive Intensity Hypothesis

公式7: 剪枝压缩比

CP=11pC_{\mathcal{P}} = \frac{1}{1 - p}

含义: 剪枝比例 pp 对应的压缩比

符号说明: pp 为剪枝比例

公式8: 量化压缩比

CQ=BorigBQC_{\mathcal{Q}} = \frac{B_{\text{orig}}}{B_{\mathcal{Q}}}

含义: 从原始位宽到量化位宽的压缩比

符号说明: BorigB_{\text{orig}} 为原始位宽,BQB_{\mathcal{Q}} 为量化位宽

关键图表

Figure 1: Progressive Intensity Hypothesis 示意图

Figure 1{:width 600}

说明: 展示 Progressive Intensity Hypothesis 的核心思想——弱压缩先行、强压缩后施比反向顺序能获得更优性能。

Figure 2: 剪枝与量化交互的粒度分析

![Figure 2](/assets/论文笔记___5-量化与低秩___Compression Order_fig2.png){:width 600}

说明: 展示不同粒度下剪枝量化的交互模式,包括满足 Disjoint Selectivity 的情形和产生 Interference 的情形。

Figure 3: LLaMA 系列模型上的 CER 差异 vs 顺序优势

![Figure 3a: LLaMA 2 7B](/assets/论文笔记___5-量化与低秩___Compression Order_fig3.png){:width 600}

Figure 3b: LLaMA 2 13B{:width 600}

![Figure 3c: LLaMA 3 8B (part 1)](/assets/论文笔记___5-量化与低秩___Compression Order_fig5.png){:width 600}

Figure 3d: LLaMA 3 8B (part 2){:width 600}

说明: 在 LLaMA 2 7B、13B 和 LLaMA 3 8B 上,压缩顺序优势 A(QP)\mathcal{A}(\mathcal{Q} \to \mathcal{P}) 随 CER 差异单调递增。剪枝比率 0.05-0.30,量化位宽 4-8 bit。

Figure 4: 多种方法组合的验证

Figure 4a{:width 600}

Figure 4b{:width 600}

说明: 在 LLaMA 3 8B 上使用多种剪枝(SparseGPT, Wanda, SLEB)和量化(RTN, OPTQ, QuaRot)方法组合,假说一致成立,不受权重更新和旋转变换影响。

Figure 5: 旋转对剪枝的影响

Figure 5{:width 600}

说明: 关键发现——在旋转后施加剪枝会导致性能剧烈下降。随着剪枝比率增大,旋转与非旋转设置之间的性能差距急剧扩大,表明需要旋转感知的剪枝方法设计。

Figure 6: 视觉模型上的验证

![Figure 6a: ResNet-18](/assets/论文笔记___5-量化与低秩___Compression Order_fig10.png){:width 600}

Figure 6b: DeiT-Base{:width 600}

说明: 在 CNN(ResNet-18 + PRACTISE + N2UQ)和 ViTDeiT-Base + SAViT + RepQ-ViT)上验证假说,视觉模型的顺序优势显著高于语言模型。

Figure 7: 多阶段压缩

![Figure 7](/assets/论文笔记___5-量化与低秩___Compression Order_fig12.png){:width 600}

说明: 在 LLaMA 3 8B 上使用 SparseGPTQuaRot 进行交替多阶段压缩(P→Q→P 序列),总剪枝比率 0.30。结果表明假说扩展到多阶段场景。

Figure 8: LoRA 联合压缩

Figure 8{:width 600}

说明: 结合 LoRA 与剪枝和量化,在 LLaMA 3 8B 上验证假说。Post-quantization LoRA 有效保持了预期的顺序模式。

Figure 9: 参数共享联合压缩

Figure 9{:width 600}

说明: 在 LLaMA 2 7B 上结合 Basis Sharing 与 magnitude pruning,证明假说推广到剪枝-量化之外的参数共享组合。

Figure 10: 混合精度量化

![Figure 10a](/assets/论文笔记___5-量化与低秩___Compression Order_fig15.png){:width 600}

Figure 10b{:width 600}

说明: 在 ResNet-18 上比较渐进式(8→2 bit)与回归式(2→8 bit)位宽分配。在 HAWQ-V2 固定平均位宽下,渐进式分配持续优于回归式,进一步验证 Progressive Intensity Hypothesis。

Table 1: 不同量化比率下的压缩顺序优势

CQC_\mathcal{Q} (BQB_\mathcal{Q})SparseGPTSLEB
1.78 (9-bit)0.0020
2.00 (8-bit)0.0010
2.28 (7-bit)-0.0030
2.68 (6-bit)-0.0130
3.20 (5-bit)-0.017-0.057
4.00 (4-bit)-49.899-9.379

说明: LLaMA 3 8B 上 5% 剪枝 + QuaRotA(QP)\mathcal{A}(\mathcal{Q} \to \mathcal{P})。SLEB(结构化剪枝)在高位宽区域显示零干扰,而 SparseGPT(非结构化)呈现单调干扰模式。4-bit 量化时顺序影响极其显著

Table 3: 实验使用的压缩方法

类别方法
LLM 剪枝SparseGPT, Wanda, SLEB
LLM 量化RTN, OPTQ, QuaRot, QuaRot + OPTQ
CNN 剪枝PRACTISE
CNN 量化N2UQ
ViT 剪枝SAViT
ViT 量化RepQ-ViT

Table 4: 旋转对 Commonsense Reasoning 的影响

ModelMethodBaselinew/ Rotationw/ Rotation + Pruning
LLaMA 3 8BSparseGPT (p=0.2)72.873.152.3
LLaMA 3 8BSLEB (p=0.2)72.873.171.2

说明: 旋转对 SparseGPT 的剪枝影响远大于 SLEB,Commonsense Reasoning 准确率从 73.1% 暴跌至 52.3%。

实验

数据集

数据集规模特点用途
Wikitext-2语言建模基准LLM 评估(负困惑度)
ImageNet1.28M / 50K1000 类图像分类视觉模型评估
Commonsense Reasoning多任务推理基准LLM 扩展验证

实现细节

语言模型: LLaMA 2 7B / 13B, LLaMA 3 8B

视觉模型: ResNet-18 (CNN), DeiT-Base (ViT)

剪枝比率: 0.05 ~ 0.30

量化位宽: 4 ~ 9 bit(含 混合精度

评估指标: 负困惑度(语言模型),Top-1 准确率(视觉模型)

扩展场景: 多阶段压缩、LoRA 微调、参数共享、混合精度量化

核心发现

  1. Finding 1-2: Progressive Intensity Hypothesis 在所有语言模型和方法组合上成立
  2. Finding 3: 旋转变换放大剪枝效应,需要旋转感知设计
  3. Finding 4: 剪枝粒度决定干扰行为——结构化剪枝在特定区间避免干扰
  4. Finding 5: 视觉模型的顺序优势显著高于语言模型
  5. Finding 6-9: 假说推广至多阶段压缩、LoRA、参数共享和混合精度量化

批判性思考

优点

理论严谨: 从 Disjoint Selectivity 和误差-性能折衷出发推导,定理条件清晰

实验覆盖广: LLM + CNN + ViT,多种剪枝/量化方法组合,超越简单的 P→Q vs Q→P

实用价值高: 提供明确的压缩流水线设计指导——弱先强后

新发现: 旋转对剪枝的负面影响是一个重要且实用的 insight

局限性

Assumption 1(层间独立): 在深层网络中误差会传播和累积,假设过强

仅限 Post-hoc 压缩: 未考虑 co-designed 联合压缩框架中的顺序问题

缺乏自动化工具: 仅提供经验规则,未开发自动顺序选择算法

干扰分析局限: Interference 的理论分析依赖特定粒度条件

潜在改进方向

发展自动压缩顺序搜索算法,基于 CER 差异预测最优顺序

将理论扩展到非加性误差模型,放松层间独立假设

研究 QAT + 剪枝 等训练时压缩组合的顺序效应

可复现性评估

  • 代码开源(未提及)
  • 预训练模型(使用公开的 LLaMA、ResNet、DeiT)
  • 训练细节完整
  • 数据集可获取

关联笔记

基于

SparseGPT: 非结构化剪枝基线

GPTQ: 量化基线(OPTQ 为其改进)

Quarot: 旋转基线量化方法

对比

SparseGPT: LLM 非结构化剪枝

Quarot: 旋转基础量化

GPTQ: 权重量化

方法相关

结构化剪枝: 层/头级别剪枝

PTQ: 训练后量化

混合精度: 不同层使用不同位宽

LoRA: 低秩适配器微调

硬件/数据相关

Wikitext-2: LLM 评估基准

ImageNet: 视觉模型评估基准

速查卡片

Prune-then-Quantize or Quantize-then-Prune?

  • 核心: 弱压缩先行、强压缩后施(Progressive Intensity Hypothesis)
  • 方法: 定义 CER 统一度量压缩强度,证明顺序优势随 CER 差异单调递增
  • 结果: 在 LLM 和视觉模型上广泛验证,扩展到多阶段、LoRA、参数共享、混合精度
  • 代码: 未开源

笔记创建时间: 2026-03-20