Prune-then-Quantize or Quantize-then-Prune? Understanding the Impact of Compression Order in Joint Model Compression
论文笔记:Prune-then-Quantize or Quantize-then-Prune?
元信息
| 项目 | 内容 |
|---|---|
| 机构 | Seoul National University |
| 日期 | March 2025 |
| 项目主页 | — |
| 对比基线 | SparseGPT, GPTQ, Quarot |
| 链接 | arXiv |
一句话总结
首次从理论和实验两方面证明联合模型压缩中弱压缩先行、强压缩后施(Progressive Intensity Hypothesis)可获得更优性能。
核心贡献
问题形式化: 定义了联合压缩顺序优化问题,引入 Performance Gap、CER、Compression Order Advantage 三个核心度量
理论分析: 在 Disjoint Selectivity 条件下证明压缩顺序优势随 CER 差异单调递增(Theorem 1 & 2)
广泛实验验证: 在 LLM(LLaMA 2/3)和视觉模型(ResNet, DeiT)上验证假说,并扩展到多阶段压缩、混合精度、LoRA、参数共享等场景
问题背景
要解决的问题
联合模型压缩(同时使用剪枝和量化等多种技术)时,压缩方法的施加顺序是否影响最终性能?现有工作大多隐式假设顺序无关。
现有方法的局限
大多数联合压缩工作基于”正交性”论证忽略顺序问题
少数研究仅在高度受限的场景下考察过顺序影响,缺乏一般性理论分析
本文的动机
作者观察到在实际压缩流水线中,先施加较弱的压缩、后施加较强的压缩能获得更好的性能,这一规律具有理论可解释性
方法详解
问题定义
给定预训练模型 、压缩方法集合 和性能指标 ,目标是找到最优排列 :
压缩属性刻画
压缩粒度(Compression Granularity)
压缩方法的粒度是指其操作的最小结构单元。结构化剪枝在层/滤波器/注意力头级别操作,而量化通常在权重元素级别操作。
Definition 1: 压缩粒度 ,其中 是压缩方法 可操作的抽象类型集合。
压缩强度(Intensity)
通过三个定义刻画压缩强度:
Performance Gap(性能差距) 衡量两种压缩方法的强度差异:
若 ,则 是更强的压缩, 是更弱的压缩
Compression Equivalent Ratio (CER) 将任意压缩方法的效果映射到等价的量化比率:
通过线性插值计算,提供不同方法间的可比性
Compression Order Advantage(压缩顺序优势) 量化顺序对性能的影响:
意味着先 后 更优
Progressive Intensity Hypothesis
Hypothesis 1: 压缩顺序优势 随 Performance Gap (或等价地,CER 差异 )单调递增。
直觉:如果两种方法分别得到 75% 和 70% 准确率(5% 差距),顺序优势较小;若第二种方法降至 60%(15% 差距),则顺序优势显著增大。
理论分析
Disjoint Selectivity(不相交选择性)
Definition 5: 若每个单元最终只被一种压缩方法处理(无论施加顺序),则称满足 Disjoint Selectivity:
Interference(干扰)
当结构化剪枝的粒度比量化更粗时,剪枝可能部分消除量化单元,产生额外误差:
干扰大小取决于剪枝比率,但因其仅依赖于剪枝且以加性形式进入,不影响单调性趋势
关键公式
公式1: 层级剪枝误差
含义: 移除第 层时产生的重建误差
符号说明:
- : 第 层的权重矩阵
- : 第 层的输入激活
公式2: 量化误差
含义: 量化后第 层输出与原始输出的偏差
符号说明:
- : 量化函数
- : 原始层输出
公式3: 误差-性能关系 (Assumption 1)
含义: 模型性能下降与总重建误差的 Frobenius 范数平方成正比
符号说明:
- : 比例常数
- : 第 层的重建误差
公式4: 良设计量化分布 (Assumption 2)
含义: 良好设计的量化产生以原始值为中心、对称零均值的误差
符号说明:
- : 量化噪声方差
公式5: Theorem 1 — Compression Order Advantage
含义: 在 Disjoint Selectivity 下,顺序优势仅取决于那些分配随顺序变化的单元
符号说明:
- : 单元级误差差
- : 顺序依赖单元组(其方法分配随顺序变化)
公式6: Theorem 2 — 单调性
含义: CER 差异越大,压缩顺序优势越大——验证 Progressive Intensity Hypothesis
公式7: 剪枝压缩比
含义: 剪枝比例 对应的压缩比
符号说明: 为剪枝比例
公式8: 量化压缩比
含义: 从原始位宽到量化位宽的压缩比
符号说明: 为原始位宽, 为量化位宽
关键图表
Figure 1: Progressive Intensity Hypothesis 示意图
{:width 600}
说明: 展示 Progressive Intensity Hypothesis 的核心思想——弱压缩先行、强压缩后施比反向顺序能获得更优性能。
Figure 2: 剪枝与量化交互的粒度分析
{:width 600}
说明: 展示不同粒度下剪枝和量化的交互模式,包括满足 Disjoint Selectivity 的情形和产生 Interference 的情形。
Figure 3: LLaMA 系列模型上的 CER 差异 vs 顺序优势
{:width 600}
{:width 600}
{:width 600}
{:width 600}
说明: 在 LLaMA 2 7B、13B 和 LLaMA 3 8B 上,压缩顺序优势 随 CER 差异单调递增。剪枝比率 0.05-0.30,量化位宽 4-8 bit。
Figure 4: 多种方法组合的验证
{:width 600}
{:width 600}
说明: 在 LLaMA 3 8B 上使用多种剪枝(SparseGPT, Wanda, SLEB)和量化(RTN, OPTQ, QuaRot)方法组合,假说一致成立,不受权重更新和旋转变换影响。
Figure 5: 旋转对剪枝的影响
{:width 600}
说明: 关键发现——在旋转后施加剪枝会导致性能剧烈下降。随着剪枝比率增大,旋转与非旋转设置之间的性能差距急剧扩大,表明需要旋转感知的剪枝方法设计。
Figure 6: 视觉模型上的验证
{:width 600}
{:width 600}
说明: 在 CNN(ResNet-18 + PRACTISE + N2UQ)和 ViT(DeiT-Base + SAViT + RepQ-ViT)上验证假说,视觉模型的顺序优势显著高于语言模型。
Figure 7: 多阶段压缩
{:width 600}
说明: 在 LLaMA 3 8B 上使用 SparseGPT 和 QuaRot 进行交替多阶段压缩(P→Q→P 序列),总剪枝比率 0.30。结果表明假说扩展到多阶段场景。
Figure 8: LoRA 联合压缩
{:width 600}
说明: 结合 LoRA 与剪枝和量化,在 LLaMA 3 8B 上验证假说。Post-quantization LoRA 有效保持了预期的顺序模式。
Figure 9: 参数共享联合压缩
{:width 600}
说明: 在 LLaMA 2 7B 上结合 Basis Sharing 与 magnitude pruning,证明假说推广到剪枝-量化之外的参数共享组合。
Figure 10: 混合精度量化
{:width 600}
{:width 600}
说明: 在 ResNet-18 上比较渐进式(8→2 bit)与回归式(2→8 bit)位宽分配。在 HAWQ-V2 固定平均位宽下,渐进式分配持续优于回归式,进一步验证 Progressive Intensity Hypothesis。
Table 1: 不同量化比率下的压缩顺序优势
| () | SparseGPT | SLEB |
|---|---|---|
| 1.78 (9-bit) | 0.002 | 0 |
| 2.00 (8-bit) | 0.001 | 0 |
| 2.28 (7-bit) | -0.003 | 0 |
| 2.68 (6-bit) | -0.013 | 0 |
| 3.20 (5-bit) | -0.017 | -0.057 |
| 4.00 (4-bit) | -49.899 | -9.379 |
说明: LLaMA 3 8B 上 5% 剪枝 + QuaRot 的 。SLEB(结构化剪枝)在高位宽区域显示零干扰,而 SparseGPT(非结构化)呈现单调干扰模式。4-bit 量化时顺序影响极其显著。
Table 3: 实验使用的压缩方法
| 类别 | 方法 |
|---|---|
| LLM 剪枝 | SparseGPT, Wanda, SLEB |
| LLM 量化 | RTN, OPTQ, QuaRot, QuaRot + OPTQ |
| CNN 剪枝 | PRACTISE |
| CNN 量化 | N2UQ |
| ViT 剪枝 | SAViT |
| ViT 量化 | RepQ-ViT |
Table 4: 旋转对 Commonsense Reasoning 的影响
| Model | Method | Baseline | w/ Rotation | w/ Rotation + Pruning |
|---|---|---|---|---|
| LLaMA 3 8B | SparseGPT (p=0.2) | 72.8 | 73.1 | 52.3 |
| LLaMA 3 8B | SLEB (p=0.2) | 72.8 | 73.1 | 71.2 |
说明: 旋转对 SparseGPT 的剪枝影响远大于 SLEB,Commonsense Reasoning 准确率从 73.1% 暴跌至 52.3%。
实验
数据集
| 数据集 | 规模 | 特点 | 用途 |
|---|---|---|---|
| Wikitext-2 | — | 语言建模基准 | LLM 评估(负困惑度) |
| ImageNet | 1.28M / 50K | 1000 类图像分类 | 视觉模型评估 |
| Commonsense Reasoning | — | 多任务推理基准 | LLM 扩展验证 |
实现细节
语言模型: LLaMA 2 7B / 13B, LLaMA 3 8B
视觉模型: ResNet-18 (CNN), DeiT-Base (ViT)
剪枝比率: 0.05 ~ 0.30
量化位宽: 4 ~ 9 bit(含 混合精度)
评估指标: 负困惑度(语言模型),Top-1 准确率(视觉模型)
扩展场景: 多阶段压缩、LoRA 微调、参数共享、混合精度量化
核心发现
- Finding 1-2: Progressive Intensity Hypothesis 在所有语言模型和方法组合上成立
- Finding 3: 旋转变换放大剪枝效应,需要旋转感知设计
- Finding 4: 剪枝粒度决定干扰行为——结构化剪枝在特定区间避免干扰
- Finding 5: 视觉模型的顺序优势显著高于语言模型
- Finding 6-9: 假说推广至多阶段压缩、LoRA、参数共享和混合精度量化
批判性思考
优点
理论严谨: 从 Disjoint Selectivity 和误差-性能折衷出发推导,定理条件清晰
实验覆盖广: LLM + CNN + ViT,多种剪枝/量化方法组合,超越简单的 P→Q vs Q→P
实用价值高: 提供明确的压缩流水线设计指导——弱先强后
新发现: 旋转对剪枝的负面影响是一个重要且实用的 insight
局限性
Assumption 1(层间独立): 在深层网络中误差会传播和累积,假设过强
仅限 Post-hoc 压缩: 未考虑 co-designed 联合压缩框架中的顺序问题
缺乏自动化工具: 仅提供经验规则,未开发自动顺序选择算法
干扰分析局限: Interference 的理论分析依赖特定粒度条件
潜在改进方向
发展自动压缩顺序搜索算法,基于 CER 差异预测最优顺序
将理论扩展到非加性误差模型,放松层间独立假设
研究 QAT + 剪枝 等训练时压缩组合的顺序效应
可复现性评估
- 代码开源(未提及)
- 预训练模型(使用公开的 LLaMA、ResNet、DeiT)
- 训练细节完整
- 数据集可获取
关联笔记
基于
SparseGPT: 非结构化剪枝基线
GPTQ: 量化基线(OPTQ 为其改进)
Quarot: 旋转基线量化方法
对比
SparseGPT: LLM 非结构化剪枝
Quarot: 旋转基础量化
GPTQ: 权重量化
方法相关
结构化剪枝: 层/头级别剪枝
PTQ: 训练后量化
混合精度: 不同层使用不同位宽
LoRA: 低秩适配器微调
硬件/数据相关
Wikitext-2: LLM 评估基准
ImageNet: 视觉模型评估基准
速查卡片
Prune-then-Quantize or Quantize-then-Prune?
- 核心: 弱压缩先行、强压缩后施(Progressive Intensity Hypothesis)
- 方法: 定义 CER 统一度量压缩强度,证明顺序优势随 CER 差异单调递增
- 结果: 在 LLM 和视觉模型上广泛验证,扩展到多阶段、LoRA、参数共享、混合精度
- 代码: 未开源
笔记创建时间: 2026-03-20