SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization

作者: Yeonsik Park, Hyeonseong Kim, Seungkyu Choi 年份: 2026 会议: arXiv 分类: 量化与低秩

SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization

一句话总结

单个低秩补偿矩阵替代传统双矩阵 LoRA 分解,通过 saliency-aware 选择性重建实现高效 W4A4 LLM 量化,在保持 4-bit GEMM 完整执行的同时显著减少量化误差。

核心问题

  现有 LLM [PTQ](/concepts/量化与低秩/ptq) 方法在 W4A4(4-bit 权重 + 4-bit 激活)设置下精度严重退化。基于 [LoRA](/concepts/量化与低秩/lora) 的误差重建(如 L2QER)使用双矩阵 $L_1 L_2$ 分解,需要中间量化(intermediate quantization),破坏了低精度推理效率。

关键公式

基础量化

Xq=clip(Xs),s=max(X)2n11X_q = \text{clip}\left(\left\lfloor \frac{X}{s} \right\rceil\right), \quad s = \frac{\max(|X|)}{2^{n-1} - 1}

L2QER 的双矩阵路径(存在问题)

Y^=XqWq+Q(XqL1,q)L2,q\hat{Y} = X_q \cdot W_q + Q(X_q \cdot L_{1,q}) \cdot L_{2,q}

问题Q(XqL1,q)Q(X_q \cdot L_{1,q}) 需要对中间结果做 on-the-fly 量化 → 引入 latency + 精度损失。

SERQ 的三阶段方法

Stage 1: Static Activation Flattening (SAF)

Y=XW=(Xdiag(s)1)(diag(s)W)=X~W~Y = X \cdot W = (X \cdot \text{diag}(s)^{-1}) \cdot (\text{diag}(s) \cdot W) = \tilde{X} \cdot \tilde{W}

缩放因子 ss 在校准时确定,离线合并到相邻层 → 零运行时开销

Stage 2: Saliency-Aware Error Reconstruction

按 saliency(激活尺度)排列权重行,分区为 salient 行 W~s\tilde{W}_s 和 remaining 行 W~r\tilde{W}_r

W^=Pdiag(s)W=[W~sW~r]\hat{W} = P \cdot \text{diag}(s) \cdot W = \begin{bmatrix} \tilde{W}_s \\ \tilde{W}_r \end{bmatrix}

单矩阵补偿(核心创新):

R=W~sQ(W~s)Rr×dR = \tilde{W}_s - Q(\tilde{W}_s) \in \mathbb{R}^{r \times d}

量化推理:

Y^X^qW^q+X~s,qQ(R)\hat{Y} \approx \hat{X}_q \cdot \hat{W}_q + \tilde{X}_{s,q} \cdot Q(R)

vs L2QER:只有 1 次矩阵乘法(r×dr \times d),不需要中间量化。

Stage 3: Offline Weight Permutation

行/列排列离线合并到权重中。例如 down-projection 的行排列 P4P_4 传播到 up/gate-projection 的列排列,推理时零额外操作

关键洞察

仅对 salient 行做低秩重建(而非全矩阵 SVD)→ 相同 rank 预算下 PPL 改善 1-4%。

关键图表

Figure 1: SERQ 方法概览

三阶段流水线:SAF → Saliency-aware 误差重建 → 离线排列。单低秩路径避免中间量化。

实验结果

Table: W4A4 主要结果(LLaMA-2 7B)

方法训练需求Latency OverheadPPL↓0-shot Avg↑MMLU↑
FP165.4764.0941.83
L2QER高(双路径)7.3757.6729.63
SmoothQuant7.4957.1530.40
QuaRot19.8%6.1559.5333.58
SpinQuant19.8%6.0061.0034.80
SERQ18.7%5.9761.8737.03

Table: LLaMA-3 8B W4A4

方法PPL↓0-shot↑MMLU↑
FP166.1367.1662.13
L2QER11.4455.4438.33
SERQ7.7562.4153.80

L2QER 在新模型上严重退化;SERQ 保持稳定。

GPU 性能分析

在 NVIDIA Blackwell RTX PRO 6000 上测试(LLaMA-3 8B, 2K context):

指标FP16MXFP4SERQ-MXFP4
Prefill TTFT132.38ms56.03ms62.31ms
Peak Memory17.44GB7.03GB (2.48×↓)
Speedup1.00×2.36×2.12×

SERQ 仅增加 <10% latency 开销,实现 2.48× 内存压缩。

消融实验

Rank 敏感性(LLaMA-3 8B):Rank 0 → 9.8 PPL; Rank 16 → 8.28; Rank 128 → 8.07(选用); Rank 256 → 7.98。收益快速饱和。

SAF 贡献:大模型(7B+)SAF 贡献不大(6.05 → 6.03);小模型关键(Qwen-2.5 3B: 20.67 → 9.57)。

生成任务(GSM8K 5-shot, LLaMA-3 8B):SERQ W4A4 = 23.65% vs L2QER W4A4 = 7.96%。

与现有方法对比

方面L2QER旋转方法SERQ
低秩因子2个(L1,L2L_1, L_21个(RR
中间量化需要不需要不需要
在线计算Hadamard 变换旋转矩阵无(静态排列)
校准时间QuaRot ~31m / SpinQuant ~598m~23m
W4A4 精度中等最优

对我们工作的启示

  1. Saliency-aware 选择性处理:不是全局均匀处理,而是识别重要通道重点补偿 → 可迁移到模型增长中判断”哪里需要增长”
  2. 单矩阵 vs 双矩阵:简化计算路径的思路值得学习
  3. 离线预处理:排列/缩放全部离线完成 → 推理零开销的设计模式

局限性

W4A4 在生成任务(GSM8K)上仍有较大精度损失(48.07% → 23.65%)

Rank 128 增加 ~1.6% 参数开销

MXFP4 格式仅支持 Blackwell 架构

未验证在更大模型(70B+)上的 scaling behavior

相关概念

PTQ

GPTQ

SmoothQuant

LoRA