SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization

作者: Yeonsik Park, Hyeonseong Kim, Seungkyu Choi 年份: 2026 会议: arXiv 分类: 量化与低秩

SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization

一句话总结

用单个低秩补偿矩阵替代传统双矩阵 LoRA 分解，通过 saliency-aware 选择性重建实现高效 W4A4 LLM 量化，在保持 4-bit GEMM 完整执行的同时显著减少量化误差。

核心问题

  现有 LLM [PTQ](/concepts/量化与低秩/ptq) 方法在 W4A4（4-bit 权重 + 4-bit 激活）设置下精度严重退化。基于 [LoRA](/concepts/量化与低秩/lora) 的误差重建（如 L2QER）使用双矩阵 $L_1 L_2$ 分解，需要中间量化（intermediate quantization），破坏了低精度推理效率。

关键公式

基础量化

$X_q = \text{clip}\left(\left\lfloor \frac{X}{s} \right\rceil\right), \quad s = \frac{\max(|X|)}{2^{n-1} - 1}$

L2QER 的双矩阵路径（存在问题）

$\hat{Y} = X_q \cdot W_q + Q(X_q \cdot L_{1,q}) \cdot L_{2,q}$

问题： $Q(X_q \cdot L_{1,q})$ 需要对中间结果做 on-the-fly 量化 → 引入 latency + 精度损失。

SERQ 的三阶段方法

Stage 1: Static Activation Flattening (SAF)

$Y = X \cdot W = (X \cdot \text{diag}(s)^{-1}) \cdot (\text{diag}(s) \cdot W) = \tilde{X} \cdot \tilde{W}$

缩放因子 $s$ 在校准时确定，离线合并到相邻层 → 零运行时开销。

Stage 2: Saliency-Aware Error Reconstruction

按 saliency（激活尺度）排列权重行，分区为 salient 行 $\tilde{W}_s$ 和 remaining 行 $\tilde{W}_r$ ：

$\hat{W} = P \cdot \text{diag}(s) \cdot W = \begin{bmatrix} \tilde{W}_s \\ \tilde{W}_r \end{bmatrix}$

单矩阵补偿（核心创新）：

$R = \tilde{W}_s - Q(\tilde{W}_s) \in \mathbb{R}^{r \times d}$

量化推理：

$\hat{Y} \approx \hat{X}_q \cdot \hat{W}_q + \tilde{X}_{s,q} \cdot Q(R)$

vs L2QER：只有 1 次矩阵乘法（ $r \times d$ ），不需要中间量化。

Stage 3: Offline Weight Permutation

行/列排列离线合并到权重中。例如 down-projection 的行排列 $P_4$ 传播到 up/gate-projection 的列排列，推理时零额外操作。

关键洞察

仅对 salient 行做低秩重建（而非全矩阵 SVD）→ 相同 rank 预算下 PPL 改善 1-4%。

关键图表

Figure 1: SERQ 方法概览

三阶段流水线：SAF → Saliency-aware 误差重建 → 离线排列。单低秩路径避免中间量化。

实验结果

Table: W4A4 主要结果（LLaMA-2 7B）

方法	训练需求	Latency Overhead	PPL↓	0-shot Avg↑	MMLU↑
FP16	—	—	5.47	64.09	41.83
L2QER	✗	高（双路径）	7.37	57.67	29.63
SmoothQuant	✓	✗	7.49	57.15	30.40
QuaRot	✗	19.8%	6.15	59.53	33.58
SpinQuant	✓	19.8%	6.00	61.00	34.80
SERQ	✗	18.7%	5.97	61.87	37.03

Table: LLaMA-3 8B W4A4

方法	PPL↓	0-shot↑	MMLU↑
FP16	6.13	67.16	62.13
L2QER	11.44	55.44	38.33
SERQ	7.75	62.41	53.80

L2QER 在新模型上严重退化；SERQ 保持稳定。

GPU 性能分析

在 NVIDIA Blackwell RTX PRO 6000 上测试（LLaMA-3 8B, 2K context）：

指标	FP16	MXFP4	SERQ-MXFP4
Prefill TTFT	132.38ms	56.03ms	62.31ms
Peak Memory	17.44GB	—	7.03GB (2.48×↓)
Speedup	1.00×	2.36×	2.12×

SERQ 仅增加 <10% latency 开销，实现 2.48× 内存压缩。

消融实验

Rank 敏感性（LLaMA-3 8B）：Rank 0 → 9.8 PPL; Rank 16 → 8.28; Rank 128 → 8.07（选用）; Rank 256 → 7.98。收益快速饱和。

SAF 贡献：大模型（7B+）SAF 贡献不大（6.05 → 6.03）；小模型关键（Qwen-2.5 3B: 20.67 → 9.57）。

生成任务（GSM8K 5-shot, LLaMA-3 8B）：SERQ W4A4 = 23.65% vs L2QER W4A4 = 7.96%。

与现有方法对比

方面	L2QER	旋转方法	SERQ
低秩因子	2个（ $L_1, L_2$ ）	无	1个（ $R$ ）
中间量化	需要	不需要	不需要
在线计算	Hadamard 变换	旋转矩阵	无（静态排列）
校准时间	中	QuaRot ~31m / SpinQuant ~598m	~23m
W4A4 精度	差	中等	最优

对我们工作的启示

Saliency-aware 选择性处理：不是全局均匀处理，而是识别重要通道重点补偿 → 可迁移到模型增长中判断”哪里需要增长”
单矩阵 vs 双矩阵：简化计算路径的思路值得学习
离线预处理：排列/缩放全部离线完成 → 推理零开销的设计模式

局限性

W4A4 在生成任务（GSM8K）上仍有较大精度损失（48.07% → 23.65%）

Rank 128 增加 ~1.6% 参数开销

MXFP4 格式仅支持 Blackwell 架构

未验证在更大模型（70B+）上的 scaling behavior

SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization

SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization

一句话总结

核心问题

关键公式

基础量化

L2QER 的双矩阵路径（存在问题）

SERQ 的三阶段方法

Stage 1: Static Activation Flattening (SAF)

Stage 2: Saliency-Aware Error Reconstruction

Stage 3: Offline Weight Permutation

关键洞察

关键图表

Figure 1: SERQ 方法概览

实验结果

Table: W4A4 主要结果（LLaMA-2 7B）

Table: LLaMA-3 8B W4A4

GPU 性能分析

消融实验

与现有方法对比

对我们工作的启示

局限性

相关概念