SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization
SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization
一句话总结
用单个低秩补偿矩阵替代传统双矩阵 LoRA 分解,通过 saliency-aware 选择性重建实现高效 W4A4 LLM 量化,在保持 4-bit GEMM 完整执行的同时显著减少量化误差。
核心问题
现有 LLM [PTQ](/concepts/量化与低秩/ptq) 方法在 W4A4(4-bit 权重 + 4-bit 激活)设置下精度严重退化。基于 [LoRA](/concepts/量化与低秩/lora) 的误差重建(如 L2QER)使用双矩阵 $L_1 L_2$ 分解,需要中间量化(intermediate quantization),破坏了低精度推理效率。
关键公式
基础量化
L2QER 的双矩阵路径(存在问题)
问题: 需要对中间结果做 on-the-fly 量化 → 引入 latency + 精度损失。
SERQ 的三阶段方法
Stage 1: Static Activation Flattening (SAF)
缩放因子 在校准时确定,离线合并到相邻层 → 零运行时开销。
Stage 2: Saliency-Aware Error Reconstruction
按 saliency(激活尺度)排列权重行,分区为 salient 行 和 remaining 行 :
单矩阵补偿(核心创新):
量化推理:
vs L2QER:只有 1 次矩阵乘法(),不需要中间量化。
Stage 3: Offline Weight Permutation
行/列排列离线合并到权重中。例如 down-projection 的行排列 传播到 up/gate-projection 的列排列,推理时零额外操作。
关键洞察
仅对 salient 行做低秩重建(而非全矩阵 SVD)→ 相同 rank 预算下 PPL 改善 1-4%。
关键图表
Figure 1: SERQ 方法概览

三阶段流水线:SAF → Saliency-aware 误差重建 → 离线排列。单低秩路径避免中间量化。
实验结果
Table: W4A4 主要结果(LLaMA-2 7B)
| 方法 | 训练需求 | Latency Overhead | PPL↓ | 0-shot Avg↑ | MMLU↑ |
|---|---|---|---|---|---|
| FP16 | — | — | 5.47 | 64.09 | 41.83 |
| L2QER | ✗ | 高(双路径) | 7.37 | 57.67 | 29.63 |
| SmoothQuant | ✓ | ✗ | 7.49 | 57.15 | 30.40 |
| QuaRot | ✗ | 19.8% | 6.15 | 59.53 | 33.58 |
| SpinQuant | ✓ | 19.8% | 6.00 | 61.00 | 34.80 |
| SERQ | ✗ | 18.7% | 5.97 | 61.87 | 37.03 |
Table: LLaMA-3 8B W4A4
| 方法 | PPL↓ | 0-shot↑ | MMLU↑ |
|---|---|---|---|
| FP16 | 6.13 | 67.16 | 62.13 |
| L2QER | 11.44 | 55.44 | 38.33 |
| SERQ | 7.75 | 62.41 | 53.80 |
L2QER 在新模型上严重退化;SERQ 保持稳定。
GPU 性能分析
在 NVIDIA Blackwell RTX PRO 6000 上测试(LLaMA-3 8B, 2K context):
| 指标 | FP16 | MXFP4 | SERQ-MXFP4 |
|---|---|---|---|
| Prefill TTFT | 132.38ms | 56.03ms | 62.31ms |
| Peak Memory | 17.44GB | — | 7.03GB (2.48×↓) |
| Speedup | 1.00× | 2.36× | 2.12× |
SERQ 仅增加 <10% latency 开销,实现 2.48× 内存压缩。
消融实验
Rank 敏感性(LLaMA-3 8B):Rank 0 → 9.8 PPL; Rank 16 → 8.28; Rank 128 → 8.07(选用); Rank 256 → 7.98。收益快速饱和。
SAF 贡献:大模型(7B+)SAF 贡献不大(6.05 → 6.03);小模型关键(Qwen-2.5 3B: 20.67 → 9.57)。
生成任务(GSM8K 5-shot, LLaMA-3 8B):SERQ W4A4 = 23.65% vs L2QER W4A4 = 7.96%。
与现有方法对比
| 方面 | L2QER | 旋转方法 | SERQ |
|---|---|---|---|
| 低秩因子 | 2个() | 无 | 1个() |
| 中间量化 | 需要 | 不需要 | 不需要 |
| 在线计算 | Hadamard 变换 | 旋转矩阵 | 无(静态排列) |
| 校准时间 | 中 | QuaRot ~31m / SpinQuant ~598m | ~23m |
| W4A4 精度 | 差 | 中等 | 最优 |
对我们工作的启示
- Saliency-aware 选择性处理:不是全局均匀处理,而是识别重要通道重点补偿 → 可迁移到模型增长中判断”哪里需要增长”
- 单矩阵 vs 双矩阵:简化计算路径的思路值得学习
- 离线预处理:排列/缩放全部离线完成 → 推理零开销的设计模式
局限性
W4A4 在生成任务(GSM8K)上仍有较大精度损失(48.07% → 23.65%)
Rank 128 增加 ~1.6% 参数开销
MXFP4 格式仅支持 Blackwell 架构
未验证在更大模型(70B+)上的 scaling behavior