SpQR
分类: 量化与低秩
SpQR
定义
SpQR (Sparse-Quantized Representation) 是一种 LLM 后训练量化方法,通过识别和隔离 outlier 权重(保持高精度),对其余权重做低比特量化,实现近无损压缩。
核心要点
核心观察:少量 outlier 权重对量化误差影响极大
将 outlier 稀疏存储(高精度),其余权重低比特量化
实现接近 3-bit 的压缩率,且几乎不损失精度
与 GPTQ、SqueezeLLM 等 PTQ 方法互补
代表工作
Dettmers et al., “SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression” (ICML 2024)
相关概念
GPTQ — 主流 PTQ 方法
SqueezeLLM — 同属 outlier-aware 量化
AWQ — 另一种权重感知量化