SpQR

分类: 量化与低秩

SpQR

定义

SpQR (Sparse-Quantized Representation) 是一种 LLM 后训练量化方法,通过识别和隔离 outlier 权重(保持高精度),对其余权重做低比特量化,实现近无损压缩。

核心要点

核心观察:少量 outlier 权重对量化误差影响极大

将 outlier 稀疏存储(高精度),其余权重低比特量化

实现接近 3-bit 的压缩率,且几乎不损失精度

GPTQSqueezeLLM 等 PTQ 方法互补

代表工作

Dettmers et al., “SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression” (ICML 2024)

相关概念

GPTQ — 主流 PTQ 方法

SqueezeLLM — 同属 outlier-aware 量化

AWQ — 另一种权重感知量化