GPTQ
分类: 量化与低秩
GPTQ
定义
基于近似二阶信息(Hessian 矩阵)的 LLM 权重量化方法,逐列处理权重矩阵,将量化误差最优地分配到未量化的列上。
数学形式
其中 是 Hessian 矩阵,误差 被补偿到剩余未量化列。
核心要点
将 OBQ (Optimal Brain Quantization) 扩展到 LLM 规模
逐列量化 + Hessian-based error compensation
支持 W4/W3/W2 等极低 bit-width
不改变激活精度,主要压缩权重
代表工作
Frantar et al., 2023: GPTQ 原始论文
后续被 AWQ、SpinQuant、QuaRot 等方法作为 baseline