GPTQ

分类: 量化与低秩

定义

基于近似二阶信息（Hessian 矩阵）的 LLM 权重量化方法，逐列处理权重矩阵，将量化误差最优地分配到未量化的列上。

$\hat{w}_j = \text{quant}(w_j), \quad \delta_j = \frac{w_j - \hat{w}_j}{[H^{-1}]_{jj}}$ 其中 $H$ 是 Hessian 矩阵，误差 $\delta_j$ 被补偿到剩余未量化列。

将 OBQ (Optimal Brain Quantization) 扩展到 LLM 规模

逐列量化 + Hessian-based error compensation

支持 W4/W3/W2 等极低 bit-width

不改变激活精度，主要压缩权重

Frantar et al., 2023: GPTQ 原始论文

后续被 AWQ、SpinQuant、QuaRot 等方法作为 baseline