GPTQ

分类: 量化与低秩

GPTQ

定义

基于近似二阶信息(Hessian 矩阵)的 LLM 权重量化方法,逐列处理权重矩阵,将量化误差最优地分配到未量化的列上。

数学形式

w^j=quant(wj),δj=wjw^j[H1]jj\hat{w}_j = \text{quant}(w_j), \quad \delta_j = \frac{w_j - \hat{w}_j}{[H^{-1}]_{jj}} 其中 HH 是 Hessian 矩阵,误差 δj\delta_j 被补偿到剩余未量化列。

核心要点

将 OBQ (Optimal Brain Quantization) 扩展到 LLM 规模

逐列量化 + Hessian-based error compensation

支持 W4/W3/W2 等极低 bit-width

不改变激活精度,主要压缩权重

代表工作

Frantar et al., 2023: GPTQ 原始论文

后续被 AWQSpinQuant、QuaRot 等方法作为 baseline

相关概念

PTQ

AWQ

SmoothQuant