QAT

分类: 量化与低秩

QAT

定义

在训练过程中模拟量化噪声,使模型在部署时能以低精度(如 INT8、INT4)运行而精度损失最小的训练方法。

数学形式

w^=round(ws)s,s=max(w)2b11\hat{w} = \text{round}\left(\frac{w}{s}\right) \cdot s, \quad s = \frac{\max(|w|)}{2^{b-1}-1}

其中 ss 为缩放因子,bb 为量化位宽,前向传播使用 w^\hat{w},反向传播用 STE(Straight-Through Estimator)直通梯度。

核心要点

PTQ(训练后量化)相比,QAT 精度更高,但需要重新训练

前向模拟量化 → 后向 STE 直通梯度(绕过 round 的不可微性)

支持权重量化、激活量化、注意力量化(如 BinaryAttention)

QAT + KD(知识蒸馏)联合优化是边端部署的主流路线

代表工作

BinaryAttention:将 QK 注意力二值化到 1-bit,基于 QAT 框架

DFD:Decoder-Free Distillation,QAT+KD 用于图像复原

GPTQ:PTQ 方法,与 QAT 互为对比

相关概念

PTQ

GPTQ

AWQ

知识蒸馏