QAT

分类: 量化与低秩

定义

在训练过程中模拟量化噪声，使模型在部署时能以低精度（如 INT8、INT4）运行而精度损失最小的训练方法。

$\hat{w} = \text{round}\left(\frac{w}{s}\right) \cdot s, \quad s = \frac{\max(|w|)}{2^{b-1}-1}$

其中 $s$ 为缩放因子， $b$ 为量化位宽，前向传播使用 $\hat{w}$ ，反向传播用 STE（Straight-Through Estimator）直通梯度。

与 PTQ（训练后量化）相比，QAT 精度更高，但需要重新训练

前向模拟量化 → 后向 STE 直通梯度（绕过 round 的不可微性）

支持权重量化、激活量化、注意力量化（如 BinaryAttention）

QAT + KD（知识蒸馏）联合优化是边端部署的主流路线

BinaryAttention：将 QK 注意力二值化到 1-bit，基于 QAT 框架

DFD：Decoder-Free Distillation，QAT+KD 用于图像复原

GPTQ：PTQ 方法，与 QAT 互为对比