QAT
分类: 量化与低秩
QAT
定义
在训练过程中模拟量化噪声,使模型在部署时能以低精度(如 INT8、INT4)运行而精度损失最小的训练方法。
数学形式
其中 为缩放因子, 为量化位宽,前向传播使用 ,反向传播用 STE(Straight-Through Estimator)直通梯度。
核心要点
与 PTQ(训练后量化)相比,QAT 精度更高,但需要重新训练
前向模拟量化 → 后向 STE 直通梯度(绕过 round 的不可微性)
支持权重量化、激活量化、注意力量化(如 BinaryAttention)
QAT + KD(知识蒸馏)联合优化是边端部署的主流路线
代表工作
BinaryAttention:将 QK 注意力二值化到 1-bit,基于 QAT 框架
DFD:Decoder-Free Distillation,QAT+KD 用于图像复原
GPTQ:PTQ 方法,与 QAT 互为对比