PTQ

分类: 量化与低秩

PTQ (Post-Training Quantization)

定义

在模型训练完成后,不需要重新训练即可将模型权重和/或激活从高精度(FP32/FP16)量化到低精度(INT8/INT4)的技术。

核心要点

无需访问完整训练数据,通常只需少量校准数据(calibration data)

主要挑战:量化误差累积、outlier activation 导致精度严重下降

常见策略:per-channel scaling、rotation/transformation、low-rank error reconstruction

QAT 相比,PTQ 部署成本更低但精度通常略差

代表工作

GPTQ: 基于 Hessian 的逐层权重量化

SmoothQuant: 将量化难度从 activation 迁移到 weight

AWQ: 基于 activation-aware 的权重量化

相关概念

QAT

GPTQ

SmoothQuant

LoRA