SmoothQuant
分类: 量化与低秩
SmoothQuant
定义
通过数学等价变换将量化难度从 activation 迁移到 weight 的 LLM 量化方法。用 per-channel scaling 平滑 activation 的 outlier,使 activation 变得更容易量化。
数学形式
其中 是 per-channel scaling factor,选择使 和 的量化难度平衡。
核心要点
解决 LLM 中 activation outlier 导致量化困难的问题
关键洞察:weight 比 activation 更容易量化,可以把难度转移过去
支持 W8A8 量化,保持高精度
属于 PTQ 方法,无需重训练
代表工作
Xiao et al., 2023: SmoothQuant 原始论文