SmoothQuant

分类: 量化与低秩

SmoothQuant

定义

通过数学等价变换将量化难度从 activation 迁移到 weight 的 LLM 量化方法。用 per-channel scaling 平滑 activation 的 outlier,使 activation 变得更容易量化。

数学形式

Y=(Xdiag(s)1)(diag(s)W)=X^W^Y = (X \cdot \text{diag}(s)^{-1}) \cdot (\text{diag}(s) \cdot W) = \hat{X} \cdot \hat{W} 其中 ss 是 per-channel scaling factor,选择使 X^\hat{X}W^\hat{W} 的量化难度平衡。

核心要点

解决 LLM 中 activation outlier 导致量化困难的问题

关键洞察:weight 比 activation 更容易量化,可以把难度转移过去

支持 W8A8 量化,保持高精度

属于 PTQ 方法,无需重训练

代表工作

Xiao et al., 2023: SmoothQuant 原始论文

相关概念

PTQ

GPTQ

AWQ