AWQ

分类: 量化与低秩

定义

Activation-aware Weight Quantization：通过分析激活值分布来确定哪些权重对精度敏感，对敏感权重保留更高精度，实现 LLM 的低比特 PTQ。

$\hat{W} = \text{round}\left(\frac{W}{s}\right) \cdot s, \quad s = \arg\min_s \|WX - \hat{W}X\|$

AWQ 的核心思路：为每个输入通道搜索最优缩放因子 $s$ ，使激活值大的通道权重量化误差最小：

$\min_{s} \left\| \text{Q}(W \cdot \text{diag}(s)) \cdot \text{diag}(s)^{-1} \cdot X - WX \right\|_F$

基于观察：LLM 激活中存在少量”显著”输入通道（对应激活值大），这些通道的权重量化误差对输出影响更大

解决方案：对显著权重列进行 per-channel 缩放（等效于激活值除以缩放因子，权重乘以缩放因子），使量化后误差集中在不重要的通道上

与 GPTQ 的区别：GPTQ 用 Hessian 二阶信息逐层优化，计算开销大；AWQ 用一阶激活统计，更快且无需逐层 calibration

与 SmoothQuant 的关系：SmoothQuant 把激活值的难量化性迁移到权重（类似思路），AWQ 更进一步只针对激活显著通道

AWQ: Lin et al., 2023. “AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration.”