AWQ

分类: 量化与低秩

AWQ

定义

Activation-aware Weight Quantization:通过分析激活值分布来确定哪些权重对精度敏感,对敏感权重保留更高精度,实现 LLM 的低比特 PTQ。

数学形式

W^=round(Ws)s,s=argminsWXW^X\hat{W} = \text{round}\left(\frac{W}{s}\right) \cdot s, \quad s = \arg\min_s \|WX - \hat{W}X\|

AWQ 的核心思路:为每个输入通道搜索最优缩放因子 ss,使激活值大的通道权重量化误差最小:

minsQ(Wdiag(s))diag(s)1XWXF\min_{s} \left\| \text{Q}(W \cdot \text{diag}(s)) \cdot \text{diag}(s)^{-1} \cdot X - WX \right\|_F

核心要点

基于观察:LLM 激活中存在少量”显著”输入通道(对应激活值大),这些通道的权重量化误差对输出影响更大

解决方案:对显著权重列进行 per-channel 缩放(等效于激活值除以缩放因子,权重乘以缩放因子),使量化后误差集中在不重要的通道上

GPTQ 的区别:GPTQ 用 Hessian 二阶信息逐层优化,计算开销大;AWQ 用一阶激活统计,更快且无需逐层 calibration

SmoothQuant 的关系:SmoothQuant 把激活值的难量化性迁移到权重(类似思路),AWQ 更进一步只针对激活显著通道

代表工作

AWQ: Lin et al., 2023. “AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration.”

相关概念

GPTQ — 同为 W4 LLM PTQ 主流方法,但用 Hessian 优化

SmoothQuant — 激活值迁移到权重的 PTQ 方法

PTQ — 训练后量化通用框架

LoRA — 同属压缩方向,但 LoRA 是低秩近似而非量化