AWQ
分类: 量化与低秩
AWQ
定义
Activation-aware Weight Quantization:通过分析激活值分布来确定哪些权重对精度敏感,对敏感权重保留更高精度,实现 LLM 的低比特 PTQ。
数学形式
AWQ 的核心思路:为每个输入通道搜索最优缩放因子 ,使激活值大的通道权重量化误差最小:
核心要点
基于观察:LLM 激活中存在少量”显著”输入通道(对应激活值大),这些通道的权重量化误差对输出影响更大
解决方案:对显著权重列进行 per-channel 缩放(等效于激活值除以缩放因子,权重乘以缩放因子),使量化后误差集中在不重要的通道上
与 GPTQ 的区别:GPTQ 用 Hessian 二阶信息逐层优化,计算开销大;AWQ 用一阶激活统计,更快且无需逐层 calibration
与 SmoothQuant 的关系:SmoothQuant 把激活值的难量化性迁移到权重(类似思路),AWQ 更进一步只针对激活显著通道
代表工作
AWQ: Lin et al., 2023. “AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration.”
相关概念
GPTQ — 同为 W4 LLM PTQ 主流方法,但用 Hessian 优化
SmoothQuant — 激活值迁移到权重的 PTQ 方法
PTQ — 训练后量化通用框架
LoRA — 同属压缩方向,但 LoRA 是低秩近似而非量化