INT4 量化
分类: 量化与低秩
INT4 量化
定义
将模型权重从高精度(FP16/BF16)压缩为 4-bit 整数表示,存储量减少 4 倍
核心要点
是当前 LLM 部署的主流量化精度,在精度和压缩率间取得较好平衡
W4A16(权重 4-bit,激活 16-bit)是最常用配置
FlashHead 在 INT4 量化下实现最大加速(1.75×),因为分类头计算占比在量化后更高
代表工作
FlashHead: INT4 下端到端推理加速 1.75×,分类头量化后 BBH 仅下降 0.002
GPTQ: 经典的 post-training 4-bit 量化方法
AWQ: 激活感知的权重量化