INT4 量化

分类: 量化与低秩

INT4 量化

定义

将模型权重从高精度(FP16/BF16)压缩为 4-bit 整数表示,存储量减少 4 倍

核心要点

是当前 LLM 部署的主流量化精度,在精度和压缩率间取得较好平衡

常见方案:GPTQAWQ、HQQ 等

W4A16(权重 4-bit,激活 16-bit)是最常用配置

FlashHead 在 INT4 量化下实现最大加速(1.75×),因为分类头计算占比在量化后更高

代表工作

FlashHead: INT4 下端到端推理加速 1.75×,分类头量化后 BBH 仅下降 0.002

GPTQ: 经典的 post-training 4-bit 量化方法

AWQ: 激活感知的权重量化

相关概念

混合精度

PTQ

GPTQ

AWQ