INT4 量化

分类: 量化与低秩

定义

将模型权重从高精度（FP16/BF16）压缩为 4-bit 整数表示，存储量减少 4 倍

是当前 LLM 部署的主流量化精度，在精度和压缩率间取得较好平衡

常见方案：GPTQ、AWQ、HQQ 等

W4A16（权重 4-bit，激活 16-bit）是最常用配置

FlashHead 在 INT4 量化下实现最大加速（1.75×），因为分类头计算占比在量化后更高

FlashHead: INT4 下端到端推理加速 1.75×，分类头量化后 BBH 仅下降 0.002

GPTQ: 经典的 post-training 4-bit 量化方法

AWQ: 激活感知的权重量化