SqueezeLLM
分类: 量化与低秩
SqueezeLLM
定义
一种结合密集-稀疏分解的混合精度 LLM 量化方法,通过将权重异常值分离为稀疏矩阵来提高低 bit 量化质量
核心要点
密集-稀疏分解: 将权重分为低 bit 密集部分和高精度稀疏异常值部分
灵敏度感知分配: 根据层的灵敏度分配不同精度
无迁移性: 需要对每个模型单独优化
在 Llama-2-7B 上 PPL 5.57,优于统一量化但略逊于 RAMP(5.54)
代表工作
Kim et al. (2024): SqueezeLLM 原始论文