SqueezeLLM

分类: 量化与低秩

SqueezeLLM

定义

一种结合密集-稀疏分解的混合精度 LLM 量化方法,通过将权重异常值分离为稀疏矩阵来提高低 bit 量化质量

核心要点

密集-稀疏分解: 将权重分为低 bit 密集部分和高精度稀疏异常值部分

灵敏度感知分配: 根据层的灵敏度分配不同精度

无迁移性: 需要对每个模型单独优化

在 Llama-2-7B 上 PPL 5.57,优于统一量化但略逊于 RAMP(5.54)

代表工作

Kim et al. (2024): SqueezeLLM 原始论文

相关概念

GPTQ

AWQ

混合精度

RAMP