AQLM

分类: 量化与低秩

type:: concept aliases:: Additive Quantization for LLM

  • AQLM

  • 定义

  • 基于加法量化(Additive Quantization)的 LLM 压缩方法,使用显式码本进行多码本向量量化

  • 核心要点

  • 将权重分组后用多个码本的加法组合来近似,即 wjcj(kj)\mathbf{w} \approx \sum_j \mathbf{c}_j^{(k_j)}

  • 码本通过端到端优化学习,支持 finetune

  • 在 2-bit 量化下取得较好性能(Llama-2 7B Wiki=6.93)

  • 需要显式存储码本,开销约 2.07 BPW(略高于 2-bit)

  • 代表工作

  • LLVQ: 无码本方法在 2-bit 下超越 AQLM(Wiki 5.48 vs 6.93)

  • QTIP: 另一种无码本替代方案

  • 相关概念

  • 向量量化

  • PTQ

  • GPTQ

  • Quip#