KIVI
分类: 量化与低秩
KIVI
定义
KIVI 是一种 KV cache 量化方案,对 Key 和 Value cache 分别采用不同的量化策略(如 per-channel vs per-token)以适应其不同的分布特征。
核心要点
Key cache 倾向于 per-channel 量化(因为存在 channel-wise outlier)
Value cache 倾向于 per-token 量化
支持 2-bit 量化,显著减少 KV cache 内存
与注意力计算兼容,无需解量化
代表工作
Liu et al., “KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache” (ICML 2024)
相关概念
SnapKV — KV cache 压缩(选择性保留)
PyramidKV — 分层 KV cache 预算
KV Cache — 基础概念