KIVI

分类: 量化与低秩

KIVI

定义

KIVI 是一种 KV cache 量化方案,对 Key 和 Value cache 分别采用不同的量化策略(如 per-channel vs per-token)以适应其不同的分布特征。

核心要点

Key cache 倾向于 per-channel 量化(因为存在 channel-wise outlier)

Value cache 倾向于 per-token 量化

支持 2-bit 量化,显著减少 KV cache 内存

与注意力计算兼容,无需解量化

代表工作

Liu et al., “KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache” (ICML 2024)

相关概念

SnapKV — KV cache 压缩(选择性保留)

PyramidKV — 分层 KV cache 预算

KV Cache — 基础概念