QJL

分类: 量化与低秩

QJL

定义

QJL 利用 Johnson-Lindenstrauss 变换对 KV cache 做随机投影 + 量化压缩,在降维的同时保持近似距离关系。

核心要点

基于 JL lemma 的随机投影保距性质

支持残差校正以提高精度

用于 KV cache 压缩场景

相关概念

SnapKV — KV cache 压缩方法

KIVI — 另一种 KV cache 量化