QJL 分类: 量化与低秩QJL 定义 QJL 利用 Johnson-Lindenstrauss 变换对 KV cache 做随机投影 + 量化压缩,在降维的同时保持近似距离关系。 核心要点 基于 JL lemma 的随机投影保距性质 支持残差校正以提高精度 用于 KV cache 压缩场景 相关概念 SnapKV — KV cache 压缩方法 KIVI — 另一种 KV cache 量化