PyramidKV

分类: 高效推理与部署

PyramidKV

定义

PyramidKV 是一种分层 KV cache 压缩方法,基于观察到 LLM 不同层的注意力模式不同(底层广泛、高层集中),为不同层分配不同大小的 KV cache——底层保留更多 KV 对,高层保留更少,形成金字塔形的缓存分配策略。

核心要点

注意力模式分层观察:底层注意力分散(需要更多 token),高层注意力集中(少量关键 token 即可)

自适应预算分配:根据每层的注意力熵动态决定 KV cache 大小

Training-free,可直接应用于现有 LLM checkpoint

在长上下文场景下显著减少内存占用,同时保持性能

SnapKVStreamingLLM 等方法形成对比

代表工作

Cai et al., 2024: “PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling”

在 Slow-Fast Inference 中作为对比方法

相关概念

SnapKV

StreamingLLM

FlashAttention