SnapKV 分类: 高效推理与部署SnapKV 定义 一种 KV cache 压缩方法,通过观察注意力模式在解码过程中的稳定性,选择性保留关键 token 的 KV cache,减少长上下文推理的内存占用 核心要点 利用注意力分数的持续性选择重要 token Training-free,可直接应用于现有模型 Slow-Fast Inference 的对比方法之一 代表工作 (待补充) 相关概念 FlashAttention StreamingLLM PyramidKV