SnapKV

分类: 高效推理与部署

SnapKV

定义

  • 一种 KV cache 压缩方法,通过观察注意力模式在解码过程中的稳定性,选择性保留关键 token 的 KV cache,减少长上下文推理的内存占用

核心要点

  • 利用注意力分数的持续性选择重要 token
  • Training-free,可直接应用于现有模型
  • Slow-Fast Inference 的对比方法之一

代表工作

  • (待补充)

相关概念