StreamingLLM

分类: 高效推理与部署

StreamingLLM

定义

  • 一种支持无限长度文本生成的 LLM 推理框架,通过保留 attention sink token 和滑动窗口内的近期 token,使有限 KV cache 支持任意长度输入

核心要点

  • 发现 attention sink 现象:初始 token 总是获得高注意力
  • 保留 sink tokens + 滑动窗口 = 固定大小 KV cache
  • Training-free,适用于现有预训练模型

代表工作

  • (待补充)

相关概念