StreamingLLM
分类: 高效推理与部署
StreamingLLM
定义
- 一种支持无限长度文本生成的 LLM 推理框架,通过保留 attention sink token 和滑动窗口内的近期 token,使有限 KV cache 支持任意长度输入
核心要点
- 发现 attention sink 现象:初始 token 总是获得高注意力
- 保留 sink tokens + 滑动窗口 = 固定大小 KV cache
- Training-free,适用于现有预训练模型
代表工作
- (待补充)
分类: 高效推理与部署