CS224N / 学习笔记

StreamingLLM

分类: 高效推理与部署

StreamingLLM

定义

一种支持无限长度文本生成的 LLM 推理框架，通过保留 attention sink token 和滑动窗口内的近期 token，使有限 KV cache 支持任意长度输入

核心要点

发现 attention sink 现象：初始 token 总是获得高注意力
保留 sink tokens + 滑动窗口 = 固定大小 KV cache
Training-free，适用于现有预训练模型

代表工作

（待补充）

相关概念