SpecEE
分类: 高效推理与部署
SpecEE
定义
Xu et al. (2025) 提出的方法,将 speculative decoding 与 early exit 结合,用 early exit 层作为 draft 输出加速 LLM 推理,ISCA 2025
核心要点
浅层输出作为 speculative draft token
完整模型负责 verification
结合了 early exit 的浅层输出和 Speculative Decoding 的 verify-accept 机制
无需额外 draft model,减少内存占用
代表工作
SpecEE: 原始论文 (ISCA 2025)
LayerSkip: 类似思路的 self-speculative decoding