SpecEE

分类: 高效推理与部署

SpecEE

定义

Xu et al. (2025) 提出的方法,将 speculative decoding 与 early exit 结合,用 early exit 层作为 draft 输出加速 LLM 推理,ISCA 2025

核心要点

浅层输出作为 speculative draft token

完整模型负责 verification

结合了 early exit 的浅层输出和 Speculative Decoding 的 verify-accept 机制

无需额外 draft model,减少内存占用

代表工作

SpecEE: 原始论文 (ISCA 2025)

LayerSkip: 类似思路的 self-speculative decoding

相关概念

early exit

Speculative Decoding

KV Cache