SpecEE

分类: 高效推理与部署

定义

Xu et al. (2025) 提出的方法，将 speculative decoding 与 early exit 结合，用 early exit 层作为 draft 输出加速 LLM 推理，ISCA 2025

浅层输出作为 speculative draft token

完整模型负责 verification

结合了 early exit 的浅层输出和 Speculative Decoding 的 verify-accept 机制

无需额外 draft model，减少内存占用

SpecEE: 原始论文 (ISCA 2025)

LayerSkip: 类似思路的 self-speculative decoding