Fast Inference from Transformers via Speculative Decoding
作者: Yaniv Leviathan, Matan Kalman, Yossi Matias 年份: 2023 会议: ICML 分类: 高效推理与部署
论文笔记:Speculative-Decoding-Paper
一句话总结
- 提出推测解码(Speculative Decoding):用小型草稿模型快速生成候选 token 序列,再由大模型并行验证,在保证输出分布不变的前提下实现 2-3 倍推理加速。
核心贡献
- 核心算法:小模型(draft model)自回归生成 γ 个候选 token → 大模型(target model)一次前向传播并行验证所有候选 → 用 rejection sampling 接受/拒绝,保证最终输出分布与大模型完全一致
- 无损加速:与常见的蒸馏/量化不同,Speculative Decoding 是精确的——输出分布数学上等价于直接用大模型采样,零质量损失
- 加速比分析:加速比取决于小模型与大模型分布的匹配度(接受率 α)和草稿长度 γ,理论加速比为 (1-α^(γ+1))/(1-α) 倍
- 实际效果:在 T5-XXL 和 PaLM 等模型上实现 2-3× wall-clock 加速,且对 batch size = 1 的场景(内存带宽瓶颈)效果最佳
相关概念
- 推测解码
- 推理加速
- KV Cache
- 模型蒸馏
- Rejection Sampling
- Autoregressive Decoding