CS224N / 学习笔记

#speculative-decoding #inference-acceleration #推测解码 #高效推理

Fast Inference from Transformers via Speculative Decoding

作者: Yaniv Leviathan, Matan Kalman, Yossi Matias 年份: 2023 会议: ICML 分类: 高效推理与部署

论文笔记：Speculative-Decoding-Paper

一句话总结

提出推测解码（Speculative Decoding）：用小型草稿模型快速生成候选 token 序列，再由大模型并行验证，在保证输出分布不变的前提下实现 2-3 倍推理加速。

核心贡献

核心算法：小模型（draft model）自回归生成 γ 个候选 token → 大模型（target model）一次前向传播并行验证所有候选 → 用 rejection sampling 接受/拒绝，保证最终输出分布与大模型完全一致
无损加速：与常见的蒸馏/量化不同，Speculative Decoding 是精确的——输出分布数学上等价于直接用大模型采样，零质量损失
加速比分析：加速比取决于小模型与大模型分布的匹配度（接受率 α）和草稿长度 γ，理论加速比为 (1-α^(γ+1))/(1-α) 倍
实际效果：在 T5-XXL 和 PaLM 等模型上实现 2-3× wall-clock 加速，且对 batch size = 1 的场景（内存带宽瓶颈）效果最佳

相关概念

推测解码
推理加速
KV Cache
模型蒸馏
Rejection Sampling
Autoregressive Decoding