CS224N / 学习笔记

Speculative Decoding

分类: 高效推理与部署

Speculative Decoding

定义

用小型 draft model 快速生成多个候选 token，再由大模型并行验证，从而将自回归生成从串行加速为并行

核心要点

保证输出分布与大模型完全一致（无精度损失）

加速比取决于 draft model 的接受率和生成的候选数量

适用于推理密集型场景（如长文本生成），batch 推理场景效果有限

FlashHead 的粗筛阶段理论上可作为 draft model 的轻量替代

代表工作

FlashHead: 提出与 speculative decoding 集成作为未来方向

相关概念

classification head

Greedy Decoding