Speculative Decoding

分类: 高效推理与部署

Speculative Decoding

定义

用小型 draft model 快速生成多个候选 token,再由大模型并行验证,从而将自回归生成从串行加速为并行

核心要点

保证输出分布与大模型完全一致(无精度损失)

加速比取决于 draft model 的接受率和生成的候选数量

适用于推理密集型场景(如长文本生成),batch 推理场景效果有限

FlashHead 的粗筛阶段理论上可作为 draft model 的轻量替代

代表工作

FlashHead: 提出与 speculative decoding 集成作为未来方向

相关概念

classification head

Greedy Decoding

edge AI