Speculative Decoding
分类: 高效推理与部署
Speculative Decoding
定义
用小型 draft model 快速生成多个候选 token,再由大模型并行验证,从而将自回归生成从串行加速为并行
核心要点
保证输出分布与大模型完全一致(无精度损失)
加速比取决于 draft model 的接受率和生成的候选数量
适用于推理密集型场景(如长文本生成),batch 推理场景效果有限
FlashHead 的粗筛阶段理论上可作为 draft model 的轻量替代
代表工作
FlashHead: 提出与 speculative decoding 集成作为未来方向