LADE
分类: 高效推理与部署
LADE (Lookahead Decoding)
定义
- 一种 training-free 的推测解码方法,通过 n-gram 缓存和并行验证加速 LLM 自回归推理,无需额外的 draft 模型
核心要点
- 利用 LLM 生成过程中积累的 n-gram 统计作为候选 token 来源
- 不需要训练额外的 draft model(与 Medusa、EAGLE 不同)
- 通过并行验证多个候选序列来提高吞吐量
- 加速比依赖于 n-gram 命中率,在重复性强的任务中效果好
分类: 高效推理与部署