LADE

分类: 高效推理与部署

LADE (Lookahead Decoding)

定义

  • 一种 training-free 的推测解码方法,通过 n-gram 缓存和并行验证加速 LLM 自回归推理,无需额外的 draft 模型

核心要点

  • 利用 LLM 生成过程中积累的 n-gram 统计作为候选 token 来源
  • 不需要训练额外的 draft model(与 Medusa、EAGLE 不同)
  • 通过并行验证多个候选序列来提高吞吐量
  • 加速比依赖于 n-gram 命中率,在重复性强的任务中效果好

相关概念