CS224N / 学习笔记

LADE

分类: 高效推理与部署

LADE (Lookahead Decoding)

定义

一种 training-free 的推测解码方法，通过 n-gram 缓存和并行验证加速 LLM 自回归推理，无需额外的 draft 模型

核心要点

利用 LLM 生成过程中积累的 n-gram 统计作为候选 token 来源
不需要训练额外的 draft model（与 Medusa、EAGLE 不同）
通过并行验证多个候选序列来提高吞吐量
加速比依赖于 n-gram 命中率，在重复性强的任务中效果好

相关概念