Medusa

分类: 高效推理与部署

Medusa

定义

Cai et al. (2024) 提出的简单 LLM 推理加速框架,通过添加多个并行预测头实现多 token 推理

核心要点

在基础模型上附加多个轻量级 head,每个预测不同位置的未来 token

使用 tree attention 进行高效验证

无需独立 draft 模型,训练成本低

代表工作

MTP-D: 同为 MTP 推理加速,但采用级联而非并行架构

相关概念

Multi-Token Prediction

Speculative Decoding

EAGLE