CS224N / 学习笔记

Medusa

分类: 高效推理与部署

Medusa

定义

Cai et al. (2024) 提出的简单 LLM 推理加速框架，通过添加多个并行预测头实现多 token 推理

核心要点

在基础模型上附加多个轻量级 head，每个预测不同位置的未来 token

使用 tree attention 进行高效验证

无需独立 draft 模型，训练成本低

代表工作

MTP-D: 同为 MTP 推理加速，但采用级联而非并行架构

相关概念

Multi-Token Prediction

Speculative Decoding