Medusa
分类: 高效推理与部署
Medusa
定义
Cai et al. (2024) 提出的简单 LLM 推理加速框架,通过添加多个并行预测头实现多 token 推理
核心要点
在基础模型上附加多个轻量级 head,每个预测不同位置的未来 token
使用 tree attention 进行高效验证
无需独立 draft 模型,训练成本低
代表工作
MTP-D: 同为 MTP 推理加速,但采用级联而非并行架构
分类: 高效推理与部署
Cai et al. (2024) 提出的简单 LLM 推理加速框架,通过添加多个并行预测头实现多 token 推理
在基础模型上附加多个轻量级 head,每个预测不同位置的未来 token
使用 tree attention 进行高效验证
无需独立 draft 模型,训练成本低
MTP-D: 同为 MTP 推理加速,但采用级联而非并行架构