Acceptance Rate

分类: 高效推理与部署

Acceptance Rate

定义

在 speculative decoding 中,draft 模型/MTP head 生成的 token 被验证模型接受的比率

数学形式

ARj=s=1SAj(s)s=1SCjcmp(s)\text{AR}_j = \frac{\sum_{s=1}^{S} A_j^{(s)}}{\sum_{s=1}^{S} C_j^{\text{cmp}(s)}}

核心要点

直接决定 speculative decoding 的加速效果

AR 越高,draft token 浪费越少,推理越快

区别于 Cumulative Acceptance Rate(分母不同)

代表工作

MTP-D: 通过自蒸馏提升 MTP head 的 AR

相关概念

Cumulative Acceptance Rate

Speculative Decoding

Multi-Token Prediction