Cumulative Acceptance Rate

分类: 高效推理与部署

Cumulative Acceptance Rate

定义

相对于总生成步数的 draft token 接受率,反映 MTP head 对实际推理加速的真实贡献

数学形式

CARj=s=1SAj(s)s=1SCstep(s)\text{CAR}_j = \frac{\sum_{s=1}^{S} A_j^{(s)}}{\sum_{s=1}^{S} C_{\text{step}}^{(s)}}

核心要点

比 AR 更能反映实际加速效果

CAR 随 head 索引增大而指数下降

是评估 MTP 系统扩展性的关键指标

代表工作

MTP-D: 第 4 个 head 的 CAR 提升 7.5%

相关概念

Acceptance Rate

Speculative Decoding