Speculative Decoding 算法与加速分析

分类: 推理与评估 · 难度: 进阶 · 关联讲座: L13

Speculative Decoding（推测解码）是一种在不损失输出质量的前提下加速大模型推理的技术。其核心思想是利用小型草稿模型快速生成候选 token，再由大模型批量验证，通过 rejection sampling 保证输出分布与直接使用大模型完全等价。

设置：小草稿模型（draft model） $p$ ，大目标模型（target model） $q$ ，目标模型速度慢但准确。

算法：

$\alpha_i = \min\left(1, \frac{q(\tilde{x}_{n+i} \mid x_{<n+i})}{p(\tilde{x}_{n+i} \mid x_{<n+i})}\right)$

以 $\alpha_i$ 的概率接受 $\tilde{x}_{n+i}$ ，否则按修正分布 $\text{normalize}((q - p)_+)$ 重采样。

期望加速比：如果平均接受 $\bar{\alpha}\gamma$ 个 token，加速约 $\bar{\alpha}\gamma$ 倍（一次大模型前向换了多个 token）。

关键性质：输出分布与直接用目标模型采样完全相同（不是近似，是精确等价）。