Best-of-N 采样分析

分类: 推理与评估 · 难度: 中级 · 关联讲座: L13

Best-of-N 采样是最简单的推理时缩放(inference-time scaling)方法:对同一问题生成 N 个候选回答,用奖励模型或验证函数选出最佳答案。本文分析其数学性质、期望性能增长曲线及边际收益递减规律。

📐 Best-of-N 采样分析(最简单的推理时缩放)

对问题 xx,采样 NN 个回答 y1,,yNy_1, \ldots, y_N,选择奖励模型评分最高的:

y^=argmaxyir(yi)\hat{y} = \arg\max_{y_i} r(y_i)

期望性能关于 NN 的增长(简化分析):如果单次采样正确率为 pp,Best-of-N 的正确率为:

P(至少一次正确)=1(1p)NP(\text{至少一次正确}) = 1 - (1-p)^N

数值(p=0.3p = 0.3):

  • N=1N=1:30%
  • N=5N=510.7583%1-0.7^5 \approx 83\%
  • N=16N=1610.71699.5%1-0.7^{16} \approx 99.5\%

代价NN 次生成需要 NN 倍计算。推理时 scaling law:投入 NN 倍算力,获得次线性的性能提升(边际收益递减)。