Best-of-N 采样分析

分类: 推理与评估 · 难度: 中级 · 关联讲座: L13

Best-of-N 采样是最简单的推理时缩放（inference-time scaling）方法：对同一问题生成 N 个候选回答，用奖励模型或验证函数选出最佳答案。本文分析其数学性质、期望性能增长曲线及边际收益递减规律。

对问题 $x$ ，采样 $N$ 个回答 $y_1, \ldots, y_N$ ，选择奖励模型评分最高的：

$\hat{y} = \arg\max_{y_i} r(y_i)$

期望性能关于 $N$ 的增长（简化分析）：如果单次采样正确率为 $p$ ，Best-of-N 的正确率为：

$P(\text{至少一次正确}) = 1 - (1-p)^N$

数值（ $p = 0.3$ ）：

代价： $N$ 次生成需要 $N$ 倍计算。推理时 scaling law：投入 $N$ 倍算力，获得次线性的性能提升（边际收益递减）。