Best-of-N 采样分析
分类: 推理与评估 · 难度: 中级 · 关联讲座: L13
Best-of-N 采样是最简单的推理时缩放(inference-time scaling)方法:对同一问题生成 N 个候选回答,用奖励模型或验证函数选出最佳答案。本文分析其数学性质、期望性能增长曲线及边际收益递减规律。
📐 Best-of-N 采样分析(最简单的推理时缩放)
对问题 ,采样 个回答 ,选择奖励模型评分最高的:
期望性能关于 的增长(简化分析):如果单次采样正确率为 ,Best-of-N 的正确率为:
数值():
- :30%
- :
- :
代价: 次生成需要 倍计算。推理时 scaling law:投入 倍算力,获得次线性的性能提升(边际收益递减)。