Let's Verify Step by Step

作者: Hunter Lightman, Vineet Kosaraju, Yura Burda, Harrison Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe 年份: 2023 会议: arXiv 分类: 基础理论

论文笔记：Lets-Verify-Step-by-Step

一句话总结

证明过程奖励模型（Process Reward Model, PRM）——对推理链中每一步进行奖励/惩罚——比仅奖励最终答案的结果奖励模型（ORM）更有效地提升数学推理能力。

核心贡献

过程监督 vs 结果监督：系统对比 PRM（标注每步推理的正确性）和 ORM（仅标注最终答案），发现 PRM 在 MATH 数据集上显著优于 ORM
PRM800K 数据集：发布包含 800K 步级标注的数学推理数据集，每步由人类标注者标记为 positive/negative/neutral，是最大的过程监督数据集
Best-of-N 采样：用 PRM 作为验证器对 N 个候选推理链评分，选择得分最高的作为最终答案，在 MATH 上从 ~50% 提升到 ~78%（GPT-4 base）
对 RLHF 的启示：过程监督提供了更细粒度的奖励信号，有助于减少 reward hacking，为后续 o1 等推理模型的训练提供了关键技术路线

Let's Verify Step by Step

论文笔记：Lets-Verify-Step-by-Step

一句话总结

核心贡献

相关概念