Let's Verify Step by Step

作者: Hunter Lightman, Vineet Kosaraju, Yura Burda, Harrison Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe 年份: 2023 会议: arXiv 分类: 基础理论

论文笔记:Lets-Verify-Step-by-Step

一句话总结

  • 证明过程奖励模型(Process Reward Model, PRM)——对推理链中每一步进行奖励/惩罚——比仅奖励最终答案的结果奖励模型(ORM)更有效地提升数学推理能力。

核心贡献

  • 过程监督 vs 结果监督:系统对比 PRM(标注每步推理的正确性)和 ORM(仅标注最终答案),发现 PRM 在 MATH 数据集上显著优于 ORM
  • PRM800K 数据集:发布包含 800K 步级标注的数学推理数据集,每步由人类标注者标记为 positive/negative/neutral,是最大的过程监督数据集
  • Best-of-N 采样:用 PRM 作为验证器对 N 个候选推理链评分,选择得分最高的作为最终答案,在 MATH 上从 ~50% 提升到 ~78%(GPT-4 base)
  • 对 RLHF 的启示:过程监督提供了更细粒度的奖励信号,有助于减少 reward hacking,为后续 o1 等推理模型的训练提供了关键技术路线

相关概念