Let's Verify Step by Step
作者: Hunter Lightman, Vineet Kosaraju, Yura Burda, Harrison Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe 年份: 2023 会议: arXiv 分类: 基础理论
论文笔记:Lets-Verify-Step-by-Step
一句话总结
- 证明过程奖励模型(Process Reward Model, PRM)——对推理链中每一步进行奖励/惩罚——比仅奖励最终答案的结果奖励模型(ORM)更有效地提升数学推理能力。
核心贡献
- 过程监督 vs 结果监督:系统对比 PRM(标注每步推理的正确性)和 ORM(仅标注最终答案),发现 PRM 在 MATH 数据集上显著优于 ORM
- PRM800K 数据集:发布包含 800K 步级标注的数学推理数据集,每步由人类标注者标记为 positive/negative/neutral,是最大的过程监督数据集
- Best-of-N 采样:用 PRM 作为验证器对 N 个候选推理链评分,选择得分最高的作为最终答案,在 MATH 上从 ~50% 提升到 ~78%(GPT-4 base)
- 对 RLHF 的启示:过程监督提供了更细粒度的奖励信号,有助于减少 reward hacking,为后续 o1 等推理模型的训练提供了关键技术路线
相关概念
- 过程奖励模型
- 结果奖励模型
- 数学推理
- RLHF
- Best-of-N
- Test-Time Compute