CS224N / 学习笔记

#RLHF #reinforcement-learning #GRPO #大规模训练 #开源

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

作者: ByteDance Research 年份: 2025 会议: arXiv 分类: 训练优化

论文笔记：DAPO

一句话总结

提出 DAPO（Decoupled Clip and Dynamic Sampling Policy Optimization），一个开源的大规模 LLM 强化学习系统，通过解耦裁剪、动态采样等技术改进 GRPO，在数学推理等任务上达到 SOTA。

核心贡献

Decoupled Clipping：将 PPO/GRPO 中的上下界裁剪解耦——对正向奖励使用更大的上界裁剪比、对负向使用更小的下界裁剪比，鼓励探索同时保持训练稳定性
Dynamic Sampling：在 rollout 阶段动态过滤全对/全错的样本（即 accuracy 为 0% 或 100% 的 prompt），确保每个训练 batch 的 prompt 都提供有效学习信号
Token-Level Loss：将 loss 从 sample-level 改为 token-level 归一化，避免长序列样本的梯度被稀释
Overlong Reward Shaping：对超出长度限制但格式正确的回答给予软惩罚（而非直接截断），引导模型学习在限制内完成推理
大规模验证：在 Qwen-32B 上训练，AIME 2024 达到 50%、MATH-500 达到 89.4%，开源全部代码和训练流程

相关概念