DAPO: An Open-Source LLM Reinforcement Learning System at Scale
作者: ByteDance Research 年份: 2025 会议: arXiv 分类: 训练优化
论文笔记:DAPO
一句话总结
- 提出 DAPO(Decoupled Clip and Dynamic Sampling Policy Optimization),一个开源的大规模 LLM 强化学习系统,通过解耦裁剪、动态采样等技术改进 GRPO,在数学推理等任务上达到 SOTA。
核心贡献
- Decoupled Clipping:将 PPO/GRPO 中的上下界裁剪解耦——对正向奖励使用更大的上界裁剪比、对负向使用更小的下界裁剪比,鼓励探索同时保持训练稳定性
- Dynamic Sampling:在 rollout 阶段动态过滤全对/全错的样本(即 accuracy 为 0% 或 100% 的 prompt),确保每个训练 batch 的 prompt 都提供有效学习信号
- Token-Level Loss:将 loss 从 sample-level 改为 token-level 归一化,避免长序列样本的梯度被稀释
- Overlong Reward Shaping:对超出长度限制但格式正确的回答给予软惩罚(而非直接截断),引导模型学习在限制内完成推理
- 大规模验证:在 Qwen-32B 上训练,AIME 2024 达到 50%、MATH-500 达到 89.4%,开源全部代码和训练流程