DAPO 非对称裁剪比率的数学机制
分类: 推理与评估 · 难度: 进阶 · 关联讲座: L19
DAPO(Decoupled Clip and Dynamic Sampling Policy Optimization)是 GRPO 的关键变体,通过非对称裁剪比率解决了标准 PPO/GRPO 中的熵崩塌问题。核心洞察是:允许策略更大幅度地增加好动作的概率(探索),同时限制概率急剧下降(稳定性),从而在长时间 RL 训练中维持可持续的探索能力。
📐 DAPO:非对称裁剪比率的数学机制
GRPO 标准裁剪(对称):
Lclip=min(r⋅A,clip(r,1−ϵ,1+ϵ)⋅A)
当 ϵlow=ϵhigh=0.2:比率限定在 [0.8,1.2],正负方向同等约束。
DAPO 非对称裁剪(ϵlow<ϵhigh):
rclip=clip(r,1−ϵlow,1+ϵhigh)
例如 ϵlow=0.2,ϵhigh=0.5:比率限定在 [0.8,1.5]。
为什么不对称有效:
- 增大 ϵhigh:允许当前策略相比旧策略更大幅增加好的动作概率 → 保持探索能力(高熵)
- 保持 ϵlow:限制概率急剧下降 → 防止训练不稳定
熵的定义:H(π)=−∑aπ(a∣s)logπ(a∣s)
当策略退化为接近 deterministic(集中在少数动作),熵 H→0,RL 停止探索。通过增大 ϵhigh,维持 H(πt)>Hmin(最小熵阈值),确保持续探索。
结果对比(1.5B 模型,8K steps):
| 方法 | Pass@1 | Pass@16 | 最终熵 |
|---|
| GRPO(ϵ=0.2) | +12% | +3% | 0.8(低) |
| DAPO(ϵhigh=0.5) | +21% | +15% | 1.4(健康) |
🔢 ProRL vs. 标准 GRPO 的训练曲线对比
ProRL 关键超参数(Nemotron-Reasoning-1.5B):
| 参数 | 值 | 作用 |
|---|
| ϵlow | 0.2 | 限制概率大幅下降 |
| ϵhigh | 动态(0.2→0.5→0.8) | 随训练进度增大,维持熵 |
| KL 重置阈值 | 0.5 | 当 DKL(πt∥πref)>0.5 时重置参考策略 |
| 最大响应长度 | < 8K tokens | 防止”思维漂移”和计算爆炸 |
| 训练步数 | ~50K | 比标准 GRPO (~5K) 多 10× |
最终结果:Nemotron-1.5B 在 AIME 2024 上达到 58.3%(与 DeepSeek-R1-7B 的 60.2% 接近,但参数量仅 1/4.5)。