DAPO 非对称裁剪比率的数学机制

分类: 推理与评估 · 难度: 进阶 · 关联讲座: L19

DAPO(Decoupled Clip and Dynamic Sampling Policy Optimization)是 GRPO 的关键变体,通过非对称裁剪比率解决了标准 PPO/GRPO 中的熵崩塌问题。核心洞察是:允许策略更大幅度地增加好动作的概率(探索),同时限制概率急剧下降(稳定性),从而在长时间 RL 训练中维持可持续的探索能力。


📐 DAPO:非对称裁剪比率的数学机制

GRPO 标准裁剪(对称):

Lclip=min(rA,clip(r,1ϵ,1+ϵ)A)\mathcal{L}_{\text{clip}} = \min\left(r \cdot A, \text{clip}(r, 1-\epsilon, 1+\epsilon) \cdot A\right)

ϵlow=ϵhigh=0.2\epsilon_{\text{low}} = \epsilon_{\text{high}} = 0.2:比率限定在 [0.8,1.2][0.8, 1.2],正负方向同等约束。

DAPO 非对称裁剪ϵlow<ϵhigh\epsilon_{\text{low}} < \epsilon_{\text{high}}):

rclip=clip(r,1ϵlow,1+ϵhigh)r_{\text{clip}} = \text{clip}(r, 1 - \epsilon_{\text{low}}, 1 + \epsilon_{\text{high}})

例如 ϵlow=0.2\epsilon_{\text{low}} = 0.2ϵhigh=0.5\epsilon_{\text{high}} = 0.5:比率限定在 [0.8,1.5][0.8, 1.5]

为什么不对称有效

  • 增大 ϵhigh\epsilon_{\text{high}}:允许当前策略相比旧策略更大幅增加好的动作概率 → 保持探索能力(高熵)
  • 保持 ϵlow\epsilon_{\text{low}}:限制概率急剧下降 → 防止训练不稳定

熵的定义H(π)=aπ(as)logπ(as)H(\pi) = -\sum_a \pi(a|s) \log \pi(a|s)

当策略退化为接近 deterministic(集中在少数动作),熵 H0H \to 0,RL 停止探索。通过增大 ϵhigh\epsilon_{\text{high}},维持 H(πt)>HminH(\pi_t) > H_{\min}(最小熵阈值),确保持续探索。

结果对比(1.5B 模型,8K steps):

方法Pass@1Pass@16最终熵
GRPO(ϵ=0.2\epsilon=0.2+12%+3%0.8(低)
DAPO(ϵhigh=0.5\epsilon_{\text{high}}=0.5+21%+15%1.4(健康)

🔢 ProRL vs. 标准 GRPO 的训练曲线对比

ProRL 关键超参数(Nemotron-Reasoning-1.5B):

参数作用
ϵlow\epsilon_{\text{low}}0.2限制概率大幅下降
ϵhigh\epsilon_{\text{high}}动态(0.2→0.5→0.8)随训练进度增大,维持熵
KL 重置阈值0.5DKL(πtπref)>0.5D_{KL}(\pi_t \| \pi_{\text{ref}}) > 0.5 时重置参考策略
最大响应长度< 8K tokens防止”思维漂移”和计算爆炸
训练步数~50K比标准 GRPO (~5K) 多 10×

最终结果:Nemotron-1.5B 在 AIME 2024 上达到 58.3%(与 DeepSeek-R1-7B 的 60.2% 接近,但参数量仅 1/4.5)。