GRPO 目标函数与 Pass@K 的关系

分类: 推理与评估 · 难度: 进阶 · 关联讲座: L19

GRPO(Group Relative Policy Optimization)是 DeepSeek-R1 等大型推理模型的核心训练算法。然而,“Does RL Really Incentivize Reasoning?”(Yue et al. 2025)揭示了一个重要悖论:RL 训练后 Pass@1 上升但 Pass@K 下降——模型变得更”确定”但解空间更窄。本文剖析 GRPO 目标函数的数学结构,以及它与 Pass@K 指标之间的深层关联。


📐 GRPO 目标函数与 Pass@K 的关系

GRPO(Group Relative Policy Optimization)目标

LGRPO(θ)=EqP,{oi}i=1Gπθold(q)[1Gi=1Gmin(ri(θ)Ai,clip(ri(θ),1ϵ,1+ϵ)Ai)βDKL(πθπref)]\mathcal{L}_{\text{GRPO}}(\theta) = \mathbb{E}_{q \sim P, \{o_i\}_{i=1}^{G} \sim \pi_{\theta_\text{old}}(\cdot|q)} \left[ \frac{1}{G} \sum_{i=1}^G \min\left( r_i(\theta) A_i, \text{clip}(r_i(\theta), 1-\epsilon, 1+\epsilon) A_i \right) - \beta D_{KL}(\pi_\theta \| \pi_{\text{ref}}) \right]

其中 ri(θ)=πθ(oiq)πθold(oiq)r_i(\theta) = \frac{\pi_\theta(o_i|q)}{\pi_{\theta_\text{old}}(o_i|q)} 是重要性权重,Ai=RiRˉsRA_i = \frac{R_i - \bar{R}}{s_R} 是组内归一化优势。

Pass@K 与 Pass@1 的关系

Pass@K=1(ncK)(nK)1(1cn)K\text{Pass@}K = 1 - \frac{\binom{n-c}{K}}{\binom{n}{K}} \approx 1 - \left(1 - \frac{c}{n}\right)^K

其中 nn 是采样次数,cc 是正确回答数。

“Does RL Really Incentivize Reasoning?” 的关键发现(Yue et al. 2025):

RL 训练后 Pass@1 上升(从 30% → 45%),但 Pass@100 下降(从 85% → 78%)。

这意味着 RL 减少了解空间的多样性,把概率质量集中到少数路径——是收敛而非扩展。

⚠️ 常见误区

  1. 误区:RL 训练使模型获得了新的推理能力 → 正确:Echo Chamber 效应表明,RL 主要是放大了预训练中已有的行为,而非产生真正新颖的推理路径。Pass@K 的下降是明证。

  2. 误区:随机奖励(spurious rewards)会损害性能 → 正确:Shao et al. 2025 发现随机奖励也能带来 +21% 的性能提升(虽然低于正确奖励的 +28.8%),说明 RLVR 的部分收益来自训练动态而非奖励信号本身的语义内容。