GRPO 目标函数与 Pass@K 的关系
分类: 推理与评估 · 难度: 进阶 · 关联讲座: L19
GRPO(Group Relative Policy Optimization)是 DeepSeek-R1 等大型推理模型的核心训练算法。然而,“Does RL Really Incentivize Reasoning?”(Yue et al. 2025)揭示了一个重要悖论:RL 训练后 Pass@1 上升但 Pass@K 下降——模型变得更”确定”但解空间更窄。本文剖析 GRPO 目标函数的数学结构,以及它与 Pass@K 指标之间的深层关联。
📐 GRPO 目标函数与 Pass@K 的关系
GRPO(Group Relative Policy Optimization)目标:
LGRPO(θ)=Eq∼P,{oi}i=1G∼πθold(⋅∣q)[G1∑i=1Gmin(ri(θ)Ai,clip(ri(θ),1−ϵ,1+ϵ)Ai)−βDKL(πθ∥πref)]
其中 ri(θ)=πθold(oi∣q)πθ(oi∣q) 是重要性权重,Ai=sRRi−Rˉ 是组内归一化优势。
Pass@K 与 Pass@1 的关系:
Pass@K=1−(Kn)(Kn−c)≈1−(1−nc)K
其中 n 是采样次数,c 是正确回答数。
“Does RL Really Incentivize Reasoning?” 的关键发现(Yue et al. 2025):
RL 训练后 Pass@1 上升(从 30% → 45%),但 Pass@100 下降(从 85% → 78%)。
这意味着 RL 减少了解空间的多样性,把概率质量集中到少数路径——是收敛而非扩展。
⚠️ 常见误区
-
误区:RL 训练使模型获得了新的推理能力 → 正确:Echo Chamber 效应表明,RL 主要是放大了预训练中已有的行为,而非产生真正新颖的推理路径。Pass@K 的下降是明证。
-
误区:随机奖励(spurious rewards)会损害性能 → 正确:Shao et al. 2025 发现随机奖励也能带来 +21% 的性能提升(虽然低于正确奖励的 +28.8%),说明 RLVR 的部分收益来自训练动态而非奖励信号本身的语义内容。