GRPO 目标函数与 Pass@K 的关系

分类: 推理与评估 · 难度: 进阶 · 关联讲座: L19

GRPO（Group Relative Policy Optimization）是 DeepSeek-R1 等大型推理模型的核心训练算法。然而，“Does RL Really Incentivize Reasoning?”（Yue et al. 2025）揭示了一个重要悖论：RL 训练后 Pass@1 上升但 Pass@K 下降——模型变得更”确定”但解空间更窄。本文剖析 GRPO 目标函数的数学结构，以及它与 Pass@K 指标之间的深层关联。

📐 GRPO 目标函数与 Pass@K 的关系

GRPO（Group Relative Policy Optimization）目标：

$\mathcal{L}_{\text{GRPO}}(\theta) = \mathbb{E}_{q \sim P, \{o_i\}_{i=1}^{G} \sim \pi_{\theta_\text{old}}(\cdot|q)} \left[ \frac{1}{G} \sum_{i=1}^G \min\left( r_i(\theta) A_i, \text{clip}(r_i(\theta), 1-\epsilon, 1+\epsilon) A_i \right) - \beta D_{KL}(\pi_\theta \| \pi_{\text{ref}}) \right]$

其中 $r_i(\theta) = \frac{\pi_\theta(o_i|q)}{\pi_{\theta_\text{old}}(o_i|q)}$ 是重要性权重， $A_i = \frac{R_i - \bar{R}}{s_R}$ 是组内归一化优势。

Pass@K 与 Pass@1 的关系：

$\text{Pass@}K = 1 - \frac{\binom{n-c}{K}}{\binom{n}{K}} \approx 1 - \left(1 - \frac{c}{n}\right)^K$

其中 $n$ 是采样次数， $c$ 是正确回答数。

“Does RL Really Incentivize Reasoning?” 的关键发现（Yue et al. 2025）：

RL 训练后 Pass@1 上升（从 30% → 45%），但 Pass@100 下降（从 85% → 78%）。

这意味着 RL 减少了解空间的多样性，把概率质量集中到少数路径——是收敛而非扩展。

⚠️ 常见误区

误区：RL 训练使模型获得了新的推理能力 → 正确：Echo Chamber 效应表明，RL 主要是放大了预训练中已有的行为，而非产生真正新颖的推理路径。Pass@K 的下降是明证。
误区：随机奖励（spurious rewards）会损害性能 → 正确：Shao et al. 2025 发现随机奖励也能带来 +21% 的性能提升（虽然低于正确奖励的 +28.8%），说明 RLVR 的部分收益来自训练动态而非奖励信号本身的语义内容。