GRPO vs PPO/RPO:RL 对齐算法全景对比

分类: 预训练与微调 · 难度: 进阶 · 关联讲座: L08

GRPO vs PPO/RPO:RL 对齐算法全景对比

本文系统对比用于 LLM 后训练的三类 RL 算法:REINFORCE(朴素基线)、PPO/RPO(标准 RLHF 实现)、GRPO(无 Critic 的轻量变体),分析各自的优势估计机制、内存开销、适用场景及数学等价性。


1. 优势估计:三条路径

强化学习训练的核心问题是如何估计优势函数 AtA_t——它决定了哪些动作(token)应该被鼓励或惩罚。

1.1 REINFORCE(朴素基线)

AtREINFORCE=r(x,y)bA_t^{REINFORCE} = r(x, y) - b

bb 是固定基线(如训练集平均奖励)。实现最简单,但方差极高——单个回复的奖励波动直接传播到每个 token 的梯度中。

1.2 PPO / RPO(参数化 Critic)

AtPPO=r~t+γVϕ(st+1)Vϕ(st)A_t^{PPO} = \tilde{r}_t + \gamma V_\phi(s_{t+1}) - V_\phi(s_t)

用独立的 Value Network(Critic)VϕV_\phi 在每个 token 位置估计期望累计回报。Critic 与 Policy 等大,需要单独训练。用 GAE(广义优势估计)展开多步 TD 误差,有效降低方差。

RPO(Reward Policy Optimization) 是一类方法的统称,核心是以奖励模型(RM)显式评分为驱动、通过参考策略 KL 正则化约束优化:

JRPO(θ)=Eyπθ ⁣[rϕ(x,y)]βE ⁣[logπθ(yx)πref(yx)]J_{RPO}(\theta) = \mathbb{E}_{y \sim \pi_\theta}\!\left[r_\phi(x, y)\right] - \beta\, \mathbb{E}\!\left[\log\frac{\pi_\theta(y|x)}{\pi_{ref}(y|x)}\right]

标准 RLHF + PPO 是 RPO 的典型实现。

1.3 GRPO(组内归一化)

AiGRPO=riμGσG,μG=1Gj=1Grj,σG=std(r1:G)A_i^{GRPO} = \frac{r_i - \mu_G}{\sigma_G}, \quad \mu_G = \frac{1}{G}\sum_{j=1}^G r_j, \quad \sigma_G = \text{std}(r_{1:G})

对同一输入采样 GG 个输出(G=816G = 8 \sim 16),以组内相对排名代替价值函数。无需 Critic,同一 batch 内的组均值提供自适应基线。

数学等价性:当 GG \to \infty 时,μGE[r]V(s0)\mu_G \to \mathbb{E}[r] \approx V(s_0)——GRPO 的组内均值渐近地等价于 PPO 的 Critic 对初始状态的估计。GRPO 是用 Monte Carlo 采样隐式替代了参数化 Critic


2. 三路全面对比

维度REINFORCEPPO / RPOGRPO
优势估计固定基线 rbr - bTD 误差 + Critic 网络组内归一化 (rμG)/σG(r - \mu_G)/\sigma_G
Value Network✓(与 Policy 等大)
Reward Model
Reference Policy可选✓(KL 约束)✓(KL 约束)
总模型数量243
Clip 约束✓(ϵ=0.2\epsilon = 0.2✓(同 PPO)
训练稳定性差(高方差)中等
适用奖励类型稀疏/密集稀疏/密集稀疏为主(可自动验证)
典型应用早期 LM RLInstructGPT、GPT-4DeepSeek-R1 数学/代码

3. 内存开销分析

以 7B 参数模型(fp16,每参数 2 字节)为基准:

模型GRPOPPO/RPO
Policy(有梯度)14 GB14 GB
Value Network(有梯度)14 GB
Reference Policy(无梯度)7 GB7 GB
Reward Model(无梯度)7 GB7 GB
合计≈ 28 GB≈ 42 GB

GRPO 节省约 33% 显存。但 GRPO 每步需要推理 G=16G = 16 个序列(PPO 通常采样 1-4 个),推理吞吐下降明显——显存更省,但计算量不一定更小


4. 适用场景的根本原因

奖励信号密度决定哪种方法更有效

  • 数学/代码(稀疏、二值奖励) → GRPO 更优

    • 奖励只在序列末尾给 {0,1}\{0, 1\},Critic 无法从中间 token 的 TD 误差学到有用信息
    • 组内比较天然适配:16 个序列中对的上涨、错的下降,信号清晰
  • 对话对齐(密集 RM 评分) → PPO/RPO 更优

    • RM 给出连续的细粒度分数,Critic 可以充分学习 token 级价值函数
    • GAE 将密集奖励有效传播到每个 token

5. 演进路线与关联方法

PPO (Schulman et al., 2017)
│  标准 Policy Gradient + Clip + Critic

├─ 引入组内统计替代 Critic
│  └── GRPO (DeepSeekMath, Shao et al., 2024)
│       ├─ 动态采样改进 → DAPO (Qwen, 2025)
│       └─ 奖励归一化分解 → Dr. GRPO (2025)

└─ 完全绕过 RL
   └── DPO (Rafailov et al., 2023)
        ├─ 去掉 Reference Model → ORPO (Hong et al., 2024)
        └─ 序列级比较 → SimPO (Meng et al., 2024)

6. 关键认知总结

  1. RLHF ≠ PPO:RLHF 是框架,PPO 是其中一种 RL 算法选择
  2. GRPO 是 PPO 的特例GG \to \infty 时数学等价,GG 有限时是 Monte Carlo 近似
  3. RPO 是 PPO 类方法的统称:所有用 RM + Reference Policy KL 约束的方法都属于 RPO 家族
  4. 选择依据:奖励稀疏 + 可自动验证 → GRPO;密集 RM 评分 → PPO;资源受限 → DPO