GRPO vs PPO/RPO：RL 对齐算法全景对比

分类: 预训练与微调 · 难度: 进阶 · 关联讲座: L08

📖 在讲座笔记中查看 →

GRPO vs PPO/RPO：RL 对齐算法全景对比

本文系统对比用于 LLM 后训练的三类 RL 算法：REINFORCE（朴素基线）、PPO/RPO（标准 RLHF 实现）、GRPO（无 Critic 的轻量变体），分析各自的优势估计机制、内存开销、适用场景及数学等价性。

1. 优势估计：三条路径

强化学习训练的核心问题是如何估计优势函数 $A_t$ ——它决定了哪些动作（token）应该被鼓励或惩罚。

1.1 REINFORCE（朴素基线）

$A_t^{REINFORCE} = r(x, y) - b$

$b$ 是固定基线（如训练集平均奖励）。实现最简单，但方差极高——单个回复的奖励波动直接传播到每个 token 的梯度中。

1.2 PPO / RPO（参数化 Critic）

$A_t^{PPO} = \tilde{r}_t + \gamma V_\phi(s_{t+1}) - V_\phi(s_t)$

用独立的 Value Network（Critic） $V_\phi$ 在每个 token 位置估计期望累计回报。Critic 与 Policy 等大，需要单独训练。用 GAE（广义优势估计）展开多步 TD 误差，有效降低方差。

RPO（Reward Policy Optimization） 是一类方法的统称，核心是以奖励模型（RM）显式评分为驱动、通过参考策略 KL 正则化约束优化：

$J_{RPO}(\theta) = \mathbb{E}_{y \sim \pi_\theta}\!\left[r_\phi(x, y)\right] - \beta\, \mathbb{E}\!\left[\log\frac{\pi_\theta(y|x)}{\pi_{ref}(y|x)}\right]$

标准 RLHF + PPO 是 RPO 的典型实现。

1.3 GRPO（组内归一化）

$A_i^{GRPO} = \frac{r_i - \mu_G}{\sigma_G}, \quad \mu_G = \frac{1}{G}\sum_{j=1}^G r_j, \quad \sigma_G = \text{std}(r_{1:G})$

对同一输入采样 $G$ 个输出（ $G = 8 \sim 16$ ），以组内相对排名代替价值函数。无需 Critic，同一 batch 内的组均值提供自适应基线。

数学等价性：当 $G \to \infty$ 时， $\mu_G \to \mathbb{E}[r] \approx V(s_0)$ ——GRPO 的组内均值渐近地等价于 PPO 的 Critic 对初始状态的估计。GRPO 是用 Monte Carlo 采样隐式替代了参数化 Critic。

2. 三路全面对比

维度	REINFORCE	PPO / RPO	GRPO
优势估计	固定基线 $r - b$	TD 误差 + Critic 网络	组内归一化 $(r - \mu_G)/\sigma_G$
Value Network	✗	✓（与 Policy 等大）	✗
Reward Model	✓	✓	✓
Reference Policy	可选	✓（KL 约束）	✓（KL 约束）
总模型数量	2	4	3
Clip 约束	✗	✓（ $\epsilon = 0.2$ ）	✓（同 PPO）
训练稳定性	差（高方差）	好	中等
适用奖励类型	稀疏/密集	稀疏/密集	稀疏为主（可自动验证）
典型应用	早期 LM RL	InstructGPT、GPT-4	DeepSeek-R1 数学/代码

3. 内存开销分析

以 7B 参数模型（fp16，每参数 2 字节）为基准：

模型	GRPO	PPO/RPO
Policy（有梯度）	14 GB	14 GB
Value Network（有梯度）	—	14 GB
Reference Policy（无梯度）	7 GB	7 GB
Reward Model（无梯度）	7 GB	7 GB
合计	≈ 28 GB	≈ 42 GB

GRPO 节省约 33% 显存。但 GRPO 每步需要推理 $G = 16$ 个序列（PPO 通常采样 1-4 个），推理吞吐下降明显——显存更省，但计算量不一定更小。

4. 适用场景的根本原因

奖励信号密度决定哪种方法更有效：

数学/代码（稀疏、二值奖励） → GRPO 更优
- 奖励只在序列末尾给 $\{0, 1\}$ ，Critic 无法从中间 token 的 TD 误差学到有用信息
- 组内比较天然适配：16 个序列中对的上涨、错的下降，信号清晰
对话对齐（密集 RM 评分） → PPO/RPO 更优
- RM 给出连续的细粒度分数，Critic 可以充分学习 token 级价值函数
- GAE 将密集奖励有效传播到每个 token

5. 演进路线与关联方法

PPO (Schulman et al., 2017)
│  标准 Policy Gradient + Clip + Critic
│
├─ 引入组内统计替代 Critic
│  └── GRPO (DeepSeekMath, Shao et al., 2024)
│       ├─ 动态采样改进 → DAPO (Qwen, 2025)
│       └─ 奖励归一化分解 → Dr. GRPO (2025)
│
└─ 完全绕过 RL
   └── DPO (Rafailov et al., 2023)
        ├─ 去掉 Reference Model → ORPO (Hong et al., 2024)
        └─ 序列级比较 → SimPO (Meng et al., 2024)

6. 关键认知总结

RLHF ≠ PPO：RLHF 是框架，PPO 是其中一种 RL 算法选择
GRPO 是 PPO 的特例： $G \to \infty$ 时数学等价， $G$ 有限时是 Monte Carlo 近似
RPO 是 PPO 类方法的统称：所有用 RM + Reference Policy KL 约束的方法都属于 RPO 家族
选择依据：奖励稀疏 + 可自动验证 → GRPO；密集 RM 评分 → PPO；资源受限 → DPO