GRPO vs PPO/RPO:RL 对齐算法全景对比
分类: 预训练与微调 · 难度: 进阶 · 关联讲座: L08
GRPO vs PPO/RPO:RL 对齐算法全景对比
本文系统对比用于 LLM 后训练的三类 RL 算法:REINFORCE(朴素基线)、PPO/RPO(标准 RLHF 实现)、GRPO(无 Critic 的轻量变体),分析各自的优势估计机制、内存开销、适用场景及数学等价性。
1. 优势估计:三条路径
强化学习训练的核心问题是如何估计优势函数 ——它决定了哪些动作(token)应该被鼓励或惩罚。
1.1 REINFORCE(朴素基线)
是固定基线(如训练集平均奖励)。实现最简单,但方差极高——单个回复的奖励波动直接传播到每个 token 的梯度中。
1.2 PPO / RPO(参数化 Critic)
用独立的 Value Network(Critic) 在每个 token 位置估计期望累计回报。Critic 与 Policy 等大,需要单独训练。用 GAE(广义优势估计)展开多步 TD 误差,有效降低方差。
RPO(Reward Policy Optimization) 是一类方法的统称,核心是以奖励模型(RM)显式评分为驱动、通过参考策略 KL 正则化约束优化:
标准 RLHF + PPO 是 RPO 的典型实现。
1.3 GRPO(组内归一化)
对同一输入采样 个输出(),以组内相对排名代替价值函数。无需 Critic,同一 batch 内的组均值提供自适应基线。
数学等价性:当 时,——GRPO 的组内均值渐近地等价于 PPO 的 Critic 对初始状态的估计。GRPO 是用 Monte Carlo 采样隐式替代了参数化 Critic。
2. 三路全面对比
| 维度 | REINFORCE | PPO / RPO | GRPO |
|---|---|---|---|
| 优势估计 | 固定基线 | TD 误差 + Critic 网络 | 组内归一化 |
| Value Network | ✗ | ✓(与 Policy 等大) | ✗ |
| Reward Model | ✓ | ✓ | ✓ |
| Reference Policy | 可选 | ✓(KL 约束) | ✓(KL 约束) |
| 总模型数量 | 2 | 4 | 3 |
| Clip 约束 | ✗ | ✓() | ✓(同 PPO) |
| 训练稳定性 | 差(高方差) | 好 | 中等 |
| 适用奖励类型 | 稀疏/密集 | 稀疏/密集 | 稀疏为主(可自动验证) |
| 典型应用 | 早期 LM RL | InstructGPT、GPT-4 | DeepSeek-R1 数学/代码 |
3. 内存开销分析
以 7B 参数模型(fp16,每参数 2 字节)为基准:
| 模型 | GRPO | PPO/RPO |
|---|---|---|
| Policy(有梯度) | 14 GB | 14 GB |
| Value Network(有梯度) | — | 14 GB |
| Reference Policy(无梯度) | 7 GB | 7 GB |
| Reward Model(无梯度) | 7 GB | 7 GB |
| 合计 | ≈ 28 GB | ≈ 42 GB |
GRPO 节省约 33% 显存。但 GRPO 每步需要推理 个序列(PPO 通常采样 1-4 个),推理吞吐下降明显——显存更省,但计算量不一定更小。
4. 适用场景的根本原因
奖励信号密度决定哪种方法更有效:
-
数学/代码(稀疏、二值奖励) → GRPO 更优
- 奖励只在序列末尾给 ,Critic 无法从中间 token 的 TD 误差学到有用信息
- 组内比较天然适配:16 个序列中对的上涨、错的下降,信号清晰
-
对话对齐(密集 RM 评分) → PPO/RPO 更优
- RM 给出连续的细粒度分数,Critic 可以充分学习 token 级价值函数
- GAE 将密集奖励有效传播到每个 token
5. 演进路线与关联方法
PPO (Schulman et al., 2017)
│ 标准 Policy Gradient + Clip + Critic
│
├─ 引入组内统计替代 Critic
│ └── GRPO (DeepSeekMath, Shao et al., 2024)
│ ├─ 动态采样改进 → DAPO (Qwen, 2025)
│ └─ 奖励归一化分解 → Dr. GRPO (2025)
│
└─ 完全绕过 RL
└── DPO (Rafailov et al., 2023)
├─ 去掉 Reference Model → ORPO (Hong et al., 2024)
└─ 序列级比较 → SimPO (Meng et al., 2024)
6. 关键认知总结
- RLHF ≠ PPO:RLHF 是框架,PPO 是其中一种 RL 算法选择
- GRPO 是 PPO 的特例: 时数学等价, 有限时是 Monte Carlo 近似
- RPO 是 PPO 类方法的统称:所有用 RM + Reference Policy KL 约束的方法都属于 RPO 家族
- 选择依据:奖励稀疏 + 可自动验证 → GRPO;密集 RM 评分 → PPO;资源受限 → DPO