GRPO

分类: 训练优化

GRPO (Group Relative Policy Optimization)

定义

DeepSeek 提出的一种无需 critic 模型的强化学习对齐方法，通过组内相对奖励排名替代绝对奖励估计

数学形式

$\mathcal{L}_{\text{GRPO}}(\theta) = \mathbb{E}_{x \sim \mathcal{D}, \{y_i\}_{i=1}^G \sim \pi_{\theta_{\text{old}}}(\cdot|x)} \left[ \frac{1}{G} \sum_{i=1}^G \min\left( r_i(\theta) \hat{A}_i, \text{clip}(r_i(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_i \right) \right]$

$G$ ：每个 prompt 采样的候选回答数量

$\hat{A}_i = \frac{R_i - \text{mean}(\{R_j\})}{\text{std}(\{R_j\})}$ ：组内归一化优势

$r_i(\theta) = \frac{\pi_\theta(y_i|x)}{\pi_{\theta_{\text{old}}}(y_i|x)}$ ：重要性采样比率

核心要点

去掉 PPO 中的 critic/value 网络，降低训练成本

每个 prompt 采样一组回答，用组内统计量估计相对优势

在 DeepSeek-R1 中用于数学推理能力的强化学习训练

相比 DPO 更适合需要在线探索的场景

代表工作

DeepSeek-R1 (2025): 首次提出 GRPO 并应用于推理模型训练

Bielik-Minitron-7B: 后续对齐训练中使用 GRPO

GRPO

GRPO (Group Relative Policy Optimization)

定义

数学形式

核心要点

代表工作

相关概念