GRPO

分类: 训练优化

GRPO (Group Relative Policy Optimization)

定义

DeepSeek 提出的一种无需 critic 模型的强化学习对齐方法,通过组内相对奖励排名替代绝对奖励估计

数学形式

LGRPO(θ)=ExD,{yi}i=1Gπθold(x)[1Gi=1Gmin(ri(θ)A^i,clip(ri(θ),1ϵ,1+ϵ)A^i)]\mathcal{L}_{\text{GRPO}}(\theta) = \mathbb{E}_{x \sim \mathcal{D}, \{y_i\}_{i=1}^G \sim \pi_{\theta_{\text{old}}}(\cdot|x)} \left[ \frac{1}{G} \sum_{i=1}^G \min\left( r_i(\theta) \hat{A}_i, \text{clip}(r_i(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_i \right) \right]

GG:每个 prompt 采样的候选回答数量

A^i=Rimean({Rj})std({Rj})\hat{A}_i = \frac{R_i - \text{mean}(\{R_j\})}{\text{std}(\{R_j\})}:组内归一化优势

ri(θ)=πθ(yix)πθold(yix)r_i(\theta) = \frac{\pi_\theta(y_i|x)}{\pi_{\theta_{\text{old}}}(y_i|x)}:重要性采样比率

核心要点

去掉 PPO 中的 critic/value 网络,降低训练成本

每个 prompt 采样一组回答,用组内统计量估计相对优势

在 DeepSeek-R1 中用于数学推理能力的强化学习训练

相比 DPO 更适合需要在线探索的场景

代表工作

DeepSeek-R1 (2025): 首次提出 GRPO 并应用于推理模型训练

Bielik-Minitron-7B: 后续对齐训练中使用 GRPO

相关概念

DPO

DeepSeek