GRPO
分类: 训练优化
GRPO (Group Relative Policy Optimization)
定义
DeepSeek 提出的一种无需 critic 模型的强化学习对齐方法,通过组内相对奖励排名替代绝对奖励估计
数学形式
LGRPO(θ)=Ex∼D,{yi}i=1G∼πθold(⋅∣x)[G1∑i=1Gmin(ri(θ)A^i,clip(ri(θ),1−ϵ,1+ϵ)A^i)]
G:每个 prompt 采样的候选回答数量
A^i=std({Rj})Ri−mean({Rj}):组内归一化优势
ri(θ)=πθold(yi∣x)πθ(yi∣x):重要性采样比率
核心要点
去掉 PPO 中的 critic/value 网络,降低训练成本
每个 prompt 采样一组回答,用组内统计量估计相对优势
在 DeepSeek-R1 中用于数学推理能力的强化学习训练
相比 DPO 更适合需要在线探索的场景
代表工作
DeepSeek-R1 (2025): 首次提出 GRPO 并应用于推理模型训练
Bielik-Minitron-7B: 后续对齐训练中使用 GRPO
相关概念
DPO
DeepSeek