PPO

分类: 训练优化

PPO

定义

PPO (Proximal Policy Optimization) 是 Schulman et al. (2017) 提出的策略梯度强化学习算法,通过裁剪目标函数限制策略更新幅度,兼顾训练稳定性和采样效率。

数学形式

LCLIP(θ)=E^t[min(rt(θ)A^t,  clip(rt(θ),1ϵ,1+ϵ)A^t)]\mathcal{L}^{CLIP}(\theta) = \hat{\mathbb{E}}_t \left[ \min\left( r_t(\theta) \hat{A}_t, \; \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t \right) \right]

其中 rt(θ)=πθ(atst)/πθold(atst)r_t(\theta) = \pi_\theta(a_t|s_t) / \pi_{\theta_{\text{old}}}(a_t|s_t) 为概率比,ϵ\epsilon 为裁剪阈值。

核心要点

RLHF(基于人类反馈的强化学习)的核心优化算法

DPO 互补:PPO 需要显式奖励模型,DPO 直接从偏好数据学习

实现简单,广泛用于 LLM 对齐(InstructGPT、ChatGPT)

GRPO 是 PPO 的 group-based 变体

代表工作

Schulman et al. “Proximal Policy Optimization Algorithms” (arXiv 2017)

Ouyang et al. “Training language models to follow instructions with human feedback” (NeurIPS 2022, InstructGPT)

相关概念

DPO

GRPO