PPO

分类: 训练优化

PPO

定义

PPO (Proximal Policy Optimization) 是 Schulman et al. (2017) 提出的策略梯度强化学习算法，通过裁剪目标函数限制策略更新幅度，兼顾训练稳定性和采样效率。

数学形式

$\mathcal{L}^{CLIP}(\theta) = \hat{\mathbb{E}}_t \left[ \min\left( r_t(\theta) \hat{A}_t, \; \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t \right) \right]$

其中 $r_t(\theta) = \pi_\theta(a_t|s_t) / \pi_{\theta_{\text{old}}}(a_t|s_t)$ 为概率比， $\epsilon$ 为裁剪阈值。

核心要点

RLHF（基于人类反馈的强化学习）的核心优化算法

与 DPO 互补：PPO 需要显式奖励模型，DPO 直接从偏好数据学习

实现简单，广泛用于 LLM 对齐（InstructGPT、ChatGPT）

GRPO 是 PPO 的 group-based 变体

代表工作

Schulman et al. “Proximal Policy Optimization Algorithms” (arXiv 2017)

Ouyang et al. “Training language models to follow instructions with human feedback” (NeurIPS 2022, InstructGPT)

PPO

PPO

定义

数学形式

核心要点

代表工作

相关概念