PPO
分类: 训练优化
PPO
定义
PPO (Proximal Policy Optimization) 是 Schulman et al. (2017) 提出的策略梯度强化学习算法,通过裁剪目标函数限制策略更新幅度,兼顾训练稳定性和采样效率。
数学形式
其中 为概率比, 为裁剪阈值。
核心要点
RLHF(基于人类反馈的强化学习)的核心优化算法
与 DPO 互补:PPO 需要显式奖励模型,DPO 直接从偏好数据学习
实现简单,广泛用于 LLM 对齐(InstructGPT、ChatGPT)
GRPO 是 PPO 的 group-based 变体
代表工作
Schulman et al. “Proximal Policy Optimization Algorithms” (arXiv 2017)
Ouyang et al. “Training language models to follow instructions with human feedback” (NeurIPS 2022, InstructGPT)