RLHF

分类: 训练优化

RLHF

定义

RLHF 是一种将人类偏好引入语言模型训练的方法，通过人类标注者对模型输出进行偏好排序，训练奖励模型，再用强化学习（通常是 PPO）优化语言模型使其输出更符合人类期望

数学形式

$\max_{\pi_\theta} \mathbb{E}_{x \sim D, y \sim \pi_\theta(\cdot|x)} \left[ r_\phi(x, y) - \beta \cdot \text{KL}(\pi_\theta \| \pi_{\text{ref}}) \right]$

$r_\phi$ : 从人类偏好数据训练的奖励模型

$\pi_\theta$ : 待优化的策略（语言模型）

$\pi_{\text{ref}}$ : 参考策略（SFT 后的模型），KL 正则防止偏离太远

核心要点

三阶段流程：SFT 预训练 → 奖励模型训练 → PPO 强化学习

奖励模型从人类偏好对 $(y_w \succ y_l | x)$ 中学习，使用 Bradley-Terry 模型

KL 散度惩罚防止奖励黑客（reward hacking）

DPO (Direct Preference Optimization) 绕过显式奖励模型，直接从偏好数据优化

GRPO 等变体进一步简化了 RL 部分

代表工作

InstructGPT (2022, Ouyang et al.): RLHF 应用于 GPT 系列的里程碑工作

DPO (2023, Rafailov et al.): 无需奖励模型的偏好优化

RLHF

RLHF

定义

数学形式

核心要点

代表工作

相关概念