RLHF

分类: 训练优化

RLHF

定义

RLHF 是一种将人类偏好引入语言模型训练的方法,通过人类标注者对模型输出进行偏好排序,训练奖励模型,再用强化学习(通常是 PPO)优化语言模型使其输出更符合人类期望

数学形式

maxπθExD,yπθ(x)[rϕ(x,y)βKL(πθπref)]\max_{\pi_\theta} \mathbb{E}_{x \sim D, y \sim \pi_\theta(\cdot|x)} \left[ r_\phi(x, y) - \beta \cdot \text{KL}(\pi_\theta \| \pi_{\text{ref}}) \right]

rϕr_\phi: 从人类偏好数据训练的奖励模型

πθ\pi_\theta: 待优化的策略(语言模型)

πref\pi_{\text{ref}}: 参考策略(SFT 后的模型),KL 正则防止偏离太远

核心要点

三阶段流程:SFT 预训练 → 奖励模型训练 → PPO 强化学习

奖励模型从人类偏好对 (ywylx)(y_w \succ y_l | x) 中学习,使用 Bradley-Terry 模型

KL 散度惩罚防止奖励黑客(reward hacking)

DPO (Direct Preference Optimization) 绕过显式奖励模型,直接从偏好数据优化

GRPO 等变体进一步简化了 RL 部分

代表工作

InstructGPT (2022, Ouyang et al.): RLHF 应用于 GPT 系列的里程碑工作

DPO (2023, Rafailov et al.): 无需奖励模型的偏好优化

相关概念

GaLore

DeepSpeed