RLHF
分类: 训练优化
RLHF
定义
RLHF 是一种将人类偏好引入语言模型训练的方法,通过人类标注者对模型输出进行偏好排序,训练奖励模型,再用强化学习(通常是 PPO)优化语言模型使其输出更符合人类期望
数学形式
: 从人类偏好数据训练的奖励模型
: 待优化的策略(语言模型)
: 参考策略(SFT 后的模型),KL 正则防止偏离太远
核心要点
三阶段流程:SFT 预训练 → 奖励模型训练 → PPO 强化学习
奖励模型从人类偏好对 中学习,使用 Bradley-Terry 模型
KL 散度惩罚防止奖励黑客(reward hacking)
DPO (Direct Preference Optimization) 绕过显式奖励模型,直接从偏好数据优化
GRPO 等变体进一步简化了 RL 部分
代表工作
InstructGPT (2022, Ouyang et al.): RLHF 应用于 GPT 系列的里程碑工作
DPO (2023, Rafailov et al.): 无需奖励模型的偏好优化