Reward Model

分类: 训练优化

Reward Model

定义

奖励模型是 RLHF(Reinforcement Learning from Human Feedback)流程的核心组件,将人类偏好数据训练为一个标量评分函数,用于在强化学习阶段指导语言模型的策略优化

数学形式

给定 prompt xx 和两个回答 ywy_w(preferred)与 yly_l(rejected),Bradley-Terry 偏好模型: P(ywylx)=σ(rθ(x,yw)rθ(x,yl))P(y_w \succ y_l | x) = \sigma(r_\theta(x, y_w) - r_\theta(x, y_l))

训练损失: LRM=E(x,yw,yl)D[logσ(rθ(x,yw)rθ(x,yl))]\mathcal{L}_{\text{RM}} = -\mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}}\left[\log \sigma(r_\theta(x, y_w) - r_\theta(x, y_l))\right]

其中 rθr_\theta 为奖励模型,σ\sigma 为 sigmoid 函数

核心要点

RLHF 三阶段:(1) SFT 预训练 → (2) 奖励模型训练 → (3) PPO/GRPO 策略优化

奖励模型通常从 SFT 模型初始化,移除最后的 LM head,替换为标量输出头

Reward Hacking:策略模型可能找到奖励模型的漏洞(如生成冗长但空洞的回答),需要 KL 正则化约束

DPO(Direct Preference Optimization)绕过了显式奖励模型,直接从偏好数据优化策略,但隐式定义了一个奖励函数

奖励模型的质量是 RLHF 成功的关键瓶颈:垃圾偏好数据 → 垃圾奖励模型 → 垃圾策略

过程奖励模型(Process RM)对推理的每一步给分,优于只看最终结果的结果奖励模型(Outcome RM)

CS224N 中作为 LLM 对齐的核心技术被讲授

代表工作

InstructGPT: Training language models to follow instructions with human feedback (Ouyang et al., 2022)

DPO: Direct Preference Optimization (Rafailov et al., 2023)

Let’s Verify Step by Step: Process Reward Model (Lightman et al., 2023)

相关概念

Alignment

Constitutional AI