Reward Model

分类: 训练优化

定义

奖励模型是 RLHF（Reinforcement Learning from Human Feedback）流程的核心组件，将人类偏好数据训练为一个标量评分函数，用于在强化学习阶段指导语言模型的策略优化

给定 prompt $x$ 和两个回答 $y_w$ （preferred）与 $y_l$ （rejected），Bradley-Terry 偏好模型： $P(y_w \succ y_l | x) = \sigma(r_\theta(x, y_w) - r_\theta(x, y_l))$

训练损失： $\mathcal{L}_{\text{RM}} = -\mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}}\left[\log \sigma(r_\theta(x, y_w) - r_\theta(x, y_l))\right]$

其中 $r_\theta$ 为奖励模型， $\sigma$ 为 sigmoid 函数

RLHF 三阶段：(1) SFT 预训练 → (2) 奖励模型训练 → (3) PPO/GRPO 策略优化

奖励模型通常从 SFT 模型初始化，移除最后的 LM head，替换为标量输出头

Reward Hacking：策略模型可能找到奖励模型的漏洞（如生成冗长但空洞的回答），需要 KL 正则化约束

DPO（Direct Preference Optimization）绕过了显式奖励模型，直接从偏好数据优化策略，但隐式定义了一个奖励函数

奖励模型的质量是 RLHF 成功的关键瓶颈：垃圾偏好数据 → 垃圾奖励模型 → 垃圾策略

过程奖励模型（Process RM）对推理的每一步给分，优于只看最终结果的结果奖励模型（Outcome RM）

CS224N 中作为 LLM 对齐的核心技术被讲授

InstructGPT: Training language models to follow instructions with human feedback (Ouyang et al., 2022)

DPO: Direct Preference Optimization (Rafailov et al., 2023)

Let’s Verify Step by Step: Process Reward Model (Lightman et al., 2023)