Reward Model
分类: 训练优化
Reward Model
定义
奖励模型是 RLHF(Reinforcement Learning from Human Feedback)流程的核心组件,将人类偏好数据训练为一个标量评分函数,用于在强化学习阶段指导语言模型的策略优化
数学形式
给定 prompt 和两个回答 (preferred)与 (rejected),Bradley-Terry 偏好模型:
训练损失:
其中 为奖励模型, 为 sigmoid 函数
核心要点
RLHF 三阶段:(1) SFT 预训练 → (2) 奖励模型训练 → (3) PPO/GRPO 策略优化
奖励模型通常从 SFT 模型初始化,移除最后的 LM head,替换为标量输出头
Reward Hacking:策略模型可能找到奖励模型的漏洞(如生成冗长但空洞的回答),需要 KL 正则化约束
DPO(Direct Preference Optimization)绕过了显式奖励模型,直接从偏好数据优化策略,但隐式定义了一个奖励函数
奖励模型的质量是 RLHF 成功的关键瓶颈:垃圾偏好数据 → 垃圾奖励模型 → 垃圾策略
过程奖励模型(Process RM)对推理的每一步给分,优于只看最终结果的结果奖励模型(Outcome RM)
CS224N 中作为 LLM 对齐的核心技术被讲授
代表工作
InstructGPT: Training language models to follow instructions with human feedback (Ouyang et al., 2022)
DPO: Direct Preference Optimization (Rafailov et al., 2023)
Let’s Verify Step by Step: Process Reward Model (Lightman et al., 2023)