RLP Information Gain Reward 推导
分类: 推理与评估 · 难度: 进阶 · 关联讲座: L19
RLP(Reinforcement as a Pretraining Objective, Hatamizadeh et al. ICLR 2026)提出在预训练阶段就通过 RL 注入推理能力,而非将其作为事后的 post-training 补丁。核心创新是 Information Gain Reward:衡量”思考链是否真正帮助了下一个 token 的预测”,用 EMA 模型作为”不思考的自己”的基线,避免了额外训练 baseline 模型的开销。
📐 RLP 的 Information Gain Reward 推导
核心思想:在预训练阶段,模型先生成隐式推理链 (<think>...</think>),再预测下一个 token 。奖励衡量”思考是否帮助了预测”。
Information Gain Reward:
- 左项:带推理链的预测概率(当前模型)
- 右项:不带推理链的预测概率(EMA 基线模型,)
- 差值 > 0:推理链确实帮助了预测 → 正奖励
- 差值 < 0:推理链没帮上忙或帮倒忙 → 负奖励
为什么用 EMA 做基线:
EMA 模型是”不思考的自己”的平滑版本,避免了需要单独训练 baseline 模型的开销。
训练目标(仅更新 thought tokens):
其中 是标准 next-token loss(作用于所有 token), 只作用于 thought tokens 的策略梯度。
🔢 RLP 的定量结果
Q1: RLP 预训练是否有效?(Qwen3-1.7B-Base,200B tokens)
| 方法 | MATH-500 | GSM8K | ARC-C | 平均 |
|---|---|---|---|---|
| BASE(标准预训练) | 18.2 | 32.1 | 44.5 | 31.6 |
| CPT(继续预训练) | 20.5 | 35.8 | 46.2 | 34.2 |
| RLP | 24.3 (+19%) | 41.2 | 51.0 | 38.8 |
Q2: RLP 的优势能否在后训练中保持?
| 方法 | +SFT | +SFT+RLVR | 增量 |
|---|---|---|---|
| BASE + Post | 42.1 | 51.3 | — |
| CPT + Post | 44.8 | 53.0 | +1.7 |
| RLP + Post | 49.2 | 59.1 | +7.8 |
关键:RLP 的优势不仅没有被后训练”覆盖”,反而复合增长——说明预训练阶段注入的推理结构是深层的,不是后训练可以轻易复现的。