RLP Information Gain Reward 推导

分类: 推理与评估 · 难度: 进阶 · 关联讲座: L19

RLP（Reinforcement as a Pretraining Objective, Hatamizadeh et al. ICLR 2026）提出在预训练阶段就通过 RL 注入推理能力，而非将其作为事后的 post-training 补丁。核心创新是 Information Gain Reward：衡量”思考链是否真正帮助了下一个 token 的预测”，用 EMA 模型作为”不思考的自己”的基线，避免了额外训练 baseline 模型的开销。

📐 RLP 的 Information Gain Reward 推导

核心思想：在预训练阶段，模型先生成隐式推理链 $c_t$ （<think>...</think>），再预测下一个 token $x_t$ 。奖励衡量”思考是否帮助了预测”。

Information Gain Reward：

$r(c_t) = \log P_\theta(x_t | x_{<t}, c_t) - \log P_{\text{EMA}}(x_t | x_{<t})$

左项：带推理链的预测概率（当前模型）
右项：不带推理链的预测概率（EMA 基线模型， $\tau = 0.999$ ）
差值 > 0：推理链确实帮助了预测 → 正奖励
差值 < 0：推理链没帮上忙或帮倒忙 → 负奖励

为什么用 EMA 做基线：

$\theta_{\text{EMA}}^{(t)} = \tau \cdot \theta_{\text{EMA}}^{(t-1)} + (1 - \tau) \cdot \theta^{(t)}$

EMA 模型是”不思考的自己”的平滑版本，避免了需要单独训练 baseline 模型的开销。

训练目标（仅更新 thought tokens）：

$\mathcal{L}_{\text{RLP}} = \mathcal{L}_{\text{LM}}(x) + \alpha \cdot \mathcal{L}_{\text{GRPO}}(c; r)$

其中 $\mathcal{L}_{\text{LM}}$ 是标准 next-token loss（作用于所有 token）， $\mathcal{L}_{\text{GRPO}}$ 只作用于 thought tokens 的策略梯度。

🔢 RLP 的定量结果

Q1: RLP 预训练是否有效？（Qwen3-1.7B-Base，200B tokens）

方法	MATH-500	GSM8K	ARC-C	平均
BASE（标准预训练）	18.2	32.1	44.5	31.6
CPT（继续预训练）	20.5	35.8	46.2	34.2
RLP	24.3 (+19%)	41.2	51.0	38.8

Q2: RLP 的优势能否在后训练中保持？

方法	+SFT	+SFT+RLVR	增量
BASE + Post	42.1	51.3	—
CPT + Post	44.8	53.0	+1.7
RLP + Post	49.2	59.1	+7.8

关键：RLP 的优势不仅没有被后训练”覆盖”，反而复合增长——说明预训练阶段注入的推理结构是深层的，不是后训练可以轻易复现的。