RLP Information Gain Reward 推导

分类: 推理与评估 · 难度: 进阶 · 关联讲座: L19

RLP(Reinforcement as a Pretraining Objective, Hatamizadeh et al. ICLR 2026)提出在预训练阶段就通过 RL 注入推理能力,而非将其作为事后的 post-training 补丁。核心创新是 Information Gain Reward:衡量”思考链是否真正帮助了下一个 token 的预测”,用 EMA 模型作为”不思考的自己”的基线,避免了额外训练 baseline 模型的开销。


📐 RLP 的 Information Gain Reward 推导

核心思想:在预训练阶段,模型先生成隐式推理链 ctc_t<think>...</think>),再预测下一个 token xtx_t。奖励衡量”思考是否帮助了预测”。

Information Gain Reward

r(ct)=logPθ(xtx<t,ct)logPEMA(xtx<t)r(c_t) = \log P_\theta(x_t | x_{<t}, c_t) - \log P_{\text{EMA}}(x_t | x_{<t})

  • 左项:带推理链的预测概率(当前模型)
  • 右项:不带推理链的预测概率(EMA 基线模型,τ=0.999\tau = 0.999
  • 差值 > 0:推理链确实帮助了预测 → 正奖励
  • 差值 < 0:推理链没帮上忙或帮倒忙 → 负奖励

为什么用 EMA 做基线

θEMA(t)=τθEMA(t1)+(1τ)θ(t)\theta_{\text{EMA}}^{(t)} = \tau \cdot \theta_{\text{EMA}}^{(t-1)} + (1 - \tau) \cdot \theta^{(t)}

EMA 模型是”不思考的自己”的平滑版本,避免了需要单独训练 baseline 模型的开销。

训练目标(仅更新 thought tokens):

LRLP=LLM(x)+αLGRPO(c;r)\mathcal{L}_{\text{RLP}} = \mathcal{L}_{\text{LM}}(x) + \alpha \cdot \mathcal{L}_{\text{GRPO}}(c; r)

其中 LLM\mathcal{L}_{\text{LM}} 是标准 next-token loss(作用于所有 token),LGRPO\mathcal{L}_{\text{GRPO}} 只作用于 thought tokens 的策略梯度。

🔢 RLP 的定量结果

Q1: RLP 预训练是否有效?(Qwen3-1.7B-Base,200B tokens)

方法MATH-500GSM8KARC-C平均
BASE(标准预训练)18.232.144.531.6
CPT(继续预训练)20.535.846.234.2
RLP24.3 (+19%)41.251.038.8

Q2: RLP 的优势能否在后训练中保持?

方法+SFT+SFT+RLVR增量
BASE + Post42.151.3
CPT + Post44.853.0+1.7
RLP + Post49.259.1+7.8

关键:RLP 的优势不仅没有被后训练”覆盖”,反而复合增长——说明预训练阶段注入的推理结构是深层的,不是后训练可以轻易复现的。