Constitutional AI 两阶段算法

分类: 预训练与微调 · 难度: 中级 · 关联讲座: L16

Constitutional AI(Bai et al. 2022)是 RLHF 的重要变体,核心创新在于用 AI 生成的反馈替代人类偏好标注。这不仅降低了人类接触有害内容的心理风险,还通过固定的”宪法原则”消除了人类评分者的谄媚偏见,实现了 helpful 和 harmless 的 Pareto 改进。


📐 Constitutional AI 的两阶段算法

Phase 1 — SL-CAI(监督学习)

  1. 给定有害 prompt xx,让 LM 生成初始回应 r0r_0
  2. 给 LM 一条 constitution 原则 pip_i(如”请解释为什么上面的回应有害,并修订”)
  3. LM 生成批评 cic_i 和修订回应 rir_i
  4. 重复 kk 次,得到 rkr_k
  5. (x,rk)(x, r_k) 对做 SFT

Phase 2 — RL-CAI(强化学习)

  1. 用 AI 偏好标注替代人类标注:比较两个回应 y1,y2y_1, y_2,选择符合 constitution 的那个
  2. 训练偏好模型(PM):LPM=logσ(R(x,ychosen)R(x,yrejected))\mathcal{L}_{\text{PM}} = -\log \sigma(R(x, y_{\text{chosen}}) - R(x, y_{\text{rejected}}))
  3. 用 PM 做 RL 优化(RLHF 管道,但奖励信号来自 AI 而非人类)

关键优势:人类标注者需要接触有害内容(有心理健康风险),AI 偏好标注则不需要人类直接与有害材料交互。