Constitutional AI 两阶段算法

分类: 预训练与微调 · 难度: 中级 · 关联讲座: L16

Constitutional AI（Bai et al. 2022）是 RLHF 的重要变体，核心创新在于用 AI 生成的反馈替代人类偏好标注。这不仅降低了人类接触有害内容的心理风险，还通过固定的”宪法原则”消除了人类评分者的谄媚偏见，实现了 helpful 和 harmless 的 Pareto 改进。

📐 Constitutional AI 的两阶段算法

Phase 1 — SL-CAI（监督学习）：

给定有害 prompt $x$ ，让 LM 生成初始回应 $r_0$
给 LM 一条 constitution 原则 $p_i$ （如”请解释为什么上面的回应有害，并修订”）
LM 生成批评 $c_i$ 和修订回应 $r_i$
重复 $k$ 次，得到 $r_k$
用 $(x, r_k)$ 对做 SFT

Phase 2 — RL-CAI（强化学习）：

用 AI 偏好标注替代人类标注：比较两个回应 $y_1, y_2$ ，选择符合 constitution 的那个
训练偏好模型（PM）： $\mathcal{L}_{\text{PM}} = -\log \sigma(R(x, y_{\text{chosen}}) - R(x, y_{\text{rejected}}))$
用 PM 做 RL 优化（RLHF 管道，但奖励信号来自 AI 而非人类）

关键优势：人类标注者需要接触有害内容（有心理健康风险），AI 偏好标注则不需要人类直接与有害材料交互。