Constitutional AI 两阶段算法
分类: 预训练与微调 · 难度: 中级 · 关联讲座: L16
Constitutional AI(Bai et al. 2022)是 RLHF 的重要变体,核心创新在于用 AI 生成的反馈替代人类偏好标注。这不仅降低了人类接触有害内容的心理风险,还通过固定的”宪法原则”消除了人类评分者的谄媚偏见,实现了 helpful 和 harmless 的 Pareto 改进。
📐 Constitutional AI 的两阶段算法
Phase 1 — SL-CAI(监督学习):
- 给定有害 prompt ,让 LM 生成初始回应
- 给 LM 一条 constitution 原则 (如”请解释为什么上面的回应有害,并修订”)
- LM 生成批评 和修订回应
- 重复 次,得到
- 用 对做 SFT
Phase 2 — RL-CAI(强化学习):
- 用 AI 偏好标注替代人类标注:比较两个回应 ,选择符合 constitution 的那个
- 训练偏好模型(PM):
- 用 PM 做 RL 优化(RLHF 管道,但奖励信号来自 AI 而非人类)
关键优势:人类标注者需要接触有害内容(有心理健康风险),AI 偏好标注则不需要人类直接与有害材料交互。