Constitutional AI

分类: 训练优化

定义

Constitutional AI（CAI）是 Anthropic 提出的一种对齐方法，通过一组预定义的”宪法原则”（如不鼓励暴力、不生成有害内容）让 AI 自我批评和修订回答，再用 AI 反馈替代人类反馈进行强化学习（RLAIF），从而大幅减少对人类标注的依赖

两阶段流程：

(1) Supervised 阶段：模型生成回答 → 根据宪法原则自我批评（critique）→ 自我修订（revision）→ 用修订后的数据做 SFT
(2) RL 阶段：用 AI 打分（RLAIF）替代人类偏好标注，训练奖励模型 → PPO 优化

宪法原则：一组人类编写的高层规则（如”选择最不可能被视为有害的回答”），类似法律中的宪法——不直接标注数据，而是制定标注标准

RLAIF（RL from AI Feedback）：让强模型根据宪法原则对比两个回答并选出更好的，生成偏好对用于训练奖励模型

优势：(1) 可扩展——不需要海量人类标注；(2) 可控——修改原则即可调整行为；(3) 透明——原则本身是可解释的

实验表明 CAI 在 harmlessness 上优于纯 RLHF，同时保持 helpfulness

是 Claude 系列模型对齐方法的核心技术之一

CS224N 讨论 LLM 安全时的重要参考

Constitutional AI: Constitutional AI: Harmlessness from AI Feedback (Bai et al., 2022)

Claude: Anthropic 基于 Constitutional AI 训练的对话模型