Constitutional AI
分类: 训练优化
Constitutional AI
定义
Constitutional AI(CAI)是 Anthropic 提出的一种对齐方法,通过一组预定义的”宪法原则”(如不鼓励暴力、不生成有害内容)让 AI 自我批评和修订回答,再用 AI 反馈替代人类反馈进行强化学习(RLAIF),从而大幅减少对人类标注的依赖
核心要点
两阶段流程:
- (1) Supervised 阶段:模型生成回答 → 根据宪法原则自我批评(critique)→ 自我修订(revision)→ 用修订后的数据做 SFT
- (2) RL 阶段:用 AI 打分(RLAIF)替代人类偏好标注,训练奖励模型 → PPO 优化
宪法原则:一组人类编写的高层规则(如”选择最不可能被视为有害的回答”),类似法律中的宪法——不直接标注数据,而是制定标注标准
RLAIF(RL from AI Feedback):让强模型根据宪法原则对比两个回答并选出更好的,生成偏好对用于训练奖励模型
优势:(1) 可扩展——不需要海量人类标注;(2) 可控——修改原则即可调整行为;(3) 透明——原则本身是可解释的
实验表明 CAI 在 harmlessness 上优于纯 RLHF,同时保持 helpfulness
是 Claude 系列模型对齐方法的核心技术之一
CS224N 讨论 LLM 安全时的重要参考
代表工作
Constitutional AI: Constitutional AI: Harmlessness from AI Feedback (Bai et al., 2022)
Claude: Anthropic 基于 Constitutional AI 训练的对话模型