Constitutional AI

分类: 训练优化

Constitutional AI

定义

Constitutional AI(CAI)是 Anthropic 提出的一种对齐方法,通过一组预定义的”宪法原则”(如不鼓励暴力、不生成有害内容)让 AI 自我批评和修订回答,再用 AI 反馈替代人类反馈进行强化学习(RLAIF),从而大幅减少对人类标注的依赖

核心要点

两阶段流程

  • (1) Supervised 阶段:模型生成回答 → 根据宪法原则自我批评(critique)→ 自我修订(revision)→ 用修订后的数据做 SFT
  • (2) RL 阶段:用 AI 打分(RLAIF)替代人类偏好标注,训练奖励模型 → PPO 优化

宪法原则:一组人类编写的高层规则(如”选择最不可能被视为有害的回答”),类似法律中的宪法——不直接标注数据,而是制定标注标准

RLAIF(RL from AI Feedback):让强模型根据宪法原则对比两个回答并选出更好的,生成偏好对用于训练奖励模型

优势:(1) 可扩展——不需要海量人类标注;(2) 可控——修改原则即可调整行为;(3) 透明——原则本身是可解释的

实验表明 CAI 在 harmlessness 上优于纯 RLHF,同时保持 helpfulness

是 Claude 系列模型对齐方法的核心技术之一

CS224N 讨论 LLM 安全时的重要参考

代表工作

Constitutional AI: Constitutional AI: Harmlessness from AI Feedback (Bai et al., 2022)

Claude: Anthropic 基于 Constitutional AI 训练的对话模型

相关概念

Alignment

Reward Model