Alignment
分类: 训练优化
Alignment
定义
AI 对齐(Alignment)是指使 AI 系统的行为符合人类意图、价值观和偏好的技术与研究方向。在 LLM 语境下,特指通过 RLHF、RLAIF、DPO 等方法让模型输出有用(helpful)、无害(harmless)、诚实(honest)的回答
核心要点
HHH 原则:Helpful(有用)、Harmless(无害)、Honest(诚实)——Anthropic 提出的对齐三要素
RLHF 流程:SFT → 奖励模型训练 → PPO 策略优化,是 ChatGPT/Claude 等产品的核心技术
DPO(Direct Preference Optimization):省去奖励模型和 RL 阶段,直接从偏好对优化策略,大幅简化训练流程
RLAIF(RL from AI Feedback):用强 AI 模型代替人类标注偏好数据,降低标注成本(Constitutional AI 的核心思想)
对齐税(Alignment Tax):对齐训练可能轻微降低模型在某些基准上的性能,但显著提升安全性和可用性
内在对齐 vs 外在对齐:内在对齐追求模型真正”理解”人类价值观,外在对齐仅确保行为合规(表面对齐可能导致欺骗性对齐 deceptive alignment)
Scalable Oversight:随着模型能力增强,人类可能无法有效监督——这是长期对齐研究的核心挑战
CS224N 后半部分讨论 LLM 安全与社会影响的核心主题
代表工作
InstructGPT: Training language models to follow instructions with human feedback (Ouyang et al., 2022)
Anthropic HHH: A General Language Assistant as a Laboratory for Alignment (Askell et al., 2021)
DPO: Direct Preference Optimization (Rafailov et al., 2023)