Alignment

分类: 训练优化

Alignment

定义

AI 对齐(Alignment)是指使 AI 系统的行为符合人类意图、价值观和偏好的技术与研究方向。在 LLM 语境下,特指通过 RLHF、RLAIF、DPO 等方法让模型输出有用(helpful)、无害(harmless)、诚实(honest)的回答

核心要点

HHH 原则:Helpful(有用)、Harmless(无害)、Honest(诚实)——Anthropic 提出的对齐三要素

RLHF 流程:SFT → 奖励模型训练 → PPO 策略优化,是 ChatGPT/Claude 等产品的核心技术

DPO(Direct Preference Optimization):省去奖励模型和 RL 阶段,直接从偏好对优化策略,大幅简化训练流程

RLAIF(RL from AI Feedback):用强 AI 模型代替人类标注偏好数据,降低标注成本(Constitutional AI 的核心思想)

对齐税(Alignment Tax):对齐训练可能轻微降低模型在某些基准上的性能,但显著提升安全性和可用性

内在对齐 vs 外在对齐:内在对齐追求模型真正”理解”人类价值观,外在对齐仅确保行为合规(表面对齐可能导致欺骗性对齐 deceptive alignment)

Scalable Oversight:随着模型能力增强,人类可能无法有效监督——这是长期对齐研究的核心挑战

CS224N 后半部分讨论 LLM 安全与社会影响的核心主题

代表工作

InstructGPT: Training language models to follow instructions with human feedback (Ouyang et al., 2022)

Anthropic HHH: A General Language Assistant as a Laboratory for Alignment (Askell et al., 2021)

DPO: Direct Preference Optimization (Rafailov et al., 2023)

相关概念

Reward Model

Constitutional AI