Alignment

分类: 训练优化

定义

AI 对齐（Alignment）是指使 AI 系统的行为符合人类意图、价值观和偏好的技术与研究方向。在 LLM 语境下，特指通过 RLHF、RLAIF、DPO 等方法让模型输出有用（helpful）、无害（harmless）、诚实（honest）的回答

HHH 原则：Helpful（有用）、Harmless（无害）、Honest（诚实）——Anthropic 提出的对齐三要素

RLHF 流程：SFT → 奖励模型训练 → PPO 策略优化，是 ChatGPT/Claude 等产品的核心技术

DPO（Direct Preference Optimization）：省去奖励模型和 RL 阶段，直接从偏好对优化策略，大幅简化训练流程

RLAIF（RL from AI Feedback）：用强 AI 模型代替人类标注偏好数据，降低标注成本（Constitutional AI 的核心思想）

对齐税（Alignment Tax）：对齐训练可能轻微降低模型在某些基准上的性能，但显著提升安全性和可用性

内在对齐 vs 外在对齐：内在对齐追求模型真正”理解”人类价值观，外在对齐仅确保行为合规（表面对齐可能导致欺骗性对齐 deceptive alignment）

Scalable Oversight：随着模型能力增强，人类可能无法有效监督——这是长期对齐研究的核心挑战

CS224N 后半部分讨论 LLM 安全与社会影响的核心主题

InstructGPT: Training language models to follow instructions with human feedback (Ouyang et al., 2022)

Anthropic HHH: A General Language Assistant as a Laboratory for Alignment (Askell et al., 2021)

DPO: Direct Preference Optimization (Rafailov et al., 2023)