Value Alignment

分类: 待分类

定义

使 AI 系统的行为和目标与人类价值观、意图和伦理规范保持一致的技术和研究方向，是 AI Safety 的核心子问题

技术路线：RLHF（人类反馈强化学习）、DPO（直接偏好优化）、Constitutional AI（宪法 AI）、RLAIF（AI 反馈强化学习）

核心困难：人类价值观本身存在分歧和模糊性，对齐目标难以形式化定义

外对齐 vs. 内对齐：外对齐确保目标函数正确反映人类意图，内对齐确保模型真正优化该目标而非”表面对齐”

Ouyang et al. (2022): InstructGPT，RLHF 对齐的里程碑

Bai et al. (2022, Anthropic): Constitutional AI，基于原则的自我对齐

Rafailov et al. (2023): DPO，简化对齐流程