Value Alignment
分类: 待分类
Value Alignment
定义
使 AI 系统的行为和目标与人类价值观、意图和伦理规范保持一致的技术和研究方向,是 AI Safety 的核心子问题
核心要点
技术路线:RLHF(人类反馈强化学习)、DPO(直接偏好优化)、Constitutional AI(宪法 AI)、RLAIF(AI 反馈强化学习)
核心困难:人类价值观本身存在分歧和模糊性,对齐目标难以形式化定义
外对齐 vs. 内对齐:外对齐确保目标函数正确反映人类意图,内对齐确保模型真正优化该目标而非”表面对齐”
代表工作
Ouyang et al. (2022): InstructGPT,RLHF 对齐的里程碑
Bai et al. (2022, Anthropic): Constitutional AI,基于原则的自我对齐
Rafailov et al. (2023): DPO,简化对齐流程