Value Alignment

分类: 待分类

Value Alignment

定义

使 AI 系统的行为和目标与人类价值观、意图和伦理规范保持一致的技术和研究方向,是 AI Safety 的核心子问题

核心要点

技术路线:RLHF(人类反馈强化学习)、DPO(直接偏好优化)、Constitutional AI(宪法 AI)、RLAIF(AI 反馈强化学习)

核心困难:人类价值观本身存在分歧和模糊性,对齐目标难以形式化定义

外对齐 vs. 内对齐:外对齐确保目标函数正确反映人类意图,内对齐确保模型真正优化该目标而非”表面对齐”

代表工作

Ouyang et al. (2022): InstructGPT,RLHF 对齐的里程碑

Bai et al. (2022, Anthropic): Constitutional AI,基于原则的自我对齐

Rafailov et al. (2023): DPO,简化对齐流程

相关概念

RLHF

AI Safety

Sycophancy

Red-Teaming