AI Safety

分类: 待分类

AI Safety

定义

研究如何确保人工智能系统行为可控、可预测、符合人类意图和价值观的跨学科领域,涵盖对齐、鲁棒性、可解释性和治理等子方向

核心要点

核心子问题:价值对齐(Value Alignment)、鲁棒性(Robustness)、可解释性(Interpretability)、治理(Governance)

风险分层:当前风险(偏见、误用、隐私)vs. 长期风险(超级智能失控、权力集中)

技术手段:RLHF/DPO 对齐、红队测试、宪法 AI(Constitutional AI)、机制可解释性

代表工作

Amodei et al. (2016): “Concrete Problems in AI Safety”,定义了 AI 安全的五大核心问题

Anthropic (2023): Constitutional AI,通过原则约束实现自我对齐

Hendrycks et al. (2023): “An Overview of Catastrophic AI Risks”

相关概念

Value Alignment

Red-Teaming

Jailbreak

RLHF