AI Safety

分类: 待分类

定义

研究如何确保人工智能系统行为可控、可预测、符合人类意图和价值观的跨学科领域，涵盖对齐、鲁棒性、可解释性和治理等子方向

核心子问题：价值对齐（Value Alignment）、鲁棒性（Robustness）、可解释性（Interpretability）、治理（Governance）

风险分层：当前风险（偏见、误用、隐私）vs. 长期风险（超级智能失控、权力集中）

技术手段：RLHF/DPO 对齐、红队测试、宪法 AI（Constitutional AI）、机制可解释性

Amodei et al. (2016): “Concrete Problems in AI Safety”，定义了 AI 安全的五大核心问题

Anthropic (2023): Constitutional AI，通过原则约束实现自我对齐

Hendrycks et al. (2023): “An Overview of Catastrophic AI Risks”