AI Safety
分类: 待分类
AI Safety
定义
研究如何确保人工智能系统行为可控、可预测、符合人类意图和价值观的跨学科领域,涵盖对齐、鲁棒性、可解释性和治理等子方向
核心要点
核心子问题:价值对齐(Value Alignment)、鲁棒性(Robustness)、可解释性(Interpretability)、治理(Governance)
风险分层:当前风险(偏见、误用、隐私)vs. 长期风险(超级智能失控、权力集中)
技术手段:RLHF/DPO 对齐、红队测试、宪法 AI(Constitutional AI)、机制可解释性
代表工作
Amodei et al. (2016): “Concrete Problems in AI Safety”,定义了 AI 安全的五大核心问题
Anthropic (2023): Constitutional AI,通过原则约束实现自我对齐
Hendrycks et al. (2023): “An Overview of Catastrophic AI Risks”