Red-Teaming
分类: 待分类
Red-Teaming
定义
通过模拟对抗性攻击系统性发现 AI 模型安全漏洞的评估方法,旨在暴露模型在有害内容生成、偏见和越狱等方面的弱点
核心要点
方法分类:人工红队(专家手工构造攻击提示)vs. 自动红队(用 LLM 自动生成攻击向量)
评估覆盖:有害内容、隐私泄露、偏见歧视、指令注入、越狱攻击
与传统安全测试的区别:关注涌现行为和开放式失败模式,而非预定义的漏洞类别
代表工作
Perez et al. (2022): “Red Teaming Language Models with Language Models”,用 LLM 自动红队
Ganguli et al. (2022, Anthropic): 大规模人工红队评估研究