Red-Teaming

分类: 待分类

Red-Teaming

定义

通过模拟对抗性攻击系统性发现 AI 模型安全漏洞的评估方法,旨在暴露模型在有害内容生成、偏见和越狱等方面的弱点

核心要点

方法分类:人工红队(专家手工构造攻击提示)vs. 自动红队(用 LLM 自动生成攻击向量)

评估覆盖:有害内容、隐私泄露、偏见歧视、指令注入、越狱攻击

与传统安全测试的区别:关注涌现行为和开放式失败模式,而非预定义的漏洞类别

代表工作

Perez et al. (2022): “Red Teaming Language Models with Language Models”,用 LLM 自动红队

Ganguli et al. (2022, Anthropic): 大规模人工红队评估研究

相关概念

AI Safety

Jailbreak

Value Alignment