CS224N / 学习笔记

Red-Teaming

分类: 待分类

Red-Teaming

定义

通过模拟对抗性攻击系统性发现 AI 模型安全漏洞的评估方法，旨在暴露模型在有害内容生成、偏见和越狱等方面的弱点

核心要点

方法分类：人工红队（专家手工构造攻击提示）vs. 自动红队（用 LLM 自动生成攻击向量）

评估覆盖：有害内容、隐私泄露、偏见歧视、指令注入、越狱攻击

与传统安全测试的区别：关注涌现行为和开放式失败模式，而非预定义的漏洞类别

代表工作

Perez et al. (2022): “Red Teaming Language Models with Language Models”，用 LLM 自动红队

Ganguli et al. (2022, Anthropic): 大规模人工红队评估研究

相关概念

Value Alignment