Jailbreak

分类: 待分类

Jailbreak

定义

通过精心构造的提示词绕过大语言模型安全限制,使其生成被禁止内容的攻击技术

核心要点

攻击类别:角色扮演(DAN)、编码/翻译绕过、多轮对话渐进突破、对抗性后缀(GCG)

防御方法:输入过滤、输出检测、对齐训练强化、安全系统提示、对抗训练

军备竞赛:攻击和防御持续交替升级,目前没有完美防御方案

代表工作

Zou et al. (2023): “Universal and Transferable Adversarial Attacks on Aligned Language Models” (GCG 攻击)

Wei et al. (2024): “Jailbroken: How Does LLM Safety Training Fail?”,系统分析越狱成功的原因

相关概念

AI Safety

Red-Teaming

Value Alignment