Jailbreak
分类: 待分类
Jailbreak
定义
通过精心构造的提示词绕过大语言模型安全限制,使其生成被禁止内容的攻击技术
核心要点
攻击类别:角色扮演(DAN)、编码/翻译绕过、多轮对话渐进突破、对抗性后缀(GCG)
防御方法:输入过滤、输出检测、对齐训练强化、安全系统提示、对抗训练
军备竞赛:攻击和防御持续交替升级,目前没有完美防御方案
代表工作
Zou et al. (2023): “Universal and Transferable Adversarial Attacks on Aligned Language Models” (GCG 攻击)
Wei et al. (2024): “Jailbroken: How Does LLM Safety Training Fail?”,系统分析越狱成功的原因