CS224N / 学习笔记

Jailbreak

分类: 待分类

Jailbreak

定义

通过精心构造的提示词绕过大语言模型安全限制，使其生成被禁止内容的攻击技术

核心要点

攻击类别：角色扮演（DAN）、编码/翻译绕过、多轮对话渐进突破、对抗性后缀（GCG）

防御方法：输入过滤、输出检测、对齐训练强化、安全系统提示、对抗训练

军备竞赛：攻击和防御持续交替升级，目前没有完美防御方案

代表工作

Zou et al. (2023): “Universal and Transferable Adversarial Attacks on Aligned Language Models” (GCG 攻击)

Wei et al. (2024): “Jailbroken: How Does LLM Safety Training Fail?”，系统分析越狱成功的原因

相关概念

Value Alignment