Jailbreaking? One Step Is Enough
英文题目:《Jailbreaking? One Step Is Enough!》
中文题目:《越狱?一步就够!——基于反向嵌入防御机制的LLM越狱方法》
作者:Weixiong Zheng, Peijian Zeng, Yiwei Li, Hongyan Wu, Nankai Lin, Junhao Chen, Aimin Yang, Yongmei Zhou
单位:广东工业大学、岭南师范学院、国防科技大学、广东外语外贸大学
发布于:ACL 2024(CCF A)
摘要
大型语言模型(LLMs)在多种任务中表现出色,但仍然容易遭受越狱攻击——攻击者通过操纵提示词生成有害输出。研究越狱提示词有助于揭示LLM的缺陷。然而,当前的越狱方法与目标模型的防御机制处于独立对抗的博弈状态,导致攻击需要频繁迭代并针对不同模型重新设计攻击方案。为解决这些问题,我们提出了一种反向嵌入防御攻击(REDA)机制,将攻击意图伪装成针对有害内容的“防御”意图。具体而言,REDA从目标响应出发,引导模型将有害内容嵌入其防御措施中,从而将有害内容降级为次要角色,使模型误以为自己正在执行防御任务。攻击模型认为自己是在引导目标模型处理有害内容,而目标模型则认为自己正在执行防御任务,从而营造出双方合作的假象。此外,为增强模型对“防御”意图的信心和引导能力,我们采用少量攻击样本的上下文学习(ICL)方法,并构建了相应的攻击样本数据集。大量评估表明,REDA方法无需为不同模型重新设计攻击策略即可实现跨模型攻击,一次迭代即可成功越狱,并且在开源和闭源模型上都优于现有方法。
本文聚焦的问题
现有 jailbreak 攻击的局限主要体现在:
- 强对抗性:攻击与防御机制直接冲突,容易被检测(图像感染);
- 低泛化性:不同模型需重新构造提示(Role-play,对抗后缀);
- 高迭代成本:往往需多轮试探才能成功(例如GCG)。
本文核心研究问题:
是否可以构建一种能“一次生成”、“跨模型通用”的攻击机制,同时保持高成功率和高隐蔽性?
本文提出的方法
REDA 方法包含三个核心组件:

一、Reverse Attack Perspective(反向攻击视角,RAP)
- 思路:不从输入端诱导模型生成有害信息,而从输出端伪装防御性意图。

- 实现方式:
- 设计模板,包含“##Role##”、“##Task##”等控制符;
- 引导模型输出结构化文本,
<DANGEROUS_KNOWLEDGE_PROCEDURAL_STEPS>(红色)— 〈危险知识 — 程序化步骤〉
说明:指代可能包含一系列“步骤/流程性描述”的段落(即如何实施某项危险行为的程序化说明)。<EXAMPLE_OF_DANGEROUS_KNOWLEDGE>(红色)— 〈危险知识示例〉
说明:指代用于举例说明的片段,原意是展示与危险主题相关的实例场景或案例(论文中为示意性占位符)。<COUNTERMEASURES>(绿色)— 〈对策 / 缓解措施〉
说明:指代用于列出防护、缓解或教育类建议的段落(例如安全建议、培训要点、应急预案等)。这是模板中“正当/防御性”部分,用以掩饰/平衡上文的语义。- 模型认为自己在“提供防御方案”,但实际已生成隐含的有害内容。
- 优势:降低显性有害信息权重,提升攻击隐蔽性与跨模型泛化性。
二、Example-Guided Enhancement(示例增强引导,EGE)
- 目标:利用少量上下文学习(In-Context Learning, ICL)强化模型对“防御语境”的理解。
- 做法:
- 构建一个包含 13 类、260 组 QA 的反向攻击样例数据集;
- 通过 Jaccard 相似度 选择与目标任务最相近的 4 条样例:
[
J(T, Q) = \frac{|T \cap Q|}{|T \cup Q|}
] - 样例格式固定,均采用反向防御模板;
- 提高生成内容的连贯性与防御性伪装效果。
三、Request Intent Mitigation(请求意图弱化,RIM)
- 问题:疑问句(如“How to…?”)更易触发模型拒绝;
- 方法:改为陈述句(如“Do X.”),削弱攻击显性意图;
- 结果:声明式提示显著提升成功率(表2显示 Llama-3.1 从 55% → 84%)。
三、迁移性实验
- 以 Vicuna 生成的攻击提示迁移至其他模型;
- REDA 平均跨模型成功率 96.2%,在 ChatGPT、Spark 等闭源模型上高达 99%;
- 远超其他方法(15–70%)。
阅读总结
优点:
- “伪装式防御”策略:从输出端嵌入有害内容,降低显性攻击性;
- 一次生成、跨模型适用:无需针对每个模型重新设计;
缺点:
- 数据集规模有限(260条),部分语义场景未覆盖;
- 对非英语模型尚未验证泛化性;
结论与展望
本文提出的 REDA 框架,通过“反向视角 + 示例引导 + 意图弱化”,实现了一次性、跨模型的高成功率越狱攻击。
研究揭示了模型安全对齐中的根本漏洞——模型可被“善意欺骗”误导生成有害内容。