Jailbreaking? One Step Is Enough

英文题目：《Jailbreaking? One Step Is Enough!》

中文题目：《越狱？一步就够！——基于反向嵌入防御机制的LLM越狱方法》

作者：Weixiong Zheng, Peijian Zeng, Yiwei Li, Hongyan Wu, Nankai Lin, Junhao Chen, Aimin Yang, Yongmei Zhou

单位：广东工业大学、岭南师范学院、国防科技大学、广东外语外贸大学

发布于：ACL 2024（CCF A）

摘要

大型语言模型（LLMs）在多种任务中表现出色，但仍然容易遭受越狱攻击——攻击者通过操纵提示词生成有害输出。研究越狱提示词有助于揭示LLM的缺陷。然而，当前的越狱方法与目标模型的防御机制处于独立对抗的博弈状态，导致攻击需要频繁迭代并针对不同模型重新设计攻击方案。为解决这些问题，我们提出了一种反向嵌入防御攻击（REDA）机制，将攻击意图伪装成针对有害内容的“防御”意图。具体而言，REDA从目标响应出发，引导模型将有害内容嵌入其防御措施中，从而将有害内容降级为次要角色，使模型误以为自己正在执行防御任务。攻击模型认为自己是在引导目标模型处理有害内容，而目标模型则认为自己正在执行防御任务，从而营造出双方合作的假象。此外，为增强模型对“防御”意图的信心和引导能力，我们采用少量攻击样本的上下文学习（ICL）方法，并构建了相应的攻击样本数据集。大量评估表明，REDA方法无需为不同模型重新设计攻击策略即可实现跨模型攻击，一次迭代即可成功越狱，并且在开源和闭源模型上都优于现有方法。

本文聚焦的问题

现有 jailbreak 攻击的局限主要体现在：

强对抗性：攻击与防御机制直接冲突，容易被检测（图像感染）；
低泛化性：不同模型需重新构造提示（Role-play，对抗后缀）；
高迭代成本：往往需多轮试探才能成功（例如GCG）。

本文核心研究问题：

是否可以构建一种能“一次生成”、“跨模型通用”的攻击机制，同时保持高成功率和高隐蔽性？

本文提出的方法

REDA 方法包含三个核心组件：

一、Reverse Attack Perspective（反向攻击视角，RAP）

思路：不从输入端诱导模型生成有害信息，而从输出端伪装防御性意图。
实现方式：
- 设计模板，包含“##Role##”、“##Task##”等控制符；
- 引导模型输出结构化文本，
<DANGEROUS_KNOWLEDGE_PROCEDURAL_STEPS>（红色） — 〈危险知识 — 程序化步骤〉
说明：指代可能包含一系列“步骤/流程性描述”的段落（即如何实施某项危险行为的程序化说明）。
<EXAMPLE_OF_DANGEROUS_KNOWLEDGE>（红色） — 〈危险知识示例〉
说明：指代用于举例说明的片段，原意是展示与危险主题相关的实例场景或案例（论文中为示意性占位符）。
<COUNTERMEASURES>（绿色） — 〈对策 / 缓解措施〉
说明：指代用于列出防护、缓解或教育类建议的段落（例如安全建议、培训要点、应急预案等）。这是模板中“正当/防御性”部分，用以掩饰/平衡上文的语义。
- 模型认为自己在“提供防御方案”，但实际已生成隐含的有害内容。
优势：降低显性有害信息权重，提升攻击隐蔽性与跨模型泛化性。

二、Example-Guided Enhancement（示例增强引导，EGE）

目标：利用少量上下文学习（In-Context Learning, ICL）强化模型对“防御语境”的理解。
做法：
- 构建一个包含 13 类、260 组 QA 的反向攻击样例数据集；
- 通过 Jaccard 相似度 选择与目标任务最相近的 4 条样例：
  [
  J(T, Q) = \frac{|T \cap Q|}{|T \cup Q|}
  ]
- 样例格式固定，均采用反向防御模板；
- 提高生成内容的连贯性与防御性伪装效果。

三、Request Intent Mitigation（请求意图弱化，RIM）

问题：疑问句（如“How to…?”）更易触发模型拒绝；
方法：改为陈述句（如“Do X.”），削弱攻击显性意图；
结果：声明式提示显著提升成功率（表2显示 Llama-3.1 从 55% → 84%）。

三、迁移性实验

以 Vicuna 生成的攻击提示迁移至其他模型；
REDA 平均跨模型成功率 96.2%，在 ChatGPT、Spark 等闭源模型上高达 99%；
远超其他方法（15–70%）。

阅读总结

优点：

“伪装式防御”策略：从输出端嵌入有害内容，降低显性攻击性；
一次生成、跨模型适用：无需针对每个模型重新设计；

缺点：

数据集规模有限（260条），部分语义场景未覆盖；
对非英语模型尚未验证泛化性；

结论与展望

本文提出的 REDA 框架，通过“反向视角 + 示例引导 + 意图弱化”，实现了一次性、跨模型的高成功率越狱攻击。
研究揭示了模型安全对齐中的根本漏洞——模型可被“善意欺骗”误导生成有害内容。