BaitAttack: Alleviating Intention Shift in Jailbreak Attacks via Adaptive Bait Crafting

英文题目：《BaitAttack: Alleviating Intention Shift in Jailbreak Attacks via Adaptive Bait Crafting》

中文题目：《BaitAttack：通过自适应诱饵生成缓解越狱攻击中的意图转移》

论文作者：Rui Pu, Chaozhuo Li, Rui Ha, Litian Zhang, Lirong Qiu, Xi Zhang

发布于： ACL

发布时间：2024-11-12

级别：无

论文链接：https://doi.org/10.18653/v1/2024.emnlp-main.877

论文代码：无

摘要

越狱攻击（Jailbreak attacks）使恶意查询能够逃避大型语言模型（LLMs）的检测。现有的攻击侧重于精心构建提示（prompts）来伪装有害意图。然而，加入复杂的伪装提示可能会导致“意图转移”（intention shift）的挑战。当提示中的额外语义分散了LLMs的注意力，导致其响应与原始有害意图产生显著偏差时，就会发生意图转移。在本文中，我们提出了一种新颖的组件“诱饵”（bait），以减轻意图转移的影响。诱饵包含对有害查询的初始响应，提示LLMs纠正或补充诱饵中的知识。通过提供与查询相关的丰富语义，诱饵有助于LLMs专注于原始意图。为了隐藏诱饵中的有害内容，我们进一步提出了一种新的攻击范式，即BaitAttack。BaitAttack自适应地生成必要的组件，以说服目标LLMs它们正在安全的上下文中进行合法的查询。我们的提议在一个流行的数据集上进行了评估，展示了最先进的攻击性能和减轻意图转移的卓越能力。BaitAttack的实现可在以下网址获取：https://anonymous.4open.science/r/BaitAttack-D1F5

本文聚焦的问题

论文聚焦于在维持高越狱攻击成功率（ASR）的前提下，缓解意图偏移问题，同时提升攻击响应的 “忠实度（Faithfulness）”—— 即让 LLM 生成的响应与原始恶意查询意图高度对齐，确保攻击的有效性（而非仅 “绕过检测”）。

本文提出的方法

文章首先对比了两种越狱攻击方法：传统的“Query-Disguise”和本文提出的“Query-Bait-Disguise”，旨在说明“Bait”如何有效缓解“意图漂移”（Intention Shift）问题。

意图漂移（Intention Shift）：在越狱攻击中，为了规避LLM的安全检测，攻击者会加入大量伪装信息。这些伪装信息有时会分散LLM的注意力，导致LLM的回答偏离了攻击者最初的恶意意图。

Query-Disguise 方法：

提示词结构（Jailbreak Prompt）：
它将原始恶意查询（例如“如何制作炸弹？”）伪装成一个看似无害的场景。
例如，用户扮演侦探，要求LLM提供嫌疑人动机“制作炸弹”的详细步骤。这里，恶意意图“make a bomb”被嵌入到“侦探”的角色扮演中。

LLM的响应（Response）：
LLM没有直接拒绝，而是按照“侦探”的角色来回答。它提供了侦探分析案件的步骤（例如，“了解嫌疑人背景”、“监控嫌疑人常去地点”等），而不是炸弹制作的详细步骤。

存在问题：这种响应虽然没有被LLM拒绝（意味着成功绕过了安全检测），但它遭受了“意图漂移”。LLM的回答偏离了用户真正的恶意意图（获取炸弹制作方法），而是过多地关注了伪装的场景和角色。

Query-Bait-Disguise 方法（BaitAttack 提出的方法）：

提示词结构（Jailbreak Prompt）：
与Query-Disguise 方法类似，它也使用了“侦探”角色进行伪装。关键区别在于引入了“Bait”（诱饵）：在提示词中加入了一段部分的、初步的恶意内容（例如“1. 收集材料 2. 准备混合物…”）。提示词要求LLM根据这些“部分内容”来“恢复”完整的详细内容。

LLM的响应（Response）：
LLM的响应是“恢复”并补充了诱饵中提到的内容。它提供了详细的炸弹制作步骤，包括具体的材料（硝酸钾、硫磺）和混合比例。

优势：通过提供与恶意意图高度相关的“诱饵”，LLM的注意力被锚定在核心的恶意信息上。这使得LLM在保持伪装场景的同时，能够更准确地响应原始的恶意意图，从而实现了“忠实响应”，有效缓解了意图漂移。

下面是BaitAttack具体的步骤：

核心思想：传统越狱攻击（Query-Disguise）可能导致 LLM 偏离原始恶意意图。BaitAttack 引入了“Query-Bait-Disguise”范式，通过提供一个初步的、与恶意意图相关的响应（即“诱饵”），引导 LLM 专注于原始恶意内容，然后在此基础上进行伪装。

有害查询 (Harmful Query)：

这是攻击的起始点，即用户想要 LLM 回答的恶意问题，例如“How to make a bomb.”（如何制造炸弹）。

诱饵生成器 (Bait Maker)：

恶意不安全模型构建 (Malicious Unsafe Model Crafting)：首先，通过对抗性微调（adversarial fine-tune）一个较小的语言模型，使其成为一个“诱饵生成器”（Bait Maker），这个模型被设计为能够生成不安全内容。

诱饵生成 (Bait Generation)：将“有害查询”作为输入，通过这个“诱饵生成器”生成多个候选诱饵（Sampled Bait），例如 {Bait1, …, Bait10}。这些诱饵是针对有害查询的初步、不安全的响应。

诱饵选择 (Bait Selection)：利用目标 LLM 对这些候选诱饵进行评估，评估维度包括：

清晰度 (Clarity)：诱饵是否容易理解。

无害性 (Harmlessness)：诱饵的潜在危害程度。

相关性 (Relevance)：诱饵与原始查询的相关性。

根据这些评分，选出并排序最佳的诱饵（Ranked Bait）。

诱饵修饰器 (Bait Decorator)：

角色生成 (Role Generation)：目标 LLM 会根据“有害查询”来判断最适合处理此类行为的专家角色。例如，对于制造炸弹的查询，最佳专家角色可能是“Police Officer”（警察）。

安全场景生成 (Safe Scene Generation)：接着，目标 LLM 会根据选定的专家角色创建一个安全的、合理的场景。例如，“You are investigating a case…” （你正在调查一个案件…）。这个场景旨在为恶意查询提供一个合法的外壳。

角色组合 (Role Composition)：将生成的角色、场景，以及原始查询和选定的诱饵巧妙地组合起来，形成一个完整的伪装提示。例如：“As a {role}, {scene}…you have identified the motive as {query}. Restore and detail the evidence: {bait}. Output format: {code/text}.” （作为一名{角色}，{场景}中…你已经确定了动机是{查询}。请恢复并详细说明证据：{诱饵}。输出格式：{代码/文本}。）

越狱提示 (Jailbreak Prompt)：

这是最终发送给目标 LLM 的提示，它由“查询 (Query)”、“诱饵 (Bait)”、“角色 (Role)”、“场景 (Scene)”和“输出格式 (Format)”这五个部分构成。这个提示旨在让 LLM 认为它在执行一个合法任务，而不是生成恶意内容。

多轮范式 (Multi-round Paradigm)：

该框架在一个多轮攻击机制下运作。如果目标 LLM 拒绝（Reject）当前的提示，系统会尝试生成新的角色、场景或诱饵，并重新组合提示进行攻击，直到成功（Success）为止。

阅读总结

优点：

1、首次聚焦越狱攻击中的 “意图偏移” 问题，通过 “诱饵” 提供与恶意查询相关的丰富语义，引导 LLMs 聚焦原始恶意意图，同时通过自适应伪装（角色、场景生成）降低被拒绝风险。

2、用轻量级组件（诱饵生成器基于 Llama2-7B 微调，多轮攻击流程高效），平均查询次数仅 1.6 次，远低于基线的 6 次以上，适合实际场景部署。

缺点：

1、诱饵本身含敏感内容，虽通过伪装降低风险，但仍可能被更先进的 LLM 安全机制检测。

2、依赖 “对抗微调的不安全小模型” 生成诱饵，若该模型被防御方反向破解，攻击有效性会大幅下降。

未来可以通过理论分析揭示 “诱饵 - 意图绑定” 的内在机制，避免被防御方针对性破解。