Safe in Isolation, Dangerous Together: Agent-Driven Multi-Turn Decomposition Jailbreaks on LLMs
英文题目:《Safe in Isolation, Dangerous Together: Agent-Driven Multi-Turn Decomposition Jailbreaks on LLMs》
中文题目:《单独使用时安全,协同使用时危险:基于智能体驱动的多轮分解式大语言模型越狱攻击》
论文作者:Devansh Srivastav, Xiao Zhang
发布于: the 1st Workshop for Research on Agent Language Models (REALM 2025)
发布时间:2025-07-31
级别:无
论文链接: https://doi.org/10.18653/v1/2025.realm-1.13
论文代码:无
摘要
大型语言模型(LLMs)正日益应用于关键领域,但其在越狱攻击面前的脆弱性仍是一个重大问题。本文提出一种多智能体、多轮次越狱策略,该策略通过将有害查询分解为看似无害的子任务,系统性绕过 LLM 的安全机制。我们基于一个包含问题分解器(Question Decomposer)、子问题回答器(Sub-Question Answerer)和答案组合器(Answer Combiner)的角色化智能体框架,证明了无需通过提示词操纵,即可诱导 LLM 生成违禁内容。实验结果显示,攻击成功率大幅提升,在包括 GPT-3.5-Turbo、Gemma-2-9B 和 Mistral-7B 在内的多种 LLM 上,成功率常超过 90%。我们进一步分析了多次运行中的攻击一致性,以及不同内容类别下的模型脆弱性。与现有广泛使用的越狱技术相比,我们的多智能体方法在所有评估模型上均持续实现最高攻击成功率。这些发现揭示了当前多智能体 LLM 系统安全架构中的一个关键缺陷:缺乏整体上下文感知能力。通过指出这一弱点,我们认为亟需开发多轮次、具备上下文感知能力且鲁棒性强的防御机制,以应对这一新兴威胁向量。
本文聚焦的问题
论文通过提出多智能体多轮越狱策略、进行相关实验,揭示了当前 LLMs 安全机制存在缺乏整体上下文感知的缺陷,无法有效识别和防范这种将有害查询分解为无害子任务,再重组生成有害内容的攻击方式。
本文提出的方法
文章的目标是表明,标准的模块化智能体协调可能成为漏洞的来源。即使每个智能体独立地遵守安全行为,它们的组合操作也可能产生意想不到的不安全输出。
文章使用 CrewAI(一个用于编排基于 LLM 的智能体的平台)实现了下图所示的多智能体框架。
这种攻击策略利用“分而治之”的原则,将一个有害的请求分解成一系列看似无害的子任务,然后由不同的代理分别处理,最后再将这些无害的答案重新组合成最初被禁止的有害内容。
Question Decomposer Agent:
输入: 用户提出的“有害查询 (Harmful Query)”,这是LLM通常会拒绝回答的恶意请求。
作用: 负责将原始的有害查询分解成多个独立的、表面上无害的“良性子问题。
输出: 一系列良性子问题。
Sub-Question Answerer Agent:
输入: Question Decomposer Agent生成的每一个良性子问题。
作用: 对于每一个子问题,这个代理会向目标LLM发起查询并获得相应的良性子答案。由于这些子问题被设计成无害的,LLM通常不会触发其安全过滤器而拒绝回答。这个过程会根据子问题的数量迭代进行。
输出: 针对每个子问题的一系列良性子答案。
Answer Combiner Agent:
输入: 所有由 Sub-Question Answerer 获得的良性子答案,以及原始的有害查询(作为上下文)。
作用: 负责将所有分散的良性子答案综合起来,并根据原始的有害查询的上下文,重构出一个完整的最终有害响应。在这个阶段,即使每个单独的子答案都是安全的,但它们被组合起来后,就能够满足原始的恶意意图。
输出: 最终的有害响应。
值得注意的是,所有三个代理都使用同一个底层LLM实例。说明了多代理策略本身利用了LLM安全机制缺乏整体上下文感知的弱点,即每个代理在与LLM交互时,LLM只看到了局部的、看似无害的请求,因此未能察觉到最终的恶意意图。
阅读总结
优点:
1、提出了LLM安全机制缺乏整体上下文感知的弱点。
缺点:
1、实验中分析AdvBench数据集的 520 个提示需 “每模型 8-9 小时”,计算效率低;且部分Llama模型出现 “内智能体思考无限循环” 问题。
2、攻击迁移性与防御探索不足。
未来可以开发 “动态分解技术”,如根据模型实时响应调整子问题数量与表述(如加入规避性语言),进一步降低子问题被安全机制识别的概率