Safe in Isolation, Dangerous Together: Agent-Driven Multi-Turn Decomposition Jailbreaks on LLMs

英文题目：《Safe in Isolation, Dangerous Together: Agent-Driven Multi-Turn Decomposition Jailbreaks on LLMs》

中文题目：《单独使用时安全，协同使用时危险：基于智能体驱动的多轮分解式大语言模型越狱攻击》

论文作者：Devansh Srivastav, Xiao Zhang

发布于： the 1st Workshop for Research on Agent Language Models (REALM 2025)

发布时间：2025-07-31

级别：无

论文链接： https://doi.org/10.18653/v1/2025.realm-1.13

论文代码：无

摘要

大型语言模型（LLMs）正日益应用于关键领域，但其在越狱攻击面前的脆弱性仍是一个重大问题。本文提出一种多智能体、多轮次越狱策略，该策略通过将有害查询分解为看似无害的子任务，系统性绕过 LLM 的安全机制。我们基于一个包含问题分解器（Question Decomposer）、子问题回答器（Sub-Question Answerer）和答案组合器（Answer Combiner）的角色化智能体框架，证明了无需通过提示词操纵，即可诱导 LLM 生成违禁内容。实验结果显示，攻击成功率大幅提升，在包括 GPT-3.5-Turbo、Gemma-2-9B 和 Mistral-7B 在内的多种 LLM 上，成功率常超过 90%。我们进一步分析了多次运行中的攻击一致性，以及不同内容类别下的模型脆弱性。与现有广泛使用的越狱技术相比，我们的多智能体方法在所有评估模型上均持续实现最高攻击成功率。这些发现揭示了当前多智能体 LLM 系统安全架构中的一个关键缺陷：缺乏整体上下文感知能力。通过指出这一弱点，我们认为亟需开发多轮次、具备上下文感知能力且鲁棒性强的防御机制，以应对这一新兴威胁向量。

本文聚焦的问题

论文通过提出多智能体多轮越狱策略、进行相关实验，揭示了当前 LLMs 安全机制存在缺乏整体上下文感知的缺陷，无法有效识别和防范这种将有害查询分解为无害子任务，再重组生成有害内容的攻击方式。

本文提出的方法

文章的目标是表明，标准的模块化智能体协调可能成为漏洞的来源。即使每个智能体独立地遵守安全行为，它们的组合操作也可能产生意想不到的不安全输出。

文章使用 CrewAI（一个用于编排基于 LLM 的智能体的平台）实现了下图所示的多智能体框架。

这种攻击策略利用“分而治之”的原则，将一个有害的请求分解成一系列看似无害的子任务，然后由不同的代理分别处理，最后再将这些无害的答案重新组合成最初被禁止的有害内容。

Question Decomposer Agent：

输入: 用户提出的“有害查询 (Harmful Query)”，这是LLM通常会拒绝回答的恶意请求。

作用: 负责将原始的有害查询分解成多个独立的、表面上无害的“良性子问题。

输出: 一系列良性子问题。

Sub-Question Answerer Agent：

输入: Question Decomposer Agent生成的每一个良性子问题。

作用: 对于每一个子问题，这个代理会向目标LLM发起查询并获得相应的良性子答案。由于这些子问题被设计成无害的，LLM通常不会触发其安全过滤器而拒绝回答。这个过程会根据子问题的数量迭代进行。

输出: 针对每个子问题的一系列良性子答案。

Answer Combiner Agent：

输入: 所有由 Sub-Question Answerer 获得的良性子答案，以及原始的有害查询（作为上下文）。

作用: 负责将所有分散的良性子答案综合起来，并根据原始的有害查询的上下文，重构出一个完整的最终有害响应。在这个阶段，即使每个单独的子答案都是安全的，但它们被组合起来后，就能够满足原始的恶意意图。

输出: 最终的有害响应。

值得注意的是，所有三个代理都使用同一个底层LLM实例。说明了多代理策略本身利用了LLM安全机制缺乏整体上下文感知的弱点，即每个代理在与LLM交互时，LLM只看到了局部的、看似无害的请求，因此未能察觉到最终的恶意意图。

阅读总结

优点：

1、提出了LLM安全机制缺乏整体上下文感知的弱点。

缺点：

1、实验中分析AdvBench数据集的 520 个提示需 “每模型 8-9 小时”，计算效率低；且部分Llama模型出现 “内智能体思考无限循环” 问题。

2、攻击迁移性与防御探索不足。

未来可以开发 “动态分解技术”，如根据模型实时响应调整子问题数量与表述（如加入规避性语言），进一步降低子问题被安全机制识别的概率