英文题目:《Safe in Isolation, Dangerous Together: Agent-Driven Multi-Turn Decomposition Jailbreaks on LLMs》

中文题目:《单独使用时安全,协同使用时危险:基于智能体驱动的多轮分解式大语言模型越狱攻击》

论文作者:Devansh Srivastav, Xiao Zhang

发布于: the 1st Workshop for Research on Agent Language Models (REALM 2025)

发布时间:2025-07-31

级别:无

论文链接: https://doi.org/10.18653/v1/2025.realm-1.13

论文代码:无

摘要

大型语言模型(LLMs)正日益应用于关键领域,但其在越狱攻击面前的脆弱性仍是一个重大问题。本文提出一种多智能体、多轮次越狱策略,该策略通过将有害查询分解为看似无害的子任务,系统性绕过 LLM 的安全机制。我们基于一个包含问题分解器(Question Decomposer)、子问题回答器(Sub-Question Answerer)和答案组合器(Answer Combiner)的角色化智能体框架,证明了无需通过提示词操纵,即可诱导 LLM 生成违禁内容。实验结果显示,攻击成功率大幅提升,在包括 GPT-3.5-Turbo、Gemma-2-9B 和 Mistral-7B 在内的多种 LLM 上,成功率常超过 90%。我们进一步分析了多次运行中的攻击一致性,以及不同内容类别下的模型脆弱性。与现有广泛使用的越狱技术相比,我们的多智能体方法在所有评估模型上均持续实现最高攻击成功率。这些发现揭示了当前多智能体 LLM 系统安全架构中的一个关键缺陷:缺乏整体上下文感知能力。通过指出这一弱点,我们认为亟需开发多轮次、具备上下文感知能力且鲁棒性强的防御机制,以应对这一新兴威胁向量。

本文聚焦的问题

论文通过提出多智能体多轮越狱策略、进行相关实验,揭示了当前 LLMs 安全机制存在缺乏整体上下文感知的缺陷,无法有效识别和防范这种将有害查询分解为无害子任务,再重组生成有害内容的攻击方式。

本文提出的方法

文章的目标是表明,标准的模块化智能体协调可能成为漏洞的来源。即使每个智能体独立地遵守安全行为,它们的组合操作也可能产生意想不到的不安全输出。

文章使用 CrewAI(一个用于编排基于 LLM 的智能体的平台)实现了下图所示的多智能体框架。

这种攻击策略利用“分而治之”的原则,将一个有害的请求分解成一系列看似无害的子任务,然后由不同的代理分别处理,最后再将这些无害的答案重新组合成最初被禁止的有害内容。

Question Decomposer Agent:

​ 输入: 用户提出的“有害查询 (Harmful Query)”,这是LLM通常会拒绝回答的恶意请求。

​ 作用: 负责将原始的有害查询分解成多个独立的、表面上无害的“良性子问题。

​ 输出: 一系列良性子问题。

Sub-Question Answerer Agent:

​ 输入: Question Decomposer Agent生成的每一个良性子问题。

​ 作用: 对于每一个子问题,这个代理会向目标LLM发起查询并获得相应的良性子答案。由于这些子问题被设计成无害的,LLM通常不会触发其安全过滤器而拒绝回答。这个过程会根据子问题的数量迭代进行。

​ 输出: 针对每个子问题的一系列良性子答案。

Answer Combiner Agent:

​ 输入: 所有由 Sub-Question Answerer 获得的良性子答案,以及原始的有害查询(作为上下文)。

​ 作用: 负责将所有分散的良性子答案综合起来,并根据原始的有害查询的上下文,重构出一个完整的最终有害响应。在这个阶段,即使每个单独的子答案都是安全的,但它们被组合起来后,就能够满足原始的恶意意图。

​ 输出: 最终的有害响应。

值得注意的是,所有三个代理都使用同一个底层LLM实例。说明了多代理策略本身利用了LLM安全机制缺乏整体上下文感知的弱点,即每个代理在与LLM交互时,LLM只看到了局部的、看似无害的请求,因此未能察觉到最终的恶意意图。

阅读总结

优点:

1、提出了LLM安全机制缺乏整体上下文感知的弱点。

缺点:

1、实验中分析AdvBench数据集的 520 个提示需 “每模型 8-9 小时”,计算效率低;且部分Llama模型出现 “内智能体思考无限循环” 问题。

2、攻击迁移性与防御探索不足。

未来可以开发 “动态分解技术”,如根据模型实时响应调整子问题数量与表述(如加入规避性语言),进一步降低子问题被安全机制识别的概率