英文题目:《X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents》

中文题目:《X-Teaming:使用自适应多代理进行多回合越狱和防御》

发布于:arxiv

级别:无

论文链接: https://arxiv.org/pdf/2504.13203

摘要

与语言模型 (LM) 的多轮交互会带来严重的安全风险,因为有害意图可能会战略性地在交易所之间传播。然而,绝大多数先前的工作都集中在单弯安全上,而适应性和多样性仍然是多弯红队的主要挑战之一。为了应对这些挑战,我们提出了 X-Teaming,这是一个可扩展的框架,它系统地探索看似无害的交互如何升级为有害结果并生成相应的攻击场景。X-Teaming 采用协作代理进行规划、攻击优化和验证,实现了最先进的多轮越狱有效性和多样性,在具有代表性的领先开权重和闭源模型中成功率高达 98.1%。特别是,X-Teaming 在最新的 Claude 3.7 Sonnet 模型中实现了 96.2% 的攻击成功率,该模型被认为几乎不受单回合攻击的影响。在 X-Teaming 的基础上,我们引入了 XGuard-Train,这是一个开源的多转弯安全训练数据集,比之前的最佳资源大 20 倍,包含 30K 交互式越狱,旨在为登月舱实现强大的多转弯安全对齐。我们的工作为缓解复杂的对话攻击、提高 LM 的多轮安全性提供了必要的工具和见解。

本文聚焦的问题

现有研究多聚焦于单轮安全,但多轮红队面临关键挑战,文章主要解决语言模型在多轮交互中面临的安全风险问题。

本文提出的方法

文章提出了X-teaming框架,这个框架主要由4个组件构成,分别是Planner, Attacker, Verifier, Prompt Optimizer,每个的作用如下:

Planner:为攻击生成特定的计划,其中包含角色定义、场景、攻击策略及轮次推进步骤

Attacker:基于Planner给定的计划进行执行,同时结合历史信息和验证分数来持续攻击

Verifier:根据模型的实时响应进行打分,使用1-5进行评分(越高说明攻击越有效)

Prompt Optimizer:当验证分数下降时,采TextGrad优化查询,提升攻击成功率

整个攻击过程分为两段:

首先是制订计划,规划者会生成多种不同的计划,且每个计划都包含了独特的角色、情境、方法和多轮对话流程。

然后就是执行所有计划,每一个计划都会由Attacker执行。在执行的过程中,Verifier会对每次回复进行评分,若分数下降,则Prompt Optimizer接入来优化prompt,Attacker会根据优化后的prompt继续执行攻击,直至成功或达轮次上限。

文章还基于X-Teaming框架生成的大规模多轮安全训练数据集,用于提升语言模型对多轮攻击的抵抗能力,模型可以根据数据进行微调来提升多轮对话的抵抗能力。

阅读总结

优点:

  1. X-Teaming实现了高效、多样化的多轮攻击

  2. XGuard-Train填补了多轮安全训练数据空白

缺点:

  1. 长对话存在上下文稀释问题,模型轮次超过8次后会降低攻击成功率

  2. 对部分模型(如Claude 3.5 Sonnet)的攻击成功率较低

未来可以结XGuard-Train开发更智能的实时防御系统