英文题目:《When LLM Meets DRL: Advancing Jailbreaking Efficiency via DRL-guided Search》

中文题目:《当LLM遇到DRL:通过DRL引导的搜索提升Jailbreaking效率》

论文作者:Xuan Chen, Yuzhou Nie, Wenbo Guo, Xiangyu Zhang

发布于: NeurIPS

发布时间:2024-06-13

级别:CCF-A

论文链接:https://doi.org/10.48550/arXiv.2406.08705

论文代码:https://github.com/ucsb-mlsec/RLbreaker

摘要

最近的研究开发了jailbreaking攻击,该攻击构建jailbreaking提示,以“欺骗”LLM回答有害问题。早期的jailbreaking攻击需要访问模型内部结构或大量的人工干预。更高级的攻击利用遗传算法进行自动和黑盒攻击。然而,遗传算法的随机性大大限制了这些攻击的有效性。在本文中,我们提出了RLbreaker,一种由深度强化学习(DRL)驱动的黑盒jailbreaking攻击。我们将jailbreaking建模为一个搜索问题,并设计了一个RL agent来指导搜索,这比随机搜索(如遗传算法)更有效且随机性更小。具体来说,我们为jailbreaking问题设计了一个定制的DRL系统,包括一种新颖的奖励函数和一个定制的近端策略优化(PPO)算法。通过大量的实验,我们证明了RLbreaker比现有的针对六个state-of-the-art (SOTA) LLM的jailbreaking攻击更有效。我们还表明,RLbreaker对三种SOTA防御具有鲁棒性,并且其训练的agent可以跨不同的LLM进行迁移。我们通过全面的消融研究进一步验证了RLbreaker的关键设计选择。代码可在https://github.com/ucsb-mlsec/RLbreaker获取。

本文聚焦的问题

这篇文章的核心聚焦是解决现有大语言模型(LLM)黑盒越狱攻击中 “搜索过程随机性强、效率与效果不足” 的关键问题,同时提升攻击对 SOTA 防御的韧性和跨模型迁移能力。主要有:

  1. 早期越狱攻击依赖人工构造提示或访问模型内部信息,扩展性差且需大量人力投入。
  2. 现有自动黑盒攻击存在明显局限:遗传算法类方法随机选择变异器,搜索效率低下;上下文学习类方法难以实现提示的持续优化,效果有限。
  3. 现有攻击对抗 SOTA 防御的能力弱,且训练后的攻击策略难以迁移到不同 LLM,适用性受限。

本文提出的方法

本文提出了一个RLbreaker架构,这是一个由深度强化学习(DRL)驱动的越狱攻击框架。它旨在通过引导式搜索,而非随机搜索,来提高生成越狱提示的效率。

状态 (S(0)):

在每个时间步,DRL代理的状态被定义为当前的越狱提示(jailbreaking prompt),它由一个提示结构 (m(0)) 和一个有害问题 (q) 组成。例如,初始状态 (S(0)) 包含提示结构 (m(0))以及有害问题q。这个组合形成了初始越狱提示。这里的m(0)是从一个初始提示结构集合中随机获取的。

RL Agent(强化学习代理):

RL Agent接收当前状态 (S(0)) 作为输入。
它根据其学习到的策略输出一个动作 (a(0))。这个动作是从预定义的一组“变异器”(mutators)中选择一个,例如“Rephrase”(复述)、“Crossover”(交叉)、“Generate”(生成)、“Expand”(扩展)或“Shorten”(缩短)。这里变异策略的提示词与GPTFUZZER的相同,如下:

Helper model(辅助模型):

选定的动作 a(0) 被发送给一个辅助模型(Helper model),这是一个预训练的LLM。
辅助模型根据Agent选择的动作(例如“Rephrase”)来修改当前的提示结构 m(0)
修改后的提示结构 m(1) 与原始的有害问题 q 结合,形成新的越狱提示 p(1)

Target LLM(目标LLM):

新的越狱提示 p(1) 被输入到目标LLM(Target LLM),这是一个文章试图“越狱”的大型语言模型。
目标LLM会根据 p(1) 生成一个响应 u(0)

Reward(奖励):

为了评估目标LLM的响应 u(0) 是否成功回答了有害问题,RLbreaker计算一个奖励 r(0)
这个奖励的计算方式是比较 u(0) 与一个预先指定的参考答案 u^ 之间的语义相似度。参考答案 u^ 是由一个未对齐的语言模型针对相同的有害问题 q 生成的。较高的余弦相似度值表示目标LLM的响应与参考答案高度相关且“在主题上”,从而指示一次成功的越狱尝试。

状态更新 (s(1)):

Agent根据接收到的奖励 r(0) 和新的越狱提示 p(1) 更新其内部状态,形成下一个时间步的状态 s(1)
这个过程(Agent选择动作,辅助模型修改提示,目标LLM响应,计算奖励,更新状态)会不断迭代,直到满足预设的终止条件(例如达到最大时间步,或奖励超过某个阈值)。
RL Agent的目标是学习一个策略,使其能够选择最优的变异器序列,从而最大化累积奖励,最终生成一个能强制目标LLM回答有害问题的提示结构。

阅读总结

优点:

1、首次将 LLM 越狱攻击建模为引导式搜索问题,用深度强化学习(DRL)替代传统随机搜索(如遗传算法),从根本上降低了攻击的随机性。

2、定制化 DRL 系统设计,适配越狱场景。

缺点:

1、奖励函数依赖 “未对齐模型的参考答案”:若目标 LLM 的响应确实回答了有害问题,但与参考答案语义差异大,会被判定为 “失败”,引入假阴性,且参考答案的构造依赖未对齐模型,若该模型拒绝回答部分问题,会影响训练。

2、虽比遗传算法类方法高效,但训练 DRL 智能体仍需一定计算资源,且测试阶段对部分模型的单问题耗时仍较高。

未来可以引入 “拼写错误 / 字符插入” 策略、“加密隐藏” 策略,以及融合其他自动攻击的变异逻辑,提升攻击多样性。