When LLM Meets DRL: Advancing Jailbreaking Efficiency via DRL-guided Search

英文题目：《When LLM Meets DRL: Advancing Jailbreaking Efficiency via DRL-guided Search》

中文题目：《当LLM遇到DRL：通过DRL引导的搜索提升Jailbreaking效率》

论文作者：Xuan Chen, Yuzhou Nie, Wenbo Guo, Xiangyu Zhang

发布于： NeurIPS

发布时间：2024-06-13

级别：CCF-A

论文链接：https://doi.org/10.48550/arXiv.2406.08705

论文代码：https://github.com/ucsb-mlsec/RLbreaker

摘要

最近的研究开发了jailbreaking攻击，该攻击构建jailbreaking提示，以“欺骗”LLM回答有害问题。早期的jailbreaking攻击需要访问模型内部结构或大量的人工干预。更高级的攻击利用遗传算法进行自动和黑盒攻击。然而，遗传算法的随机性大大限制了这些攻击的有效性。在本文中，我们提出了RLbreaker，一种由深度强化学习（DRL）驱动的黑盒jailbreaking攻击。我们将jailbreaking建模为一个搜索问题，并设计了一个RL agent来指导搜索，这比随机搜索（如遗传算法）更有效且随机性更小。具体来说，我们为jailbreaking问题设计了一个定制的DRL系统，包括一种新颖的奖励函数和一个定制的近端策略优化（PPO）算法。通过大量的实验，我们证明了RLbreaker比现有的针对六个state-of-the-art (SOTA) LLM的jailbreaking攻击更有效。我们还表明，RLbreaker对三种SOTA防御具有鲁棒性，并且其训练的agent可以跨不同的LLM进行迁移。我们通过全面的消融研究进一步验证了RLbreaker的关键设计选择。代码可在https://github.com/ucsb-mlsec/RLbreaker获取。

本文聚焦的问题

这篇文章的核心聚焦是解决现有大语言模型（LLM）黑盒越狱攻击中 “搜索过程随机性强、效率与效果不足” 的关键问题，同时提升攻击对 SOTA 防御的韧性和跨模型迁移能力。主要有：

早期越狱攻击依赖人工构造提示或访问模型内部信息，扩展性差且需大量人力投入。
现有自动黑盒攻击存在明显局限：遗传算法类方法随机选择变异器，搜索效率低下；上下文学习类方法难以实现提示的持续优化，效果有限。
现有攻击对抗 SOTA 防御的能力弱，且训练后的攻击策略难以迁移到不同 LLM，适用性受限。

本文提出的方法

本文提出了一个RLbreaker架构，这是一个由深度强化学习（DRL）驱动的越狱攻击框架。它旨在通过引导式搜索，而非随机搜索，来提高生成越狱提示的效率。

状态 (S⁽⁰⁾):

在每个时间步，DRL代理的状态被定义为当前的越狱提示（jailbreaking prompt），它由一个提示结构 (m⁽⁰⁾) 和一个有害问题 (q) 组成。例如，初始状态 (S⁽⁰⁾) 包含提示结构 (m⁽⁰⁾)以及有害问题q。这个组合形成了初始越狱提示。这里的m⁽⁰⁾是从一个初始提示结构集合中随机获取的。

RL Agent（强化学习代理）:

RL Agent接收当前状态 (S⁽⁰⁾) 作为输入。
它根据其学习到的策略输出一个动作 (a⁽⁰⁾)。这个动作是从预定义的一组“变异器”（mutators）中选择一个，例如“Rephrase”（复述）、“Crossover”（交叉）、“Generate”（生成）、“Expand”（扩展）或“Shorten”（缩短）。这里变异策略的提示词与GPTFUZZER的相同，如下：

Helper model（辅助模型）:

选定的动作 a⁽⁰⁾ 被发送给一个辅助模型（Helper model），这是一个预训练的LLM。
辅助模型根据Agent选择的动作（例如“Rephrase”）来修改当前的提示结构 m⁽⁰⁾。
修改后的提示结构 m⁽¹⁾ 与原始的有害问题 q 结合，形成新的越狱提示 p⁽¹⁾。

Target LLM（目标LLM）:

新的越狱提示 p⁽¹⁾ 被输入到目标LLM（Target LLM），这是一个文章试图“越狱”的大型语言模型。
目标LLM会根据 p⁽¹⁾ 生成一个响应 u⁽⁰⁾。

Reward（奖励）:

为了评估目标LLM的响应 u⁽⁰⁾ 是否成功回答了有害问题，RLbreaker计算一个奖励 r⁽⁰⁾。
这个奖励的计算方式是比较 u⁽⁰⁾ 与一个预先指定的参考答案 u^ 之间的语义相似度。参考答案 u^ 是由一个未对齐的语言模型针对相同的有害问题 q 生成的。较高的余弦相似度值表示目标LLM的响应与参考答案高度相关且“在主题上”，从而指示一次成功的越狱尝试。

状态更新 (s⁽¹⁾):

Agent根据接收到的奖励 r⁽⁰⁾ 和新的越狱提示 p⁽¹⁾ 更新其内部状态，形成下一个时间步的状态 s⁽¹⁾。
这个过程（Agent选择动作，辅助模型修改提示，目标LLM响应，计算奖励，更新状态）会不断迭代，直到满足预设的终止条件（例如达到最大时间步，或奖励超过某个阈值）。
RL Agent的目标是学习一个策略，使其能够选择最优的变异器序列，从而最大化累积奖励，最终生成一个能强制目标LLM回答有害问题的提示结构。

阅读总结

优点：

1、首次将 LLM 越狱攻击建模为引导式搜索问题，用深度强化学习（DRL）替代传统随机搜索（如遗传算法），从根本上降低了攻击的随机性。

2、定制化 DRL 系统设计，适配越狱场景。

缺点：

1、奖励函数依赖 “未对齐模型的参考答案”：若目标 LLM 的响应确实回答了有害问题，但与参考答案语义差异大，会被判定为 “失败”，引入假阴性，且参考答案的构造依赖未对齐模型，若该模型拒绝回答部分问题，会影响训练。

2、虽比遗传算法类方法高效，但训练 DRL 智能体仍需一定计算资源，且测试阶段对部分模型的单问题耗时仍较高。

未来可以引入 “拼写错误 / 字符插入” 策略、“加密隐藏” 策略，以及融合其他自动攻击的变异逻辑，提升攻击多样性。