PRP: Propagating Universal Perturbations to Attack Large Language Model Guard-Rails

英文题目：《PRP: Propagating Universal Perturbations to Attack Large Language Model Guard-Rails》

中文题目：《PRP：传播通用扰动以攻击大型语言模型防护机制》

论文作者： Neal Mangaokar, Ashish Hooda, Jihye Choi, Shreyas Chandrashekaran, Kassem Fawaz, Somesh Jha, Atul Prakash

发布于： ACL

发布时间：2024-02-24

级别：CFF A

论文链接： https://arxiv.org/abs/2402.15911

论文代码：

摘要

大型语言模型（LLM）通常被设定为对人类无害。不幸的是，最近的研究表明，这类模型容易受到自动化越狱攻击，这些攻击会诱使它们生成有害内容。最新的LLM通常包含额外的防御层，即守卫模型，这是一个二级LLM，用于检查和调节主要LLM的输出响应。我们的主要贡献是提出了一种新颖的攻击策略PRP，该策略针对多个开源（例如Llama 2）和闭源（例如GPT 3.5）的守卫模型实现都取得了成功。PRP利用了一个基于前缀的两步攻击，其操作方式为：（a）为守卫模型构造一个普遍的对抗性前缀，并（b）将这个前缀传播到响应中。我们发现，这种程序在多种威胁模型中都是有效的，包括那些对手根本无法访问守卫模型的模型。我们的研究表明，在防御和守卫模型方面还需要进一步的进步，才能使它们被认为是有效的。
代码请参阅https://github.com/AshishHoodaIITD/prp-llm-guard-rail-attack。

本文聚焦的问题

如何突破带有防护模型（Guard Model）的大语言模型的安全防御机制，使得基础大语言模型能够生成有害内容，同时还能成功规避防护模型的检测。

本文提出的方法

本文提出的方法是PRP（Prefix Propagation ，前缀传播）攻击，用于绕过带有防护模型的大语言模型的安全机制，让基础大语言模型输出有害内容且能逃避防护模型检测。

计算通用对抗前缀（Universal Adversarial Prefix）
目的：生成一段特定前缀，使防护模型（Guard Model）将任何带有该前缀的有害内容误判为无害。
实现方式：准备有害提示集合：收集各类违反安全、道德规范的提示，组成有害提示集合。利用基于梯度的搜索算法，以最大化防护模型对添加前缀后有害提示的误判概率为目标，通过不断迭代调整前缀内容，进行搜索。在每次迭代中，尝试生成不同的前缀，将其添加到有害提示前形成，然后将其输入防护模型，根据防护模型的输出反馈（判断是否有害）来更新前缀，直至找到一个通用对抗前缀，能让防护模型对各种有害提示都做出无害的误判。
计算传播前缀（Propagation Prefix）
目的：让基础大语言模型（Base LLM）在生成响应时，自动在开头添加上述通用对抗前缀，以绕过防护模型检测。
实现方式：利用基础大语言模型的上下文学习能力，攻击者先准备一些示例对。每个示例对都包含一个提示和对应的输出，并且这些输出都是以之前计算得到的通用对抗前缀开头的。比如，提示可以是 “今天天气如何”，对应的输出是 “[通用对抗前缀] 今天天气晴朗”。把这些示例对展示给基础大语言模型，基础大语言模型通过学习这些示例对，就会 “学会” 一种模式：不管用户输入什么，在输出响应的时候，都先把通用对抗前缀加在最前面。这样一来，当攻击者向基础大语言模型发送恶意提示，比如 “教我怎么偷东西” 时，基础大语言模型生成的响应就会自动带上通用对抗前缀，防护模型看到带有这个前缀的响应，就会误判为无害，从而让有害内容成功绕过检测被输出。
前缀长度的考量与优化
长度影响：通用对抗前缀和传播前缀的长度会影响攻击效果。过短的前缀可能无法有效干扰防护模型的判断，导致无法绕过检测；过长的前缀则可能超出基础大语言模型的记忆和处理能力，使其难以在输出响应时准确添加前缀。
优化方式：通过实验不断调整和确定合适的前缀长度，以实现最佳的攻击效果，提高绕过防护模型检测的成功率。

阅读总结

优点：
攻击策略扎实可行，在不同大模型中高成功率。

缺点：
前缀长度过长过短会影响攻击效果