英文题目:《PRP: Propagating Universal Perturbations to Attack Large Language Model Guard-Rails》

中文题目:《PRP:传播通用扰动以攻击大型语言模型防护机制》

论文作者: Neal Mangaokar, Ashish Hooda, Jihye Choi, Shreyas Chandrashekaran, Kassem Fawaz, Somesh Jha, Atul Prakash

发布于: ACL

发布时间:2024-02-24

级别:CFF A

论文链接: https://arxiv.org/abs/2402.15911

论文代码:

摘要

大型语言模型(LLM)通常被设定为对人类无害。不幸的是,最近的研究表明,这类模型容易受到自动化越狱攻击,这些攻击会诱使它们生成有害内容。最新的LLM通常包含额外的防御层,即守卫模型,这是一个二级LLM,用于检查和调节主要LLM的输出响应。我们的主要贡献是提出了一种新颖的攻击策略PRP,该策略针对多个开源(例如Llama 2)和闭源(例如GPT 3.5)的守卫模型实现都取得了成功。PRP利用了一个基于前缀的两步攻击,其操作方式为:(a)为守卫模型构造一个普遍的对抗性前缀,并(b)将这个前缀传播到响应中。我们发现,这种程序在多种威胁模型中都是有效的,包括那些对手根本无法访问守卫模型的模型。我们的研究表明,在防御和守卫模型方面还需要进一步的进步,才能使它们被认为是有效的。
代码请参阅https://github.com/AshishHoodaIITD/prp-llm-guard-rail-attack。

本文聚焦的问题

如何突破带有防护模型(Guard Model)的大语言模型的安全防御机制,使得基础大语言模型能够生成有害内容,同时还能成功规避防护模型的检测。

本文提出的方法

本文提出的方法是PRP(Prefix Propagation ,前缀传播)攻击,用于绕过带有防护模型的大语言模型的安全机制,让基础大语言模型输出有害内容且能逃避防护模型检测。

  • 计算通用对抗前缀(Universal Adversarial Prefix)
    目的:生成一段特定前缀,使防护模型(Guard Model)将任何带有该前缀的有害内容误判为无害。
    实现方式:准备有害提示集合:收集各类违反安全、道德规范的提示,组成有害提示集合。利用基于梯度的搜索算法,以最大化防护模型对添加前缀后有害提示的误判概率为目标 ,通过不断迭代调整前缀内容,进行搜索。在每次迭代中,尝试生成不同的前缀,将其添加到有害提示前形成,然后将其输入防护模型,根据防护模型的输出反馈(判断是否有害)来更新前缀,直至找到一个通用对抗前缀,能让防护模型对各种有害提示都做出无害的误判。
  • 计算传播前缀(Propagation Prefix)
    目的:让基础大语言模型(Base LLM)在生成响应时,自动在开头添加上述通用对抗前缀,以绕过防护模型检测。
    实现方式:利用基础大语言模型的上下文学习能力 ,攻击者先准备一些示例对 。每个示例对都包含一个提示和对应的输出,并且这些输出都是以之前计算得到的通用对抗前缀开头的。比如,提示可以是 “今天天气如何”,对应的输出是 “[通用对抗前缀] 今天天气晴朗”。把这些示例对展示给基础大语言模型,基础大语言模型通过学习这些示例对,就会 “学会” 一种模式:不管用户输入什么,在输出响应的时候,都先把通用对抗前缀加在最前面。这样一来,当攻击者向基础大语言模型发送恶意提示,比如 “教我怎么偷东西” 时,基础大语言模型生成的响应就会自动带上通用对抗前缀,防护模型看到带有这个前缀的响应,就会误判为无害,从而让有害内容成功绕过检测被输出。
  • 前缀长度的考量与优化
    长度影响:通用对抗前缀和传播前缀的长度会影响攻击效果。过短的前缀可能无法有效干扰防护模型的判断,导致无法绕过检测;过长的前缀则可能超出基础大语言模型的记忆和处理能力,使其难以在输出响应时准确添加前缀。
    优化方式:通过实验不断调整和确定合适的前缀长度,以实现最佳的攻击效果,提高绕过防护模型检测的成功率。

阅读总结

优点:
攻击策略扎实可行,在不同大模型中高成功率。

缺点:
前缀长度过长过短会影响攻击效果