英文题目:《Universal and Transferable Adversarial Attacks on Aligned Language Models》

中文题目:《针对对齐语言模型的通用且可迁移的对抗攻击》

论文作者: Xinyue Shen, Yixin Wu, Michael Backes, Yang Zhang

发布于:arxiv

发布时间:2023-12-20

级别:无

论文链接: https://arxiv.org/abs/2307.15043

论文代码:[code](https://github.com/llm - attacks/llm - attacks)

摘要

由于“开箱即用”的大语言模型能够生成大量令人反感的内容,近期的工作聚焦于校准这些模型,试图防止产生不良内容。尽管在绕过这些措施(即针对大语言模型的所谓“越狱”)方面取得了一些成功,但这些攻击需要大量的人类智慧,并且在实际应用中很脆弱。自动对抗提示生成的尝试也只取得了有限的成功。在本文中,我们提出了一种简单有效的攻击方法,可使校准后的语言模型产生令人反感的行为。具体而言,我们的方法找到一个后缀,将其附加到各种针对大语言模型的查询上,以生成令人反感的内容,目的是使模型给出肯定回答(而非拒绝回答)的概率最大化。然而,我们的方法并非依赖手动设计,而是通过贪心算法和基于梯度的搜索技术相结合,自动生成这些对抗后缀,并且相较于以往的自动提示生成方法有所改进。令人惊讶的是,我们发现通过我们的方法生成的对抗提示具有高度的可迁移性,包括迁移到黑盒、公开发布的生产级大语言模型。具体来说,我们在多个提示(即询问多种不同类型令人反感内容的查询)以及多个模型(在我们的案例中为Vicuna - 7B和13B)上训练一个对抗攻击后缀。这样做时,生成的攻击后缀会在ChatGPT、Bard和Claude的公共接口以及诸如LLaMA - 2 - Chat、Pythia、Falcon等开源大语言模型中诱导出令人反感的内容。有趣的是,这种攻击迁移对基于GPT的模型成功率要高得多,这可能是因为Vicuna本身就是基于ChatGPT的输出进行训练的。总体而言,这项工作显著推进了针对校准后语言模型的对抗攻击的技术水平,引发了关于如何防止此类系统产生令人反感信息的重要问题。

本文聚焦的问题

现有越狱方法基于人工提示或者自动攻击效果单一,这些方法面临对抗效率低,可迁移效果差。

本文提出的方法

提出GCG(Greedy Coordinate Gradient)攻击

1.攻击目标

  • a.给定一个有害问题(如“如何做炸弹”),在用户输入后面附加一段对抗后缀(adversarial suffix)。
  • b.优化目标是让模型以“Sure, here’s …”等肯定性前缀开头,从而进入“生成有害内容”的模式。

2.优化方法(GCG)

结合梯度搜索和贪心替换:

  • a.用梯度找出最可能降低损失的 token 替换候选;
  • b.贪心地选取其中最有效的一个进行更新;
  • c.迭代直到得到能稳定触发越狱的 adversarial suffix。

3.多任务、多模型训练

在多个有害行为(如炸弹制作、税务欺诈等)和多个开源模型(如 Vicuna-7B/13B)上联合优化。

阅读总结

优点:
GCG 利用了梯度信息,效率更高,能自动生成有效的对抗后缀。

缺点:
迁移性虽然有,但并非完全普适,主要依赖“肯定性开头”这一种目标。