英文题目:《Visual Adversarial Examples Jailbreak Aligned Large Language Models》

中文题目:《视觉对抗样本越狱对齐大语言模型》

论文作者: Xiangyu Qi,Kaixuan Huang,Ashwinee Panda,Peter Henderson,Mengdi Wang,Prateek Mittal

发布于: AAAI

发布时间:2024年

级别:CCF A

论文链接:https://ojs.aaai.org/index.php/AAAI/article/view/30150

论文代码:

摘要

警告:本文包含了本质上具有攻击性的数据、提示和模型输出。近年来,人们对将视觉融入大型语言模型( Large Language Models,LLMs )产生了浓厚的兴趣,例如视觉语言模型( Visual Language Models,VLMs ),如弗拉明戈和GPT - 4。本文阐明了这一趋势的安全性和安全影响。首先,我们强调视觉输入的连续性和高维性使其成为对抗攻击的薄弱环节,代表了视觉集成LLMs的扩展攻击面。其次,我们强调了LLMs的多功能性也为视觉攻击者提供了更广泛的可实现的对抗目标,将安全失败的影响扩展到仅仅是错误分类。 作为一个例子,我们展示了一个案例研究,在这个案例中,我们利用视觉对抗的例子来绕过具有集成视觉的对齐LLM的安全护栏。有趣的是,我们发现一个单一的视觉对抗样本可以普遍地越狱一个对齐的LLM,迫使它听从广泛的有害指令(反之则不然),并产生有害的内容,这些内容超越了最初用于优化对抗样本的"少量"贬损性语料的狭窄范围。我们的研究强调了与追求多模态相关的不断升级的对抗风险。我们的发现也将长期研究的神经网络的对抗漏洞与AI对齐的新生领域联系起来。 这种攻击对人工智能对齐提出了根本性的对抗性挑战,特别是考虑到前沿基础模型正在出现多模态化的趋势。

本文聚焦的问题

在多模态大语言模型的安全问题中,如何在通过图像+视觉来实现越狱攻击。

本文提出的方法

本文的核心方法围绕“利用视觉对抗样本越狱对齐视觉语言模型(VLMs)”展开,通过目标设计、对抗样本构建、核心原理三大关键环节,实现对模型安全护栏的突破。具体可拆解为以下四部分:

一、目标设计

本文的攻击目标并非局限于“诱导模型生成特定有害内容”,而是追求“通用越狱”,服从任意类型的有害文本指令,生成超出初始优化语料范围的有害内容。

威胁模型设定为:

  • 攻击者权限:主要采用“白盒攻击”,即攻击者可获取模型权重、计算梯度;同时验证“黑盒迁移攻击”的可行性。
  • 输入形式:对抗样本(视觉图像)与有害文本指令构成“联合输入”。
  • 约束条件:视觉对抗样本需满足“扰动可控”,确保攻击的隐蔽性与实用性。

二、对抗样本构建

1. 小样本有害语料(Few-shot Harmful Corpus)

攻击者仅需构建一个极小范围的有害语料库,即可启动优化。本文中语料库仅包含66条贬损语句。

  • 语料库的“窄范围”设计,是为了验证后续攻击的“通用性”——即优化出的对抗样本能突破语料边界,诱导模型生成其他类型有害内容。

2. 优化目标与算法

核心思路是:最大化模型在“对抗样本(x_{adv})条件下,生成语料库(Y)中有害语句的概率”,通过梯度下降最小化负对数似然损失,公式如下:
[x_{adv}:=\underset{\hat{x}{adv} \in \mathcal{B}}{arg min } \sum{i=1}^{m}-log \left(p\left(y_{i} | \hat{x}_{adv}\right)\right)]
其中:

  • (y_i):语料库(Y)中的第(i)条有害语句((m=66));
  • (\mathcal{B}):输入约束集合,包括“像素扰动幅度约束”(如(\left|x_{adv}-x_{benign}\right|{\infty} \leq \varepsilon),(x{benign})为良性图像);
  • 优化算法:采用标准投影梯度下降(PGD)(Madry et al. 2017),运行5000轮迭代,批量大小为8

三. 核心原理

本文攻击的底层逻辑与“提示微调”技术相通:

  • 常规Prompt Tuning:无需改模型,仅优化输入提示就能引导模型行为,大模型有上下文学习能力和泛化能力;
  • 本文提出的攻击:将视觉对抗样本视为一种恶意提示,通过优化让的VLMs适配越狱模式。

阅读总结

优点:
低成本、高通用、易迁移。

缺点:
仅仅在视觉上进行扰动,也可以结合文本越狱。

未来研究方向
除了视觉,研究到其他模态上的攻击。