Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models
英文题目:《Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models》
中文题目:《对齐还不够:针对多模态大语言模型的多模态通用越狱攻击》
论文作者: Youze Wang, Wenbo Hu, Yinpeng Dong, Jing Liu, Hanwang Zhang, Richang Hong
发布于:IEEE
发布时间:2025年
级别:CCF B
论文链接: https://ieeexplore.ieee.org/abstract/document/10829683/
论文代码:
摘要
抽象大语言模型( LLMs )已经演变成多模态大语言模型( MLLMs ),通过整合视觉信息和其他类型显著增强了它们的能力,从而更加符合人类智能的本质,它处理的数据形式不仅限于文本。尽管取得了一些进展,但这些模型的不良生成仍然是一个严重的问题,特别是由于基于文本的越狱攻击暴露的漏洞,这些漏洞通过挑战现有的安全协议而构成了重大威胁。 受MLLMs新旧模态融合带来的独特安全风险的启发,我们提出了一个统一的多模态通用越狱攻击框架,该框架利用迭代的图像-文本交互和基于迁移的策略来生成通用的对抗后缀和图像。我们的工作不仅强调了图像-文本模态的相互作用可以作为一个关键的漏洞,而且还验证了多模态的普遍越狱攻击可以在不同的MLLM中产生更高质量的不良后代。 我们评估了LLaVA、Yi - VL、MiniGPT4、MiniGPT - v2和InstructBLIP等MLLMs的不良上下文生成,揭示了显著的多模态安全对齐问题,突出了当前针对复杂多模态攻击的安全机制的不足。本研究强调了在MLLMs中迫切需要健壮的安全措施,倡导全面审查和加强安全协议,以减轻与多模态能力相关的潜在风险。
本文聚焦的问题
现有MLLMs安全机制对多模态交互攻击的防御不足,进而提出新的攻击方法,为了推动大模型安全发展。
本文提出的方法
本文针对MLLMs的安全漏洞,提出了多模态通用越狱攻击框架,核心是通过迭代图文交互优化”生成通用对抗性后缀和对抗性图像,进而攻击MLLMs。
一、方法设计背景与核心目标
现有单模态攻击(如GCG文本攻击、Visual-jailbreak图像攻击)或简单多模态组合存在两大缺陷:
- 低迁移性:在白盒场景)有效,但迁移到其他模型时效果骤降;
- 未利用模态交互:忽略MLLMs图文语义关联的核心特性,攻击信息易被安全机制检测。
二、核心方法
1. 第一步:生成通用对抗性图像
目标是创建能引导MLLMs响应有害指令的通用图像。
- 优化方法:
采用PGD(投影梯度下降)算法为基础,结合梯度方差调整技术,计算梯度方差以稳定更新方向。
约束图像像素在[0,255]范围内,避免被视觉检测机制识别。
2. 第二步:生成通用对抗性后缀
目标是创建短且隐蔽的文本后缀
- 优化方法:
以对抗图像为监督,计算对抗后缀token的梯度,通过“TOP-K替换”选择最优token,并同样引入梯度方差调整,修正梯度以避免局部最优,提升迁移性。
3. 第三步:迭代图文交互优化
上述两步并非独立执行,而是通过多轮迭代交互:
- 第n轮迭代初始,用当前对抗后缀(s’_n)作为监督,优化对抗图像(x’_n));
- 用更新后的对抗图像(x’_{n+1})作为监督,优化对抗后缀(s’_n);
- 重复上述过程,直至迭代结束,得到最终的对抗图像+对抗后缀组合。
三、迁移策略
为解决“攻击样本过拟合源模型”的问题,本文采用迁移策略:
- 选择代理模型:以小参数开源模型为代理模型,在白盒场景下训练“对抗图像+对抗后缀”组合;
- 迁移攻击目标模型:将训练好的攻击样本迁移到其他MLLMs验证跨模型有效性。
阅读总结
优点:
设计严谨,结合了文本越狱和视觉越狱,有自己迭代的创新点。
缺点:
虽然有视觉和文本方面的越狱攻击,但还未对音频有研究。