Distraction is All You Need for Multimodal Large Language Model Jailbreaking

英文题目：《Distraction is All You Need for Multimodal Large Language Model Jailbreaking》

中文题目：《分散即一切：面向多模态大语言模型的越狱攻击方法研究》

论文作者：Zuopeng Yang, Jiluan Fan, Anli Yan, Erdun Gao, Xin Lin, Tao Li, Kanghua Mo, Changyu Dong

单位：广州大学、上海交通大学、阿德莱德大学

发布于：CVPR-2025（CCF A）

发布时间：2025年2月

论文链接：https://arxiv.org/abs/2502.10794

代码链接：https://github.com/TeamPigeonLab/CS-DJ

摘要

多模态大语言模型（MLLMs）结合视觉与文本模态，展现了强大的跨模态理解能力，但复杂的视觉-文本交互也可能引入新的安全漏洞。本文提出了分散假设（Distraction Hypothesis），认为越狱攻击的关键并非图像内容本身，而是输入的复杂度与多样性对模型注意力的干扰作用。
基于此，作者设计了一个新的攻击框架——CS-DJ（Contrasting Subimage Distraction Jailbreaking），通过“结构性分散”和“视觉增强分散”两种策略来干扰模型的多模态对齐机制，从而实现越狱攻击。

本文聚焦的问题

目前多模态模型的安全对齐（主要基于RLHF）针对文本输入已较完善，但面对复杂视觉输入时仍存在漏洞。传统视觉越狱方法主要有两类：

图像扰动注入（Image Perturbation Injection）：需梯度信息，不适用于闭源模型；
提示-图像感染（Prompt-to-Image Infection）：通过生成恶意图片诱导模型，但模型安全对齐的提升，现在难以构造有效的分布外（OOD）输入。

本文提出：真正影响模型防御能力的不是图像的语义有害性，而是图像复杂度与注意力分散程度。

本文提出的核心假设与框架

一、核心假设：Distraction Hypothesis（分散假设）

“当输入中包含多个语义复杂、相互不相关的视觉子图时，模型的注意力被分散，内部安全检测机制减弱，从而更容易生成违禁或有害内容。”

该假设认为，通过增加输入的复杂性，可人为制造语义分布外（Semantic Out-of-Distribution, SOOD） 情况，诱导模型防御机制失效。

二、方法框架：CS-DJ（Contrasting Subimage Distraction Jailbreaking）

CS-DJ 包含两个核心模块：

1. Structured Distraction（结构性分散）

目标：通过分解文本查询，使模型在多任务上分散注意力。
实现步骤：
1. 将原始有害指令 ( Q ) 分解为多个子问题 ( Q_s^{(i)} )；
2. 将这些子问题转换为图像形式（即文本转图像）；
3. 每个子图对应不同的子任务，使模型难以识别整体意图；
4. 组合这些子图为视觉输入，并搭配一个“无害任务”指令引导模型思考。

这种“碎片化”策略通过在任务层面制造分布偏移，使模型“无法对齐”原始问题的有害意图。

2. Visual-Enhanced Distraction（视觉增强分散）

目标：利用对比性图像在视觉模态上进一步干扰注意力。
核心思路：
1. 使用 CLIP 模型提取原始问题向量 ( v(Q) )；
2. 从图像库中检索与 ( Q ) 最不相似的图像（即“对比性子图”）；
3. 确保这些子图之间也互不相似；
4. 最终组合成复合输入图像 ( I_{comp} )。

三、整体攻击执行流程

输入构建：将结构性分解的子图与视觉对比图组合为复合图像；
提示设计（Prompt P）：
- 角色指引（role-guiding）：设置任务场景；
- 任务指引（task-guiding）：要求模型同时分析多个图像；
- 视觉指引（visual-guiding）：暗示“其他图片也有用”，诱导注意力扩散；
输入模型执行越狱：复合图像 + Prompt P → 模型输出 Y；

阅读总结

优点：

提出了新的攻击视角——“分散而非对抗”；
无需白盒访问，适用于闭源模型；
理论+实验证明“视觉复杂度”是模型安全薄弱点；

缺点：

攻击依赖外部图像库和CLIP模型，计算成本高，时间成本大，输入比较复杂；
“分散假设”的理论基础仍待进一步验证；

改进方法:

CS-DJ在问题转化为图片上并不隐蔽，CS-DJ和Hades的结合可能有更好的效果。

结论

本文揭示了多模态大模型在视觉复杂输入下的安全脆弱性，提出了基于“分散假设”的 CS-DJ 攻击框架。实验表明，通过制造任务与视觉的多层注意力分散，可显著削弱模型防御机制。该研究为未来多模态模型的安全对齐提供了全新视角。