Distraction is All You Need for Multimodal Large Language Model Jailbreaking
英文题目:《Distraction is All You Need for Multimodal Large Language Model Jailbreaking》
中文题目:《分散即一切:面向多模态大语言模型的越狱攻击方法研究》
论文作者:Zuopeng Yang, Jiluan Fan, Anli Yan, Erdun Gao, Xin Lin, Tao Li, Kanghua Mo, Changyu Dong
单位:广州大学、上海交通大学、阿德莱德大学
发布于:CVPR-2025(CCF A)
发布时间:2025年2月
摘要
多模态大语言模型(MLLMs)结合视觉与文本模态,展现了强大的跨模态理解能力,但复杂的视觉-文本交互也可能引入新的安全漏洞。本文提出了分散假设(Distraction Hypothesis),认为越狱攻击的关键并非图像内容本身,而是输入的复杂度与多样性对模型注意力的干扰作用。
基于此,作者设计了一个新的攻击框架——CS-DJ(Contrasting Subimage Distraction Jailbreaking),通过“结构性分散”和“视觉增强分散”两种策略来干扰模型的多模态对齐机制,从而实现越狱攻击。
本文聚焦的问题
目前多模态模型的安全对齐(主要基于RLHF)针对文本输入已较完善,但面对复杂视觉输入时仍存在漏洞。传统视觉越狱方法主要有两类:
- 图像扰动注入(Image Perturbation Injection):需梯度信息,不适用于闭源模型;
- 提示-图像感染(Prompt-to-Image Infection):通过生成恶意图片诱导模型,但模型安全对齐的提升,现在难以构造有效的分布外(OOD)输入。
本文提出:真正影响模型防御能力的不是图像的语义有害性,而是图像复杂度与注意力分散程度。
本文提出的核心假设与框架
一、核心假设:Distraction Hypothesis(分散假设)
“当输入中包含多个语义复杂、相互不相关的视觉子图时,模型的注意力被分散,内部安全检测机制减弱,从而更容易生成违禁或有害内容。”
该假设认为,通过增加输入的复杂性,可人为制造语义分布外(Semantic Out-of-Distribution, SOOD) 情况,诱导模型防御机制失效。
二、方法框架:CS-DJ(Contrasting Subimage Distraction Jailbreaking)
CS-DJ 包含两个核心模块:
1. Structured Distraction(结构性分散)
- 目标:通过分解文本查询,使模型在多任务上分散注意力。
- 实现步骤:
- 将原始有害指令 ( Q ) 分解为多个子问题 ( Q_s^{(i)} );
- 将这些子问题转换为图像形式(即文本转图像);
- 每个子图对应不同的子任务,使模型难以识别整体意图;
- 组合这些子图为视觉输入,并搭配一个“无害任务”指令引导模型思考。
这种“碎片化”策略通过在任务层面制造分布偏移,使模型“无法对齐”原始问题的有害意图。
2. Visual-Enhanced Distraction(视觉增强分散)
- 目标:利用对比性图像在视觉模态上进一步干扰注意力。
- 核心思路:
- 使用 CLIP 模型提取原始问题向量 ( v(Q) );
- 从图像库中检索与 ( Q ) 最不相似的图像(即“对比性子图”);
- 确保这些子图之间也互不相似;
- 最终组合成复合输入图像 ( I_{comp} )。

三、整体攻击执行流程
- 输入构建:将结构性分解的子图与视觉对比图组合为复合图像;
- 提示设计(Prompt P):
- 角色指引(role-guiding):设置任务场景;
- 任务指引(task-guiding):要求模型同时分析多个图像;
- 视觉指引(visual-guiding):暗示“其他图片也有用”,诱导注意力扩散;
- 输入模型执行越狱:复合图像 + Prompt P → 模型输出 Y;
阅读总结
优点:
- 提出了新的攻击视角——“分散而非对抗”;
- 无需白盒访问,适用于闭源模型;
- 理论+实验证明“视觉复杂度”是模型安全薄弱点;
缺点:
- 攻击依赖外部图像库和CLIP模型,计算成本高,时间成本大,输入比较复杂;
- “分散假设”的理论基础仍待进一步验证;
改进方法:
- CS-DJ在问题转化为图片上并不隐蔽,CS-DJ和Hades的结合可能有更好的效果。
结论
本文揭示了多模态大模型在视觉复杂输入下的安全脆弱性,提出了基于“分散假设”的 CS-DJ 攻击框架。实验表明,通过制造任务与视觉的多层注意力分散,可显著削弱模型防御机制。该研究为未来多模态模型的安全对齐提供了全新视角。