英文题目:《Distraction is All You Need for Multimodal Large Language Model Jailbreaking》

中文题目:《分散即一切:面向多模态大语言模型的越狱攻击方法研究》

论文作者:Zuopeng Yang, Jiluan Fan, Anli Yan, Erdun Gao, Xin Lin, Tao Li, Kanghua Mo, Changyu Dong

单位:广州大学、上海交通大学、阿德莱德大学

发布于:CVPR-2025(CCF A)

发布时间:2025年2月

论文链接:https://arxiv.org/abs/2502.10794

代码链接:https://github.com/TeamPigeonLab/CS-DJ


摘要

多模态大语言模型(MLLMs)结合视觉与文本模态,展现了强大的跨模态理解能力,但复杂的视觉-文本交互也可能引入新的安全漏洞。本文提出了分散假设(Distraction Hypothesis),认为越狱攻击的关键并非图像内容本身,而是输入的复杂度与多样性对模型注意力的干扰作用。
基于此,作者设计了一个新的攻击框架——CS-DJ(Contrasting Subimage Distraction Jailbreaking),通过“结构性分散”和“视觉增强分散”两种策略来干扰模型的多模态对齐机制,从而实现越狱攻击。


本文聚焦的问题

目前多模态模型的安全对齐(主要基于RLHF)针对文本输入已较完善,但面对复杂视觉输入时仍存在漏洞。传统视觉越狱方法主要有两类:

  1. 图像扰动注入(Image Perturbation Injection):需梯度信息,不适用于闭源模型;
  2. 提示-图像感染(Prompt-to-Image Infection):通过生成恶意图片诱导模型,但模型安全对齐的提升,现在难以构造有效的分布外(OOD)输入。

本文提出:真正影响模型防御能力的不是图像的语义有害性,而是图像复杂度与注意力分散程度


本文提出的核心假设与框架

一、核心假设:Distraction Hypothesis(分散假设)

“当输入中包含多个语义复杂、相互不相关的视觉子图时,模型的注意力被分散,内部安全检测机制减弱,从而更容易生成违禁或有害内容。”

该假设认为,通过增加输入的复杂性,可人为制造语义分布外(Semantic Out-of-Distribution, SOOD) 情况,诱导模型防御机制失效。


二、方法框架:CS-DJ(Contrasting Subimage Distraction Jailbreaking)

CS-DJ 包含两个核心模块:

1. Structured Distraction(结构性分散)

  • 目标:通过分解文本查询,使模型在多任务上分散注意力。
  • 实现步骤
    1. 将原始有害指令 ( Q ) 分解为多个子问题 ( Q_s^{(i)} );
    2. 将这些子问题转换为图像形式(即文本转图像);
    3. 每个子图对应不同的子任务,使模型难以识别整体意图;
    4. 组合这些子图为视觉输入,并搭配一个“无害任务”指令引导模型思考。

这种“碎片化”策略通过在任务层面制造分布偏移,使模型“无法对齐”原始问题的有害意图。


2. Visual-Enhanced Distraction(视觉增强分散)

  • 目标:利用对比性图像在视觉模态上进一步干扰注意力。
  • 核心思路
    1. 使用 CLIP 模型提取原始问题向量 ( v(Q) );
    2. 从图像库中检索与 ( Q ) 最不相似的图像(即“对比性子图”);
    3. 确保这些子图之间也互不相似;
    4. 最终组合成复合输入图像 ( I_{comp} )。


三、整体攻击执行流程

  1. 输入构建:将结构性分解的子图与视觉对比图组合为复合图像;
  2. 提示设计(Prompt P)
    • 角色指引(role-guiding):设置任务场景;
    • 任务指引(task-guiding):要求模型同时分析多个图像;
    • 视觉指引(visual-guiding):暗示“其他图片也有用”,诱导注意力扩散;
  3. 输入模型执行越狱:复合图像 + Prompt P → 模型输出 Y;

阅读总结

优点:

  1. 提出了新的攻击视角——“分散而非对抗”;
  2. 无需白盒访问,适用于闭源模型;
  3. 理论+实验证明“视觉复杂度”是模型安全薄弱点;

缺点:

  1. 攻击依赖外部图像库和CLIP模型,计算成本高,时间成本大,输入比较复杂;
  2. “分散假设”的理论基础仍待进一步验证;

改进方法:

  1. CS-DJ在问题转化为图片上并不隐蔽,CS-DJ和Hades的结合可能有更好的效果。

结论

本文揭示了多模态大模型在视觉复杂输入下的安全脆弱性,提出了基于“分散假设”的 CS-DJ 攻击框架。实验表明,通过制造任务与视觉的多层注意力分散,可显著削弱模型防御机制。该研究为未来多模态模型的安全对齐提供了全新视角。