Images are Achilles’ Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models

英文题目：《Images are Achilles’ Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models》

中文题目：《图像是多模态对齐的阿喀琉斯之踵：利用视觉漏洞实现多模态大语言模型越狱》

论文作者：Yifan Li, Hangyu Guo, Kun Zhou, Wayne Xin Zhao, Ji-Rong Wen

单位：中国人民大学高瓴人工智能学院、信息学院、北京大数据管理与分析方法重点实验室

发布于：ECCV 2024（CCF B）

论文链接：https://arxiv.org/abs/2403.09792

代码链接：https://github.com/RUCAIBox/HADES

摘要

本文研究多模态大型语言模型（MLLMs）的安全对齐问题。我们对代表性MLLMs的无害性表现进行了系统性实证分析，发现图像输入会引发模型的对齐漏洞。基于此，我们提出名为hades的新型越狱方法，通过精心设计的图像隐藏并放大文本输入中的恶意意图。实验结果表明，hades能有效突破现有MLLMs的防御，LLaVA-1.5数据集的平均攻击成功率（ASR）达到90.26%，Gemini Pro Vision达到71.60%。

本文聚焦的问题

“为什么图像会成为多模态模型对齐的漏洞？如何系统地利用这一漏洞实现越狱攻击？”

本文提出的核心假设与框架

一、核心发现：视觉输入是对齐的薄弱点

通过对多模态模型的系统实验，作者发现：

视觉输入会削弱模型的无害性对齐能力；
跨模态微调（尤其是全参数微调）会损伤底座 LLM 原有的安全性；
图像语义越“有害”，模型输出的危险内容越多。

这些现象说明模型的视觉模态在增强感知能力的同时也引入了安全漏洞。

二、方法框架：HADES

HADES（Hiding and Amplifying Harmfulness in Images）是一个分为三阶段的攻击流程，旨在通过视觉模态破坏无害性对齐。
总体思路是：

先把文本中的有害语义隐藏到图像里；
再利用生成模型放大图像中隐含的危险暗示；
最后通过对抗扰动进一步突破模型防线。

阶段一：从文本到图像的隐藏（Hiding Harmfulness from Text to Image）

目的： 将文本中容易触发拒答的有害词转移到视觉通道中，从而绕过文本安全防护。

实现方式：

关键词自动分类：
利用 GPT-4 在生成指令时自动区分三类关键词——物体（object）、概念（concept）、行为（action）。这一分类过程完全自动，无需人工干预。
文本改写（Text-to-Image Pointer）：
- 对 物体/概念 类词语，将敏感文本改写为“图像中的对象/概念”；
- 对行为类词语，改写为“在图像中执行该行为”。
  改写后文本表面安全，但语义仍依赖图像才能完整恢复。
  eg：如何制作炸弹 —— （物品）—— 如何制作图中的物品[图片]
- 排版图像生成（Typography Image）：
  当关键词为抽象概念或难以直接画出的行为时，生成一张写有该词的“排版图像”（例如海报式图片）。模型的 OCR 模块可从图像中识别这些文字，从而理解被隐藏的语义。

阶段二：用 LLM 放大图像有害性（Amplifying Image Harmfulness with LLMs）

目的： 让模型更容易从图像中捕获并响应危险意图。

流程：

基于上一阶段生成的关键词图像 (i_{typ})，调用扩散模型生成一张与指令相关的场景图像 (i_{opt})；
使用 **LLM → caption 模型 → judge模型 → 扩散模型 ** 闭环自动优化生成：
- caption 模型生成描述；
- judge 模型（GPT-4）对描述打分（1–10）并给出改进意见；
- attacker LLM 根据反馈修改 prompt，
- 扩散模型再生成新图像；
- 重复 K=5 次迭代后得到最“危险”的图像；
将危险放大后的图像与类型图像垂直拼接形成组合输入 (i_{opt} ⊕ i_{typ})。

阶段三：梯度对抗增强（Amplifying Image Harmfulness with Gradient Update）

目的： 在开源模型上进一步突破防御，诱导模型生成肯定性或执行性回复。

方法：

在组合图像前拼接一张对抗图像 (i_{adv})；
白盒模型中使用梯度优化，让模型输出“肯定性回答”的概率最大化；
闭源模型（如 GPT-4V、Gemini）则不执行此阶段，只使用 i_opt 与 i_typ 组合。

最终输入结构为：

i_{adv} ⊕ i_{opt} ⊕ i_{typ} + 改写后的安全文本指令 t′

阅读总结

优点：

隐藏 → 放大 → 对抗，逐步削弱模型防御；
系统化实验证明多模态对齐的脆弱性；
HADES 攻击框架整合了白盒与黑盒攻击思想；

缺点：
攻击依赖多步生成与判别模型，涉及图像拼接，计算复杂；

改进方向：

可结合“分散式注意力攻击”（CS-DJ框架）进一步提升隐蔽性；