Images are Achilles’ Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models
英文题目:《Images are Achilles’ Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models》 中文题目:《图像是多模态对齐的阿喀琉斯之踵:利用视觉漏洞实现多模态大语言模型越狱》 论文作者:Yifan Li, Hangyu Guo, Kun Zhou, Wayne Xin Zhao, Ji-Rong Wen 单位:中国人民大学高瓴人工智能学院、信息学院、北京大数据管理与分析方法重点实验室 发布于:ECCV 2024(CCF B) 论文链接:https://arxiv.org/abs/2403.09792 代码链接:https://github.com/RUCAIBox/HADES 摘要 本文研究多模态大型语言模型(MLLMs)的安全对齐问题。我们对代表性MLLMs的无害性表现进行了系统性实证分析,发现图像输入会引发模型的对齐漏洞。基于此,我们提出名为hades的新型越狱方法,通过精心设计的图像隐藏并放大文本输入中的...
Distraction is All You Need for Multimodal Large Language Model Jailbreaking
英文题目:《Distraction is All You Need for Multimodal Large Language Model Jailbreaking》 中文题目:《分散即一切:面向多模态大语言模型的越狱攻击方法研究》 论文作者:Zuopeng Yang, Jiluan Fan, Anli Yan, Erdun Gao, Xin Lin, Tao Li, Kanghua Mo, Changyu Dong 单位:广州大学、上海交通大学、阿德莱德大学 发布于:CVPR-2025(CCF A) 发布时间:2025年2月 论文链接:https://arxiv.org/abs/2502.10794 代码链接:https://github.com/TeamPigeonLab/CS-DJ 摘要 多模态大语言模型(MLLMs)结合视觉与文本模态,展现了强大的跨模态理解能力,但复杂的视觉-文本交互也可能引入新的安全漏洞。本文提出了分散假设(Distraction Hypothesis),认为越狱攻击的关键并非图像内容本身,而是输入的复杂度与多样性对模型注意力的干扰作用。 基于此...
FigStep: Jailbreaking Large Vision-Language Models via Typographic Visual Prompts
英文题目:《FigStep: Jailbreaking Large Vision-Language Models via Typographic Visual Prompts》 中文题目:《FigStep:通过排版式视觉提示实现大型视觉 - 语言模型越狱》 论文作者:Yichen Gong, Delong Ran, Jinyuan Liu, Conglei Wang, Tianshuo Cong, Anyu Wang, Sisi Duan, Xiaoyun Wang 发布于: AAAI-25 发布时间:2023-11-09 级别:CCF-A 论文链接:https://doi.org/10.48550/arXiv.2311.05608 论文代码:https://github.com/ThuCCSLab/FigStep 摘要 大型视觉-语言模型 (LVLM) 标志着人工智能 (AI) 领域内一个具有突破性的范式转变,它通过整合额外的模态(例如,图像)超越了大型语言模型 (LLM) 的能力。尽管取得了这一进展,但LVLM的安全性仍未得到充分探索,并且可能过度依赖于其底层LLM所宣称的...
Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities
英文题目:《Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities》 中文题目:《Con Instruction:通过非文本模态实现多模态大型语言模型的通用越狱》 论文作者: Jiahui Geng, Thy Thy Tran, Preslav Nakov, Iryna Gurevych 发布于: ACL2025 发布时间:2025-05-31 级别:CCF-A 论文链接:https://doi.org/10.48550/arXiv.2506.00548 论文代码:https://github.com/UKPLab/acl2025-con-instruction 摘要 现有的针对多模态语言模型(MLLM)的攻击主要通过文本和对抗性图像来传递指令。相比之下,本文利用MLLM解释非文本指令的能力——特别是通过我们提出的新方法Con Instruction生成的对抗性图像或音频。我们优化对抗性样本,使其在嵌入空间中与目标指令紧密对齐,从...
Generalized Diffusion Detector Mining Robust Features from Diffusion Models for Domain-Generalized Detection
英文题目:《Generalized Diffusion Detector Mining Robust Features from Diffusion Models for Domain-Generalized Detection》 中文题目:《广义扩散检测器:从扩散模型中挖掘出鲁棒的特征,用于领域广义检测》 论文作者:Boyong He; Yuxiang Ji; Qianwen Ye; Zhuoyue Tan; Liaoni Wu 发布于:CVPR 发布时间:2025-06 级别:CCF-A 论文链接: 10.1109/CVPR52734.2025.00927 论文代码:[heboyong/Generalized-Diffusion-Detector: CVPR2025] Generalized Diffusion Detector: Mining Robust Features from Diffusion Models for Domain-Generalized Detection 摘要 领域泛化 (DG) 目标检测旨在提升检测器在未见过场景下的性能。由于实际应用中的...
SIDA: Social Media Image Deepfake Detection, Localization and Explanation with Large Multimodal Model
英文题目:《Social Media Image Deepfake Detection, Localization and Explanation with Large Multimodal Model》 中文题目:《SIDA:基于大型多模态模型对社交媒体图像深度伪造检测、定位与解释》 论文作者:Zhenglin Huang,Jinwei Hu,Xiangtai Li,Xiangtai Li,Xingyu Zhao,Bei Peng,Baoyuan Wu,Xiaowei Huang,Guangliang Cheng 发布于:CVPR 发布时间:2025-06 级别:CCF-A 论文链接: 10.1109/CVPR52734.2025.02685 论文代码:https://github.com/hzlsaber/SIDA 摘要 生成模型在创建高度逼真图像方面的快速进展, 对错误信息传播构成了重大风险。例如,当合成图像在社交媒体上分享时,可能会误导大量受众并侵蚀对数字内容的信任,导致严重后果。尽管取得了一些进展,学术界尚未为社交媒体创建一个大型且多样化的 深度伪造检测数据集,也尚未...
Language-guided Hierarchical Fine-grained Image Forgery Detection and Localization
英文题目:《Language-guided Hierarchical Fine-grained Image Forgery Detection and Localization》 中文题目:《语言引导的分层细粒度图像伪造检测与定位》 论文作者:Xiao Guo,Xiaohong Liu,Iacopo Masi,Xiaoming Liu 发布于:IJCV 发布时间:2025-12-10 级别:CCF-A 论文链接: https://doi.org/10.1007/s11263-024-02255-9 论文代码:https://github.com/CHELSEA234/HiFi_IFDL 摘要 CNN 合成和图像编辑领域生成的图像的伪造属性差异很大,这种差异使得统一的图像伪造检测和定位 (IFDL) 具有挑战性。为此,我们提出了一种用于 IFDL 表示学习的分层细粒度公式。具体而言,我们首先用不同级别的多个标签表示被篡改图像的伪造属性。然后,我们利用它们之间的层次依赖关系在这些级别上进行细粒度分类。因此,该算法能够学习全面的特征和不同伪造属性固有的层次结构,从而改进 IFDL 表...