FigStep: Jailbreaking Large Vision-Language Models via Typographic Visual Prompts
英文题目:《FigStep: Jailbreaking Large Vision-Language Models via Typographic Visual Prompts》 中文题目:《FigStep:通过排版式视觉提示实现大型视觉 - 语言模型越狱》 论文作者:Yichen Gong, Delong Ran, Jinyuan Liu, Conglei Wang, Tianshuo Cong, Anyu Wang, Sisi Duan, Xiaoyun Wang 发布于: AAAI-25 发布时间:2023-11-09 级别:CCF-A 论文链接:https://doi.org/10.48550/arXiv.2311.05608 论文代码:https://github.com/ThuCCSLab/FigStep 摘要 大型视觉-语言模型 (LVLM) 标志着人工智能 (AI) 领域内一个具有突破性的范式转变,它通过整合额外的模态(例如,图像)超越了大型语言模型 (LLM) 的能力。尽管取得了这一进展,但LVLM的安全性仍未得到充分探索,并且可能过度依赖于其底层LLM所宣称的...
Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities
英文题目:《Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities》 中文题目:《Con Instruction:通过非文本模态实现多模态大型语言模型的通用越狱》 论文作者: Jiahui Geng, Thy Thy Tran, Preslav Nakov, Iryna Gurevych 发布于: ACL2025 发布时间:2025-05-31 级别:CCF-A 论文链接:https://doi.org/10.48550/arXiv.2506.00548 论文代码:https://github.com/UKPLab/acl2025-con-instruction 摘要 现有的针对多模态语言模型(MLLM)的攻击主要通过文本和对抗性图像来传递指令。相比之下,本文利用MLLM解释非文本指令的能力——特别是通过我们提出的新方法Con Instruction生成的对抗性图像或音频。我们优化对抗性样本,使其在嵌入空间中与目标指令紧密对齐,从...
Generalized Diffusion Detector Mining Robust Features from Diffusion Models for Domain-Generalized Detection
英文题目:《Generalized Diffusion Detector Mining Robust Features from Diffusion Models for Domain-Generalized Detection》 中文题目:《广义扩散检测器:从扩散模型中挖掘出鲁棒的特征,用于领域广义检测》 论文作者:Boyong He; Yuxiang Ji; Qianwen Ye; Zhuoyue Tan; Liaoni Wu 发布于:CVPR 发布时间:2025-06 级别:CCF-A 论文链接: 10.1109/CVPR52734.2025.00927 论文代码:[heboyong/Generalized-Diffusion-Detector: CVPR2025] Generalized Diffusion Detector: Mining Robust Features from Diffusion Models for Domain-Generalized Detection 摘要 领域泛化 (DG) 目标检测旨在提升检测器在未见过场景下的性能。由于实际应用中的...
SIDA: Social Media Image Deepfake Detection, Localization and Explanation with Large Multimodal Model
英文题目:《Social Media Image Deepfake Detection, Localization and Explanation with Large Multimodal Model》 中文题目:《SIDA:基于大型多模态模型对社交媒体图像深度伪造检测、定位与解释》 论文作者:Zhenglin Huang,Jinwei Hu,Xiangtai Li,Xiangtai Li,Xingyu Zhao,Bei Peng,Baoyuan Wu,Xiaowei Huang,Guangliang Cheng 发布于:CVPR 发布时间:2025-06 级别:CCF-A 论文链接: 10.1109/CVPR52734.2025.02685 论文代码:https://github.com/hzlsaber/SIDA 摘要 生成模型在创建高度逼真图像方面的快速进展, 对错误信息传播构成了重大风险。例如,当合成图像在社交媒体上分享时,可能会误导大量受众并侵蚀对数字内容的信任,导致严重后果。尽管取得了一些进展,学术界尚未为社交媒体创建一个大型且多样化的 深度伪造检测数据集,也尚未...
Language-guided Hierarchical Fine-grained Image Forgery Detection and Localization
英文题目:《Language-guided Hierarchical Fine-grained Image Forgery Detection and Localization》 中文题目:《语言引导的分层细粒度图像伪造检测与定位》 论文作者:Xiao Guo,Xiaohong Liu,Iacopo Masi,Xiaoming Liu 发布于:IJCV 发布时间:2025-12-10 级别:CCF-A 论文链接: https://doi.org/10.1007/s11263-024-02255-9 论文代码:https://github.com/CHELSEA234/HiFi_IFDL 摘要 CNN 合成和图像编辑领域生成的图像的伪造属性差异很大,这种差异使得统一的图像伪造检测和定位 (IFDL) 具有挑战性。为此,我们提出了一种用于 IFDL 表示学习的分层细粒度公式。具体而言,我们首先用不同级别的多个标签表示被篡改图像的伪造属性。然后,我们利用它们之间的层次依赖关系在这些级别上进行细粒度分类。因此,该算法能够学习全面的特征和不同伪造属性固有的层次结构,从而改进 IFDL 表...
’Adaptive Perturbation for Adversarial Attack'
英文题目:《Adaptive Perturbation for Adversarial Attack》 论文作者:YuanZheng,ZhangJie,JiangZhaoyan,LiLiangliang,ShanShiguang 发布于:IEEE Transactions on Pattern Analysis and Machine Intelligence 发布时间:2024/8 级别:CCF A 论文链接:10.1109/TPAMI.2024.3367773 摘要 In recent years, the security of deep learning models achieves more and more attentions with the rapid development of neural networks, which are vulnerable to adversarial examples.Almost all existing gradient-based attack methods use the sign function in the ...
Jailbroken: How Does LLM Safety Training Fail?
英文题目:《Jailbroken: How Does LLM Safety Training Fail?》 中文题目:《Jailbroken:LLM安全训练是如何失败的?》 论文作者:Alexander Wei, Nika Haghtalab, Jacob Steinhardt 发布于: NIPS 发布时间:2023-07-05 级别:无 论文链接:https://doi.org/10.48550/arXiv.2307.02483 论文代码:无 摘要 大型语言模型(LLM)在安全性和无害性方面进行了训练,但仍然容易受到对抗性滥用,早期版本的ChatGPT中普遍存在的“越狱”(jailbreak)攻击就证明了这一点,这些攻击会引发不良行为。除了认识到这个问题之外,我们还调查了为什么这些攻击会成功以及如何创建它们。我们假设安全训练的两种失败模式:竞争性目标和不匹配的泛化。当模型的能力和安全目标发生冲突时,就会出现竞争性目标;而不匹配的泛化则发生在安全训练未能泛化到存在能力的领域时。我们利用这些失败模式来指导越狱设计,然后针对现有和新设计的攻击评估最先进的模型,包括OpenAI的GP...