MASTERKEY: Automated Jailbreaking of Large Language Model Chatbots
英文题目:《MASTERKEY: Automated Jailbreaking of Large Language Model Chatbots》 中文题目:《通过注意力转移对大型语言模型进行多轮越狱攻击》 论文作者:Gelei Deng, Yi Liu, Yuekang Li, Kailong Wang, Ying Zhang, Zefeng Li, Haoyu Wang, Tianwei Zhang, Yang Liu 发布于: NDSS 发布时间:2023-07-16 级别:CCF-A 论文链接:https://doi.org/10.48550/arXiv.2307.08715 论文代码:无 摘要 大型语言模型(LLMs)由于其卓越的理解、生成和完成类人文本的能力而迅速普及,LLM 聊天机器人也因此成为非常受欢迎的应用。这些聊天机器人容易受到越狱攻击,即恶意用户操纵提示词,以违反使用策略的方式泄露敏感、专有或有害信息。虽然已经进行了一系列的越狱尝试来揭示这些漏洞,但本文中的实证研究表明,现有方法在主流 LLM 聊天机器人上效果不佳。其效力降低的根本原因似乎是服务提供商为应...
SELFDEFEND: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner
英文题目:《SELFDEFEND: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner》 中文题目:《SELFDEFEND:LLM 以一种实用的方式防御越狱攻击》 论文作者:Xunguang Wang, Daoyuan Wu, Zhenlan Ji, Zongjie Li, Pingchuan Ma, Shuai Wang, Yingjiu Li, Yang Liu, Ning Liu, Juergen Rahmel 发布于: USENIX 发布时间:2024-06-08 级别:CCF-A 论文链接: https://doi.org/10.48550/arXiv.2406.05498 论文代码:null 摘要 Jailbreaking(越狱)是一种新兴的对抗性攻击,它绕过了现成的 (off-the-shelf) 大型语言模型 (LLM) 中部署的安全对齐机制,并且已经演变为多种类别:基于人的、基于优化的、基于生成的,以及最近的间接和多语言越狱。然而,提供一种实用的越狱防御方法是具有挑战性的,...
Rethinking Image Forgery Detection via Soft Contrastive Learning and Unsupervised Clustering
英文题目:《Rethinking Image Forgery Detection via Soft Contrastive Learning and Unsupervised Clustering》 中文题目:《通过软对比学习和无监督聚类重新思考图像伪造检测》 论文作者:Haiwei Wu; Yiming Chen; Jiantao Zhou; Yuanman Li 发布于: IEEE Transactions on Dependable and Secure Computing 发布时间:2025-06-25 级别:CCF-A 论文链接:10.1109/TDSC.2025.3583167 论文代码:https://github.com/HighwayWu/FOCAL 摘要 图像伪造检测的目标是识别并定位图像中的伪造区域。现有的大多数伪造检测算法通过分类问题来区分伪造像素和原始像素。然而,伪造像素与原始像素的定义仅在单个图像内部相对,例如,图像A中的伪造区域在其原始图像B中可能是原始的(拼接伪造)。这种相对定义被现有方法严重忽视,导致不同图像中的伪造(或原始)区域被不必要地归为...
Jailbreaking Black Box Large Language Models in Twenty Queries
英文题目:《Jailbreaking Black Box Large Language Models in Twenty Queries》 中文题目:《在二十次查询中破解黑盒大型语言模型》 论文作者: Patrick Chao, Alexander Robey, Edgar Dobriban, Hamed Hassani, George J. Pappas, Eric Wong 发布于: arxiv 发布时间:2023-10-12 级别:无 论文链接: https://doi.org/10.48550/arXiv.2310.08419 论文代码:https://github.com/patrickrchao/JailbreakingLLMs 摘要 人们越来越关注确保大型语言模型(LLMs)与人类价值观保持一致。然而,此类模型的一致性很容易受到对抗性jailbreak的攻击,这些攻击会诱使LLM覆盖其安全防护措施。因此,识别这些漏洞有助于理解固有的弱点并防止未来的滥用。为此,我们提出了一种提示自动迭代改进(Prompt Automatic Iterative Refinement...
RAIDX: A Retrieval-Augmented Generation and GRPO Reinforcement Learning Framework for Explainable Deepfake Detection
英文题目:《RAIDX: A Retrieval-Augmented Generation and GRPO Reinforcement Learning Framework for Explainable Deepfake Detection》
中文题目:《RAIDX:一种用于可解释深度伪造检测的检索增强生成和GRPO强化学习框架》
论文作者: Tianxiao Li, Zhenglin Huang, Haiquan Wen, Yiwei He, Shuchang Lyu, Baoyuan Wu, Guangliang Cheng
发布于:MM ’25: Proceedings of the 33rd ACM International Conference on Multimedia
发布时间:2025-05-20
级别:CCF-A
论文链接:https://doi.org/10.1145/3746027.3754798
论文代码:暂无
摘要
人工智能生成模型的快速发展使得超逼真图像的创建成为可能,但也因此引发了广泛的虚假信息传播,带来了伦理风险。目前,...
Let Images Speak More: An Efficient Method for Detecting Image Manipulation History
英文题目:《Let Images Speak More: An Efficient Method for Detecting Image Manipulation History》 中文题目:《让图像更能“开口说话”:高效检测图像篡改历史的方法》 论文作者:Yang Wei; Haowei Liu; Xiaochen Yuan; Xiuli Bi; Bin Xiao 发布于:TCSVT 发布时间:2025-05-20 级别:CCF-B 论文链接:10.1109/TCSVT.2025.3571767 论文代码:https://github.com/CherishL-J/Op-detection 摘要 数字图像取证旨在验证数字图像的真实性,已成为一 个重要的研究领域。为了揭示图像的篡改历史,现有方法只能检测特定的图像操作,或者基于高维度的通用取证特征。此外,这些方法只有在操作链长度不超过2时表现良好。然而,对于操作链更长、更能代表现实场景的图像,它们的检测精度会显著下降。 为了打破这些局限性,我们提出了一种基于直方图和细节图的取证频率特征(FHDM(79D)),它可以区分包含不同...
Jailbreaking? One Step Is Enough
英文题目:《Jailbreaking? One Step Is Enough!》 中文题目:《越狱?一步就够!——基于反向嵌入防御机制的LLM越狱方法》 作者:Weixiong Zheng, Peijian Zeng, Yiwei Li, Hongyan Wu, Nankai Lin, Junhao Chen, Aimin Yang, Yongmei Zhou 单位:广东工业大学、岭南师范学院、国防科技大学、广东外语外贸大学 发布于:ACL 2024(CCF A) 论文链接:https://arxiv.org/abs/2412.12621 摘要 大型语言模型(LLMs)在多种任务中表现出色,但仍然容易遭受越狱攻击——攻击者通过操纵提示词生成有害输出。研究越狱提示词有助于揭示LLM的缺陷。然而,当前的越狱方法与目标模型的防御机制处于独立对抗的博弈状态,导致攻击需要频繁迭代并针对不同模型重新设计攻击方案。为解决这些问题,我们提出了一种反向嵌入防御攻击(REDA)机制,将攻击意图伪装成针对有害内容的“防御”意图。具体而言,REDA从目标响应出发,引导模型将有害内容嵌入其防御措施中,...
Multi-Turn Jailbreaking Large Language Models via Attention Shifting
英文题目:《Multi-Turn Jailbreaking Large Language Models via Attention Shifting》 中文题目:《通过注意力转移对大型语言模型进行多轮越狱攻击》 论文作者:Xiaohu Du, Fan Mo, Ming Wen, Tu Gu, Huadi Zheng, Hai Jin, Jie Shi 发布于: AAAI-25 发布时间:2025-04-11 级别:CCF-A 论文链接:https://doi.org/10.1609/aaai.v39i22.34553 论文代码:无 摘要 大型语言模型(LLM)在各种自然语言处理任务中取得了显着的性能,但也带来了安全和道德威胁,因此需要红队和对齐过程来加强它们的安全性。为了有效利用这些对齐的LLM,最近的研究引入了基于多轮对话的越狱攻击。这些攻击旨在通过上下文内容引导LLM生成有害或有偏见的内容。然而,多轮越狱有效性的根本原因仍然不清楚。现有的攻击通常侧重于优化查询和升级毒性以构建对话,缺乏对LLM固有漏洞的彻底分析。在本文中,我们首先对单轮越狱和多轮越狱之间的差异进行了深入分析...
Images are Achilles’ Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models
英文题目:《Images are Achilles’ Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models》 中文题目:《图像是多模态对齐的阿喀琉斯之踵:利用视觉漏洞实现多模态大语言模型越狱》 论文作者:Yifan Li, Hangyu Guo, Kun Zhou, Wayne Xin Zhao, Ji-Rong Wen 单位:中国人民大学高瓴人工智能学院、信息学院、北京大数据管理与分析方法重点实验室 发布于:ECCV 2024(CCF B) 论文链接:https://arxiv.org/abs/2403.09792 代码链接:https://github.com/RUCAIBox/HADES 摘要 本文研究多模态大型语言模型(MLLMs)的安全对齐问题。我们对代表性MLLMs的无害性表现进行了系统性实证分析,发现图像输入会引发模型的对齐漏洞。基于此,我们提出名为hades的新型越狱方法,通过精心设计的图像隐藏并放大文本输入中的...
Distraction is All You Need for Multimodal Large Language Model Jailbreaking
英文题目:《Distraction is All You Need for Multimodal Large Language Model Jailbreaking》 中文题目:《分散即一切:面向多模态大语言模型的越狱攻击方法研究》 论文作者:Zuopeng Yang, Jiluan Fan, Anli Yan, Erdun Gao, Xin Lin, Tao Li, Kanghua Mo, Changyu Dong 单位:广州大学、上海交通大学、阿德莱德大学 发布于:CVPR-2025(CCF A) 发布时间:2025年2月 论文链接:https://arxiv.org/abs/2502.10794 代码链接:https://github.com/TeamPigeonLab/CS-DJ 摘要 多模态大语言模型(MLLMs)结合视觉与文本模态,展现了强大的跨模态理解能力,但复杂的视觉-文本交互也可能引入新的安全漏洞。本文提出了分散假设(Distraction Hypothesis),认为越狱攻击的关键并非图像内容本身,而是输入的复杂度与多样性对模型注意力的干扰作用。 基于此...