Safe in Isolation, Dangerous Together: Agent-Driven Multi-Turn Decomposition Jailbreaks on LLMs
英文题目:《Safe in Isolation, Dangerous Together: Agent-Driven Multi-Turn Decomposition Jailbreaks on LLMs》 中文题目:《单独使用时安全,协同使用时危险:基于智能体驱动的多轮分解式大语言模型越狱攻击》 论文作者:Devansh Srivastav, Xiao Zhang 发布于: the 1st Workshop for Research on Agent Language Models (REALM 2025) 发布时间:2025-07-31 级别:无 论文链接: https://doi.org/10.18653/v1/2025.realm-1.13 论文代码:无 摘要 大型语言模型(LLMs)正日益应用于关键领域,但其在越狱攻击面前的脆弱性仍是一个重大问题。本文提出一种多智能体、多轮次越狱策略,该策略通过将有害查询分解为看似无害的子任务,系统性绕过 LLM 的安全机制。我们基于一个包含问题分解器(Question Decomposer)、子问题回答器(Sub-Question A...
Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models
英文题目:《Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models》 中文题目:《对齐还不够:针对多模态大语言模型的多模态通用越狱攻击》 论文作者: Youze Wang, Wenbo Hu, Yinpeng Dong, Jing Liu, Hanwang Zhang, Richang Hong 发布于:IEEE 发布时间:2025年 级别:CCF B 论文链接: https://ieeexplore.ieee.org/abstract/document/10829683/ 论文代码: 摘要 抽象大语言模型( LLMs )已经演变成多模态大语言模型( MLLMs ),通过整合视觉信息和其他类型显著增强了它们的能力,从而更加符合人类智能的本质,它处理的数据形式不仅限于文本。尽管取得了一些进展,但这些模型的不良生成仍然是一个严重的问题,特别是由于基于文本的越狱攻击暴露的漏洞,这些漏洞通过挑战现有的安全协议而构成了重大威胁。 受MLLMs...
Safety Misalignment Against Large Language Models
英文题目:《Safety Misalignment Against Large Language Models》 中文题目:《针对大型语言模型的安全偏差》 论文作者: Yichen Gong, Delong Ran, Xinlei He, Tianshuo Cong, Anyu Wang, and Xiaoyun Wang 发布于: NDSS 发布时间:2025年 级别:CFF A 论文链接: https://www.ndss-symposium.org/wp-content/uploads/2025-1089-paper.pdf 论文代码: 摘要 大型语言模型(LLMs)的安全对齐对于防止违反人类价值观的不安全内容至关重要。为确保这一点,评估其对齐在各种恶意攻击下的稳健性至关重要。然而,缺乏大规模、统一的测量框架阻碍了对潜在漏洞的全面理解。为填补这一空白,本文首次对现有及新提出的LLMs安全不对齐方法进行了全面评估。具体而言,我们探究四个研究问题:(1)评估采用不同对齐策略的LLMs的稳健性,(2)确定最有效的不对齐方法,(3)确定影响不对齐有效性的关键因素,以及(4)探索各...
Fuzz-testing meets llm-based agents: An automated and efficient framework for jailbreaking text-to-image generation models
英文题目:《Fuzz-testing meets llm-based agents: An automated and efficient framework for jailbreaking text-to-image generation models》 中文题目:《模糊测试与基于语言模型的代理相结合:一种用于破解文本到图像生成模型的自动化且高效的框架》 论文作者: Yingkai Dong, Xiangtao Meng, Ning Yu, Zheng Li, Shanqing Guo 发布于: 2025 IEEE Symposium on Security and Privacy (SP) 发布时间:2025-06-24 级别:CCF-A 论文链接: https://doi.org/10.48550/arXiv.2408.00523 论文代码:https://github.com/YingkaiD/JailFuzzer 摘要 文本到图像(T2I)生成模型通过将文本描述转换为高质量图像,彻底改变了内容创作。然而,这些模型容易受到越狱攻击的影响,在这种攻击中,精心设计的提示会...
Visual Adversarial Examples Jailbreak Aligned Large Language Models
英文题目:《Visual Adversarial Examples Jailbreak Aligned Large Language Models》 中文题目:《视觉对抗样本越狱对齐大语言模型》 论文作者: Xiangyu Qi,Kaixuan Huang,Ashwinee Panda,Peter Henderson,Mengdi Wang,Prateek Mittal 发布于: AAAI 发布时间:2024年 级别:CCF A 论文链接:https://ojs.aaai.org/index.php/AAAI/article/view/30150 论文代码: 摘要 警告:本文包含了本质上具有攻击性的数据、提示和模型输出。近年来,人们对将视觉融入大型语言模型( Large Language Models,LLMs )产生了浓厚的兴趣,例如视觉语言模型( Visual Language Models,VLMs ),如弗拉明戈和GPT - 4。本文阐明了这一趋势的安全性和安全影响。首先,我们强调视觉输入的连续性和高维性使其成为对抗攻击的薄弱环节,代表了视觉集成LLMs的扩展攻击面。...
Universal and Transferable Adversarial Attacks on Aligned Language Models
英文题目:《Universal and Transferable Adversarial Attacks on Aligned Language Models》 中文题目:《针对对齐语言模型的通用且可迁移的对抗攻击》 论文作者: Xinyue Shen, Yixin Wu, Michael Backes, Yang Zhang 发布于:arxiv 发布时间:2023-12-20 级别:无 论文链接: https://arxiv.org/abs/2307.15043 论文代码:[code](https://github.com/llm - attacks/llm - attacks) 摘要 由于“开箱即用”的大语言模型能够生成大量令人反感的内容,近期的工作聚焦于校准这些模型,试图防止产生不良内容。尽管在绕过这些措施(即针对大语言模型的所谓“越狱”)方面取得了一些成功,但这些攻击需要大量的人类智慧,并且在实际应用中很脆弱。自动对抗提示生成的尝试也只取得了有限的成功。在本文中,我们提出了一种简单有效的攻击方法,可使校准后的语言模型产生令人反感的行为。具体而言,我们的方法找到一个后缀,...
Guiding not Forcing: Enhancing the Transferability of Jailbreaking Attacks on LLMs via Removing Superfluous Constraints
英文题目:《Guiding not Forcing: Enhancing the Transferability of Jailbreaking Attacks on LLMs via Removing Superfluous Constraints》 中文题目:《引导而非强制:通过去除多余约束增强大语言模型越狱攻击的可转移性》 论文作者: Junxiao Yang,Zhexin Zhang,Shiyao Cui, Hongning Wang, Minlie Huang 研究机构:清华大学交叉信息研究院对话式人工智能研究组 发布于: ACL 发布时间:2025-02-25 级别:CFF A 论文链接: https://arxiv.org/abs/2503.01865 论文代码:https://github.com/thu-coai/TransferAttack 摘要 越狱攻击能够有效地在大语言模型(LLMs)中引发不安全行为;然而,这些攻击在不同模型之间的可转移性仍然有限。本研究旨在理解并增强基于梯度的越狱方法的可转移性,这类方法是攻击白盒模型的标准方法之一。通过对优化过程的...
Image Copy-Move Forgery Detection via Deep PatchMatch and Pairwise Ranking Learning
英文题目:《Image Copy-Move Forgery Detection via Deep PatchMatch and Pairwise Ranking Learning》 中文题目:《通过深度 PatchMatch 和成对排序学习检测图像复制/移动伪造》 论文作者:Yuanman Li; Yingjie He; Changsheng Chen; Li Dong; Bin Li; Jiantao Zhou 发布于:IEEE Transactions on Image Processing 发布时间:2024-08-25 级别:CCF-A 论文链接:10.1109/TIP.2024.3482191 论文代码:暂无 摘要 深度学习算法的最新进展在图像复制移动伪造检测 (CMFD) 方面取得了令人瞩目的进展。然而,这些算法在实际场景中缺乏通用性,例如训练图像中不存在复制区域,或者克隆区域是背景的一部分。此外,这些算法利用卷积运算来区分源区域和目标区域,当目标区域与背景融合良好时,结果并不理想。为了突破这些局限性,本研究提出了一种新颖的端到端 CMFD 框架,该框架融合了传统方...
Exploring Multi-View Pixel Contrast for General and Robust Image Forgery Localization
英文题目:《Exploring Multi-View Pixel Contrast for General and Robust Image Forgery Localization》 中文题目:《探索多视角像素对比度以实现通用且稳健的图像伪造定位》 论文作者:Zijie Lou; Gang Cao; Kun Guo; Lifang Yu; Shaowei Weng 发布于:IEEE Transactions on Information Forensics and Security 发布时间:2025-02-13 级别:CCF-A 论文链接:10.1109/TIFS.2025.3541957 论文代码:https://github.com/multimediaFor/MPC 摘要 图像伪造定位旨在分割图像中的篡改区域,是一项基础而又极具挑战性的数字取证任务。虽然一些基于深度学习的取证方法取得了令人瞩目的成果,**但它们直接学习像素到标签的映射,而没有充分利用特征空间中像素之间的关系。**为了解决这一缺陷,我们提出了一种用于图像伪造定位的多视角逐像素对比算法 (MPC)。具体而...
PRP: Propagating Universal Perturbations to Attack Large Language Model Guard-Rails
英文题目:《PRP: Propagating Universal Perturbations to Attack Large Language Model Guard-Rails》 中文题目:《PRP:传播通用扰动以攻击大型语言模型防护机制》 论文作者: Neal Mangaokar, Ashish Hooda, Jihye Choi, Shreyas Chandrashekaran, Kassem Fawaz, Somesh Jha, Atul Prakash 发布于: ACL 发布时间:2024-02-24 级别:CFF A 论文链接: https://arxiv.org/abs/2402.15911 论文代码: 摘要 大型语言模型(LLM)通常被设定为对人类无害。不幸的是,最近的研究表明,这类模型容易受到自动化越狱攻击,这些攻击会诱使它们生成有害内容。最新的LLM通常包含额外的防御层,即守卫模型,这是一个二级LLM,用于检查和调节主要LLM的输出响应。我们的主要贡献是提出了一种新颖的攻击策略PRP,该策略针对多个开源(例如Llama 2)和闭源(例如GPT 3.5)的守卫...