Guiding not Forcing: Enhancing the Transferability of Jailbreaking Attacks on LLMs via Removing Superfluous Constraints
英文题目:《Guiding not Forcing: Enhancing the Transferability of Jailbreaking Attacks on LLMs via Removing Superfluous Constraints》 中文题目:《引导而非强制:通过去除多余约束增强大语言模型越狱攻击的可转移性》 论文作者: Junxiao Yang,Zhexin Zhang,Shiyao Cui, Hongning Wang, Minlie Huang 研究机构:清华大学交叉信息研究院对话式人工智能研究组 发布于: ACL 发布时间:2025-02-25 级别:CFF A 论文链接: https://arxiv.org/abs/2503.01865 论文代码:https://github.com/thu-coai/TransferAttack 摘要 越狱攻击能够有效地在大语言模型(LLMs)中引发不安全行为;然而,这些攻击在不同模型之间的可转移性仍然有限。本研究旨在理解并增强基于梯度的越狱方法的可转移性,这类方法是攻击白盒模型的标准方法之一。通过对优化过程的...
Image Copy-Move Forgery Detection via Deep PatchMatch and Pairwise Ranking Learning
英文题目:《Image Copy-Move Forgery Detection via Deep PatchMatch and Pairwise Ranking Learning》 中文题目:《通过深度 PatchMatch 和成对排序学习检测图像复制/移动伪造》 论文作者:Yuanman Li; Yingjie He; Changsheng Chen; Li Dong; Bin Li; Jiantao Zhou 发布于:IEEE Transactions on Image Processing 发布时间:2024-08-25 级别:CCF-A 论文链接:10.1109/TIP.2024.3482191 论文代码:暂无 摘要 深度学习算法的最新进展在图像复制移动伪造检测 (CMFD) 方面取得了令人瞩目的进展。然而,这些算法在实际场景中缺乏通用性,例如训练图像中不存在复制区域,或者克隆区域是背景的一部分。此外,这些算法利用卷积运算来区分源区域和目标区域,当目标区域与背景融合良好时,结果并不理想。为了突破这些局限性,本研究提出了一种新颖的端到端 CMFD 框架,该框架融合了传统方...
Rethinking Image Forgery Detection via Soft Contrastive Learning and Unsupervised Clustering
英文题目:《Rethinking Image Forgery Detection via Soft Contrastive Learning and Unsupervised Clustering》 中文题目:《通过软对比学习和无监督聚类重新思考图像伪造检测》 论文作者:Haiwei Wu; Yiming Chen; Jiantao Zhou; Yuanman Li 发布于: IEEE Transactions on Dependable and Secure Computing 发布时间:2025-06-25 级别:CCF-A 论文链接:10.1109/TDSC.2025.3583167 论文代码:https://github.com/HighwayWu/FOCAL 摘要 图像伪造检测的目标是识别并定位图像中的伪造区域。现有的大多数伪造检测算法通过分类问题来区分伪造像素和原始像素。然而,伪造像素与原始像素的定义仅在单个图像内部相对,例如,图像A中的伪造区域在其原始图像B中可能是原始的(拼接伪造)。这种相对定义被现有方法严重忽视,导致不同图像中的伪造(或原始)区域被不必要地归为...
Exploring Multi-View Pixel Contrast for General and Robust Image Forgery Localization
英文题目:《Exploring Multi-View Pixel Contrast for General and Robust Image Forgery Localization》 中文题目:《探索多视角像素对比度以实现通用且稳健的图像伪造定位》 论文作者:Zijie Lou; Gang Cao; Kun Guo; Lifang Yu; Shaowei Weng 发布于:IEEE Transactions on Information Forensics and Security 发布时间:2025-02-13 级别:CCF-A 论文链接:10.1109/TIFS.2025.3541957 论文代码:https://github.com/multimediaFor/MPC 摘要 图像伪造定位旨在分割图像中的篡改区域,是一项基础而又极具挑战性的数字取证任务。虽然一些基于深度学习的取证方法取得了令人瞩目的成果,**但它们直接学习像素到标签的映射,而没有充分利用特征空间中像素之间的关系。**为了解决这一缺陷,我们提出了一种用于图像伪造定位的多视角逐像素对比算法 (MPC)。具体而...
PRP: Propagating Universal Perturbations to Attack Large Language Model Guard-Rails
英文题目:《PRP: Propagating Universal Perturbations to Attack Large Language Model Guard-Rails》 中文题目:《PRP:传播通用扰动以攻击大型语言模型防护机制》 论文作者: Neal Mangaokar, Ashish Hooda, Jihye Choi, Shreyas Chandrashekaran, Kassem Fawaz, Somesh Jha, Atul Prakash 发布于: ACL 发布时间:2024-02-24 级别:CFF A 论文链接: https://arxiv.org/abs/2402.15911 论文代码: 摘要 大型语言模型(LLM)通常被设定为对人类无害。不幸的是,最近的研究表明,这类模型容易受到自动化越狱攻击,这些攻击会诱使它们生成有害内容。最新的LLM通常包含额外的防御层,即守卫模型,这是一个二级LLM,用于检查和调节主要LLM的输出响应。我们的主要贡献是提出了一种新颖的攻击策略PRP,该策略针对多个开源(例如Llama 2)和闭源(例如GPT 3.5)的守卫...
Universal adversarial perturbations
英文题目:《Universal adversarial perturbations》 中文题目:《普遍对抗性扰动》 论文作者:Seyed-Mohsen Moosavi-Dezfooli,Alhussein Fawzi,Omar Fawzi & Pascal Frossard 发布于:CV 发布时间:2017 Mar 9 级别:CCF-A 论文链接: 摘要 给出了一个最先进的深度神经网络分类器,我们证明了存在一个通用的(与图像无关的)非常小的扰动向量,它会导致自然图像以很高的概率被错误分类。我们提出了一个系统的算法来计算普遍的扰动,并表明最新的深度神经网络非常容易受到这种扰动的影响,尽管人眼是准不可感知的。我们进一步经验性地分析了这些普遍的扰动,并特别表明,它们在神经网络中具有很好的泛化能力。普遍扰动的惊人存在揭示了分类器高维决策边界之间的重要几何相关性。它进一步概述了输入空间中存在的单一方向的潜在安全漏洞,攻击者可能会利用这些方向来破坏大多数自然图像上的分类器。 本文聚焦的问题 近年来,图像分类器对结构化和非结构化扰动的鲁棒性受到广泛关注。尽管深度神经网络在视觉分类基准...
One Pixel Attack for Fooling Deep Neural Networks
英文题目:《One Pixel Attack for Fooling Deep Neural Networks》 中文题目:《一种愚弄深度神经网络的像素攻击方法》 论文作者:Jiawei Su,Danilo Vasconcellos Vargas & Kouichi Sakurai 发布于:LG 发布时间:2019 Oct 17 级别:CCF-A 论文链接: 摘要 最近的研究表明,通过向输入向量添加相对较小的扰动,可以很容易地改变深度神经网络(DNN)的输出。在本文中,我们分析了一个极其有限的场景下的攻击,其中只有一个像素可以被修改。为此,我们提出了一种新的基于差分进化的单像素对抗性扰动生成方法。由于DE的固有特性,它需要较少的敌意信息(黑盒攻击),并且可以欺骗更多类型的网络。结果表明,在Kaggle CIFAR-10测试数据集和ImageNet(ILSVRC 2012)测试数据集中,67.97%的自然图像和16.04%的ImageNet(ILSVRC 2012)测试图像可以通过仅修改一个像素来扰动至少一个目标类,平均置信度分别为74.03%和22.91%。我们还在原始...
Jailbreaking Black Box Large Language Models in Twenty Queries
英文题目:《Jailbreaking Black Box Large Language Models in Twenty Queries》 中文题目:《在 20 次查询内对黑盒大语言模型实施越狱攻击》 论文作者: Patrick Chao, Alexander Robey, Edgar Dobriban, Hamed Hassani, George J.Pappas, Eric Wong 发布于: Computing Research Repository 发布时间:2023-10-12 级别:无 论文链接:https://cz5waila03cyo0tux1owpyofgoryroob.aminer.cn/27/D3/F0/27D3F04A17CE6E1DB47D32AE395B4A26.pdf 论文代码: 摘要 越来越多的人关注确保大型语言模型(LLM)与人类价值观保持一致。然而,这类模型的对齐容易受到对抗性越狱的影响,这会诱导LLM忽略其安全护栏。因此,识别这些漏洞对于理解内在的弱点并预防未来的滥用是至关重要的。为此,我们提出了Prompt Automatic Iter...
DELVING INTO TRANSFERABLE ADVERSARIAL EXAMPLES AND BLACK - BOX ATTACKS
英文题目:《DELVING INTO TRANSFERABLE ADVERSARIAL EXAMPLES AND BLACK - BOX ATTACKS》 中文题目:《深入研究可转移的对抗性例子和黑盒攻击》 论文作者:Yanpei Liu,Xinyun Chen,Chang Liu & Dawn Song 发布于:ICLR 发布时间:2017 Feb 7 级别:CCF-A 论文链接: 摘要 深度神经网络的一个有趣的性质是存在对抗性的例子,这些例子可以在不同的体系结构之间转移。这些可转移的对抗性例子可能会严重阻碍基于神经网络的深度应用。以往的工作大多是使用小尺度数据集来研究可转移性。在这项工作中,我们首次对大规模模型和大规模数据集上的可转移性进行了广泛的研究,也首次研究了带有目标标签的目标对抗性实例的可转移性。我们研究了非目标对抗性实例和目标对抗性实例,并表明虽然可转移的非目标对抗性实例很容易找到,但使用现有方法生成的目标对抗性实例几乎不会与其目标标签一起转移。因此,我们提出了新的基于集成的方法来生成可转移的对抗性实例。使用这种方法,我们观察到很大比例的目标对抗性例子能够...
Voice Jailbreak Attacks Against GPT-4o
英文题目:《Voice Jailbreak Attacks Against GPT-4o》 中文题目:《针对GPT-4o的语音越狱攻击》 论文作者: Xinyue Shen, Yixin Wu, Michael Backes, Yang Zhang 发布于:Computing Research Repository 发布时间:2024-05-29 级别:无 论文链接: https://arxiv.org/abs/2405.19103 论文代码: 摘要 最近,人工智能助手的概念已从科幻小说走进现实应用。GPT-4o作为最新的跨音频、视觉和文本的多模态大语言模型(MLLM),通过实现更自然的人机交互,进一步模糊了虚构与现实之间的界限。然而,GPT-4o语音模式的出现也可能带来新的攻击面。在本文中,我们首次对针对GPT-4o语音模式的越狱攻击进行了系统性评估。我们发现,当将违禁问题和文本越狱提示直接转换为语音模式时,GPT-4o对其表现出良好的抗性。这种抗性主要源于GPT-4o的内部防护机制以及将文本越狱提示适配到语音模式的难度。受GPT-4o类似人类行为的启发,我们提出了Voic...