Exploring Multi-View Pixel Contrast for General and Robust Image Forgery Localization
英文题目:《Exploring Multi-View Pixel Contrast for General and Robust Image Forgery Localization》 中文题目:《探索多视角像素对比度以实现通用且稳健的图像伪造定位》 论文作者:Zijie Lou; Gang Cao; Kun Guo; Lifang Yu; Shaowei Weng 发布于:IEEE Transactions on Information Forensics and Security 发布时间:2025-02-13 级别:CCF-A 论文链接:10.1109/TIFS.2025.3541957 论文代码:https://github.com/multimediaFor/MPC 摘要 图像伪造定位旨在分割图像中的篡改区域,是一项基础而又极具挑战性的数字取证任务。虽然一些基于深度学习的取证方法取得了令人瞩目的成果,**但它们直接学习像素到标签的映射,而没有充分利用特征空间中像素之间的关系。**为了解决这一缺陷,我们提出了一种用于图像伪造定位的多视角逐像素对比算法 (MPC)。具体而...
PRP: Propagating Universal Perturbations to Attack Large Language Model Guard-Rails
英文题目:《PRP: Propagating Universal Perturbations to Attack Large Language Model Guard-Rails》 中文题目:《PRP:传播通用扰动以攻击大型语言模型防护机制》 论文作者: Neal Mangaokar, Ashish Hooda, Jihye Choi, Shreyas Chandrashekaran, Kassem Fawaz, Somesh Jha, Atul Prakash 发布于: ACL 发布时间:2024-02-24 级别:CFF A 论文链接: https://arxiv.org/abs/2402.15911 论文代码: 摘要 大型语言模型(LLM)通常被设定为对人类无害。不幸的是,最近的研究表明,这类模型容易受到自动化越狱攻击,这些攻击会诱使它们生成有害内容。最新的LLM通常包含额外的防御层,即守卫模型,这是一个二级LLM,用于检查和调节主要LLM的输出响应。我们的主要贡献是提出了一种新颖的攻击策略PRP,该策略针对多个开源(例如Llama 2)和闭源(例如GPT 3.5)的守卫...
Universal adversarial perturbations
英文题目:《Universal adversarial perturbations》 中文题目:《普遍对抗性扰动》 论文作者:Seyed-Mohsen Moosavi-Dezfooli,Alhussein Fawzi,Omar Fawzi & Pascal Frossard 发布于:CV 发布时间:2017 Mar 9 级别:CCF-A 论文链接: 摘要 给出了一个最先进的深度神经网络分类器,我们证明了存在一个通用的(与图像无关的)非常小的扰动向量,它会导致自然图像以很高的概率被错误分类。我们提出了一个系统的算法来计算普遍的扰动,并表明最新的深度神经网络非常容易受到这种扰动的影响,尽管人眼是准不可感知的。我们进一步经验性地分析了这些普遍的扰动,并特别表明,它们在神经网络中具有很好的泛化能力。普遍扰动的惊人存在揭示了分类器高维决策边界之间的重要几何相关性。它进一步概述了输入空间中存在的单一方向的潜在安全漏洞,攻击者可能会利用这些方向来破坏大多数自然图像上的分类器。 本文聚焦的问题 近年来,图像分类器对结构化和非结构化扰动的鲁棒性受到广泛关注。尽管深度神经网络在视觉分类基准...
One Pixel Attack for Fooling Deep Neural Networks
英文题目:《One Pixel Attack for Fooling Deep Neural Networks》 中文题目:《一种愚弄深度神经网络的像素攻击方法》 论文作者:Jiawei Su,Danilo Vasconcellos Vargas & Kouichi Sakurai 发布于:LG 发布时间:2019 Oct 17 级别:CCF-A 论文链接: 摘要 最近的研究表明,通过向输入向量添加相对较小的扰动,可以很容易地改变深度神经网络(DNN)的输出。在本文中,我们分析了一个极其有限的场景下的攻击,其中只有一个像素可以被修改。为此,我们提出了一种新的基于差分进化的单像素对抗性扰动生成方法。由于DE的固有特性,它需要较少的敌意信息(黑盒攻击),并且可以欺骗更多类型的网络。结果表明,在Kaggle CIFAR-10测试数据集和ImageNet(ILSVRC 2012)测试数据集中,67.97%的自然图像和16.04%的ImageNet(ILSVRC 2012)测试图像可以通过仅修改一个像素来扰动至少一个目标类,平均置信度分别为74.03%和22.91%。我们还在原始...
Jailbreaking Black Box Large Language Models in Twenty Queries
英文题目:《Jailbreaking Black Box Large Language Models in Twenty Queries》 中文题目:《在 20 次查询内对黑盒大语言模型实施越狱攻击》 论文作者: Patrick Chao, Alexander Robey, Edgar Dobriban, Hamed Hassani, George J.Pappas, Eric Wong 发布于: Computing Research Repository 发布时间:2023-10-12 级别:无 论文链接:https://cz5waila03cyo0tux1owpyofgoryroob.aminer.cn/27/D3/F0/27D3F04A17CE6E1DB47D32AE395B4A26.pdf 论文代码: 摘要 越来越多的人关注确保大型语言模型(LLM)与人类价值观保持一致。然而,这类模型的对齐容易受到对抗性越狱的影响,这会诱导LLM忽略其安全护栏。因此,识别这些漏洞对于理解内在的弱点并预防未来的滥用是至关重要的。为此,我们提出了Prompt Automatic Iter...
DELVING INTO TRANSFERABLE ADVERSARIAL EXAMPLES AND BLACK - BOX ATTACKS
英文题目:《DELVING INTO TRANSFERABLE ADVERSARIAL EXAMPLES AND BLACK - BOX ATTACKS》 中文题目:《深入研究可转移的对抗性例子和黑盒攻击》 论文作者:Yanpei Liu,Xinyun Chen,Chang Liu & Dawn Song 发布于:ICLR 发布时间:2017 Feb 7 级别:CCF-A 论文链接: 摘要 深度神经网络的一个有趣的性质是存在对抗性的例子,这些例子可以在不同的体系结构之间转移。这些可转移的对抗性例子可能会严重阻碍基于神经网络的深度应用。以往的工作大多是使用小尺度数据集来研究可转移性。在这项工作中,我们首次对大规模模型和大规模数据集上的可转移性进行了广泛的研究,也首次研究了带有目标标签的目标对抗性实例的可转移性。我们研究了非目标对抗性实例和目标对抗性实例,并表明虽然可转移的非目标对抗性实例很容易找到,但使用现有方法生成的目标对抗性实例几乎不会与其目标标签一起转移。因此,我们提出了新的基于集成的方法来生成可转移的对抗性实例。使用这种方法,我们观察到很大比例的目标对抗性例子能够...
Voice Jailbreak Attacks Against GPT-4o
英文题目:《Voice Jailbreak Attacks Against GPT-4o》 中文题目:《针对GPT-4o的语音越狱攻击》 论文作者: Xinyue Shen, Yixin Wu, Michael Backes, Yang Zhang 发布于:Computing Research Repository 发布时间:2024-05-29 级别:无 论文链接: https://arxiv.org/abs/2405.19103 论文代码: 摘要 最近,人工智能助手的概念已从科幻小说走进现实应用。GPT-4o作为最新的跨音频、视觉和文本的多模态大语言模型(MLLM),通过实现更自然的人机交互,进一步模糊了虚构与现实之间的界限。然而,GPT-4o语音模式的出现也可能带来新的攻击面。在本文中,我们首次对针对GPT-4o语音模式的越狱攻击进行了系统性评估。我们发现,当将违禁问题和文本越狱提示直接转换为语音模式时,GPT-4o对其表现出良好的抗性。这种抗性主要源于GPT-4o的内部防护机制以及将文本越狱提示适配到语音模式的难度。受GPT-4o类似人类行为的启发,我们提出了Voic...
WordGame: Efficient & Effective LLM Jailbreak via Simultaneous Obfuscation in Query and Response
英文题目:《WordGame: Efficient & Effective LLM Jailbreak via Simultaneous Obfuscation in Query and Response》 中文题目:《WordGame:基于查询与响应混淆的大语言模型高效越狱攻击方法》 论文作者:Tianrong Zhang, Bochuan Cao, Yuanpu Cao, Lu Lin, Prasenjit Mitra, Jinghui Chen 发布于: arxiv 发布时间:2024-05-22 级别:无 论文链接:https://doi.org/10.48550/arXiv.2405.14023 论文代码:无 摘要 近期,诸如 ChatGPT 等大型语言模型(LLM)取得的重大突破以前所未有的速度革新了生产流程。与此同时,人们也越来越担忧 LLM 容易遭受破解攻击,从而生成有害或不安全的内容。尽管已经在 LLM 中实施了安全对齐措施来减轻现有的破解尝试,并使其变得越来越复杂,但这些措施仍远非完美。在本文中,我们分析了当前安全对齐的常见模式,并表明可以通过在查询...
Enhancing Jailbreak Attacks on LLMs via Persona Prompts
英文题目:《Enhancing Jailbreak Attacks on LLMs via Persona Prompts》 中文题目:《通过角色提示增强大型语言模型(LLMs)的越狱攻击》 论文作者:Zheng Zhang, Peilin Zhao, Deheng Ye, Hao Wang 发布于: arxiv 发布时间:2024-07-28 级别:无 论文链接: https://doi.org/10.48550/arXiv.2507.22171 论文代码:https://github.com/CjangCjengh/Generic_Persona 摘要 越狱攻击旨在通过诱导大型语言模型(LLMs)生成有害内容来利用其漏洞,进而揭示模型的安全缺陷。理解并应对此类攻击对于推动 LLM 安全领域发展至关重要。以往的越狱方法主要聚焦于对有害意图的直接操纵,却较少关注角色提示(persona prompts)的影响。本研究系统探究了角色提示在突破 LLM 防御机制中的有效性,提出一种基于遗传算法的方法,可自动生成角色提示以绕过 LLM 的安全机制。实验结果表明:(1)经进化生成的角色...
PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking
英文题目:《PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking》 中文题目:《PRISM:面向大型视觉语言模型(LVLM)越狱的、基于图像序列操纵的程序化推理》 论文作者:Quanchen Zou, Zonghao Ying, Moyang Chen, Wenzhuo Xu, Yisong Xiao, Yakai Li, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng Zhang 发布于: arxiv 发布时间:2025-07-29 级别:无 论文链接: https://doi.org/10.48550/arXiv.2507.21540 论文代码:无 摘要 大型视觉语言模型(LVLMs)的复杂程度不断提升,与此同时,旨在防止生成有害内容的安全对齐机制也在逐步发展。然而,这些防御机制在复杂的对抗性攻击面前仍显脆弱。现有越狱方法通常依赖直接且语义明确的提示词,却忽视了大型视觉语言模型(LVLMs)在多步推理过程中整合...