Learning Discriminative Noise Guidance for Image Forgery Detection and Localization
英文题目:《 Learning Discriminative Noise Guidance for Image Forgery Detection and Localization》 中文题目:《学习判别性噪声引导,用于图像伪造检测和定位》 论文作者:Jiaying Zhu, Dong Li, Xueyang Fu, Gang Yang, Jie Huang, Aiping Liu, Zheng-Jun Zha 发布于: AAAI 发布时间:2024-03-24 级别:CCF-A 论文链接: https://doi.org/10.1609/aaai.v38i7.28608 论文代码:暂无 摘要 本研究提出了一种新的图像伪造检测和定位方法,该方法侧重于噪声域内的篡改痕迹。我们假设RGB图像中几乎不可见的噪声携带着篡改痕迹,有助于区分和定位伪造图像。然而,篡改技术的进步使得噪声直接用于伪造检测变得复杂,因为伪造区域和真实区域之间的噪声不一致性并未得到充分利用。为了解决这个问题,我们开发了一种两步判别式噪声引导方法,以明确增强噪声不一致性的特征表示和利用,从而充分利用噪声信息来提高伪...
Attentive and Contrastive Image Manipulation Localization With Boundary Guidance
英文题目:《Attentive and Contrastive Image Manipulation Localization With Boundary Guidance》 中文题目:《边界引导下的专注对比图像处理定位》 论文作者:Wenxi Liu , Member, IEEE, Hao Zhang , Xinyang Lin , Qing Zhang , Qi Li , Xiaoxiang Liu , Ying Cao 发布于:IEEE Transactions on Information Forensics and Security 发布时间:2024-07-08 级别:CCF-A 论文链接:10.1109/TIFS.2024.3424987 论文代码:暂无 摘要 近年来,图像生成技术的快速发展导致篡改图像被广泛滥用,引发了信任危机,并影响了社会公平。因此,我们的工作目标是检测并定位图像中的篡改区域。许多基于深度学习的方法来解决这个问题,但它们难以处理那些经过手动微调以融入图像背景的篡改区域。通过观察篡改区域的边界对于区分篡改部分和非篡改部分至关重要,我们提出了一种新...
Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers
英文题目:《Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers》 中文题目:《论文摘要攻击:通过大型语言模型安全论文对大型语言模型进行越狱》 论文作者:Liang Lin, Zhihao Xu, Xuehai Tang, Shi Liu, Biyu Zhou, Fuqing Zhu, Jizhong Han, Songlin Hu 发布于: arxiv 发布时间:2025-07-17 级别:无 论文链接:https://doi.org/10.48550/arXiv.2507.13474 论文代码:https://github.com/233liang/Paper-Summary-Attack 摘要 大型语言模型(LLMs)的安全性已引起广泛的研究关注。本文认为,以往的实证研究表明,大型语言模型倾向于信任来自权威来源(如学术论文)的信息,这意味着可能存在新的漏洞。为验证这种可能性,我们设计了一项初步分析以阐明我们的两项发现。基于这一见解,我们提出了一种新颖的越狱方法 —— 论文摘要攻击(PSA)。该方...
PUZZLED: Jailbreaking LLMs through Word-Based Puzzles
英文题目:《PUZZLED: Jailbreaking LLMs through Word-Based Puzzles》 中文题目:《PUZZLED:通过基于词语的谜题越狱大型语言模型》 论文作者:Yelim Ahn, Jaejin Lee 发布于: arxiv 发布时间:2024-08-02 级别:无 论文链接: https://doi.org/10.48550/arXiv.2508.01306 论文代码:无 摘要 随着大型语言模型(LLMs)在不同领域日益广泛地部署,确保其安全性已成为一个关键问题。因此,关于越狱攻击(jailbreak attacks)的研究正在积极增长。现有方法通常依赖于迭代式提示工程(iterative prompt engineering)或有害指令的语义转换(semantic transformations of harmful instructions)来规避检测。在本研究中,我们引入了PUZZLED,这是一种新颖的越狱方法,它利用了LLM的推理能力。该方法将有害指令中的关键词进行掩蔽,并将其作为词语谜题(word puzzles)呈现给LLM来...
Highlight & Summarize: RAG without the jailbreaks
英文题目:《Highlight & Summarize: RAG without the jailbreaks》 中文题目:《高亮与总结:无需担心越狱问题的检索增强生成》 论文作者:Giovanni Cherubin, Andrew Paverd 发布于: arxiv 发布时间:2025-08-04 级别:无 论文链接: https://doi.org/10.48550/arXiv.2508.02872 论文代码:https://github.com/microsoft/highlight-summarize 摘要 防止大型语言模型(LLMs)的越狱和模型劫持是一项重要但具有挑战性的任务。例如,在与聊天机器人交互时,恶意用户可能输入精心设计的提示词,促使大语言模型生成不良内容或执行与其预期用途完全不同的任务。针对此类攻击的现有缓解措施通常依赖于强化大语言模型的系统提示词,或使用经过训练的内容分类器来检测不良内容或离题对话。然而,由于可能的输入和不良输出空间非常庞大,这些概率性方法相对容易被绕过。 在本文中,我们提出并评估了 “高亮与总结”(H&S),这是一种用...
CLEANGEN: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models
英文题目:《CLEANGEN: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models》 中文题目:《CLEANGEN:减轻大语言模型生成任务中的后门攻击》 论文作者:Yuetai Li,Zhangchen Xu,Fengqing Jiang,Luyao Niu, Dinuka Sahabandu,Bhaskar Ramasubramanian,Radha Poovendran 发布于: arxiv 发布时间:2024-10-06 级别:无 论文链接:https://arxiv.org/pdf/2406.12257 论文代码: 摘要 大语言模型(LLMs)在生成任务中表现出色,使从业者能够利用公开可用的模型为定制应用程序(如聊天机器人和虚拟助手)提供支持。然而,用于训练或微调这些LLMs的数据通常不公开,这使得攻击者能够篡改数据并在模型中注入后门。在本文中,我们开发了一种名为CLEANGEN的新型推理时防御方法,以减轻LLMs生成任务中的后门攻击。CLEANGEN是一种轻量级且有效的解码...
ICLShield:Exploring-and-Mitigating-In-Context-Learning-Backdoor-Attacks
英文题目:《ICLShield: Exploring and Mitigating In-Context Learning Backdoor Attacks》 中文题目:《ICLShield:探索并缓解上下文学习后门攻击》 论文作者: Zhiyao Ren,Siyuan Liang,Aishan Liu,Dacheng Tao 发布于: arix 发布时间:2024-07-02 级别:无 论文链接: https://arxiv.org/pdf/2507.01321 论文代码: 摘要 上下文学习(in-context learning, ICL)因其适应性和无参数特性,在大语言模型(LLMs)中取得了显著成功。然而,它也给后门攻击带来了严重漏洞,攻击者可以通过简单地毒害一些ICL示例来操纵大语言模型的行为。在本文中,我们首次提出了双学习假设,该假设认为大语言模型在中毒示例中同时学习与任务相关的潜在概念和后门潜在概念,共同影响模型输出的概率。通过理论分析,我们得出了ICL后门效应的上限,揭示了这种漏洞主要由任务和后门之间的概念偏好率决定。基于这些发现,我们提出了ICLShield,...
Instruction Backdoor Attacks Against Customized LLMs
英文题目:《Instruction Backdoor Attacks Against Customized LLMs》 中文题目:《针对定制化大语言模型的指令后门攻击》 论文作者:Rui Zhang,Hongwei Li,Rui Wen,Wenbo Jiang,Yuan Zhang,Michae Backes, Yun Shen, Yang Zhang 发布于:arxiv 发布时间:2024-05-28 级别:无 论文链接: https://arxiv.org/pdf/2402.09179 论文代码: 摘要 对定制大语言模型(LLMs)的需求日益增长,催生了如GPTs这样的解决方案。这些解决方案通过自然语言提示实现了无需编码的定制大语言模型创建。然而,第三方定制版大语言模型的可信度仍是一个至关重要的问题。在本文中,我们首次提出了针对集成了不可信定制大语言模型(如GPTs)的应用程序的指令后门攻击。具体而言,这些攻击通过设计带有后门指令的提示,将后门嵌入到大语言模型的定制版本中,当输入包含预定义触发词时输出攻击者期望的结果。我们的攻击包括三个级别:单词级、语法级和语义级,采用不同...
Improved Techniques for Optimization-Based Jailbreaking on Large Language Models
英文题目:《Improved Techniques for Optimization-Based Jailbreaking on Large Language Models》 中文题目:《基于优化的大型语言模型越狱技术的改进》 发布于:arxiv 级别:无 论文链接: https://arxiv.org/pdf/2405.21018 摘要 大型语言模型 (LLM) 正在快速发展,其广泛部署的关键在于其安全性相关的对齐。许多红队攻击旨在越狱 LLM,其中贪婪坐标梯度 (GCG) 攻击的成功引发了人们对基于优化的越狱技术研究的日益浓厚兴趣。尽管 GCG 是一个重要的里程碑,但其攻击效率仍然不尽如人意。本文提出了几种改进的(经验性)技术,用于类似 GCG 的基于优化的越狱。我们首先观察到“Sure”的单一目标模板极大地限制了 GCG 的攻击性能;鉴于此,我们建议应用包含有害自我暗示和/或引导的多样化目标模板来误导 LLM。此外,从优化角度出发,我们提出了一种 GCG 中的自动多坐标更新策略(即自适应地决定每一步要替换的标记数量)来加速收敛,以及一些诸如易到难初始化之类的技巧。然后,我...
Universal and Transferable Adversarial Attacks on Aligned Language Models
英文题目:《Universal and Transferable Adversarial Attacks on Aligned Language Models》 中文题目:《针对对齐语言模型的通用且可迁移的对抗攻击》 发布于:arxiv 级别:无 论文链接: https://arxiv.org/pdf/2307.15043 摘要 由于“开箱即用”的大型语言模型能够生成大量令人反感的内容,因此最近的工作集中于对齐这些模型,以试图阻止不良内容的生成。 虽然在规避这些措施方面取得了一些成功——即所谓的针对 LLM 的“越狱”——但这些攻击需要大量的人为创造力,并且在实践中是脆弱的。自动对抗提示生成方面的尝试也取得了有限的成功。在本文中,我们提出了一种简单而有效的攻击方法,该方法会导致对齐的语言模型生成令人反感的行为。具体来说,我们的方法是找到一个后缀,当将其附加到 LLM 的各种查询中以产生令人反感的内容时,旨在最大化模型产生肯定响应(而不是拒绝回答)的概率。然而,我们的方法不是依赖于手动工程,而是通过贪婪和基于梯度的搜索技术的组合来自动生成这些对抗后缀,并且还优于过去的自动提示生成...