Deep Neural Networks are Easily Fooled:High Confidence Predictions for Unrecognizable Images
英文题目:《Deep Neural Networks are Easily Fooled:High Confidence Predictions for Unrecognizable Images》 中文题目:《深度神经网络很容易被愚弄:对无法识别的图像进行高置信度预测》 论文作者:Anh Nguyen,Jason Yosinski & Jeff Clune 发布于:CVPR 发布时间:2015 Apr 2 级别:CCFA 论文链接: 摘要 深度神经网络(DNN)最近在各种模式识别任务上取得了最先进的性能,最显著的是视觉分类问题。鉴于DNN现在能够以接近人类水平的性能对图像中的对象进行分类,自然会出现计算机和人类视觉之间存在哪些差异的问题。最近的一项研究[30]显示,以人类无法察觉的方式更改图像(例如,狮子)可能会导致DNN将图像标记为完全不同的东西(例如,错误地将狮子标记为图书馆)。这里我们展示了一个相关的结果:很容易产生人类完全无法识别的图像,但最先进的DNN相信是可识别的对象,置信度为99.99%(例如,确定地标记白噪声静态是一只狮子)。具体地说,我们使用经过训练...
ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD
英文题目:《ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD》 中文题目:《物理世界中的对抗性例子》 论文作者:Alexey Kurakin,Ian J. GoodfellowIan & Samy Bengio 发布于:ICLR 发布时间:2017 Feb 11 级别:CCF-A 论文链接: 摘要 大多数现有的机器学习分类器都非常容易受到对抗性例子的攻击。一个对抗性的例子是输入数据的样本,它经过了非常轻微的修改,意在导致机器学习分类器对其进行错误分类。在许多情况下,这些修改可能是如此微妙,以至于人类观察者甚至根本没有注意到修改,但分类器仍然犯下了错误。敌意例子会造成安全问题,因为它们可能被用来对机器学习系统进行攻击,即使对手无法访问底层模型。到目前为止,所有以前的工作都假设了威胁模型,在该模型中,对手可以直接将数据馈送到机器学习分类器中。对于在物理世界中运行的系统来说,情况并不总是这样,例如,那些使用来自摄像机和其他传感器的信号作为输入的系统。这篇论文表明,即使在这样的物理世界场景中,机器学习系统也很容易受到对手例子的攻击。我们通过将...
Explaining and Harnessing Adversarial Examples
英文题目:《Explaining and Harnessing Adversarial Examples》 中文题目:《解释和利用对抗性》 论文作者:Ian J.Goodfellow,Jonathon Shlens & Christian Szegedy 发布于:ICLR 发布时间:2015 Mar 20 级别:CCF-A 论文链接: 摘要 Several machine learning models, including neural networks, consistently misclassify adversarial examples—inputs formed by applying small but intentionally worst-case perturbations to examples from the dataset, such that the perturbed in-put results in the model outputting an incorrect answer with high confidence. Earl...
ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs
英文题目:《ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs》 中文题目:《艺术提示:针对对齐语言模型的基于ASCII艺术的越狱攻击》 论文作者: Fengqing Jiang,Zhangchen Xu,Luyao Niu… 发布于:arxiv 发布时间:2024-02-19 级别:无 论文链接: https://aclanthology.org/2024.acl-long.809.pdf 论文代码: 摘要 安全性对于大语言模型(LLMs)的使用至关重要。已经开发了多种技术,如数据过滤和监督微调,以加强语言模型的安全性。然而,目前已知的技术假定用于语言模型安全对齐的语料库仅通过语义来解释。然而,这一假设在实际应用中并不成立,这导致了语言模型中存在严重的漏洞。例如,论坛用户经常使用ASCII艺术(一种基于文本的艺术形式)来传达图像信息。在本文中,我们提出了一种新颖的基于ASCII艺术的越狱攻击,并引入了一个全面的基准文本视觉挑战(VITC),以评估语言模型识别不能仅通过语义解释的提示的能力。我们表明...
BagofTricks: Benchmarking of Jailbreak Attacks on LLMs
英文题目:《BagofTricks: Benchmarking of Jailbreak Attacks on LLMs》 中文题目:《技巧集合:大语言模型越狱攻击的基准测试》 论文作者: Zhao XU,Fan LIU,Hao LIU 发布于: NeurIPS 发布时间:2024-11-06 级别:CFF A 论文链接: https://arxiv.org/pdf/2406.09324 论文代码: 摘要 尽管大型语言模型(LLM)已经显示出在零样本方式下执行复杂任务的能力,但它们容易受到越狱攻击,并且可以被操纵以产生有害输出。最近,越来越多的工作将越狱攻击分为令牌级和提示级攻击。然而,以前的工作主要忽视了越狱攻击的多样关键因素,大部分研究集中在LLM漏洞上,缺乏对防御增强LLM的探索。为了解决这些问题,我们评估了各种攻击设置对LLM性能的影响,并为越狱攻击提供了一个基线基准,鼓励采用标准化的评估框架。具体来说,我们从目标和攻击两个层面评估了LLM上实施越狱攻击的八个关键因素。我们进一步在两个广泛使用的数据集上对六种防御方法进行了七种典型的越狱攻击,涵盖了大约320个实验和大约...
Play Guessing Game with LLM: Indirect Jailbreak Attack with Implicit Clues
英文题目:《Play Guessing Game with LLM: Indirect Jailbreak Attack with Implicit Clues》 中文题目:《与大型语言模型玩猜谜游戏:基于隐式线索的间接越狱攻击》 论文作者: Zhiyuan Chang, Mingyang Li… 发布于: ACL 发布时间:2024-02-14 级别:CFF A 论文链接:https://doi.org/10.18653/v1/2024.findings-acl.304 论文代码: 摘要 随着LLM的发展,LLM的安全威胁越来越受到关注。已经提出了许多越狱攻击来评估LLM的安全防御能力。当前的越狱攻击主要利用场景伪装技术。然而,它们明确提到的恶意意图很容易被LLM识别并防御。在本文中,我们提出了一种间接越狱攻击方法,Puzzler,它可以通过绕过LLM的防御策略并隐式地向LLM提供一些关于原始恶意查询的线索来获得恶意响应。此外,受到孙子兵法中“无法攻击时,就防御”的智慧启发,我们采取了一种防御姿态,通过LLM收集关于原始恶意查询的线索。广泛的实验结果表明,Puzzler在查询...
Dual Hypergraph Convolution Networks for Image Forgery Localization
英文题目:《Dual Hypergraph Convolution Networks for Image Forgery Localization》 中文题目:《双超图卷积网络用于图像伪造定位》 论文作者:Jiahao Huang , Xiaochen Yuan , Wei Ke , and Chan-Tong Lam 发布于: ICPR 发布时间:2024-12-04 级别:CCF-A 论文链接:http://dx.doi.org/10.1007/978-3-031-78312-8_22 论文代码:暂无 摘要 图像编辑技术的不断进步使得伪造图像更容易被创建。不当使用可能导致伪造图像泛滥。为了检测和定位伪造图像中的伪造区域,现有研究利用各种特征视图来捕捉细微的伪造痕迹。然而,**伪造图像表现出复杂的高阶关系,例如区域间的群体相互作用。这种相互作用反映了区域间的不一致性。**因此,我们提出了一种新颖的双超图卷积网络 (DHC-Net),通过使用超图表示群体相互作用来增强伪造区域的定位。DHC-Net 构建区域和边缘超图卷积分支,以优化伪造区域的定位。我们在四个广泛使用的公共数据集...
Learning Discriminative Noise Guidance for Image Forgery Detection and Localization
英文题目:《 Learning Discriminative Noise Guidance for Image Forgery Detection and Localization》 中文题目:《学习判别性噪声引导,用于图像伪造检测和定位》 论文作者:Jiaying Zhu, Dong Li, Xueyang Fu, Gang Yang, Jie Huang, Aiping Liu, Zheng-Jun Zha 发布于: AAAI 发布时间:2024-03-24 级别:CCF-A 论文链接: https://doi.org/10.1609/aaai.v38i7.28608 论文代码:暂无 摘要 本研究提出了一种新的图像伪造检测和定位方法,该方法侧重于噪声域内的篡改痕迹。我们假设RGB图像中几乎不可见的噪声携带着篡改痕迹,有助于区分和定位伪造图像。然而,篡改技术的进步使得噪声直接用于伪造检测变得复杂,因为伪造区域和真实区域之间的噪声不一致性并未得到充分利用。为了解决这个问题,我们开发了一种两步判别式噪声引导方法,以明确增强噪声不一致性的特征表示和利用,从而充分利用噪声信息来提高伪...
Attentive and Contrastive Image Manipulation Localization With Boundary Guidance
英文题目:《Attentive and Contrastive Image Manipulation Localization With Boundary Guidance》 中文题目:《边界引导下的专注对比图像处理定位》 论文作者:Wenxi Liu , Member, IEEE, Hao Zhang , Xinyang Lin , Qing Zhang , Qi Li , Xiaoxiang Liu , Ying Cao 发布于:IEEE Transactions on Information Forensics and Security 发布时间:2024-07-08 级别:CCF-A 论文链接:10.1109/TIFS.2024.3424987 论文代码:暂无 摘要 近年来,图像生成技术的快速发展导致篡改图像被广泛滥用,引发了信任危机,并影响了社会公平。因此,我们的工作目标是检测并定位图像中的篡改区域。许多基于深度学习的方法来解决这个问题,但它们难以处理那些经过手动微调以融入图像背景的篡改区域。通过观察篡改区域的边界对于区分篡改部分和非篡改部分至关重要,我们提出了一种新...
Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers
英文题目:《Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers》 中文题目:《论文摘要攻击:通过大型语言模型安全论文对大型语言模型进行越狱》 论文作者:Liang Lin, Zhihao Xu, Xuehai Tang, Shi Liu, Biyu Zhou, Fuqing Zhu, Jizhong Han, Songlin Hu 发布于: arxiv 发布时间:2025-07-17 级别:无 论文链接:https://doi.org/10.48550/arXiv.2507.13474 论文代码:https://github.com/233liang/Paper-Summary-Attack 摘要 大型语言模型(LLMs)的安全性已引起广泛的研究关注。本文认为,以往的实证研究表明,大型语言模型倾向于信任来自权威来源(如学术论文)的信息,这意味着可能存在新的漏洞。为验证这种可能性,我们设计了一项初步分析以阐明我们的两项发现。基于这一见解,我们提出了一种新颖的越狱方法 —— 论文摘要攻击(PSA)。该方...