WordGame: Efficient & Effective LLM Jailbreak via Simultaneous Obfuscation in Query and Response
英文题目:《WordGame: Efficient & Effective LLM Jailbreak via Simultaneous Obfuscation in Query and Response》 中文题目:《WordGame:基于查询与响应混淆的大语言模型高效越狱攻击方法》 论文作者:Tianrong Zhang, Bochuan Cao, Yuanpu Cao, Lu Lin, Prasenjit Mitra, Jinghui Chen 发布于: arxiv 发布时间:2024-05-22 级别:无 论文链接:https://doi.org/10.48550/arXiv.2405.14023 论文代码:无 摘要 近期,诸如 ChatGPT 等大型语言模型(LLM)取得的重大突破以前所未有的速度革新了生产流程。与此同时,人们也越来越担忧 LLM 容易遭受破解攻击,从而生成有害或不安全的内容。尽管已经在 LLM 中实施了安全对齐措施来减轻现有的破解尝试,并使其变得越来越复杂,但这些措施仍远非完美。在本文中,我们分析了当前安全对齐的常见模式,并表明可以通过在查询...
Enhancing Jailbreak Attacks on LLMs via Persona Prompts
英文题目:《Enhancing Jailbreak Attacks on LLMs via Persona Prompts》 中文题目:《通过角色提示增强大型语言模型(LLMs)的越狱攻击》 论文作者:Zheng Zhang, Peilin Zhao, Deheng Ye, Hao Wang 发布于: arxiv 发布时间:2024-07-28 级别:无 论文链接: https://doi.org/10.48550/arXiv.2507.22171 论文代码:https://github.com/CjangCjengh/Generic_Persona 摘要 越狱攻击旨在通过诱导大型语言模型(LLMs)生成有害内容来利用其漏洞,进而揭示模型的安全缺陷。理解并应对此类攻击对于推动 LLM 安全领域发展至关重要。以往的越狱方法主要聚焦于对有害意图的直接操纵,却较少关注角色提示(persona prompts)的影响。本研究系统探究了角色提示在突破 LLM 防御机制中的有效性,提出一种基于遗传算法的方法,可自动生成角色提示以绕过 LLM 的安全机制。实验结果表明:(1)经进化生成的角色...
PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking
英文题目:《PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking》 中文题目:《PRISM:面向大型视觉语言模型(LVLM)越狱的、基于图像序列操纵的程序化推理》 论文作者:Quanchen Zou, Zonghao Ying, Moyang Chen, Wenzhuo Xu, Yisong Xiao, Yakai Li, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng Zhang 发布于: arxiv 发布时间:2025-07-29 级别:无 论文链接: https://doi.org/10.48550/arXiv.2507.21540 论文代码:无 摘要 大型视觉语言模型(LVLMs)的复杂程度不断提升,与此同时,旨在防止生成有害内容的安全对齐机制也在逐步发展。然而,这些防御机制在复杂的对抗性攻击面前仍显脆弱。现有越狱方法通常依赖直接且语义明确的提示词,却忽视了大型视觉语言模型(LVLMs)在多步推理过程中整合...
ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD
英文题目:《ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD》 中文题目:《物理世界中的对抗性例子》 论文作者:Alexey Kurakin,Ian J. GoodfellowIan & Samy Bengio 发布于:ICLR 发布时间:2017 Feb 11 级别:CCF-A 论文链接: 摘要 大多数现有的机器学习分类器都非常容易受到对抗性例子的攻击。一个对抗性的例子是输入数据的样本,它经过了非常轻微的修改,意在导致机器学习分类器对其进行错误分类。在许多情况下,这些修改可能是如此微妙,以至于人类观察者甚至根本没有注意到修改,但分类器仍然犯下了错误。敌意例子会造成安全问题,因为它们可能被用来对机器学习系统进行攻击,即使对手无法访问底层模型。到目前为止,所有以前的工作都假设了威胁模型,在该模型中,对手可以直接将数据馈送到机器学习分类器中。对于在物理世界中运行的系统来说,情况并不总是这样,例如,那些使用来自摄像机和其他传感器的信号作为输入的系统。这篇论文表明,即使在这样的物理世界场景中,机器学习系统也很容易受到对手例子的攻击。我们通过将...
Deep Neural Networks are Easily Fooled:High Confidence Predictions for Unrecognizable Images
英文题目:《Deep Neural Networks are Easily Fooled:High Confidence Predictions for Unrecognizable Images》 中文题目:《深度神经网络很容易被愚弄:对无法识别的图像进行高置信度预测》 论文作者:Anh Nguyen,Jason Yosinski & Jeff Clune 发布于:CVPR 发布时间:2015 Apr 2 级别:CCFA 论文链接: 摘要 深度神经网络(DNN)最近在各种模式识别任务上取得了最先进的性能,最显著的是视觉分类问题。鉴于DNN现在能够以接近人类水平的性能对图像中的对象进行分类,自然会出现计算机和人类视觉之间存在哪些差异的问题。最近的一项研究[30]显示,以人类无法察觉的方式更改图像(例如,狮子)可能会导致DNN将图像标记为完全不同的东西(例如,错误地将狮子标记为图书馆)。这里我们展示了一个相关的结果:很容易产生人类完全无法识别的图像,但最先进的DNN相信是可识别的对象,置信度为99.99%(例如,确定地标记白噪声静态是一只狮子)。具体地说,我们使用经过训练...
Explaining and Harnessing Adversarial Examples
英文题目:《Explaining and Harnessing Adversarial Examples》 中文题目:《解释和利用对抗性》 论文作者:Ian J.Goodfellow,Jonathon Shlens & Christian Szegedy 发布于:ICLR 发布时间:2015 Mar 20 级别:CCF-A 论文链接: 摘要 Several machine learning models, including neural networks, consistently misclassify adversarial examples—inputs formed by applying small but intentionally worst-case perturbations to examples from the dataset, such that the perturbed in-put results in the model outputting an incorrect answer with high confidence. Earl...
ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs
英文题目:《ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs》 中文题目:《艺术提示:针对对齐语言模型的基于ASCII艺术的越狱攻击》 论文作者: Fengqing Jiang,Zhangchen Xu,Luyao Niu… 发布于:arxiv 发布时间:2024-02-19 级别:无 论文链接: https://aclanthology.org/2024.acl-long.809.pdf 论文代码: 摘要 安全性对于大语言模型(LLMs)的使用至关重要。已经开发了多种技术,如数据过滤和监督微调,以加强语言模型的安全性。然而,目前已知的技术假定用于语言模型安全对齐的语料库仅通过语义来解释。然而,这一假设在实际应用中并不成立,这导致了语言模型中存在严重的漏洞。例如,论坛用户经常使用ASCII艺术(一种基于文本的艺术形式)来传达图像信息。在本文中,我们提出了一种新颖的基于ASCII艺术的越狱攻击,并引入了一个全面的基准文本视觉挑战(VITC),以评估语言模型识别不能仅通过语义解释的提示的能力。我们表明...
BagofTricks: Benchmarking of Jailbreak Attacks on LLMs
英文题目:《BagofTricks: Benchmarking of Jailbreak Attacks on LLMs》 中文题目:《技巧集合:大语言模型越狱攻击的基准测试》 论文作者: Zhao XU,Fan LIU,Hao LIU 发布于: NeurIPS 发布时间:2024-11-06 级别:CFF A 论文链接: https://arxiv.org/pdf/2406.09324 论文代码: 摘要 尽管大型语言模型(LLM)已经显示出在零样本方式下执行复杂任务的能力,但它们容易受到越狱攻击,并且可以被操纵以产生有害输出。最近,越来越多的工作将越狱攻击分为令牌级和提示级攻击。然而,以前的工作主要忽视了越狱攻击的多样关键因素,大部分研究集中在LLM漏洞上,缺乏对防御增强LLM的探索。为了解决这些问题,我们评估了各种攻击设置对LLM性能的影响,并为越狱攻击提供了一个基线基准,鼓励采用标准化的评估框架。具体来说,我们从目标和攻击两个层面评估了LLM上实施越狱攻击的八个关键因素。我们进一步在两个广泛使用的数据集上对六种防御方法进行了七种典型的越狱攻击,涵盖了大约320个实验和大约...
Play Guessing Game with LLM: Indirect Jailbreak Attack with Implicit Clues
英文题目:《Play Guessing Game with LLM: Indirect Jailbreak Attack with Implicit Clues》 中文题目:《与大型语言模型玩猜谜游戏:基于隐式线索的间接越狱攻击》 论文作者: Zhiyuan Chang, Mingyang Li… 发布于: ACL 发布时间:2024-02-14 级别:CFF A 论文链接:https://doi.org/10.18653/v1/2024.findings-acl.304 论文代码: 摘要 随着LLM的发展,LLM的安全威胁越来越受到关注。已经提出了许多越狱攻击来评估LLM的安全防御能力。当前的越狱攻击主要利用场景伪装技术。然而,它们明确提到的恶意意图很容易被LLM识别并防御。在本文中,我们提出了一种间接越狱攻击方法,Puzzler,它可以通过绕过LLM的防御策略并隐式地向LLM提供一些关于原始恶意查询的线索来获得恶意响应。此外,受到孙子兵法中“无法攻击时,就防御”的智慧启发,我们采取了一种防御姿态,通过LLM收集关于原始恶意查询的线索。广泛的实验结果表明,Puzzler在查询...
Dual Hypergraph Convolution Networks for Image Forgery Localization
英文题目:《Dual Hypergraph Convolution Networks for Image Forgery Localization》 中文题目:《双超图卷积网络用于图像伪造定位》 论文作者:Jiahao Huang , Xiaochen Yuan , Wei Ke , and Chan-Tong Lam 发布于: ICPR 发布时间:2024-12-04 级别:CCF-A 论文链接:http://dx.doi.org/10.1007/978-3-031-78312-8_22 论文代码:暂无 摘要 图像编辑技术的不断进步使得伪造图像更容易被创建。不当使用可能导致伪造图像泛滥。为了检测和定位伪造图像中的伪造区域,现有研究利用各种特征视图来捕捉细微的伪造痕迹。然而,**伪造图像表现出复杂的高阶关系,例如区域间的群体相互作用。这种相互作用反映了区域间的不一致性。**因此,我们提出了一种新颖的双超图卷积网络 (DHC-Net),通过使用超图表示群体相互作用来增强伪造区域的定位。DHC-Net 构建区域和边缘超图卷积分支,以优化伪造区域的定位。我们在四个广泛使用的公共数据集...