Explaining and Harnessing Adversarial Examples
英文题目:《Explaining and Harnessing Adversarial Examples》 中文题目:《解释和利用对抗性》 论文作者:Ian J.Goodfellow,Jonathon Shlens & Christian Szegedy 发布于:ICLR 发布时间:2015 Mar 20 级别:CCF-A 论文链接: 摘要 Several machine learning models, including neural networks, consistently misclassify adversarial examples—inputs formed by applying small but intentionally worst-case perturbations to examples from the dataset, such that the perturbed in-put results in the model outputting an incorrect answer with high confidence. Earl...
ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs
英文题目:《ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs》 中文题目:《艺术提示:针对对齐语言模型的基于ASCII艺术的越狱攻击》 论文作者: Fengqing Jiang,Zhangchen Xu,Luyao Niu… 发布于:arxiv 发布时间:2024-02-19 级别:无 论文链接: https://aclanthology.org/2024.acl-long.809.pdf 论文代码: 摘要 安全性对于大语言模型(LLMs)的使用至关重要。已经开发了多种技术,如数据过滤和监督微调,以加强语言模型的安全性。然而,目前已知的技术假定用于语言模型安全对齐的语料库仅通过语义来解释。然而,这一假设在实际应用中并不成立,这导致了语言模型中存在严重的漏洞。例如,论坛用户经常使用ASCII艺术(一种基于文本的艺术形式)来传达图像信息。在本文中,我们提出了一种新颖的基于ASCII艺术的越狱攻击,并引入了一个全面的基准文本视觉挑战(VITC),以评估语言模型识别不能仅通过语义解释的提示的能力。我们表明...
BagofTricks: Benchmarking of Jailbreak Attacks on LLMs
英文题目:《BagofTricks: Benchmarking of Jailbreak Attacks on LLMs》 中文题目:《技巧集合:大语言模型越狱攻击的基准测试》 论文作者: Zhao XU,Fan LIU,Hao LIU 发布于: NeurIPS 发布时间:2024-11-06 级别:CFF A 论文链接: https://arxiv.org/pdf/2406.09324 论文代码: 摘要 尽管大型语言模型(LLM)已经显示出在零样本方式下执行复杂任务的能力,但它们容易受到越狱攻击,并且可以被操纵以产生有害输出。最近,越来越多的工作将越狱攻击分为令牌级和提示级攻击。然而,以前的工作主要忽视了越狱攻击的多样关键因素,大部分研究集中在LLM漏洞上,缺乏对防御增强LLM的探索。为了解决这些问题,我们评估了各种攻击设置对LLM性能的影响,并为越狱攻击提供了一个基线基准,鼓励采用标准化的评估框架。具体来说,我们从目标和攻击两个层面评估了LLM上实施越狱攻击的八个关键因素。我们进一步在两个广泛使用的数据集上对六种防御方法进行了七种典型的越狱攻击,涵盖了大约320个实验和大约...
Play Guessing Game with LLM: Indirect Jailbreak Attack with Implicit Clues
英文题目:《Play Guessing Game with LLM: Indirect Jailbreak Attack with Implicit Clues》 中文题目:《与大型语言模型玩猜谜游戏:基于隐式线索的间接越狱攻击》 论文作者: Zhiyuan Chang, Mingyang Li… 发布于: ACL 发布时间:2024-02-14 级别:CFF A 论文链接:https://doi.org/10.18653/v1/2024.findings-acl.304 论文代码: 摘要 随着LLM的发展,LLM的安全威胁越来越受到关注。已经提出了许多越狱攻击来评估LLM的安全防御能力。当前的越狱攻击主要利用场景伪装技术。然而,它们明确提到的恶意意图很容易被LLM识别并防御。在本文中,我们提出了一种间接越狱攻击方法,Puzzler,它可以通过绕过LLM的防御策略并隐式地向LLM提供一些关于原始恶意查询的线索来获得恶意响应。此外,受到孙子兵法中“无法攻击时,就防御”的智慧启发,我们采取了一种防御姿态,通过LLM收集关于原始恶意查询的线索。广泛的实验结果表明,Puzzler在查询...
Dual Hypergraph Convolution Networks for Image Forgery Localization
英文题目:《Dual Hypergraph Convolution Networks for Image Forgery Localization》 中文题目:《双超图卷积网络用于图像伪造定位》 论文作者:Jiahao Huang , Xiaochen Yuan , Wei Ke , and Chan-Tong Lam 发布于: ICPR 发布时间:2024-12-04 级别:CCF-A 论文链接:http://dx.doi.org/10.1007/978-3-031-78312-8_22 论文代码:暂无 摘要 图像编辑技术的不断进步使得伪造图像更容易被创建。不当使用可能导致伪造图像泛滥。为了检测和定位伪造图像中的伪造区域,现有研究利用各种特征视图来捕捉细微的伪造痕迹。然而,**伪造图像表现出复杂的高阶关系,例如区域间的群体相互作用。这种相互作用反映了区域间的不一致性。**因此,我们提出了一种新颖的双超图卷积网络 (DHC-Net),通过使用超图表示群体相互作用来增强伪造区域的定位。DHC-Net 构建区域和边缘超图卷积分支,以优化伪造区域的定位。我们在四个广泛使用的公共数据集...
Learning Discriminative Noise Guidance for Image Forgery Detection and Localization
英文题目:《 Learning Discriminative Noise Guidance for Image Forgery Detection and Localization》 中文题目:《学习判别性噪声引导,用于图像伪造检测和定位》 论文作者:Jiaying Zhu, Dong Li, Xueyang Fu, Gang Yang, Jie Huang, Aiping Liu, Zheng-Jun Zha 发布于: AAAI 发布时间:2024-03-24 级别:CCF-A 论文链接: https://doi.org/10.1609/aaai.v38i7.28608 论文代码:暂无 摘要 本研究提出了一种新的图像伪造检测和定位方法,该方法侧重于噪声域内的篡改痕迹。我们假设RGB图像中几乎不可见的噪声携带着篡改痕迹,有助于区分和定位伪造图像。然而,篡改技术的进步使得噪声直接用于伪造检测变得复杂,因为伪造区域和真实区域之间的噪声不一致性并未得到充分利用。为了解决这个问题,我们开发了一种两步判别式噪声引导方法,以明确增强噪声不一致性的特征表示和利用,从而充分利用噪声信息来提高伪...
Attentive and Contrastive Image Manipulation Localization With Boundary Guidance
英文题目:《Attentive and Contrastive Image Manipulation Localization With Boundary Guidance》 中文题目:《边界引导下的专注对比图像处理定位》 论文作者:Wenxi Liu , Member, IEEE, Hao Zhang , Xinyang Lin , Qing Zhang , Qi Li , Xiaoxiang Liu , Ying Cao 发布于:IEEE Transactions on Information Forensics and Security 发布时间:2024-07-08 级别:CCF-A 论文链接:10.1109/TIFS.2024.3424987 论文代码:暂无 摘要 近年来,图像生成技术的快速发展导致篡改图像被广泛滥用,引发了信任危机,并影响了社会公平。因此,我们的工作目标是检测并定位图像中的篡改区域。许多基于深度学习的方法来解决这个问题,但它们难以处理那些经过手动微调以融入图像背景的篡改区域。通过观察篡改区域的边界对于区分篡改部分和非篡改部分至关重要,我们提出了一种新...
Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers
英文题目:《Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers》 中文题目:《论文摘要攻击:通过大型语言模型安全论文对大型语言模型进行越狱》 论文作者:Liang Lin, Zhihao Xu, Xuehai Tang, Shi Liu, Biyu Zhou, Fuqing Zhu, Jizhong Han, Songlin Hu 发布于: arxiv 发布时间:2025-07-17 级别:无 论文链接:https://doi.org/10.48550/arXiv.2507.13474 论文代码:https://github.com/233liang/Paper-Summary-Attack 摘要 大型语言模型(LLMs)的安全性已引起广泛的研究关注。本文认为,以往的实证研究表明,大型语言模型倾向于信任来自权威来源(如学术论文)的信息,这意味着可能存在新的漏洞。为验证这种可能性,我们设计了一项初步分析以阐明我们的两项发现。基于这一见解,我们提出了一种新颖的越狱方法 —— 论文摘要攻击(PSA)。该方...
PUZZLED: Jailbreaking LLMs through Word-Based Puzzles
英文题目:《PUZZLED: Jailbreaking LLMs through Word-Based Puzzles》 中文题目:《PUZZLED:通过基于词语的谜题越狱大型语言模型》 论文作者:Yelim Ahn, Jaejin Lee 发布于: arxiv 发布时间:2024-08-02 级别:无 论文链接: https://doi.org/10.48550/arXiv.2508.01306 论文代码:无 摘要 随着大型语言模型(LLMs)在不同领域日益广泛地部署,确保其安全性已成为一个关键问题。因此,关于越狱攻击(jailbreak attacks)的研究正在积极增长。现有方法通常依赖于迭代式提示工程(iterative prompt engineering)或有害指令的语义转换(semantic transformations of harmful instructions)来规避检测。在本研究中,我们引入了PUZZLED,这是一种新颖的越狱方法,它利用了LLM的推理能力。该方法将有害指令中的关键词进行掩蔽,并将其作为词语谜题(word puzzles)呈现给LLM来...
Highlight & Summarize: RAG without the jailbreaks
英文题目:《Highlight & Summarize: RAG without the jailbreaks》 中文题目:《高亮与总结:无需担心越狱问题的检索增强生成》 论文作者:Giovanni Cherubin, Andrew Paverd 发布于: arxiv 发布时间:2025-08-04 级别:无 论文链接: https://doi.org/10.48550/arXiv.2508.02872 论文代码:https://github.com/microsoft/highlight-summarize 摘要 防止大型语言模型(LLMs)的越狱和模型劫持是一项重要但具有挑战性的任务。例如,在与聊天机器人交互时,恶意用户可能输入精心设计的提示词,促使大语言模型生成不良内容或执行与其预期用途完全不同的任务。针对此类攻击的现有缓解措施通常依赖于强化大语言模型的系统提示词,或使用经过训练的内容分类器来检测不良内容或离题对话。然而,由于可能的输入和不良输出空间非常庞大,这些概率性方法相对容易被绕过。 在本文中,我们提出并评估了 “高亮与总结”(H&S),这是一种用...