Sugar-Coated Poison: Benign Generation Unlocks Jailbreaking
英文题目:《Sugar-Coated Poison: Benign Generation Unlocks Jailbreaking》
中文题目:《糖衣毒药:良性生成解锁越狱攻击》
论文作者:Yu-Hang Wu, Yu-Jie Xiong, Hao Zhang, Jia-Chen Zhang, Zheng Zhou
发布于:EMNLP 2025 (CCF B)
论文链接:https://aclanthology.org/anthology-files/anthology-files/pdf/findings/2025.findings-emnlp.512.pdf
代码链接:https://github.com/X-Lab-CN/SCP
摘要
本文针对大语言模型(LLMs)的安全机制,揭示了一种被称为防御阈值衰减(Defense Threshold Decay, DTD)的新现象,即随着模型生成良性内容的增加,其对输入指令的关注度会逐渐降低。基于此发现,作者提出了一种名为“糖衣毒药”(Sugar-Coated Poison, SCP)的攻击范式。该方法通过“语...
Harmful Prompt Laundering: Jailbreaking LLMs with Abductive Styles and Symbolic Encoding
英文题目:《Harmful Prompt Laundering: Jailbreaking LLMs with Abductive Styles and Symbolic Encoding》
中文题目:《有害提示洗白:通过溯因风格与符号编码实现对大模型的越狱攻击》
论文作者:Seongho Joo, Hyukhun Koh, Kyomin Jung
发布于:EMNLP 2025 (CCF B)
论文链接:https://arxiv.org/abs/2509.10931
代码链接:附录给出提示内容
摘要
大型语言模型虽然经过了安全对齐(Safety Alignment),但在面对精心伪装的恶意指令时仍显脆弱。本文提出了一种名为 HaPLa (Harmful Prompt Laundering) 的黑盒越狱攻击框架。该方法的核心在于“洗白”有害意图,利用大模型在自回归生成(Autoregressive Generation)和叙事补全上的归纳偏置,绕过现有的防御机制。 HaPLa 包含两个关键策略: 溯因式框架(Abductive Framing) 和 符号编码(S...
Pixel level deep reinforcement learning for accurate and robust medical image segmentation
英文题目:《Pixel level deep reinforcement learning for accurate and robust medical image segmentation》
中文题目:《像素级深度强化学习用于精确和鲁棒的医学图像分割》
论文作者:Yunxin Liu, Di Yuan, Zhenghua Xu, Yuefu Zhan, Hongwei Zhang, Jun Lu& Thomas Lukasiewicz
发布于:Scientific Reports
发布时间:2025-03-10
级别:SCI升级版 综合性期刊3区
论文链接:https://www.nature.com/articles/s41598-025-92117-2
论文代码:暂无
摘要
现有的深度学习方法在医学图像分割方面取得了显著成功。然而,这种成功在很大程度上依赖于堆叠先进的模块和架构,从而形成了一种路径依赖。这种路径依赖是不可持续的,因为它导致模型参数越来越大,部署成本也越来越高。为了打破这种路径依赖,我们引入深度强化学习来提高分割性能。然而,当前...
PixelRL Fully Convolutional Network with Reinforcement Learning for Image Processing
英文题目:《PixelRL Fully Convolutional Network with Reinforcement Learning for Image Processing》
中文题目:《PixelRL 全卷积网络结合强化学习用于图像处理》
论文作者:Ryosuke Furuta,Naoto Inoue,Toshihiko Yamasaki
发布于:TMM
发布时间:2019-07
级别:CCF-A
论文链接:10.1109/TMM.2019.2960636
论文代码:rfuruta/pixelRL
摘要
本文探讨了一个新的问题设置:基于像素级奖励的强化学习(pixelRL)在图像处理中的应用。自从深度Q网络出现以来,深度强化学习(RL)取得了巨大的成功。然而,深度强化学习在图像处理中的应用仍然有限。因此,我们将深度强化学习扩展到pixelRL,以应用于各种图像处理场景。在pixelRL中,每个像素都有一个智能体,该智能体通过执行动作来改变像素值。我们还提出了一种有效的pixelRL学习方法,该方法不仅考虑自身像素的未来状态,还考虑相邻像素的未来状态...
JAILJUDGE: A Comprehensive Jailbreak Judge Benchmark with Multi-Agent Enhanced Explanation Evaluation Framework
英文题目:《JAILJUDGE: A Comprehensive Jailbreak Judge Benchmark with Multi-Agent Enhanced Explanation Evaluation Framework》 中文题目:《JAILJUDGE:一个综合性的越狱评判基准,具有多智能体增强的解释评估框架》 论文作者:Fan Liu, Yue Feng, Zhao Xu, Lixin Su, Xinyu Ma, Dawei Yin, Hao Liu 发布于: arxiv 发布时间:2024-10-18 级别:无 论文链接:https://doi.org/10.48550/arXiv.2410.12855 论文代码:https://github.com/usail-hkust/Jailjudge 摘要 尽管大量的研究工作致力于通过理解和防御越狱攻击来提高大型语言模型(LLM)的安全性,但评估LLM防御越狱攻击的能力也引起了广泛关注。当前的评估方法缺乏可解释性,并且不能很好地推广到复杂场景,导致评估不完整和不准确(例如,直接判断而没有推理可解释性,GPT-4评判...
TOMBRAIDER: Entering the Vault of History to Jailbreak Large Language Models
英文题目:《TOMBRAIDER: Entering the Vault of History to Jailbreak Large Language Models》
中文题目:《TOMBRAIDER:利用历史知识库的多轮大模型越狱攻击框架》
论文作者:Junchen Ding,Jiahao Zhang,Yi Liu,Ziqi Ding,Gelei Deng,Yuekang Li
发布于:EMNLP 2025 (CCF B)
论文链接:https://aclanthology.org/2025.emnlp-main.279/
代码链接:
摘要
TOMBRAIDER 提出了一种基于历史知识、多轮对话、双智能体协同的新型 LLM 越狱框架。作者观察到:很多模型会拒绝直接回答明显危险的问题,但会很乐意在“历史事实”或“艺术作品”语境下,详细讲述相关人物、事件和行为;如果在多轮对话中循序渐进地追问,就有机会把这些历史叙述“拉回”到当下,演化成现实可执行的有害建议。
为系统性利用这种现象,TOMBRAIDER 将越狱过程拆成两个协作 agent:Inspector ...
BERT-ATTACK: Adversarial Attack Against BERT Using BERT
英文题目:《BERT-ATTACK: Adversarial Attack Against BERT Using BERT》 中文题目:《BERT-ATTACK:使用 BERT 对 BERT 的对抗攻击》 论文作者: Linyang Li, Ruotian Ma, Qipeng Guo, Xiangyang Xue, Xipeng Qiu 发布于: EMNLP2020 发布时间:2020-04-21 级别:CCF-B 论文链接:https://doi.org/10.48550/arXiv.2004.09984 论文代码:https://github.com/LinyangLee/BERT-Attack 摘要 对于离散数据(如文本)的对抗攻击已被证明比连续数据(如图像)更具挑战性,因为基于梯度的方法难以生成对抗样本。当前成功的文本攻击方法通常采用字符或单词级别的启发式替换策略,但在大量的可能替换组合空间中找到最佳解决方案,同时保持语义一致性和语言流畅性仍然具有挑战性。在本文中,我们提出 BERT-Attack,这是一种高质量且有效的方法,可以使用以 BERT 为例的预训练掩码语言...
PLeak: Prompt Leaking Attacks against Large Language Model Applications
英文题目:《PLeak: Prompt Leaking Attacks against Large Language Model Applications》
中文题目:《PLeak:针对大型语言模型应用的提示词泄露攻击》
论文作者:Bo Hui,Haolin Yuan,Neil Gong,Philippe Burlina,Yinzhi Cao
发布于:CCS 2024
论文链接:https://doi.org/10.1145/3658644.3670370
代码链接:https://github.com/BHui97/PLeak
摘要
大语言模型(LLM)被广泛封装成各种应用,例如写作助手、问答助手等。每个应用的核心是开发者设计的 系统提示词(system prompt),用于定义任务、风格、示例,是高度依赖经验的“应用灵魂”。为了保护 IP,这些系统提示通常对用户隐藏。 Prompt Leaking 就是一类攻击,目标是让 LLM 应用在回答中泄露自己的系统提示。但现有攻击多依赖人工写提示词,迁移性差、效果有限,很难真正“逐字”泄露。
本文聚焦的问题
...
Making Them Ask and Answer: Jailbreaking Large Language Models in Few Queries via Disguise and Reconstruction
英文题目:《Making Them Ask and Answer: Jailbreaking Large Language Models in Few Queries via Disguise and Reconstruction》
中文题目:《让它们提问和回答:通过伪装和重构,用少量查询破解大型语言模型》
论文作者: Tong Liu, Yingjie Zhang, Zhe Zhao, Yinpeng Dong, Guozhu Meng, Kai Chen
发布于: usenix
发布时间:2024-02-28
级别:CCF-A
论文链接:https://doi.org/10.48550/arXiv.2402.18104
论文代码:https://github.com/LLM-DRA/DRA
摘要
近年来,大型语言模型(LLMs)在各种任务中都表现出了显著的成功,但LLM的可靠性仍然是一个悬而未决的问题。一个具体的威胁是生成有害或有毒响应的可能性。攻击者可以精心设计对抗性提示,从而诱导LLM产生有害响应。在这项工作中,我们通过识别安全微调中的偏差漏洞,率先...
BaitAttack: Alleviating Intention Shift in Jailbreak Attacks via Adaptive Bait Crafting
英文题目:《BaitAttack: Alleviating Intention Shift in Jailbreak Attacks via Adaptive Bait Crafting》 中文题目:《BaitAttack:通过自适应诱饵生成缓解越狱攻击中的意图转移》 论文作者:Rui Pu, Chaozhuo Li, Rui Ha, Litian Zhang, Lirong Qiu, Xi Zhang 发布于: ACL 发布时间:2024-11-12 级别:无 论文链接:https://doi.org/10.18653/v1/2024.emnlp-main.877 论文代码:无 摘要 越狱攻击(Jailbreak attacks)使恶意查询能够逃避大型语言模型(LLMs)的检测。现有的攻击侧重于精心构建提示(prompts)来伪装有害意图。然而,加入复杂的伪装提示可能会导致“意图转移”(intention shift)的挑战。当提示中的额外语义分散了LLMs的注意力,导致其响应与原始有害意图产生显著偏差时,就会发生意图转移。在本文中,我们提出了一种新颖的组件“诱饵”(bait...