LLM Security Group 's Notes

PLeak: Prompt Leaking Attacks against Large Language Model Applications

发表于2025-11-24|模型安全

英文题目：《PLeak: Prompt Leaking Attacks against Large Language Model Applications》中文题目：《PLeak：针对大型语言模型应用的提示词泄露攻击》论文作者：Bo Hui，Haolin Yuan，Neil Gong，Philippe Burlina，Yinzhi Cao 发布于：CCS 2024 论文链接：https://doi.org/10.1145/3658644.3670370 代码链接：https://github.com/BHui97/PLeak 摘要大语言模型（LLM）被广泛封装成各种应用，例如写作助手、问答助手等。每个应用的核心是开发者设计的系统提示词（system prompt），用于定义任务、风格、示例，是高度依赖经验的“应用灵魂”。为了保护 IP，这些系统提示通常对用户隐藏。 Prompt Leaking 就是一类攻击，目标是让 LLM 应用在回答中泄露自己的系统提示。但现有攻击多依赖人工写提示词，迁移性差、效果有限，很难真正“逐字”泄露。本文聚焦的问题 ...

Making Them Ask and Answer: Jailbreaking Large Language Models in Few Queries via Disguise and Reconstruction

发表于2025-11-23|越狱攻击

英文题目：《Making Them Ask and Answer: Jailbreaking Large Language Models in Few Queries via Disguise and Reconstruction》中文题目：《让它们提问和回答：通过伪装和重构，用少量查询破解大型语言模型》论文作者： Tong Liu, Yingjie Zhang, Zhe Zhao, Yinpeng Dong, Guozhu Meng, Kai Chen 发布于： usenix 发布时间：2024-02-28 级别：CCF-A 论文链接：https://doi.org/10.48550/arXiv.2402.18104 论文代码：https://github.com/LLM-DRA/DRA 摘要近年来，大型语言模型（LLMs）在各种任务中都表现出了显著的成功，但LLM的可靠性仍然是一个悬而未决的问题。一个具体的威胁是生成有害或有毒响应的可能性。攻击者可以精心设计对抗性提示，从而诱导LLM产生有害响应。在这项工作中，我们通过识别安全微调中的偏差漏洞，率先...

BaitAttack: Alleviating Intention Shift in Jailbreak Attacks via Adaptive Bait Crafting

发表于2025-11-23|越狱攻击

英文题目：《BaitAttack: Alleviating Intention Shift in Jailbreak Attacks via Adaptive Bait Crafting》中文题目：《BaitAttack：通过自适应诱饵生成缓解越狱攻击中的意图转移》论文作者：Rui Pu, Chaozhuo Li, Rui Ha, Litian Zhang, Lirong Qiu, Xi Zhang 发布于： ACL 发布时间：2024-11-12 级别：无论文链接：https://doi.org/10.18653/v1/2024.emnlp-main.877 论文代码：无摘要越狱攻击（Jailbreak attacks）使恶意查询能够逃避大型语言模型（LLMs）的检测。现有的攻击侧重于精心构建提示（prompts）来伪装有害意图。然而，加入复杂的伪装提示可能会导致“意图转移”（intention shift）的挑战。当提示中的额外语义分散了LLMs的注意力，导致其响应与原始有害意图产生显著偏差时，就会发生意图转移。在本文中，我们提出了一种新颖的组件“诱饵”（bait...

Salience-Aware Face Presentation Attack Detection via Deep Reinforcement Learning

发表于2025-11-20|图像伪造取证

英文题目：《Salience-Aware Face Presentation Attack Detection via Deep Reinforcement Learning》中文题目：《基于显著性感知的面部伪装攻击检测——深度强化学习》论文作者：Bingyao Yu; Jiwen Lu; Xiu Li; Jie Zhou 发布于：TIFS 发布时间：2021-12-14 级别：CCF-A 论文链接：10.1109/TIFS.2021.3135748 论文代码：暂无摘要在本文中，我们提出了一种显著性感知面部伪装攻击检测（SAFPAD）方法，该方法利用深度强化学习来挖掘面部图像中的显著局部区域信息。大多数现有的深度面部伪装攻击检测方法从整个图像或几个固定区域提取特征。然而，由于光照和伪装攻击工具的变化，具有判别性的信息在图像中分布不均，因此平等对待所有区域无法突出对更准确和鲁棒的面部伪装攻击检测具有重要意义的判别性信息。为此，我们提出使用深度强化学习识别具有判别性的显著区域，并专注于这些区域以减轻面部图像中冗余信息的不利影响。我们融合高级特征和局部特征，...

Towards Universal AI-Generated Image Detection by Variational Information Bottleneck Network

发表于2025-11-20|图像伪造取证

英文题目：《Towards Universal AI-Generated Image Detection by Variational Information Bottleneck Network》中文题目：《基于变分信息瓶颈网络的通用AI生成图像检测》论文作者：Haifeng Zhang; Qinghui He; Xiuli Bi; Weisheng Li; Bo Liu; Bin Xiao 发布于：CVPR 发布时间：2025-06-10 级别：CCF-A 论文链接：10.1109/CVPR52734.2025.02219 论文代码：https://github.com/oceanzhf/VIBAIGCDetect 摘要生成模型的快速发展为生成图像质量显著提升提供了可能。与此同时，它也挑战了信息的真实性和可信度。基于大规模预训练多模态模型的当前生成图像检测方法已取得令人瞩目的成果。尽管这些模型提供了丰富的特征，但与认证任务相关的特征往往被淹没。因此，那些与认证任务无关的特征会导致模型学习表面化的偏差，从而损害其在不同生成模型（例如 GANs和...

Distract Large Language Models for Automatic Jailbreak Attack

发表于2025-11-17|模型安全越狱攻击

英文题目：《Distract Large Language Models for Automatic Jailbreak Attack》中文题目：《通过分散注意力实现大语言模型的自动越狱攻击》论文作者：Zeguan Xiao, Yan Yang, Guanhua Chen, Yun Chen 发布于：EMNLP 2024 (CCF A) 论文链接：https://arxiv.org/abs/2403.08424 代码链接：https://github.com/sufenlp/AttanttionShiftJailbreak 摘要之前已经做了大量工作为使大型语言模型（LLMs）的行为与人类价值观保持一致，业界曾公开发布相关技术。然而，即便经过精心校准的LLMs仍存在被恶意操控的风险，例如通过越狱攻击导致意外行为。本研究提出了一种新型黑盒越狱框架，用于LLMs的自动化红队测试。我们基于对LLMs分心性和过度自信现象的研究，设计了包含恶意内容隐藏与记忆重构的迭代优化算法，实现对LLMs的自动化越狱。我们通过大规模实验对比开源与专有大模型的越狱攻击，证实了本...

GeneShift: Impact of Different Scenario Shift on Jailbreaking LLM

发表于2025-11-17|模型安全越狱攻击

英文题目：《Geneshift: Impact of different scenario shift on Jailbreaking LLM》中文题目：《GeneShift：不同场景迁移对大语言模型越狱攻击影响的研究》论文作者：Tianyi Wu，Zhiwei Xue，Yue Liu，Jiaheng Zhang，Bryan Hooi，See-Kiong Ng 发布于：ICLR 2025(CCF A) 论文链接：http://arxiv.org/abs/2504.08104 代码链接：无摘要本文关注大模型越狱攻击中“名义上通过字典检测，但实际上并未提供详细有害信息”的问题。作者发现，许多黑盒越狱方法在字典式评估（只检查回复中是否出现预定义拒绝关键词）下具有较高成功率，但在使用 GPT 作为裁判、综合考虑回答是否真正给出细粒度有害内容时，成功率会显著下降。为此，文章提出 GeneShift：一种黑盒越狱框架，通过遗传算法自动搜索和组合不同的场景迁移（scenario shift）规则，将原始恶意指令包装为单轮提示词。在保持表面“良性/无害”叙事的同时...

When LLM Meets DRL: Advancing Jailbreaking Efficiency via DRL-guided Search

发表于2025-11-14|越狱攻击

英文题目：《When LLM Meets DRL: Advancing Jailbreaking Efficiency via DRL-guided Search》中文题目：《当LLM遇到DRL：通过DRL引导的搜索提升Jailbreaking效率》论文作者：Xuan Chen, Yuzhou Nie, Wenbo Guo, Xiangyu Zhang 发布于： NeurIPS 发布时间：2024-06-13 级别：CCF-A 论文链接：https://doi.org/10.48550/arXiv.2406.08705 论文代码：https://github.com/ucsb-mlsec/RLbreaker 摘要最近的研究开发了jailbreaking攻击，该攻击构建jailbreaking提示，以“欺骗”LLM回答有害问题。早期的jailbreaking攻击需要访问模型内部结构或大量的人工干预。更高级的攻击利用遗传算法进行自动和黑盒攻击。然而，遗传算法的随机性大大限制了这些攻击的有效性。在本文中，我们提出了RLbreaker，一种由深度强化学习（DRL）驱动的黑盒jai...

GPTFuzzer: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts

发表于2025-11-12|越狱攻击

英文题目：《GPTFuzzer: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts》中文题目：《GPTFuzzer：利用自动生成的越狱提示语对大型语言模型进行红队评估》论文作者： Jiahao Yu, Xingwei Lin, Zheng Yu, Xinyu Xing 发布于： usenix 发布时间：2023-09-19 级别：CCF-A 论文链接：https://doi.org/10.48550/arXiv.2309.10253 论文代码：https://github.com/sherdencooper/GPTFuzz 摘要大型语言模型（LLMs）最近获得了极大的欢迎，并被广泛应用于从日常对话到 AI 驱动的编程等领域。然而，尽管 LLMs 取得了相当大的成功，但它们并非完全可靠，并且可能提供关于如何进行有害或非法活动的详细指导。虽然安全措施可以降低此类输出的风险，但对抗性的“jailbreak（越狱）”攻击仍然可以利用 LLMs 来产生有害内容。这些 jailbreak 模...

Towards Modern Image Manipulation Localization: A Large-Scale Dataset and Novel Methods

发表于2025-11-11|图像伪造取证

英文题目：《Towards Modern Image Manipulation Localization: A Large-Scale Dataset and Novel Methods》中文题目：《迈向现代图像操纵定位：大规模数据集和新方法》论文作者：Chenfan Qu; Yiwu Zhong; Chongyu Liu; Guitao Xu; Dezhi Peng; Fengjun Guo 发布于：CVPR 发布时间：2024-06-16 级别：CCF-A 论文链接：10.1109/CVPR52733.2024.01025 论文代码：https://github.com/qcf-568/MIML 摘要近年来，图像操作定位因其在保障社交媒体安全方面的关键作用而受到越来越多的关注。然而，如何准确识别伪造区域仍然是一个开放性的挑战。其中一个主要的瓶颈在于高质量数据的严重匮乏，这归因于其昂贵的创建过程。为了解决这个问题，我们提出了一个新的范式，命名为CAAA，以自动和精确地注释来自网络的大量手工伪造图像。我们进一步提出了一种新的度量指标QES，以方便自动过...