LLM Security Group 's Notes

AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large Language Models

发表于2025-11-03|模型安全越狱攻击

英文题目：《AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large Language Models》中文题目：《AutoDAN：一种可解释的基于梯度的大型语言模型对抗攻击方法》论文作者：Sicheng Zhu，Ruiyi Zhang，Bang An1，Gang Wu，Joe Barrow，Zichao Wang，Furong Huang，Ani Nenkova，Tong Sun 发布于：NeurIPS 2024(CCF A) 论文链接：http://arxiv.org/abs/2310.15140 代码链接：autodan-jailbreak.github.io/ 摘要大型语言模型（LLMs）的安全性可能因手动越狱攻击和（自动）对抗性攻击而受损。最新研究表明，防御这些攻击是可行的：对抗性攻击会生成无限但不可读的乱码提示，可通过困惑度过滤器检测；手动越狱攻击虽能生成可读提示，但由于需要人工创造力且数量有限，容易被拦截。本文指出这些解决方案可能过于乐观。我们提出AutoDAN——...

GPT-4 Is Too Smart to Be Safe: Stealthy Chat with LLMs via Cipher

发表于2025-11-03|模型安全越狱攻击

英文题目：《GPT-4 Is Too Smart to Be Safe: Stealthy Chat with LLMs via Cipher》中文题目：《GPT-4 太聪明以至于不安全：通过加密语言与大模型进行隐蔽对话》论文作者：Youliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Pinjia He, Shuming Shi, Zhaopeng Tu 发布于：ICLR 2024 论文链接：https://arxiv.org/abs/2308.06463 代码链接：https://github.com/RobustNLP/CipherChat 摘要本文发现大型语言模型（LLMs）在面对加密语言（cipher）输入时，其安全对齐机制（Safety Alignment）会完全失效。研究团队提出了一个系统化框架 CipherChat，用以测试 LLM 是否能在非自然语言环境中维持安全行为。通过在 11 个安全领域（如犯罪、心理健康、侮辱、伦理等）进行中英文实验，作者发现：某些加密形...

MASTERKEY: Automated Jailbreaking of Large Language Model Chatbots

发表于2025-11-01|越狱攻击

英文题目：《MASTERKEY: Automated Jailbreaking of Large Language Model Chatbots》中文题目：《通过注意力转移对大型语言模型进行多轮越狱攻击》论文作者：Gelei Deng, Yi Liu, Yuekang Li, Kailong Wang, Ying Zhang, Zefeng Li, Haoyu Wang, Tianwei Zhang, Yang Liu 发布于： NDSS 发布时间：2023-07-16 级别：CCF-A 论文链接：https://doi.org/10.48550/arXiv.2307.08715 论文代码：无摘要大型语言模型（LLMs）由于其卓越的理解、生成和完成类人文本的能力而迅速普及，LLM 聊天机器人也因此成为非常受欢迎的应用。这些聊天机器人容易受到越狱攻击，即恶意用户操纵提示词，以违反使用策略的方式泄露敏感、专有或有害信息。虽然已经进行了一系列的越狱尝试来揭示这些漏洞，但本文中的实证研究表明，现有方法在主流 LLM 聊天机器人上效果不佳。其效力降低的根本原因似乎是服务提供商为应...

SELFDEFEND: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner

发表于2025-10-31|越狱攻击

英文题目：《SELFDEFEND: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner》中文题目：《SELFDEFEND：LLM 以一种实用的方式防御越狱攻击》论文作者：Xunguang Wang, Daoyuan Wu, Zhenlan Ji, Zongjie Li, Pingchuan Ma, Shuai Wang, Yingjiu Li, Yang Liu, Ning Liu, Juergen Rahmel 发布于： USENIX 发布时间：2024-06-08 级别：CCF-A 论文链接： https://doi.org/10.48550/arXiv.2406.05498 论文代码：null 摘要 Jailbreaking（越狱）是一种新兴的对抗性攻击，它绕过了现成的 (off-the-shelf) 大型语言模型 (LLM) 中部署的安全对齐机制，并且已经演变为多种类别：基于人的、基于优化的、基于生成的，以及最近的间接和多语言越狱。然而，提供一种实用的越狱防御方法是具有挑战性的，...

Rethinking Image Forgery Detection via Soft Contrastive Learning and Unsupervised Clustering

发表于2025-10-31|图像伪造取证

英文题目：《Rethinking Image Forgery Detection via Soft Contrastive Learning and Unsupervised Clustering》中文题目：《通过软对比学习和无监督聚类重新思考图像伪造检测》论文作者：Haiwei Wu; Yiming Chen; Jiantao Zhou; Yuanman Li 发布于： IEEE Transactions on Dependable and Secure Computing 发布时间：2025-06-25 级别：CCF-A 论文链接：10.1109/TDSC.2025.3583167 论文代码：https://github.com/HighwayWu/FOCAL 摘要图像伪造检测的目标是识别并定位图像中的伪造区域。现有的大多数伪造检测算法通过分类问题来区分伪造像素和原始像素。然而，伪造像素与原始像素的定义仅在单个图像内部相对，例如，图像A中的伪造区域在其原始图像B中可能是原始的（拼接伪造）。这种相对定义被现有方法严重忽视，导致不同图像中的伪造（或原始）区域被不必要地归为...

Jailbreaking Black Box Large Language Models in Twenty Queries

发表于2025-10-31|越狱攻击

英文题目：《Jailbreaking Black Box Large Language Models in Twenty Queries》中文题目：《在二十次查询中破解黑盒大型语言模型》论文作者： Patrick Chao, Alexander Robey, Edgar Dobriban, Hamed Hassani, George J. Pappas, Eric Wong 发布于： arxiv 发布时间：2023-10-12 级别：无论文链接： https://doi.org/10.48550/arXiv.2310.08419 论文代码：https://github.com/patrickrchao/JailbreakingLLMs 摘要人们越来越关注确保大型语言模型（LLMs）与人类价值观保持一致。然而，此类模型的一致性很容易受到对抗性jailbreak的攻击，这些攻击会诱使LLM覆盖其安全防护措施。因此，识别这些漏洞有助于理解固有的弱点并防止未来的滥用。为此，我们提出了一种提示自动迭代改进（Prompt Automatic Iterative Refinement...

RAIDX: A Retrieval-Augmented Generation and GRPO Reinforcement Learning Framework for Explainable Deepfake Detection

发表于2025-10-29|图像伪造取证

英文题目：《RAIDX: A Retrieval-Augmented Generation and GRPO Reinforcement Learning Framework for Explainable Deepfake Detection》中文题目：《RAIDX：一种用于可解释深度伪造检测的检索增强生成和GRPO强化学习框架》论文作者： Tianxiao Li, Zhenglin Huang, Haiquan Wen, Yiwei He, Shuchang Lyu, Baoyuan Wu, Guangliang Cheng 发布于：MM ’25: Proceedings of the 33rd ACM International Conference on Multimedia 发布时间：2025-05-20 级别：CCF-A 论文链接：https://doi.org/10.1145/3746027.3754798 论文代码：暂无摘要人工智能生成模型的快速发展使得超逼真图像的创建成为可能，但也因此引发了广泛的虚假信息传播，带来了伦理风险。目前，...

Let Images Speak More: An Efficient Method for Detecting Image Manipulation History

发表于2025-10-29|图像伪造取证

英文题目：《Let Images Speak More: An Efficient Method for Detecting Image Manipulation History》中文题目：《让图像更能“开口说话”：高效检测图像篡改历史的方法》论文作者：Yang Wei; Haowei Liu; Xiaochen Yuan; Xiuli Bi; Bin Xiao 发布于：TCSVT 发布时间：2025-05-20 级别：CCF-B 论文链接：10.1109/TCSVT.2025.3571767 论文代码：https://github.com/CherishL-J/Op-detection 摘要数字图像取证旨在验证数字图像的真实性，已成为一个重要的研究领域。为了揭示图像的篡改历史，现有方法只能检测特定的图像操作，或者基于高维度的通用取证特征。此外，这些方法只有在操作链长度不超过2时表现良好。然而，对于操作链更长、更能代表现实场景的图像，它们的检测精度会显著下降。为了打破这些局限性，我们提出了一种基于直方图和细节图的取证频率特征（FHDM(79D)），它可以区分包含不同...

Jailbreaking? One Step Is Enough

发表于2025-10-27|模型安全攻击与防御

英文题目：《Jailbreaking? One Step Is Enough!》中文题目：《越狱？一步就够！——基于反向嵌入防御机制的LLM越狱方法》作者：Weixiong Zheng, Peijian Zeng, Yiwei Li, Hongyan Wu, Nankai Lin, Junhao Chen, Aimin Yang, Yongmei Zhou 单位：广东工业大学、岭南师范学院、国防科技大学、广东外语外贸大学发布于：ACL 2024（CCF A）论文链接：https://arxiv.org/abs/2412.12621 摘要大型语言模型（LLMs）在多种任务中表现出色，但仍然容易遭受越狱攻击——攻击者通过操纵提示词生成有害输出。研究越狱提示词有助于揭示LLM的缺陷。然而，当前的越狱方法与目标模型的防御机制处于独立对抗的博弈状态，导致攻击需要频繁迭代并针对不同模型重新设计攻击方案。为解决这些问题，我们提出了一种反向嵌入防御攻击（REDA）机制，将攻击意图伪装成针对有害内容的“防御”意图。具体而言，REDA从目标响应出发，引导模型将有害内容嵌入其防御措施中，...

Multi-Turn Jailbreaking Large Language Models via Attention Shifting

发表于2025-10-26|越狱攻击

英文题目：《Multi-Turn Jailbreaking Large Language Models via Attention Shifting》中文题目：《通过注意力转移对大型语言模型进行多轮越狱攻击》论文作者：Xiaohu Du, Fan Mo, Ming Wen, Tu Gu, Huadi Zheng, Hai Jin, Jie Shi 发布于： AAAI-25 发布时间：2025-04-11 级别：CCF-A 论文链接：https://doi.org/10.1609/aaai.v39i22.34553 论文代码：无摘要大型语言模型（LLM）在各种自然语言处理任务中取得了显着的性能，但也带来了安全和道德威胁，因此需要红队和对齐过程来加强它们的安全性。为了有效利用这些对齐的LLM，最近的研究引入了基于多轮对话的越狱攻击。这些攻击旨在通过上下文内容引导LLM生成有害或有偏见的内容。然而，多轮越狱有效性的根本原因仍然不清楚。现有的攻击通常侧重于优化查询和升级毒性以构建对话，缺乏对LLM固有漏洞的彻底分析。在本文中，我们首先对单轮越狱和多轮越狱之间的差异进行了深入分析...