LLM Security Group 's Notes

’Adaptive Perturbation for Adversarial Attack'

发表于2025-10-20|Adversarial attack

英文题目：《Adaptive Perturbation for Adversarial Attack》论文作者：YuanZheng,ZhangJie,JiangZhaoyan,LiLiangliang,ShanShiguang 发布于：IEEE Transactions on Pattern Analysis and Machine Intelligence 发布时间：2024/8 级别：CCF A 论文链接：10.1109/TPAMI.2024.3367773 摘要 In recent years, the security of deep learning models achieves more and more attentions with the rapid development of neural networks, which are vulnerable to adversarial examples.Almost all existing gradient-based attack methods use the sign function in the ...

Jailbroken: How Does LLM Safety Training Fail?

发表于2025-10-19|越狱攻击

英文题目：《Jailbroken: How Does LLM Safety Training Fail?》中文题目：《Jailbroken：LLM安全训练是如何失败的？》论文作者：Alexander Wei, Nika Haghtalab, Jacob Steinhardt 发布于： NIPS 发布时间：2023-07-05 级别：无论文链接：https://doi.org/10.48550/arXiv.2307.02483 论文代码：无摘要大型语言模型（LLM）在安全性和无害性方面进行了训练，但仍然容易受到对抗性滥用，早期版本的ChatGPT中普遍存在的“越狱”（jailbreak）攻击就证明了这一点，这些攻击会引发不良行为。除了认识到这个问题之外，我们还调查了为什么这些攻击会成功以及如何创建它们。我们假设安全训练的两种失败模式：竞争性目标和不匹配的泛化。当模型的能力和安全目标发生冲突时，就会出现竞争性目标；而不匹配的泛化则发生在安全训练未能泛化到存在能力的领域时。我们利用这些失败模式来指导越狱设计，然后针对现有和新设计的攻击评估最先进的模型，包括OpenAI的GP...

Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!

发表于2025-10-18|越狱攻击

英文题目：《Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!》中文题目：《微调对齐的语言模型会降低安全性，即使使用者无意为之！》论文作者：Xiangyu Qi, Yi Zeng, Tinghao Xie, Pin-Yu Chen, Ruoxi Jia, Prateek Mittal, Peter Henderson 发布于： ICLR 2024 发布时间：2023-10-05 级别：CCF-A 论文链接： https://doi.org/10.48550/arXiv.2310.03693 论文代码：无摘要将大型语言模型（LLM）优化以用于下游应用场景通常需要通过进一步的微调来对预训练的 LLM 进行定制。Meta 公开发布了 Llama 模型，并且 OpenAI 提供了用于在自定义数据集上对 GPT-3.5 Turbo 进行微调的 API，这也鼓励了这种做法。但是，这种定制微调所涉及的安全成本是什么呢？我们注意到，尽管现有的安全对齐基础设施可...

Query-efficient Attack for Black-box Image Inpainting Forensics via Reinforcement Learning

发表于2025-10-16|图像伪造取证

英文题目：《Query-efficient Attack for Black-box Image Inpainting Forensics via Reinforcement Learning》中文题目：《基于强化学习的黑盒图像修复取证的高效查询攻击》论文作者：Xianbo Mo; Shunquan Tan; Bin Li; Jiwu Huang 发布于：AAAI 发布时间：2025-04-11 级别：CCF-A 论文链接： https://doi.org/10.1609/aaai.v39i18.34147 论文代码：无摘要最近，图像修复已经成为恶意操纵自然图像的常用工具，这导致了修复取证的快速发展。尽管目前的取证方法已经显示出修复区域的精确定位和对图像后处理操作的可靠鲁棒性，但它们是否能够有效地抵抗现实场景中可能的攻击仍然不清楚。为了识别潜在的缺陷，我们提出了一种新的黑盒反取证框架来攻击修复取证方法，该框架使用强化学习来生成一个查询高效的对抗，命名为RLGC。为此，我们定义强化学习范式，对基于查询的黑盒反取证场景的马尔科夫决策过程进行建模。具体来说，基于动作选择...

Advancements in AI-Generated Content Forensics: A Systematic Literature Review

发表于2025-10-15|图像伪造取证

英文题目：《Advancements in AI-Generated Content Forensics: A Systematic Literature Review》中文题目：《人工智能生成内容取证研究进展：一个系统的文献综述》论文作者：Qiang Xu, Wenpeng Mu, Jianing Li, Tanfeng Sun, Xinghao Jiang 发布于：ACM Computing Surveys 发布时间：2025-07-09 级别：中科院一区论文链接：https://doi.org/10.1145/3760526 论文代码：无摘要人工智能生成内容( AIGC )的快速发展，横跨文本、图像、视频和音频，创造了前所未有的创造力和重大社会风险的双刃剑，包括错误信息和虚假信息。该调查对AIGC检测技术的现状进行了全面和结构化的概述。我们首先回顾了生成模型的发展历程，从基础的GAN到最新的扩散和基于Transformer的架构。然后，我们系统地回顾了所有模态的检测方法，并将其组织成一个新的外部检测和内部检测分类。对于每种模态，我们追溯了从早期基于特征的方法到...

Weak-to-Strong Jailbreaking on Large Language Models

发表于2025-10-14|越狱攻击

英文题目：《Weak-to-Strong Jailbreaking on Large Language Models》中文题目：《大语言模型的弱到强越狱攻击》论文作者： Xuandong Zhao, Xianjun Yang, Tianyu Pang, Chao Du, Lei Li, Yu-Xiang Wang, William Yang Wang 发布于： ICML 发布时间：2025-07-23 级别：无论文链接：https://doi.org/10.48550/arXiv.2401.17256 论文代码：https://github.com/XuandongZhao/weak-to-strong 摘要大型语言模型（LLMs）容易遭受“越狱”攻击，从而产生有害、不道德或带有偏见的文本。然而，现有的“越狱”方法计算成本较高。在本文中，我们提出了“弱到强”越狱攻击，这是一种针对对齐的大型语言模型的高效推理时间攻击，用于生成有害文本。我们的关键思路基于这样的观察：越狱和对齐的模型仅在它们的初始解码分布上有所不同。弱到强攻击的关键技术见解是使用两个较小的模型（一个安全的和...

ReLOAD: Using Reinforcement Learning to Optimize Asymmetric Distortion for Additive Steganography

发表于2025-10-14|图像隐写

英文题目：《ReLOAD: Using Reinforcement Learning to Optimize Asymmetric Distortion for Additive Steganography》中文题目：《Reload：利用强化学习优化非对称失真进行加性隐写》论文作者：Xianbo Mo; Shunquan Tan; Weixuan Tang; Bin Li; Jiwu Huang 发布于：TIFS 发布时间：2023-02-10 级别：CCF-A 论文链接： 10.1109/TIFS.2023.3244094 论文代码：无摘要最近，非加性隐写的成功表明，与对称代价函数相比，非对称失真可以显著提高安全性能。然而，目前已有的加性隐写方法大多仍基于对称失真。在本文中，我们首次对加性隐写的非对称失真进行了优化，并提出了一个基于A3C (异步优势演员-评论家)的隐写框架，称为ReLOAD。ReLOAD由一个执行器和一个评论者组成，前者指导像素级失真调制的动作选择，后者评估调制失真的性能。同时，提出了一种考虑嵌入效应的奖励函数来统一隐写和强化学习的目标，从而可...

DRL-FAS: A Novel Framework Based on Deep Reinforcement Learning for Face Anti-Spoofing

发表于2025-10-12|图像伪造取证

摘要人类在判断人脸样本真伪时，首先会全局浏览样本，然后仔细观察局部区域以获取更具判别性的信息。受此启发，我们针对人脸反欺骗问题，提出了一个基于卷积神经网络 (CNN) 和循环神经网络 (RNN) 的新型框架。具体而言，我们利用深度强化学习，模拟从图像子块中探索人脸欺骗相关信息的行为。我们进一步引入一种循环机制，使用 RNN 从探索到的子块中顺序学习局部信息的表示。最后，为了进行分类，我们将局部信息与全局信息融合，全局信息可以通过 CNN 从原始输入图像中学习到。此外，我们进行了大量的实验，包括消融研究和可视化分析，以在各种公共数据库上评估我们提出的框架。实验结果表明，我们的方法在所有场景中通常都能达到最佳性能，证明了其有效性。本文聚焦的问题该论文旨在解决人脸反欺骗（Face Anti-Spoofing, FAS）中的判别性特征提取与泛化能力不足的问题。具体而言，论文关注以下核心挑战：欺骗线索的多样性：攻击样本可能呈现多种欺骗线索（如纸张边界、屏幕边框、反光、摩尔纹等），这些线索可能出现在图像的任何区域，且在不同攻击类型中表现各异。传统方法或单一全局特征难以覆盖所有情况...

MUN:ImageForgery Localization Based on M3 Encoder and UN Decoder

发表于2025-09-20|精读文章图像伪造取证

运用强化学习构建图像篡改定位的决策环境

发表于2025-09-20|精读文章图像伪造取证