文章作者: 伍俊
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 LLM Security Group 's Notes!
相关推荐
2025-10-15
Advancements in AI-Generated Content Forensics: A Systematic Literature Review
英文题目:《Advancements in AI-Generated Content Forensics: A Systematic Literature Review》 中文题目:《人工智能生成内容取证研究进展:一个系统的文献综述》 论文作者:Qiang Xu, Wenpeng Mu, Jianing Li, Tanfeng Sun, Xinghao Jiang 发布于:ACM Computing Surveys 发布时间:2025-07-09 级别:中科院一区 论文链接:https://doi.org/10.1145/3760526 论文代码:无 摘要 人工智能生成内容( AIGC )的快速发展,横跨文本、图像、视频和音频,创造了前所未有的创造力和重大社会风险的双刃剑,包括错误信息和虚假信息。该调查对AIGC检测技术的现状进行了全面和结构化的概述。我们首先回顾了生成模型的发展历程,从基础的GAN到最新的扩散和基于Transformer的架构。然后,我们系统地回顾了所有模态的检测方法,并将其组织成一个新的外部检测和内部检测分类。 对于每种模态,我们追溯了从早期基于特征的方法到...
2025-10-12
DRL-FAS: A Novel Framework Based on Deep Reinforcement Learning for Face Anti-Spoofing
摘要 人类在判断人脸样本真伪时,首先会全局浏览样本,然后仔细观察局部区域以获取更具判别性的信息。受此启发,我们针对人脸反欺骗问题,提出了一个基于卷积神经网络 (CNN) 和循环神经网络 (RNN) 的新型框架。具体而言,我们利用深度强化学习,模拟从图像子块中探索人脸欺骗相关信息的行为。我们进一步引入一种循环机制,使用 RNN 从探索到的子块中顺序学习局部信息的表示。最后,为了进行分类,我们将局部信息与全局信息融合,全局信息可以通过 CNN 从原始输入图像中学习到。此外,我们进行了大量的实验,包括消融研究和可视化分析,以在各种公共数据库上评估我们提出的框架。实验结果表明,我们的方法在所有场景中通常都能达到最佳性能,证明了其有效性。 本文聚焦的问题 该论文旨在解决人脸反欺骗(Face Anti-Spoofing, FAS)中的判别性特征提取与泛化能力不足的问题。具体而言,论文关注以下核心挑战: 欺骗线索的多样性:攻击样本可能呈现多种欺骗线索(如纸张边界、屏幕边框、反光、摩尔纹等),这些线索可能出现在图像的任何区域,且在不同攻击类型中表现各异。传统方法或单一全局特征难以覆盖所有情况...
2025-10-16
Query-efficient Attack for Black-box Image Inpainting Forensics via Reinforcement Learning
英文题目:《Query-efficient Attack for Black-box Image Inpainting Forensics via Reinforcement Learning》 中文题目:《基于强化学习的黑盒图像修复取证的高效查询攻击》 论文作者:Xianbo Mo; Shunquan Tan; Bin Li; Jiwu Huang 发布于:AAAI 发布时间:2025-04-11 级别:CCF-A 论文链接: https://doi.org/10.1609/aaai.v39i18.34147 论文代码:无 摘要 最近,图像修复已经成为恶意操纵自然图像的常用工具,这导致了修复取证的快速发展。尽管目前的取证方法已经显示出修复区域的精确定位和对图像后处理操作的可靠鲁棒性,但它们是否能够有效地抵抗现实场景中可能的攻击仍然不清楚。为了识别潜在的缺陷,我们提出了一种新的黑盒反取证框架来攻击修复取证方法,该框架使用强化学习来生成一个查询高效的对抗,命名为RLGC。为此,我们定义强化学习范式,对基于查询的黑盒反取证场景的马尔科夫决策过程进行建模。 具体来说,基于动作选择...
2025-10-29
RAIDX: A Retrieval-Augmented Generation and GRPO Reinforcement Learning Framework for Explainable Deepfake Detection
英文题目:《RAIDX: A Retrieval-Augmented Generation and GRPO Reinforcement Learning Framework for Explainable Deepfake Detection》
中文题目:《RAIDX:一种用于可解释深度伪造检测的检索增强生成和GRPO强化学习框架》
论文作者: Tianxiao Li, Zhenglin Huang, Haiquan Wen, Yiwei He, Shuchang Lyu, Baoyuan Wu, Guangliang Cheng
发布于:MM ’25: Proceedings of the 33rd ACM International Conference on Multimedia
发布时间:2025-05-20
级别:CCF-A
论文链接:https://doi.org/10.1145/3746027.3754798
论文代码:暂无
摘要
人工智能生成模型的快速发展使得超逼真图像的创建成为可能,但也因此引发了广泛的虚假信息传播,带来了伦理风险。目前,...
2025-10-14
ReLOAD: Using Reinforcement Learning to Optimize Asymmetric Distortion for Additive Steganography
英文题目:《ReLOAD: Using Reinforcement Learning to Optimize Asymmetric Distortion for Additive Steganography》 中文题目:《Reload:利用强化学习优化非对称失真进行加性隐写》 论文作者:Xianbo Mo; Shunquan Tan; Weixuan Tang; Bin Li; Jiwu Huang 发布于:TIFS 发布时间:2023-02-10 级别:CCF-A 论文链接: 10.1109/TIFS.2023.3244094 论文代码:无 摘要 最近,非加性隐写的成功表明,与对称代价函数相比,非对称失真可以显著提高安全性能。然而,目前已有的加性隐写方法大多仍基于对称失真。在本文中,我们首次对加性隐写的非对称失真进行了优化,并提出了一个基于A3C (异步优势演员-评论家)的隐写框架,称为ReLOAD。ReLOAD由一个执行器和一个评论者组成,前者指导像素级失真调制的动作选择,后者评估调制失真的性能。 同时,提出了一种考虑嵌入效应的奖励函数来统一隐写和强化学习的目标,从而可...
2025-11-14
When LLM Meets DRL: Advancing Jailbreaking Efficiency via DRL-guided Search
英文题目:《When LLM Meets DRL: Advancing Jailbreaking Efficiency via DRL-guided Search》 中文题目:《当LLM遇到DRL:通过DRL引导的搜索提升Jailbreaking效率》 论文作者:Xuan Chen, Yuzhou Nie, Wenbo Guo, Xiangyu Zhang 发布于: NeurIPS 发布时间:2024-06-13 级别:CCF-A 论文链接:https://doi.org/10.48550/arXiv.2406.08705 论文代码:https://github.com/ucsb-mlsec/RLbreaker 摘要 最近的研究开发了jailbreaking攻击,该攻击构建jailbreaking提示,以“欺骗”LLM回答有害问题。早期的jailbreaking攻击需要访问模型内部结构或大量的人工干预。更高级的攻击利用遗传算法进行自动和黑盒攻击。然而,遗传算法的随机性大大限制了这些攻击的有效性。在本文中,我们提出了RLbreaker,一种由深度强化学习(DRL)驱动的黑盒jai...
公告
This is my Blog
最新文章