Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!
英文题目:《Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!》 中文题目:《微调对齐的语言模型会降低安全性,即使使用者无意为之!》 论文作者:Xiangyu Qi, Yi Zeng, Tinghao Xie, Pin-Yu Chen, Ruoxi Jia, Prateek Mittal, Peter Henderson 发布于: ICLR 2024 发布时间:2023-10-05 级别:CCF-A 论文链接: https://doi.org/10.48550/arXiv.2310.03693 论文代码:无 摘要 将大型语言模型(LLM)优化以用于下游应用场景通常需要通过进一步的微调来对预训练的 LLM 进行定制。Meta 公开发布了 Llama 模型,并且 OpenAI 提供了用于在自定义数据集上对 GPT-3.5 Turbo 进行微调的 API,这也鼓励了这种做法。但是,这种定制微调所涉及的安全成本是什么呢?我们注意到,尽管现有的安全对齐基础设施可...
Query-efficient Attack for Black-box Image Inpainting Forensics via Reinforcement Learning
英文题目:《Query-efficient Attack for Black-box Image Inpainting Forensics via Reinforcement Learning》 中文题目:《基于强化学习的黑盒图像修复取证的高效查询攻击》 论文作者:Xianbo Mo; Shunquan Tan; Bin Li; Jiwu Huang 发布于:AAAI 发布时间:2025-04-11 级别:CCF-A 论文链接: https://doi.org/10.1609/aaai.v39i18.34147 论文代码:无 摘要 最近,图像修复已经成为恶意操纵自然图像的常用工具,这导致了修复取证的快速发展。尽管目前的取证方法已经显示出修复区域的精确定位和对图像后处理操作的可靠鲁棒性,但它们是否能够有效地抵抗现实场景中可能的攻击仍然不清楚。为了识别潜在的缺陷,我们提出了一种新的黑盒反取证框架来攻击修复取证方法,该框架使用强化学习来生成一个查询高效的对抗,命名为RLGC。为此,我们定义强化学习范式,对基于查询的黑盒反取证场景的马尔科夫决策过程进行建模。 具体来说,基于动作选择...
Advancements in AI-Generated Content Forensics: A Systematic Literature Review
英文题目:《Advancements in AI-Generated Content Forensics: A Systematic Literature Review》 中文题目:《人工智能生成内容取证研究进展:一个系统的文献综述》 论文作者:Qiang Xu, Wenpeng Mu, Jianing Li, Tanfeng Sun, Xinghao Jiang 发布于:ACM Computing Surveys 发布时间:2025-07-09 级别:中科院一区 论文链接:https://doi.org/10.1145/3760526 论文代码:无 摘要 人工智能生成内容( AIGC )的快速发展,横跨文本、图像、视频和音频,创造了前所未有的创造力和重大社会风险的双刃剑,包括错误信息和虚假信息。该调查对AIGC检测技术的现状进行了全面和结构化的概述。我们首先回顾了生成模型的发展历程,从基础的GAN到最新的扩散和基于Transformer的架构。然后,我们系统地回顾了所有模态的检测方法,并将其组织成一个新的外部检测和内部检测分类。 对于每种模态,我们追溯了从早期基于特征的方法到...
Weak-to-Strong Jailbreaking on Large Language Models
英文题目:《Weak-to-Strong Jailbreaking on Large Language Models》 中文题目:《大语言模型的弱到强越狱攻击》 论文作者: Xuandong Zhao, Xianjun Yang, Tianyu Pang, Chao Du, Lei Li, Yu-Xiang Wang, William Yang Wang 发布于: ICML 发布时间:2025-07-23 级别:无 论文链接:https://doi.org/10.48550/arXiv.2401.17256 论文代码:https://github.com/XuandongZhao/weak-to-strong 摘要 大型语言模型(LLMs)容易遭受“越狱”攻击,从而产生有害、不道德或带有偏见的文本。然而,现有的“越狱”方法计算成本较高。在本文中,我们提出了“弱到强”越狱攻击,这是一种针对对齐的大型语言模型的高效推理时间攻击,用于生成有害文本。我们的关键思路基于这样的观察:越狱和对齐的模型仅在它们的初始解码分布上有所不同。弱到强攻击的关键技术见解是使用两个较小的模型(一个安全的和...
ReLOAD: Using Reinforcement Learning to Optimize Asymmetric Distortion for Additive Steganography
英文题目:《ReLOAD: Using Reinforcement Learning to Optimize Asymmetric Distortion for Additive Steganography》 中文题目:《Reload:利用强化学习优化非对称失真进行加性隐写》 论文作者:Xianbo Mo; Shunquan Tan; Weixuan Tang; Bin Li; Jiwu Huang 发布于:TIFS 发布时间:2023-02-10 级别:CCF-A 论文链接: 10.1109/TIFS.2023.3244094 论文代码:无 摘要 最近,非加性隐写的成功表明,与对称代价函数相比,非对称失真可以显著提高安全性能。然而,目前已有的加性隐写方法大多仍基于对称失真。在本文中,我们首次对加性隐写的非对称失真进行了优化,并提出了一个基于A3C (异步优势演员-评论家)的隐写框架,称为ReLOAD。ReLOAD由一个执行器和一个评论者组成,前者指导像素级失真调制的动作选择,后者评估调制失真的性能。 同时,提出了一种考虑嵌入效应的奖励函数来统一隐写和强化学习的目标,从而可...
DRL-FAS: A Novel Framework Based on Deep Reinforcement Learning for Face Anti-Spoofing
摘要 人类在判断人脸样本真伪时,首先会全局浏览样本,然后仔细观察局部区域以获取更具判别性的信息。受此启发,我们针对人脸反欺骗问题,提出了一个基于卷积神经网络 (CNN) 和循环神经网络 (RNN) 的新型框架。具体而言,我们利用深度强化学习,模拟从图像子块中探索人脸欺骗相关信息的行为。我们进一步引入一种循环机制,使用 RNN 从探索到的子块中顺序学习局部信息的表示。最后,为了进行分类,我们将局部信息与全局信息融合,全局信息可以通过 CNN 从原始输入图像中学习到。此外,我们进行了大量的实验,包括消融研究和可视化分析,以在各种公共数据库上评估我们提出的框架。实验结果表明,我们的方法在所有场景中通常都能达到最佳性能,证明了其有效性。 本文聚焦的问题 该论文旨在解决人脸反欺骗(Face Anti-Spoofing, FAS)中的判别性特征提取与泛化能力不足的问题。具体而言,论文关注以下核心挑战: 欺骗线索的多样性:攻击样本可能呈现多种欺骗线索(如纸张边界、屏幕边框、反光、摩尔纹等),这些线索可能出现在图像的任何区域,且在不同攻击类型中表现各异。传统方法或单一全局特征难以覆盖所有情况...
Audio Jailbreak Attacks: Exposing Vulnerabilities in SpeechGPT in a White-Box Frameworkgeneration models
英文题目:《Audio Jailbreak Attacks: Exposing Vulnerabilities in SpeechGPT in a White-Box Frameworkgeneration models》 中文题目:《音频越狱攻击:在白盒框架中揭露语音生成模型“SpeechGPT”的漏洞》 论文作者: Binhao Ma, Hanqing Guo, Zhengping Jay Luo, Rui Duan 发布于: arxiv 发布时间:2025-05-24 级别:无 论文链接: https://doi.org/10.48550/arXiv.2505.18864 论文代码:https://github.com/Magic-Ma-tech/Audio-Jailbreak-Attacks 摘要 多模态大型语言模型(MLLM)的最新进展显著提升了人机交互的自然度和灵活性,使其能够在文本、视觉和音频等多种模态之间实现无缝理解。其中,诸如 SpeechGPT 这类语音驱动的模型在可用性方面取得了显著进步,能够提供富有表现力且能表达情感的交互,从而在现实世界的交流场景中促进...
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
英文题目:《Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning》 中文题目:《Search-R1:利用强化学习训练大型语言模型以进行推理并利用搜索引擎》 论文作者:Bowen Jin, Hansi Zeng, Zhenrui Yue, Jinsung Yoon, Sercan Arik, Dong Wang, Hamed Zamani, Jiawei Han 发布于: COLM 2025 发布时间:2024-08-05 级别:无 论文链接:https://doi.org/10.48550/arXiv.2503.09516 论文代码:https://github.com/PeterGriffinJin/Search-R1 摘要 在大型语言模型(LLM)中,高效获取外部知识和最新信息对于有效的推理和文本生成至关重要。给具备推理能力的先进 LLM 提供提示,使其在推理过程中使用搜索引擎的做法往往并非最佳选择,因为 LLM 可能无法完全掌握如何以最佳方式与搜...