Salience-Aware Face Presentation Attack Detection via Deep Reinforcement Learning
英文题目:《Salience-Aware Face Presentation Attack Detection via Deep Reinforcement Learning》 中文题目:《基于显著性感知的面部伪装攻击检测——深度强化学习》 论文作者:Bingyao Yu; Jiwen Lu; Xiu Li; Jie Zhou 发布于:TIFS 发布时间:2021-12-14 级别:CCF-A 论文链接:10.1109/TIFS.2021.3135748 论文代码:暂无 摘要 在本文中,我们提出了一种显著性感知面部伪装攻击 检测(SAFPAD)方法,该方法利用深度强化学习来挖掘面部 图像中的显著局部区域信息。大多数现有的深度面部伪装攻击检 测方法从整个图像或几个固定区域提取特征。然而,由于光照和 伪装攻击工具的变化,具有判别性的信息在图像中分布不均,因 此平等对待所有区域无法突出对更准确和鲁棒的面部伪装攻击检 测具有重要意义的判别性信息。为此,我们提出使用深度强化学 习识别具有判别性的显著区域,并专注于这些区域以减轻面部图 像中冗余信息的不利影响。我们融合高级特征和局部特征,...
Towards Universal AI-Generated Image Detection by Variational Information Bottleneck Network
英文题目:《Towards Universal AI-Generated Image Detection by Variational Information Bottleneck Network》
中文题目:《基于变分信息瓶颈网络的通用AI生成图像检测》
论文作者:Haifeng Zhang; Qinghui He; Xiuli Bi; Weisheng Li; Bo Liu; Bin Xiao
发布于:CVPR
发布时间:2025-06-10
级别:CCF-A
论文链接:10.1109/CVPR52734.2025.02219
论文代码:https://github.com/oceanzhf/VIBAIGCDetect
摘要
生成模型的快速发展为生成图像质量显著提升提供了可能。与此同时,它也挑战了信息的真实性和可信度。基于大规模预训练多模态模型的当前生成图像检测方法已取得令人瞩目的成果。尽管这些模型提供 了丰富的特征,但与认证任务相关的特征往往被淹没。 因此,那些与认证任务无关的特征会导致模型学习表 面化的偏差,从而损害其在不同生成模型(例如 GANs和...
Dense Feature Interaction Network for Image Inpainting Localization
英文题目:《Dense Feature Interaction Network for Image Inpainting Localization》
中文题目:《用于图像修复定位的密集特征交互网络》
论文作者:Haifeng Zhang; Qinghui He; Xiuli Bi; Weisheng Li; Bo Liu; Bin Xiao
发布于:CVPR
发布时间:2025-06-10
级别:CCF-A
论文链接:10.1109/CVPR52734.2025.02219
论文代码:Boombb/DeFI-Net_Inpainting
摘要
即填充图像中缺失区域的过程,是一种常见的图像编辑技术。在恶意篡改图像中,修复可用于隐藏或改变图像内容,从而推动图像修复检测的研究需求。大多数现有方法采用基本的编码器‑解码器结构,这通常导致大量误报或遗漏修复区域,尤其是在处理语义和尺度各异的修复目标时。此外,缺乏有效的方法来捕获边界伪影,导致边缘定位精度较低。在本文中,我们提出了一种基于密集特征交互网络(DeFI‑Net)的图像修复检测新方法。DeFI‑Net采用一种新...
Distract Large Language Models for Automatic Jailbreak Attack
英文题目:《Distract Large Language Models for Automatic Jailbreak Attack》
中文题目:《通过分散注意力实现大语言模型的自动越狱攻击》
论文作者:Zeguan Xiao, Yan Yang, Guanhua Chen, Yun Chen
发布于:EMNLP 2024 (CCF A)
论文链接:https://arxiv.org/abs/2403.08424
代码链接:https://github.com/sufenlp/AttanttionShiftJailbreak
摘要
之前已经做了大量工作为使大型语言模型(LLMs)的行为与人类价值观保持一致,业界曾公开发布相关技术。然而,即便经过精心校准的LLMs仍存在被恶意操控的风险,例如通过越狱攻击导致意外行为。本研究提出了一种新型黑盒越狱框架,用于LLMs的自动化红队测试。我们基于对LLMs分心性 和过度自信现象的研究,设计了包含恶意内容隐藏与记忆重构的迭代优化算法,实现对LLMs的自动化越狱。我们通过大规模实验对比开源与专有大模型的越狱攻击,证实了本...
GeneShift: Impact of Different Scenario Shift on Jailbreaking LLM
英文题目:《Geneshift: Impact of different scenario shift on Jailbreaking LLM》
中文题目:《GeneShift:不同场景迁移对大语言模型越狱攻击影响的研究》
论文作者:Tianyi Wu,Zhiwei Xue,Yue Liu,Jiaheng Zhang,Bryan Hooi,See-Kiong Ng
发布于:ICLR 2025(CCF A)
论文链接:http://arxiv.org/abs/2504.08104
代码链接:无
摘要
本文关注大模型越狱攻击中“名义上通过字典检测,但实际上并未提供详细有害信息”的问题。作者发现,许多黑盒越狱方法在字典式评估(只检查回复中是否出现预定义拒绝关键词)下具有较高成功率,但在使用 GPT 作为裁判、综合考虑回答是否真正给出细粒度有害内容时,成功率会显著下降。 为此,文章提出 GeneShift:一种黑盒越狱框架,通过遗传算法自动搜索和组合不同的场景迁移(scenario shift)规则,将原始恶意指令包装为单轮提示词。在保持表面“良性/无害”叙事的同时...
When LLM Meets DRL: Advancing Jailbreaking Efficiency via DRL-guided Search
英文题目:《When LLM Meets DRL: Advancing Jailbreaking Efficiency via DRL-guided Search》 中文题目:《当LLM遇到DRL:通过DRL引导的搜索提升Jailbreaking效率》 论文作者:Xuan Chen, Yuzhou Nie, Wenbo Guo, Xiangyu Zhang 发布于: NeurIPS 发布时间:2024-06-13 级别:CCF-A 论文链接:https://doi.org/10.48550/arXiv.2406.08705 论文代码:https://github.com/ucsb-mlsec/RLbreaker 摘要 最近的研究开发了jailbreaking攻击,该攻击构建jailbreaking提示,以“欺骗”LLM回答有害问题。早期的jailbreaking攻击需要访问模型内部结构或大量的人工干预。更高级的攻击利用遗传算法进行自动和黑盒攻击。然而,遗传算法的随机性大大限制了这些攻击的有效性。在本文中,我们提出了RLbreaker,一种由深度强化学习(DRL)驱动的黑盒jai...
GPTFuzzer: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts
英文题目:《GPTFuzzer: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts》 中文题目:《GPTFuzzer:利用自动生成的越狱提示语对大型语言模型进行红队评估》 论文作者: Jiahao Yu, Xingwei Lin, Zheng Yu, Xinyu Xing 发布于: usenix 发布时间:2023-09-19 级别:CCF-A 论文链接:https://doi.org/10.48550/arXiv.2309.10253 论文代码:https://github.com/sherdencooper/GPTFuzz 摘要 大型语言模型(LLMs)最近获得了极大的欢迎,并被广泛应用于从日常对话到 AI 驱动的编程等领域。然而,尽管 LLMs 取得了相当大的成功,但它们并非完全可靠,并且可能提供关于如何进行有害或非法活动的详细指导。虽然安全措施可以降低此类输出的风险,但对抗性的“jailbreak(越狱)”攻击仍然可以利用 LLMs 来产生有害内容。这些 jailbreak 模...
Towards Modern Image Manipulation Localization: A Large-Scale Dataset and Novel Methods
英文题目:《Towards Modern Image Manipulation Localization: A Large-Scale Dataset and Novel Methods》
中文题目:《迈向现代图像操纵定位:大规模数据集和新方法》
论文作者:Chenfan Qu; Yiwu Zhong; Chongyu Liu; Guitao Xu; Dezhi Peng; Fengjun Guo
发布于:CVPR
发布时间:2024-06-16
级别:CCF-A
论文链接:10.1109/CVPR52733.2024.01025
论文代码:https://github.com/qcf-568/MIML
摘要
近年来,图像操作定位因其在保障社交媒体安全方面的关键作用而受到越来越多的关注。然而,如何准确识别伪造区域仍然是一个开放性的挑战。其中一个主要的瓶颈在于高质量数据的严重匮乏,这归因于其昂贵的创建过程。为了解决这个问题,我们提出了一个新的范式,命名为CAAA,以自动和精确地注释来自网络的大量手工伪造图像。我们进一步提出了一种新的度量指标QES,以方便自动过...
GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher
英文题目:《GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher》 中文题目:《GPT-4 过于聪明,难以保证其安全性:通过密码实现与大型语言模型的隐蔽对话》 论文作者:Youliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Pinjia He, Shuming Shi, Zhaopeng Tu 发布于: arxiv 发布时间:2023-08-12 级别:无 论文链接:https://doi.org/10.48550/arXiv.2308.06463 论文代码:GitHub - RobustNLP/CipherChat: A framework to evaluate the generalization capability of safety alignment for LLMs 摘要 安全性是大型语言模型(LLM)发展的核心所在。在相关研究中,已有大量工作致力于使 LLM 符合人类的伦理和偏好,包括在预训练阶段的数据筛选、监督式微调、...
Mesoscopic Insights: Orchestrating Multi-scale & Hybrid Architecture for Image Manipulation Localization
英文题目:《Mesoscopic Insights: Orchestrating Multi-scale & Hybrid Architecture for Image Manipulation Localization》
中文题目:《介观视角:协调多尺度和混合架构以实现图像操控定位》
论文作者:Xuekang Zhu, Xiaochen Ma, Lei Su1, Zhuohang Jiang,Bo Du, Xiwen Wang, Zeyu Lei, Wentao Feng, Chi-Man Pun, Jizhe Zhou
发布于:AAAI
发布时间:2025-04-11
级别:CCF-A
论文链接:https://doi.org/10.1609/aaai.v39i10.33198
论文代码:https://github.com/scu-zjz/Mesorch
摘要
介观层次在宏观世界和微观世界之间充当了桥梁,解决了两者忽略的鸿沟。图像操纵定位( Image Manipulation Localization,IML )是一种从虚假图像中寻找真相的关...