英文题目:《 Learning Discriminative Noise Guidance for Image Forgery Detection and Localization》

中文题目:《学习判别性噪声引导,用于图像伪造检测和定位》

论文作者:Jiaying Zhu, Dong Li, Xueyang Fu, Gang Yang, Jie Huang, Aiping Liu, Zheng-Jun Zha

发布于: AAAI

发布时间:2024-03-24

级别:CCF-A

论文链接: https://doi.org/10.1609/aaai.v38i7.28608

论文代码:暂无

摘要

本研究提出了一种新的图像伪造检测和定位方法,该方法侧重于噪声域内的篡改痕迹。我们假设RGB图像中几乎不可见的噪声携带着篡改痕迹,有助于区分和定位伪造图像。然而,篡改技术的进步使得噪声直接用于伪造检测变得复杂,因为伪造区域和真实区域之间的噪声不一致性并未得到充分利用。为了解决这个问题,我们开发了一种两步判别式噪声引导方法,以明确增强噪声不一致性的特征表示和利用,从而充分利用噪声信息来提高伪造检测的准确性和鲁棒性。具体而言,我们首先使用去噪网络和基于统计的约束来增强伪造区域与真实区域的噪声可区分性。然后,我们将模型驱动的引导滤波机制与数据驱动的注意力机制相结合,以创建一个可学习且可区分的噪声引导滤波器。这种复杂的滤波器使我们能够保留从噪声中学习到的伪造区域的边缘。在多个数据集上进行的全面实验表明,我们的方法能够可靠地检测和定位伪造图像,超越了现有的最先进方法。

本文聚焦的问题

传统图像伪造检测在 GAN、VAE 等高质量篡改场景下,篡改痕迹几乎不可见,导致检测困难。

伪造区域与真实区域在噪声分布上存在潜在差异,但这种噪声不一致性往往被弱化或忽略。

如何显式放大并利用噪声不一致性 来提升图像伪造检测与定位的准确性和鲁棒性。

本文提出的方法

  1. 噪声表示学习 (Noise Representation Learning, NRL)噪声表示学习的目标是显式放大真实区域与伪造区域之间的噪声差异。具体做法是:先用去噪网络(CBDNet)对输入图像进行去噪,使得篡改区域和真实区域的噪声特征差异更加明显;随后通过 Bayar 卷积提取噪声特征,并引入基于 Jensen–Shannon 散度的统计约束,将真实噪声和伪造噪声的分布进一步拉开。同时结合粗定位损失,保证噪声特征对伪造检测任务有直接帮助。最终得到的噪声表示不仅更判别性强,而且更能显式揭示篡改区域的边界和痕迹。

  2. 噪声引导网络 (Noise Guided Network, NGNet)噪声引导网络的目标是利用判别性噪声特征来引导 RGB 特征的学习,从而更精准地检测和定位伪造区域。网络采用双分支结构:一条分支处理原始 RGB 图像,另一条分支处理噪声特征。二者通过跨注意力引导滤波器(CAGF)进行融合,CAGF 能自适应地计算噪声与 RGB 之间的相关性,并将噪声中的篡改痕迹传递给 RGB 分支,同时保持边缘信息。最终,网络输出伪造区域的定位掩码和整张图像的真假判别结果,实现检测与定位的统一。

该论文提出的图像伪造检测和定位框架的执行流程如下:首先,将输入图像送入去噪网络(如CBDNet),通过噪声估计模块预测噪声水平图,并结合输入图像进行去噪操作,得到去噪后的图像。接着,利用BayarConv从去噪后的图像中提取噪声特征。然后,基于Jensen-Shannon散度的统计约束对噪声特征进行优化,增强伪造区域与真实区域的噪声分布差异,并结合伪造定位的辅助损失进行网络优化。在噪声引导网络中,使用预训练的ResNet-50作为RGB分支的骨干网络,同时将优化后的噪声提取器嵌入噪声分支。通过跨注意力引导滤波器(CAGF)将噪声特征与RGB特征进行融合,CAGF利用跨模态注意力计算噪声和RGB特征的协方差和方差,并基于局部线性关系计算输出,以此增强RGB分支对伪造痕迹的敏感性。最后,经过CAGF处理后的RGB特征被进一步融合和处理,通过卷积层和双线性上采样生成伪造定位掩码,同时使用ConvGeM将定位掩码转换为图像级别的检测结果,以此完成图像伪造的检测和定位任务。

阅读总结

优点

  1. 创新性方法:提出了两步式的判别性噪声引导框架(噪声表示学习 + 噪声引导网络),首次将噪声不一致性显式建模并用于 RGB 特征学习。
  2. 增强噪声判别力:利用去噪网络 + JS 散度约束,成功放大真实区域与伪造区域的噪声分布差异,提升了伪造检测的可解释性。

缺点:

  1. 对去噪网络依赖较强:噪声表示效果受去噪模型影响较大,不同去噪器的性能差异会导致整体性能波动。
  2. 边界检测仍有改进空间:在复杂场景或高质量篡改下,部分边界细节仍存在模糊或误检。