M2RL-Net: Multi-View and Multi-Level Relation Learning Network for Weakly-Supervised Image Forgery Detection
英文题目:《M2RL-Net: Multi-View and Multi-Level Relation Learning Network for Weakly-Supervised Image Forgery Detection》
中文题目:《M2RL-Net:用于弱监督图像伪造检测的多视图和多级关系学习网络》
发布于: AAAI
级别:CCF-A
摘要
随着数字媒体操纵变得越来越复杂,在最小监督下准确检测和定位图像伪造已成为一项关键挑战。现有的弱监督图像伪造检测(W-IFD)方法通常依赖于卷积神经网络(CNNs)和对内部关系的有限探索,导致仅使用图像级标签时检测和定位性能较差。为了解决这些局限性,我们为W-IFD引入了一种新的多视角和多级关系学习网络(M²RL-Net)。M²RL-Net通过探索图像不同视角和层次之间的关系,仅使用图像级标注有效地识别伪造图像。具体来说,M²RL-Net在不同视角上实现了补丁级自洽学习(PSL)和特征级对比学习(FCL),促进了更通用的自监督伪造特征学习。详细来说,PSL采用自监督学习来区分图像内部的一致和不一致区域,增强了其准确定位篡改区域的能力。FCL利用特征级自视图和多视图对比学习来区分真实和篡改图像特征,从而提高在不同视角上对真实和篡改内容的识别。在多个数据集上的大量实验表明,M²RL-Net在检测和定位精度方面优于现有的弱监督方法。这项研究为弱监督图像伪造检测设定了新的基准,并为该领域的未来研究奠定了坚实的基础。
本文聚焦的问题
本文聚焦的问题:
- 当今图像伪造检测主要关注完全监督学习以提取篡改的伪影特征,需要大量的像素级标注。虽然在一定程度上有效,但这些方法面临高昂的标注成本和可扩展性问题。
- 传统方法往往无法适应新的篡改类型,基于深度学习的图像伪造检测方法通常在训练数据集上表现良好,但在未知图像上表现显著的性能下降,限制了它们在实际应用的有效性。
鉴于这些挑战,本文提出了一种弱监督图像检测方法-多视图多层级关系学习网络($M_2RL-Net$),
该方法仅需二值图像级标签即可定位伪造区域,无需在训练过程中使用详细的像素级掩码。
本文提出的方法
该框架仅使用图像级真/假标签进行训练。首先,输入图像通过多视图特征表示 (MFR) 模块,同时提取RGB视图(捕捉视觉篡改痕迹)和噪声视图(捕捉底层分布不一致)的特征。接着,利用块级自一致性学习 (PSL) 模块,分析Transformer编码器内部的注意力图,通过自监督方式学习图像块之间的内在一致性关系,帮助定位破坏一致性的伪造区域。同时,特征级对比学习 (FCL) 模块计算并利用“真实”和“伪造”类别的特征原型,在特征空间内通过自视图对比和跨视图对比,拉近同类像素特征、推远异类像素特征,增强特征的判别性。最后,结合图像级分类损失、PSL损失和FCL损失进行联合优化,使模型不仅能输出图像真伪判断,还能生成精确的像素级伪造区域定位图。
阅读总结
这篇论文展示了一种创新的弱监督学习框架,通过多视角、补丁一致性和特征对比 的结合,成功地解决了图像篡改检测中的多个挑战。其贡献不仅体现在方法本身的有效性上,也为今后的弱监督图像分析提供了一个很好的研究方向。