英文题目:《Exploring Multi-View Pixel Contrast for General and Robust Image Forgery Localization》

中文题目:《探索多视角像素对比度以实现通用且稳健的图像伪造定位》

论文作者:Zijie Lou; Gang Cao; Kun Guo; Lifang Yu; Shaowei Weng

发布于:IEEE Transactions on Information Forensics and Security

发布时间:2025-02-13

级别:CCF-A

论文链接:10.1109/TIFS.2025.3541957

论文代码:https://github.com/multimediaFor/MPC

摘要

图像伪造定位旨在分割图像中的篡改区域,是一项基础而又极具挑战性的数字取证任务。虽然一些基于深度学习的取证方法取得了令人瞩目的成果,**但它们直接学习像素到标签的映射,而没有充分利用特征空间中像素之间的关系。**为了解决这一缺陷,我们提出了一种用于图像伪造定位的多视角逐像素对比算法 (MPC)。具体而言,我们首先使用有监督对比损失对特征提取骨干网络进行预训练,以从图像内、跨尺度和跨模态的角度对像素关系进行建模。这旨在提高类内紧凑性和类间可分离性。然后,使用交叉熵损失对定位头进行微调,从而得到更好的伪造像素定位器。MPC 在三个不同尺度的训练数据集上进行训练,以便与现有的图像伪造定位算法进行全面、公平的比较。在十多个公开数据集上进行的大量测试结果表明,所提出的 MPC 实现了比现有技术更高的泛化性能和鲁棒性。尤其值得注意的是,我们的方法在各种接近真实场景的后处理组合下,以及在应对新颖的智能编辑技术时,都能保持较高的定位精度。最后,全面而详细的消融实验证明了 MPC 的合理性。

本文聚焦的问题

在图像伪造定位中,现有方法大多直接学习 像素 → 标签 的映射(用交叉熵损失),但这样容易忽视 像素之间在特征空间的关系
结果就是:

  • 类内特征可能分散(伪造像素分布得不够集中)
  • 类间特征可能接近(真实与伪造像素混杂)

这会降低模型对 未知数据后处理操作 的鲁棒性

因此,本文引入 对比学习,强制特征空间形成:

  • 类内紧凑(同类像素特征聚集在一起)
  • 类间分离(不同类像素特征彼此远离)

本文提出的方法

MPC 包含两个主要部分:

  1. Backbone 网络:采用 HRFormer 提取多尺度高分辨率特征,保持细粒度的篡改痕迹。
  2. 定位头(Localization Head):由 1×1 卷积组成,用于输出像素级伪造预测图。

三种对比学习视角:

  1. 图像内对比(Within-image Contrast)
    在同一张图像内部,将标签相同的像素特征拉近(例如伪造像素与伪造像素、真实像素与真实像素),将不同标签的像素特征推远。这样能增强模型在单图范围内区分真实与伪造像素的能力,使特征空间具备清晰的类内紧凑与类间分离结构。

  2. 跨尺度对比(Cross-scale Contrast)
    同一张图像在不同尺度特征图中提取的像素特征进行对比,保证同类像素在多尺度下保持一致性。通过这种方式,模型能够更好地适应篡改区域大小不一的情况,从而提升对不同分辨率、不同篡改尺度的鲁棒性。

  3. 跨模态对比(Cross-modality Contrast)
    对同一张图像进行两次特征提取(例如通过 dropout 或数据增强产生不同版本),并在这两个模态之间进行对比。这样既增加了训练样本的多样性,又要求同类像素在不同模态下依然保持接近,从而增强模型对随机扰动和未知数据分布的泛化能力。

两阶段训练策略:

阶段一:对比学习预训练

  • 用上述三种对比损失训练 backbone。

  • 目标:构建有良好结构的特征空间。

阶段二:监督微调

  • 冻结 backbone,训练定位头。
  • 使用改进的交叉熵损失(CE Loss)优化像素分类。

MPC

阅读总结

在特征空间中显式建模像素关系,而不仅仅依赖分类边界。通过三种视角的对比约束,使模型具备 类内紧凑、类间分离 的特性。具备更强的 泛化能力和鲁棒性,在小规模和大规模数据集上都能优于现有方法。