Towards Modern Image Manipulation Localization: A Large-Scale Dataset and Novel Methods

英文题目：《Towards Modern Image Manipulation Localization: A Large-Scale Dataset and Novel Methods》

中文题目：《迈向现代图像操纵定位：大规模数据集和新方法》

论文作者：Chenfan Qu; Yiwu Zhong; Chongyu Liu; Guitao Xu; Dezhi Peng; Fengjun Guo

发布于：CVPR

发布时间：2024-06-16

级别：CCF-A

论文链接：10.1109/CVPR52733.2024.01025

论文代码：https://github.com/qcf-568/MIML

摘要

近年来，图像操作定位因其在保障社交媒体安全方面的关键作用而受到越来越多的关注。然而，如何准确识别伪造区域仍然是一个开放性的挑战。其中一个主要的瓶颈在于高质量数据的严重匮乏，这归因于其昂贵的创建过程。为了解决这个问题，我们提出了一个新的范式，命名为CAAA，以自动和精确地注释来自网络的大量手工伪造图像。我们进一步提出了一种新的度量指标QES，以方便自动过滤不可靠的注释。利用CAAA和QES，我们构建了一个包含123，150张带有掩码标注的人工伪造图像的大规模、多样化、高质量的数据集。 此外，我们开发了一个新的模型APSCNet用于精确的图像操作定位。根据大量的实验，我们的数据集显著地提高了各种模型在广泛使用的基准上的性能，这些改进归因于我们提出的有效方法。数据集和代码公开于https://github.com/qcf-568/MIML。

本文聚焦的问题

在缺乏大规模高质量人工标注的前提下，如何设计可靠的自动标注机制，为互联网上大量真实篡改图像自动生成精确的篡改区域标注，并据此训练出在真实复杂场景中仍具备强泛化能力的图像篡改定位模型。

本文提出的方法

本文的核心方法就是：先设计一个更聪明的“自动打标签系统”（CAAA+QES）从网上薅来海量高质量篡改数据集 MIML，再在这个数据集上训练一个更强的篡改定位模型 APSC-Net。

CAAA模块

系统首先接收一对“原始图像与篡改图像”，首要步骤并非直接进行篡改区域搜索，而是通过一个分类器对该图像对进行分流，判断其属于“在同一张图像上进行局部添加或修改”的 SPG 类型，还是“从一幅图像中拷贝内容并粘贴到另一幅图像上”的 SDG 类型。对于 SPG 情形，系统将原始图像、篡改图像及其差分图在通道维度进行拼接，输入至语义分割网络，由网络在语义约束下对差分信息进行降噪，进而提取出真正发生篡改的区域；对于 SDG 情形，系统分别从两幅图像中提取多尺度特征，并在不同层级特征之间执行跨层匹配，以在特征空间中“搜索”那些尽管经历了缩放、裁剪或位移，但在语义上仍对应同一前景目标的区域，据此定位被拷贝或被粘贴的图像区域。通过这种“先分流、后对症建模”的设计，上下两条分支分别针对各自典型的篡改模式输出像素级篡改掩码，这些掩码可视为系统为海量网络篡改图像自动生成的高质量标注，为后续训练性能更强、泛化性更优的篡改定位模型提供了数据支撑。

QES质量评估

通俗一点说，它做了两件事：

看模型有多自信：模型对每个像素都会给一个“是篡改”的概率，先把那些概率比较高的像素当作“高置信区域”。
看高置信区域占比：QES ≈ “高置信区域的面积 / 整个预测前景区域的面积”。这个比例越大，说明大部分被预测为篡改的像素，模型都是比较自信的，掩码边界也更清晰，质量更可靠。

最后，只保留 QES 得分高的掩码作为训练数据，得分太低的自动标注就直接过滤掉，用这个办法提升整套自动标注数据的可信度。

设计的篡改定位模型（APSC-Net），整体可以理解成三层结构：第一层是 backbone 特征提取网络，从图像中提取多尺度的语义特征；中间是一块自适应感知模块（APM），根据当前图像内容自动调整不同尺度特征的权重，相当于在“看整体”和“看细节”之间智能切换；最后是一块自校准模块（SCM），先给出一个初步篡改区域，再利用局部细节和全局一致性对这个结果进行二次校准，修正边界和遗漏区域。之所以这样设计，是因为真实场景下的篡改既可能是很小的细节改动，也可能是大范围结构修改，单一尺度很难兼顾，而且模型初次预测往往粗糙，通过“多尺度自适应 + 结果自校准”这两步，可以明显提高在复杂、真实篡改图像上的精度和鲁棒性。

阅读总结

优点

本文的优势在于从方法与数据两端同时发力：通过类别感知的 CIML 范式 CAAA 与质量评估指标 QES，实现了对大规模网络手工篡改图像的高质量自动标注，并据此构建了现代风格、规模庞大的 MIML 数据集，显著提升了包括 APSC-Net 在内的多种 IML 模型在真实基准上的泛化性能。

缺点

该框架仍依赖于原始图像与篡改图像成对存在，自动标注在 SDG 场景中仍不可避免地包含噪声，且目前数据与模型对细粒度、非显式篡改类型的覆盖和刻画仍有不足。未来可结合自监督与主动学习扩展至无配对图像场景，设计更细粒度的不确定性驱动质量评估策略。