MUN: Image Forgery Localization Based on M3 Encoder and UN Decoder

英文题目：《MUN: Image Forgery Localization Based on M3 Encoder and UN Decoder》

中文题目：《MUN:基于M3编码器和UN解码器的图像伪造定位》

发布于：Proceedings of the AAAI Conference on Artificial Intelligence

级别：CCF-A

论文链接： https://doi.org/10.1609/aaai.v39i6.32606

摘要

图像伪造可以完全改变图像的语义信息，并且可以被用于不法目的。在本文中，我们提出了一种名为MUN的新型图像伪造定位网络，该网络由一个M3编码器和一个 UN解码器组成。首先，基于多尺度最大池化查询模块构建M3 编码器，以提取多线索伪造特征。采用 Noiseprint++ 辅助RGB线索，并讨论了其部署方法。提出了一种多尺度最大池化查询（MMQ）模块，以整合RGB和噪声特征。其次，提出了一种新型UN解码器，从自上而下和自下而上的方向提取层次特征，同时重建高级和低级特征。第三，我们提出了一个IoU重校准动态交叉熵（IoUDCE）损失，根据IoU动态调整伪造区域的权重，可以自适应地平衡真实区域和伪造区域的影响。最后，我们提出了一种数据增强方法，即偏差噪声增强（DNA），它获取RGB分布的可访问先验知识，以提高泛化能力。在公开数据集上的大量实验表明， MUN优于现有技术。

本文聚焦的问题

任务类型：像素级图像伪造定位

应用场景：检测并精确标出图像中被篡改、替换或合成的区域，适用于新闻图片验证、司法取证、社交平台内容审核等。

痛点问题：

伪造痕迹分布多样：有的表现为高层语义不一致（RGB线索），有的表现为低层相机噪声破坏（Noiseprint++线索）。
单一特征源（仅 RGB 或仅噪声）容易在部分伪造类型下失效。
现有模型对小面积或边界细节的定位不足，且在跨数据集泛化上表现有限。

本文提出的方法

图像伪造可以完全改变图像的语义信息，并且可能被用于不法目的。在本文中，我们提出了一种名为 MUN 的新型图像伪造定位网络，该网络由一个 M3 编码器 和一个 UN 解码器 组成。

多尺度最大池化查询（MMQ）模块 & M3 编码器
- 目的：融合 RGB 与 Noiseprint++ 噪声特征，实现多线索伪造特征提取。
- 做法：分别用 ConvNeXt V2 提取 RGB 与噪声特征，使用多尺度 max-pooling 生成查询特征，从 RGB 引导噪声特征的匹配与融合。
Noiseprint++ 的部署优化：实验证明“先生成 Noiseprint++ 再 resize”保留了更多噪声细节，提升伪造检测效果。
UN 解码器
- U 分支：自底向上聚合低层特征，保留细节边界信息。
- N 分支：自顶向下融合高层特征，保留全局语义一致性。
- 最终在各层拼接融合，实现精细且语义一致的伪造掩码重建。
IoU 重校准动态交叉熵（IoUDCE）损失:基于当前 batch 平均 IoU 动态调整伪造像素权重，提升模型在难学区域的关注度。
偏差噪声增强（DNA）：根据训练集与 ImageNet RGB 分布差异生成定向噪声，分别添加到真实与伪造区域，提高跨数据集泛化性能。

MUN 框架的流程是：输入图像后先生成 Noiseprint++ 噪声图，与 RGB 图像分别送入两套 ConvNeXt V2 编码器提取多层特征；在每一层中，RGB 特征经过多尺度最大池化查询（MMQ）去检索并融合对应的噪声特征，得到多线索融合特征；这些融合特征进入双向 UN 解码器，U 分支自底向上保留细节，N 分支自顶向下保留语义，并在同尺度上融合逐步重建掩码；最终经卷积与 Sigmoid 输出伪造概率图，训练时结合 IoU 重校准动态交叉熵（IoUDCE）和偏差噪声增强（DNA）以提升定位精度与跨域泛化能力。

阅读总结

优点：

多线索互补：RGB 捕获直观边界与语义，Noiseprint++ 捕获相机/处理痕迹，把两者结合能更稳健定位各种伪造（拼接、复制粘贴、修补等）。论文实验证明加入噪声分支能提升 F1。
双向解码（UN）同时兼顾细节与全局：U 分支注重细节（边界），N 分支注重语义（整体一致性），二者并行融合，能更准确地重建掩码边缘和区域形状。

缺点： 极端后处理条件下的鲁棒性不足：在强 JPEG 压缩、剧烈缩放或模糊等恶劣条件下，模型性能仍会显著衰减，说明其对高破坏性失真的适应性有待提升。