MUN: Image Forgery Localization Based on M3 Encoder and UN Decoder
英文题目:《MUN: Image Forgery Localization Based on M3 Encoder and UN Decoder》
中文题目:《MUN:基于M3编码器和UN解码器的图像伪造定位》
发布于:Proceedings of the AAAI Conference on Artificial Intelligence
级别:CCF-A
摘要
图像伪造可以完全改变图像的语义信息,并且可以被用于不法目的。在本文中,我们提出了一种名为MUN的新型图像伪造定位网络,该网络由一个M3编码器和一个 UN解码器组成。首先,基于多尺度最大池化查询模块构 建M3 编码器,以提取多线索伪造特征。采用 Noiseprint++ 辅助RGB线索,并讨论了其部署方法。 提出了一种多尺度最大池化查询(MMQ)模块,以整 合RGB和噪声特征。其次,提出了一种新型UN解码器, 从自上而下和自下而上的方向提取层次特征,同时重建 高级和低级特征。第三,我们提出了一个IoU重校准动 态交叉熵(IoUDCE)损失,根据IoU动态调整伪造区 域的权重,可以自适应地平衡真实区域和伪造区域的影 响。最后,我们提出了一种数据增强方法,即偏差噪声 增强(DNA),它获取RGB分布的可访问先验知识,以 提高泛化能力。在公开数据集上的大量实验表明, MUN优于现有技术。
本文聚焦的问题
任务类型:像素级图像伪造定位
应用场景:检测并精确标出图像中被篡改、替换或合成的区域,适用于新闻图片验证、司法取证、社交平台内容审核等。
痛点问题:
- 伪造痕迹分布多样:有的表现为高层语义不一致(RGB线索),有的表现为低层相机噪声破坏(Noiseprint++线索)。
- 单一特征源(仅 RGB 或仅噪声)容易在部分伪造类型下失效。
- 现有模型对小面积或边界细节的定位不足,且在跨数据集泛化上表现有限。
本文提出的方法
图像伪造可以完全改变图像的语义信息,并且可能被用于不法目的。在本文中,我们提出了一种名为 MUN 的新型图像伪造定位网络,该网络由一个 M3 编码器 和一个 UN 解码器 组成。
-
多尺度最大池化查询(MMQ)模块 & M3 编码器
- 目的:融合 RGB 与 Noiseprint++ 噪声特征,实现多线索伪造特征提取。
- 做法:分别用 ConvNeXt V2 提取 RGB 与噪声特征,使用多尺度 max-pooling 生成查询特征,从 RGB 引导噪声特征的匹配与融合。
-
Noiseprint++ 的部署优化:实验证明“先生成 Noiseprint++ 再 resize”保留了更多噪声细节,提升伪造检测效果。
-
UN 解码器
- U 分支:自底向上聚合低层特征,保留细节边界信息。
- N 分支:自顶向下融合高层特征,保留全局语义一致性。
- 最终在各层拼接融合,实现精细且语义一致的伪造掩码重建。
-
IoU 重校准动态交叉熵(IoUDCE)损失:基于当前 batch 平均 IoU 动态调整伪造像素权重,提升模型在难学区域的关注度。
-
偏差噪声增强(DNA):根据训练集与 ImageNet RGB 分布差异生成定向噪声,分别添加到真实与伪造区域,提高跨数据集泛化性能。
MUN 框架的流程是:输入图像后先生成 Noiseprint++ 噪声图,与 RGB 图像分别送入两套 ConvNeXt V2 编码器提取多层特征;在每一层中,RGB 特征经过多尺度最大池化查询(MMQ)去检索并融合对应的噪声特征,得到多线索融合特征;这些融合特征进入双向 UN 解码器,U 分支自底向上保留细节,N 分支自顶向下保留语义,并在同尺度上融合逐步重建掩码;最终经卷积与 Sigmoid 输出伪造概率图,训练时结合 IoU 重校准动态交叉熵(IoUDCE)和偏差噪声增强(DNA)以提升定位精度与跨域泛化能力。

阅读总结
优点:
- 多线索互补:RGB 捕获直观边界与语义,Noiseprint++ 捕获相机/处理痕迹,把两者结合能更稳健定位各种伪造(拼接、复制粘贴、修补等)。论文实验证明加入噪声分支能提升 F1。
- 双向解码(UN)同时兼顾细节与全局:U 分支注重细节(边界),N 分支注重语义(整体一致性),二者并行融合,能更准确地重建掩码边缘和区域形状。
缺点: 极端后处理条件下的鲁棒性不足:在强 JPEG 压缩、剧烈缩放或模糊等恶劣条件下,模型性能仍会显著衰减,说明其对高破坏性失真的适应性有待提升。