Dense Feature Interaction Network for Image Inpainting Localization
英文题目:《Dense Feature Interaction Network for Image Inpainting Localization》
中文题目:《用于图像修复定位的密集特征交互网络》
论文作者:Haifeng Zhang; Qinghui He; Xiuli Bi; Weisheng Li; Bo Liu; Bin Xiao
发布于:CVPR
发布时间:2025-06-10
级别:CCF-A
摘要
即填充图像中缺失区域的过程,是一种常见的图像编辑技术。在恶意篡改图像中,修复可用于隐藏或改变图像内容,从而推动图像修复检测的研究需求。大多数现有方法采用基本的编码器‑解码器结构,这通常导致大量误报或遗漏修复区域,尤其是在处理语义和尺度各异的修复目标时。此外,缺乏有效的方法来捕获边界伪影,导致边缘定位精度较低。在本文中,我们提出了一种基于密集特征交互网络(DeFI‑Net)的图像修复检测新方法。DeFI‑Net采用一种新颖的特征金字塔架构,以捕获和增强跨不同阶段的多种尺度表示,从而通过更好地加强特征级交互来提高图像修复检测。此外,该网络可以自适应地引导携带边缘和形状信息的低级特征,以在整合高级语义特征的同时细化篡改区域的定位。使用DeFI‑Net,我们开发了一种结合互补表示的方法,以准确识别修复区域。在七个图像修复数据集上的评估表明,我们的方法在检测不同模型中的图像修复方面具有有效性,并取得了最先进的性能。代码和模型可在Boombb/DeFI-Net_Inpainting获取。
本文聚焦的问题
这篇文章关注的是:如何在图像中准确地“框”出被修补(inpainting)的区域,尤其是在今天大量使用深度学习和扩散模型做智能补图的情况下。主要难点有:
- 伪迹很弱、很隐蔽:相比复制粘贴、拼接等篡改,深度学习补图会尽量保持统计特性一致,视觉上很自然,看不到明显的颜色或纹理断裂。
- 尺度和语义变化很大:既有大块目标被删掉(如车、行人),也有小目标如水印、标志、人物细节被去除,大小位置都不固定。
- 边界难以精准定位:现有方法大多是 encoder–decoder 结构,高层语义占主导,低层的边缘、纹理信息利用不足,容易出现:漏检小区域,范围“糊大一圈”,假阳性过多。
- 多尺度特征交互不足:虽然有些工作用到了多层特征,但交互方式多是简单的上采样拼接或逐级融合,没有真正“密集”地挖掘不同层特征之间的互补关系。
因此,本文的核心问题可以概括为:在多种补图模型和复杂后处理下,如何利用不同层次的特征(低、中、高层)进行充分交互与融合,从而更精确地定位补图区域及其边界?
本文提出的方法
其核心思路是:以 HRNet 为骨干提取多尺度特征后,通过 密集特征金字塔模块(DFPL) 在低、中、高层特征之间进行充分的双向交互,以同时捕获纹理细节和高级语义;再利用 反向边缘注意模块(REAE) 在中低层特征上显式强化补图区域边界处的微弱伪迹,得到更准确的边缘表征;最后由 空间自适应特征融合模块(SA-FF) 在每个空间位置自适应地融合“边界增强后的中低层细节”和高层语义特征,分别预测补图区域掩码和边缘掩码,从而实现对各种补图方式下篡改区域的精准定位。
DFPL 模块
在 HRNet 提取出的低、中、高层特征之间,做双向、密集的上下层交互,而不是简单地自上而下或逐层相加。这样做可以让低层的纹理、边缘细节和高层的语义信息互相补充;提高网络对各种大小、形状的补图区域的感知能力,避免只对“大块明显篡改”敏感。
REAE 模块
以中层特征为先验,联合中低层特征,生成一个“反向边缘注意图”,突出那些更可能是补图边界的区域,并预测一张边缘掩码。通过REAE 把边界伪迹挖深,强化补图区域边界上非常细微的伪迹(例如轻微模糊、纹理不连续),同时抑制图像中与篡改无关的其他真实边缘,减少假阳性,使边界定位更精确。
SA-FF 模块
输入一份“带边界信息的中低层特征”和一份高层语义特征,通过一个小网络学习出空间位置相关的权重,在每个像素处自适应地决定两种特征的融合比例,最后输出区域掩码。这样做可以按位置“因地制宜”地融合特征,做到在边界附近,多依赖中低层的细节和边缘,在区域内部,多依赖高层语义和整体结构,避免高层特征“一家独大”,导致边界糊、区域外扩。
阅读总结
效果与局限
DeFi-Net在一定程度上能抵抗常见后处理(压缩、轻微模糊、缩放),说明网络确实学到了比较稳定的特征,而不是简单依赖明显伪迹。然而对 TGIF 这类“补图后再带小渐变边界拼回”的数据,依赖噪声特征的 CAT-Net、TruFor 表现更好,说明 DeFI-Net 对噪声域特征利用不足。
个人理解与启发
这篇文章很典型地体现了一个趋势:不要只盯着高层语义,低层细节 + 中层结构 + 高层语义的互补和交互才是关键。
在设计检测网络时,可以把上述论文这三点当作“套路”来用:
- 多层特征要充分交互(类似 DFPL);
- 针对任务特定的关键线索(如边界)设计专门模块(类似 REAE);
- 融合时考虑空间位置的差异(类似 SA-FF),而不是一刀切地加权或拼接。