Dense Feature Interaction Network for Image Inpainting Localization

英文题目：《Dense Feature Interaction Network for Image Inpainting Localization》

中文题目：《用于图像修复定位的密集特征交互网络》

论文作者：Haifeng Zhang; Qinghui He; Xiuli Bi; Weisheng Li; Bo Liu; Bin Xiao

发布于：CVPR

发布时间：2025-06-10

级别：CCF-A

论文链接：10.1109/CVPR52734.2025.02219

论文代码：Boombb/DeFI-Net_Inpainting

摘要

即填充图像中缺失区域的过程，是一种常见的图像编辑技术。在恶意篡改图像中，修复可用于隐藏或改变图像内容，从而推动图像修复检测的研究需求。大多数现有方法采用基本的编码器‑解码器结构，这通常导致大量误报或遗漏修复区域，尤其是在处理语义和尺度各异的修复目标时。此外，缺乏有效的方法来捕获边界伪影，导致边缘定位精度较低。在本文中，我们提出了一种基于密集特征交互网络（DeFI‑Net）的图像修复检测新方法。DeFI‑Net采用一种新颖的特征金字塔架构，以捕获和增强跨不同阶段的多种尺度表示，从而通过更好地加强特征级交互来提高图像修复检测。此外，该网络可以自适应地引导携带边缘和形状信息的低级特征，以在整合高级语义特征的同时细化篡改区域的定位。使用DeFI‑Net，我们开发了一种结合互补表示的方法，以准确识别修复区域。在七个图像修复数据集上的评估表明，我们的方法在检测不同模型中的图像修复方面具有有效性，并取得了最先进的性能。代码和模型可在Boombb/DeFI-Net_Inpainting获取。

本文聚焦的问题

这篇文章关注的是：如何在图像中准确地“框”出被修补（inpainting）的区域，尤其是在今天大量使用深度学习和扩散模型做智能补图的情况下。主要难点有：

伪迹很弱、很隐蔽：相比复制粘贴、拼接等篡改，深度学习补图会尽量保持统计特性一致，视觉上很自然，看不到明显的颜色或纹理断裂。
尺度和语义变化很大：既有大块目标被删掉（如车、行人），也有小目标如水印、标志、人物细节被去除，大小位置都不固定。
边界难以精准定位：现有方法大多是 encoder–decoder 结构，高层语义占主导，低层的边缘、纹理信息利用不足，容易出现：漏检小区域，范围“糊大一圈”，假阳性过多。
多尺度特征交互不足：虽然有些工作用到了多层特征，但交互方式多是简单的上采样拼接或逐级融合，没有真正“密集”地挖掘不同层特征之间的互补关系。

因此，本文的核心问题可以概括为：在多种补图模型和复杂后处理下，如何利用不同层次的特征（低、中、高层）进行充分交互与融合，从而更精确地定位补图区域及其边界？

本文提出的方法

其核心思路是：以 HRNet 为骨干提取多尺度特征后，通过 密集特征金字塔模块（DFPL） 在低、中、高层特征之间进行充分的双向交互，以同时捕获纹理细节和高级语义；再利用 反向边缘注意模块（REAE） 在中低层特征上显式强化补图区域边界处的微弱伪迹，得到更准确的边缘表征；最后由 空间自适应特征融合模块（SA-FF） 在每个空间位置自适应地融合“边界增强后的中低层细节”和高层语义特征，分别预测补图区域掩码和边缘掩码，从而实现对各种补图方式下篡改区域的精准定位。

DFPL 模块

在 HRNet 提取出的低、中、高层特征之间，做双向、密集的上下层交互，而不是简单地自上而下或逐层相加。这样做可以让低层的纹理、边缘细节和高层的语义信息互相补充；提高网络对各种大小、形状的补图区域的感知能力，避免只对“大块明显篡改”敏感。

REAE 模块

以中层特征为先验，联合中低层特征，生成一个“反向边缘注意图”，突出那些更可能是补图边界的区域，并预测一张边缘掩码。通过REAE 把边界伪迹挖深，强化补图区域边界上非常细微的伪迹（例如轻微模糊、纹理不连续），同时抑制图像中与篡改无关的其他真实边缘，减少假阳性，使边界定位更精确。

SA-FF 模块

输入一份“带边界信息的中低层特征”和一份高层语义特征，通过一个小网络学习出空间位置相关的权重，在每个像素处自适应地决定两种特征的融合比例，最后输出区域掩码。这样做可以按位置“因地制宜”地融合特征，做到在边界附近，多依赖中低层的细节和边缘，在区域内部，多依赖高层语义和整体结构，避免高层特征“一家独大”，导致边界糊、区域外扩。

阅读总结

效果与局限

DeFi-Net在一定程度上能抵抗常见后处理（压缩、轻微模糊、缩放），说明网络确实学到了比较稳定的特征，而不是简单依赖明显伪迹。然而对 TGIF 这类“补图后再带小渐变边界拼回”的数据，依赖噪声特征的 CAT-Net、TruFor 表现更好，说明 DeFI-Net 对噪声域特征利用不足。

个人理解与启发

这篇文章很典型地体现了一个趋势：不要只盯着高层语义，低层细节 + 中层结构 + 高层语义的互补和交互才是关键。

在设计检测网络时，可以把上述论文这三点当作“套路”来用：

多层特征要充分交互（类似 DFPL）；
针对任务特定的关键线索（如边界）设计专门模块（类似 REAE）；
融合时考虑空间位置的差异（类似 SA-FF），而不是一刀切地加权或拼接。