CatmullRom Splines-Based Regression for Image Forgery Localization
英文题目:《CatmullRom Splines-Based Regression for Image Forgery Localization》
中文题目:《基于CatmullRom样条的图像伪造定位回归》
发布于: AAAI
级别:CCF-A
摘要
图像伪造定位(IFL)有助于数字媒体取证。然而,许多方法存在误检(即FP)和不准确的边界问题。在本文中,我们提出了基于CatmullRom样条的回归网络( CSR‑Net),它首先从回归的角度重新思考IFL任务以 解决这一问题。具体而言,我们提出了一种自适应的 CatmullRom样条拟合方案,用于粗略定位伪造区域。 然后,对于误报情况,我们首先开发了一种新的重新评分机制,旨在过滤掉在分类分支和实例分支上都无法产 生响应的样本。随后,为了进一步限制边界,我们设计了一个可学习的纹理提取模块,该模块通过解耦水平和垂直伪造特征来提取更鲁棒的轮廓表示,从而抑制FP。 与基于分割的方法相比,我们的方法简单有效,因为无需后处理。大量实验表明,CSR‑Net在标准自然图像数 据集和社交媒体数据集上均优于现有最先进方法。
本文聚焦的问题
本文聚焦于解决图像取证方法中存在误报和不准确的边界问题。
- 误报:指的是测试结果指示存在一个令人满意的靶区,但实际上并不令人信服。然而,许多方法在关注潜在的篡改区域时,通常忽略了误报率。这对数字内容的传播产生负面影响,影响相关新闻来源的盈利能力,从而限制了实验结果在更具说服力方向上的发展。
- 边界不准确问题:传统的基于分割的方法在连续的解码器层之间存在不一致的掩码预测,这导致优化目标不一致以及特征空间耦合较弱。另一方面,当直接将通用回归方法引入处理任务时,定位效果也不令人满意,因为使用的边界框只能以四边形的方式定位目标区域,而目标区域通常主要出现在不规则曲线上。日益复杂的篡改图像提出了更大的挑战,因为大多数方法没有约束或明确地建模伪造区域边界,这很容易导致检测结果中其他目标的混合或不兼容的背景。
本文提出的方法
我们采用空洞空间金字塔池化(ASPP)与 ResNet‑50结合来捕获长距离上下文信息和多尺度特征。 这个无锚点卷积神经网络显著简化了我们的任务检测, 并且允许我们获得粗略特征图。稍后,我们使用重新评分机制(CRA)来过滤掉在粗略特征图上突出显示的可疑区域(蓝色部分)的误报样本。最后,我们在水平和垂直方向同时进行纹理提取(通过VTP),以期望获得更精确的边界(绿色部分)。请注意,每个保留的篡改区域将独立由VTP处理。
- CatmullRom 样条检测:该方法将篡改区域的边界用 CatmullRom 样条曲线表示,通过回归曲线的控制点位置来替代传统的像素级分割。训练时,先从掩码边缘提取关键点并用 CatmullRom 样条拟合成闭合曲线(调节张力系数 τ 以平衡贴合度与平滑度),生成曲线参数作为监督信号;推理时,网络直接预测控制点位置,根据预测点重建完整曲线并填充成掩码。这样既能灵活贴合不规则边界,又减少计算量并提升边界精度。
- 综合重评分算法(CRA):CRA 旨在减少误报(False Positives)。它不只依赖分类分支的置信度(CLS),还结合了分割图上的实例响应强度(INS),通过自定义 softmax 将两者综合成新的总分。这样,既能保留在分割图上强响应但分类分偏低的真阳性,也能压低仅分类分高但分割响应弱的假阳性,从而更稳健地筛选出真正的篡改区域。
- 垂直纹理交互感知(VTP):VTP 用于精细化篡改区域边界。它将区域特征分成水平(1×k 卷积)和垂直(k×1 卷积)两个方向独立建模纹理特征,各自生成方向性热图,再通过双向响应一致性筛选边界点。只有在两个方向上都表现明显的点才会保留,这样既能抑制单向噪声,又能得到更准确、更清晰的边界轮廓。
阅读总结
优点:
-
创新性高:首次把**回归式样条拟合(CatmullRom Splines)**引入像素级篡改定位任务,摆脱传统分割对阈值的依赖,边界建模更灵活精准。
-
误报抑制效果好:设计了综合重评分(CRA),结合分类分数和分割响应分数筛选结果,能有效降低 False Positive(假阳性)。
-
边界精度提升明显:引入 垂直纹理交互感知(VTP),分别在水平和垂直方向提取纹理特征,再做双向一致性筛选,让边界更干净清晰。
-
多场景适用性强:在自然图像数据集和社交媒体数据集上都表现优异,特别是复杂形状的篡改区域拟合效果好。
缺点:
- 在特定数据集表现欠佳:Columbia 数据集表现不如某些分割方法,说明跨域泛化能力仍有提升空间。
- 多方向纹理信息不足:VTP 只考虑了水平和垂直方向,斜向或曲面纹理特征捕捉能力有限。