Image Forgery Localization with State Space Models

英文题目：《Image Forgery Localization with State Space Models》

中文题目：《基于状态空间模型的图像伪造定位》

发布于：Computer Vision and Pattern Recognition

级别：暂无

摘要

从篡改图像中进行像素依赖建模对于图像伪造定位至关重要。当前方法主要依赖于卷积神经网络(CNN)或基于 Transformer的模型，这些方法通常要么缺乏足够的感受野，要么涉及显著的计算开销。最近，状态空间模型(SSM)，以 Mamba为例，已成为一种有前景的方法。**它们不仅擅长建模长距离交互，还保持了线性计算复杂度。**在本文中，我们提出了LoMa，一种利用选择性SSM的新型图像伪造定位方法。具体而言，LoMa首先采用空洞选择性扫描遍历空间域，将篡改图像转换为有序的图像块序列，然后应用多方向状态空间建模。此外，引入了一个辅助卷积分支以增强局部特征提取。大量的实验结果验证了LoMa相对于基于CNN和基于 Transformer的最先进方法的优越性。据我们所知，这是第一个基于SSM模型的图像伪造定位模型。我们旨在建立基准，并为未来更高效、更有效的基于SSM的伪造定位模型的发展提供有价值的见解。

本文聚焦的问题

背景

CNN 的局限性
- CNN 的卷积核感受野有限，即使叠很多层，也很难高效捕捉到图像中相距很远的像素之间的关系。
- 在 IFL 中，篡改痕迹可能分布在图像的不同区域，如果只能看“局部”，会漏掉很多信息。
Transformer 的局限性
- 虽然 Transformer 有全局感受野，能处理长距离依赖，但它的计算复杂度是二次方级别（随分辨率迅速膨胀），高分辨率图像处理成本非常高。
- 在图像取证这种需要高分辨率细节的任务里，这种高复杂度很不适合部署和大规模使用。
缺少针对 IFL 的高效全局建模方法
- 之前没有人把 State Space Model（尤其是 Mamba） 引入 IFL 任务。
- Mamba 在 NLP 和部分视觉任务里已经证明能在保持全局感受野的同时，做到线性复杂度，但在图像篡改检测定位上没人验证过。

解决问题

用 Mamba（Selective State Space Model） 在高分辨率阶段建模全局像素依赖关系，结合 CNN 处理低分辨率阶段的局部细节，实现了全局感受野 + 线性计算复杂度，同时提升了定位精度和鲁棒性。

提出的方法

这篇论文提出了一种叫 LoMa 的图像伪造定位方法，核心是用 状态空间模型（State Space Model, SSM） 来替代传统的 CNN 或 Transformer 做全局像素依赖建模。

Atrous Selective Scan（空洞选择扫描）：把图像分成小块（patch），按一定顺序遍历，获得全局像素依赖关系。
多方向状态空间建模：用 Mamba 从不同方向建模图像块间的关系，捕捉全局特征。
辅助卷积分支：弥补 SSM 对局部细节不敏感的缺点。
轻量解码器：融合多层特征，生成像素级伪造区域定位图

具体流程如下：

首先将输入图像切分成小块（patch），并将其转换成向量序列；接着在高分辨率阶段，利用带有空洞选择扫描的混合状态空间模块（Mixed-SSM Block）从多方向扫描这些 patch 序列，以低计算量获取全局像素依赖；随后在低分辨率阶段，引入反向残差块（Inverted Residual Block）提取局部细节特征；然后通过轻量级解码器将不同阶段得到的全局与局部特征融合并逐步上采样，还原成与原图大小一致的伪造概率图；最后通过阈值化生成精确的伪造区域掩码，实现高效且精准的图像篡改定位。

结论

优点

全局感受野 + 低计算量：采用 Mamba 状态空间模型，在保持全局像素依赖建模能力的同时，计算复杂度是线性的，比 Transformer 的二次复杂度低得多，速度和显存占用都有优势。
全局与局部特征兼顾：高分辨率阶段用 SSM 捕捉全局信息，低分辨率阶段用 CNN 弥补局部细节缺失，提升伪造区域边界的精度。

缺点

缺乏多模态信息融合：方法仅利用图像空间信息，没有结合其他线索（如压缩域特征或元数据），在部分复杂伪造类型上可能受限。
对特殊压缩伪迹学习不如专用模型：例如在 Columbia 数据集的 JPEG 压缩场景中，CAT-Net 由于专门学习压缩伪迹反而更强。