Mf-net: multi-feature fusion network based on two-stream extraction andmulti-scale enhancement for face forgery detection
英文题目:《 Mf-net: multi-feature fusion network based on two-stream extraction
andmulti-scale enhancement for face forgery detection》
中文题目:《Mf‑net:基于双流提取和多尺度增强的多特征融合网络用于人脸伪造检测》
发布于:Home | Complex & Intelligent Systems (springer.com)
级别:中科院2区
论文链接:https://link.springer.com/article/10.1007/s40747-024-01634-6
摘要
由于人脸伪造技术的日益复杂,生成的图像越来越逼真,人眼难以区分。这些人脸伪造技术会在人脸识别和身份 验证领域造成欺诈和社会工程攻击等问题。因此,研究人员致力于人脸伪造检测研究,并取得了显著进展。当前 的人脸伪造检测算法在数据集内部实现了高检测精度。然而,在跨数据集场景中难以实现令人满意的泛化性能。 为了提高模型的跨数据集检测性能,本文提出了一种基于双流提取和多尺度增强的多特征融合网络。首先,我们 设计了一个双流特征提取模块以获取更丰富的特征信息。其次,提出了多尺度特征增强模块,使模型更关注来自 不同尺度的当前子区域的相关信息。最后,伪造检测模块在训练阶段计算输入图像特征与真实图像特征之间的重 叠,以确定伪造区域。该方法鼓励模型挖掘伪造特征,并学习通用且鲁棒的特征,而不局限于特定特征。因此, 模型实现了高检测精度和性能。我们在FaceForensics++和WildDeepfake数据集上实现了99.70%和90.71%的 AUC。在Celeb‑DF‑v2和WildDeepfake数据集上的泛化实验实现了80.16%和65.15%的AUC。与其他基准数据集上的多种方法的对比实验证实了我们提出的方法在保证模型检测精度的同时具有优越的泛化性能。
本文聚焦的问题
场景:数字图像/视频伪造技术(如DeepFakes)的快速发展导致伪造人脸内容高度逼真,难以通过人眼或传统方法识别。
核心问题:现有伪造检测模型在同数据集内(within-dataset) 表现优异(如FF++上AUC >99%),但在跨数据集(cross-dataset) 场景下泛化能力显著下降(如Celeb-DF上AUC仅65-80%)。
主要挑战源于不同伪造方法(如DeepFakes、FaceSwap等)生成的伪造痕迹分布差异大,且图像压缩、噪声等因素会掩盖伪造特征。
本文提出的方法
本文提出了一种基于双流提取和多尺度增强的多特征融合网络 (MF‑Net),MF‑Net由三个模块组成:双流特征提取模块(TFEM)、多尺度特征增强模块(MFEM) 和伪造检测模块(FDM)。旨在高效地解决面部伪造问题, 提高面部伪造检测的准确性和泛化能力。
MF-net流程如下:输入的人脸图像首先经过主干网络提取初步特征,并进入双流特征提取模块(TFEM),其中主分支(TFEM-M)通过多层卷积、下采样与残差计算获取全局和细节特征,注意力分支(TFEM-A)利用注意力机制聚焦易被篡改的关键区域,两路特征融合后得到丰富且针对性强的特征图;随后进入多尺度特征增强模块(MFEM),将特征图切分为多个局部小块(patch),在三种尺度下分别映射、计算相似度并加权融合,从而放大异常区域并保留全局信息;增强特征接着输入伪造检测模块(FDM),其中特征提取层(EL)通过残差结构进一步提炼特征,多尺度检测层(MDM)利用不同大小与比例的锚框扫描特征图、与真脸特征对比计算重叠度并预测伪造置信度热力图;最终分类器依据综合特征输出人脸的真实性判断,实现对多种伪造方式的高精度检测与跨数据集的良好泛化能力。

阅读总结
优点:
- 检测精度与泛化能力兼备:在 FF++ 数据集上 AUC 高达 99.70%,精度优于大多数现有方法。跨数据集(Celeb-DF、WildDeepfake)性能领先同类方法,泛化性较强。
- 鲁棒性较好:对不同压缩质量(c23、c40)的视频保持较高精度,对噪声和压缩失真具有一定抗干扰能力。
缺点:泛化能力仍有提升空间:在WildDeepfake的跨数据集测试中AUC仅65.15%,虽优于对比方法,但距实用化仍有差距。