英文题目:《Generalized Diffusion Detector Mining Robust Features from Diffusion Models for Domain-Generalized Detection》

中文题目:《广义扩散检测器:从扩散模型中挖掘出鲁棒的特征,用于领域广义检测》

论文作者:Boyong He; Yuxiang Ji; Qianwen Ye; Zhuoyue Tan; Liaoni Wu

发布于:CVPR

发布时间:2025-06

级别:CCF-A

论文链接: 10.1109/CVPR52734.2025.00927

论文代码:[heboyong/Generalized-Diffusion-Detector: CVPR2025] Generalized Diffusion Detector: Mining Robust Features from Diffusion Models for Domain-Generalized Detection

摘要

领域泛化 (DG) 目标检测旨在提升检测器在未见过场景下的性能。由于实际应用中的复杂变化,这项任务仍然具有挑战性。近年来,扩散模型在多样化场景生成中展现出卓越的性能,这启发我们探索其在改进 DG 任务中的潜力。我们的方法并非生成图像,而是在扩散过程中提取多步中间特征,以获得用于广义检测的领域不变特征。此外,我们提出了一个高效的知识迁移框架,使检测器能够通过特征和对象级对齐继承扩散模型的泛化能力,而无需增加推理时间。我们在六个具有挑战性的 DG 基准测试上进行了广泛的实验。结果表明,与现有的 DG 方法相比,我们的方法在不同领域和损坏类型上实现了 14.0% 的显著提升。值得注意的是,我们的方法甚至在无需访问任何目标领域数据的情况下,就超越了大多数领域自适应方法。此外,与基线相比,扩散引导的检测器平均 mAP 持续提升了 15.9%。我们的工作旨在提出一种有效的领域广义检测方法,并为现实世界场景中的鲁棒视觉识别提供潜在的见解。代码可在“广义扩散检测器”中找到。

本文聚焦的问题

现有的深度伪造(Deepfake)检测方法存在以下三大核心问题:

  1. 检测与解释割裂
    以往方法往往只能提供“真假分类结果”或“文本解释”,无法同时生成两者,导致模型缺乏可解释性与用户信任度。
  2. 缺乏专门针对伪造检测的多模态机制
    一些基于 CLIP 的检测器虽然具备强大的视觉-语言特征提取能力,但缺乏专门设计的文本提示(text prompts)和伪造特征学习机制,难以充分利用 CLIP 的多模态学习潜力。
  3. CLIP 与大语言模型(LLM)的结合仍未被探索
    尽管 CLIP 与 LLM 在文档解析、医学诊断等领域已有成功整合,但在深度伪造检测领域尚无有效的跨模态融合方案,难以实现既准确又可解释的检测。

为了解决上述问题,作者提出了多模态可解释人脸伪造检测器(M2F2-Det),其创新点包括:

  • 同时输出伪造判别分数与自然语言解释;
  • 通过“Forgery Prompt Learning (FPL)”优化 CLIP 的提示学习,使其更好适应伪造检测;
  • 引入“Bridge Adapter”结构,将 CLIP 图像编码器与 LLM 连接,实现检测特征与文本解释的联动。

本文提出的方法

第一阶段:先让模型学会“判断真假”

**训练目标:**让模型具备“识别真假”的能力,即判断一张人脸图像是真实还是伪造。

训练方式:

  1. 输入图像送入两个通道:
    • 伪造检测器(ED):捕捉局部伪造细节(如边缘模糊、皮肤纹理异常)。
    • CLIP 图像编码器(EI):提取整体语义特征;
  2. **文本编码器(ET)**使用“伪造提示学习模块(FPL)”生成专门的文字提示,用来指引模型关注可疑区域;
  3. 模型据此生成伪造注意力图(Mb),高亮伪造迹象;
  4. 桥接模块(EA)将 EI 与 ED 的特征融合,得到特征图 F₀;
  5. 经过卷积和池化操作后,提取出最终的伪造向量 f₀
  6. 分类头根据 f₀ 输出真假结果。

**冻结策略:**冻结 CLIP 与 LLM 主体参数,仅训练 ED 与 FPL 的可学习提示

第二阶段:训练视觉到语言的桥接(Align 阶段)

**训练目标:**让模型知道如何把检测到的伪造特征(视觉特征)对齐到语言模型能理解的形式

训练流程:

  1. 将 F₀ 通过一个小型 MLP 网络转化为伪造特征 token(HF);
  2. 将 CLIP 图像输出转换成视觉 token(HV);
  3. 让 MLP 学会把 HF 和 HV 映射到 LLM 能理解的语言空间。

**冻结策略:**冻结 CLIP、ED、LLM 主体,只训练 MLP 对齐层。

第三阶段:让模型学会“说出理由”(解释生成)

**训练目标:**让 LLM 根据视觉特征生成自然语言解释

eg:“这张脸是伪造的,因为皮肤光泽不自然,嘴角区域存在模糊。”

训练流程:

  1. 输入 HV(视觉 token)、HF(伪造 token)与文本问题(HT,如“Is this image real or fake?”);
  2. LLM 输出解释性文本 XA;
  3. 模型通过最大化概率 p(XA | HV, HF, HT) 学习生成准确流畅的说明;
  4. 使用 LoRA 进行高效微调,仅更新 LLM 的一小部分参数。

**冻结策略:**冻结 CLIP 与检测主干,只微调:对齐的 MLP 层,LLM 的部分参数(LoRA)

框架图

阅读总结

不足

  1. **在部分数据集上表现不稳定:**虽然在 FF++、Celeb-DF 等主流数据集上表现出色,但在 DFD 数据集上性能落后于 AUNet。

原因:AUNet 直接利用了“面部动作单元(Action Units)”等更细粒度的人脸动态特征,而 M2F2-Det 目前的 FPL 模块主要集中在图像静态纹理。

  1. **解释模块对外部数据依赖强:**第二、三阶段训练需要使用问答型解释数据集(DD-VQA),才能让模型学会“听懂视觉信息并生成语言解释”。这意味着在其他领域或新的伪造类型上迁移困难。

改进方法

  1. **加入动态特征:**在视觉端引入 面部动作单元检测(Facial Action Units)视频时序特征,使模型不仅关注静态伪造纹理,也能检测动态不一致。

  2. **采用蒸馏:**离线用强大语言模型给少量图像生成解释,做人审+过滤后当老师,蒸馏到你的小LLM(LoRA)。