Generalized Diffusion Detector Mining Robust Features from Diffusion Models for Domain-Generalized Detection

英文题目：《Generalized Diffusion Detector Mining Robust Features from Diffusion Models for Domain-Generalized Detection》

中文题目：《广义扩散检测器：从扩散模型中挖掘出鲁棒的特征，用于领域广义检测》

论文作者：Boyong He; Yuxiang Ji; Qianwen Ye; Zhuoyue Tan; Liaoni Wu

发布于：CVPR

发布时间：2025-06

级别：CCF-A

论文链接： 10.1109/CVPR52734.2025.00927

论文代码：[heboyong/Generalized-Diffusion-Detector: CVPR2025] Generalized Diffusion Detector: Mining Robust Features from Diffusion Models for Domain-Generalized Detection

摘要

领域泛化 (DG) 目标检测旨在提升检测器在未见过场景下的性能。由于实际应用中的复杂变化，这项任务仍然具有挑战性。近年来，扩散模型在多样化场景生成中展现出卓越的性能，这启发我们探索其在改进 DG 任务中的潜力。我们的方法并非生成图像，而是在扩散过程中提取多步中间特征，以获得用于广义检测的领域不变特征。此外，我们提出了一个高效的知识迁移框架，使检测器能够通过特征和对象级对齐继承扩散模型的泛化能力，而无需增加推理时间。我们在六个具有挑战性的 DG 基准测试上进行了广泛的实验。结果表明，与现有的 DG 方法相比，我们的方法在不同领域和损坏类型上实现了 14.0% 的显著提升。值得注意的是，我们的方法甚至在无需访问任何目标领域数据的情况下，就超越了大多数领域自适应方法。此外，与基线相比，扩散引导的检测器平均 mAP 持续提升了 15.9%。我们的工作旨在提出一种有效的领域广义检测方法，并为现实世界场景中的鲁棒视觉识别提供潜在的见解。代码可在“广义扩散检测器”中找到。

本文聚焦的问题

现有的深度伪造（Deepfake）检测方法存在以下三大核心问题：

检测与解释割裂
以往方法往往只能提供“真假分类结果”或“文本解释”，无法同时生成两者，导致模型缺乏可解释性与用户信任度。
缺乏专门针对伪造检测的多模态机制
一些基于 CLIP 的检测器虽然具备强大的视觉-语言特征提取能力，但缺乏专门设计的文本提示（text prompts）和伪造特征学习机制，难以充分利用 CLIP 的多模态学习潜力。
CLIP 与大语言模型（LLM）的结合仍未被探索
尽管 CLIP 与 LLM 在文档解析、医学诊断等领域已有成功整合，但在深度伪造检测领域尚无有效的跨模态融合方案，难以实现既准确又可解释的检测。

为了解决上述问题，作者提出了多模态可解释人脸伪造检测器（M2F2-Det），其创新点包括：

同时输出伪造判别分数与自然语言解释；
通过“Forgery Prompt Learning (FPL)”优化 CLIP 的提示学习，使其更好适应伪造检测；
引入“Bridge Adapter”结构，将 CLIP 图像编码器与 LLM 连接，实现检测特征与文本解释的联动。

本文提出的方法

第一阶段：先让模型学会“判断真假”

**训练目标：**让模型具备“识别真假”的能力，即判断一张人脸图像是真实还是伪造。

训练方式：

输入图像送入两个通道：
- 伪造检测器（ED）：捕捉局部伪造细节（如边缘模糊、皮肤纹理异常）。
- CLIP 图像编码器（EI）：提取整体语义特征；
**文本编码器（ET）**使用“伪造提示学习模块（FPL）”生成专门的文字提示，用来指引模型关注可疑区域；
模型据此生成伪造注意力图（Mb），高亮伪造迹象；
桥接模块（EA）将 EI 与 ED 的特征融合，得到特征图 F₀；
经过卷积和池化操作后，提取出最终的伪造向量 f₀；
分类头根据 f₀ 输出真假结果。

**冻结策略：**冻结 CLIP 与 LLM 主体参数，仅训练 ED 与 FPL 的可学习提示

第二阶段：训练视觉到语言的桥接（Align 阶段）

**训练目标：**让模型知道如何把检测到的伪造特征（视觉特征）对齐到语言模型能理解的形式。

训练流程：

将 F₀ 通过一个小型 MLP 网络转化为伪造特征 token（HF）；
将 CLIP 图像输出转换成视觉 token（HV）；
让 MLP 学会把 HF 和 HV 映射到 LLM 能理解的语言空间。

**冻结策略：**冻结 CLIP、ED、LLM 主体，只训练 MLP 对齐层。

第三阶段：让模型学会“说出理由”（解释生成）

**训练目标：**让 LLM 根据视觉特征生成自然语言解释

eg：“这张脸是伪造的，因为皮肤光泽不自然，嘴角区域存在模糊。”

训练流程：

输入 HV（视觉 token）、HF（伪造 token）与文本问题（HT，如“Is this image real or fake?”）；
LLM 输出解释性文本 XA；
模型通过最大化概率 p(XA | HV, HF, HT) 学习生成准确流畅的说明；
使用 LoRA 进行高效微调，仅更新 LLM 的一小部分参数。

**冻结策略：**冻结 CLIP 与检测主干，只微调：对齐的 MLP 层，LLM 的部分参数（LoRA）

框架图

阅读总结

不足

**在部分数据集上表现不稳定：**虽然在 FF++、Celeb-DF 等主流数据集上表现出色，但在 DFD 数据集上性能落后于 AUNet。

原因：AUNet 直接利用了“面部动作单元（Action Units）”等更细粒度的人脸动态特征，而 M2F2-Det 目前的 FPL 模块主要集中在图像静态纹理。

**解释模块对外部数据依赖强：**第二、三阶段训练需要使用问答型解释数据集（DD-VQA），才能让模型学会“听懂视觉信息并生成语言解释”。这意味着在其他领域或新的伪造类型上迁移困难。

改进方法

**加入动态特征：**在视觉端引入 面部动作单元检测（Facial Action Units） 或 视频时序特征，使模型不仅关注静态伪造纹理，也能检测动态不一致。
**采用蒸馏：**离线用强大语言模型给少量图像生成解释，做人审+过滤后当老师，蒸馏到你的小LLM（LoRA）。