DRL-FAS: A Novel Framework Based on Deep Reinforcement Learning for Face Anti-Spoofing
摘要
人类在判断人脸样本真伪时,首先会全局浏览样本,然后仔细观察局部区域以获取更具判别性的信息。受此启发,我们针对人脸反欺骗问题,提出了一个基于卷积神经网络 (CNN) 和循环神经网络 (RNN) 的新型框架。具体而言,我们利用深度强化学习,模拟从图像子块中探索人脸欺骗相关信息的行为。我们进一步引入一种循环机制,使用 RNN 从探索到的子块中顺序学习局部信息的表示。最后,为了进行分类,我们将局部信息与全局信息融合,全局信息可以通过 CNN 从原始输入图像中学习到。此外,我们进行了大量的实验,包括消融研究和可视化分析,以在各种公共数据库上评估我们提出的框架。实验结果表明,我们的方法在所有场景中通常都能达到最佳性能,证明了其有效性。
本文聚焦的问题
该论文旨在解决人脸反欺骗(Face Anti-Spoofing, FAS)中的判别性特征提取与泛化能力不足的问题。具体而言,论文关注以下核心挑战:
- 欺骗线索的多样性:攻击样本可能呈现多种欺骗线索(如纸张边界、屏幕边框、反光、摩尔纹等),这些线索可能出现在图像的任何区域,且在不同攻击类型中表现各异。传统方法或单一全局特征难以覆盖所有情况。
- 人类观察行为的模拟:人类在判断人脸真伪时,通常先全局观察(如一眼扫过整张图像),再针对可疑区域进行局部细致观察。现有方法缺乏对这种“由粗到细”观察过程的建模。
- 局部信息的有效利用:虽然局部特征可能包含关键欺骗线索,但如何自动定位这些具有判别性的局部区域(而非随机或启发式选择)并序列化整合其信息,仍是一个开放问题。
- 跨域泛化能力:由于不同数据库在采集设备、光照、攻击媒介等方面存在差异,模型在源域训练后往往在目标域表现下降,亟需提升跨域鲁棒性。
为此,论文提出DRL-FAS框架,通过深度强化学习(DRL)驱动智能体像人类一样主动探索图像中的可疑局部区域,并利用RNN序列化整合局部信息,最终与CNN提取的全局特征融合,实现更鲁棒、更准确的活体检测。
本文提出的方法
论文将人脸反欺骗(FAS)重新建模为“先全局扫视—后局部凝视”的两阶段观察过程,并据此提出 DRL-FAS 框架。核心解决方案可概括为 “一个两分支网络 + 一个强化学习智能体”,具体机制如下:
- 两分支特征提取
-
Branch 1(CNN 全局分支)
以 ResNet18 为骨架,对整幅图像提取全局特征 ,一次性捕获显著欺骗线索(纸张边框、屏幕边框、大面积反光等)。 -
Branch 2(RNN 局部分支)
在骨干网络输出的特征图 (F) 上,循环裁剪局部子块,用 GRU 逐步累积局部信息,得到局部特征。
关键:子块位置是模型自我决定,采用强化学习智能体逐步主动决策。
- 强化学习智能体:如何找到“最值得看”的区域
- 环境:骨干特征图 (F)(已滤除冗余 RGB 噪声,保留欺骗相关信号)。
- 状态:GRU 的隐藏状态 ,编码“已经看过的历史”。
- 动作:预测下一子块中心坐标 。
- 策略网络:可微概率 ,参数通过策略梯度优化。
- 奖励:延迟奖励,只在最后一步给出,引导智能体最大化分类置信度。
通过最大化累积奖励,
智能体会自发聚焦最具判别性的局部区域(纸张边缘、反光、摩尔纹等),而非背景或无效皮肤区域。
- 全局–局部融合
将与 拼接后送入一层 FC,完成真假二分类。
实验表明,Concatenation 比 Average / Weighted-Average 更稳定;当局部信息不足时仍能保留全局判别力。
- 两阶段训练:解决“环境非稳”问题
- Stage-1:单独用交叉熵预训练 ResNet18,得到固定的骨干 (F)。
- Stage-2:冻结骨干,联合优化 Branch 1、Branch 2 和策略网络 (\pi_\theta);
此时 (F) 不再变化,智能体面对稳定环境,策略梯度收益更可靠。
对比实验显示:若采用端到端单阶段训练,EER 由 0.17% 恶化到 4.32%+,验证了两阶段训练的必要性。
阅读总结
从“延迟奖励”到“稠密奖励”:引入像素级伪标签
-
问题:只有最后一步给出,训练信号稀疏,导致早期步骤信用分配困难。
-
技术路线:
-
利用 辅助深度网络生成像素级欺骗置信图 (M),把即时奖励改写为
其中 为第 (t) 步裁剪块区域。
-
采用 Reward Shaping 理论保证策略梯度无偏。
-
-
评估指标:收敛所需 epoch ↓,(T=2/4) 时的 EER ↓(缓解小 (T) 性能塌陷)。