Universal adversarial perturbations
英文题目:《Universal adversarial perturbations》
中文题目:《普遍对抗性扰动》
论文作者:Seyed-Mohsen Moosavi-Dezfooli,Alhussein Fawzi,Omar Fawzi & Pascal Frossard
发布于:CV
发布时间:2017 Mar 9
级别:CCF-A
论文链接:
摘要
给出了一个最先进的深度神经网络分类器,我们证明了存在一个通用的(与图像无关的)非常小的扰动向量,它会导致自然图像以很高的概率被错误分类。我们提出了一个系统的算法来计算普遍的扰动,并表明最新的深度神经网络非常容易受到这种扰动的影响,尽管人眼是准不可感知的。我们进一步经验性地分析了这些普遍的扰动,并特别表明,它们在神经网络中具有很好的泛化能力。普遍扰动的惊人存在揭示了分类器高维决策边界之间的重要几何相关性。它进一步概述了输入空间中存在的单一方向的潜在安全漏洞,攻击者可能会利用这些方向来破坏大多数自然图像上的分类器。
本文聚焦的问题
近年来,图像分类器对结构化和非结构化扰动的鲁棒性受到广泛关注。尽管深度神经网络在视觉分类基准测试中表现出色,但被证明易受扰动影响。以往的对抗扰动依赖于特定数据点,计算新数据点的扰动需重新求解优化问题。本文旨在寻找一种单一的、与图像无关的通用扰动向量,使大多数自然图像被误分类,这对部署在现实(可能充满敌意)环境中的分类器具有重要意义,同时也有助于揭示深度神经网络决策边界的拓扑结构。
本文提出的方法
- 提出研究问题:能否找到一个小的图像扰动,使最先进的深度神经网络分类器对所有自然图像分类错误?
- 构建研究框架:定义通用扰动概念,通过算法寻找满足特定约束的扰动向量。
- 选择研究方法:提出迭代算法,通过聚合原子扰动向量,将连续数据点发送到分类器的决策边界。
- 分析数据:在不同网络和数据集上评估通用扰动的愚弄率,分析其跨模型通用性和对不同大小训练集的泛化能力。
- 得出结论:根据实验结果得出通用扰动的存在性、泛化性及深度网络对其的脆弱性等结论。
- 存在能使自然图像被高概率误分类的通用对抗扰动,且人眼难以察觉。
- 通用扰动在不同网络架构和未见过的数据点上具有良好的泛化性。
- 可在小训练集上计算出具有强大泛化能力的通用扰动。
- 可视化发现通用扰动使自然图像多被分类为少数主导标签。
- 微调网络虽能提升一定鲁棒性,但仍易受小通用扰动影响。
阅读总结
研究的创新性:首次发现与图像无关的通用扰动,提出计算该扰动的算法,且证明其在数据点和网络架构上的双重通用性,还通过分析决策边界相关性解释了深度网络的脆弱性。
研究的不足之处:微调网络虽能提升鲁棒性,但仍易受小通用扰动影响,未找到完全解决网络对通用扰动脆弱性的方法。此外,微调可能导致验证集误差率略有上升,存在过拟合风险。