英文题目:《DELVING INTO TRANSFERABLE ADVERSARIAL EXAMPLES AND BLACK - BOX ATTACKS》

中文题目:《深入研究可转移的对抗性例子和黑盒攻击》

论文作者:Yanpei Liu,Xinyun Chen,Chang Liu & Dawn Song

发布于:ICLR

发布时间:2017 Feb 7

级别:CCF-A

论文链接:

摘要

深度神经网络的一个有趣的性质是存在对抗性的例子,这些例子可以在不同的体系结构之间转移。这些可转移的对抗性例子可能会严重阻碍基于神经网络的深度应用。以往的工作大多是使用小尺度数据集来研究可转移性。在这项工作中,我们首次对大规模模型和大规模数据集上的可转移性进行了广泛的研究,也首次研究了带有目标标签的目标对抗性实例的可转移性。我们研究了非目标对抗性实例和目标对抗性实例,并表明虽然可转移的非目标对抗性实例很容易找到,但使用现有方法生成的目标对抗性实例几乎不会与其目标标签一起转移。因此,我们提出了新的基于集成的方法来生成可转移的对抗性实例。使用这种方法,我们观察到很大比例的目标对抗性例子能够第一次转移到他们的目标标签上。我们还介绍了一些几何研究,以帮助理解可转移的对抗性例子。最后,我们证明了基于集成方法生成的恶意实例能够成功地攻击黑盒图像分类系统Clarifai.com

本文聚焦的问题

近年来研究表明,深度架构易生成对抗样本,其存在会严重影响基于视觉理解的应用,如自动驾驶。多数研究需明确底层模型知识,如何高效为黑盒模型找到对抗样本仍是待解决问题。部分对抗样本具有可迁移性,可用于黑盒攻击,但目前可迁移性研究多在小数据集上进行,对大规模数据集(如图像网)上的可迁移性还缺乏深入理解。因此,本文开展了相关研究。

本文提出的方法

  • 提出研究问题:现有方法在大规模数据集和模型上生成目标标签可迁移的目标对抗样本效果不佳,以及如何理解对抗样本的可迁移性。

  • 构建研究框架:研究非目标和目标对抗样本,对比不同生成方法,提出基于集成的方法,研究模型几何特性,测试对黑盒系统的攻击效果。

  • 选择研究方法:采用优化、快速梯度等方法生成对抗样本,通过实验评估可迁移性。

  • 分析数据:计算准确率、匹配率、均方根偏差等指标。

  • 得出结论:总结不同方法的可迁移性,验证基于集成方法的有效性。

  • 非目标对抗样本较易找到且具有一定可迁移性,现有方法生成的目标对抗样本目标标签难以迁移。

  • 基于集成的方法能使大量目标对抗样本的目标标签实现迁移,且生成的非目标对抗样本可迁移性更佳。

  • 不同模型的梯度方向近似正交,决策边界对齐较好,这部分解释了非目标对抗样本的可迁移性。

  • 生成的对抗样本能成功攻击黑盒图像分类系统Clarifai.com

阅读总结

  • 研究的创新性:首次在大规模数据集和模型上研究对抗样本可迁移性,提出基于集成的方法使目标对抗样本目标标签可迁移,首次实现为黑盒在线图像分类系统生成目标和非目标对抗样本。