英文题目:《One Pixel Attack for Fooling Deep Neural Networks》

中文题目:《一种愚弄深度神经网络的像素攻击方法》

论文作者:Jiawei Su,Danilo Vasconcellos Vargas & Kouichi Sakurai

发布于:LG

发布时间:2019 Oct 17

级别:CCF-A

论文链接:

摘要

最近的研究表明,通过向输入向量添加相对较小的扰动,可以很容易地改变深度神经网络(DNN)的输出。在本文中,我们分析了一个极其有限的场景下的攻击,其中只有一个像素可以被修改。为此,我们提出了一种新的基于差分进化的单像素对抗性扰动生成方法。由于DE的固有特性,它需要较少的敌意信息(黑盒攻击),并且可以欺骗更多类型的网络。结果表明,在Kaggle CIFAR-10测试数据集和ImageNet(ILSVRC 2012)测试数据集中,67.97%的自然图像和16.04%的ImageNet(ILSVRC 2012)测试图像可以通过仅修改一个像素来扰动至少一个目标类,平均置信度分别为74.03%和22.91%。我们还在原始CIFAR-10数据集上显示了相同的漏洞。因此,提出的攻击在极端有限的场景下探索了一种不同的对抗性机器学习方法,表明当前的DNN也容易受到这种低维攻击。此外,我们还说明了进化计算在对抗性机器学习领域的一个重要应用:创建能够有效地生成针对神经网络的低成本对抗性攻击的工具,以评估健壮性。

本文聚焦的问题

具体而言,作者提出了一种基于差分进化(Differential Evolution,DE)的黑盒攻击方法,仅需修改图像的一个像素,即可在CIFAR-10和ImageNet数据集上成功欺骗多种常见的深度神经网络模型(如AllConv、NiN、VGG16和AlexNet)。

本文提出的方法

  • 提出研究问题:现有DNN攻击未考虑极端受限场景,本文研究仅修改一个像素能否有效攻击DNN。

  • 构建研究框架:将生成对抗图像问题形式化为带约束的优化问题,采用差分进化算法进行优化。

  • 选择研究方法:使用差分进化算法,编码扰动为候选解进行进化,设置初始种群、迭代次数等参数。

  • 分析数据:在Kaggle CIFAR - 10和ImageNet数据集上进行实验,引入成功率、对抗概率标签等指标评估攻击效果。

  • 得出结论:根据实验结果判断攻击的有效性,分析DNN对单像素攻击的脆弱性。

  • 单像素攻击在不同网络和数据集上有一定成功率,部分图像可被扰动到多个目标类。

  • 不同原始 - 目标类对的脆弱性不同,部分类在单像素攻击下更难被扰动。

  • 差分进化算法在单像素攻击中优于随机攻击。

  • 进化过程中适应度值总体下降,部分网络较难被攻击。

    阅读总结

  • 研究的创新性:提出极端受限场景下的单像素攻击方法,为黑盒攻击,只需概率标签信息;利用差分进化算法生成对抗扰动,具有找到全局最优解概率高、所需信息少等优势。

  • 研究的不足之处:单像素攻击在检测方法面前的鲁棒性与其他L0攻击相比无显著提升;未对AlexNet采用不同预处理方法进行全面评估。