ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD
英文题目:《ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD》
中文题目:《物理世界中的对抗性例子》
论文作者:Alexey Kurakin,Ian J. GoodfellowIan & Samy Bengio
发布于:ICLR
发布时间:2017 Feb 11
级别:CCF-A
论文链接:
摘要
大多数现有的机器学习分类器都非常容易受到对抗性例子的攻击。一个对抗性的例子是输入数据的样本,它经过了非常轻微的修改,意在导致机器学习分类器对其进行错误分类。在许多情况下,这些修改可能是如此微妙,以至于人类观察者甚至根本没有注意到修改,但分类器仍然犯下了错误。敌意例子会造成安全问题,因为它们可能被用来对机器学习系统进行攻击,即使对手无法访问底层模型。到目前为止,所有以前的工作都假设了威胁模型,在该模型中,对手可以直接将数据馈送到机器学习分类器中。对于在物理世界中运行的系统来说,情况并不总是这样,例如,那些使用来自摄像机和其他传感器的信号作为输入的系统。这篇论文表明,即使在这样的物理世界场景中,机器学习系统也很容易受到对手例子的攻击。我们通过将从手机摄像头获得的敌意图像提供给ImageNet初始分类器并测量系统的分类精度来证明这一点。我们发现,即使通过摄像机观察,很大一部分对抗性例子也被错误地分类。
本文聚焦的问题
- 物理变换对对抗样本的影响:
传统对抗样本研究假设攻击者能直接将修改后的数字输入传入模型。但在现实世界中,输入需经过摄像头、打印、拍摄等物理环节,这些过程可能破坏对抗扰动。论文通过实验验证,即使经过打印、拍摄、裁剪等物理变换,仍有大量对抗样本能成功误导模型,首次系统证明了物理世界中的对抗攻击是可行的。 - 攻击方法的鲁棒性差异:
比较了不同对抗样本生成方法(如快速梯度法、迭代法、最小可能类别法)在物理变换下的“破坏率”(即被物理变换消除的对抗样本比例)。发现快速法生成的对抗样本更鲁棒,而迭代法因依赖细微扰动,更易被物理变换破坏。 - 黑盒攻击的可行性:
验证了对抗样本的迁移性(transferability):即使攻击者不知道目标模型的具体参数,用某一模型生成的对抗样本仍可能欺骗另一模型。论文通过实际演示(用手机APP拍摄打印的对抗样本)展示了无需模型知识的物理世界黑盒攻击。
本文提出的方法
- 提出研究问题:探讨在物理世界中运行且通过各种传感器感知数据的机器学习系统,是否仍能构造对抗性示例并实施攻击。
- 构建研究框架:进行打印拍照实验和人工图像变换实验,研究对抗性示例在物理世界中的生存情况。
- 选择研究方法:使用快速法、基本迭代法、迭代最不可能类方法生成对抗性图像。
- 分析数据:计算分类准确率、破坏率等指标,分析不同方法和变换对对抗性示例的影响。
- 得出结论:部分对抗性示例经非平凡变换后仍会被误分类,证明物理对抗性示例的可能性。
- 快速法生成的对抗性图像对照片变换更鲁棒,迭代法利用的细微扰动易被照片变换破坏。
- 某些情况下,预过滤案例的对抗性破坏率高于平均案例。
- 部分对抗性示例经照片变换后仍被误分类,展示了物理对抗性示例的可能性。
- 快速法生成的对抗性示例对人工图像变换最具鲁棒性,迭代最不可能类方法生成的最不具鲁棒性。
阅读总结
- 新问题:首次把对抗样本的研究场景从“纯数字空间”搬到“真实物理链路”,提出并验证了“打印→拍摄→裁剪”这一完整物理流程下的攻击可行性,填补了领域空白。
- 新方法:
• 设计了可重复的“标准化物理实验流水线”(打印-拍照-自动裁剪-QR 定位),后续大量工作直接沿用。
• 引入“破坏率”指标,量化物理变换对攻击成功率的影响,便于横向比较。 - 新发现:
• 揭示了不同攻击算法在物理环境下的鲁棒性差异:Fast FGSM > Basic Iterative > Least-Likely Class,为攻防双方提供了算法选择依据。
• 证实了黑盒迁移攻击在物理世界依然成立,无需目标模型参数即可实施。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 LLM Security Group 's Notes!