Deep Neural Networks are Easily Fooled:High Confidence Predictions for Unrecognizable Images
英文题目:《Deep Neural Networks are Easily Fooled:High Confidence Predictions for Unrecognizable Images》
中文题目:《深度神经网络很容易被愚弄:对无法识别的图像进行高置信度预测》
论文作者:Anh Nguyen,Jason Yosinski & Jeff Clune
发布于:CVPR
发布时间:2015 Apr 2
级别:CCFA
论文链接:
摘要
深度神经网络(DNN)最近在各种模式识别任务上取得了最先进的性能,最显著的是视觉分类问题。鉴于DNN现在能够以接近人类水平的性能对图像中的对象进行分类,自然会出现计算机和人类视觉之间存在哪些差异的问题。最近的一项研究[30]显示,以人类无法察觉的方式更改图像(例如,狮子)可能会导致DNN将图像标记为完全不同的东西(例如,错误地将狮子标记为图书馆)。这里我们展示了一个相关的结果:很容易产生人类完全无法识别的图像,但最先进的DNN相信是可识别的对象,置信度为99.99%(例如,确定地标记白噪声静态是一只狮子)。具体地说,我们使用经过训练的卷积神经网络在ImageNet或MNIST数据集上表现良好,然后使用进化算法或梯度上升找到DNN高置信度地标记为属于每个数据集类别的图像。可以产生人眼完全无法识别的图像,而DNN几乎可以肯定地认为这些图像是熟悉的对象,我们称之为“愚弄图像”(更广泛地说,愚弄例子)。我们的结果揭示了人类视觉和当前DNN之间的有趣差异,并提出了关于DNN计算机视觉的一般性的问题。
本文聚焦的问题
- 为什么 DNN 会对人类无法识别的图像产生高置信度的错误分类?
- 这种“愚弄”现象是否普遍存在于不同架构、不同数据集的 DNN 中?
- 能否通过重新训练 DNN(例如加入“愚弄图像”作为负样本)来消除这一问题?
- 这一现象揭示了 DNN 与人类视觉系统在识别机制上的哪些根本差异?
本文提出的方法
方法1:进化算法(Evolutionary Algorithms, EAs)
目的:通过模拟自然选择,迭代生成愚弄图像。
关键设计:
- 两种编码方式:
- 直接编码(Direct Encoding):
每个像素独立变异(如28×28的MNIST或256×256的ImageNet图像),生成类似白噪声的不规则图像(图4、图6)。 - 间接编码(Indirect Encoding via CPPN):
使用**复合模式生成网络(CPPN)*生成*规则图像(如对称、重复纹理),可能包含可解释的局部特征(图5、图7)。
- 直接编码(Direct Encoding):
- 优化目标:
最大化DNN对某个目标类别的预测概率(如“狮子”类的softmax输出)。 - 算法选择:
使用MAP-Elites算法(多维精英存档),同时针对所有类别(如ImageNet的1000类)生成愚弄图像,避免单目标优化的局限性。
方法2:梯度上升(Gradient Ascent)
目的:通过反向传播直接优化输入图像,使其最大化目标类别的激活。
关键步骤:
- 从随机噪声或均值图像开始,沿梯度方向调整像素值,提升DNN对目标类别的置信度。
- 正则化对比实验:
- 无正则化:生成完全不可识别的愚弄图像(图13左)。
- 加入L2正则化、模糊(blurring)或稀疏性约束:生成部分可识别特征的图像(图S5-S9),但置信度略低。
阅读总结
- 选题重要、发现惊人
• 第一次系统性地证明了“人类完全无法识别的图像”可以被 SOTA 深度网络以 99.99% 置信度误分类。
• 直接戳中深度学习“安全与鲁棒性”的核心痛点,为后续对抗样本、可信 AI 研究奠定里程碑式基础。 - 方法多样、互为补充
• 同时给出进化算法(EA)、梯度上升(Gradient Ascent)和对抗训练三套互补方案,从“生成攻击”到“防御验证”形成闭环。
• 进化算法内部又对比“直接编码”与“间接编码(CPPN)”,展示不同表征空间对愚弄效果的影响。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 LLM Security Group 's Notes!