Adversarial Defence without Adversarial Defence: Enhancing Language Model Robustness via Instance-level Principal Component Removal

英文题目：《Adversarial Defence without Adversarial Defence: Enhancing Language Model Robustness via Instance-level Principal Component Removal
》

中文题目：《无对抗防御中的对抗防御：通过实例级主成分移除增强语言模型的鲁棒性》

发布于：arxiv

级别：

论文链接： https://arxiv.org/abs/2507.21750

摘要

预训练语言模型（PLMs）已经推动了自然语言处理的实质性进展，但仍然容易受到对抗性攻击，这引发了人们对其在现实世界应用中的鲁棒性的担忧。以前的研究试图通过在训练过程中引入对抗性扰动来减轻对抗性攻击的影响，无论是隐式还是显式的。虽然这两种策略都增强了鲁棒性，但它们通常会产生很高的计算成本。在这项工作中，我们提出了一个简单而有效的附加模块，通过删除实例级主成分来增强PLMs的对抗鲁棒性，而不依赖于传统的对抗防御或干扰原始训练数据。我们的方法将嵌入空间转换为近似高斯属性，从而降低其对对抗性扰动的敏感性，同时保留语义关系。这种转换以最小化对抗性噪声对决策边界的影响的方式对齐嵌入分布，增强鲁棒性，而不需要对抗性示例或昂贵的训练时间增强。对八个基准数据集的评估表明，我们的方法提高了对抗鲁棒性，同时保持了与基线相当的攻击前准确性，实现了鲁棒性和泛化之间的平衡。

本文聚焦的问题

预训练语言模型（PLMs）在计算机视觉以及自然语言处理（NLP）等各个领域都表现出了卓越的性能虽然它们在许多领域取得了巨大的成功，但它们对对抗性攻击的脆弱性通过向正常示例添加人类无法感知的小扰动，对模型的鲁棒性提出了重大挑战。
现有的对抗性防御方法通常需要大量的计算资源，或者在对抗性鲁棒性方面的改进有限。例如，基于对抗训练的方法涉及在训练期间通过多次迭代生成扰动，这显著增加了计算开销。类似地，一些基于集成的技术利用集成的统计特性来可证明地证明鲁棒性，导致在训练和推理期间的额外成本。另一种防线利用基于监管的方法，它们的计算效率更高，但在对抗性攻击的鲁棒性方面往往表现出有限的改进。这种差异凸显了需要更有效的对抗性防御方法，在计算效率和鲁棒性增强之间取得平衡。

本文提出的方法

为了解决这些挑战，提出了Purified Representation（PURE）来增强对抗鲁棒性，而不会在训练过程中引入对抗扰动，无论是隐式还是显式。PURE作为一个直接合并进PLM架构的模块被实现。然后，整个模型使用标准的微调过程进行训练，不需要特殊的修改。该模块的核心是利用主成分去除重塑嵌入空间。通过去除主导分量，它鼓励表示与高斯分布更紧密地对齐，这降低了模型对对手经常利用的目标扰动的敏感性。这种转换增强了鲁棒性，而不依赖于对抗性示例生成或资源密集型训练增强，为提高NLP任务中的对抗性弹性提供了一种高效实用的解决方案。PURE的评估基于对八个语言理解数据集的基准测试，涵盖情感分析、主观状态分类、释义识别、文本蕴涵和常识推理。PURE对大多数任务都显示出上级的文本对抗防御能力，同时在攻击前的准确性方面与基线表现相当，这表明在鲁棒性和泛化之间有很好的权衡。
PURE（Purified Representation），这是一种旨在通过鼓励表示空间中的各向同性（即，使得嵌入更均匀地分布在维度上）。这种各向同性结构降低了对对抗扰动的敏感性，并增强了决策边界的稳定性。PURE通过简单而有效的主成分分析来消除潜在空间来实现这一点。PURE背后的核心思想是通过去除捕获大部分方差的主成分来减少表示空间中某些方向的主导地位。传统的PCA通常丢弃最弱的方向（即，具有最小方差的主成分）以最小化信息损失。PURE以一种新颖的方式应用PCA，旨在显著减少信息以增强对抗鲁棒性。PURE从最终的层标记级表示中减去这些主要分量。这将产生一个更接近各向同性分布的表示空间，其中所有方向的重要性大致相同。PURE从诸如SIF嵌入的技术中获得灵感，它从静态嵌入中删除了前1个主成分，以捕获流氓维度的方差，使表示空间更加各向同性。然而，PURE并不是将主成分去除（PCR）作为后处理步骤应用于整个语料库，而是在实例级执行此操作，在微调期间去除句子内各个标记所跨越的子空间的top1主成分上的投影。通过奇异值分解结合有效的主成分计算，实现了端到端的训练，同时实现了各向同性的潜在空间，最终提高了模型对对抗性扰动的适应能力。

阅读总结

不会在训练过程中引入对抗扰动，无论是隐式还是显式；整个模型使用标准的微调过程进行训练，不需要特殊的修改