Layer-Wise Perturbations via Sparse Autoencoders for Adversarial Text Generation
英文题目:《Layer-Wise Perturbations via Sparse Autoencoders for Adversarial Text Generation》
中文题目:《基于稀疏自编码器的分层扰动生成对抗性文本》
发布于:arxiv
级别:
论文链接:
摘要
随着自然语言处理(NLP),特别是大型语言模型(LLM)的快速发展,生成对抗性示例以越狱LLM仍然是理解模型漏洞和提高鲁棒性的关键挑战。在这种情况下,我们提出了一种新的黑盒攻击方法,利用大模型的可解释性。我们介绍了稀疏特征扰动框架(SFPF),这是一种用于对抗性文本生成的新方法,它利用稀疏自编码器来识别和操作文本中的关键特征。在使用SAE模型重建隐藏层表示后,我们对成功攻击的文本进行特征聚类,以识别具有较高激活度的特征。然后,这些高度激活的特征被扰动以生成新的对抗性文本。这种选择性干扰保留了恶意意图,同时放大了安全信号,从而增加了它们逃避现有防御的可能性。我们的方法实现了一种新的红队策略,该策略平衡了对抗有效性与安全性。实验结果表明,SFPF生成的对抗性文本可以绕过最先进的防御机制,揭示了当前NLP系统中持续存在的漏洞。然而,该方法的有效性在提示符和层之间存在差异,其对其他架构和更大模型的推广性仍有待验证。
本文聚焦的问题
如何有效生成能够绕过现有防御机制、同时保持恶意意图的对抗性文本,以揭示大型语言模型(LLMs)在安全性与鲁棒性方面的深层漏洞。
具体而言,论文试图解决以下关键挑战:
对抗性文本的隐蔽性:传统的对抗性攻击往往容易被现有防御系统检测和过滤。本文提出一种更隐蔽的策略,通过稀疏自编码器(SAE)识别并操控文本中关键的稀疏特征,使得对抗性文本在语义上更接近正常文本,从而更难被察觉。
大规模模型的黑盒攻击问题:在不访问模型内部参数和结构的情况下,如何有效实施攻击?本文提出的Sparse Feature Perturbation Framework(SFPF)通过操控模型内部隐藏层的激活特征,避免了直接修改输入文本的显式特征,从而实现黑盒环境下的有效攻击。
攻击与安全的平衡:如何在成功实施攻击的同时,确保生成的文本仍然保持一定的语义连贯性和安全性,避免产生过于明显的有害输出?论文通过稀疏特征的精准操控,试图在攻击成功率(ASR)与文本质量(如BLEU、语义相似度)之间取得平衡。
模型内部机制的深入理解:通过稀疏自编码器对模型内部表征的解读,本文试图深入理解LLMs在面对对抗性输入时的内部决策机制,从而为未来的防御策略提供更深刻的洞察。
本文提出的方法
本文提出了一种名为 Sparse Feature Perturbation Framework(SFPF) 的新方法,用于生成能够绕过现有防御机制的对抗性文本。该方法的核心思想是:
利用稀疏自编码器(Sparse Autoencoder, SAE)从大型语言模型(LLM)的中间层激活中提取可解释的稀疏特征,并通过精准操控这些特征来生成隐蔽且有效的对抗性文本。
方法整体框架(SFPF)
SFPF 包含四个关键步骤:
- 稀疏自编码器训练(SAE Training)
目标:从 LLM 的特定 MLP 层中提取可解释的稀疏特征。
输入:从 LLaMA-2-7B-chat 模型的多个 MLP 层(如第 1、3、5、9、11、13、15、17、19、21、23、25、27、29、31 层)提取的隐藏状态。
训练方式:
使用 MSE确保 SAE 能准确重建原始隐藏状态。
使用 L1 稀疏性损失 强制特征稀疏化,仅保留关键维度。 - 对抗性敏感特征识别(Feature Extraction via Clustering)
输入:已知的成功攻击提示(jailbreak prompts)的 SAE 编码向量。
方法:
使用 K-Means 聚类(30 次独立运行)分析这些向量的激活模式。
计算每个维度的 平均激活值,并设置阈值 τ(如 0.03)生成 二进制危险掩码(danger mask) m∈{0,1}d。
掩码 m 标记了与对抗性攻击最相关的稀疏特征维度。 - 稀疏特征扰动(Sparse Feature Perturbation)
扰动方式:
在模型前向传播时,通过 钩子(hook) 拦截目标 MLP 层的输出。
对 SAE 编码后的特征向量 z 施加扰动:
z′=z+α⋅m其中 α 是扰动强度(如 0.5)。
将扰动后的特征通过 SAE 解码器重构为新的隐藏状态 h^,替换原始输出。 - 受控文本重构(Controlled Text Reconstruction)
目标:从扰动后的隐藏状态生成连贯且隐蔽的对抗性文本。
两种策略:
Top-1 嵌入搜索:直接选择最相似的 token,优先局部对齐。
Top-10 语义感知搜索:从 Top-10 相似 token 中选择与原始提示语义最一致的 token,平衡局部与全局一致性。
方法创新点
稀疏特征操控:首次将 SAE 用于对抗性文本生成,通过操控可解释特征而非直接修改文本。
黑盒攻击:无需模型参数,仅通过隐藏层激活实现攻击。
隐蔽性与有效性平衡:通过稀疏掩码精准扰动,避免引入明显异常。
跨层泛化能力:实验表明第 17 层对攻击最敏感(ASR 达 29%),但方法可扩展到其他层。
实验验证
数据集:AdvBench 和 HarmBench(评估对抗性与有害性)。
指标:攻击成功率(ASR)、文本质量(BLEU)、语义相似度。
结果:
SFPF 将 Adaptive 攻击的 ASR 从 77% 提升至 95%。
保持高语义相似度(0.46±0.09),优于传统方法(如 DRA 的 0.07)。
阅读总结
1、隐蔽性强:绕过防御机制
稀疏特征操控:通过稀疏自编码器(SAE)精准扰动模型内部的中间层激活,而非直接修改输入文本,避免引入明显的异常模式(如拼写错误、语义不连贯),从而有效绕过现有基于输入检测的防御机制(如关键词过滤、困惑度检测)。
实验验证:在 AdvBench 和 HarmBench 上,SFPF 将 Adaptive 攻击的 ASR 从 77% 提升至 95%,显著优于传统方法(如 DRA 仅 73%)。
2、黑盒攻击能力:无需模型内部信息
不依赖模型参数:仅需访问模型的隐藏层激活(如 LLaMA-2-7B 的 MLP 输出),无需梯度或权重信息,适用于黑盒场景(如 API 调用)。
可扩展性:方法适用于不同架构(如 GPT、Claude),仅需针对目标模型的 MLP 层训练 SAE。
3、语义保真:生成文本质量高
双重重构策略:
Top-1 嵌入搜索:确保局部 token 级对齐,避免语法错误。
Top-10 语义感知:全局语义一致性,使对抗文本与原始提示保持高相似度(实验显示 BLEU 分数优于 DRA 等方法)。
案例:在“炸弹走私”攻击示例中,SFPF 生成的文本逻辑连贯,未触发安全过滤(安全评分低至 0.0)。