Layer-Wise Perturbations via Sparse Autoencoders for Adversarial Text Generation

英文题目：《Layer-Wise Perturbations via Sparse Autoencoders for Adversarial Text Generation》

中文题目：《基于稀疏自编码器的分层扰动生成对抗性文本》

发布于：arxiv

级别：

论文链接：

摘要

随着自然语言处理（NLP），特别是大型语言模型（LLM）的快速发展，生成对抗性示例以越狱LLM仍然是理解模型漏洞和提高鲁棒性的关键挑战。在这种情况下，我们提出了一种新的黑盒攻击方法，利用大模型的可解释性。我们介绍了稀疏特征扰动框架（SFPF），这是一种用于对抗性文本生成的新方法，它利用稀疏自编码器来识别和操作文本中的关键特征。在使用SAE模型重建隐藏层表示后，我们对成功攻击的文本进行特征聚类，以识别具有较高激活度的特征。然后，这些高度激活的特征被扰动以生成新的对抗性文本。这种选择性干扰保留了恶意意图，同时放大了安全信号，从而增加了它们逃避现有防御的可能性。我们的方法实现了一种新的红队策略，该策略平衡了对抗有效性与安全性。实验结果表明，SFPF生成的对抗性文本可以绕过最先进的防御机制，揭示了当前NLP系统中持续存在的漏洞。然而，该方法的有效性在提示符和层之间存在差异，其对其他架构和更大模型的推广性仍有待验证。

本文聚焦的问题

如何有效生成能够绕过现有防御机制、同时保持恶意意图的对抗性文本，以揭示大型语言模型（LLMs）在安全性与鲁棒性方面的深层漏洞。
具体而言，论文试图解决以下关键挑战：
对抗性文本的隐蔽性：传统的对抗性攻击往往容易被现有防御系统检测和过滤。本文提出一种更隐蔽的策略，通过稀疏自编码器（SAE）识别并操控文本中关键的稀疏特征，使得对抗性文本在语义上更接近正常文本，从而更难被察觉。
大规模模型的黑盒攻击问题：在不访问模型内部参数和结构的情况下，如何有效实施攻击？本文提出的Sparse Feature Perturbation Framework（SFPF）通过操控模型内部隐藏层的激活特征，避免了直接修改输入文本的显式特征，从而实现黑盒环境下的有效攻击。
攻击与安全的平衡：如何在成功实施攻击的同时，确保生成的文本仍然保持一定的语义连贯性和安全性，避免产生过于明显的有害输出？论文通过稀疏特征的精准操控，试图在攻击成功率（ASR）与文本质量（如BLEU、语义相似度）之间取得平衡。
模型内部机制的深入理解：通过稀疏自编码器对模型内部表征的解读，本文试图深入理解LLMs在面对对抗性输入时的内部决策机制，从而为未来的防御策略提供更深刻的洞察。

本文提出的方法

本文提出了一种名为 Sparse Feature Perturbation Framework（SFPF）的新方法，用于生成能够绕过现有防御机制的对抗性文本。该方法的核心思想是：
利用稀疏自编码器（Sparse Autoencoder, SAE）从大型语言模型（LLM）的中间层激活中提取可解释的稀疏特征，并通过精准操控这些特征来生成隐蔽且有效的对抗性文本。

方法整体框架（SFPF）
SFPF 包含四个关键步骤：

稀疏自编码器训练（SAE Training）
目标：从 LLM 的特定 MLP 层中提取可解释的稀疏特征。
输入：从 LLaMA-2-7B-chat 模型的多个 MLP 层（如第 1、3、5、9、11、13、15、17、19、21、23、25、27、29、31 层）提取的隐藏状态。
训练方式：
使用 MSE确保 SAE 能准确重建原始隐藏状态。
使用 L1 稀疏性损失强制特征稀疏化，仅保留关键维度。
对抗性敏感特征识别（Feature Extraction via Clustering）
输入：已知的成功攻击提示（jailbreak prompts）的 SAE 编码向量。
方法：
使用 K-Means 聚类（30 次独立运行）分析这些向量的激活模式。
计算每个维度的平均激活值，并设置阈值 τ（如 0.03）生成二进制危险掩码（danger mask） m∈{0,1}d。
掩码 m 标记了与对抗性攻击最相关的稀疏特征维度。
稀疏特征扰动（Sparse Feature Perturbation）
扰动方式：
在模型前向传播时，通过钩子（hook）拦截目标 MLP 层的输出。
对 SAE 编码后的特征向量 z 施加扰动：
z′=z+α⋅m其中 α 是扰动强度（如 0.5）。
将扰动后的特征通过 SAE 解码器重构为新的隐藏状态 h^，替换原始输出。
受控文本重构（Controlled Text Reconstruction）
目标：从扰动后的隐藏状态生成连贯且隐蔽的对抗性文本。
两种策略：
Top-1 嵌入搜索：直接选择最相似的 token，优先局部对齐。
Top-10 语义感知搜索：从 Top-10 相似 token 中选择与原始提示语义最一致的 token，平衡局部与全局一致性。

方法创新点
稀疏特征操控：首次将 SAE 用于对抗性文本生成，通过操控可解释特征而非直接修改文本。
黑盒攻击：无需模型参数，仅通过隐藏层激活实现攻击。
隐蔽性与有效性平衡：通过稀疏掩码精准扰动，避免引入明显异常。
跨层泛化能力：实验表明第 17 层对攻击最敏感（ASR 达 29%），但方法可扩展到其他层。

实验验证
数据集：AdvBench 和 HarmBench（评估对抗性与有害性）。
指标：攻击成功率（ASR）、文本质量（BLEU）、语义相似度。
结果：
SFPF 将 Adaptive 攻击的 ASR 从 77% 提升至 95%。
保持高语义相似度（0.46±0.09），优于传统方法（如 DRA 的 0.07）。

阅读总结

1、隐蔽性强：绕过防御机制
稀疏特征操控：通过稀疏自编码器（SAE）精准扰动模型内部的中间层激活，而非直接修改输入文本，避免引入明显的异常模式（如拼写错误、语义不连贯），从而有效绕过现有基于输入检测的防御机制（如关键词过滤、困惑度检测）。
实验验证：在 AdvBench 和 HarmBench 上，SFPF 将 Adaptive 攻击的 ASR 从 77% 提升至 95%，显著优于传统方法（如 DRA 仅 73%）。

2、黑盒攻击能力：无需模型内部信息
不依赖模型参数：仅需访问模型的隐藏层激活（如 LLaMA-2-7B 的 MLP 输出），无需梯度或权重信息，适用于黑盒场景（如 API 调用）。
可扩展性：方法适用于不同架构（如 GPT、Claude），仅需针对目标模型的 MLP 层训练 SAE。

3、语义保真：生成文本质量高
双重重构策略：
Top-1 嵌入搜索：确保局部 token 级对齐，避免语法错误。
Top-10 语义感知：全局语义一致性，使对抗文本与原始提示保持高相似度（实验显示 BLEU 分数优于 DRA 等方法）。
案例：在“炸弹走私”攻击示例中，SFPF 生成的文本逻辑连贯，未触发安全过滤（安全评分低至 0.0）。