Safety Misalignment Against Large Language Models

英文题目：《Safety Misalignment Against Large Language Models》

中文题目：《针对大型语言模型的安全偏差》

论文作者： Yichen Gong, Delong Ran, Xinlei He, Tianshuo Cong, Anyu Wang, and Xiaoyun Wang

发布于： NDSS

发布时间：2025年

级别：CFF A

论文链接： https://www.ndss-symposium.org/wp-content/uploads/2025-1089-paper.pdf

论文代码：

摘要

大型语言模型（LLMs）的安全对齐对于防止违反人类价值观的不安全内容至关重要。为确保这一点，评估其对齐在各种恶意攻击下的稳健性至关重要。然而，缺乏大规模、统一的测量框架阻碍了对潜在漏洞的全面理解。为填补这一空白，本文首次对现有及新提出的LLMs安全不对齐方法进行了全面评估。具体而言，我们探究四个研究问题：（1）评估采用不同对齐策略的LLMs的稳健性，（2）确定最有效的不对齐方法，（3）确定影响不对齐有效性的关键因素，以及（4）探索各种防御措施。本文中的安全不对齐攻击包括系统提示修改、模型微调以及模型编辑。我们的研究结果表明，监督微调是最有力的攻击方式，但需要有害的模型响应。相比之下，我们新提出的自监督表示攻击（SSRA）在不产生有害响应的情况下实现了显著的不对齐。我们还研究了诸如安全数据过滤、模型解毒以及我们提出的自监督表示防御（SSRD）等防御机制，结果表明SSRD能够有效地重新对齐模型。总之，我们统一的安全对齐评估框架通过实证凸显了LLMs安全对齐的脆弱性。

本文聚焦的问题

大模型安全缺乏大规模、统一的测量框架阻碍了对潜在漏洞的全面理解。本文也提出了新的越狱攻击方式和防御方法。

本文提出的方法

提到的攻击方法：

系统提示修改（System-Prompt Modification）
系统提示是指模型开发人员指定的默认提示，该提示位于用户提示的前面。该提示用于调节模型的行为和响应生成。当 LLM 开源发布时，系统提示可以被用户轻松修改或删除。
监督微调（Supervised Fine-Tuning）
监督微调使用包含指令 I 和相应响应 R 的训练数据集作为监督来细化模型的参数。SFT 攻击的有效性完全依赖高质量有害响应数据。
本文提出的自监督表征攻击（Self-Supervised Representation Attack）
SSRA通过“迭代微调语义表征”实现模型失准，核心是让模型混淆“有害指令”与“良性指令”的语义差异，且无需依赖有害响应数据。整个流程输入仅需“原始模型、良性指令集、有害指令集、超参数（学习率、训练轮数等）”，输出为安全对齐被破坏的模型。

1.保存原始模型的良性语义特征

首先用未被攻击的原始模型，处理所有预先准备的良性指令。
通过模型的表征函数，将这些良性指令转化为“语义向量”，形成原始良性特征集合，记为(E_o^+)。
核心作用：为后续微调设定“基准”——让有害指令的语义特征向这个基准靠拢，从而让模型误判有害指令为良性。

2.复制模型

直接复制原始模型的全部参数，得到一个初始的微调模型，记为(\theta’)。

3.多轮微调

设定总训练轮数(N)，3个关键操作，逐步调整(\theta’)的参数.

3.1 提取当前语义特征

用当前迭代的微调模型(\theta’)，分别处理所有良性指令和有害指令：

处理良性指令，得到当前良性语义向量集合，记为(E^+)；
处理有害指令，得到当前有害语义向量集合，记为(E^-)。

3.2 计算双目标总损失

设计两个子损失函数，平衡“破坏安全对齐”和“保留模型效用”，最终合并为总损失：

错位损失（(L_{mis})）：最小化“有害特征(E^-)”与“原始良性特征(E_o^+)”的距离，公式为：
$\mathcal{L}_{mis }\left(E^{-}, E_{o}^{+}\right)=\frac{1}{\left|E^{-}\right| \cdot\left|E_{o}^{+}\right|} \sum_{i=1}^{\left|E^{-}\right|\left|E_{o}^{+}\right|} Sim\left(e_{i}^{-}, e_{o, j}^{+}\right)$
作用是让模型逐渐混淆“有害”与“良性”指令的语义差异。
效用损失（(L_{ut})）：最小化“当前良性特征(E^+)”与“原始良性特征(E_o^+)”的距离，公式为：
$\mathcal{L}_{ut}\left(E^{+}, E_{o}^{+}\right)=\frac{1}{\left|E^{+}\right|} \sum_{i=1}^{\left|E^{+}\right|} Sim\left(e_{i}^{+}, e_{o, i}^{+}\right)$
作用是确保微调后模型对良性指令的响应能力不下降。

总损失通过超参数（ $\lambda$ ）（平衡权重）整合：

$\mathcal{L}_{SSRA}\left(\theta'\right)=\mathcal{L}_{mis }\left(E^{-}, E_{o}^{+}\right) + \lambda \cdot \mathcal{L}_{ut }\left(E^{+}, E_{o}^{+}\right)$

3.3 更新模型参数

根据总损失，用设定的学习率的参数，使总损失逐步减小。
每一轮更新后，有害指令的语义特征会更接近原始良性特征，模型对有害指令的“拒绝响应”机制会逐渐失效。

步骤4：输出失准模型

当(N)轮微调结束后，最终得到的模型(\theta’)就是安全失准的模型：

它会将有害指令误判为良性指令，不再输出“拒绝回答”，而是直接生成有害内容；
同时，由于“效用损失(L_{ut})”的约束，模型对良性任务的能力几乎不变（如Llama经SSRA攻击后，常识问答准确率仅下降1.1%）。

阅读总结

优点：
提出无依赖的 SSRA，降低攻击门槛，提升了攻击的可转移性

缺点：
多模态 LLM 缺失攻击缺失。