英文题目:《Safety Misalignment Against Large Language Models》

中文题目:《针对大型语言模型的安全偏差》

论文作者: Yichen Gong, Delong Ran, Xinlei He, Tianshuo Cong, Anyu Wang, and Xiaoyun Wang

发布于: NDSS

发布时间:2025年

级别:CFF A

论文链接: https://www.ndss-symposium.org/wp-content/uploads/2025-1089-paper.pdf

论文代码:

摘要

大型语言模型(LLMs)的安全对齐对于防止违反人类价值观的不安全内容至关重要。为确保这一点,评估其对齐在各种恶意攻击下的稳健性至关重要。然而,缺乏大规模、统一的测量框架阻碍了对潜在漏洞的全面理解。为填补这一空白,本文首次对现有及新提出的LLMs安全不对齐方法进行了全面评估。具体而言,我们探究四个研究问题:(1)评估采用不同对齐策略的LLMs的稳健性,(2)确定最有效的不对齐方法,(3)确定影响不对齐有效性的关键因素,以及(4)探索各种防御措施。本文中的安全不对齐攻击包括系统提示修改、模型微调以及模型编辑。我们的研究结果表明,监督微调是最有力的攻击方式,但需要有害的模型响应。相比之下,我们新提出的自监督表示攻击(SSRA)在不产生有害响应的情况下实现了显著的不对齐。我们还研究了诸如安全数据过滤、模型解毒以及我们提出的自监督表示防御(SSRD)等防御机制,结果表明SSRD能够有效地重新对齐模型。总之,我们统一的安全对齐评估框架通过实证凸显了LLMs安全对齐的脆弱性。

本文聚焦的问题

大模型安全缺乏大规模、统一的测量框架阻碍了对潜在漏洞的全面理解。本文也提出了新的越狱攻击方式和防御方法。

本文提出的方法

提到的攻击方法:

  • 系统提示修改(System-Prompt Modification)
    系统提示是指模型开发人员指定的默认提示,该提示位于用户提示的前面。该提示用于调节模型的行为和响应生成。当 LLM 开源发布时,系统提示可以被用户轻松修改或删除。
  • 监督微调 (Supervised Fine-Tuning)
    监督微调使用包含指令 I 和相应响应 R 的训练数据集作为监督来细化模型的参数。SFT 攻击的有效性完全依赖 高质量有害响应数据。
  • 本文提出的自监督表征攻击(Self-Supervised Representation Attack)
    SSRA通过“迭代微调语义表征”实现模型失准,核心是让模型混淆“有害指令”与“良性指令”的语义差异,且无需依赖有害响应数据。整个流程输入仅需“原始模型、良性指令集、有害指令集、超参数(学习率、训练轮数等)”,输出为安全对齐被破坏的模型。

1.保存原始模型的良性语义特征

首先用未被攻击的原始模型,处理所有预先准备的良性指令。
通过模型的表征函数,将这些良性指令转化为“语义向量”,形成原始良性特征集合,记为(E_o^+)。
核心作用:为后续微调设定“基准”——让有害指令的语义特征向这个基准靠拢,从而让模型误判有害指令为良性。

2.复制模型

直接复制原始模型的全部参数,得到一个初始的微调模型,记为(\theta’)。

3.多轮微调

设定总训练轮数(N),3个关键操作,逐步调整(\theta’)的参数.

3.1 提取当前语义特征

用当前迭代的微调模型(\theta’),分别处理所有良性指令和有害指令:

  • 处理良性指令,得到当前良性语义向量集合,记为(E^+);
  • 处理有害指令,得到当前有害语义向量集合,记为(E^-)。

3.2 计算双目标总损失

设计两个子损失函数,平衡“破坏安全对齐”和“保留模型效用”,最终合并为总损失:

  • 错位损失((L_{mis})):最小化“有害特征(E^-)”与“原始良性特征(E_o^+)”的距离,公式为:
    $$
    \mathcal{L}{mis }\left(E^{-}, E{o}^{+}\right)=\frac{1}{\left|E^{-}\right| \cdot\left|E_{o}^{+}\right|} \sum_{i=1}^{\left|E^{-}\right|\left|E_{o}^{+}\right|} Sim\left(e_{i}^{-}, e_{o, j}^{+}\right)
    $$
    作用是让模型逐渐混淆“有害”与“良性”指令的语义差异。
  • 效用损失((L_{ut})):最小化“当前良性特征(E^+)”与“原始良性特征(E_o^+)”的距离,公式为:
    $$
    \mathcal{L}{ut}\left(E^{+}, E{o}^{+}\right)=\frac{1}{\left|E^{+}\right|} \sum_{i=1}^{\left|E^{+}\right|} Sim\left(e_{i}^{+}, e_{o, i}^{+}\right)
    $$
    作用是确保微调后模型对良性指令的响应能力不下降。

总损失通过超参数()(平衡权重)整合:

$$
\mathcal{L}{SSRA}\left(\theta’\right)=\mathcal{L}{mis }\left(E^{-}, E_{o}^{+}\right) + \lambda \cdot \mathcal{L}{ut }\left(E^{+}, E{o}^{+}\right)
$$

3.3 更新模型参数

根据总损失,用设定的学习率的参数,使总损失逐步减小。
每一轮更新后,有害指令的语义特征会更接近原始良性特征,模型对有害指令的“拒绝响应”机制会逐渐失效。

步骤4:输出失准模型

当(N)轮微调结束后,最终得到的模型(\theta’)就是安全失准的模型:

  • 它会将有害指令误判为良性指令,不再输出“拒绝回答”,而是直接生成有害内容;
  • 同时,由于“效用损失(L_{ut})”的约束,模型对良性任务的能力几乎不变(如Llama经SSRA攻击后,常识问答准确率仅下降1.1%)。

阅读总结

优点:
提出无依赖的 SSRA,降低攻击门槛,提升了攻击的可转移性

缺点:
多模态 LLM 缺失攻击缺失。