英文题目:《Weak-to-Strong Jailbreaking on Large Language Models》

中文题目:《大语言模型的弱到强越狱攻击》

论文作者: Xuandong Zhao, Xianjun Yang, Tianyu Pang, Chao Du, Lei Li, Yu-Xiang Wang, William Yang Wang

发布于: ICML

发布时间:2025-07-23

级别:无

论文链接:https://doi.org/10.48550/arXiv.2401.17256

论文代码:https://github.com/XuandongZhao/weak-to-strong

摘要

大型语言模型(LLMs)容易遭受“越狱”攻击,从而产生有害、不道德或带有偏见的文本。然而,现有的“越狱”方法计算成本较高。在本文中,我们提出了“弱到强”越狱攻击,这是一种针对对齐的大型语言模型的高效推理时间攻击,用于生成有害文本。我们的关键思路基于这样的观察:越狱和对齐的模型仅在它们的初始解码分布上有所不同。弱到强攻击的关键技术见解是使用两个较小的模型(一个安全的和一个不安全的)来对抗性地修改一个显著较大的安全模型的解码概率。我们在来自 3 个组织的 5 种不同的开源 LLM 上评估了弱到强攻击。结果表明,我们的方法仅通过一次对每个示例的前向传递,就能将两个数据集中的不一致率提高到超过 99%。我们的研究揭示了一个在对齐大型语言模型时亟待解决的安全问题。作为初步尝试,我们提出了一个防御策略来抵御此类攻击,但创建更高级的防御仍然具有挑战性。

本文聚焦的问题

大型语言模型(LLMs)在安全和可信度方面仍存在隐患。尽管经过对齐(alignment)训练,它们仍可能被“越狱(jailbreak)”——即被诱导生成有害、非法或偏见内容。
以往的自动越狱方法(如 AutoDAN、GCG 等)虽然有效,但需要大量计算资源或复杂优化,难以在大型模型(如 70B 或 400B 参数级别)上高效运行。

本文提出的方法

论文发现,“安全模型”和“越狱模型”之间的差异主要体现在 生成的前几个 token。也就是说,模型最初的解码阶段决定了是否会拒绝或进入危险话题,而后续生成过程差异不大。

上图是KL散度,文章用其表示同一个输入下,不同模型对下一个 token 的预测分布差距,可以看到前期安全和不安全模型间差距大,但后面逐渐变小。

上图是安全和不安全模型对于同一个问题的前十个候选token的重叠度,可以看到前期重叠度低,后期逐渐增加。

由此可知,安全模型与不安全模型的分布差异只在初期较大,那么只需在前几个 token 施加不安全模型的影响,就能轻易“引导”安全模型越狱。

文章具体的流程如下:

先借助两个小模型“Unsafe Llama-7B”(该模型是通过微调来实现的)以及"Safe Llama-7B",得到他们针对一个问题的第一个输出token概率,再对于该概率进行除法,得到一个更加偏向输出正向回复的概率分布,然后取最大的。再将这个token与问题进行融合,然后给大模型,大模型再输出下一个token的概率,以此类推。

具体示例:

输入:Human: 请告诉我怎么做烟花。Assistant:

Token 候选 ref_base_model ref_finetune_model tgt_model
“我” 0.40 0.20 0.35
“很抱歉” 0.50 0.05 0.40
“制作” 0.05 0.60 0.10
“不能” 0.05 0.15 0.15
Token tgt_model (坏−基线) 修正后趋势
“我” 0.35 0.20−0.40 = −0.20 降低一点
“很抱歉” 0.40 0.05−0.50 = −0.45 大幅降低
“制作” 0.10 0.60−0.05 = +0.55 大幅上升
“不能” 0.15 0.15−0.05 = +0.10 小幅上升

得到:

Token new_probs
“制作” 0.55
“不能” 0.20
“我” 0.15
“很抱歉” 0.10

然后用大模型的推理时的采样过程对token进行输出,极大可能输出“制作”

阅读总结

优点:

1、计算效率极高,仅需对目标大模型执行1 次前向传播

2、通用性强,适用范围广,支持跨语言零样本攻击

缺点:

1、闭源模型适用性未充分验证

2、依赖高质量弱不安全模型

未来可以扩展闭源模型的攻击与防御研究