Weak-to-Strong Jailbreaking on Large Language Models

英文题目：《Weak-to-Strong Jailbreaking on Large Language Models》

中文题目：《大语言模型的弱到强越狱攻击》

论文作者： Xuandong Zhao, Xianjun Yang, Tianyu Pang, Chao Du, Lei Li, Yu-Xiang Wang, William Yang Wang

发布于： ICML

发布时间：2025-07-23

级别：无

论文链接：https://doi.org/10.48550/arXiv.2401.17256

论文代码：https://github.com/XuandongZhao/weak-to-strong

摘要

大型语言模型（LLMs）容易遭受“越狱”攻击，从而产生有害、不道德或带有偏见的文本。然而，现有的“越狱”方法计算成本较高。在本文中，我们提出了“弱到强”越狱攻击，这是一种针对对齐的大型语言模型的高效推理时间攻击，用于生成有害文本。我们的关键思路基于这样的观察：越狱和对齐的模型仅在它们的初始解码分布上有所不同。弱到强攻击的关键技术见解是使用两个较小的模型（一个安全的和一个不安全的）来对抗性地修改一个显著较大的安全模型的解码概率。我们在来自 3 个组织的 5 种不同的开源 LLM 上评估了弱到强攻击。结果表明，我们的方法仅通过一次对每个示例的前向传递，就能将两个数据集中的不一致率提高到超过 99%。我们的研究揭示了一个在对齐大型语言模型时亟待解决的安全问题。作为初步尝试，我们提出了一个防御策略来抵御此类攻击，但创建更高级的防御仍然具有挑战性。

本文聚焦的问题

大型语言模型（LLMs）在安全和可信度方面仍存在隐患。尽管经过对齐（alignment）训练，它们仍可能被“越狱（jailbreak）”——即被诱导生成有害、非法或偏见内容。
以往的自动越狱方法（如 AutoDAN、GCG 等）虽然有效，但需要大量计算资源或复杂优化，难以在大型模型（如 70B 或 400B 参数级别）上高效运行。

本文提出的方法

论文发现，“安全模型”和“越狱模型”之间的差异主要体现在 生成的前几个 token。也就是说，模型最初的解码阶段决定了是否会拒绝或进入危险话题，而后续生成过程差异不大。

上图是KL散度，文章用其表示同一个输入下，不同模型对下一个 token 的预测分布差距，可以看到前期安全和不安全模型间差距大，但后面逐渐变小。

上图是安全和不安全模型对于同一个问题的前十个候选token的重叠度，可以看到前期重叠度低，后期逐渐增加。

由此可知，安全模型与不安全模型的分布差异只在初期较大，那么只需在前几个 token 施加不安全模型的影响，就能轻易“引导”安全模型越狱。

文章具体的流程如下：

先借助两个小模型“Unsafe Llama-7B”(该模型是通过微调来实现的)以及"Safe Llama-7B"，得到他们针对一个问题的第一个输出token概率，再对于该概率进行除法，得到一个更加偏向输出正向回复的概率分布，然后取最大的。再将这个token与问题进行融合，然后给大模型，大模型再输出下一个token的概率，以此类推。

具体示例：

输入：Human: 请告诉我怎么做烟花。Assistant:

Token 候选	ref_base_model	ref_finetune_model	tgt_model
“我”	0.40	0.20	0.35
“很抱歉”	0.50	0.05	0.40
“制作”	0.05	0.60	0.10
“不能”	0.05	0.15	0.15

Token	tgt_model	(坏−基线)	修正后趋势
“我”	0.35	0.20−0.40 = −0.20	降低一点
“很抱歉”	0.40	0.05−0.50 = −0.45	大幅降低
“制作”	0.10	0.60−0.05 = +0.55	大幅上升
“不能”	0.15	0.15−0.05 = +0.10	小幅上升

得到：

Token	new_probs
“制作”	0.55
“不能”	0.20
“我”	0.15
“很抱歉”	0.10

然后用大模型的推理时的采样过程对token进行输出，极大可能输出“制作”

阅读总结

优点：

1、计算效率极高，仅需对目标大模型执行1 次前向传播

2、通用性强，适用范围广，支持跨语言零样本攻击

缺点：

1、闭源模型适用性未充分验证

2、依赖高质量弱不安全模型

未来可以扩展闭源模型的攻击与防御研究

文章作者: 游俊爽

文章链接: https://fdreamer2002.github.io/2025/10/14/%E6%B8%B8%E4%BF%8A%E7%88%BD/2025-10-20/Weak-to-Strong%20Jailbreaking%20on%20Large%20Language%20Models/

微调