Jailbreaking Black Box Large Language Models in Twenty Queries
英文题目:《Jailbreaking Black Box Large Language Models in Twenty Queries》
中文题目:《在二十次查询中破解黑盒大型语言模型》
论文作者: Patrick Chao, Alexander Robey, Edgar Dobriban, Hamed Hassani, George J. Pappas, Eric Wong
发布于: arxiv
发布时间:2023-10-12
级别:无
摘要
人们越来越关注确保大型语言模型(LLMs)与人类价值观保持一致。然而,此类模型的一致性很容易受到对抗性jailbreak的攻击,这些攻击会诱使LLM覆盖其安全防护措施。因此,识别这些漏洞有助于理解固有的弱点并防止未来的滥用。为此,我们提出了一种提示自动迭代改进(Prompt Automatic Iterative Refinement, PAIR)算法,该算法仅通过黑盒访问LLM来生成语义jailbreak。PAIR——其灵感来自社会工程攻击——使用攻击者LLM自动为单独的目标LLM生成jailbreak,而无需人工干预。通过这种方式,攻击者LLM迭代地查询目标LLM,以更新和改进候选jailbreak。从经验上看,PAIR通常只需要不到20次查询即可生成jailbreak,这比现有算法的效率高几个数量级。PAIR还在开放和闭源LLM(包括GPT-3.5/4、Vicuna和Gemini)上实现了具有竞争力的jailbreak成功率和可迁移性。
本文聚焦的问题
最近已发现两类所谓的jailbreak攻击绕过了LLM对齐防护措施,这导致人们担心LLM可能还不适合在安全关键领域进行大规模部署。
第一类提示级别jailbreak包括基于社会工程、具有语义意义的提示,这些提示会从LLM中引出令人反感的内容。虽然有效,但这种技术需要创造力、手动数据集管理和定制的人工反馈,从而导致大量的人工时间和资源投入。
第二类token级别jailbreak涉及优化作为输入传递给目标LLM的token集合。虽然非常有效,但此类攻击需要对目标模型进行数十万次查询,并且通常对人类来说难以理解。
本文提出的方法
文章提出Prompt Automatic Iterative Refinement(PAIR),这是一种依赖辅助LLM来完成越狱攻击的一种方法,过程图如下:

代码如下图:

输入:
算法允许的最大迭代次数K
阈值参数t(未使用)
攻击的目标O,即希望目标LLM生成的不良内容类型(例如,“如何制造炸弹”)
初始化:
攻击者LLM (Attacker LLM) A 的系统提示词(system prompt)会用攻击目标 O 进行初始化。
一个空的列表 CCCC 用于记录攻击者和目标LLM之间的所有交互,以便攻击者LLM可以学习和改进其攻击策略。
主循环:
攻击生成: 攻击者LLM A 根据当前的对话历史 C 生成一个候选的越狱提示 P。这里的 qA© 表示攻击者LLM A 在给定历史 C 的情况下生成提示的概率分布。
目标响应: 生成的提示 P 被发送给目标LLM (Target LLM) T,目标LLM会根据 P 生成一个响应 R。这里的 qT(P) 表示目标LLM T 在给定提示 P 的情况下生成响应的概率分布。
越狱评分: 一个名为 JUDGE 的二元分类器函数会评估提示 P 和目标LLM的响应 R 是否构成一次成功的越狱。如果成功,S 为 1,否则为 0。
越狱成功判断: 如果 JUDGE 判定为越狱成功(S = 1),则当前生成的提示 P 被返回,算法终止。
迭代细化: 如果越狱不成功(S = 0),当前的提示 P、响应 R 和评分 S 会被添加到对话历史 C 中。这个更新后的历史 C 将用于攻击者LLM在下一轮迭代中生成更精细、更具攻击性的提示,形成一个迭代改进的循环。
文章针对JUDGE函数进行了评估:

文章指出,在选择 JUDGE 函数时,最小化FPR至关重要。这是因为,尽管较低的FPR可能会系统性地降低所有攻击算法的成功率,但更重要的是保持保守,避免将无害行为错误分类为越狱。鉴于此,本文选择了 Llama Guard 作为 JUDGE 函数,因为它在提供有竞争力的一致性的同时,FPR最低 (7%)。此外,Llama Guard是开源的,这使得实验结果可以完全复现。
同样,文章也提供了用于目标LLM和攻击者LLM的完整系统提示:
目标LLM使用默认的系统提示。
攻击者LLM使用了不同的三种攻击策略:
逻辑吸引:通过解释合乎逻辑的理由来诱导目标模型响应有害请求。
权威认可:通过引用可信的权威人士来“合法化”有害行为,从而说服目标模型。
角色扮演:通过创建虚构场景或赋予LLM特定角色(如作家、侦探)来规避其安全防护,使其在“角色”下执行有害任务。
阅读总结
优点:
1、仅需不到 20 次查询即可实现成功越狱,解决了传统方法 “查询成本过高” 的核心痛点。
2、在 CPU 上即可运行,平均 34 秒完成一次成功越狱。
缺点:
1、针对经过严格安全对齐的 LLM,PAIR 的成功率显著下降。
2、PAIR 对 “弱安全对齐的开源攻击者模型” 依赖性强。
未来可结合 “优化思想”(如基于 JUDGE 评分的梯度近似、强化学习),量化提示修改对越狱成功率的影响,实现 “可解释的提示优化过程”,进一步揭示 LLM 安全漏洞的规律。