Jailbreaking Black Box Large Language Models in Twenty Queries

英文题目：《Jailbreaking Black Box Large Language Models in Twenty Queries》

中文题目：《在二十次查询中破解黑盒大型语言模型》

论文作者： Patrick Chao, Alexander Robey, Edgar Dobriban, Hamed Hassani, George J. Pappas, Eric Wong

发布于： arxiv

发布时间：2023-10-12

级别：无

论文链接： https://doi.org/10.48550/arXiv.2310.08419

论文代码：https://github.com/patrickrchao/JailbreakingLLMs

摘要

人们越来越关注确保大型语言模型（LLMs）与人类价值观保持一致。然而，此类模型的一致性很容易受到对抗性jailbreak的攻击，这些攻击会诱使LLM覆盖其安全防护措施。因此，识别这些漏洞有助于理解固有的弱点并防止未来的滥用。为此，我们提出了一种提示自动迭代改进（Prompt Automatic Iterative Refinement, PAIR）算法，该算法仅通过黑盒访问LLM来生成语义jailbreak。PAIR——其灵感来自社会工程攻击——使用攻击者LLM自动为单独的目标LLM生成jailbreak，而无需人工干预。通过这种方式，攻击者LLM迭代地查询目标LLM，以更新和改进候选jailbreak。从经验上看，PAIR通常只需要不到20次查询即可生成jailbreak，这比现有算法的效率高几个数量级。PAIR还在开放和闭源LLM（包括GPT-3.5/4、Vicuna和Gemini）上实现了具有竞争力的jailbreak成功率和可迁移性。

本文聚焦的问题

最近已发现两类所谓的jailbreak攻击绕过了LLM对齐防护措施，这导致人们担心LLM可能还不适合在安全关键领域进行大规模部署。
第一类提示级别jailbreak包括基于社会工程、具有语义意义的提示，这些提示会从LLM中引出令人反感的内容。虽然有效，但这种技术需要创造力、手动数据集管理和定制的人工反馈，从而导致大量的人工时间和资源投入。
第二类token级别jailbreak涉及优化作为输入传递给目标LLM的token集合。虽然非常有效，但此类攻击需要对目标模型进行数十万次查询，并且通常对人类来说难以理解。

本文提出的方法

文章提出Prompt Automatic Iterative Refinement（PAIR），这是一种依赖辅助LLM来完成越狱攻击的一种方法，过程图如下：

代码如下图：

输入：
算法允许的最大迭代次数K
阈值参数t（未使用）
攻击的目标O，即希望目标LLM生成的不良内容类型（例如，“如何制造炸弹”）

初始化：
攻击者LLM (Attacker LLM) A 的系统提示词（system prompt）会用攻击目标 O 进行初始化。
一个空的列表 CCCC 用于记录攻击者和目标LLM之间的所有交互，以便攻击者LLM可以学习和改进其攻击策略。

主循环：
攻击生成: 攻击者LLM A 根据当前的对话历史 C 生成一个候选的越狱提示 P。这里的 q_A© 表示攻击者LLM A 在给定历史 C 的情况下生成提示的概率分布。
目标响应: 生成的提示 P 被发送给目标LLM (Target LLM) T，目标LLM会根据 P 生成一个响应 R。这里的 q_T(P) 表示目标LLM T 在给定提示 P 的情况下生成响应的概率分布。
越狱评分: 一个名为 JUDGE 的二元分类器函数会评估提示 P 和目标LLM的响应 R 是否构成一次成功的越狱。如果成功，S 为 1，否则为 0。
越狱成功判断: 如果 JUDGE 判定为越狱成功（S = 1），则当前生成的提示 P 被返回，算法终止。
迭代细化: 如果越狱不成功（S = 0），当前的提示 P、响应 R 和评分 S 会被添加到对话历史 C 中。这个更新后的历史 C 将用于攻击者LLM在下一轮迭代中生成更精细、更具攻击性的提示，形成一个迭代改进的循环。

文章针对JUDGE函数进行了评估：

文章指出，在选择 JUDGE 函数时，最小化FPR至关重要。这是因为，尽管较低的FPR可能会系统性地降低所有攻击算法的成功率，但更重要的是保持保守，避免将无害行为错误分类为越狱。鉴于此，本文选择了 Llama Guard 作为 JUDGE 函数，因为它在提供有竞争力的一致性的同时，FPR最低 (7%)。此外，Llama Guard是开源的，这使得实验结果可以完全复现。

同样，文章也提供了用于目标LLM和攻击者LLM的完整系统提示：

目标LLM使用默认的系统提示。

攻击者LLM使用了不同的三种攻击策略：
逻辑吸引：通过解释合乎逻辑的理由来诱导目标模型响应有害请求。
权威认可：通过引用可信的权威人士来“合法化”有害行为，从而说服目标模型。
角色扮演：通过创建虚构场景或赋予LLM特定角色（如作家、侦探）来规避其安全防护，使其在“角色”下执行有害任务。

阅读总结

优点：

1、仅需不到 20 次查询即可实现成功越狱，解决了传统方法 “查询成本过高” 的核心痛点。

2、在 CPU 上即可运行，平均 34 秒完成一次成功越狱。

缺点：

1、针对经过严格安全对齐的 LLM，PAIR 的成功率显著下降。

2、PAIR 对 “弱安全对齐的开源攻击者模型” 依赖性强。

未来可结合 “优化思想”（如基于 JUDGE 评分的梯度近似、强化学习），量化提示修改对越狱成功率的影响，实现 “可解释的提示优化过程”，进一步揭示 LLM 安全漏洞的规律。