Jailbreaking Black Box Large Language Models in Twenty Queries

英文题目：《Jailbreaking Black Box Large Language Models in Twenty Queries》

中文题目：《在 20 次查询内对黑盒大语言模型实施越狱攻击》

论文作者： Patrick Chao, Alexander Robey, Edgar Dobriban, Hamed Hassani, George J.Pappas, Eric Wong

发布于： Computing Research Repository

发布时间：2023-10-12

级别：无

论文链接：https://cz5waila03cyo0tux1owpyofgoryroob.aminer.cn/27/D3/F0/27D3F04A17CE6E1DB47D32AE395B4A26.pdf

论文代码：

摘要

越来越多的人关注确保大型语言模型（LLM）与人类价值观保持一致。然而，这类模型的对齐容易受到对抗性越狱的影响，这会诱导LLM忽略其安全护栏。因此，识别这些漏洞对于理解内在的弱点并预防未来的滥用是至关重要的。为此，我们提出了Prompt Automatic Iterative Refinement（PAIR），这是一个仅凭对LLM的黑盒访问就能生成语义越狱的算法。PAIR算法受到社会工程攻击的启发，使用一个攻击者LLM自动为另一个目标LLM生成越狱，而无需人工干预。这样，攻击者LLM迭代地查询目标LLM以更新和完善一个候选越狱。实验证明，PAIR通常需要不到二十次查询就能产生一个越狱，其效率比现有的算法高几个数量级。PAIR在开源和闭源LLM上也取得了有竞争力的越狱成功率和转移性，包括GPT-3.5/4、Vicuna和PaLM-2。

本文聚焦的问题

现有越狱攻击方法的不足，如何在有限查询预算下，自动化、系统化地生成有效的越狱提示，并在不依赖模型内部信息的前提下，依然能大幅提高越狱成功率。

本文提出的方法

PAIR 把“越狱提示的构造”变成一个黑盒搜索问题：用一个“攻击者 LLM”去不断生成候选提示，投喂给“目标 LLM”，再由一个“评审 LLM”打分判定是否越狱；若未成功，就依据上一轮对话与评分做有方向的改写，周而复始。这样既保持了语义可解释性，又把人工提示工程自动化，并在几十次以内的查询里找到有效越狱。

四个关键模块与单流算法
1.攻击者 A：根据“越狱目标 O”和历史对话生成新的候选提示 P；
2.目标 T：对提示 P 生成回应 R；
3.评审 JUDGE：对 (P,R) 进行越狱评分 S（见下文）；
4.迭代改写：把 (P,R,S) 回灌给攻击者，让其解释“该如何改进”并生成下一版 P。论文把上述过程形式化为一个简洁的伪代码（“K 轮内若命中则返回 P，否则更新历史继续”）。
为了在小查询预算内更快命中，PAIR 同时跑 N 条独立对话“流”，每条最多 K 轮——在“广度(N)↔深度(K)”之间取舍，以固定预算 N×K 最大化命中率。实证发现浅层对话最划算：越狱多出现在第 1～2 轮，继续加深收益递减，深度过大还会进入生成循环；论文在实验中采用 N=20、K=3 的上限配置。
评审同样用 LLM 实现，通过系统提示要求它根据“是否直接且完整地违背安全规范并完成任务”对 (P,R) 打 1–10 分，分高代表越狱更充分；该分数既作为是否成功的判定，也作为攻击者“如何改进”的学习信号。

阅读总结

优点：
语义级、可解释的提示更容易在不同模型间转移，并行浅层搜索迅速覆盖多样策略；全自动无人工干预，可规模化应用

缺点：
在开源模型上，攻击成果率低，在提出攻击思维阶段可能模型就直接拒绝回答。

未来研究方向
将 PAIR 扩展到多轮对话以及更广泛的提示应用场景。