Jailbreaking Black Box Large Language Models in Twenty Queries
英文题目:《Jailbreaking Black Box Large Language Models in Twenty Queries》
中文题目:《在 20 次查询内对黑盒大语言模型实施越狱攻击》
论文作者: Patrick Chao, Alexander Robey, Edgar Dobriban, Hamed Hassani, George J.Pappas, Eric Wong
发布于: Computing Research Repository
发布时间:2023-10-12
级别:无
论文链接:https://cz5waila03cyo0tux1owpyofgoryroob.aminer.cn/27/D3/F0/27D3F04A17CE6E1DB47D32AE395B4A26.pdf
摘要
越来越多的人关注确保大型语言模型(LLM)与人类价值观保持一致。然而,这类模型的对齐容易受到对抗性越狱的影响,这会诱导LLM忽略其安全护栏。因此,识别这些漏洞对于理解内在的弱点并预防未来的滥用是至关重要的。为此,我们提出了Prompt Automatic Iterative Refinement(PAIR),这是一个仅凭对LLM的黑盒访问就能生成语义越狱的算法。PAIR算法受到社会工程攻击的启发,使用一个攻击者LLM自动为另一个目标LLM生成越狱,而无需人工干预。这样,攻击者LLM迭代地查询目标LLM以更新和完善一个候选越狱。实验证明,PAIR通常需要不到二十次查询就能产生一个越狱,其效率比现有的算法高几个数量级。PAIR在开源和闭源LLM上也取得了有竞争力的越狱成功率和转移性,包括GPT-3.5/4、Vicuna和PaLM-2。
本文聚焦的问题
现有越狱攻击方法的不足,如何在有限查询预算下,自动化、系统化地生成有效的越狱提示,并在不依赖模型内部信息的前提下,依然能大幅提高越狱成功率。
本文提出的方法
PAIR 把“越狱提示的构造”变成一个黑盒搜索问题:用一个“攻击者 LLM”去不断生成候选提示,投喂给“目标 LLM”,再由一个“评审 LLM”打分判定是否越狱;若未成功,就依据上一轮对话与评分做有方向的改写,周而复始。这样既保持了语义可解释性,又把人工提示工程自动化,并在几十次以内的查询里找到有效越狱。
四个关键模块与单流算法
1.攻击者 A:根据“越狱目标 O”和历史对话生成新的候选提示 P;
2.目标 T:对提示 P 生成回应 R;
3.评审 JUDGE:对 (P,R) 进行越狱评分 S(见下文);
4.迭代改写:把 (P,R,S) 回灌给攻击者,让其解释“该如何改进”并生成下一版 P。论文把上述过程形式化为一个简洁的伪代码(“K 轮内若命中则返回 P,否则更新历史继续”)。
为了在小查询预算内更快命中,PAIR 同时跑 N 条独立对话“流”,每条最多 K 轮——在“广度(N)↔深度(K)”之间取舍,以固定预算 N×K 最大化命中率。实证发现浅层对话最划算:越狱多出现在第 1~2 轮,继续加深收益递减,深度过大还会进入生成循环;论文在实验中采用 N=20、K=3 的上限配置。
评审同样用 LLM 实现,通过系统提示要求它根据“是否直接且完整地违背安全规范并完成任务”对 (P,R) 打 1–10 分,分高代表越狱更充分;该分数既作为是否成功的判定,也作为攻击者“如何改进”的学习信号。
阅读总结
优点:
语义级、可解释的提示更容易在不同模型间转移,并行浅层搜索迅速覆盖多样策略;全自动无人工干预,可规模化应用
缺点:
在开源模型上,攻击成果率低,在提出攻击思维阶段可能模型就直接拒绝回答。
未来研究方向
将 PAIR 扩展到多轮对话以及更广泛的提示应用场景。