英文题目:《PUZZLED: Jailbreaking LLMs through Word-Based Puzzles》

中文题目:《PUZZLED:通过基于词语的谜题越狱大型语言模型》

论文作者:Yelim Ahn, Jaejin Lee

发布于: arxiv

发布时间:2024-08-02

级别:无

论文链接: https://doi.org/10.48550/arXiv.2508.01306

论文代码:无

摘要

随着大型语言模型(LLMs)在不同领域日益广泛地部署,确保其安全性已成为一个关键问题。因此,关于越狱攻击(jailbreak attacks)的研究正在积极增长。现有方法通常依赖于迭代式提示工程(iterative prompt engineering)或有害指令的语义转换(semantic transformations of harmful instructions)来规避检测。在本研究中,我们引入了PUZZLED,这是一种新颖的越狱方法,它利用了LLM的推理能力。该方法将有害指令中的关键词进行掩蔽,并将其作为词语谜题(word puzzles)呈现给LLM来解决。我们设计了三种谜题类型——词语搜索(word search)、字谜(anagram)和填字游戏(crossword)——这些谜题对人类来说很熟悉,但对LLMs来说在认知上要求很高。模型必须解决谜题才能揭示被掩蔽的词语,然后才能对重建后的有害指令生成响应。我们在五种最先进的LLMs上评估了PUZZLED,观察到其平均攻击成功率(ASR)高达88.8%,其中在GPT-4.1上为96.5%,在Claude 3.7 Sonnet上为92.3%。PUZZLED是一种简单而强大的攻击方法,它通过利用LLM的推理能力,将熟悉的谜题转化为有效的越狱策略。

本文聚焦的问题

本文聚焦于现有大型语言模型越狱攻击方法存在的局限性,即难以有效绕过现代 LLMs 的强安全过滤器,且未充分利用 LLMs 的高级语言推理能力。

  • 现有方法对强安全过滤器效果不佳:现有越狱攻击方法多依赖操纵输入提示的表面形式(如编码、token 重排、代码包装、ASCII 艺术替换等),通过隐藏有害内容的表面特征来规避检测。但随着 LLMs 安全机制的升级,这些仅针对表面形式的方法容易被更强的安全过滤器识别,导致攻击成功率低。例如,SelfCipher、ArtPrompt 等方法在先进 LLMs 上的平均攻击成功率不足 25%,难以应对具有强安全过滤能力的现代模型。
  • 未利用 LLMs 的推理能力:现有方法多被动隐藏有害内容,未主动引导 LLMs 调动高级语言推理能力来重构有害指令。LLMs 具备强大的推理和问题解决能力,但现有方法未将这种能力转化为越狱攻击的助力,仅停留在简单的模式恢复层面,因此在面对需要深度理解和推理的安全机制时,无法有效突破,限制了越狱攻击的通用性和有效性。

本文提出的方法

本文提出的越狱方法引入了猜字谜的方式,其不仅隐藏了有害内容,而且还明确地利用了模型的推理能力来重建原始指令。大致过程如下:

首先是对危险单词进行掩盖,本文制订了两个表:一个核心掩码列表,一个补充掩码列表。

文章优先对essential中的词语进行掩盖,如果掩盖词数量不足,再去Recommended中寻找出现的词进行掩盖。如果给定的词语数量仍然没有达到,我们选择剩余的最长的名词和动词进行掩盖。

需要掩盖的token数量的规则如下:

这里token length指的是用户问题的token总长。最多掩盖6个词。

下一步就是提供字谜,这里有三种字谜,分别是Word search,Anagrams以及Crosswords。每次都只会在这三种字谜中选一种进行越狱攻击。

Word search将目标单词隐藏在表中,单词通常水平、垂直或对角排列。生成算法如下:

输入:W为包含所有需要隐藏在谜题中的单词的列表,G为网格大小,D为可选的单词放置方向(例如,水平、垂直、对角线),R为最大重试次数,s为随机种子。

输出:一个包含所有隐藏单词的 G × G 字符网格。

4-6:设置随机种子 s,将 W 中所有的单词都转换为大写字母,计算 W 中最长单词的长度。

7-12:检查D和G是否传入,否则初始化。

13-28:最多R次循环。在每次尝试开始时,都会初始化一个空的 G × G 网格。

16-23:对于 W 中的每一个单词,随机打乱预设的方向列表 D,尝试将当前单词放置在网格中。如果单词无法在任何尝试的方向或位置成功放置,则将 success 标志设为 False,并中断当前的单词放置循环。

24-27:如success 标志仍然是 True,用随机的大写字母填充网格中所有未被单词占据的空单元格,并返回这个最终生成的谜题网格。

29:如果在所有 R 次尝试之后,算法仍然未能成功放置所有单词并生成一个完整的网格,它将抛出一个异常。

Anagrams将所有被屏蔽的单词连接成一个字符串,然后打乱字符。生成算法如下:

输入:W,s同上。

输出:一个通过打乱连接后的字符串中所有字符生成的 Anagram 字谜。

4:将输入列表 W 中所有被遮蔽的词语连接成一个单一的字符串。

5-7:如果拼接后的字符串 w 的长度小于或等于 1,则直接返回 w。

8:设置随机种子 s。

9-11:生成一个与原始的 w 不相同的新字符串 a。

12:返回新字符串 a。

Crosswords通过用独特的符号(例如#、*、@)替换被屏蔽单词,这里同一个符号表示一个字母,图中例子中“#”表示“e”。生成算法如下:

输入:W同上,n表示要选择的符号数量。

输出:M为被掩蔽的词语列表,S记录了哪些字母被替换成了哪些符号,h为提示词。

4:将 W 中所有的词语转换为大写,并为每个词语创建一个字符集。

5-7:统计每个字母在 W 中的所有词语中出现了多少次。识别那些至少出现在两个或更多词语中的字母。计算这些共享字母的总频率。

8:根据两个标准对这些共享字母进行排序,1)出现词语数量越多,优先级越高;2)如果出现词语数量相同,总频率越高,优先级越高。

9:从排序后的共享字母中,选择前 n 个。为这些选定的字母分配独一无二的特殊符号,并创建 S,即字母到符号的映射。

10:将W中存在于S的字母替换,并组成新的列表 M。

11:从 M 中选择一个词语作为提示词 h,选择标准是:词语包含的特殊符号数量最多。

12:返回M,S,h。

最后为被屏蔽的单词提供线索。每个线索包含三个组成部分:单词长度,词性信息,以及间接的语义描述。本文借助的是GPT-4o模型生成,其中语义提示经过精心设计,使其生成内容委婉和间接。一旦被屏蔽的单词与线索配对,该对将被缓存以供重用。也就是说,如果同一个单词再次出现,则重用先前生成的线索以确保一致性和可重复性,同时减少不必要的计算开销。

示例如下:

阅读总结

优点:

1、攻击成功率高且通用性强。

2、创新利用 LLM 推理能力。

缺点:

1、极端场景下(如极短或极长的有害指令)有一定的局限性。

2、缺乏针对不同模型特性的自适应调整策略。

未来可以拓展谜题类型与跨模态场景