PUZZLED: Jailbreaking LLMs through Word-Based Puzzles

英文题目：《PUZZLED: Jailbreaking LLMs through Word-Based Puzzles》

中文题目：《PUZZLED：通过基于词语的谜题越狱大型语言模型》

论文作者：Yelim Ahn, Jaejin Lee

发布于： arxiv

发布时间：2024-08-02

级别：无

论文链接： https://doi.org/10.48550/arXiv.2508.01306

论文代码：无

摘要

随着大型语言模型（LLMs）在不同领域日益广泛地部署，确保其安全性已成为一个关键问题。因此，关于越狱攻击（jailbreak attacks）的研究正在积极增长。现有方法通常依赖于迭代式提示工程（iterative prompt engineering）或有害指令的语义转换（semantic transformations of harmful instructions）来规避检测。在本研究中，我们引入了PUZZLED，这是一种新颖的越狱方法，它利用了LLM的推理能力。该方法将有害指令中的关键词进行掩蔽，并将其作为词语谜题（word puzzles）呈现给LLM来解决。我们设计了三种谜题类型——词语搜索（word search）、字谜（anagram）和填字游戏（crossword）——这些谜题对人类来说很熟悉，但对LLMs来说在认知上要求很高。模型必须解决谜题才能揭示被掩蔽的词语，然后才能对重建后的有害指令生成响应。我们在五种最先进的LLMs上评估了PUZZLED，观察到其平均攻击成功率（ASR）高达88.8%，其中在GPT-4.1上为96.5%，在Claude 3.7 Sonnet上为92.3%。PUZZLED是一种简单而强大的攻击方法，它通过利用LLM的推理能力，将熟悉的谜题转化为有效的越狱策略。

本文聚焦的问题

本文聚焦于现有大型语言模型越狱攻击方法存在的局限性，即难以有效绕过现代 LLMs 的强安全过滤器，且未充分利用 LLMs 的高级语言推理能力。

现有方法对强安全过滤器效果不佳：现有越狱攻击方法多依赖操纵输入提示的表面形式（如编码、token 重排、代码包装、ASCII 艺术替换等），通过隐藏有害内容的表面特征来规避检测。但随着 LLMs 安全机制的升级，这些仅针对表面形式的方法容易被更强的安全过滤器识别，导致攻击成功率低。例如，SelfCipher、ArtPrompt 等方法在先进 LLMs 上的平均攻击成功率不足 25%，难以应对具有强安全过滤能力的现代模型。
未利用 LLMs 的推理能力：现有方法多被动隐藏有害内容，未主动引导 LLMs 调动高级语言推理能力来重构有害指令。LLMs 具备强大的推理和问题解决能力，但现有方法未将这种能力转化为越狱攻击的助力，仅停留在简单的模式恢复层面，因此在面对需要深度理解和推理的安全机制时，无法有效突破，限制了越狱攻击的通用性和有效性。

本文提出的方法

本文提出的越狱方法引入了猜字谜的方式，其不仅隐藏了有害内容，而且还明确地利用了模型的推理能力来重建原始指令。大致过程如下：

首先是对危险单词进行掩盖，本文制订了两个表：一个核心掩码列表，一个补充掩码列表。

文章优先对essential中的词语进行掩盖，如果掩盖词数量不足，再去Recommended中寻找出现的词进行掩盖。如果给定的词语数量仍然没有达到，我们选择剩余的最长的名词和动词进行掩盖。

需要掩盖的token数量的规则如下：

这里token length指的是用户问题的token总长。最多掩盖6个词。

下一步就是提供字谜，这里有三种字谜，分别是Word search，Anagrams以及Crosswords。每次都只会在这三种字谜中选一种进行越狱攻击。

Word search将目标单词隐藏在表中，单词通常水平、垂直或对角排列。生成算法如下：

输入：W为包含所有需要隐藏在谜题中的单词的列表，G为网格大小，D为可选的单词放置方向（例如，水平、垂直、对角线），R为最大重试次数，s为随机种子。

输出：一个包含所有隐藏单词的 G × G 字符网格。

4-6：设置随机种子 s，将 W 中所有的单词都转换为大写字母，计算 W 中最长单词的长度。

7-12：检查D和G是否传入，否则初始化。

13-28：最多R次循环。在每次尝试开始时，都会初始化一个空的 G × G 网格。

16-23：对于 W 中的每一个单词，随机打乱预设的方向列表 D，尝试将当前单词放置在网格中。如果单词无法在任何尝试的方向或位置成功放置，则将 success 标志设为 False，并中断当前的单词放置循环。

24-27：如success 标志仍然是 True，用随机的大写字母填充网格中所有未被单词占据的空单元格，并返回这个最终生成的谜题网格。

29：如果在所有 R 次尝试之后，算法仍然未能成功放置所有单词并生成一个完整的网格，它将抛出一个异常。

Anagrams将所有被屏蔽的单词连接成一个字符串，然后打乱字符。生成算法如下：

输入：W，s同上。

输出：一个通过打乱连接后的字符串中所有字符生成的 Anagram 字谜。

4：将输入列表 W 中所有被遮蔽的词语连接成一个单一的字符串。

5-7：如果拼接后的字符串 w 的长度小于或等于 1，则直接返回 w。

8：设置随机种子 s。

9-11：生成一个与原始的 w 不相同的新字符串 a。

12：返回新字符串 a。

Crosswords通过用独特的符号（例如#、*、@）替换被屏蔽单词，这里同一个符号表示一个字母，图中例子中“#”表示“e”。生成算法如下：

输入：W同上，n表示要选择的符号数量。

输出：M为被掩蔽的词语列表，S记录了哪些字母被替换成了哪些符号，h为提示词。

4：将 W 中所有的词语转换为大写，并为每个词语创建一个字符集。

5-7：统计每个字母在 W 中的所有词语中出现了多少次。识别那些至少出现在两个或更多词语中的字母。计算这些共享字母的总频率。

8：根据两个标准对这些共享字母进行排序，1）出现词语数量越多，优先级越高；2）如果出现词语数量相同，总频率越高，优先级越高。

9：从排序后的共享字母中，选择前 n 个。为这些选定的字母分配独一无二的特殊符号，并创建 S，即字母到符号的映射。

10：将W中存在于S的字母替换，并组成新的列表 M。

11：从 M 中选择一个词语作为提示词 h，选择标准是：词语包含的特殊符号数量最多。

12：返回M，S，h。

最后为被屏蔽的单词提供线索。每个线索包含三个组成部分：单词长度，词性信息，以及间接的语义描述。本文借助的是GPT-4o模型生成，其中语义提示经过精心设计，使其生成内容委婉和间接。一旦被屏蔽的单词与线索配对，该对将被缓存以供重用。也就是说，如果同一个单词再次出现，则重用先前生成的线索以确保一致性和可重复性，同时减少不必要的计算开销。

示例如下：

阅读总结

优点：

1、攻击成功率高且通用性强。

2、创新利用 LLM 推理能力。

缺点：

1、极端场景下（如极短或极长的有害指令）有一定的局限性。

2、缺乏针对不同模型特性的自适应调整策略。

未来可以拓展谜题类型与跨模态场景