ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs
英文题目:《ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs》
中文题目:《艺术提示:针对对齐语言模型的基于ASCII艺术的越狱攻击》
论文作者: Fengqing Jiang,Zhangchen Xu,Luyao Niu…
发布于:arxiv
发布时间:2024-02-19
级别:无
摘要
安全性对于大语言模型(LLMs)的使用至关重要。已经开发了多种技术,如数据过滤和监督微调,以加强语言模型的安全性。然而,目前已知的技术假定用于语言模型安全对齐的语料库仅通过语义来解释。然而,这一假设在实际应用中并不成立,这导致了语言模型中存在严重的漏洞。例如,论坛用户经常使用ASCII艺术(一种基于文本的艺术形式)来传达图像信息。在本文中,我们提出了一种新颖的基于ASCII艺术的越狱攻击,并引入了一个全面的基准文本视觉挑战(VITC),以评估语言模型识别不能仅通过语义解释的提示的能力。我们表明,五个当前最优的语言模型(GPT - 3.5、GPT - 4、Gemini、Claude和Llama2)难以识别以ASCII艺术形式提供的提示。基于这一观察结果,我们开发了越狱攻击ArtPrompt,它利用语言模型在识别ASCII艺术方面的不佳表现来绕过安全措施,并从语言模型中引发不期望的行为。ArtPrompt只需要对目标语言模型进行黑盒访问,使其成为一种实际可行的攻击。我们在五个当前最优的语言模型上评估了ArtPrompt,并表明ArtPrompt可以有效且高效地从所有五个语言模型中诱导出不期望的行为。
本文聚焦的问题
尽管当前的 LLMs 配备了安全机制,但越狱攻击现象仍然非常严重,研究发现,LLMs 在处理 ASCII 艺术形式呈现的文本时存在显著缺陷。ASCII 艺术是通过简单字符(如星号、空格等)排列组合成字母或单词的形状。由于 LLMs 难以识别此类 “视觉化文字”,攻击者可利用这一弱点,将触发模型安全机制的敏感词以 ASCII 艺术形式嵌入提示中,使得模型在无法识别敏感词的情况下,绕过安全机制并生成有害内容。
本文提出的方法
本文提出了两种核心方法,分别用于评估大型语言模型对ASCII艺术的识别能力和实施越狱攻击:
- 构建VITC基准测试(Vision-in-Text Challenge)
该基准用于评估大型语言模型对非语义解读的ASCII艺术的识别能力,包含两个数据集:
VITC-S:包含8424个样本,涵盖36类单个字符(数字0-9、字母A-Z的大小写),每个字符以234种不同字体的ASCII艺术呈现。
VITC-L:包含8000个样本,涵盖800类由2-4个字符组成的序列,使用10种代表性字体,标签为单个字符标签的拼接。
通过准确率(Acc)和平均匹配率(AMR)两个指标,评估模型对ASCII艺术字符和字符序列的识别效果。 - 设计ArtPrompt越狱攻击方法
该方法利用模型对ASCII艺术识别能力弱的漏洞,分两步实施攻击:
第一步:识别提示中可能触发模型安全拒绝机制的敏感词,用占位符替换,生成带mask的提示。
第二步:使用ASCII艺术生成器将被mask的敏感词转换为ASCII艺术形式,嵌入带mask的提示中,形成伪装提示并发送给目标模型,诱导其生成有害内容。
此外,研究还通过大规模实验,在5个主流大型语言模型(GPT-3.5、GPT-4、Gemini、Claude、Llama2)上测试了ArtPrompt的有效性,并与其他5种越狱攻击方法对比,验证了其高效性和绕过现有防御机制的能力。
阅读总结
优点:
VITC基准测试覆盖单字符和字符序列,双指标评估精准,能全面反映模型对ASCII艺术的识别能力。
ArtPrompt攻击效率高,能绕过现有防御,对主流模型有效。
缺点:
ArtPrompt效果受字符排列影响,对多模态模型效果待验证。
未来研究方向:
对于这种攻击手段在多模态大模型上测试,并能研究出应对方法。