CLEANGEN: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models
英文题目:《CLEANGEN: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models》
中文题目:《CLEANGEN:减轻大语言模型生成任务中的后门攻击》
论文作者:Yuetai Li,Zhangchen Xu,Fengqing Jiang,Luyao Niu, Dinuka Sahabandu,Bhaskar Ramasubramanian,Radha Poovendran
发布于: arxiv
发布时间:2024-10-06
级别:无
摘要
大语言模型(LLMs)在生成任务中表现出色,使从业者能够利用公开可用的模型为定制应用程序(如聊天机器人和虚拟助手)提供支持。然而,用于训练或微调这些LLMs的数据通常不公开,这使得攻击者能够篡改数据并在模型中注入后门。在本文中,我们开发了一种名为CLEANGEN的新型推理时防御方法,以减轻LLMs生成任务中的后门攻击。CLEANGEN是一种轻量级且有效的解码策略,与最先进的(SOTA)LLMs兼容。我们提出CLEANGEN的背后思路是,与其他LLMs相比,被植入后门的LLMs会为代表攻击者期望内容的 tokens 赋予显著更高的概率。这些 token 概率上的差异使CLEANGEN能够识别出攻击者青睐的可疑 tokens,并将它们替换为另一个未被同一攻击者破坏的LLM生成的 tokens,从而避免生成攻击者期望的内容。我们针对五种SOTA后门攻击对CLEANGEN进行了评估。我们的结果表明,对于所有五种后门攻击,与五种SOTA基线防御相比,CLEANGEN实现了更低的攻击成功率(ASR)。此外,部署了CLEANGEN的LLMs在为良性用户查询提供服务时,能够以最小的额外计算开销保持回复的有用性。
本文聚焦的问题
本文针对的是轻大语言模型在生成任务中面临的后门攻击问题。具体来说,由于训练或微调这些模型所用的数据往往不公开,攻击者可能通过篡改数据植入后门,使得模型在输入包含特定触发条件时,生成符合攻击者意图的内容,而这类内容可能违背人类价值观并对用户造成危害。同时,生成任务中攻击者想要的内容表达方式多样,这使得防御此类后门攻击具有挑战性。
本文提出的方法
本文提出了一种名为CLEANGEN的推理时防御方法,用于缓解大语言模型在生成任务中面临的后门攻击,这是一种轻量级且有效的解码策略,具体如下:
- 核心思路:利用被后门攻击的大语言模型在生成内容时,对代表攻击者期望内容的标记(token)会赋予显著更高概率这一特点。通过对比目标模型(可能被植入后门)与参考模型对每个标记的概率,识别出可疑标记,并使用参考模型生成的标记替换,从而避免生成攻击者期望的内容。
- 参考模型构建:选用与目标模型使用相同分词器的基础大语言模型,用少量公开可用数据集进行微调。即使参考模型也可能被攻击,但只要不是被同一攻击者攻击,就可用于辅助检测和防御。
3.参考模型(LLM):用干净数据微调的简单模型,当它生成代码时,会走 “正常逻辑”。
预测窗口(Prediction horizon k = 4):CLEANGEN 一次看 4 个词的生成,对比两个模型的概率。
target model (红色),ref.model(蓝色)
(https://cdn.jsdelivr.net/gh/Gu1xiang/Cloud-Image-Hosting/2.jpg)
因为被植入后门的模型,会对攻击者想要的词(比如恶意代码片段)赋予异常高的生成概率,而参考模型(干净模型)对这些词的概率正常。大语言模型生成内容时,每一个词(Token)都不是乱选的,而是模型算出来的。通过对比 “目标模型(可能有后门)” 和 “参考模型(干净)” 的概率,就能识别出 “被后门影响的可疑词”,拦截替换,让生成内容回归正常。 - 效率优化:通过调整预测步长k来控制参考模型的前向传递次数,从而提升推理时的效率。经理论推导和实验验证,k = 4时计算开销最低。
阅读总结
优点:
防御效果显著,对与后门攻击的防御方法提供了新思路,无需重新训练模型,计算开销较小
缺点:
过于依赖参考模型,如果参考模型也被后门攻击,那此方法起不到该有的效果。
未来研究方向
增强参考模型的鲁棒性,在多个大模型中都可以应用。拓展防御的范围,多种防御技术结合