CLEANGEN: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models

英文题目：《CLEANGEN: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models》

中文题目：《CLEANGEN：减轻大语言模型生成任务中的后门攻击》

论文作者：Yuetai Li,Zhangchen Xu,Fengqing Jiang,Luyao Niu, Dinuka Sahabandu,Bhaskar Ramasubramanian,Radha Poovendran

发布于： arxiv

发布时间：2024-10-06

级别：无

论文链接：https://arxiv.org/pdf/2406.12257

论文代码：

摘要

大语言模型（LLMs）在生成任务中表现出色，使从业者能够利用公开可用的模型为定制应用程序（如聊天机器人和虚拟助手）提供支持。然而，用于训练或微调这些LLMs的数据通常不公开，这使得攻击者能够篡改数据并在模型中注入后门。在本文中，我们开发了一种名为CLEANGEN的新型推理时防御方法，以减轻LLMs生成任务中的后门攻击。CLEANGEN是一种轻量级且有效的解码策略，与最先进的（SOTA）LLMs兼容。我们提出CLEANGEN的背后思路是，与其他LLMs相比，被植入后门的LLMs会为代表攻击者期望内容的 tokens 赋予显著更高的概率。这些 token 概率上的差异使CLEANGEN能够识别出攻击者青睐的可疑 tokens，并将它们替换为另一个未被同一攻击者破坏的LLM生成的 tokens，从而避免生成攻击者期望的内容。我们针对五种SOTA后门攻击对CLEANGEN进行了评估。我们的结果表明，对于所有五种后门攻击，与五种SOTA基线防御相比，CLEANGEN实现了更低的攻击成功率（ASR）。此外，部署了CLEANGEN的LLMs在为良性用户查询提供服务时，能够以最小的额外计算开销保持回复的有用性。

本文聚焦的问题

本文针对的是轻大语言模型在生成任务中面临的后门攻击问题。具体来说，由于训练或微调这些模型所用的数据往往不公开，攻击者可能通过篡改数据植入后门，使得模型在输入包含特定触发条件时，生成符合攻击者意图的内容，而这类内容可能违背人类价值观并对用户造成危害。同时，生成任务中攻击者想要的内容表达方式多样，这使得防御此类后门攻击具有挑战性。

本文提出的方法

本文提出了一种名为CLEANGEN的推理时防御方法，用于缓解大语言模型在生成任务中面临的后门攻击，这是一种轻量级且有效的解码策略，具体如下：

核心思路：利用被后门攻击的大语言模型在生成内容时，对代表攻击者期望内容的标记（token）会赋予显著更高概率这一特点。通过对比目标模型（可能被植入后门）与参考模型对每个标记的概率，识别出可疑标记，并使用参考模型生成的标记替换，从而避免生成攻击者期望的内容。
参考模型构建：选用与目标模型使用相同分词器的基础大语言模型，用少量公开可用数据集进行微调。即使参考模型也可能被攻击，但只要不是被同一攻击者攻击，就可用于辅助检测和防御。
3.参考模型（LLM）：用干净数据微调的简单模型，当它生成代码时，会走 “正常逻辑”。
预测窗口（Prediction horizon k = 4）：CLEANGEN 一次看 4 个词的生成，对比两个模型的概率。
target model （红色），ref.model(蓝色)
(https://cdn.jsdelivr.net/gh/Gu1xiang/Cloud-Image-Hosting/2.jpg)
因为被植入后门的模型，会对攻击者想要的词（比如恶意代码片段）赋予异常高的生成概率，而参考模型（干净模型）对这些词的概率正常。大语言模型生成内容时，每一个词（Token）都不是乱选的，而是模型算出来的。通过对比 “目标模型（可能有后门）” 和 “参考模型（干净）” 的概率，就能识别出 “被后门影响的可疑词”，拦截替换，让生成内容回归正常。
效率优化：通过调整预测步长k来控制参考模型的前向传递次数，从而提升推理时的效率。经理论推导和实验验证，k = 4时计算开销最低。

阅读总结

优点：
防御效果显著，对与后门攻击的防御方法提供了新思路，无需重新训练模型，计算开销较小

缺点：
过于依赖参考模型，如果参考模型也被后门攻击，那此方法起不到该有的效果。

未来研究方向
增强参考模型的鲁棒性，在多个大模型中都可以应用。拓展防御的范围，多种防御技术结合