ICLShield:Exploring-and-Mitigating-In-Context-Learning-Backdoor-Attacks
英文题目:《ICLShield: Exploring and Mitigating In-Context Learning Backdoor Attacks》
中文题目:《ICLShield:探索并缓解上下文学习后门攻击》
论文作者: Zhiyao Ren,Siyuan Liang,Aishan Liu,Dacheng Tao
发布于: arix
发布时间:2024-07-02
级别:无
摘要
上下文学习(in-context learning, ICL)因其适应性和无参数特性,在大语言模型(LLMs)中取得了显著成功。然而,它也给后门攻击带来了严重漏洞,攻击者可以通过简单地毒害一些ICL示例来操纵大语言模型的行为。在本文中,我们首次提出了双学习假设,该假设认为大语言模型在中毒示例中同时学习与任务相关的潜在概念和后门潜在概念,共同影响模型输出的概率。通过理论分析,我们得出了ICL后门效应的上限,揭示了这种漏洞主要由任务和后门之间的概念偏好率决定。基于这些发现,我们提出了ICLShield,一种动态调整概念偏好率的防御机制。我们的方法通过利用置信度和相似度分数,鼓励大语言模型在ICL阶段选择干净的示例,有效减轻对后门攻击的易感性。在多个大语言模型和任务上进行的广泛实验表明,我们的方法实现了当前最优的防御效果,显著优于现有方法(平均提高26.02%)。此外,即使对于闭源模型(如GPT - 4),我们的方法也表现出了出色的适应性和防御性能。
本文聚焦的问题
ICL 凭借其适应性和无参数特性在 LLMs 中广泛应用,但易遭受后门攻击。攻击者通过毒害少量 ICL 演示,就能在推理阶段操纵模型行为,且现有研究对该攻击机制理解不足,防御方法也有待探索。由于 ICL 后门攻击不涉及修改训练数据或模型参数,传统防御手段难以应对,这使得 LLMs 在实际应用中的安全性面临严峻挑战。
本文提出的方法
本文提出的方法是 ICLShield,用于防御大语言模型上下文学习(ICL)场景中的后门攻击,核心逻辑基于双学习假设和攻击边界推导,分两步实现防御:
一、理论基础:双学习假设与攻击边界
- 双学习假设:模型处理被污染的 ICL 示例时,会同时学习任务潜在概念(正常任务知识,如情感分类规则) 和 攻击潜在概念(攻击者植入的后门规则,如特殊触发词逻辑) ,最终输出由这两种概念共同影响。
- 攻击成功边界:通过推导得出,攻击能否成功由概念偏好比(任务概念与攻击概念的概率比值)决定。比值越小,攻击越容易成功;比值越大,攻击越难生效。
二、防御设计:ICLShield 的具体策略
(https://cdn.jsdelivr.net/gh/Gu1xiang/Cloud-Image-Hosting/3.jpg)
为提高“概念偏好比”、削弱攻击影响,ICLShield 通过 补充优质干净示例调整模型对任务概念的偏好,具体分两种筛选逻辑:
1.相似性选择(Similarity Selection)
目标:找与“中毒示例”文本相似,但不含后门触发词的干净数据(More trigger similar examples)。
做法:用余弦相似度计算候选示例与中毒示例的文本距离,选最相似的一批干净示例,让模型在相似场景中强化正常任务理解。 - 置信度选择(Confidence Selection)
目标:选模型对正常任务“自信”的干净示例(More confident examples)。
做法:计算模型对候选示例的预测置信度(如分类任务中输出正确标签的概率),选置信度高的示例,强化模型对正常任务的偏好。
通过补充这两类干净示例,ICLShield 能动态提升“任务概念”的占比,降低“攻击概念”影响,最终 缩小攻击成功边界,让后门攻击更难生效。实验验证其在开源模型(如 LLaMA 系列)和闭源模型(如 GPT-3.5/4)、多任务场景(分类、生成、推理)中,比传统防御方法更有效,平均降低约 26% 的攻击成功率 。
简单说,ICLShield 就是“用优质干净示例挤掉后门影响,让模型更专注正常任务”的防御策略 。
阅读总结
优点:
基于双学习假设,精准针对上下文学习场景的后门攻击原理设计,能有效削弱攻击潜在概念影响,多个大模型多任务中均有效,适配不同应用场景。
缺点:
需筛选相似、高置信干净示例,若数据集缺乏优质样本,防御效果会受影响,对数据有一定要求。
有新型后门攻击无法防御,需要迭代优化。
未来研究方向:
防御方法在更复杂的上下文学习提示工程方法中的有效性,例如思维树(Tree-of-Thought)或思维图(Graph-of-Thought)。
探索防御方法在更具挑战性的任务中的有效性,例如医疗和金融数据集。