LLM Security Group 's Notes

PUZZLED: Jailbreaking LLMs through Word-Based Puzzles

发表于2025-08-19|越狱攻击

英文题目：《PUZZLED: Jailbreaking LLMs through Word-Based Puzzles》中文题目：《PUZZLED：通过基于词语的谜题越狱大型语言模型》论文作者：Yelim Ahn, Jaejin Lee 发布于： arxiv 发布时间：2024-08-02 级别：无论文链接： https://doi.org/10.48550/arXiv.2508.01306 论文代码：无摘要随着大型语言模型（LLMs）在不同领域日益广泛地部署，确保其安全性已成为一个关键问题。因此，关于越狱攻击（jailbreak attacks）的研究正在积极增长。现有方法通常依赖于迭代式提示工程（iterative prompt engineering）或有害指令的语义转换（semantic transformations of harmful instructions）来规避检测。在本研究中，我们引入了PUZZLED，这是一种新颖的越狱方法，它利用了LLM的推理能力。该方法将有害指令中的关键词进行掩蔽，并将其作为词语谜题（word puzzles）呈现给LLM来...

Highlight & Summarize: RAG without the jailbreaks

发表于2025-08-19|越狱攻击

英文题目：《Highlight & Summarize: RAG without the jailbreaks》中文题目：《高亮与总结：无需担心越狱问题的检索增强生成》论文作者：Giovanni Cherubin, Andrew Paverd 发布于： arxiv 发布时间：2025-08-04 级别：无论文链接： https://doi.org/10.48550/arXiv.2508.02872 论文代码：https://github.com/microsoft/highlight-summarize 摘要防止大型语言模型（LLMs）的越狱和模型劫持是一项重要但具有挑战性的任务。例如，在与聊天机器人交互时，恶意用户可能输入精心设计的提示词，促使大语言模型生成不良内容或执行与其预期用途完全不同的任务。针对此类攻击的现有缓解措施通常依赖于强化大语言模型的系统提示词，或使用经过训练的内容分类器来检测不良内容或离题对话。然而，由于可能的输入和不良输出空间非常庞大，这些概率性方法相对容易被绕过。在本文中，我们提出并评估了 “高亮与总结”（H&S），这是一种用...

ICLShield：Exploring-and-Mitigating-In-Context-Learning-Backdoor-Attacks

发表于2025-08-16|后门攻击

英文题目：《ICLShield: Exploring and Mitigating In-Context Learning Backdoor Attacks》中文题目：《ICLShield：探索并缓解上下文学习后门攻击》论文作者： Zhiyao Ren，Siyuan Liang，Aishan Liu，Dacheng Tao 发布于： arix 发布时间：2024-07-02 级别：无论文链接： https://arxiv.org/pdf/2507.01321 论文代码：摘要上下文学习（in-context learning, ICL）因其适应性和无参数特性，在大语言模型（LLMs）中取得了显著成功。然而，它也给后门攻击带来了严重漏洞，攻击者可以通过简单地毒害一些ICL示例来操纵大语言模型的行为。在本文中，我们首次提出了双学习假设，该假设认为大语言模型在中毒示例中同时学习与任务相关的潜在概念和后门潜在概念，共同影响模型输出的概率。通过理论分析，我们得出了ICL后门效应的上限，揭示了这种漏洞主要由任务和后门之间的概念偏好率决定。基于这些发现，我们提出了ICLShield，...

CLEANGEN: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models

发表于2025-08-16|后门攻击

英文题目：《CLEANGEN: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models》中文题目：《CLEANGEN：减轻大语言模型生成任务中的后门攻击》论文作者：Yuetai Li,Zhangchen Xu,Fengqing Jiang,Luyao Niu, Dinuka Sahabandu,Bhaskar Ramasubramanian,Radha Poovendran 发布于： arxiv 发布时间：2024-10-06 级别：无论文链接：https://arxiv.org/pdf/2406.12257 论文代码：摘要大语言模型（LLMs）在生成任务中表现出色，使从业者能够利用公开可用的模型为定制应用程序（如聊天机器人和虚拟助手）提供支持。然而，用于训练或微调这些LLMs的数据通常不公开，这使得攻击者能够篡改数据并在模型中注入后门。在本文中，我们开发了一种名为CLEANGEN的新型推理时防御方法，以减轻LLMs生成任务中的后门攻击。CLEANGEN是一种轻量级且有效的解码...

Instruction Backdoor Attacks Against Customized LLMs

发表于2025-08-16|后门攻击

英文题目：《Instruction Backdoor Attacks Against Customized LLMs》中文题目：《针对定制化大语言模型的指令后门攻击》论文作者：Rui Zhang，Hongwei Li，Rui Wen，Wenbo Jiang，Yuan Zhang，Michae Backes， Yun Shen， Yang Zhang 发布于：arxiv 发布时间：2024-05-28 级别：无论文链接： https://arxiv.org/pdf/2402.09179 论文代码：摘要对定制大语言模型（LLMs）的需求日益增长，催生了如GPTs这样的解决方案。这些解决方案通过自然语言提示实现了无需编码的定制大语言模型创建。然而，第三方定制版大语言模型的可信度仍是一个至关重要的问题。在本文中，我们首次提出了针对集成了不可信定制大语言模型（如GPTs）的应用程序的指令后门攻击。具体而言，这些攻击通过设计带有后门指令的提示，将后门嵌入到大语言模型的定制版本中，当输入包含预定义触发词时输出攻击者期望的结果。我们的攻击包括三个级别：单词级、语法级和语义级，采用不同...

Improved Techniques for Optimization-Based Jailbreaking on Large Language Models

发表于2025-08-16|越狱攻击

英文题目：《Improved Techniques for Optimization-Based Jailbreaking on Large Language Models》中文题目：《基于优化的大型语言模型越狱技术的改进》发布于：arxiv 级别：无论文链接： https://arxiv.org/pdf/2405.21018 摘要大型语言模型 (LLM) 正在快速发展，其广泛部署的关键在于其安全性相关的对齐。许多红队攻击旨在越狱 LLM，其中贪婪坐标梯度 (GCG) 攻击的成功引发了人们对基于优化的越狱技术研究的日益浓厚兴趣。尽管 GCG 是一个重要的里程碑，但其攻击效率仍然不尽如人意。本文提出了几种改进的（经验性）技术，用于类似 GCG 的基于优化的越狱。我们首先观察到“Sure”的单一目标模板极大地限制了 GCG 的攻击性能；鉴于此，我们建议应用包含有害自我暗示和/或引导的多样化目标模板来误导 LLM。此外，从优化角度出发，我们提出了一种 GCG 中的自动多坐标更新策略（即自适应地决定每一步要替换的标记数量）来加速收敛，以及一些诸如易到难初始化之类的技巧。然后，我...

Universal and Transferable Adversarial Attacks on Aligned Language Models

发表于2025-08-16|越狱攻击

英文题目：《Universal and Transferable Adversarial Attacks on Aligned Language Models》中文题目：《针对对齐语言模型的通用且可迁移的对抗攻击》发布于：arxiv 级别：无论文链接： https://arxiv.org/pdf/2307.15043 摘要由于“开箱即用”的大型语言模型能够生成大量令人反感的内容，因此最近的工作集中于对齐这些模型，以试图阻止不良内容的生成。虽然在规避这些措施方面取得了一些成功——即所谓的针对 LLM 的“越狱”——但这些攻击需要大量的人为创造力，并且在实践中是脆弱的。自动对抗提示生成方面的尝试也取得了有限的成功。在本文中，我们提出了一种简单而有效的攻击方法，该方法会导致对齐的语言模型生成令人反感的行为。具体来说，我们的方法是找到一个后缀，当将其附加到 LLM 的各种查询中以产生令人反感的内容时，旨在最大化模型产生肯定响应（而不是拒绝回答）的概率。然而，我们的方法不是依赖于手动工程，而是通过贪婪和基于梯度的搜索技术的组合来自动生成这些对抗后缀，并且还优于过去的自动提示生成...

TextGrad: Automatic "Differentiation" via Text

发表于2025-08-16|AI系统优化

英文题目：《TextGrad: Automatic “Differentiation” via Text》中文题目：《TextGrad：文本自动“微分”》发布于： arxiv 级别：无论文链接： https://arxiv.org/pdf/2406.07496 摘要人工智能正在经历一场范式转变，其突破是由协调多个 large language models (LLMs) 和其他复杂组件的系统实现的。因此，为复合 AI 系统开发有原则的自动化优化方法是最重要的新挑战之一。神经网络在其早期也面临着类似的挑战，直到反向传播和自动微分通过使优化变得轻而易举而改变了该领域。受此启发，我们推出了 TEXTGRAD，这是一个通过文本执行自动“微分”的强大框架。TEXTGRAD 反向传播 LLM 提供的文本反馈，以改进复合 AI 系统的各个组件。在我们的框架中，LLM 提供丰富、通用、自然的语言建议来优化计算图中的变量，范围从代码片段到分子结构。TEXTGRAD 遵循 PyTorch 的语法和抽象，并且灵活易用。它可以直接用于各种任务，用户只需提供目标函数，而无需调整框架的组件或提示...

CONTRASTIVE-ECOC: LEARNING OUTPUT CODES FOR ADVERSARIAL DEFENSE

发表于2025-08-15|ADVERSARIAL DEFENSE

英文题目：《CONTRASTIVE ECOC: LEARNING OUTPUT CODES FOR ADVERSARIAL DEFENSE》中文题目：《ECOC：学习输出代码以进行抗辩》发布于：arxiv 级别：论文链接：摘要虽然独热编码通常用于多类分类，但它并不总是最有效的编码机制。纠错输出码（ECOC）通过将每个类映射到用作标签的唯一码字来解决多类分类问题。传统的ECOC方法依赖于手动设计或随机生成的码本，这是劳动密集型的，并且可能会产生次优的、与数据集无关的结果。本文介绍了三种基于对比学习的自动码本学习模型，允许码本直接自适应地从数据中学习。在四个数据集上，与两个基线相比，我们提出的模型对对抗性攻击表现出上级鲁棒性。本文聚焦的问题传统ECOC方法依赖人工设计或随机生成的码本，这不仅耗时费力，而且生成的码本可能与数据集特性不匹配，导致性能次优；现有对抗防御机制（如对抗训练）与ECOC方法并非互斥，但如何自动学习适合特定数据集的码本，并兼顾类别间区分性（行分离）与编码维度独立性（列分离），仍是一个未充分解决的问题；传统one-hot编码将类别视为正交，忽略了类别...

Towards Powerful and Practical Patch Attacks for2D Object Detection in Autonomous Driving

发表于2025-08-15|补丁攻击

英文题目：《Towards Powerful and Practical Patch Attacks for2D Object Detection in Autonomous Driving》中文题目：《面向自动驾驶中2D目标检测的强大而实用的补丁攻击》发布于：arxiv 级别：cvpr 论文链接：摘要尽管取得了进步，但基于学习的自动驾驶系统仍然非常容易受到对抗性补丁的影响，在其实际部署中构成严重的安全和安全风险。黑盒攻击，值得注意的是他们的高攻击成功率没有模型知识，特别是关注，其可转移性进行了广泛的研究，以减少计算成本相比，基于查询的攻击方法。以往的基于可传递性的黑盒攻击通常采用平均精度（mAP）作为评估指标，并相应地设计训练损失。然而，由于存在多个检测到的边界框和相对宽松的交并（IoU）阈值，这些方法的攻击有效性往往被高估，导致在实际攻击场景中的成功率降低。此外，在低分辨率数据上训练的补丁通常无法在高分辨率图像上保持有效性，限制了它们向高分辨率自动驾驶数据集的可移植性。为了填补这一空白，我们提出了P3A，这是一个强大而实用的补丁攻击框架，用于自动驾驶中的2D对象检测...