Highlight & Summarize: RAG without the jailbreaks

发表于2025-08-19|更新于2025-09-01|越狱攻击

|浏览量:

英文题目：《Highlight & Summarize: RAG without the jailbreaks》

中文题目：《高亮与总结：无需担心越狱问题的检索增强生成》

论文作者：Giovanni Cherubin, Andrew Paverd

发布于： arxiv

发布时间：2025-08-04

级别：无

论文链接： https://doi.org/10.48550/arXiv.2508.02872

论文代码：https://github.com/microsoft/highlight-summarize

摘要

防止大型语言模型（LLMs）的越狱和模型劫持是一项重要但具有挑战性的任务。例如，在与聊天机器人交互时，恶意用户可能输入精心设计的提示词，促使大语言模型生成不良内容或执行与其预期用途完全不同的任务。针对此类攻击的现有缓解措施通常依赖于强化大语言模型的系统提示词，或使用经过训练的内容分类器来检测不良内容或离题对话。然而，由于可能的输入和不良输出空间非常庞大，这些概率性方法相对容易被绕过。

在本文中，我们提出并评估了 “高亮与总结”（H&S），这是一种用于检索增强生成（RAG）系统的新设计模式，能够从设计上防止这些攻击。其核心思想是执行与标准 RAG 流程相同的任务（即基于相关来源为问题提供自然语言答案），但从不向生成式大语言模型透露用户的问题。这一目标通过将流程拆分为两个组件来实现：一个是高亮器，它接收用户的问题并从检索到的文档中提取相关段落（“高亮内容”）；另一个是总结器，它接收这些高亮段落并将其总结为连贯的答案。我们描述了 H&S 的几种可能实现方式，并从正确性、相关性和响应质量方面评估了其生成的回答。令人惊讶的是，当使用基于大语言模型的高亮器时，大多数 H&S 的响应被判定为优于标准 RAG 流程的响应。

本文聚焦的问题

本文聚焦于解决检索增强生成（RAG）系统中存在的越狱攻击、模型劫持以及现有防御措施局限性的问题。

越狱攻击：指恶意用户通过输入精心设计的提示词，促使大型语言模型（LLM）生成不良内容（如损害公司声誉的内容），或生成误导性陈述（甚至可能构成具有法律约束力的不当承诺，例如诱使聊天机器人提供产品折扣）。这种攻击会直接影响系统的安全性和可信度，甚至带来法律风险。
模型劫持：指恶意用户将生成式 LLM 用于预期用途之外的任务，例如利用公司客服聊天机器人总结大量无关文本，消耗系统资源。这违背了 RAG 系统的设计初衷，造成资源浪费。
现有防御措施局限性：现有缓解攻击的方法（如强化 LLM 的系统提示词、使用内容分类器检测不良内容或离题对话）多为概率性方法。由于可能的输入和不良输出空间极为庞大，这些方法相对容易被绕过，无法从根本上解决问题。

本文提出的方法

整个系统的大致流程图如下：

RETRIEVAL：使用RAG技术，从文件中检索出与用户问题相关的部分

HIGHLIGHTING：将检索出的文本和用户的问题给LLM，让LLM来判断问题和文本是否相关，并且提取出文本中相关度高的内容

这里对该部分可以进行优化，文章中提出两个优化：

1、在提取文本前对用户内容进行回答，即同时根据问题，回答以及与用户问题相关的文本。这可以辅助LLM更好地理解上下文，并从原始文档中识别出相关文本。

2、引入RapidFuzz，其主要功能是进行模糊字符串匹配。这里让LLM提取出文本中相关度高的内容作为初步提取的文本，然后用RapidFuzz对该文本与问题进行匹配，文章设置的阈值为 95，对文本再提纯一次。确保内容是忠实于原始源文档。

其返回格式为{“answer”: str, “text_extracts”: list[str]}。

SUMMARIZATION：将上一步提取的文本进行整个，并回答这个问题。

这里SUMMARIZATION主要是有两个任务，1）猜测提取的文本旨在回答什么问题（返回给用户），2）以答案的形式重新描述提取的文本（用于评估）。

其返回格式为{“guessed_question”: str, “answer”: str}

这里需要注意该系统的HIGHLIGHTING生成的是连续的高亮（相关度高）段，这可以有效的防止恶意拼接，例如：

如果攻击者可能希望系统输出“You won a ＄10 voucher”（你赢得了10美元代金券），他们就会尝试让上面内容高亮，但是由于HIGHLIGHTING生成的是连续的高亮段，所以可以避免。

但是通过操控HIGHLIGHTING，使其在从检索到的文档中提取相关段落时，故意遗漏某些关键信息仍然是可行的，例如：

用户可能试图让HIGHLIGHTING只提取部分条件（对于例子，即只生成一部分内容），导致最终由SUMMARIZATION生成的答案虽然正确，但却不完整。

阅读总结

优点：

1、安全性高且性能更优

2、对 LLM 训练数据的依赖低

缺点：

1、处理效率较低，耗时长

2、拒绝回答能力不足

未来可以探索减少幻觉的潜力以及优化拒绝回答能力

文章作者: 游俊爽

文章链接: https://fdreamer2002.github.io/2025/08/19/%E6%B8%B8%E4%BF%8A%E7%88%BD/2025-08-23/Highlight%20&%20Summarize%20RAG%20without%20the%20jailbreaks/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 LLM Security Group 's Notes！

相关推荐

A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models

英文题目：《A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models》中文题目：《大型语言模型中幻觉缓解技术的综合综述》发布于： arxiv 级别：无论文链接： https://arxiv.org/pdf/2401.01313 摘要随着大型语言模型（LLMs）在编写类人文本方面的能力不断提高，一个关键挑战仍然存在，即它们倾向于“幻觉”——生成看起来是事实但没有根据的内容。这种幻觉问题可以说是将这些强大的LLM安全地部署到影响人们生活的真实生产系统中的最大障碍。在实际环境中广泛采用LLM的道路在很大程度上取决于解决和减轻幻觉。与专注于有限任务的传统人工智能系统不同，LLM在训练期间接触了大量的在线文本数据。虽然这使它们能够表现出令人印象深刻的语言流畅性，但也意味着它们能够从训练数据中的偏差中推断信息，误解模糊的提示，或修改信息以使其表面上与输入对齐。当我们依赖语言生成能力进行敏感应用时，例如总结医疗记录、客户支持对话、财务分析报告以及提供错误的法律建议，这变...

RAIDX: A Retrieval-Augmented Generation and GRPO Reinforcement Learning Framework for Explainable Deepfake Detection

英文题目：《RAIDX: A Retrieval-Augmented Generation and GRPO Reinforcement Learning Framework for Explainable Deepfake Detection》中文题目：《RAIDX：一种用于可解释深度伪造检测的检索增强生成和GRPO强化学习框架》论文作者： Tianxiao Li, Zhenglin Huang, Haiquan Wen, Yiwei He, Shuchang Lyu, Baoyuan Wu, Guangliang Cheng 发布于：MM ’25: Proceedings of the 33rd ACM International Conference on Multimedia 发布时间：2025-05-20 级别：CCF-A 论文链接：https://doi.org/10.1145/3746027.3754798 论文代码：暂无摘要人工智能生成模型的快速发展使得超逼真图像的创建成为可能，但也因此引发了广泛的虚假信息传播，带来了伦理风险。目前，...

数据加载中