RedAgent: Red Teaming Large Language Models with Context-aware Autonomous Language Agent

英文题目：《RedAgent: Red Teaming Large Language Models with Context-aware Autonomous Language Agent》

中文题目：《RedAgent：利用具有情境感知能力的自主语言代理对大型语言模型进行红队攻击》

发布于：arxiv

级别：无

摘要

近年来，像 GPT-4 这样的先进大型语言模型（LLMs）已被集成到许多现实世界的应用中，例如 Code Copilot。这些应用显著扩大了 LLMs 的攻击面，使其暴露于各种威胁之中。其中，通过精心设计的越狱提示诱导有毒响应的越狱攻击引发了关键的安全问题。为了有效识别这些威胁，越来越多的红队方法通过制作越狱提示来模拟潜在的敌对场景以测试目标 LLM。然而，现有的红队测试方法并未考虑 LLM 在不同场景中的独特漏洞（例如，代码相关任务），因此难以调整越狱提示以发现特定情境的漏洞，从而缺乏效率。同时，这些方法仅限于通过少量变异操作（如同义词替换）优化手工制作的越狱模板，缺乏自动化和可扩展性以持续适应不同场景。

为了实现情境感知且高效的红队测试，我们抽象并建模现有攻击为一个连贯的概念，称为“越狱策略”，并提出了一种名为 RedAgent 的多智能体 LLM 系统，该系统利用这些策略生成情境感知的越狱提示。通过在额外的记忆缓冲区中自我反思情境反馈和红队测试试验，RedAgent 不断学习如何利用这些策略在特定情境中实现更有效的越狱。广泛的实验表明，我们的系统可以在短短五次查询内越狱大多数黑盒 LLM，效率是现有红队方法的两倍。此外，RedAgent 能够更高效地越狱定制的 LLM 应用程序。通过针对 GPT 上流行应用生成情境感知的越狱提示，我们仅用两次查询就发现了这些现实世界应用程序中的 60 个严重漏洞。我们已报告所有发现的问题，并与 OpenAI 和 Meta 进行了沟通以便修复漏洞。此外，我们的结果表明，增强外部数据或工具的 LLM 应用程序比基础模型更容易受到越狱攻击。

本文聚焦的问题

现有的红队测试方法难以克服以下挑战：1、缺乏高质量的越狱提示。2、缺乏自动化和可扩展性。

本文提出的方法

采用了4个独立的LLM来实现整个代理系统，其中包括Profile Constructor, Planner, Attacker, Evaluator，这些角色的作用如下：

Profile Constructor: 确定目标LLM的范围和支持的功能

Planner: 更具历史记忆来进行攻击计划的制订

Attacker: 按照攻击计划来生成相应的攻击并执行

Evaluator: 对被攻击LLM的输出精选评估，来确认是否满足需求

这里的数据库用来存储长短期记忆供Planner模型进行学习

长期记忆存储过去的成功试验及其相关经验，并标记有标签，如恶意目标的场景、使用的策略和成功越狱提示的关键部分，这种标记考虑了不同恶意目标的有效策略之间的关系。

短期记忆存储最近几次迭代的详细经验，提供关于交互的丰富上下文信息，这包括评估分数、上下文反馈以及如何提高有效性。

RedAgent 通过 “生成提示→查询目标 LLM→评估响应→更新记忆→优化策略” 的循环，不断从交互中学习。

阅读总结

优点：

实现了先进的自动化越狱攻击，效率以及成功率高
提出上下文感知提示生成技术，适配 LLM 独特漏洞

缺点：

记忆机制效率低
不支持多模态

未来可以引入RAG技术来提升记忆处理效率