GPT-4 Is Too Smart to Be Safe: Stealthy Chat with LLMs via Cipher

英文题目：《GPT-4 Is Too Smart to Be Safe: Stealthy Chat with LLMs via Cipher》

中文题目：《GPT-4 太聪明以至于不安全：通过加密语言与大模型进行隐蔽对话》

论文作者：Youliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Pinjia He, Shuming Shi, Zhaopeng Tu

发布于：ICLR 2024

论文链接：https://arxiv.org/abs/2308.06463

代码链接：https://github.com/RobustNLP/CipherChat

摘要

本文发现大型语言模型（LLMs）在面对加密语言（cipher）输入时，其安全对齐机制（Safety Alignment）会完全失效。
研究团队提出了一个系统化框架 CipherChat，用以测试 LLM 是否能在非自然语言环境中维持安全行为。
通过在 11 个安全领域（如犯罪、心理健康、侮辱、伦理等）进行中英文实验，作者发现：
某些加密形式（如 ASCII、Unicode）可以几乎 100% 绕过 GPT-4 的安全防护，生成危险或不当回应。
此外，作者提出 SelfCipher，一种无需实际加密、仅通过角色扮演提示触发模型“内部加密机制”的方法，效果甚至优于传统密码。
结论指出：当前安全对齐技术无法泛化到非自然语言领域，未来需在加密层面加强模型安全。

本文聚焦的问题

当前大模型安全对齐方法（如数据过滤、监督微调、RLHF、红队测试等）均基于自然语言输入输出。
然而，模型在训练过程中学习了理解和生成多种编码或加密语言（如 Morse、ROT13、Base64 等）的能力。
论文提出核心问题：
> 当使用非自然语言（cipher）输入时，模型的安全防护是否仍然有效？

本文提出的方法

CipherChat 框架

论文提出框架 CipherChat，包括三个主要步骤： 1. 系统提示构建（System Prompt Construction） - 明确模型的身份为“某种加密语言专家”，并要求使用该加密语言交流； - 禁止模型翻译自然语言（加入提示 “Do not be a translator.”）； - 提供若干加密示例（Enciphered Unsafe Demonstrations），帮助模型学习加密规则并注入“不安全”指令。 2. 加密（Encipher & Decipher） - 输入内容通过预定义规则转换为密码（如 Caesar、Morse、ASCII、Unicode）；。 3. 解密（Decipher） - 模型输出加密结果后再通过规则解密 4. SelfCipher 模式 - 不使用任何真实加密，仅通过提示语“你是 Cipher Code 专家”触发模型内在的“加密解释”能力； - 模型在自然语言层面仍表现出绕过安全防护的行为； - 在实验中，SelfCipher 在多数场景下优于所有人工加密方式。

优点：

消融实验详实：明确验证 SystemRole、演示类型（安全 / 不安全）对结果的显著影响。
启发安全研究：揭示自然语言对齐之外的潜在安全威胁。

缺点：

解释性不足：SelfCipher 的“内部触发机制”仍属推测，缺乏模型层面实证。
并没有很深的算法嵌入，很容易被防御。