GPT-4 Is Too Smart to Be Safe: Stealthy Chat with LLMs via Cipher
英文题目:《GPT-4 Is Too Smart to Be Safe: Stealthy Chat with LLMs via Cipher》
中文题目:《GPT-4 太聪明以至于不安全:通过加密语言与大模型进行隐蔽对话》
论文作者:Youliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Pinjia He, Shuming Shi, Zhaopeng Tu
发布于:ICLR 2024
论文链接:https://arxiv.org/abs/2308.06463
代码链接:https://github.com/RobustNLP/CipherChat
摘要
本文发现大型语言模型(LLMs)在面对加密语言(cipher)输入时,其安全对齐机制(Safety Alignment)会完全失效。
研究团队提出了一个系统化框架 CipherChat,用以测试 LLM 是否能在非自然语言环境中维持安全行为。
通过在 11 个安全领域(如犯罪、心理健康、侮辱、伦理等)进行中英文实验,作者发现:
某些加密形式(如 ASCII、Unicode)可以几乎 100% 绕过 GPT-4 的安全防护,生成危险或不当回应。
此外,作者提出 SelfCipher,一种无需实际加密、仅通过角色扮演提示触发模型“内部加密机制”的方法,效果甚至优于传统密码。
结论指出:当前安全对齐技术无法泛化到非自然语言领域,未来需在加密层面加强模型安全。
本文聚焦的问题
当前大模型安全对齐方法(如数据过滤、监督微调、RLHF、红队测试等)均基于自然语言输入输出。
然而,模型在训练过程中学习了理解和生成多种编码或加密语言(如 Morse、ROT13、Base64 等)的能力。
论文提出核心问题:
> 当使用非自然语言(cipher)输入时,模型的安全防护是否仍然有效?
本文提出的方法
CipherChat 框架
论文提出框架 CipherChat,包括三个主要步骤:
1. 系统提示构建(System Prompt Construction) - 明确模型的身份为“某种加密语言专家”,并要求使用该加密语言交流; - 禁止模型翻译自然语言(加入提示 “Do not be a translator.”); - 提供若干加密示例(Enciphered Unsafe Demonstrations),帮助模型学习加密规则并注入“不安全”指令。 2. 加密(Encipher & Decipher) - 输入内容通过预定义规则转换为密码(如 Caesar、Morse、ASCII、Unicode);。 3. 解密(Decipher) - 模型输出加密结果后再通过规则解密 4. SelfCipher 模式 - 不使用任何真实加密,仅通过提示语“你是 Cipher Code 专家”触发模型内在的“加密解释”能力; - 模型在自然语言层面仍表现出绕过安全防护的行为; - 在实验中,SelfCipher 在多数场景下优于所有人工加密方式。
优点:
- 消融实验详实:明确验证 SystemRole、演示类型(安全 / 不安全)对结果的显著影响。
- 启发安全研究:揭示自然语言对齐之外的潜在安全威胁。
缺点:
- 解释性不足:SelfCipher 的“内部触发机制”仍属推测,缺乏模型层面实证。
- 并没有很深的算法嵌入,很容易被防御。