GeneShift: Impact of Different Scenario Shift on Jailbreaking LLM

英文题目：《Geneshift: Impact of different scenario shift on Jailbreaking LLM》

中文题目：《GeneShift：不同场景迁移对大语言模型越狱攻击影响的研究》

论文作者：Tianyi Wu，Zhiwei Xue，Yue Liu，Jiaheng Zhang，Bryan Hooi，See-Kiong Ng

发布于：ICLR 2025(CCF A)

论文链接：http://arxiv.org/abs/2504.08104

代码链接：无

摘要

本文关注大模型越狱攻击中“名义上通过字典检测，但实际上并未提供详细有害信息”的问题。作者发现，许多黑盒越狱方法在字典式评估（只检查回复中是否出现预定义拒绝关键词）下具有较高成功率，但在使用 GPT 作为裁判、综合考虑回答是否真正给出细粒度有害内容时，成功率会显著下降。为此，文章提出 GeneShift：一种黑盒越狱框架，通过遗传算法自动搜索和组合不同的场景迁移（scenario shift）规则，将原始恶意指令包装为单轮提示词。在保持表面“良性/无害”叙事的同时，尽可能诱导模型输出更详细的有害内容。实验在 GPT-4o mini 上表明，当直接恶意提问几乎完全失败时，GeneShift 能将基于 GPT 评测的攻击成功率提升到约 60%，并在包含 12 个白盒 / 黑盒方法的对比中取得最佳表现。

本文聚焦的问题

现有大量工作使用字典式拒绝检测来评估越狱攻击是否成功，但这并不能保证模型真的输出了“详尽、有用”的有害信息。如何设计更贴近实际风险的评测方式？ - 不同场景迁移对不同类型恶意请求的影响差异很大，如何系统地选择和组合这些场景？ - 在黑盒设定下，仅通过查询接口，如何自动搜索出效果最好的单轮越狱提示，同时兼顾攻击成功率和合理的伪装性？

本文提出的方法

1. 场景迁移（Scenario Shift）

直接提出有害问题往往会触发模型的安全机制而被立即拒绝。文章将“把恶意指令嵌入到看似正常的语境中”称为场景迁移。
作者参考已有越狱工作，总结出十余类场景迁移规则（如研究动机、笑话/戏谑、虚构世界、语言规避、特权模式、文本续写等），并额外补充了一条规则，构成一个规则库 (G = {_1, _2, , _M})。
实验表明，不同恶意任务在不同场景下有明显偏好，例如虚构场景对“隐私侵犯、经济伤害”更有效，而特权模式或玩笑语境在“物理伤害”类任务上成功率更高，这为后续自动搜索组合提供了动机。 ### 2. GeneShift：基于遗传算法的场景优化

基因表示与种群初始化
- 每个个体的“基因” (g_j) 由若干条不同的场景迁移规则组成，长度在 1–4 之间随机采样。
- 给定原始恶意指令和基因 (g_j)，调用一个 LLM（不是攻击目标）将这些规则具体化、串联成一个候选越狱提示 (p_j)。
- 初始种群 (P = {(p_j, g_j)}_{j=1}^N) 通过随机选择规则集合并生成对应提示得到。
适应度评估
- 将候选提示 (p_j) 输入攻击目标模型（如 GPT-4o mini），得到回复 (r_j)。
- 再调用一个独立的 judge LLM，对回复进行打分，分为 1–6 六个等级，大致从“明显拒绝且没有解释”到“提供完整且详细的有害步骤”，分数越高表示越危险。
- 该评分 (F(p_j)) 作为个体适应度，用于后续的选择和遗传操作。
选择、交叉与变异
- 选择：保留若干适应度最高的精英个体，其余个体按适应度比例采样为父代。
- 交叉：从两个父代的基因序列中随机选取 1–2 条规则进行交换，产生新的基因 (g_{})，再由 LLM 生成对应的新提示。
- 变异：以给定概率对基因中的某条规则进行变异：
  - 替换（Switch）：把该规则替换为规则库 (G) 中随机采样的新规则；
  - 追加（Add）：在原有基因序列末尾追加一条新规则，使场景组合更丰富。
终止条件与输出
- 当达到最大迭代轮数，或种群中达标（例如评分 > 5）的个体数量超过阈值时，遗传算法终止。
- 输出当前适应度最高的单轮越狱提示，作为 GeneShift 的最终攻击结果。

阅读总结

优点： 1.系统梳理并量化了不同场景迁移对多类恶意任务的影响。 2.引入遗传算法的优化方法。 缺点： 1.实验主要集中在 GPT-4o mini 上，对更多闭源/开源模型的覆盖不足，使得结论的普适性仍有限。 2.遗传搜索严重依赖 judge LLM 的主观评分且查询成本较高。