英文题目:《Geneshift: Impact of different scenario shift on Jailbreaking LLM》

中文题目:《GeneShift:不同场景迁移对大语言模型越狱攻击影响的研究》

论文作者:Tianyi Wu,Zhiwei Xue,Yue Liu,Jiaheng Zhang,Bryan Hooi,See-Kiong Ng

发布于:ICLR 2025(CCF A)

论文链接:http://arxiv.org/abs/2504.08104

代码链接:无


摘要

本文关注大模型越狱攻击中“名义上通过字典检测,但实际上并未提供详细有害信息”的问题。作者发现,许多黑盒越狱方法在字典式评估(只检查回复中是否出现预定义拒绝关键词)下具有较高成功率,但在使用 GPT 作为裁判、综合考虑回答是否真正给出细粒度有害内容时,成功率会显著下降。 为此,文章提出 GeneShift:一种黑盒越狱框架,通过遗传算法自动搜索和组合不同的场景迁移(scenario shift)规则,将原始恶意指令包装为单轮提示词。在保持表面“良性/无害”叙事的同时,尽可能诱导模型输出更详细的有害内容。实验在 GPT-4o mini 上表明,当直接恶意提问几乎完全失败时,GeneShift 能将基于 GPT 评测的攻击成功率提升到约 60%,并在包含 12 个白盒 / 黑盒方法的对比中取得最佳表现。

本文聚焦的问题

现有大量工作使用字典式拒绝检测来评估越狱攻击是否成功,但这并不能保证模型真的输出了“详尽、有用”的有害信息。如何设计更贴近实际风险的评测方式? - 不同场景迁移对不同类型恶意请求的影响差异很大,如何系统地选择和组合这些场景? - 在黑盒设定下,仅通过查询接口,如何自动搜索出效果最好的单轮越狱提示,同时兼顾攻击成功率和合理的伪装性?

本文提出的方法

1. 场景迁移(Scenario Shift)

  • 直接提出有害问题往往会触发模型的安全机制而被立即拒绝。文章将“把恶意指令嵌入到看似正常的语境中”称为场景迁移。
  • 作者参考已有越狱工作,总结出十余类场景迁移规则(如研究动机、笑话/戏谑、虚构世界、语言规避、特权模式、文本续写等),并额外补充了一条规则,构成一个规则库 (G = {_1, _2, , _M})。
  • 实验表明,不同恶意任务在不同场景下有明显偏好,例如虚构场景对“隐私侵犯、经济伤害”更有效,而特权模式或玩笑语境在“物理伤害”类任务上成功率更高,这为后续自动搜索组合提供了动机。 ### 2. GeneShift:基于遗传算法的场景优化
  1. 基因表示与种群初始化

    • 每个个体的“基因” (g_j) 由若干条不同的场景迁移规则组成,长度在 1–4 之间随机采样。
    • 给定原始恶意指令和基因 (g_j),调用一个 LLM(不是攻击目标)将这些规则具体化、串联成一个候选越狱提示 (p_j)。
    • 初始种群 (P = {(p_j, g_j)}_{j=1}^N) 通过随机选择规则集合并生成对应提示得到。
  2. 适应度评估

    • 将候选提示 (p_j) 输入攻击目标模型(如 GPT-4o mini),得到回复 (r_j)。
    • 再调用一个独立的 judge LLM,对回复进行打分,分为 1–6 六个等级,大致从“明显拒绝且没有解释”到“提供完整且详细的有害步骤”,分数越高表示越危险。
    • 该评分 (F(p_j)) 作为个体适应度,用于后续的选择和遗传操作。
  3. 选择、交叉与变异

    • 选择:保留若干适应度最高的精英个体,其余个体按适应度比例采样为父代。
    • 交叉:从两个父代的基因序列中随机选取 1–2 条规则进行交换,产生新的基因 (g_{}),再由 LLM 生成对应的新提示。
    • 变异:以给定概率对基因中的某条规则进行变异:
      • 替换(Switch):把该规则替换为规则库 (G) 中随机采样的新规则;
      • 追加(Add):在原有基因序列末尾追加一条新规则,使场景组合更丰富。
  4. 终止条件与输出

    • 当达到最大迭代轮数,或种群中达标(例如评分 > 5)的个体数量超过阈值时,遗传算法终止。
    • 输出当前适应度最高的单轮越狱提示,作为 GeneShift 的最终攻击结果。

阅读总结

优点: 1.系统梳理并量化了不同场景迁移对多类恶意任务的影响。 2.引入遗传算法的优化方法。 缺点: 1.实验主要集中在 GPT-4o mini 上,对更多闭源/开源模型的覆盖不足,使得结论的普适性仍有限。 2.遗传搜索严重依赖 judge LLM 的主观评分且查询成本较高。