LLM Security Group 's Notes

GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher

发表于2025-11-11|越狱攻击

英文题目：《GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher》中文题目：《GPT-4 过于聪明，难以保证其安全性：通过密码实现与大型语言模型的隐蔽对话》论文作者：Youliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Pinjia He, Shuming Shi, Zhaopeng Tu 发布于： arxiv 发布时间：2023-08-12 级别：无论文链接：https://doi.org/10.48550/arXiv.2308.06463 论文代码：GitHub - RobustNLP/CipherChat: A framework to evaluate the generalization capability of safety alignment for LLMs 摘要安全性是大型语言模型（LLM）发展的核心所在。在相关研究中，已有大量工作致力于使 LLM 符合人类的伦理和偏好，包括在预训练阶段的数据筛选、监督式微调、...

Mesoscopic Insights: Orchestrating Multi-scale & Hybrid Architecture for Image Manipulation Localization

发表于2025-11-10|图像伪造取证

英文题目：《Mesoscopic Insights: Orchestrating Multi-scale & Hybrid Architecture for Image Manipulation Localization》中文题目：《介观视角：协调多尺度和混合架构以实现图像操控定位》论文作者：Xuekang Zhu, Xiaochen Ma, Lei Su1, Zhuohang Jiang,Bo Du, Xiwen Wang, Zeyu Lei, Wentao Feng, Chi-Man Pun, Jizhe Zhou 发布于：AAAI 发布时间：2025-04-11 级别：CCF-A 论文链接：https://doi.org/10.1609/aaai.v39i10.33198 论文代码：https://github.com/scu-zjz/Mesorch 摘要介观层次在宏观世界和微观世界之间充当了桥梁，解决了两者忽略的鸿沟。图像操纵定位( Image Manipulation Localization，IML )是一种从虚假图像中寻找真相的关...

A Wolf in Sheep’s Clothing Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily

发表于2025-11-10|模型安全越狱攻击

英文题目：《A Wolf in Sheep’s Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily》中文题目：《“披着羊皮的狼”：广义嵌套的越狱提示容易蒙蔽大型语言模型》论文作者：Peng Ding, Jun Kuang, Dan Ma, Xuezhi Cao, Yunsen Xian, Jiajun Chen, Shujian Huang 发布于：NAACL-HLT 2024 论文链接：http://arxiv.org/abs/2311.08268 代码链接：https://github.com/NJUNLP/ReNeLLM. 摘要本文提出 ReNeLLM，一种用于自动生成越狱提示（jailbreak prompts）的广义框架，通过将越狱攻击抽象为两类操作：Prompt Rewriting（提示改写）与Scenario Nesting（场景嵌套），利用 LLM 自身生成语义连贯、隐蔽性强且具迁移性的越狱提示。大量实验（包含 GPT-...

Open Sesame! Universal Black Box Jailbreaking of Large Language Models

发表于2025-11-10|模型安全越狱攻击

英文题目：《Open Sesame! Universal Black Box Jailbreaking of Large Language Models》中文题目：《芝麻开门！大型语言模型的通用黑盒越狱》论文作者：Raz Lapid, Ron Langberg, Moshe Sipper 发布于：CoRR 2023 论文链接：http://arxiv.org/abs/2309.01446 代码链接：无摘要该工作提出并验证了一种基于遗传算法（GA）的通用黑盒越狱框架：在目标 LLM 完全黑盒（仅能查询输出）的条件下，进化出一段固定的 token 后缀，将其拼接到任意用户输入后能显著提高模型输出与“服从/有害回答”语义的相似度，从而实现普适性的越狱效果。与白盒梯度方法不同，本方法不依赖模型内部信息，具有跨输入与（一定程度的）跨模型迁移性，同时通过随机子集评估等手段降低查询成本。本文聚焦的问题如何在黑盒中实现自动化的黑盒越狱对抗性后缀。本文提出的方法 1. 方法目标目标：寻找一个通用的对抗后缀 x_adv，对于数据集中大部分有害指令 x_user，拼接后 x = ...

PAPILLON: Efficient and Stealthy Fuzz Testing-Powered Jailbreaks for LLMs

发表于2025-11-04|越狱攻击

英文题目：《PAPILLON: Efficient and Stealthy Fuzz Testing-Powered Jailbreaks for LLMs》中文题目：《PAPILLON：基于高效隐蔽的模糊测试的大语言模型（LLM）越狱方法》论文作者：Xueluan Gong, Mingzhe Li, Yilin Zhang, Fengyuan Ran, Chen Chen, Yanjiao Chen, Qian Wang, Kwok-Yan Lam 发布于： USENIX 发布时间：2024-09-23 级别：CCF-A 论文链接：https://doi.org/10.48550/arXiv.2409.14866 论文代码：https://github.com/aaFrostnova/Papillon 摘要大型语言模型（LLMs）在各种任务中表现出色，但仍然容易受到越狱攻击，攻击者通过创建越狱提示来误导模型，使其产生有害或冒犯性的内容。目前的越狱方法要么严重依赖手动制作的模板，这给可扩展性和适应性带来了挑战，要么难以生成语义连贯的提示，从而容易被检测到。此外，大多数现...

SNIS: A Signal Noise Separation-Based Network for Post-Processed Image Forgery Detection

发表于2025-11-04|图像伪造取证

英文题目：《SNIS: A Signal Noise Separation-Based Network for Post-Processed Image Forgery Detection》中文题目：《SNIS：一种基于信号噪声分离的后处理图像伪造检测网络》论文作者：Jiaxin Chen; Xin Liao; Wei Wang; Zhenxing Qian; Zheng Qin; Yaonan Wang 发布于：TCSVT 发布时间：2022-09-06 级别：中科院二区论文链接：10.1109/TCSVT.2022.3204753 论文代码：暂无摘要图像伪造检测由于其潜在的安全威胁，引起了学术界和工业界的广泛研究兴趣。现有的伪造检测方法在伪造图像未经过后处理的情况下，可以通过观察图像统计特征的变化来检测篡改区域，具有优异的篡改区域定位性能。然而，在特定场景下，伪造图像可能会被仔细地后处理以隐藏伪造边界。这对这些方法提出了严峻的挑战。本文将图像伪造检测与盲信号分离进行类比分析，将处理后的图像伪造检测问题转化为信号噪声分离问题。我们还提出了一种基...

AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models

发表于2025-11-04|越狱攻击

英文题目：《AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models》中文题目：《AutoDAN: 在对齐的大型语言模型上生成隐蔽的Jailbreak提示》论文作者：Xiaogeng Liu, Nan Xu, Muhao Chen, Chaowei Xiao 发布于： ICLR2024 发布时间：2023-10-03 级别：CCF-A 论文链接：https://doi.org/10.48550/arXiv.2310.04451 论文代码：https://github.com/SheltonLiu-N/AutoDAN 摘要对齐的大型语言模型(LLMs)是强大的语言理解和决策工具，它们是通过与人类反馈的大量对齐而创建的。然而，这些大型模型仍然容易受到jailbreak攻击，在这种攻击中，攻击者操纵提示以引出不应由对齐的LLM给出的恶意输出。研究jailbreak提示可以使我们深入了解LLM的局限性，并进一步指导我们保护它们。不幸的是，现有的jailbreak技术要么存在(1)...

Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks

发表于2025-11-04|越狱攻击

英文题目：《Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks》中文题目：《利用简单自适应攻击突破主流安全对齐大型语言模型》论文作者： Maksym Andriushchenko, Francesco Croce, Nicolas Flammarion 发布于： ICLR2025 发布时间：2024-04-02 级别：CCF-A 论文链接：https://doi.org/10.48550/arXiv.2404.02151 论文代码：https://github.com/tml-epfl/llm-adaptive-attacks 摘要我们的研究表明，即便是最新的安全对齐大型语言模型（safety-aligned LLMs），也无法抵御简单的自适应突破攻击（adaptive jailbreaking attacks）。首先，我们验证了如何通过获取对数概率（logprobs）访问权限实现突破：先设计一个对抗性提示模板（有时会根据目标大型语言模型进行适配），再对提示后缀进行随机搜索，以最大化目...

Identification of image global processing operator chain based on feature decoupling

发表于2025-11-03|图像伪造取证

英文题目：《Identification of image global processing operator chain based on feature decoupling》中文题目：《基于特征解耦的图像全局处理算子链识别》论文作者：Jiaxin Chen , Xin Liao a, Wei Wang b, Zheng Qin 发布于：Information Sciences 发布时间：2023-08-23 级别：中科院二区论文链接：https://doi.org/10.1016/j.ins.2023.118961 论文代码：暂无摘要图像真实性验证是一个重要的问题，近年来受到了越来越多的关注。大多数现有的取证方法都是针对检测特定的篡改。然而，由于使用不同的操作伪造图像导致的叠加处理伪影，由多个按一定顺序执行的全局操作组成的图像全局处理算子链识别仍然是一个挑战。在本文中，我们专注于检测多个操作并识别这些操作的顺序。通过分析盲源信号分离和算子链识别之间的关系，我们发现当图像被多个操作处理时，不同操作的自分源特征将会耦合，这与盲源信号分离...

Is Artificial Intelligence Generated Image Detection a Solved Problem

发表于2025-11-03|图像伪造取证

英文题目：《Is Artificial Intelligence Generated Image Detection a Solved Problem?》中文题目：《人工智能生成的图像检测问题已经解决了吗？》论文作者： Ziqiang Li， Jiazhen Yan， Ziwen He，Kai Zeng， Weiwei Jiang， Lizhi Xiong， Zhangjie Fu 发布于：NeurIPS 发布时间：2025-09-19 级别：CCF-A 论文链接：https://doi.org/10.48550/arXiv.2505.12335 论文代码： https://github.com/HorizonTEL/AIGIBench 摘要生成模型（例如生成对抗网络 (GAN) 和扩散模型）的快速发展使得创建高度逼真的合成图像成为可能，同时也引发了人们对虚假信息、深度伪造和版权侵权的严重担忧。尽管已经提出了许多人工智能生成图像 (AIGI) 检测器，并且通常报告了较高的准确率，但它们在实际场景中的有效性仍然值得怀疑。为了弥合这一差距，我们推出了 AI...