GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher
英文题目:《GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher》 中文题目:《GPT-4 过于聪明,难以保证其安全性:通过密码实现与大型语言模型的隐蔽对话》 论文作者:Youliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Pinjia He, Shuming Shi, Zhaopeng Tu 发布于: arxiv 发布时间:2023-08-12 级别:无 论文链接:https://doi.org/10.48550/arXiv.2308.06463 论文代码:GitHub - RobustNLP/CipherChat: A framework to evaluate the generalization capability of safety alignment for LLMs 摘要 安全性是大型语言模型(LLM)发展的核心所在。在相关研究中,已有大量工作致力于使 LLM 符合人类的伦理和偏好,包括在预训练阶段的数据筛选、监督式微调、...
Mesoscopic Insights: Orchestrating Multi-scale & Hybrid Architecture for Image Manipulation Localization
英文题目:《Mesoscopic Insights: Orchestrating Multi-scale & Hybrid Architecture for Image Manipulation Localization》
中文题目:《介观视角:协调多尺度和混合架构以实现图像操控定位》
论文作者:Xuekang Zhu, Xiaochen Ma, Lei Su1, Zhuohang Jiang,Bo Du, Xiwen Wang, Zeyu Lei, Wentao Feng, Chi-Man Pun, Jizhe Zhou
发布于:AAAI
发布时间:2025-04-11
级别:CCF-A
论文链接:https://doi.org/10.1609/aaai.v39i10.33198
论文代码:https://github.com/scu-zjz/Mesorch
摘要
介观层次在宏观世界和微观世界之间充当了桥梁,解决了两者忽略的鸿沟。图像操纵定位( Image Manipulation Localization,IML )是一种从虚假图像中寻找真相的关...
A Wolf in Sheep’s Clothing Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily
英文题目:《A Wolf in Sheep’s Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily》
中文题目:《“披着羊皮的狼”:广义嵌套的越狱提示容易蒙蔽大型语言模型》
论文作者:Peng Ding, Jun Kuang, Dan Ma, Xuezhi Cao, Yunsen Xian, Jiajun Chen, Shujian Huang
发布于:NAACL-HLT 2024
论文链接:http://arxiv.org/abs/2311.08268
代码链接:https://github.com/NJUNLP/ReNeLLM.
摘要
本文提出 ReNeLLM,一种用于自动生成越狱提示(jailbreak prompts)的广义框架,通过将越狱攻击抽象为两类操作:Prompt Rewriting(提示改写)与Scenario Nesting(场景嵌套),利用 LLM 自身生成语义连贯、隐蔽性强且具迁移性的越狱提示。大量实验(包含 GPT-...
Open Sesame! Universal Black Box Jailbreaking of Large Language Models
英文题目:《Open Sesame! Universal Black Box Jailbreaking of Large Language Models》 中文题目:《芝麻开门!大型语言模型的通用黑盒越狱》 论文作者:Raz Lapid, Ron Langberg, Moshe Sipper 发布于:CoRR 2023 论文链接:http://arxiv.org/abs/2309.01446 代码链接:无 摘要 该工作提出并验证了一种基于遗传算法(GA)的通用黑盒越狱框架:在目标 LLM 完全黑盒(仅能查询输出)的条件下,进化出一段固定的 token 后缀,将其拼接到任意用户输入后能显著提高模型输出与“服从/有害回答”语义的相似度,从而实现普适性的越狱效果。与白盒梯度方法不同,本方法不依赖模型内部信息,具有跨输入与(一定程度的)跨模型迁移性,同时通过随机子集评估等手段降低查询成本。 本文聚焦的问题 如何在黑盒中实现自动化的黑盒越狱对抗性后缀。 本文提出的方法 1. 方法目标 目标:寻找一个通用的对抗后缀 x_adv,对于数据集中大部分有害指令 x_user,拼接后 x = ...
PAPILLON: Efficient and Stealthy Fuzz Testing-Powered Jailbreaks for LLMs
英文题目:《PAPILLON: Efficient and Stealthy Fuzz Testing-Powered Jailbreaks for LLMs》 中文题目:《PAPILLON:基于高效隐蔽的模糊测试的大语言模型(LLM)越狱方法》 论文作者:Xueluan Gong, Mingzhe Li, Yilin Zhang, Fengyuan Ran, Chen Chen, Yanjiao Chen, Qian Wang, Kwok-Yan Lam 发布于: USENIX 发布时间:2024-09-23 级别:CCF-A 论文链接:https://doi.org/10.48550/arXiv.2409.14866 论文代码:https://github.com/aaFrostnova/Papillon 摘要 大型语言模型(LLMs)在各种任务中表现出色,但仍然容易受到越狱攻击,攻击者通过创建越狱提示来误导模型,使其产生有害或冒犯性的内容。目前的越狱方法要么严重依赖手动制作的模板,这给可扩展性和适应性带来了挑战,要么难以生成语义连贯的提示,从而容易被检测到。此外,大多数现...
SNIS: A Signal Noise Separation-Based Network for Post-Processed Image Forgery Detection
英文题目:《SNIS: A Signal Noise Separation-Based Network for Post-Processed Image Forgery Detection》
中文题目:《SNIS:一种基于信号噪声分离的后处理图像伪造检测网络》
论文作者:Jiaxin Chen; Xin Liao; Wei Wang; Zhenxing Qian; Zheng Qin; Yaonan Wang
发布于:TCSVT
发布时间:2022-09-06
级别:中科院二区
论文链接:10.1109/TCSVT.2022.3204753
论文代码:暂无
摘要
图像伪造检测由于其潜在的安全威胁,引起了学术界和工业界的广泛研究兴趣。现有的伪造检测方法在伪造图像未经过后处理的情况下,可以通过观察图像统计特征的变化来检测篡改区域,具有优异的篡改区域定位性能。然而,在特定场景下,伪造图像可能会被仔细地后处理以隐藏伪造边界。这对这些方法提出了严峻的挑战。本文将图像伪造检测与盲信号分离进行类比分析,将处理后的图像伪造检测问题转化为信号噪声分离问题。 我们还提出了一种基...
AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models
英文题目:《AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models》 中文题目:《AutoDAN: 在对齐的大型语言模型上生成隐蔽的Jailbreak提示》 论文作者:Xiaogeng Liu, Nan Xu, Muhao Chen, Chaowei Xiao 发布于: ICLR2024 发布时间:2023-10-03 级别:CCF-A 论文链接:https://doi.org/10.48550/arXiv.2310.04451 论文代码:https://github.com/SheltonLiu-N/AutoDAN 摘要 对齐的大型语言模型(LLMs)是强大的语言理解和决策工具,它们是通过与人类反馈的大量对齐而创建的。然而,这些大型模型仍然容易受到jailbreak攻击,在这种攻击中,攻击者操纵提示以引出不应由对齐的LLM给出的恶意输出。研究jailbreak提示可以使我们深入了解LLM的局限性,并进一步指导我们保护它们。不幸的是,现有的jailbreak技术要么存在(1)...
Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks
英文题目:《Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks》 中文题目:《利用简单自适应攻击突破主流安全对齐大型语言模型》 论文作者: Maksym Andriushchenko, Francesco Croce, Nicolas Flammarion 发布于: ICLR2025 发布时间:2024-04-02 级别:CCF-A 论文链接:https://doi.org/10.48550/arXiv.2404.02151 论文代码:https://github.com/tml-epfl/llm-adaptive-attacks 摘要 我们的研究表明,即便是最新的安全对齐大型语言模型(safety-aligned LLMs),也无法抵御简单的自适应突破攻击(adaptive jailbreaking attacks)。首先,我们验证了如何通过获取对数概率(logprobs)访问权限实现突破:先设计一个对抗性提示模板(有时会根据目标大型语言模型进行适配),再对提示后缀进行随机搜索,以最大化目...
Identification of image global processing operator chain based on feature decoupling
英文题目:《Identification of image global processing operator chain based on feature decoupling》
中文题目:《基于特征解耦的图像全局处理算子链识别》
论文作者:Jiaxin Chen , Xin Liao a, Wei Wang b, Zheng Qin
发布于:Information Sciences
发布时间:2023-08-23
级别:中科院二区
论文链接:https://doi.org/10.1016/j.ins.2023.118961
论文代码:暂无
摘要
图像真实性验证是一个重要的问题,近年来受到了越来越多的关注。大多数现有的取证方法都是针 对检测特定的篡改。然而,由于使用不同的操作伪造图像导致的叠加处理伪影,由多个按一定顺序 执行的全局操作组成的图像全局处理算子链识别仍然是一个挑战。在本文中,我们专注于检测多个 操作并识别这些操作的顺序。通过分析盲源信号分离和算子链识别之间的关系,我们发现当图像被 多个操作处理时,不同操作的自分源特征将会耦合,这与盲源信号分离...
Is Artificial Intelligence Generated Image Detection a Solved Problem
英文题目:《Is Artificial Intelligence Generated Image Detection a Solved Problem?》
中文题目:《人工智能生成的图像检测问题已经解决了吗?》
论文作者: Ziqiang Li, Jiazhen Yan, Ziwen He,Kai Zeng, Weiwei Jiang, Lizhi Xiong, Zhangjie Fu
发布于:NeurIPS
发布时间:2025-09-19
级别:CCF-A
论文链接:https://doi.org/10.48550/arXiv.2505.12335
论文代码: https://github.com/HorizonTEL/AIGIBench
摘要
生成模型(例如生成对抗网络 (GAN) 和扩散模型)的快速发展使得创建高度逼真的合成图像成为可能,同时也引发了人们对虚假信息、深度伪造和版权侵权的严重担忧。尽管已经提出了许多人工智能生成图像 (AIGI) 检测器,并且通常报告了较高的准确率,但它们在实际场景中的有效性仍然值得怀疑。为了弥合这一差距,我们推出了 AI...