Audio Jailbreak Attacks: Exposing Vulnerabilities in SpeechGPT in a White-Box Frameworkgeneration models
英文题目:《Audio Jailbreak Attacks: Exposing Vulnerabilities in SpeechGPT in a White-Box Frameworkgeneration models》 中文题目:《音频越狱攻击:在白盒框架中揭露语音生成模型“SpeechGPT”的漏洞》 论文作者: Binhao Ma, Hanqing Guo, Zhengping Jay Luo, Rui Duan 发布于: arxiv 发布时间:2025-05-24 级别:无 论文链接: https://doi.org/10.48550/arXiv.2505.18864 论文代码:https://github.com/Magic-Ma-tech/Audio-Jailbreak-Attacks 摘要 多模态大型语言模型(MLLM)的最新进展显著提升了人机交互的自然度和灵活性,使其能够在文本、视觉和音频等多种模态之间实现无缝理解。其中,诸如 SpeechGPT 这类语音驱动的模型在可用性方面取得了显著进步,能够提供富有表现力且能表达情感的交互,从而在现实世界的交流场景中促进...
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
英文题目:《Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning》 中文题目:《Search-R1:利用强化学习训练大型语言模型以进行推理并利用搜索引擎》 论文作者:Bowen Jin, Hansi Zeng, Zhenrui Yue, Jinsung Yoon, Sercan Arik, Dong Wang, Hamed Zamani, Jiawei Han 发布于: COLM 2025 发布时间:2024-08-05 级别:无 论文链接:https://doi.org/10.48550/arXiv.2503.09516 论文代码:https://github.com/PeterGriffinJin/Search-R1 摘要 在大型语言模型(LLM)中,高效获取外部知识和最新信息对于有效的推理和文本生成至关重要。给具备推理能力的先进 LLM 提供提示,使其在推理过程中使用搜索引擎的做法往往并非最佳选择,因为 LLM 可能无法完全掌握如何以最佳方式与搜...
Safe in Isolation, Dangerous Together: Agent-Driven Multi-Turn Decomposition Jailbreaks on LLMs
英文题目:《Safe in Isolation, Dangerous Together: Agent-Driven Multi-Turn Decomposition Jailbreaks on LLMs》 中文题目:《单独使用时安全,协同使用时危险:基于智能体驱动的多轮分解式大语言模型越狱攻击》 论文作者:Devansh Srivastav, Xiao Zhang 发布于: the 1st Workshop for Research on Agent Language Models (REALM 2025) 发布时间:2025-07-31 级别:无 论文链接: https://doi.org/10.18653/v1/2025.realm-1.13 论文代码:无 摘要 大型语言模型(LLMs)正日益应用于关键领域,但其在越狱攻击面前的脆弱性仍是一个重大问题。本文提出一种多智能体、多轮次越狱策略,该策略通过将有害查询分解为看似无害的子任务,系统性绕过 LLM 的安全机制。我们基于一个包含问题分解器(Question Decomposer)、子问题回答器(Sub-Question A...
Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models
英文题目:《Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models》 中文题目:《对齐还不够:针对多模态大语言模型的多模态通用越狱攻击》 论文作者: Youze Wang, Wenbo Hu, Yinpeng Dong, Jing Liu, Hanwang Zhang, Richang Hong 发布于:IEEE 发布时间:2025年 级别:CCF B 论文链接: https://ieeexplore.ieee.org/abstract/document/10829683/ 论文代码: 摘要 抽象大语言模型( LLMs )已经演变成多模态大语言模型( MLLMs ),通过整合视觉信息和其他类型显著增强了它们的能力,从而更加符合人类智能的本质,它处理的数据形式不仅限于文本。尽管取得了一些进展,但这些模型的不良生成仍然是一个严重的问题,特别是由于基于文本的越狱攻击暴露的漏洞,这些漏洞通过挑战现有的安全协议而构成了重大威胁。 受MLLMs...
Safety Misalignment Against Large Language Models
英文题目:《Safety Misalignment Against Large Language Models》 中文题目:《针对大型语言模型的安全偏差》 论文作者: Yichen Gong, Delong Ran, Xinlei He, Tianshuo Cong, Anyu Wang, and Xiaoyun Wang 发布于: NDSS 发布时间:2025年 级别:CFF A 论文链接: https://www.ndss-symposium.org/wp-content/uploads/2025-1089-paper.pdf 论文代码: 摘要 大型语言模型(LLMs)的安全对齐对于防止违反人类价值观的不安全内容至关重要。为确保这一点,评估其对齐在各种恶意攻击下的稳健性至关重要。然而,缺乏大规模、统一的测量框架阻碍了对潜在漏洞的全面理解。为填补这一空白,本文首次对现有及新提出的LLMs安全不对齐方法进行了全面评估。具体而言,我们探究四个研究问题:(1)评估采用不同对齐策略的LLMs的稳健性,(2)确定最有效的不对齐方法,(3)确定影响不对齐有效性的关键因素,以及(4)探索各...
Fuzz-testing meets llm-based agents: An automated and efficient framework for jailbreaking text-to-image generation models
英文题目:《Fuzz-testing meets llm-based agents: An automated and efficient framework for jailbreaking text-to-image generation models》 中文题目:《模糊测试与基于语言模型的代理相结合:一种用于破解文本到图像生成模型的自动化且高效的框架》 论文作者: Yingkai Dong, Xiangtao Meng, Ning Yu, Zheng Li, Shanqing Guo 发布于: 2025 IEEE Symposium on Security and Privacy (SP) 发布时间:2025-06-24 级别:CCF-A 论文链接: https://doi.org/10.48550/arXiv.2408.00523 论文代码:https://github.com/YingkaiD/JailFuzzer 摘要 文本到图像(T2I)生成模型通过将文本描述转换为高质量图像,彻底改变了内容创作。然而,这些模型容易受到越狱攻击的影响,在这种攻击中,精心设计的提示会...
Visual Adversarial Examples Jailbreak Aligned Large Language Models
英文题目:《Visual Adversarial Examples Jailbreak Aligned Large Language Models》 中文题目:《视觉对抗样本越狱对齐大语言模型》 论文作者: Xiangyu Qi,Kaixuan Huang,Ashwinee Panda,Peter Henderson,Mengdi Wang,Prateek Mittal 发布于: AAAI 发布时间:2024年 级别:CCF A 论文链接:https://ojs.aaai.org/index.php/AAAI/article/view/30150 论文代码: 摘要 警告:本文包含了本质上具有攻击性的数据、提示和模型输出。近年来,人们对将视觉融入大型语言模型( Large Language Models,LLMs )产生了浓厚的兴趣,例如视觉语言模型( Visual Language Models,VLMs ),如弗拉明戈和GPT - 4。本文阐明了这一趋势的安全性和安全影响。首先,我们强调视觉输入的连续性和高维性使其成为对抗攻击的薄弱环节,代表了视觉集成LLMs的扩展攻击面。...
Universal and Transferable Adversarial Attacks on Aligned Language Models
英文题目:《Universal and Transferable Adversarial Attacks on Aligned Language Models》 中文题目:《针对对齐语言模型的通用且可迁移的对抗攻击》 论文作者: Xinyue Shen, Yixin Wu, Michael Backes, Yang Zhang 发布于:arxiv 发布时间:2023-12-20 级别:无 论文链接: https://arxiv.org/abs/2307.15043 论文代码:[code](https://github.com/llm - attacks/llm - attacks) 摘要 由于“开箱即用”的大语言模型能够生成大量令人反感的内容,近期的工作聚焦于校准这些模型,试图防止产生不良内容。尽管在绕过这些措施(即针对大语言模型的所谓“越狱”)方面取得了一些成功,但这些攻击需要大量的人类智慧,并且在实际应用中很脆弱。自动对抗提示生成的尝试也只取得了有限的成功。在本文中,我们提出了一种简单有效的攻击方法,可使校准后的语言模型产生令人反感的行为。具体而言,我们的方法找到一个后缀,...
Guiding not Forcing: Enhancing the Transferability of Jailbreaking Attacks on LLMs via Removing Superfluous Constraints
英文题目:《Guiding not Forcing: Enhancing the Transferability of Jailbreaking Attacks on LLMs via Removing Superfluous Constraints》 中文题目:《引导而非强制:通过去除多余约束增强大语言模型越狱攻击的可转移性》 论文作者: Junxiao Yang,Zhexin Zhang,Shiyao Cui, Hongning Wang, Minlie Huang 研究机构:清华大学交叉信息研究院对话式人工智能研究组 发布于: ACL 发布时间:2025-02-25 级别:CFF A 论文链接: https://arxiv.org/abs/2503.01865 论文代码:https://github.com/thu-coai/TransferAttack 摘要 越狱攻击能够有效地在大语言模型(LLMs)中引发不安全行为;然而,这些攻击在不同模型之间的可转移性仍然有限。本研究旨在理解并增强基于梯度的越狱方法的可转移性,这类方法是攻击白盒模型的标准方法之一。通过对优化过程的...
Image Copy-Move Forgery Detection via Deep PatchMatch and Pairwise Ranking Learning
英文题目:《Image Copy-Move Forgery Detection via Deep PatchMatch and Pairwise Ranking Learning》 中文题目:《通过深度 PatchMatch 和成对排序学习检测图像复制/移动伪造》 论文作者:Yuanman Li; Yingjie He; Changsheng Chen; Li Dong; Bin Li; Jiantao Zhou 发布于:IEEE Transactions on Image Processing 发布时间:2024-08-25 级别:CCF-A 论文链接:10.1109/TIP.2024.3482191 论文代码:暂无 摘要 深度学习算法的最新进展在图像复制移动伪造检测 (CMFD) 方面取得了令人瞩目的进展。然而,这些算法在实际场景中缺乏通用性,例如训练图像中不存在复制区域,或者克隆区域是背景的一部分。此外,这些算法利用卷积运算来区分源区域和目标区域,当目标区域与背景融合良好时,结果并不理想。为了突破这些局限性,本研究提出了一种新颖的端到端 CMFD 框架,该框架融合了传统方...