Audio Jailbreak Attacks: Exposing Vulnerabilities in SpeechGPT in a White-Box Frameworkgeneration models
英文题目:《Audio Jailbreak Attacks: Exposing Vulnerabilities in SpeechGPT in a White-Box Frameworkgeneration models》
中文题目:《音频越狱攻击:在白盒框架中揭露语音生成模型“SpeechGPT”的漏洞》
论文作者: Binhao Ma, Hanqing Guo, Zhengping Jay Luo, Rui Duan
发布于: arxiv
发布时间:2025-05-24
级别:无
论文链接: https://doi.org/10.48550/arXiv.2505.18864
论文代码:https://github.com/Magic-Ma-tech/Audio-Jailbreak-Attacks
摘要
多模态大型语言模型(MLLM)的最新进展显著提升了人机交互的自然度和灵活性,使其能够在文本、视觉和音频等多种模态之间实现无缝理解。其中,诸如 SpeechGPT 这类语音驱动的模型在可用性方面取得了显著进步,能够提供富有表现力且能表达情感的交互,从而在现实...
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
英文题目:《Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning》
中文题目:《Search-R1:利用强化学习训练大型语言模型以进行推理并利用搜索引擎》
论文作者:Bowen Jin, Hansi Zeng, Zhenrui Yue, Jinsung Yoon, Sercan Arik, Dong Wang, Hamed Zamani, Jiawei Han
发布于: COLM 2025
发布时间:2024-08-05
级别:无
论文链接:https://doi.org/10.48550/arXiv.2503.09516
论文代码:https://github.com/PeterGriffinJin/Search-R1
摘要
在大型语言模型(LLM)中,高效获取外部知识和最新信息对于有效的推理和文本生成至关重要。给具备推理能力的先进 LLM 提供提示,使其在推理过程中使用搜索引擎的做法往往并非最佳选择,因为 LLM 可能无法完全掌...
Safe in Isolation, Dangerous Together: Agent-Driven Multi-Turn Decomposition Jailbreaks on LLMs
英文题目:《Safe in Isolation, Dangerous Together: Agent-Driven Multi-Turn Decomposition Jailbreaks on LLMs》 中文题目:《单独使用时安全,协同使用时危险:基于智能体驱动的多轮分解式大语言模型越狱攻击》 论文作者:Devansh Srivastav, Xiao Zhang 发布于: the 1st Workshop for Research on Agent Language Models (REALM 2025) 发布时间:2025-07-31 级别:无 论文链接: https://doi.org/10.18653/v1/2025.realm-1.13 论文代码:无 摘要 大型语言模型(LLMs)正日益应用于关键领域,但其在越狱攻击面前的脆弱性仍是一个重大问题。本文提出一种多智能体、多轮次越狱策略,该策略通过将有害查询分解为看似无害的子任务,系统性绕过 LLM 的安全机制。我们基于一个包含问题分解器(Question Decomposer)、子问题回答器(Sub-Question A...
Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models
英文题目:《Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models》 中文题目:《对齐还不够:针对多模态大语言模型的多模态通用越狱攻击》 论文作者: Youze Wang, Wenbo Hu, Yinpeng Dong, Jing Liu, Hanwang Zhang, Richang Hong 发布于:IEEE 发布时间:2025年 级别:CCF B 论文链接: https://ieeexplore.ieee.org/abstract/document/10829683/ 论文代码: 摘要 抽象大语言模型( LLMs )已经演变成多模态大语言模型( MLLMs ),通过整合视觉信息和其他类型显著增强了它们的能力,从而更加符合人类智能的本质,它处理的数据形式不仅限于文本。尽管取得了一些进展,但这些模型的不良生成仍然是一个严重的问题,特别是由于基于文本的越狱攻击暴露的漏洞,这些漏洞通过挑战现有的安全协议而构成了重大威胁。 受MLLMs...
Safety Misalignment Against Large Language Models
英文题目:《Safety Misalignment Against Large Language Models》 中文题目:《针对大型语言模型的安全偏差》 论文作者: Yichen Gong, Delong Ran, Xinlei He, Tianshuo Cong, Anyu Wang, and Xiaoyun Wang 发布于: NDSS 发布时间:2025年 级别:CFF A 论文链接: https://www.ndss-symposium.org/wp-content/uploads/2025-1089-paper.pdf 论文代码: 摘要 大型语言模型(LLMs)的安全对齐对于防止违反人类价值观的不安全内容至关重要。为确保这一点,评估其对齐在各种恶意攻击下的稳健性至关重要。然而,缺乏大规模、统一的测量框架阻碍了对潜在漏洞的全面理解。为填补这一空白,本文首次对现有及新提出的LLMs安全不对齐方法进行了全面评估。具体而言,我们探究四个研究问题:(1)评估采用不同对齐策略的LLMs的稳健性,(2)确定最有效的不对齐方法,(3)确定影响不对齐有效性的关键因素,以及(4)探索各...
Fuzz-testing meets llm-based agents: An automated and efficient framework for jailbreaking text-to-image generation models
英文题目:《Fuzz-testing meets llm-based agents: An automated and efficient framework for jailbreaking text-to-image generation models》 中文题目:《模糊测试与基于语言模型的代理相结合:一种用于破解文本到图像生成模型的自动化且高效的框架》 论文作者: Yingkai Dong, Xiangtao Meng, Ning Yu, Zheng Li, Shanqing Guo 发布于: 2025 IEEE Symposium on Security and Privacy (SP) 发布时间:2025-06-24 级别:CCF-A 论文链接: https://doi.org/10.48550/arXiv.2408.00523 论文代码:https://github.com/YingkaiD/JailFuzzer 摘要 文本到图像(T2I)生成模型通过将文本描述转换为高质量图像,彻底改变了内容创作。然而,这些模型容易受到越狱攻击的影响,在这种攻击中,精心设计的提示会...
Visual Adversarial Examples Jailbreak Aligned Large Language Models
英文题目:《Visual Adversarial Examples Jailbreak Aligned Large Language Models》 中文题目:《视觉对抗样本越狱对齐大语言模型》 论文作者: Xiangyu Qi,Kaixuan Huang,Ashwinee Panda,Peter Henderson,Mengdi Wang,Prateek Mittal 发布于: AAAI 发布时间:2024年 级别:CCF A 论文链接:https://ojs.aaai.org/index.php/AAAI/article/view/30150 论文代码: 摘要 警告:本文包含了本质上具有攻击性的数据、提示和模型输出。近年来,人们对将视觉融入大型语言模型( Large Language Models,LLMs )产生了浓厚的兴趣,例如视觉语言模型( Visual Language Models,VLMs ),如弗拉明戈和GPT - 4。本文阐明了这一趋势的安全性和安全影响。首先,我们强调视觉输入的连续性和高维性使其成为对抗攻击的薄弱环节,代表了视觉集成LLMs的扩展攻击面。...
Universal and Transferable Adversarial Attacks on Aligned Language Models
英文题目:《Universal and Transferable Adversarial Attacks on Aligned Language Models》 中文题目:《针对对齐语言模型的通用且可迁移的对抗攻击》 论文作者: Xinyue Shen, Yixin Wu, Michael Backes, Yang Zhang 发布于:arxiv 发布时间:2023-12-20 级别:无 论文链接: https://arxiv.org/abs/2307.15043 论文代码:[code](https://github.com/llm - attacks/llm - attacks) 摘要 由于“开箱即用”的大语言模型能够生成大量令人反感的内容,近期的工作聚焦于校准这些模型,试图防止产生不良内容。尽管在绕过这些措施(即针对大语言模型的所谓“越狱”)方面取得了一些成功,但这些攻击需要大量的人类智慧,并且在实际应用中很脆弱。自动对抗提示生成的尝试也只取得了有限的成功。在本文中,我们提出了一种简单有效的攻击方法,可使校准后的语言模型产生令人反感的行为。具体而言,我们的方法找到一个后缀,...