LLM Security Group 's Notes

Audio Jailbreak Attacks: Exposing Vulnerabilities in SpeechGPT in a White-Box Frameworkgeneration models

发表于2025-09-19|越狱攻击

英文题目：《Audio Jailbreak Attacks: Exposing Vulnerabilities in SpeechGPT in a White-Box Frameworkgeneration models》中文题目：《音频越狱攻击：在白盒框架中揭露语音生成模型“SpeechGPT”的漏洞》论文作者： Binhao Ma, Hanqing Guo, Zhengping Jay Luo, Rui Duan 发布于： arxiv 发布时间：2025-05-24 级别：无论文链接： https://doi.org/10.48550/arXiv.2505.18864 论文代码：https://github.com/Magic-Ma-tech/Audio-Jailbreak-Attacks 摘要多模态大型语言模型（MLLM）的最新进展显著提升了人机交互的自然度和灵活性，使其能够在文本、视觉和音频等多种模态之间实现无缝理解。其中，诸如 SpeechGPT 这类语音驱动的模型在可用性方面取得了显著进步，能够提供富有表现力且能表达情感的交互，从而在现实世界的交流场景中促进...

Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

发表于2025-09-15|RAG优化

英文题目：《Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning》中文题目：《Search-R1：利用强化学习训练大型语言模型以进行推理并利用搜索引擎》论文作者：Bowen Jin, Hansi Zeng, Zhenrui Yue, Jinsung Yoon, Sercan Arik, Dong Wang, Hamed Zamani, Jiawei Han 发布于： COLM 2025 发布时间：2024-08-05 级别：无论文链接：https://doi.org/10.48550/arXiv.2503.09516 论文代码：https://github.com/PeterGriffinJin/Search-R1 摘要在大型语言模型（LLM）中，高效获取外部知识和最新信息对于有效的推理和文本生成至关重要。给具备推理能力的先进 LLM 提供提示，使其在推理过程中使用搜索引擎的做法往往并非最佳选择，因为 LLM 可能无法完全掌握如何以最佳方式与搜...

Safe in Isolation, Dangerous Together: Agent-Driven Multi-Turn Decomposition Jailbreaks on LLMs

发表于2025-09-14|越狱攻击

英文题目：《Safe in Isolation, Dangerous Together: Agent-Driven Multi-Turn Decomposition Jailbreaks on LLMs》中文题目：《单独使用时安全，协同使用时危险：基于智能体驱动的多轮分解式大语言模型越狱攻击》论文作者：Devansh Srivastav, Xiao Zhang 发布于： the 1st Workshop for Research on Agent Language Models (REALM 2025) 发布时间：2025-07-31 级别：无论文链接： https://doi.org/10.18653/v1/2025.realm-1.13 论文代码：无摘要大型语言模型（LLMs）正日益应用于关键领域，但其在越狱攻击面前的脆弱性仍是一个重大问题。本文提出一种多智能体、多轮次越狱策略，该策略通过将有害查询分解为看似无害的子任务，系统性绕过 LLM 的安全机制。我们基于一个包含问题分解器（Question Decomposer）、子问题回答器（Sub-Question A...

Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models

发表于2025-09-14|越狱攻击

英文题目：《Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models》中文题目：《对齐还不够：针对多模态大语言模型的多模态通用越狱攻击》论文作者： Youze Wang, Wenbo Hu, Yinpeng Dong, Jing Liu, Hanwang Zhang, Richang Hong 发布于：IEEE 发布时间：2025年级别：CCF B 论文链接： https://ieeexplore.ieee.org/abstract/document/10829683/ 论文代码：摘要抽象大语言模型( LLMs )已经演变成多模态大语言模型( MLLMs )，通过整合视觉信息和其他类型显著增强了它们的能力，从而更加符合人类智能的本质，它处理的数据形式不仅限于文本。尽管取得了一些进展，但这些模型的不良生成仍然是一个严重的问题，特别是由于基于文本的越狱攻击暴露的漏洞，这些漏洞通过挑战现有的安全协议而构成了重大威胁。受MLLMs...

Safety Misalignment Against Large Language Models

发表于2025-09-14|越狱攻击

英文题目：《Safety Misalignment Against Large Language Models》中文题目：《针对大型语言模型的安全偏差》论文作者： Yichen Gong, Delong Ran, Xinlei He, Tianshuo Cong, Anyu Wang, and Xiaoyun Wang 发布于： NDSS 发布时间：2025年级别：CFF A 论文链接： https://www.ndss-symposium.org/wp-content/uploads/2025-1089-paper.pdf 论文代码：摘要大型语言模型（LLMs）的安全对齐对于防止违反人类价值观的不安全内容至关重要。为确保这一点，评估其对齐在各种恶意攻击下的稳健性至关重要。然而，缺乏大规模、统一的测量框架阻碍了对潜在漏洞的全面理解。为填补这一空白，本文首次对现有及新提出的LLMs安全不对齐方法进行了全面评估。具体而言，我们探究四个研究问题：（1）评估采用不同对齐策略的LLMs的稳健性，（2）确定最有效的不对齐方法，（3）确定影响不对齐有效性的关键因素，以及（4）探索各...

Fuzz-testing meets llm-based agents: An automated and efficient framework for jailbreaking text-to-image generation models

发表于2025-09-13|越狱攻击

英文题目：《Fuzz-testing meets llm-based agents: An automated and efficient framework for jailbreaking text-to-image generation models》中文题目：《模糊测试与基于语言模型的代理相结合：一种用于破解文本到图像生成模型的自动化且高效的框架》论文作者： Yingkai Dong, Xiangtao Meng, Ning Yu, Zheng Li, Shanqing Guo 发布于： 2025 IEEE Symposium on Security and Privacy (SP) 发布时间：2025-06-24 级别：CCF-A 论文链接： https://doi.org/10.48550/arXiv.2408.00523 论文代码：https://github.com/YingkaiD/JailFuzzer 摘要文本到图像（T2I）生成模型通过将文本描述转换为高质量图像，彻底改变了内容创作。然而，这些模型容易受到越狱攻击的影响，在这种攻击中，精心设计的提示会...

Visual Adversarial Examples Jailbreak Aligned Large Language Models

发表于2025-09-13|越狱攻击

英文题目：《Visual Adversarial Examples Jailbreak Aligned Large Language Models》中文题目：《视觉对抗样本越狱对齐大语言模型》论文作者： Xiangyu Qi,Kaixuan Huang,Ashwinee Panda,Peter Henderson,Mengdi Wang,Prateek Mittal 发布于： AAAI 发布时间：2024年级别：CCF A 论文链接：https://ojs.aaai.org/index.php/AAAI/article/view/30150 论文代码：摘要警告：本文包含了本质上具有攻击性的数据、提示和模型输出。近年来，人们对将视觉融入大型语言模型( Large Language Models，LLMs )产生了浓厚的兴趣，例如视觉语言模型( Visual Language Models，VLMs )，如弗拉明戈和GPT - 4。本文阐明了这一趋势的安全性和安全影响。首先，我们强调视觉输入的连续性和高维性使其成为对抗攻击的薄弱环节，代表了视觉集成LLMs的扩展攻击面。...

Universal and Transferable Adversarial Attacks on Aligned Language Models

发表于2025-09-07|越狱攻击

英文题目：《Universal and Transferable Adversarial Attacks on Aligned Language Models》中文题目：《针对对齐语言模型的通用且可迁移的对抗攻击》论文作者： Xinyue Shen, Yixin Wu, Michael Backes, Yang Zhang 发布于：arxiv 发布时间：2023-12-20 级别：无论文链接： https://arxiv.org/abs/2307.15043 论文代码：[code](https://github.com/llm - attacks/llm - attacks) 摘要由于“开箱即用”的大语言模型能够生成大量令人反感的内容，近期的工作聚焦于校准这些模型，试图防止产生不良内容。尽管在绕过这些措施（即针对大语言模型的所谓“越狱”）方面取得了一些成功，但这些攻击需要大量的人类智慧，并且在实际应用中很脆弱。自动对抗提示生成的尝试也只取得了有限的成功。在本文中，我们提出了一种简单有效的攻击方法，可使校准后的语言模型产生令人反感的行为。具体而言，我们的方法找到一个后缀，...

Guiding not Forcing: Enhancing the Transferability of Jailbreaking Attacks on LLMs via Removing Superfluous Constraints

发表于2025-09-07|越狱攻击

英文题目：《Guiding not Forcing: Enhancing the Transferability of Jailbreaking Attacks on LLMs via Removing Superfluous Constraints》中文题目：《引导而非强制：通过去除多余约束增强大语言模型越狱攻击的可转移性》论文作者： Junxiao Yang,Zhexin Zhang,Shiyao Cui, Hongning Wang, Minlie Huang 研究机构：清华大学交叉信息研究院对话式人工智能研究组发布于： ACL 发布时间：2025-02-25 级别：CFF A 论文链接： https://arxiv.org/abs/2503.01865 论文代码：https://github.com/thu-coai/TransferAttack 摘要越狱攻击能够有效地在大语言模型（LLMs）中引发不安全行为；然而，这些攻击在不同模型之间的可转移性仍然有限。本研究旨在理解并增强基于梯度的越狱方法的可转移性，这类方法是攻击白盒模型的标准方法之一。通过对优化过程的...

Image Copy-Move Forgery Detection via Deep PatchMatch and Pairwise Ranking Learning

发表于2025-09-06|图像伪造取证

英文题目：《Image Copy-Move Forgery Detection via Deep PatchMatch and Pairwise Ranking Learning》中文题目：《通过深度 PatchMatch 和成对排序学习检测图像复制/移动伪造》论文作者：Yuanman Li; Yingjie He; Changsheng Chen; Li Dong; Bin Li; Jiantao Zhou 发布于：IEEE Transactions on Image Processing 发布时间：2024-08-25 级别：CCF-A 论文链接：10.1109/TIP.2024.3482191 论文代码：暂无摘要深度学习算法的最新进展在图像复制移动伪造检测 (CMFD) 方面取得了令人瞩目的进展。然而，这些算法在实际场景中缺乏通用性，例如训练图像中不存在复制区域，或者克隆区域是背景的一部分。此外，这些算法利用卷积运算来区分源区域和目标区域，当目标区域与背景融合良好时，结果并不理想。为了突破这些局限性，本研究提出了一种新颖的端到端 CMFD 框架，该框架融合了传统方...