X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents
英文题目:《X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents》 中文题目:《X-Teaming:使用自适应多代理进行多回合越狱和防御》 发布于:arxiv 级别:无 论文链接: https://arxiv.org/pdf/2504.13203 摘要 与语言模型 (LM) 的多轮交互会带来严重的安全风险,因为有害意图可能会战略性地在交易所之间传播。然而,绝大多数先前的工作都集中在单弯安全上,而适应性和多样性仍然是多弯红队的主要挑战之一。为了应对这些挑战,我们提出了 X-Teaming,这是一个可扩展的框架,它系统地探索看似无害的交互如何升级为有害结果并生成相应的攻击场景。X-Teaming 采用协作代理进行规划、攻击优化和验证,实现了最先进的多轮越狱有效性和多样性,在具有代表性的领先开权重和闭源模型中成功率高达 98.1%。特别是,X-Teaming 在最新的 Claude 3.7 Sonnet 模型中实现了 96.2% 的攻击成功率,该模型被认为几乎不受单回合攻击的影响。在 X-Te...
AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks
英文题目:《AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks》 中文题目:《自动防御:多智能体大语言模型针对越狱攻击的防御》 发布于:arxiv 级别:无 论文链接: https://arxiv.org/pdf/2403.04783 摘要 尽管在道德对齐方面进行了广泛的预训练以防止生成有害信息,但大语言模型(LLMs)仍然容易受到越狱攻击。在本文中,我们提出了AutoDefense,这是一种多智能体防御框架,可过滤大语言模型产生的有害回复。通过回复过滤机制,我们的框架对不同的越狱攻击提示具有鲁棒性,并可用于保护不同的目标模型。AutoDefense为大语言模型智能体分配不同的角色,并利用它们协作完成防御任务。任务分工提高了大语言模型的整体指令遵循能力,并能够将其他防御组件作为工具进行整合。借助AutoDefense,小型开源大语言模型可以作为智能体,保护更大的模型免受越狱攻击。我们的实验表明,AutoDefense可以有效地抵御不同的越狱攻击,同时保持对正常用户请求的性能。例如,我们使用具有3个智能体的...
RedAgent: Red Teaming Large Language Models with Context-aware Autonomous Language Agent
英文题目:《RedAgent: Red Teaming Large Language Models with Context-aware Autonomous Language Agent》 中文题目:《RedAgent:利用具有情境感知能力的自主语言代理对大型语言模型进行红队攻击》 发布于:arxiv 级别:无 论文链接: https://arxiv.org/pdf/2407.16667 摘要 近年来,像 GPT-4 这样的先进大型语言模型(LLMs)已被集成到许多现实世界的应用中,例如 Code Copilot。这些应用显著扩大了 LLMs 的攻击面,使其暴露于各种威胁之中。其中,通过精心设计的越狱提示诱导有毒响应的越狱攻击引发了关键的安全问题。为了有效识别这些威胁,越来越多的红队方法通过制作越狱提示来模拟潜在的敌对场景以测试目标 LLM。然而,现有的红队测试方法并未考虑 LLM 在不同场景中的独特漏洞(例如,代码相关任务),因此难以调整越狱提示以发现特定情境的漏洞,从而缺乏效率。同时,这些方法仅限于通过少量变异操作(如同义词替换)优化手工制作的越狱模板,缺乏自动化和可扩展...
Mf-net: multi-feature fusion network based on two-stream extraction andmulti-scale enhancement for face forgery detection
英文题目:《 Mf-net: multi-feature fusion network based on two-stream extraction andmulti-scale enhancement for face forgery detection》 中文题目:《Mf‑net:基于双流提取和多尺度增强的多特征融合网络用于人脸伪造检测》 发布于:Home | Complex & Intelligent Systems (springer.com) 级别:中科院2区 论文链接:https://link.springer.com/article/10.1007/s40747-024-01634-6 摘要 由于人脸伪造技术的日益复杂,生成的图像越来越逼真,人眼难以区分。这些人脸伪造技术会在人脸识别和身份 验证领域造成欺诈和社会工程攻击等问题。因此,研究人员致力于人脸伪造检测研究,并取得了显著进展。当前 的人脸伪造检测算法在数据集内部实现了高检测精度。然而,在跨数据集场景中难以实现令人满意的泛化性能。 为了提高模型的跨数据集检测性能,本文提出了一种基于双流提取和多尺度增强...
MUN: Image Forgery Localization Based on M3 Encoder and UN Decoder
英文题目:《MUN: Image Forgery Localization Based on M3 Encoder and UN Decoder》 中文题目:《MUN:基于M3编码器和UN解码器的图像伪造定位》 发布于:Proceedings of the AAAI Conference on Artificial Intelligence 级别:CCF-A 论文链接: https://doi.org/10.1609/aaai.v39i6.32606 摘要 图像伪造可以完全改变图像的语义信息,并且可以被用于不法目的。在本文中,我们提出了一种名为MUN的新型图像伪造定位网络,该网络由一个M3编码器和一个 UN解码器组成。首先,基于多尺度最大池化查询模块构 建M3 编码器,以提取多线索伪造特征。采用 Noiseprint++ 辅助RGB线索,并讨论了其部署方法。 提出了一种多尺度最大池化查询(MMQ)模块,以整 合RGB和噪声特征。其次,提出了一种新型UN解码器, 从自上而下和自下而上的方向提取层次特征,同时重建 高级和低级特征。第三,我们提出了一个IoU重校准动 态交叉熵(IoU...
Image Forgery Localization with State Space Models
英文题目:《Image Forgery Localization with State Space Models》 中文题目:《基于状态空间模型的图像伪造定位》 发布于:Computer Vision and Pattern Recognition 级别:暂无 论文链接: https://arxiv.org/abs/2412.11214 摘要 从篡改图像中进行像素依赖建模对于图像伪造定位至关重要。当前方法主要依赖于卷积神经网络(CNN)或基于 Transformer的模型,这些方法通常要么缺乏足够的感受野, 要么涉及显著的计算开销。最近,状态空间模型(SSM),以 Mamba为例,已成为一种有前景的方法。**它们不仅擅长建模长距离交互,还保持了线性计算复杂度。**在本文中,我们提出了LoMa,一种利用选择性SSM的新型图像伪造定位方法。具体而言,LoMa首先采用空洞选择性扫描遍历空间域,将篡改图像转换为有序的图像块序列,然后应用多方向状态空间建模。 此外,引入了一个辅助卷积分支以增强局部特征提取。大量的实验结果验证了LoMa相对于基于CNN和基于 Transformer的最先进...
Adversarial Defence without Adversarial Defence: Enhancing Language Model Robustness via Instance-level Principal Component Removal
英文题目:《Adversarial Defence without Adversarial Defence: Enhancing Language Model Robustness via Instance-level Principal Component Removal 》 中文题目:《无对抗防御中的对抗防御:通过实例级主成分移除增强语言模型的鲁棒性》 发布于:arxiv 级别: 论文链接: https://arxiv.org/abs/2507.21750 摘要 预训练语言模型(PLMs)已经推动了自然语言处理的实质性进展,但仍然容易受到对抗性攻击,这引发了人们对其在现实世界应用中的鲁棒性的担忧。以前的研究试图通过在训练过程中引入对抗性扰动来减轻对抗性攻击的影响,无论是隐式还是显式的。虽然这两种策略都增强了鲁棒性,但它们通常会产生很高的计算成本。在这项工作中,我们提出了一个简单而有效的附加模块,通过删除实例级主成分来增强PLMs的对抗鲁棒性,而不依赖于传统的对抗防御或干扰原始训练数据。我们的方法将嵌入空间转换为近似高斯属性,从而降低其对对抗性扰动的敏感性,同时保留语义关系。...
BOOSTING RAY SEARCH PROCEDURE OF HARD-LABEL ATTACKS WITH TRANSFER-BASED PRIORS
英文题目:《BOOSTING RAY SEARCH PROCEDURE OF HARD-LABEL ATTACKS WITH TRANSFER-BASED PRIORS 》 中文题目:《基于转移先验的硬标签攻击的Boosting射线算法》 发布于:arxiv 级别: 论文链接:https://arxiv.org/abs/2507.17577 摘要 硬标签攻击是黑盒对抗攻击中最实用、最具挑战性的攻击类型之一,其中只有前1个预测标签可用。一种有效的方法是从良性图像中搜索最佳射线方向,以最小化到敌对区域的p范数距离。该方法的独特优点是将硬标签攻击转化为连续优化问题。目标函数值是射线的半径,其可以通过以高查询代价的二分搜索来获得。现有的方法在梯度估计中使用“符号技巧”来减少查询的数量。本文从理论上分析了这种梯度估计的性能,并提出了一种新的先验指导方法,从理论和实验上提高射线搜索效率。具体地说,我们利用了来自代理模型的基于转移的先验,并且我们的梯度估计器通过以查询高效的方式将真实梯度的投影近似到由这些先验和随机方向生成的子空间上来适当地积分它们。我们从理论上推导了所得到的梯度估计与真实梯...
Theoretical Analysis of Relative Errors in Gradient Computations for Adversarial Attacks with CE Loss
英文题目:《Theoretical Analysis of Relative Errors in Gradient Computations for Adversarial Attacks with CE Loss 》 中文题目:《CE损失对抗攻击梯度计算相对误差的理论分析》 发布于:arxiv 级别: 论文链接: http://arxiv.org/abs/2507.22428 摘要 基于交叉熵(CE)损失的恶意攻击通常会由于浮点运算引起的梯度计算的相对误差而受到高估。本文对这些错误进行了严格的理论分析,首次全面研究了四种不同场景下基于梯度的攻击中的浮点计算错误:(i)不成功的非目标攻击,(ii)成功的非目标攻击,(iii)不成功的目标攻击,以及(iv)成功的目标攻击。我们建立了理论基础,描述了不同攻击条件下相对数值误差的行为,揭示了梯度计算不稳定性中以前未知的模式,并将浮点下溢和舍入确定为关键因素。基于这一见解,我们提出了理论MIFPE(T-MIFPE)损失函数,它包含了一个最佳缩放因子T = t*,以最大限度地减少浮点错误的影响,从而提高对抗攻击中梯度计算的准确性。在MNI...