Layer-Wise Perturbations via Sparse Autoencoders for Adversarial Text Generation
英文题目:《Layer-Wise Perturbations via Sparse Autoencoders for Adversarial Text Generation》 中文题目:《基于稀疏自编码器的分层扰动生成对抗性文本》 发布于:arxiv 级别: 论文链接: 摘要 随着自然语言处理(NLP),特别是大型语言模型(LLM)的快速发展,生成对抗性示例以越狱LLM仍然是理解模型漏洞和提高鲁棒性的关键挑战。在这种情况下,我们提出了一种新的黑盒攻击方法,利用大模型的可解释性。我们介绍了稀疏特征扰动框架(SFPF),这是一种用于对抗性文本生成的新方法,它利用稀疏自编码器来识别和操作文本中的关键特征。在使用SAE模型重建隐藏层表示后,我们对成功攻击的文本进行特征聚类,以识别具有较高激活度的特征。然后,这些高度激活的特征被扰动以生成新的对抗性文本。这种选择性干扰保留了恶意意图,同时放大了安全信号,从而增加了它们逃避现有防御的可能性。我们的方法实现了一种新的红队策略,该策略平衡了对抗有效性与安全性。实验结果表明,SFPF生成的对抗性文本可以绕过最先进的防御机制,揭示了当前NLP系统中...
DMFF-Net:Double-streammultilevelfeaturefusionnetworkforimage forgery localization
英文题目:《DMFF-Net: Double-stream multilevel feature fusion network for image forgery localization》 中文题目:《DMFF-Net:用于图像伪造定位的双流多级特征融合网络》 发布于:Engineering Applications of Artificial Intelligence 级别:中科院1区 论文链接:ScienceDirect 摘要 随着图像处理技术的快速发展,图像操作变得越来越容易,这对人们生活的稳定性和安全性构成了威胁。最近的 方法提出了RGB和噪声特征的融合来揭示篡改痕迹。然而,这些方法忽略了不同层次特征的特征,导致特征融合 不足。为了解决这个问题,本文提出了一种双流多级特征融合网络(DMFF‑Net)。与传统的特征融合方法不同, DMFF‑Net采用分级特征融合策略。它将特征分为初级、中级和高级水平,并引入初级特征融合模块(PFFM) 和高级特征融合模块(AFFM)以实现更优的融合结果。此外,采用多监督策略将融合特征解码为特定级别的掩 码,包括边界、常规和精细掩码。DM...
M2RL-Net: Multi-View and Multi-Level Relation Learning Network for Weakly-Supervised Image Forgery Detection
英文题目:《M2RL-Net: Multi-View and Multi-Level Relation Learning Network for Weakly-Supervised Image Forgery Detection》 中文题目:《M2RL-Net:用于弱监督图像伪造检测的多视图和多级关系学习网络》 发布于: AAAI 级别:CCF-A 论文链接: https://doi.org/10.1609/aaai.v39i5.32501 摘要 随着数字媒体操纵变得越来越复杂,在最小监督下准确检测和定位图像伪造已成为一项关键挑战。现有的弱监督图像伪造检测(W-IFD)方法通常依赖于卷积神经网络(CNNs)和对内部关系的有限探索,导致仅使用图像级标签时检测和定位性能较差。为了解决这些局限性,我们为W-IFD引入了一种新的多视角和多级关系学习网络(M²RL-Net)。M²RL-Net通过探索图像不同视角和层次之间的关系,仅使用图像级标注有效地识别伪造图像。具体来说,M²RL-Net在不同视角上实现了补丁级自洽学习(PSL)和特征级对比学习(FCL),促进了更通用的自监督伪造特征学...
CatmullRom Splines-Based Regression for Image Forgery Localization
英文题目:《CatmullRom Splines-Based Regression for Image Forgery Localization》 中文题目:《基于CatmullRom样条的图像伪造定位回归》 发布于: AAAI 级别:CCF-A 论文链接: https://doi.org/10.1609/aaai.v38i7.28548 摘要 图像伪造定位(IFL)有助于数字媒体取证。然而,许多方法存在误检(即FP)和不准确的边界问题。在本文中,我们提出了基于CatmullRom样条的回归网络( CSR‑Net),它首先从回归的角度重新思考IFL任务以 解决这一问题。具体而言,我们提出了一种自适应的 CatmullRom样条拟合方案,用于粗略定位伪造区域。 然后,对于误报情况,我们首先开发了一种新的重新评分机制,旨在过滤掉在分类分支和实例分支上都无法产 生响应的样本。随后,为了进一步限制边界,我们设计了一个可学习的纹理提取模块,该模块通过解耦水平和垂直伪造特征来提取更鲁棒的轮廓表示,从而抑制FP。 与基于分割的方法相比,我们的方法简单有效,因为无需后处理。大量实验表明,CSR...
RAC: Efficient LLM Factuality Correction with Retrieval Augmentation
英文题目:《RAC: Efficient LLM Factuality Correction with Retrieval Augmentation》 中文题目:《RAC:通过检索增强实现高效的大语言模型事实性校正》 发布于: arxiv 级别:无 论文链接:https://arxiv.org/pdf/2410.15667 摘要 大语言模型(LLMs)在广泛的自然语言处理(NLP)任务中展现出了令人瞩目的成果,但它们常常会产生事实性错误的输出。本文介绍了一种简单而有效的低延迟后校正方法——检索增强校正(RAC),旨在提升大语言模型的事实性表现,且无需额外的微调。我们的方法具有通用性,可与任何经过指令微调的大语言模型配合使用,并且与先前的方法相比,延迟大幅降低。RAC将大语言模型的输出分解为原子事实,并应用检索到的内容进行细粒度的验证和校正过程,以验证和校正大语言模型生成的输出。我们广泛的实验表明,在两个流行的事实性评估数据集上,RAC相较于最先进的基线方法有高达 30%的提升,验证了其在不同大语言模型中,无论是否集成检索增强生成(RAG)时的有效性和稳健性。 本文聚焦的问题 本...
Enhanced Language Model Truthfulness with Learnable Intervention and Uncertainty Expression
英文题目:《Enhanced Language Model Truthfulness with Learnable Intervention and Uncertainty Expression》 中文题目:《通过可学习干预和不确定性表达的增强语言模型真实性》 发布于: arxiv 级别:无 论文链接: https://arxiv.org/pdf/2405.00301 摘要 大语言模型(LLMs)能够生成长篇连贯的文本,但它们常常会产生事实幻觉,这削弱了其可靠性。为缓解这一问题,推理阶段的方法会将大语言模型的表征导向之前为获取真相而学习到的 “真实方向”。然而,以相同强度应用这些真实方向无法在不同的查询上下文之间实现泛化。我们提出了LITO,一种用于真实性优化的可学习干预方法,它能自动识别针对每个特定上下文量身定制的最佳干预强度。LITO基于不断增加的干预强度探索一系列模型生成结果。当预测高度不确定时,它会选择最准确的回答或拒绝回答。在多个大语言模型和问答数据集上进行的实验表明,LITO在保持任务准确性的同时提高了真实性。LITO的自适应特性克服了一刀切干预方法的局限性,仅在模...
A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models
英文题目:《A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models》 中文题目:《大型语言模型中幻觉缓解技术的综合综述》 发布于: arxiv 级别:无 论文链接: https://arxiv.org/pdf/2401.01313 摘要 随着大型语言模型(LLMs)在编写类人文本方面的能力不断提高,一个关键挑战仍然存在,即它们倾向于“幻觉”——生成看起来是事实但没有根据的内容。这种幻觉问题可以说是将这些强大的LLM安全地部署到影响人们生活的真实生产系统中的最大障碍。在实际环境中广泛采用LLM的道路在很大程度上取决于解决和减轻幻觉。与专注于有限任务的传统人工智能系统不同,LLM在训练期间接触了大量的在线文本数据。虽然这使它们能够表现出令人印象深刻的语言流畅性,但也意味着它们能够从训练数据中的偏差中推断信息,误解模糊的提示,或修改信息以使其表面上与输入对齐。当我们依赖语言生成能力进行敏感应用时,例如总结医疗记录、客户支持对话、财务分析报告以及提供错误的法律建议,这变...
X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents
英文题目:《X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents》 中文题目:《X-Teaming:使用自适应多代理进行多回合越狱和防御》 发布于:arxiv 级别:无 论文链接: https://arxiv.org/pdf/2504.13203 摘要 与语言模型 (LM) 的多轮交互会带来严重的安全风险,因为有害意图可能会战略性地在交易所之间传播。然而,绝大多数先前的工作都集中在单弯安全上,而适应性和多样性仍然是多弯红队的主要挑战之一。为了应对这些挑战,我们提出了 X-Teaming,这是一个可扩展的框架,它系统地探索看似无害的交互如何升级为有害结果并生成相应的攻击场景。X-Teaming 采用协作代理进行规划、攻击优化和验证,实现了最先进的多轮越狱有效性和多样性,在具有代表性的领先开权重和闭源模型中成功率高达 98.1%。特别是,X-Teaming 在最新的 Claude 3.7 Sonnet 模型中实现了 96.2% 的攻击成功率,该模型被认为几乎不受单回合攻击的影响。在 X-Te...
AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks
英文题目:《AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks》 中文题目:《自动防御:多智能体大语言模型针对越狱攻击的防御》 发布于:arxiv 级别:无 论文链接: https://arxiv.org/pdf/2403.04783 摘要 尽管在道德对齐方面进行了广泛的预训练以防止生成有害信息,但大语言模型(LLMs)仍然容易受到越狱攻击。在本文中,我们提出了AutoDefense,这是一种多智能体防御框架,可过滤大语言模型产生的有害回复。通过回复过滤机制,我们的框架对不同的越狱攻击提示具有鲁棒性,并可用于保护不同的目标模型。AutoDefense为大语言模型智能体分配不同的角色,并利用它们协作完成防御任务。任务分工提高了大语言模型的整体指令遵循能力,并能够将其他防御组件作为工具进行整合。借助AutoDefense,小型开源大语言模型可以作为智能体,保护更大的模型免受越狱攻击。我们的实验表明,AutoDefense可以有效地抵御不同的越狱攻击,同时保持对正常用户请求的性能。例如,我们使用具有3个智能体的...
RedAgent: Red Teaming Large Language Models with Context-aware Autonomous Language Agent
英文题目:《RedAgent: Red Teaming Large Language Models with Context-aware Autonomous Language Agent》 中文题目:《RedAgent:利用具有情境感知能力的自主语言代理对大型语言模型进行红队攻击》 发布于:arxiv 级别:无 论文链接: https://arxiv.org/pdf/2407.16667 摘要 近年来,像 GPT-4 这样的先进大型语言模型(LLMs)已被集成到许多现实世界的应用中,例如 Code Copilot。这些应用显著扩大了 LLMs 的攻击面,使其暴露于各种威胁之中。其中,通过精心设计的越狱提示诱导有毒响应的越狱攻击引发了关键的安全问题。为了有效识别这些威胁,越来越多的红队方法通过制作越狱提示来模拟潜在的敌对场景以测试目标 LLM。然而,现有的红队测试方法并未考虑 LLM 在不同场景中的独特漏洞(例如,代码相关任务),因此难以调整越狱提示以发现特定情境的漏洞,从而缺乏效率。同时,这些方法仅限于通过少量变异操作(如同义词替换)优化手工制作的越狱模板,缺乏自动化和可扩展...