LLM Security Group 's Notes

M2RL-Net: Multi-View and Multi-Level Relation Learning Network for Weakly-Supervised Image Forgery Detection

发表于2025-08-15|图像伪造取证

英文题目：《M2RL-Net: Multi-View and Multi-Level Relation Learning Network for Weakly-Supervised Image Forgery Detection》中文题目：《M2RL-Net：用于弱监督图像伪造检测的多视图和多级关系学习网络》发布于： AAAI 级别：CCF-A 论文链接： https://doi.org/10.1609/aaai.v39i5.32501 摘要随着数字媒体操纵变得越来越复杂，在最小监督下准确检测和定位图像伪造已成为一项关键挑战。现有的弱监督图像伪造检测（W-IFD）方法通常依赖于卷积神经网络（CNNs）和对内部关系的有限探索，导致仅使用图像级标签时检测和定位性能较差。为了解决这些局限性，我们为W-IFD引入了一种新的多视角和多级关系学习网络（M²RL-Net）。M²RL-Net通过探索图像不同视角和层次之间的关系，仅使用图像级标注有效地识别伪造图像。具体来说，M²RL-Net在不同视角上实现了补丁级自洽学习（PSL）和特征级对比学习（FCL），促进了更通用的自监督伪造特征学...

CatmullRom Splines-Based Regression for Image Forgery Localization

发表于2025-08-13|图像伪造取证

英文题目：《CatmullRom Splines-Based Regression for Image Forgery Localization》中文题目：《基于CatmullRom样条的图像伪造定位回归》发布于： AAAI 级别：CCF-A 论文链接： https://doi.org/10.1609/aaai.v38i7.28548 摘要图像伪造定位（IFL）有助于数字媒体取证。然而，许多方法存在误检（即FP）和不准确的边界问题。在本文中，我们提出了基于CatmullRom样条的回归网络（ CSR‑Net），它首先从回归的角度重新思考IFL任务以解决这一问题。具体而言，我们提出了一种自适应的 CatmullRom样条拟合方案，用于粗略定位伪造区域。然后，对于误报情况，我们首先开发了一种新的重新评分机制，旨在过滤掉在分类分支和实例分支上都无法产生响应的样本。随后，为了进一步限制边界，我们设计了一个可学习的纹理提取模块，该模块通过解耦水平和垂直伪造特征来提取更鲁棒的轮廓表示，从而抑制FP。与基于分割的方法相比，我们的方法简单有效，因为无需后处理。大量实验表明，CSR...

RAC: Efficient LLM Factuality Correction with Retrieval Augmentation

发表于2025-08-11|幻觉缓解

英文题目：《RAC: Efficient LLM Factuality Correction with Retrieval Augmentation》中文题目：《RAC：通过检索增强实现高效的大语言模型事实性校正》发布于： arxiv 级别：无论文链接：https://arxiv.org/pdf/2410.15667 摘要大语言模型（LLMs）在广泛的自然语言处理（NLP）任务中展现出了令人瞩目的成果，但它们常常会产生事实性错误的输出。本文介绍了一种简单而有效的低延迟后校正方法——检索增强校正（RAC），旨在提升大语言模型的事实性表现，且无需额外的微调。我们的方法具有通用性，可与任何经过指令微调的大语言模型配合使用，并且与先前的方法相比，延迟大幅降低。RAC将大语言模型的输出分解为原子事实，并应用检索到的内容进行细粒度的验证和校正过程，以验证和校正大语言模型生成的输出。我们广泛的实验表明，在两个流行的事实性评估数据集上，RAC相较于最先进的基线方法有高达 30%的提升，验证了其在不同大语言模型中，无论是否集成检索增强生成（RAG）时的有效性和稳健性。本文聚焦的问题本...

Enhanced Language Model Truthfulness with Learnable Intervention and Uncertainty Expression

发表于2025-08-11|幻觉缓解

英文题目：《Enhanced Language Model Truthfulness with Learnable Intervention and Uncertainty Expression》中文题目：《通过可学习干预和不确定性表达的增强语言模型真实性》发布于： arxiv 级别：无论文链接： https://arxiv.org/pdf/2405.00301 摘要大语言模型（LLMs）能够生成长篇连贯的文本，但它们常常会产生事实幻觉，这削弱了其可靠性。为缓解这一问题，推理阶段的方法会将大语言模型的表征导向之前为获取真相而学习到的 “真实方向”。然而，以相同强度应用这些真实方向无法在不同的查询上下文之间实现泛化。我们提出了LITO，一种用于真实性优化的可学习干预方法，它能自动识别针对每个特定上下文量身定制的最佳干预强度。LITO基于不断增加的干预强度探索一系列模型生成结果。当预测高度不确定时，它会选择最准确的回答或拒绝回答。在多个大语言模型和问答数据集上进行的实验表明，LITO在保持任务准确性的同时提高了真实性。LITO的自适应特性克服了一刀切干预方法的局限性，仅在模...

A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models

发表于2025-08-11|幻觉缓解

英文题目：《A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models》中文题目：《大型语言模型中幻觉缓解技术的综合综述》发布于： arxiv 级别：无论文链接： https://arxiv.org/pdf/2401.01313 摘要随着大型语言模型（LLMs）在编写类人文本方面的能力不断提高，一个关键挑战仍然存在，即它们倾向于“幻觉”——生成看起来是事实但没有根据的内容。这种幻觉问题可以说是将这些强大的LLM安全地部署到影响人们生活的真实生产系统中的最大障碍。在实际环境中广泛采用LLM的道路在很大程度上取决于解决和减轻幻觉。与专注于有限任务的传统人工智能系统不同，LLM在训练期间接触了大量的在线文本数据。虽然这使它们能够表现出令人印象深刻的语言流畅性，但也意味着它们能够从训练数据中的偏差中推断信息，误解模糊的提示，或修改信息以使其表面上与输入对齐。当我们依赖语言生成能力进行敏感应用时，例如总结医疗记录、客户支持对话、财务分析报告以及提供错误的法律建议，这变...

X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents

发表于2025-08-11|越狱攻击

英文题目：《X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents》中文题目：《X-Teaming：使用自适应多代理进行多回合越狱和防御》发布于：arxiv 级别：无论文链接： https://arxiv.org/pdf/2504.13203 摘要与语言模型（LM）的多轮交互会带来严重的安全风险，因为有害意图可能会战略性地在交易所之间传播。然而，绝大多数先前的工作都集中在单弯安全上，而适应性和多样性仍然是多弯红队的主要挑战之一。为了应对这些挑战，我们提出了 X-Teaming，这是一个可扩展的框架，它系统地探索看似无害的交互如何升级为有害结果并生成相应的攻击场景。X-Teaming 采用协作代理进行规划、攻击优化和验证，实现了最先进的多轮越狱有效性和多样性，在具有代表性的领先开权重和闭源模型中成功率高达 98.1%。特别是，X-Teaming 在最新的 Claude 3.7 Sonnet 模型中实现了 96.2% 的攻击成功率，该模型被认为几乎不受单回合攻击的影响。在 X-Te...

AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks

发表于2025-08-10|越狱攻击的防范

英文题目：《AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks》中文题目：《自动防御：多智能体大语言模型针对越狱攻击的防御》发布于：arxiv 级别：无论文链接： https://arxiv.org/pdf/2403.04783 摘要尽管在道德对齐方面进行了广泛的预训练以防止生成有害信息，但大语言模型（LLMs）仍然容易受到越狱攻击。在本文中，我们提出了AutoDefense，这是一种多智能体防御框架，可过滤大语言模型产生的有害回复。通过回复过滤机制，我们的框架对不同的越狱攻击提示具有鲁棒性，并可用于保护不同的目标模型。AutoDefense为大语言模型智能体分配不同的角色，并利用它们协作完成防御任务。任务分工提高了大语言模型的整体指令遵循能力，并能够将其他防御组件作为工具进行整合。借助AutoDefense，小型开源大语言模型可以作为智能体，保护更大的模型免受越狱攻击。我们的实验表明，AutoDefense可以有效地抵御不同的越狱攻击，同时保持对正常用户请求的性能。例如，我们使用具有3个智能体的...

RedAgent: Red Teaming Large Language Models with Context-aware Autonomous Language Agent

发表于2025-08-10|越狱攻击

英文题目：《RedAgent: Red Teaming Large Language Models with Context-aware Autonomous Language Agent》中文题目：《RedAgent：利用具有情境感知能力的自主语言代理对大型语言模型进行红队攻击》发布于：arxiv 级别：无论文链接： https://arxiv.org/pdf/2407.16667 摘要近年来，像 GPT-4 这样的先进大型语言模型（LLMs）已被集成到许多现实世界的应用中，例如 Code Copilot。这些应用显著扩大了 LLMs 的攻击面，使其暴露于各种威胁之中。其中，通过精心设计的越狱提示诱导有毒响应的越狱攻击引发了关键的安全问题。为了有效识别这些威胁，越来越多的红队方法通过制作越狱提示来模拟潜在的敌对场景以测试目标 LLM。然而，现有的红队测试方法并未考虑 LLM 在不同场景中的独特漏洞（例如，代码相关任务），因此难以调整越狱提示以发现特定情境的漏洞，从而缺乏效率。同时，这些方法仅限于通过少量变异操作（如同义词替换）优化手工制作的越狱模板，缺乏自动化和可扩展...

MUN: Image Forgery Localization Based on M3 Encoder and UN Decoder

发表于2025-08-08|图像伪造取证

英文题目：《MUN: Image Forgery Localization Based on M3 Encoder and UN Decoder》中文题目：《MUN:基于M3编码器和UN解码器的图像伪造定位》发布于：Proceedings of the AAAI Conference on Artificial Intelligence 级别：CCF-A 论文链接： https://doi.org/10.1609/aaai.v39i6.32606 摘要图像伪造可以完全改变图像的语义信息，并且可以被用于不法目的。在本文中，我们提出了一种名为MUN的新型图像伪造定位网络，该网络由一个M3编码器和一个 UN解码器组成。首先，基于多尺度最大池化查询模块构建M3 编码器，以提取多线索伪造特征。采用 Noiseprint++ 辅助RGB线索，并讨论了其部署方法。提出了一种多尺度最大池化查询（MMQ）模块，以整合RGB和噪声特征。其次，提出了一种新型UN解码器，从自上而下和自下而上的方向提取层次特征，同时重建高级和低级特征。第三，我们提出了一个IoU重校准动态交叉熵（IoU...

Mf-net: multi-feature fusion network based on two-stream extraction andmulti-scale enhancement for face forgery detection

发表于2025-08-08|图像伪造取证

英文题目：《 Mf-net: multi-feature fusion network based on two-stream extraction andmulti-scale enhancement for face forgery detection》中文题目：《Mf‑net:基于双流提取和多尺度增强的多特征融合网络用于人脸伪造检测》发布于：Home | Complex & Intelligent Systems (springer.com) 级别：中科院2区论文链接：https://link.springer.com/article/10.1007/s40747-024-01634-6 摘要由于人脸伪造技术的日益复杂，生成的图像越来越逼真，人眼难以区分。这些人脸伪造技术会在人脸识别和身份验证领域造成欺诈和社会工程攻击等问题。因此，研究人员致力于人脸伪造检测研究，并取得了显著进展。当前的人脸伪造检测算法在数据集内部实现了高检测精度。然而，在跨数据集场景中难以实现令人满意的泛化性能。为了提高模型的跨数据集检测性能，本文提出了一种基于双流提取和多尺度增强...