通过实例级主成分移除增强语言模型的鲁棒性Boosting射线算法CE损失对抗攻击梯度计算相对误差BLACK BOX ATTACKSDifferential EvolutionConvolutional Neural NetworkInformation SecurityImage RecognitionUniversal adversarial perturbationsADVERSARIAL DEFENSE补丁攻击算法Adversarial Text GenerationAdversarial attack,ransfer-based attackadversarial exampleadaptive perturbation进化算法梯度上升基本迭代法fast gradient sign method多智能体协作I-GCGGCG优化TextGradGCG遗传算法PSARAGRapidFuzzPUZZLEDJailFuzzerWordGamePRISMSearch-R1微调音频越狱攻击越狱分析与概念多智能体多轮越狱多模态越狱MASTERKEYLLM辅助越狱越狱攻击防御越狱攻击大语言模型大模型安全监督微调可学习干预检索增强生成RAC上下文学习后门攻击大模型安全对齐多模态大语言模型安全对齐注意力分散模型安全对抗提示State Space Models图像伪造定位transformer层次特征融合人脸伪造检测注意力机制特征增强双流提取基于CatmullRom样条回归双流特征提取特征融合对比学习一致性学习弱监督图像伪造检测双超图卷积网络噪声表示学习噪声引导网络大型多模态模型成对排序学习强化学习循环神经网络A3C算法篡改链取证频域特征编码器解码器损失函数优化聚类多模态大型语言模型可解释性伪造检测信噪分离篡改方法识别评估标准logprobPAPILLON对抗样本密码攻击介观结构数据集创建(自动标注)自适应感知模块密码面部伪装攻击检测多尺度特征融合BaitAttackDRA提示泄露
avatar
LLM Security Group
分享知识,认识世界
Follow Me
公告
This is my Blog