通过实例级主成分移除增强语言模型的鲁棒性RAG监督微调多智能体协作后门攻击大语言模型Boosting射线算法ADVERSARIAL DEFENSE图像伪造定位基于CatmullRom样条回归双流特征提取特征融合可学习干预上下文学习I-GCGGCG优化Adversarial Text Generation对比学习一致性学习弱监督图像伪造检测transformer层次特征融合人脸伪造检测注意力机制特征增强双流提取检索增强生成RACTextGradCE损失对抗攻击梯度计算相对误差补丁攻击GCG越狱攻击大模型安全双超图卷积网络RapidFuzz噪声表示学习噪声引导网络PSAPUZZLEDState Space ModelsWordGamePRISM遗传算法Differential EvolutionConvolutional Neural NetworkInformation SecurityImage RecognitionBLACK BOX ATTACKSUniversal adversarial perturbations基本迭代法fast gradient sign method进化算法梯度上升成对排序学习聚类JailFuzzer多智能体大模型安全对齐多模态大语言模型Search-R1强化学习编码器解码器损失函数优化音频越狱攻击