目的域自适应目标检测旨在解决检测模型在不同域数据间迁移应用时面临的性能下降问题。目前流行的基于平均教师框架的域自适应目标检测方法多采用基于类别置信度的单向评估机制。当伪标签存在噪声时,学生模型会沿错误方向更新参数,导致教师模型累积误差,最终制约模型的性能。为此,本文提出融合负教学和负学习策略的域自适应目标检测方法(negative teaching and negative learning,NTNL)。方法不同于已有的平均教师框架方法,本文所提方法NTNL采用双向评估机制。一方面引入负学习方法,指导学生模型判别伪标签的互补标签,使学生模型在噪声伪标签的影响下仍能构建鲁棒的决策边界;另一方面添加负教学策略,降低教师模型对困难样本做出错误分类的概率,提升伪标签的可靠程度与质量。此外,提出一种自适应加权机制,通过动态调节负教学权重,平衡不同学习任务中的负教学尺度,增强模型的泛化能力。结果在三个公开基准跨域目标检测任务上验证本文方法的有效性,与最近的方法相比,mAP(mean average precision)值分别提升了8.0%、4.7%和1.7%。消融实验以及特征可视化等进一步验证了本文方法的有效性。结论本文提出的NTNL通过引入负向思维,减轻了噪声伪标签的影响,在天气条件适应、城市道路跨风格适应和真实至插画风格适应三类典型场景中都取得了优越的性能。
目的错误信息的传播已成为数字时代亟待解决的重大挑战。随着多媒体技术的快速发展,网络空间中视觉与文本模态相结合的虚假内容呈现泛滥态势。尽管现有研究在多模态媒体篡改检测与定位方面取得了一定进展,但普遍存在跨模态层次化信息交互不足、篡改区域定位精度有限等关键问题。针对上述挑战,本研究提出了一种基于多视角视觉-语言信息交互的篡改检测框架。方法首先,通过全局与局部双视角特征嵌入,构建层次化篡改对比学习机制,实现跨模态细粒度语义对齐,有效捕捉篡改区域的语义不一致性。其次,创新性地设计了伪造感知交互模块,集成多尺度特征提取与频域特征融合策略,显著提升了不同粒度篡改特征的定位能力。此外,引入跨模态门控融合模块,采用动态权重分配策略优化模态间信息交互,从而增强模型在多模态深度伪造检测及细粒度分类任务中的判别能力。结果实验结果表明,在相同实验环境下,本模型相较基于分层推理的HAMMER(hierarchical multi-modal manipulation reasoning Transformer)框架,在图像深度伪造定位任务中IoU75(intersection over union at a threshold of 75%)指标提升6.41%,文本篡改定位任务的召回率与F1分别提高5.63%和2.01%。与VLP-GF(visual-language pre-training with gate fusion)框架相比,本模型在多模态多任务学习的综合评估中展现出全面性能优势。结论本文提出的多视角视觉-语言信息交互模型相较于其他模型,在多模态深度伪造检测与定位任务中表现出显著优越性,为多媒体内容安全领域提供了新的技术解决方案。