摘要:目的域自适应目标检测旨在解决检测模型在不同域数据间迁移应用时面临的性能下降问题。目前流行的基于平均教师框架的域自适应目标检测方法多采用基于类别置信度的单向评估机制。当伪标签存在噪声时,学生模型会沿错误方向更新参数,导致教师模型累积误差,最终制约模型的性能。为此,本文提出融合负教学和负学习策略的域自适应目标检测方法(negative teaching and negative learning,NTNL)。方法不同于已有的平均教师框架方法,本文所提方法NTNL采用双向评估机制。一方面引入负学习方法,指导学生模型判别伪标签的互补标签,使学生模型在噪声伪标签的影响下仍能构建鲁棒的决策边界;另一方面添加负教学策略,降低教师模型对困难样本做出错误分类的概率,提升伪标签的可靠程度与质量。此外,提出一种自适应加权机制,通过动态调节负教学权重,平衡不同学习任务中的负教学尺度,增强模型的泛化能力。结果在三个公开基准跨域目标检测任务上验证本文方法的有效性,与最近的方法相比,mAP(mean average precision)值分别提升了8.0%、4.7%和1.7%。消融实验以及特征可视化等进一步验证了本文方法的有效性。结论本文提出的NTNL通过引入负向思维,减轻了噪声伪标签的影响,在天气条件适应、城市道路跨风格适应和真实至插画风格适应三类典型场景中都取得了优越的性能。
摘要:目的错误信息的传播已成为数字时代亟待解决的重大挑战。随着多媒体技术的快速发展,网络空间中视觉与文本模态相结合的虚假内容呈现泛滥态势。尽管现有研究在多模态媒体篡改检测与定位方面取得了一定进展,但普遍存在跨模态层次化信息交互不足、篡改区域定位精度有限等关键问题。针对上述挑战,本研究提出了一种基于多视角视觉-语言信息交互的篡改检测框架。方法首先,通过全局与局部双视角特征嵌入,构建层次化篡改对比学习机制,实现跨模态细粒度语义对齐,有效捕捉篡改区域的语义不一致性。其次,创新性地设计了伪造感知交互模块,集成多尺度特征提取与频域特征融合策略,显著提升了不同粒度篡改特征的定位能力。此外,引入跨模态门控融合模块,采用动态权重分配策略优化模态间信息交互,从而增强模型在多模态深度伪造检测及细粒度分类任务中的判别能力。结果实验结果表明,在相同实验环境下,本模型相较基于分层推理的HAMMER(hierarchical multi-modal manipulation reasoning Transformer)框架,在图像深度伪造定位任务中IoU75(intersection over union at a threshold of 75%)指标提升6.41%,文本篡改定位任务的召回率与F1分别提高5.63%和2.01%。与VLP-GF(visual-language pre-training with gate fusion)框架相比,本模型在多模态多任务学习的综合评估中展现出全面性能优势。结论本文提出的多视角视觉-语言信息交互模型相较于其他模型,在多模态深度伪造检测与定位任务中表现出显著优越性,为多媒体内容安全领域提供了新的技术解决方案。
摘要:随着训练数据体量和深度学习模型规模的不断提升,视觉基础模型(vision foundation models,VFMs)和大语言模型(large language models,LLMs)在多种类型下游任务中表现出优异的泛化能力,引发广大学者关注。在遥感(remote sensing,RS)领域,数据来源多样、模态复杂、地物类型丰富且分布异质,传统方法难以全面建模其中蕴含的语义与空间关系。围绕遥感多源数据特性和复杂地物关系设计预训练基础模型,对于提取通用、鲁棒的特征表示以及实现遥感影像智能解译具有重要意义。本文系统回顾了遥感预训练基础模型(remote sensing foundation models,RSFMs)的研究进展,重点聚焦于单模态与多模态预训练策略的发展脉络与关键方法,梳理了当前主流遥感预训练数据集及其构建特性。在单模态方面,总结了典型的自监督对比学习(self-supervised contrastive learning,SSCL)与掩码生成预训练(masked image modeling,MIM)框架,并分析其在不同分辨率和多光谱影像中的应用效果;在多模态方面,重点回顾了图像–文本、图像–位置、图像–音频等多模态预训练策略及其特征对齐机制。进一步地,本文对遥感基础模型在跨场景适应、特征表征能力、预训练范式、数据质量与获取成本等方面所面临的主要挑战进行了分析,并从多模态融合、轻量化建模、跨域与跨时间泛化、模型透明度与可信性等角度,对未来遥感大模型的发展趋势与潜在研究方向进行了前瞻性探讨。本文旨在为遥感智能解译与大模型研究提供系统综述与理论参考。
摘要:目的实时渲染图形程序(如游戏、虚拟现实等)对高分辨率和高刷新率的要求越来越高,因此,对渲染图像的实时超分辨率技术在实时渲染中变得非常必要。然而,现有的视频超分算法和实时渲染处于不同的数据处理管线之中,这导致其难以被直接应用到实时渲染管线里。方法对此,本文提出了一个基于帧循环结构的实时神经超采样方法。首先,能够充分利用实时渲染管线中生成的低分辨场景几何数据,以提升超采样网络对于三维空间信息的感知力。其次,将帧循环框架结合到超采样方法中,通过引入先前帧重建结果的特征来改善当前帧的重建结果,从而实现时间尺度上的稳定性。最后,将重加权网络和注意力网络置于特征提取模块中,以改善提取到的特征的有效性。此外,本文还提出了一个面向神经超采样的实时渲染流程,该流程能够将超采样网络部署至图形计算管线之上,并与实时渲染管线相结合。结果与同样能够实时且效果较好的基准方法面向实时渲染的神经超采样(neural super-sampling for real-time rendering, NSRR)比较,本文方法在速度少许提升前提下,图像质量指标峰值信噪比(peak signal to noise ratio, PSNR)平均提升了0.4dB,并在部署到实时渲染管线后,通过轻量化裁剪继续保持实时性且部分场景效果仍然优于非实时的部署后NSRR;在网络模块的消融实验中也证明了各个子模块对于神经超采样任务的有效性。结论本文提出的神经超采样网络模型与搭建的神经超采样渲染流程,在取得更好效果的同时也具有一定的实用价值。