摘要:目的图像超分辨率任务旨在从低分辨率图像中恢复出高分辨率图像。传统方法通常将研究范畴限定于实验室封闭环境下采集的、内容与退化类型均较为单一的静态域图像,并且假设训练环境与测试环境的数据分布相近。因此,当处于开放环境,面对诸如噪声、模糊以及光照变化等域漂移问题时,传统方法的性能会急剧下降。为提升超分辨率模型在持续变化的开放环境中的适应性和鲁棒性,提出持续测试动态自适应图像超分辨率新框架——CTDA-SR(continuous testing with dynamic adaptive super-resolution)。方法该框架通过动态域自适应策略应对复杂场景中的域漂移问题。具体而言,通过自监督双学生网络的设计,在测试阶段深度挖掘并有效利用图像的局部特征和全局结构特征,使其能够更好地学习不同尺度下的共性模式。此外,为了保持图像在不同分辨率下的一致性,提出多层次转换的循环一致性损失,提高模型对不同分辨率图像的适应性和知识转移的有效性和稳定性,以及学生网络的模型泛化能力。结果实验结果表明,所提方法在多个动态域超分辨任务(如持续退化场景)中优于对比算法,能够提高重建图像的PSNR(peak signal to noise ratio)和SSIM(structural similarity index measure),并表现出稳定性和鲁棒性。实验在8个数据集上与10种方法进行比较,相比于性能第2的模型,在U-Test1数据集中,PSNR提升0.22 dB,SSIM提升0.03;在U-Test3数据集中,PSNR提升0.23 dB,SSIM降低0.01;在B-Test1数据集PSNR提升0.11 dB,SSIM提升0.01。同时,在Urban100(urban scene 100)数据集上的实验结果表明,所提算法在持续退化环境中改善了退化图像的超分辨率的效果。结论本文提出的框架为连续变化环境下的图像超分辨任务提供了一种创新解决方案。通过高效的自适应能力、自监督双学生网络和损失函数的设计,CTDA-SR显著改善了超分任务在动态域条件下的表现,为解决域漂移问题提供了新的研究方向。
摘要:目的现有360°全景图像显著目标检测方法一定程度上解决了360°全景图像投影后的几何畸变问题,但是这些方法面对复杂场景或是前景与背景对比度较低的场景时,容易受到背景干扰,导致检测效果不佳。为了同时解决几何畸变和背景干扰,提出一种畸变自适应与位置感知网络(distortion-adaptive and position-aware network,DPNet)。方法提出两个对畸变和位置敏感的自适应检测模块:畸变自适应模块(distortion-adaptive module,DAM)和位置感知模块(position-aware module,PAM)。它们可以帮助模型根据等矩形投影的特点和具体图像决定应该关注图像的哪些区域。在此基础上,进一步提出一个显著信息增强模块(salient information enhancement module,SIEM),该模块用高级特征指导低级特征,过滤其中的非显著信息,防止背景干扰对360°显著目标检测效果的影响。结果实验在2个公开数据集(360-SOD,360-SSOD)上与13种新颖方法进行了客观指标和主观结果的比较,在8个评价指标上的综合性能优于13种对比方法。本文还设置了泛化性实验,采用交叉验证的方式表明了本文模型优秀的泛化性能。结论本文所提出的360°全景图像显著目标检测模型DPNet,同时考虑了360°全景图像投影后的几何畸变问题和复杂场景下的背景干扰问题,能够有效地、完全自适应地检测显著目标。
摘要:目的YOLOv7-tiny(you only look once version 7-tiny)成为实时目标检测领域的常用方法,由于其轻量化网络架构设计和较少的参数量,整个训练过程在单个网络中进行,检测速度快且不需要使用滑动窗口或候选区域,在资源受限、实时性要求高的任务中表现优异。然而,YOLOv7-tiny在特征融合阶段存在相邻层特征融合时信息丢失和非相邻层特征信息差异两个问题。为了解决上述问题,提出一种长短程依赖特征金字塔网络LSRD-FPN(long short range dependency feature pyramid network),并基于该网络对YOLOv7-tiny方法进行改进。方法LSRD-FPN包括两个关键组成部分:局部短程依赖机制SRD(short range dependency)和全局长程依赖机制LRD(long range dependency)。局部短程依赖机制通过改进上采样方式和引入注意力机制,有效缓解了特征融合过程中信息丢失的问题;全局长程依赖机制通过引入跨层连接模块,将主干网络的多尺度特征缩放、融合并分配到检测阶段的不同层级特征。LSRD-FPN不仅增强了模型的特征表达能力,而且提升了其在多尺度目标检测任务的性能表现。结果选用两个不同场景和规模的数据集进行实验。实验结果表明,相较于YOLOv7-tiny,本文方法的mAP分别取得1.3%和0.5% 的性能提升。与参数量相当的YOLOv5-s和YOLOv8-n相比,mAP指标在TDD(traffic detection dataset)数据集上分别提升2.6%和0.2%,在Cmudsodd(coal mine underground drilling site object detection dataset)数据集上分别提升2.1%和4.4%。结论本文提出的长短程依赖特征金字塔网络解决了YOLOv7-tiny在特征融合阶段存在的相邻层特征融合时信息丢失问题和非相邻层特征信息差异问题,提升了YOLOv7-tiny方法的检测性能,并优于两种参数量相当的方法YOLOv5-s和YOLOv8-n。
摘要:目的针对图像分类任务中对于细粒度特征提取困难,同时背景噪声和不相关区域影响网络对目标特征学习的问题,本文提出随机空洞卷积的图像分类网络(image classification network with random dilated convolution,RDCNet)。方法RDCNet网络以ResNet-34(residual network-34)为基线网络。首先,提出多分支随机空洞卷积(multi-branch random dilated convolution,MRDC)模块,通过多个分支的卷积操作和随机膨胀卷积核的设计,实现了从不同尺度和感受野上对细粒度特征的有效捕捉。通过引入细粒度特征增强(fine-grained feature enhancement,FGFE)模块,实现对全局信息的学习和局部特征的增强,提升了网络局部特征提取和全局上下文理解能力。同时引入随机掩码机制动态地遮蔽部分输入特征和卷积核权重,不仅可以通过多样化的特征组合学习更加健壮和鲁棒性的表示,还能够有效减少过拟合,提升对噪声和不相关区域的适应能力。最后,提出上下文激励(context excitation,CE)模块,通过引入上下文信息并动态调整特征通道的权重,增强网络对关键特征的关注能力,抑制背景噪声的干扰,提升了特征的表达能力。结果本文方法在CIFAR-10(Canadian institute for advanced research 10)、CIFAR-100、SVHN(street view house number)、Imagenette和Imagewoof数据集上均有良好的分类准确率,相比于性能第2的模型,分类准确率分别提高了0.02%、1.12%、0.18%、4.73%和3.56%。实验结果表明,RDCNet具有较高的分类性能。结论随机空洞卷积的图像分类网络具有更强的细粒度特征敏感度,能够在多尺度和上下文中提取丰富的特征信息,较好地关注关键特征,对复杂背景下目标具有更优秀的辨识能力,从而在分类任务中表现出优秀的分类性能。