摘要:随着计算机视觉和人工智能技术的快速发展,目标检测受到了更加广泛的关注。由于小目标像素占比小、语义信息少、易受复杂场景干扰以及易聚集遮挡等问题,导致小目标检测一直是目标检测领域中的一大难点。目前,视觉的小目标检测在生活的各个领域中日益重要。为了进一步促进小目标检测的发展,提高小目标检测的精度与速度,优化其算法模型,本文针对小目标检测中存在的问题,梳理了国内外研究现状及成果。首先,分别从小目标可视化特征、目标分布情况和检测环境等角度对小目标检测的难点进行了分析,同时从数据增强、超分辨率、多尺度特征融合、上下文语义信息、锚框机制、注意力机制以及特定的检测场景等方面系统总结了小目标检测方法,并整理了在框架结构、损失函数、预测和匹配机制等方面发展的较为成熟的单阶段小目标检测方法。其次,本文对小目标检测的评价指标以及可用于小目标检测的各类数据集进行了详细介绍,并针对部分经典的小目标检测方法在MS-COCO(Microsoft common objects in context)、VisDrone2021(vision meets drones2021)和Tsinghua-Tencent100K等数据集上的检测结果及其可视化检测效果进行了对比与分析。最后,对未来小目标检测面临的挑战,包括如何解决小目标定位困难、网络模型下采样对小目标的影响、交并比阈值的设置对小目标不合理等问题和其对应的研究方向进行了分析与展望。
摘要:图像分类是图像理解的基础,对计算机视觉在实际中的应用具有重要作用。然而由于图像目标形态、类型的多样性以及成像环境的复杂性,导致很多图像分类方法在实际应用中的分类结果总是差强人意,例如依然存在分类准确性低、假阳性高等问题,严重影响其在后续图像及计算机视觉相关任务中的应用。因此,如何通过后期算法提高图像分类的精度和准确性具有重要研究意义,受到越来越多的关注。随着深度学习技术的快速发展及其在图像处理中的广泛应用和优异表现,基于深度学习技术的图像分类方法研究取得了巨大进展。为了更加全面地对现有方法进行研究,紧跟最新研究进展,本文对Transformer驱动的深度学习图像分类方法和模型进行系统梳理和总结。与已有主题相似综述不同,本文重点对Transformer变体驱动的深度学习图像分类方法和模型进行归纳和总结,包括基于可扩展位置编码的Transformer图像分类方法、具有低复杂度和低计算代价的Transformer图像分类方法、局部信息与全局信息融合的Transformer图像分类方法以及基于深层ViT(visual Transformer)模型的图像分类方法等,从设计思路、结构特点和存在问题等多个维度、多个层面深度分析总结现有方法。为了更好地对不同方法进行比较分析,在ImageNet、CIFAR-10(Canadian Institute for Advanced Research)和CIFAR-100等公开图像分类数据集上,采用准确率、参数量、浮点运算数(floating point operations,FLOPs)、总体分类精度(overall accuracy,OA)、平均分类精度(average accuracy,AA)和Kappa(κ)系数等评价指标,对不同方法模型的分类性能进行了实验评估。最后,对未来研究方向进行了展望。
摘要:目的干涉相位去噪是合成孔径雷达干涉测量(interferometric synthetic aperture radar,InSAR)技术中的关键环节,其效果对测量精度具有重要影响。针对现有的干涉相位去噪方法大多关注局部特征以及在特征提取方面的局限性,同时为了平衡去噪和结构保持两者之间的关系,提出了一种结合全局上下文与融合注意力的相位去噪网络GCFA-PDNet(global context and fused attention phase denoising network)。方法将干涉相位分离为实部和虚部依次输入到网络,先从噪声相位中提取浅层特征,再将其映射到由全局上下文提取模块和融合注意力模块组成的特征增强模块,最后通过全局残差学习生成去噪图像。全局上下文提取模块能提取全局上下文信息,具有非局部方法的优势;融合注意力模块既强调关键特征,又能高效提取隐藏在复杂背景中的噪声信息。结果所提出的方法与对比方法中性能最优者相比,在模拟数据结果的平均峰值信噪比(peak signal to noise ratio, PSNR)和结构相似性(structural similarity, SSIM)指标分别提高了5.72%和2.94%,在真实数据结果的平均残差点减少百分比(percentage of residual point reduction, PRR)和相位标准偏差(phase standard deviation,PSD)指标分别提高了 2.01% 和3.57%。结合定性与定量分析,所提出的方法优于其他5种不同类型的相位去噪方法。结论提出的去噪网络较其他方法具有更强大的特征提取能力,此外由于关注全局上下文信息和强调关键特征,网络能够在增强去噪能力的同时保持原始相位细节。