摘要:目的基于深度卷积神经网络的目标检测模型易受复杂环境(遮挡、光照、远距离、小目标等)影响导致漏检、误检和目标轮廓特征模糊的问题,现有模型难以直接泛化到航拍场景下的小目标检测任务。为有效解决上述问题,提出一种融合非临近跳连与多尺度残差结构的小目标车辆检测算法(non-adjacent hop network you only look once version 5s multi-scale residual edge contour feature extraction strategy,NHN-YOLOv5s-MREFE)。方法首先,设计4种不同尺度的检测层,根据自身感受野大小,针对性地负责不同尺寸车辆的检测。其次,借鉴DenseNet密集跳连的思想,构建一种非临近跳连特征金字塔结构(non-adjacent hop network,NHN),通过跳连相加策略,在强化非临近层次信息交互的同时融合更多未被影响的原始信息,解决位置信息在传递过程中被逐渐稀释的问题,有效降低了模型的误检率。然后,以减少特征丢失为前提,引入反卷积和并行策略,通过参数学习实现像素填充和突破每1维度信息量的方式扩充小目标细节信息。接着,设计一种多尺度残差边缘轮廓特征提取策略(multi-scale residual edge contour feature extraction strategy,MREFE),遵循特征逐渐细化的原则,构建多尺度残差结构,采用双分支并行的方法捕获不同层级的多尺度信息,通过多尺度下的高语义信息与初始浅层信息的逐像素作差实现图像边缘特征提取,进而辅助网络模型完成目标分类。最后,采用K-Means++算法使聚类中心分散化,促使结果达到全局最优,加速模型收敛。结果实验结果表明,非临近跳连的特征金字塔与多尺度残差结构的多模态融合策略,在提升模型运行效率,降低模型计算资源消耗的同时,有效提升了小目标检测的准确性和鲁棒性。通过多场景、多时段、多角度的样本数据增强,强化了模型在不同场景下的泛化能力。最后,在十字路口、沿途车道双场景下包含多种车辆类型的航拍图像数据集上,对比分析4种主流的目标检测方法,本文算法的综合性能最优。相较于基准模型(YOLOv5s),精确率、召回率和平均精度均值分别提升了13.7%、1.6%和8.1%。结论本文算法可以较好地平衡检测速度与精度,以增加极小的参数量为代价,显著地提升了检测精度, 并能够自适应复杂的交通环境,满足航拍场景下小目标车辆检测的实时性需求,在交通流量、密度等参数的测量和统计,车辆定位与跟踪等场景下有较高的应用价值。
摘要:目的视频动作质量评估旨在评估视频中特定动作的执行情况和完成质量。自动化的动作质量评估能够有效地减少人力资源的损耗,可以更加精准、公正地对视频内容进行评估。传统动作质量评估方法主要存在以下问题:1)视频中动作主体的多尺度时空特征问题;2)认知差异导致的标记内在模糊性问题;3)多头自注意力机制的注意力头冗余问题。针对以上问题,提出了一种能够感知视频序列中不同时空位置、生成细粒度标记的动作质量评估模型SALDL(self-attention and label distribution learning)。方法SALDL提出Attention-Inc(attention-inception)结构,该结构通过Embedding、多头自注意力以及多层感知机将自注意力机制渐进式融入Inception结构,使模型能够获得不同尺度卷积特征之间的上下文信息。提出一种正负时间注意力模块PNTA(pos-neg temporal attention),通过PNTA损失挖掘时间注意力特征,从而减少自注意力头冗余并提取不同片段的注意力特征。SALDL模型通过标记增强及标记分布学习生成细粒度的动作质量标记。结果提出的SALDL模型在MTL-AQA(multitask learning-action quality assessment)和JIGSAWS(JHU-ISI gesture and skill assessment working set)等数据集上进行了大量对比及消融实验,斯皮尔曼等级相关系数分别为0.941 6和0.818 3。结论SALDL模型通过充分挖掘不同尺度的时空特征解决了多尺度时空特征问题,并引入符合标记分布的先验知识进行标记增强,达到了解决标记的内在模糊性问题以及注意力头的冗余问题。
摘要:目的赤潮是一种常见的海洋生态灾害,严重威胁海洋生态系统安全。及时准确获取赤潮的发生和分布信息可以为赤潮的预警和防治提供有力支撑。然而,受混合像元和水环境要素影响,赤潮分布精细探测仍是挑战。针对赤潮边缘探测的难点,结合赤潮边缘高频特征学习与位置语义,提出了一种计算量小、精度高的网络模型RTDNet(red tide detection network)。方法针对赤潮边缘探测不准确的问题,设计了基于RIR(residual-in-residual)结构的网络,以提取赤潮边缘水体的高频特征;利用多感受野结构和坐标注意力机制捕获赤潮水体的位置语义信息,增强赤潮边缘水体的细节信息并抑制无用的特征。结果在GF1-WFV(Gaofen1 wide field of view)赤潮数据集上的实验结果表明,所提出的RTDNet模型赤潮探测效果不仅优于支持向量机(support vector machine,SVM)、U-Net、DeepLabv3+及HRNet(high-resolution network)等通用机器学习和深度学习模型,而且也优于赤潮指数法GF1_RI(Gaofen1 red tide index )以及赤潮探测专用深度学习模型RDU-Net(red tide detection U-Net),赤潮误提取、漏提取现象明显减少,F1分数在两幅测试图像上分别达到了0.905和0.898,相较于性能第2的模型DeepLabv3+提升了2%以上。而且,所提出的模型参数量小,仅有2.65 MB,约为DeepLabv3+的13%。结论面向赤潮探测提出一种基于RIR结构的赤潮深度学习探测模型,通过融合多感受野结构和注意力机制提升了赤潮边缘探测的精度和稳定性,同时有效降低了计算量。本文方法展现了较好的应用效果,可适用于不同高分辨率卫星影像的赤潮探测。