摘要:目的现有方法存在特征提取时间过长、非对称失真图像预测准确性不高的问题,同时少有工作对非对称失真与对称失真立体图像的分类进行研究,为此提出了基于双目竞争的非对称失真立体图像质量评价方法。方法依据双目竞争的视觉现象,利用非对称失真立体图像两个视点的图像质量衰减程度的不同,生成单目图像特征的融合系数,融合从左右视点图像中提取的灰度空间特征与HSV(hue-saturation-value)彩色空间特征。同时,量化两个视点图像在结构、信息量和质量衰减程度等多方面的差异,获得双目差异特征。并且将双目融合特征与双目差异特征级联为一个描述能力更强的立体图像质量感知特征向量,训练基于支持向量回归的特征—质量映射模型。此外,还利用双目差异特征训练基于支持向量分类模型的对称失真与非对称失真立体图像分类模型。结果本文提出的质量预测模型在4个数据库上的SROCC(Spearman rank order correlation coefficient)和PLCC(Pearson linear correlation coefficient)均达到0.95以上,在3个非对称失真数据库上的均方根误差(root of mean square error,RMSE)取值均优于对比算法。在LIVE-II(LIVE 3D image quality database phase II)、IVC-I(Waterloo-IVC 3D image quality assessment database phase I)和IVC-II(Waterloo-IVC 3D image quality assessment database phase II)这3个非对称失真立体图像测试数据库上的失真类型分类测试中,对称失真立体图像的分类准确率分别为89.91%、94.76%和98.97%,非对称失真立体图像的分类准确率分别为95.46%,92.64%和96.22%。结论本文方法依据双目竞争的视觉现象融合左右视点图像的质量感知特征用于立体图像质量预测,能够提升非对称失真立体图像的评价准确性和鲁棒性。所提取双目差异性特征还能够用于将对称失真与非对称失真立体图像进行有效分类,分类准确性高。
摘要:目的车辆多目标跟踪是智能交通领域关键技术,其性能对车辆轨迹分析和异常行为鉴别有显著影响。然而,车辆多目标跟踪常受外部光照、道路环境因素影响,车辆远近尺度变化以及相互遮挡等干扰,导致远处车辆漏检或车辆身份切换(ID switch, IDs)问题。本文提出短时记忆与CenterTrack的车辆多目标跟踪,提升车辆多目标跟踪准确度(multiple object tracking accuracy, MOTA),改善算法的适应性。方法利用小样本扩增增加远处小目标车辆训练样本数;通过增加的样本重新训练CenterTrack确定车辆位置及车辆在相邻帧之间的中心位移量;当待关联轨迹与检测目标匹配失败时通过轨迹运动信息预测将来的位置;利用短时记忆将待关联轨迹按丢失时间长短分级与待匹配检测关联以减少跟踪车辆IDs。结果在交通监控车辆多目标跟踪数据集UA-DETRAC(University at Albany detection and tracking)构建的5个测试序列数据中,本文方法在维持CenterTrack优势的同时,对其表现不佳的场景获得近30%的提升,与YOLOv4-DeepSort(you only look once—simple online and realtime tracking with deep association metric)相比,4种场景均获得近10%的提升,效果显著。Sherbrooke数据集的测试结果,本文方法同样获得了性能提升。结论本文扩增了远处小目标车辆训练样本,缓解了远处小目标与近处大目标存在的样本不均衡,提高了算法对远处小目标车辆的检测能力,同时短时记忆维持关联失败的轨迹运动信息并分级匹配检测目标,降低了算法对跟踪车辆的IDs,综合提高了MOTA。
摘要:目的航空发动机孔探图像的损伤检测关系到航空发动机是否要非例行更换,直接影响飞机的飞行安全和利用率。现有的孔探图像损伤检测方法直接使用目标检测方法训练一个多类别损伤检测器,使用相同的参数在不同位置检测损伤。由于没有考虑同类型损伤在发动机不同区域发生概率的不同,导致现有方法的检测准确率较低。为了提高损伤检测的准确率,提出了一种自适应参数的航空发动机孔探图像损伤检测方法。方法通过识别孔探图像所属的发动机区域,针对不同区域孔探图像设置不同的参数用于检测发动机损伤。同时为了避免单检测器上不同类型损伤之间相互干扰,采用独立检测器检测单一类型的损伤,并对误检率高的损伤进行真假识别。通过合并检测到的不同类型的损伤,得到最终的损伤检测结果。此外,为了改进水平的矩形检测框,使用分割结果产生旋转的检测框,有效地减少了框中的背景区域。结果在13个航空发动机区域的2 654幅孔探图像上针对烧蚀、裂缝、材料丢失、涂层脱落、刻痕和凹坑等6种典型的发动机损伤进行检测实验。提出的损伤检测方法在准确率和召回率两方面分别达到了90.4%和90.7%,相较于目标检测方法YOLOv5(you only look once version 5)的准确率和召回率高24.8%和25.1%。实验结果表明,本文方法在航空发动机损伤检测方面优于其他对比方法。结论本文所提出的自适应参数的航空发动机损伤检测模型通过识别发动机图像所属的部位,针对同种类型的损伤检测器设定不同的参数,有效地提高了检测器的检测性能。同时,针对容易误检的裂缝、刻痕和凹坑增加了真假损伤判别器,有效地减少了误检的情况。
摘要:目的基于深度模型的跟踪算法往往需要大规模的高质量标注训练数据集,而人工逐帧标注视频数据会耗费大量的人力及时间成本。本文提出一个基于Transformer模型的轻量化视频标注算法(Transformer-based label network,TLNet),实现对大规模稀疏标注视频数据集的高效逐帧标注。方法该算法通过Transformer模型来处理时序的目标外观和运动信息,并融合前反向的跟踪结果。其中质量评估子网络用于筛选跟踪失败帧,进行人工标注;回归子网络则对剩余帧的初始标注进行优化,输出更精确的目标框标注。该算法具有强泛化性,能够与具体跟踪算法解耦,应用现有的任意轻量化跟踪算法,实现高效的视频自动标注。结果在2个大规模跟踪数据集上生成标注。对于LaSOT(large-scale single object tracking)数据集,自动标注过程仅需约43 h,与真实标注的平均重叠率(mean intersection over union,mIoU)由0.824提升至0.871。对于TrackingNet数据集,本文使用自动标注重新训练3种跟踪算法,并在3个数据集上测试跟踪性能,使用本文标注训练的模型在跟踪性能上超过使用TrackingNet原始标注训练的模型。结论本文算法TLNet能够挖掘时序的目标外观和运动信息,对前反向跟踪结果进行帧级的质量评估并进一步优化目标框。该方法与具体跟踪算法解耦,具有强泛化性,并能节省超过90%的人工标注成本,高效地生成高质量的视频标注。
摘要:目的海马体内嗅皮层的像素体积较小,这些特征给医学影像的分割任务带来很大挑战。综合海马体的形态特点以及医生的分割流程,提出一种新的海马体分割方法,以实现在临床医学影像处理中对海马体的精确分割,辅助阿尔兹海默症的早期诊断。方法提出一个基于自注意力机制与空间注意力机制的U型网络模型SA-TF-UNet(hippocampus segmentation network based on Transformer and spatial attention mechanisms)。该网络为端到端的预测网络,输入任意大小的3维MRI(magnetic resonance imaging)影像,输出类别标签。SA-TF-UNet采用编码器—解码器结构,编码器采用纯Transformer模块,不包含卷积模块。多头自注意力机制为Transformer模块中的特征提取器,自注意力模块基于全局信息建模,并提取特征。因此,使用Transformer提取特征符合医生分割海马体的基本思路。解码器采用简单的卷积模块进行上采样。使用AG(attention gate)模块作为跳跃连接的方式,自动增加前景的权重,代替了传统网络中的直接连接。为了验证AG的有效性,分别做了只在单层加入AG的实验,与在4层网络中全部加入AG的实验结果进行对比。为了进一步探讨AG模块中门控信号的来源,设计了两个SA-TF-UNet的变体,它们的网络结构中AG门控信号分别为比AG中的特征图深两层的Transformer模块输出和深3层的Transformer模块输出。结果为了验证SA-TF-UNet在临床数据集中分割海马体的有效性,在由阿尔兹海默症患者的MRI影像组成的脑MRI数据集上进行实验。4层网络全部加入AG,且AG的门控信号是由比AG特征图更深一层的Transformer模块输出的SA-TF-UNet模型分割效果最好。SA-TF-UNet对于左海马体、右海马体的分割Dice系数分别为0.900 1与0.909 1,相较于对比的语义分割网络有显著提升,Dice系数提升分别为2.82%与3.43%。结论加入空间注意力机制的以纯Transformer模块为编码器的分割网络有效提升了脑部MRI海马体的分割精度。
摘要:目的卷积神经网络结合U-Net架构的深度学习方法广泛应用于各种医学图像处理中,取得了良好的效果,特别是在局部特征提取上表现出色,但由于卷积操作本身固有的局部性,导致其在全局信息获取上表现不佳。而基于Transformer的方法具有较好的全局建模能力,但在局部特征提取方面不如卷积神经网络。为充分融合两种方法各自的优点,提出一种基于分组注意力的医学图像分割模型(medical image segmentation module based on group attention,GAU-Net)。方法利用注意力机制,设计了一个同时集成了Swin Transformer和卷积神经网络的分组注意力模块,并嵌入网络编码器中,使网络能够高效地对图像的全局和局部重要特征进行提取和融合;在注意力计算方式上,通过特征分组的方式,在同一尺度特征内,同时进行不同的注意力计算,进一步提高网络提取语义信息的多样性;将提取的特征通过上采样恢复到原图尺寸,进行像素分类,得到最终的分割结果。结果在Synapse多器官分割数据集和ACDC(automated cardiac diagnosis challenge)数据集上进行了相关实验验证。在Synapse数据集中,Dice值为82.93%,HD(Hausdorff distance)值为12.32%,相较于排名第2的方法,Dice值提高了0.97%,HD值降低了5.88%;在ACDC数据集中,Dice值为91.34%,相较于排名第2的方法提高了0.48%。结论本文提出的医学图像分割模型有效地融合了Transformer和卷积神经网络各自的优势,提高了医学图像分割结果的精确度。