摘要:医学大数据主要包括电子健康档案数据(electronic health record,EHR)、医学影像数据和基因信息数据等,其中医学影像数据占现阶段医学数据的绝大部分。如何将医学大数据应用于临床实践?这是计算机科学研究人员非常关注的问题,医学人工智能提供了一个很好的答案。通过结合医学图像大数据分析方向截至2020年的最新研究进展,以及医学图像大数据分析领域最近的工作,梳理了当前在医学图像领域以核磁共振影像、超声影像、病理和电信号为代表的4个子领域以及部分其他方向使用深度学习进行图像分析的方法理论和主要流程,对不同算法进行结果评价。本文分析了现有算法的优缺点以及医学影像领域的重难点,介绍了智能成像和深度学习在大数据分析以及疾病早期诊断领域的应用,同时展望了本领域未来的发展热点。深度学习在医学影像领域发展迅速,发展前景广阔,对疾病的早期诊断有重要作用,能有效提高医生工作效率并减轻负担,具有重要的理论研究和实际应用价值。
摘要:目的视频目标检测旨在序列图像中定位运动目标,并为各个目标分配指定的类别标签。视频目标检测存在目标模糊和多目标遮挡等问题,现有的大部分视频目标检测方法是在静态图像目标检测的基础上,通过考虑时空一致性来提高运动目标检测的准确率,但由于运动目标存在遮挡、模糊等现象,目前视频目标检测的鲁棒性不高。为此,本文提出了一种单阶段多框检测(single shot multibox detector,SSD)与时空特征融合的视频目标检测模型。方法在单阶段目标检测的SSD模型框架下,利用光流网络估计当前帧与近邻帧之间的光流场,结合多个近邻帧的特征对当前帧的特征进行运动补偿,并利用特征金字塔网络提取多尺度特征用于检测不同尺寸的目标,最后通过高低层特征融合增强低层特征的语义信息。结果实验结果表明,本文模型在ImageNet VID(Imagelvet for video object detetion)数据集上的mAP(mean average precision)为72.0%,相对于TCN(temporal convolutional networks)模型、TPN+LSTM(tubelet proposal network and long short term memory network)模型和SSD+孪生网络模型,分别提高了24.5%、3.6%和2.5%,在不同结构网络模型上的分离实验进一步验证了本文模型的有效性。结论本文模型利用视频特有的时间相关性和空间相关性,通过时空特征融合提高了视频目标检测的准确率,较好地解决了视频目标检测中目标漏检和误检的问题。
摘要:目的散焦模糊检测致力于区分图像中的清晰与模糊像素,广泛应用于诸多领域,是计算机视觉中的重要研究方向。待检测图像含复杂场景时,现有的散焦模糊检测方法存在精度不够高、检测结果边界不完整等问题。本文提出一种由粗到精的多尺度散焦模糊检测网络,通过融合不同尺度下图像的多层卷积特征提高散焦模糊的检测精度。方法将图像缩放至不同尺度,使用卷积神经网络从每个尺度下的图像中提取多层卷积特征,并使用卷积层融合不同尺度图像对应层的特征;使用卷积长短时记忆(convolutional long-short term memory,Conv-LSTM)层自顶向下地整合不同尺度的模糊特征,同时生成对应尺度的模糊检测图,以这种方式将深层的语义信息逐步传递至浅层网络;在此过程中,将深浅层特征联合,利用浅层特征细化深一层的模糊检测结果;使用卷积层将多尺度检测结果融合得到最终结果。本文在网络训练过程中使用了多层监督策略确保每个Conv-LSTM层都能达到最优。结果在DUT(Dalian University of Technology)和CUHK(The Chinese University of Hong Kong)两个公共的模糊检测数据集上进行训练和测试,对比了包括当前最好的模糊检测算法BTBCRL(bottom-top-bottom network with cascaded defocus blur detection map residual learning),DeFusionNet(defocus blur detection network via recurrently fusing and refining multi-scale deep features)和DHDE(multi-scale deep and hand-crafted features for defocus estimation)等10种算法。实验结果表明:在DUT数据集上,本文模型相比于DeFusionNet模型,MAE(mean absolute error)值降低了38.8%,F0.3值提高了5.4%;在CUHK数据集上,相比于LBP(local binary pattern)算法,MAE值降低了36.7%,F0.3值提高了9.7%。通过实验对比,充分验证了本文提出的散焦模糊检测模型的有效性。结论本文提出的由粗到精的多尺度散焦模糊检测方法,通过融合不同尺度图像的特征,以及使用卷积长短时记忆层自顶向下地整合深层的语义信息和浅层的细节信息,使得模型在不同的图像场景中能得到更加准确的散焦模糊检测结果。
摘要:目的基于神经网络的图像超分辨率重建技术主要是通过单一网络非线性映射学习得到高低分辨率之间特征信息关系来进行重建,在此过程中较浅网络的图像特征信息很容易丢失,加深网络深度又会增加网络训练时间和训练难度。针对此过程出现的训练时间长、重建结果细节信息较模糊等问题,提出一种多通道递归残差学习机制,以提高网络训练效率和图像重建质量。方法设计一种多通道递归残差网络模型,该模型首先利用递归方法将残差网络块进行复用,形成32层递归网络,来减少网络参数、增加网络深度,以加速网络收敛并获取更丰富的特征信息。然后采集不同卷积核下的特征信息,输入到各通道对应的递归残差网络后再一起输入到共用的重建网络中,提高对细节信息的重建能力。最后引入一种交叉学习机制,将通道1、2、3两两排列组合交叉相连,进一步加速不同通道特征信息融合、促进参数传递、提高网络重建性能。结果本文模型使用DIV2K(DIVerse 2K)数据集进行训练,在Set5、Set14、BSD100和Urban100数据集上进行测试,并与Bicubic、SRCNN(super-resolution convolutional neural network)、VDSR(super-resolution using very deep convolutional network)、LapSRN(deep Laplacian pyramid networks for fast and accurate super-resolution)和EDSR_baseline(enhanced deep residual networks for single image super-resolution_baseline)等方法的实验结果进行对比,结果显示前者获取细节特征信息能力提高,图像有了更清晰丰富的细节信息;客观数据方面,本文算法的数据有明显的提升,尤其在细节信息较多的Urban100数据集中PSNR(peak signal-to-noise ratio)平均分别提升了3.87 dB、1.93 dB、1.00 dB、1.12 dB和0.48 dB,网络训练效率相较非递归残差网络提升30%。结论本文模型可获得更好的视觉效果和客观质量评价,而且相较非递归残差网络训练过程耗时更短,可用于复杂场景下图像的超分辨率重建。
摘要:目的航空遥感图像中多为尺寸小、方向错乱和背景复杂的目标。传统的目标检测算法由于模型的特征提取网络对输入图像进行多次下采样,分辨率大幅降低,容易造成目标特征信息丢失,而且不同尺度的特征图未能有效融合,检测目标之间存在的相似特征不能有效关联,不仅时间复杂度高,而且提取的特征信息不足,导致目标漏检率和误检率偏高。为了提升算法对航空遥感图像目标的检测准确率,本文提出一种基于并行高分辨率结构结合长短期记忆网络(long short-term memory,LSTM)的目标检测算法。方法首先,构建并行高分辨率网络结构,由高分辨率子网络作为第1阶段,分辨率从高到低逐步增加子网络,将多个子网并行连接,构建子网时对不同分辨率的特征图反复融合,以增强目标特征表达;其次,对各个子网提取的特征图进行双线性插值上采样,并拼接通道特征;最后,使用双向LSTM整合通道特征信息,完成多尺度检测。结果将本文提出的检测算法在COCO(common objects in context)2017数据集、KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago)车辆检测和UCAS-AOD(University of Chinese Academy of Sciences-Aerial Object Detection)航空遥感数据集上进行实验验证,平均检测准确率(mean average precision,mAP)分别为41.6%、69.4%和69.3%。在COCO 2017、KITTI和VCAS-AOD数据集上,本文算法与SSD513算法相比,平均检测准确率分别提升10.46%、7.3%、8.8%。结论本文方法有效提高了航空遥感图像中目标的平均检测准确率。
摘要:目的遥感图像建筑物分割是图像处理中的一项重要应用,卷积神经网络在遥感图像建筑物分割中展现出优秀性能,但仍存在建筑物漏分、错分,尤其是小建筑物漏分以及建筑物边缘不平滑等问题。针对上述问题,本文提出一种含多级通道注意力机制的条件生成对抗网络(conditional generative adversarial network,CGAN)模型Ra-CGAN,用于分割遥感图像建筑物。方法首先构建一个具有多级通道注意力机制的生成模型G,通过融合包含注意力机制的深层语义与浅层细节信息,使网络提取丰富的上下文信息,更好地应对建筑物的尺度变化,改善小建筑物漏分问题。其次,构建一个判别网络D,通过矫正真实标签图与生成模型生成的分割图之间的差异来改善分割结果。最后,通过带有条件约束的G和D之间的对抗训练,学习高阶数据分布特征,使建筑物空间连续性更强,提升分割结果的边界准确性及平滑性。结果在WHU Building Dataset和Satellite Dataset II数据集上进行实验,并与优秀方法对比。在WHU数据集中,分割性能相对于未加入通道注意力机制和对抗训练的模型明显提高,且在复杂建筑物的空间连续性、小建筑物完整性以及建筑物边缘准确和平滑性上表现更好;相比性能第2的模型,交并比(intersection over union,IOU)值提高了1.1%,F1-score提高了1.1%。在Satellite数据集中,相比其他模型,准确率更高,尤其是在数据样本不充足的条件下,得益于生成对抗训练,分割效果得到了大幅提升;相比性能第2的模型,IOU值提高了1.7%,F1-score提高了1.6%。结论本文提出的含多级通道注意力机制的CGAN遥感图像建筑物分割模型,综合了多级通道注意力机制生成模型与条件生成对抗网络的优点,在不同数据集上均获得了更精确的遥感图像建筑物分割结果。