Print

发布时间: 2020-09-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190552
2020 | Volume 25 | Number 9




    医学图像处理    




  <<上一篇 




  下一篇>> 





深层聚合残差密集网络的超声图像左心室分割
expand article info 吴宣言, 缑新科, 朱子重, 魏域林, 王凯
兰州理工大学电气工程与信息工程学院, 兰州 730050

摘要

目的 超声图像是临床医学中应用最广泛的医学图像之一,但左心室超声图像一般具有强噪声、弱边缘和组织结构复杂等问题,其图像分割难度较大。临床上需要一种效率高、质量好的超声图像左心室分割算法。本文提出一种基于深层聚合残差密集网络(deep layer aggregation for residual dense network,DLA-RDNet)的超声图像左心室分割算法。方法 对获取的超声图像进行形态学操作,定位目标区域,得到目标图像。构建残差密集网络(residual dense network,RDNet)用于提取图像特征,并将RDNet得到的层次信息通过深层聚合(deep layer aggregation,DLA)的方式紧密融合到一起,得到分割网络DLA-RDNet,用于实现对超声图像左心室的精确分割。通过深监督(deep supervision,DS)方式为网络剪枝,简化网络结构,提升网络运行速度。结果 数据测试集的实验结果表明,所提算法平均准确率为95.68%,平均交并比为97.13%,平均相似性系数为97.15%,平均垂直距离为0.31 mm,分割轮廓合格率为99.32%。与6种分割算法相比,所提算法的分割精度更高。在测试阶段,每幅图像仅需不到1 s的时间即可完成分割,远远超出了专业医生的分割速度。结论 提出了一种深层聚合残差密集神经网络对超声图像左心室进行分割,通过主、客观对比实验表明本文算法的有效性,能够较对比方法更实时准确地对超声图像左心室进行分割,符合临床医学中超声图像左心室分割的需求。

关键词

超声图像; 左心室分割; 深层聚合; 残差密集网络; 网络剪枝

Left ventricular segmentation on ultrasound images using deep layer aggregation for residual dense networks
expand article info Wu Xuanyan, Gou Xinke, Zhu Zizhong, Wei Yulin, Wang Kai
College of Electrical and Information Engineering, Lanzhou University of Technology, Lanzhou 730050, China
Supported by: National Natural Science Foundation of China(61866022, 61876161)

Abstract

Objective Ultrasound images are widely used in clinical medicine. Compared with other medical imaging technologies, ultrasound(US) images are noninvasive, emit non-ionizing radiation, and are relatively cheap and simple to operate. To assess whether a heart is healthy, the ejection fraction is measured, and the regional wall motion is assessed on the basis of identifying the endocardial border of the left ventricle. Generally, cardiologists analyze and segment ultrasound images in a manual or semiautomatic manner to identify the endocardial border of the left ventricle on ultrasound images. However, these segmentation methods have some disadvantages. On the one hand, they are cumbersome and time-consuming tasks, and these ultrasound images can only be segmented by the professional clinicians. On the other hand, the images must be resegmented for different heart disease patients. These problems can be solved by automatic segmentation systems. Unfortunately, affected by ultrasound imaging device and complex heart structure, left ventricular segmentation suffers from the following challenges: first, false edges lead to incorrect segmentation results because the gray scale of the trabecular and mastoid muscles is similar to the myocardial gray scale. Second, the shapes of the left ventricular heart slice are irregular under the influence of the atrium. Third, the accurate positions of the left ventricles are difficult to obtain from ultrasound images because the gray value of the edges is almost the same with that of the myocardium and the tissues surrounding the left heart (such as fats and lungs). Fourth, ultrasound imaging devices produce substantial noise, which affects the quality of ultrasound images; thus, the resolution of ultrasound images is low and thus not conducive to ventricular structure segmentation. In recent years, algorithms for left ventricular segmentation have considerably improved; however, some problems remain. Compared with traditional segmentation methods, deep learning-based methods are more advanced, but some useful original information is lost when images are processed for downsampling. In addition, these methods hardly recognize the weak edges on ultrasound images, resulting in large errors in edge segmentation. Moreover, their segmentation accuracy is low because of substantial noise on ultrasound images. Considering the abovementioned challenges and problems, this study proposes the use of deep layer aggregation for residual dense networks(DLA-RDNet) to identify the left ventricle endocardial border on two-dimensional ultrasound images. Method The proposed method includes three parts: image preprocessing, neural network structure, and network optimization. First, the dataset must match the neural network after preprocessing the ultrasound images. This part includes two steps. In the first step, we locate the ventricle on ultrasound images in advance on the basis of prior information to avoid the interference of other tissues and organs. The second step is the expansion of the dataset to prevent overfitting of the network training. Second, a new segmentation network is proposed. On the one hand, we adopt a network connection method called deep layer aggregation(DLA) to make the shallow and deep feature information of images more closely integrated. Therefore, less detailed information is lost in the downsampling and upsampling processes. On the other hand, we redesign the downsampling network(RDNet). Combining the advantages of ResNet and DenseNet, we propose a residual dense network, which allows the downsampling process to retain additional useful information. Third, we optimize the neural network. For the redundant part of the network, we use the deep supervision(DS) method for pruning. Consequently, we simplify the network structure and improve the running speed of the neural network. Furthermore, the network loss function is defined by the combination of binary cross entropy and Dice. We use a sigmoid function to achieve pixel-level classification. Finally, the design of the segmentation network is completed. Result Experimental results on the test dataset show that the average accuracy of the algorithm is 95.68%, the average cross ratio is 97.13%, Dice is 97.15%, the average vertical distance is 0.31 mm, and the contour yield is 99.32%. Compared with the six segmentation algorithms, the proposed algorithm achieves higher segmentation precision in terms of the recognition of the left ventricle in ultrasound images. Conclusion A deep layer aggregation for residual dense networks is proposed to segment the left ventricle in ultrasound images. Through subjective and objective evaluations, the effectiveness of the proposed algorithm is verified. The algorithm can accurately segment the left ventricle in ultrasound images in real time, and the segmentation results can meet the strict requirements of left ventricular segmentation in clinical medicine.

Key words

ultrasound(US) image; left ventricular segmentation; deep layer aggregation(DLA); residual dense network(RDNet); network pruning

0 引言

超声(ultrasound, US)图像常用于诊断心脏病(Porshnev等,2016)。与其他医学成像技术相比,US具有非侵入性、无电离辐射、相对便宜和操作简单等优点。评估心脏健康状况最重要的步骤是根据分割左心室的心内膜边界,测量射血分数和评估区域壁运动(Noble和Boukerroui,2006)。通常,左心室的超声图像由心脏病专家进行分析,通过手动模式或半自动模式分割左心室的心内膜边界。专家通过指定的3个基点(内膜上的二尖瓣与顶点)来定义分割区域(Zyuzin等,2018)。如图 1所示,3个红点为专家标定的3个基点,绿色曲线指专家手动分割左心室的内膜边界。左心室的手动或半自动分割暴露以下问题:1)工作烦琐且耗时,只能由专业的临床医生进行;2)分割操作的可重复性差,针对不同的心脏病患者必须重新分割。这些问题可以通过US左心室自动分割系统得到一定程度的解决。因此,研究如何快速准确地自动获取US图像左心室分割结果对相关医学领域研究及应用十分重要。

图 1 US心脏图像
Fig. 1 Ultrasonic image of the heart

受US成像原理以及心脏结构复杂等因素的影响,US左心室分割存在以下挑战:1)存在于左心室血池内部与心肌灰度相近的小梁和乳突肌会使内膜分割结果趋近于假边缘(Yang等,2017Petitjean和Dacher,2011);2)在心房的影响下,左心室心底切片形状不规则(Yang等,2017Petitjean和Dacher,2011);3)边缘提取结果受心肌与左心室外膜周围组织(包括脂肪、肺)灰度差异较低的影响,难以获得准确位置(Petitjean和Dacher,2011Ma等,2016);4)US图像分辨率较低,不利于准确分割心尖处小尺寸的左心室结构(Ma等,2016Avendi等,2016);5)US图像分辨率普遍较低,心脏US成像设备产生的噪声会影响图像质量(Avendi等,2016)。

越来越多的研究人员对医学图像进行分割,其中对心脏左心室的分割研究尤其多。传统的左心室分割方法是根据图像特征建立能量函数提取图像的轮廓边缘。分割算法主要分为图像驱动模型、主动轮廓模型、主动形状模型、主动外观模型和基于图谱的方法等(Petitjean和Dacher,2011)。图像驱动模型一般是指基于图像边缘、阈值法、区域生长以及像素分类的总称。由于此方法对噪声特别敏感,且很难识别弱边缘,故应用于US左心室分割效果不佳。对于US小数据集,基于图谱的分割结果较差,特别是在个体差异较大的图像中分割误差非常大。主动轮廓在轮廓检测或图像分割中应用非常广泛,是在Kass等人(1998)提出的Snake算法基础上衍生出的一系列算法。但该算法由于计算成本高,速度慢,参数调节无规律可寻等问题,导致算法的可靠性和鲁棒性较差。

基于深度学习的方法在计算机视觉领域表现突出,尤其卷积神经网络(convolutional neural networks, CNN)可以提取像素级的图像特征。但是在图像分割中,CNN的感受野与分割物体的面积相匹配才能获得良好的分割精度。改变感受野的分割模型目前可分为两类,即基于空洞卷积的神经网络模型和编码—解码结构的神经网络模型。Yu和Koltun(2015)提出将空洞卷积用于图像分割,针对以池化方式增大感受野会丢失图像部分信息、降低图像分辨率等问题,提出在卷积核中加入“空洞”直接提升感受野。结合空洞卷积的思想先后提出DeepLab v1(Chen等,2014)、DeepLab v2(Chen等,2018a)、DeepLab v3(Chen等,2017)、DeepLab v3+(Chen等,2018b)和PSPNet(pyramid scene parsing network)(Zhao等,2017)等分割网络模型。该类算法是利用空洞卷积并结合金字塔型的空间池化以实现多尺度处理,并添加全连接条件随机场做后处理,最终实现图像分割。该分割网络结构简单、速度快,但对弱边缘识别误差较大,准确率较低。基于编码—解码网络结构的分割网络有全卷积网络(fully convolutional neural network, FCN)(Long等,2015)、U-Net(Ronneberger等,2015)、SegNet(Badrinarayanan等,2017)、RefineNet(Lin等,2017a)、大内核(Peng等,2017)、Tiramisu(Jégou等,2017)、UNet++(Zhou等,2018)等。该类算法通过跳跃连接改善上采样的粗糙程度。实验表明跳跃连接对恢复目标对象的细节信息是有效的,即使在复杂背景或对象被部分遮挡的情况下也能进行有效分割,如Mask-RCNN(He等,2017)。目前,自然图像分割已达到令人满意的水平,但这些模型仍无法很好地满足医学图像的严格分割要求。医学图像分辨率普遍较自然图像低,训练数据集一般较小,且医学图像分割精度要求远高于自然图像。精确的分割掩膜也许在自然图像中不是关键,但在医学图像中即使是图像边缘分割误差也会影响用户临床体验。

综上,目前各种算法在图像分割任务上取得了一定效果,但仍存在以下3个问题:1)虽然基于深度学习的分割方法较传统分割方法取得了显著性的进步,但它们都在提升感受野的过程中失去了原始图像中一些有用的层次细节信息;2)对US中的弱边缘不敏感,导致边缘分割误差较大;3)由于US图像的分辨率低、噪声大和分割结果受其他组织器官的影响等问题,分割精度差。

针对上述挑战与问题,本文提出一种深层聚合的残差密集神经网络超声图像左心室分割算法(deep layer aggregation for residual dense network,DLA-RDNet),并设计网络结构差异性对比实验以及和其他分割算法对比实验,来验证该算法能对超声图像实现较高精度的左心室分割。

1 本文算法

本文提出一种深层聚合残差密集网络超声图像左心室分割算法。主要包括图像预处理、网络结构设计和网络剪枝优化3个部分,所提算法原理框架如图 2所示。首先,对US图像预处理,使数据集满足网络训练的要求,可分为两个部分:1)根据先验信息在US中确定目标图像的大致位置,避免US中其他组织器官的影响;2)数据集的扩展,防止网络训练过程中过拟合。其次,分割网路的设计也可分为两个部分:1)为了使网络中浅层与深层的特征信息更紧密融合,采用深层聚合(deep layer aggregation, DLA)(Yu等,2018)的网络连接方式,使上采样的过程中丢失更少的细节信息,增加网络的分割精度;2)重新设计下采样网络,结合ResNet(He等,2016)与DenseNet(Huang等,2017)的优势,提出残差密集网络(residual dense network, RDNet)网络,使下采样过程保留更多有用信息。最后,优化神经网络,针对网络的冗余部分,通过深监督(deep supervision, DS)(Lee等,2015)方法实现网络剪枝,简化网络结构,提高神经网络的运行速度。同时,以二元交叉熵与Dice的组合定义网络损失函数,采用Sigmoid函数实现像素级分类,最终形成DLA-RDNet图像分割模型。

图 2 DLA-RDNet原理框架
Fig. 2 Framework of DLA-RDNet

1.1 数据预处理

由于心脏结构复杂,US图像分辨率低、数据集较小等问题,使得US左心室分割相较于其他图像分割任务难度更大,所以在训练前对数据集进行图像预处理很有必要。针对左心室周围组织(包括脂肪和肺等)对分割结果的影响(Petitjean和Dacher,2011Ma等,2016),通过先验信息提前锁定目标区域,除去US图像非必要干扰信息。同时,考虑到整体的数据集较小,通过扩充数据集使神经网络在训练阶段的数据集能满足深度学习的要求,对US数据集的预处理过程如图 3所示。其详细处理步骤如下:

图 3 训练数据集的获取过程
Fig. 3 Acquisition process of the training dataset

1) 获取目标区域。首先设定去除US黑色背景的第1个阈值和去除心脏白色组织的第2个阈值,分别对原始图像进行二值化,将得到的两幅图像相“与”;然后经过形态学处理(开操作、腐蚀和闭操作),删除小的干扰块和填充闭合区域,得到每个器官的初略轮廓;最后以左心室位于US的右上部为先验信息,确定标定点的位置,计算出每个轮廓中心离标定点的距离,其中离标定点最近的最大轮廓区域为所需的目标区域。

2) 数据集扩充。根据目标区域确定原图中左心室的位置坐标,同时将左心室四周留10%裕度,得到目标图像,经缩放后输入图像的分辨率变为128×128像素,并对获取的目标图像进行随机镜像、翻转和平移等操作进行数据集扩充,最终得到符合网络要求的训练数据集。

1.2 网络结构设计

本文超声图像左心室分割网络本质上是一种编码器—解码器结构的网络,以RDNet作为编码器,DLA(Yu等,2018)为解码器。其优势在于获取网络不同层次的信息,将获取的特征维以叠加的方式整合起来。网络层次越深感受野越大,不同层次的感受野对目标的敏感程度也不同,图像的边缘信息和小物体本身很容易被很深的网络一次次降采样和深采样丢失。本文所提算法实现了感受野小的特征再利用,解决了由于网络过深而产生信息丢失的问题。

1.2.1 深层聚合网络

随着CNN在计算机视觉任务中的影响力不断提高,探索神经网络架构成为CNN持续发展的核心驱动力。研究结果表明,在增加网络的宽度与深度时,或改善神经网络的连接模式都一定程度上提高了网络的性能(Zhou等,2018)。其中改善神经网络的连接结构可以更高效地利用神经网络中的神经元,在有限的计算资源下提升网络性能。

尽管可以通过跳跃连接来组合层与层之间的信息,例如FCN(Long等,2015)、U-Net(Ronneberger等,2015)和FPN(feature pyramid networks)(Lin等,2017b),其原理结构如图 4(a)所示,但这种连接非常“浅”,仅通过简单的一步操作融合,不能较好地学习与保留原有信息,并且浅层的网络部分会对最终分割结果产生较大影响。深层聚合网络能有效解决上述问题,本文采用更深的聚合作用于神经网络,以便更好地融合各层的信息。通过将各层的局部特征紧密融合到一起,实现了语义与空间的融合,使网络具有更高的准确性,网络能更高效提取特征。其结构如图 4(b)所示,各个阶段从浅到深进行融合,以形成逐渐更深和更高分辨率的解码器。

图 4 两种网络连接方式的对比
Fig. 4 Comparison of the two network connections((a)shallow aggregation; (b)deep aggregation)

为方便表示,将深层聚合网络从左到右沿着编码器的下采样层记为$i$($i$取0,1,2,3,4),从下到上的聚合层数用$j$($j$取0,1,2,3,4)表示。当$j=0$时,下一层只接收来自编码器的前一层的一个输入;当$j>0$时,节点将接收前一层及本层的两个输入。网络用函数表示为

$ {\mathit{\boldsymbol{x}}^{i, j}} = \left\{ {\begin{array}{*{20}{l}} {{\mathit{\boldsymbol{H}}^{i, j}}({\mathit{\boldsymbol{x}}^{i - 1, j}})}&{j = 0}\\ {{\mathit{\boldsymbol{H}}^{i, j}}([{\mathit{\boldsymbol{x}}^{i - 1, j - 1}}, {\mathit{\boldsymbol{U}}^{i, j}}({\mathit{\boldsymbol{x}}^{i, j - 1}})])}&{j > 0} \end{array}} \right. $ (1)

式中,$\boldsymbol{x}^{i, j}$为节点的输出值,$\boldsymbol{U}^{i, j}$为节点的上采样函数,$\boldsymbol{H}^{i, j}$表示带有激活函数的卷积运算,[ ]表示网络的叠加操作。

$j=0$时,网络实质是一个下采样网络,实现编码器的功能。在降采样网络的设计中,降采样网络并不是越深越好,降采样压缩了数据信息,降低了图像的分辨率,让小目标与边缘信息难以识别,所以过多的降采样非但不能提升网络的性能,还会增加网络的参数量,训练时占用计算机的过多内存,使得网络难以训练。网络的深度与数据集是有一定联系的,需要从多方面考虑:1)数据集的大小与质量;2)输入数据的尺寸;3)感受野是否与目标图像相适应。不同的数据集存在最优解,故网络难以泛化。深层聚合网络的优点在于提取不同深度的特征进行上采样,在不知道哪个深度的特征有效的情况下,网络会自己去学习各个深度特征的重要性,这使得网络在不同的分割任务中同样适用。

$j>0$时,网络实质是一个上采样网络,实现解码器的功能。对数据进行上采样是为了恢复在下采样中丢失的分辨率并指导编码器选择数据中的重要特征信息。上采样无法精确恢复对象的边界及位置信息,而这些信息在下采样的浅层可以得到,深度聚合网络通过逐次迭代的叠加操作紧密地结合了图像中浅层和深层的信息,降低了由于降采样所带来的信息丢失。实验表明,深层聚合的连接结构在医学图片的分割上达到较高的精度。

1.2.2 残差密集网络

大多数基于CNN的分割网络都没有充分利用图像的低层特征,因而表现出较低的分割性能。DenseNet在减少参数数量的同时有效利用了各层的信息,加强了特征的传递。由于DenseNet的密集连接结构导致增长率不会太高,而更高的增长率可以进一步提高网络的性能。基于此,本文重新设计下采样网络,为了充分利用所有卷积层的层次信息且实现较高的增长率,采用了一种残差密集网络RDNet。RDNet是将一系列残差密集块(residual dense block,RDB)(Zhang等,2018)级联在一起,实现图像特征的有效提取,其结构如图 5所示。RDNet实质为一个下采样网络,属于上述分析中$j$=0的情况(为方便描述,默认$j$=0)。其中RDB(Zhang等,2018)实现了对网络特征的提取,用$\boldsymbol{H}_\text{RDB}$表示;网络的下采样过渡层(transition down,TD),用$\boldsymbol{H}_\text{TD}$表示。其函数为

${\mathit{\boldsymbol{x}}^i} = {\mathit{\boldsymbol{H}}^i}\left({{\mathit{\boldsymbol{x}}^{i - 1}}} \right) = {\mathit{\boldsymbol{H}}^i}\left({ \ldots \left({{\mathit{\boldsymbol{H}}^0}\left({{\mathit{\boldsymbol{x}}^{ - 1}}} \right)} \right) \ldots } \right) $ (2)

$ {\mathit{\boldsymbol{H}}^i} = \mathit{\boldsymbol{H}}_{{\rm{RDB}}}^i\mathit{\boldsymbol{H}}_{{\rm{TD}}}^i $ (3)

图 5 用于下采样的RDNet
Fig. 5 RDNet for downsampling

式中,$\boldsymbol{x}^{-1}$代表输入数据,$\boldsymbol{x}^{i}$代表经历$i$次降采样后的输出,$\boldsymbol{H}^{i}$表示RDNet经过第$i$层的复合函数。

由于深层网络中直接提取每个含有底层特征信息的卷积层输出不切实际,为此本文引入RDB。RDB主要包含了密集连接层和具有残差学习的特征融合,密集连接层结构使得RDB内的任意层都能连接到后续的每一层,残差学习的特征融合是指通过自适应保留信息来提取图像特征,因此允许网络有较高的增长率。

RDB具备残差学习与密集连接的优点,其结构如图 6所示,$ \oplus $代表“Add”操作。它由密集连接层、局部特征融合、残差学习3个部分组成,表示为

${\mathit{\boldsymbol{x}}^i} = \mathit{\boldsymbol{H}}_{1 \times 1}^i\left({\left[ {{\mathit{\boldsymbol{x}}^{i - 1}}, \mathit{\boldsymbol{x}}_1^i, \ldots, \mathit{\boldsymbol{x}}_n^i} \right]} \right) + {\mathit{\boldsymbol{x}}^{i - 1}} $ (4)

$ \mathit{\boldsymbol{x}}_n^i = \mathit{\boldsymbol{H}}_c^i\left({\left[ {{\mathit{\boldsymbol{x}}^{i - 1}}, \mathit{\boldsymbol{x}}_1^i, \ldots, \mathit{\boldsymbol{x}}_{n - 1}^i} \right]} \right) $ (5)

图 6 RDB网络结构
Fig. 6 RDB network structure

式中,局部特征融合为1×1的卷积,用$\boldsymbol{H}^{i}_{1×1}$表示,索引值$n$表示密集连接的层数。

RDB通过密集连接卷积层提取图像丰富的特征信息,进行特征融合后自适应学习图像特征,最终获得图像更多有效特征。

1.3 网络剪枝优化

下采样网络用到5个RDB和4个TD。而下采样层数根据训练数据而定,存在最优解。虽然设计的网络能自己学习各个深度特征的重要性,自动选择下采样的层数,但多余的部分对网络前面的输出没有影响。在训练阶段,多余部分存在信息前向和后向的传播,会帮助网络的其他部分进行权重的更新;但在测试阶段,网络只向前传播,多余部分非但不对网络做任何贡献,还会减慢网络的运行速度。对网络进行剪枝操作能缩减神经网络的参数量并提高网络运行速度。

剪枝思想应用最广泛的是移动手机端,通过减去非必要的冗余框架,简化网络结构。本文剪枝实现的方式是为网络加入深监督DS(Lee等,2015),其结构如图 7所示,图中Conv代表了1×1的卷积层,即网络输出层。图中每个分支的输出都是一种分割结果,如果分支1(L1)与分支2(L2)的分割结果足够好,那么就可以剪掉多余的分支(如分支3(L3)与分支4(L4)),使参数量巨大的深度网络在可接受的精度范围内大幅度缩减参数量,最终提升网络的运行速度。同时,允许分割网络能在两种模式下运行:1)精确模式,对所有的分支输出求平均得到最终输出;2)快速模式,仅选用一条分支输出作为网络的最终输出,其选择决定了网络被修剪的程度和网络速度增益。根据不同的需求选择不同的网络模式下运行。

图 7 两种网络结构的对比
Fig. 7 Comparison of the two network structures((a)DLA-RDNet with DS; (b)U-Net++ with DS)

图 7(a)是带有DS的DLA-RDNet,记为DSDLA-RDNet。它是一个循序渐进的特征融合过程,$j$层的聚合点依赖于$j-1$层的聚合点,聚合点与聚合点之间的跳跃连接属于一种短连接。对比一下U-Net家族中的U-Net++(Zhou等,2018),其结构如图 7(b)所示(下采样网络仍然采用RDNet),它可以看做是深层聚合结构的一个特例。它通过长连接与短连接将同维度的聚合点密集连接在一起,进一步联系输入图像的信息。但这种设计存在两个问题:1)加入长连接会使计算量增加,在有限的计算资源下限制下采样的层数;2)引入的长连接不利于深监督为网络剪枝,因为长连接使得梯度在反向传播时只经过一个聚合点便能传递到第1个RDB,这相当于对网络浅层进行监督,不利于优化。基于以上原因,本文采用DSDLA-RDNet的网络结构。

图 7中网络的输出层将图像像素$p$转换到区间[0, 1],判断每一像素是否属于分割区域,本文使用Sigmoid激活函数$f(p)$来相应分类, 即

$ f\left(p \right) = \frac{1}{{1 - {{\rm{e}}^{ - p}}}} $ (6)

为了指导设计的网络能有效学习,本文将二元交叉熵和Dice系数的组合函数为每一个分支添加损失函数,即

$L\left({Y, \hat Y} \right) = - \frac{1}{N}\sum\limits_{b = 1}^N {\left({\frac{1}{2}\cdot{Y_b}\cdot{\rm{log}}{{\hat Y}_b} + \frac{{2\cdot{Y_b}\cdot{{\hat Y}_b}}}{{{Y_b} + {{\hat Y}_b}}}} \right)} $ (7)

式中,$Y$表示真实值,$ {\hat Y} $表示预测值,$N$为训练时的批量大小。

2 实验结果与分析

实验数据库(Zyuzin等,2018)来自医院,心脏US图像出自4台不同的超声仪,共检测了94位心脏病患者,从每位患者心脏膨胀收缩的一个周期内抽取19~54幅US图像,共获得2 781幅US图像及其对应的专家手动分割图像标签。通过图像预处理,将数据集扩展到8 343幅,其中60%为训练集,20%为验证集,20%为测试集。为了验证算法有效性,在同一数据集下与当前主流分割算法进行对比,采用的对比算法有U-Net(Ronneberger等,2015)、FCN(Long等,2015)、SegNet(Badrinarayanan等,2017)、DeepLab v3+(Chen等,2018b)、Tiramisu(Jégou等,2017)和FPN(Lin等,2017b),通过主观与客观实验分析,证明本文算法在US图像左心室分割算法中效果较好。

实验平台信息为:1)计算机Ubuntu16.04系统平台,8 GB内存;2)CPU型号为ADM A8-6500 APU with Radeon(tm) HD Graphics;3)GPU为NVIDIA GTX1080,8 GB显存;4)网络在Keras 2.2.2(Tensorflow backend)框架下搭建,Tensorflow-gpu版本为1.4.1,OpenCV-python版本为4.1.0。全部实验代码及实验结果可以通过网站(https://github.com/XuanyanGithub)下载。

2.1 网络结构及训练参数

设计网络的基本组成单元如图 8所示,本文共构建了65层分割网络,其中下采样网络共51层,上采样聚合网络10层,输出4层,整体结构如表 1所示。表中$m$代表分割类别,并将RDNet增长率$k$设为64。本文从头开始训练神经网络模型,不使用其他数据或后处理模块。图像大小为128×128像素,批量大小设为16,使用验证集来监督网络,使其能提前停止训练,监督的参数为平均误差(val_loss),容忍值(patience)设为30。

图 8 构建DLA-RDNet的基本块
Fig. 8 Building blocks of DLA-RDNet ((a) transition down; (b) the layer used in the model; (c) transition up)

表 1 实验中所用DLA-RDNet模型的网络结构
Table 1 Architecture details of DLA-RDNet model

下载CSV
网络结构
Input, $m=3$
7×7 Convolution, $stride=2$
RDB(5 layers)+TD, $m=64$
RDB(7 layers)+TD, $m=128$
RDB(11 layers)+TD, $m=192$
RDB(13 layers)+TD, $m=256$
RDB(15 layers), $m=512$
TU+DLA
1×1 Convolution, $m=1$
Sigmoid

2.2 主观结果分析

针对US图像,在同等条件下将本文算法与当前主流算法在测试集上进行主观测评,其实验结果如图 9所示。图中绿线表示专家手动分割结果,红线为计算机自动分割结果。从图 9可以看出,U-Net(Ronneberger等,2015)算法受假边缘及噪声的影响严重,导致分割结果偏差较大;SegNet(Badrinarayanan等,2017)算法出现不属于分割目标的分割块,这说明其抗噪能力比较弱;而FCN(Long等,2015)与DeepLab v3+(Chen等,2018b)无法得到光滑的分割曲线,说明在弱边缘识别上不如其他算法;单从主观上看,Tiramisu(Jégou等,2017)、FPN(Lin等,2017b)与本文算法都在US左心室分割上取得较好的效果。

图 9 主观实验结果对比
Fig. 9 The comparison of subjective experiment results((a) original image; (b) U-Net(Ronneberger et al., 2015); (c) FCN(Long et al., 2015); (d) SegNet(Badrinarayanan et al., 2017); (e) DeepLab v3+(Chen et al., 2018b); (f) Tiramisu(Jégou et al., 2017); (g) FPN(Lin et al., 2017b); (h) DLA-RDNet(ours))

2.3 客观结果分析

采用的客观评价指标有网络参数量(parameters of the network, Params)、平均精确率(average precision, AP)、交并比(intersection over union, IoU)、相似系数(Dice)、平均垂直距离(average perpendicular distance, APD)以及轮廓产出率(good contours ratio, GC)。其中AP指的是正确分割像素占分割结果总像素的比值;IoU指覆盖率,即自动分割轮廓(预测轮廓)与专家手动分割轮廓(标签)的重叠率,完全重叠情况下为1;Dice是预测轮廓与标签轮廓的相似度评价指标;APD是指预测轮廓中心距标签轮廓中心的垂直距离,APD小于5 mm为中心距离符合要求的分割轮廓;GC为中心距离符合要求的分割轮廓占总轮廓的比值。mIoU,mDice,mAPD均表示在测试集上的平均值。

为对比本文算法的自身网络结构差异共设计4组实验:1)对RDNet进行浅聚合方式相连,形成U-Net(RDNet)分割模型;2)对RDNet采用U-Net++(Zhou等,2018)的方式进行连接,得到U-Net++(RDNet)分割模型;3)采用深层聚合的连接方式,但使用下采样层数相同的ResNet50(He等,2016)替代RDNet,即得到DLA(ResNet50);4)本文方法,RDNet作为下采样网络,并通过深层聚合方式进行连接。实验结果如表 2所示,本文方法分割效果表现较好。

表 2 本文算法自身网络结构差异性对比
Table 2 Contrast of the differences in the network structure of the proposed algorithm

下载CSV
网络结构差异 Params/M AP/% mIoU/% mDice/% mAPD/mm GC/%
U-Net(RDNet) 29.44 94.59 96.97 96.86 0.39 98.73
U-Net++(RDNet) 32.68 95.56 97.04 97.08 0.41 98.52
DLA(ResNet50) 35.56 94.78 97.05 97.04 0.36 98.73
DLA-RDNet(本文) 31.57 95.68 97.13 97.15 0.31 99.32
注:加粗字体为每列最优值。

根据表 2的实验数据所示,深层聚合结构优于浅层聚合结构;添加长连接的U-Net++(Zhou等,2018)并没有将网络进一步提升,在相近的分割效果下反而加大了网络参数量和训练难度,且不利于后续的网络优化;同时也说明了本文所设计的RDNet下采样网络优于ResNet50(He等,2016)。因此表明,无论是RDNet还是DLA(Yu等,2018)均有利于提高网络的分割性能。

为了尽量精简网络结构,采用DS(Lee等,2015)对网路进行裁剪,探索下采样网路层数的最优解。L1、L2、L3和L4分别对应DLA-RDNet的每个分支,从图 10看出,若单纯考虑AP,可以采用分支3(L3)作为输出结果,在相近的分割精度下缩减了分割所耗用的时间。进一步对网络的每一个分支输出进行分析,其实验数据如表 3所示。采用L3、L4都能达到较高的分割精度与交并比,且L3较L4大幅度缩减了网络参数。对于相较要求不是太严格的分割任务,可以考虑在损失较小精度的情况下获得更少的内存损耗和更高的网络运行速度。但医学图像对分割性能比较严格,采用L3会导致mAPD参数的增大和GC的降低,对于US左心室的分割是不允许的。故综上分析,本文采用L4作为网路的最终输出,对US左心室进行分割。

图 10 不同网络分支输出的速度与精确度对比
Fig. 10 Comparison of speed and accuracy of different network branch outputs

表 3 分割网络裁剪实验对比结果
Table 3 Comparison results of segmentation network cutting experiments

下载CSV
网络裁剪 Params/M AP/% mIoU/% mDice/% mAPD/mm GC/%
DSDLA-RDNet(L1) 0.56 79.19 88.03 87.16 15.45 21.36
DSDLA-RDNet(L2) 2.63 93.76 95.52 95.55 7.15 55.72
DSDLA-RDNet(L3) 8.17 95.17 96.70 96.71 2.23 86.86
DSDLA-RDNet(L4) 31.57 95.68 97.13 97.15 0.31 99.32
注:加粗字体为每列最优值。

最后,本文算法与主流分割算法进行对比实验。从表 4的实验数据说明,本文算法在分割精度上均优于其他算法,且具有较高的mIoU、mDice,mAPD和GC。事实上,从表 3可以看出,为了提高mAPD,可以进一步增加下采样的层数,但同时会增大网络的参数量,降低运行速度,采用L4已经满足本文的分割目标。其中,FPN算法在实验参数上与本文算法非常接近,但FPN的计算复杂度更大,运行耗时较长。整体来看,本文算法实现了较高的分割精度和较好的位置敏感度,满足US左心室分割要求。

表 4 本文算法与其他分割算法的实验对比结果
Table 4 Experimental comparison results between the proposed algorithm and other segmentation algorithms

下载CSV
算法 Params/M AP/% mIoU/% mDice/% mAPD/mm GC/%
U-Net(Ronneberger等,2015) 7.76 66.43 86.15 85.37 2.02 98.02
FCN(Long等,2015) 134.32 48.16 92.02 70.29 0.48 98.31
SegNet(Badrinarayanan等,2017) 10.19 93.58 96.50 97.41 0.35 99.15
DeepLab v3+(Chen等,2018b) 41.663 92.67 96.26 95.29 0.53 97.88
Tiramisu(Jégou等,2017) 9.42 89.25 95.89 95.23 0.28 100
FPN(Lin等,2017b) 41.72 94.99 97.02 96.99 0.30 99.58
DLA-RDNet(本文) 31.57 95.68 97.13 97.15 0.31 99.32
注:加粗字体为每列最优值。

3 结论

在分析了部分主流分割网络的基础上,提出了一种深层聚合残差密集网络的超声图像左心室分割算法。利用残差密集网络分层次提取特征,再基于深层聚合的方式将各层次信息紧密连接起来,实现较高精度的图像分割;最后,灵活的网络结构配合深监督,使参数量巨大的深度网络在可接受的精度范围内大幅度缩减网络参数量,提升运行速度,让网络的运行模式具有更多的选择性。主、客观对比实验表明,与同类算法相比,本文算法具有更好的分割效果。

本文在超声图像左心室分割中的贡献如下:1)通过图像预处理,缩小图像分割范围,降低分割目标周围的其他组织对分割精度的影响。2)针对医学图像分辨率低、噪声大和数据集小等问题,设计出神经元利用率较高的神经网络结构, 即深层聚合残差密集网络。其网络能准确识别图像中的弱边缘,实现较高精度的分割。3)网络有较强的泛化能力,能根据训练集自动学习适应分割目标的感受野大小,对不同的分割任务同样适用。4)网络剪枝进一步提高网络的利用率,降低计算成本,提升分割速度。

但本文算法仍有改进的空间,例如预处理图像时,缩小图像分割范围的方法会根据数据集的不同而有所不同。由于对图像二值化时,不同的数据集对应不同的二值化阈值,故本文的图像预处理方法难以泛化。在后续工作中将探究如何利用目标检测网络与深层聚合残存密集网络的优点,设计能实时检测并缩小图像的分割范围、鲁棒性强以及精确度更高的网络。

参考文献

  • Avendi M R, Kheradvar A, Jafarkhani H. 2016. A combined deep-learning and deformable-model approach to fully automatic segmentation of the left ventricle in cardiac MRI. Medical Image Analysis, 30: 108-119 [DOI:10.1016/j.media.2016.01.005]
  • Badrinarayanan V, Kendall A, Cipolla R. 2017. SegNet:a deep convolutional encoder-decoder architecture for image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(12): 2481-2495 [DOI:10.1109/TPAMI.2016.2644615]
  • Chen L C, Papandreou G, Kokkinos I, Murphy K and Yuille A L. 2014. Semantic image segmentation with deep convolutional nets and fully connected CRFs[EB/OL].[2020-02-20]. https://arxiv.org/pdf/1412.7062.pdf
  • Chen L C, Papandreou G, Kokkinos I, Murphy K, Yuille A L. 2018a. DeepLab:semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(4): 834-848 [DOI:10.1109/TPAMI.2017.2699184]
  • Chen L C, Papandreou G, Schroff F and Adam H. 2017. Rethinking atrous convolution for semantic image segmentation[EB/OL].[2020-02-20]. https://arxiv.org/pdf/1706.05587.pdf
  • Chen L C, Zhu Y K, Papandreou G, Schroff F and Adam H. 2018b. Encoder-decoder with atrous separable convolution for semantic image segmentation//Proceedings of the 15th European Conference on Computer Vision. Munich: Springer: 801-818[DOI:10.1007/978-3-030-01234-2_49]
  • He K M, Gkioxari G, Dollár P and Girshick R. 2017. Mask R-CNN//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice: IEEE: 2961-2969[DOI:10.1109/ICCV.2017.322]
  • He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE: 770-778[DOI:10.1109/CVPR.2016.90]
  • Huang G, Liu Z, Van Der Maaten L and Weinberger K Q. 2017. Densely connected convolutional networks//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE: 4700-4708[DOI:10.1109/CVPR.2017.243]
  • Jégou S, Drozdzal M, Vazquez D, Romero A and Bengio Y. 2017. The one hundred layers tiramisu: fully convolutional densenets for semantic segmentation//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu: IEEE: 11-19[DOI:10.1109/CVPRW.2017.156]
  • Kass M, Witkin A, Terzopoulos D. 1998. Snakes:active contour models. International Journal of Computer Vision, 1(4): 321-331 [DOI:10.1007/BF00133570]
  • Lee C Y, Xie S, Gallagher P, Zhang Z and Tu Z. 2015. Deeply-supervised nets//Proceedings of the 18th International Conference on Artificial Intelligence and Statistics. San Diego: AISTATS: 562-570
  • Lin G S, Milan A, Shen C H and Reid I. 2017a. RefineNet: multi-path refinement networks for high-resolution semantic segmentation//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE: 1925-1934[DOI:10.1109/CVPR.2017.549]
  • Lin T Y, Dollár P, Girshick R, He K M, Hariharan B and Belongie S. 2017b. Feature pyramid networks for object detection//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE: 2117-2125[DOI:10.1109/CVPR.2017.106]
  • Long J, Shelhamer E and Darrell T. 2015. Fully convolutional networks for semantic segmentation//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE: 3431-3440[DOI:10.1109/CVPR.2015.7298965]
  • Ma Y R, Wang L, Ma Y D, Dong M, Du S Q, Sun X G. 2016. An SPCNN-GVF-based approach for the automatic segmentation of left ventricle in cardiac cine MR images. International Journal of Computer Assisted Radiology and Surgery, 11(11): 1951-1964 [DOI:10.1007/s11548-016-1429-9]
  • Noble J A, Boukerroui D. 2006. Ultrasound image segmentation:a survey. IEEE Transactions on Medical Imaging, 25(8): 987-1010 [DOI:10.1109/TMI.2006.877092]
  • Peng C, Zhang X Y, Yu G, Luo G M and Sun J. 2017. Large kernel matters-Improve semantic segmentation by global convolutional network//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE: 4353-4361[DOI:10.1109/CVPR.2017.189]
  • Petitjean C, Dacher J N. 2011. A review of segmentation methods in short axis cardiac MR images. Medical Image Analysis, 15(2): 169-184 [DOI:10.1016/j.media.2010.12.004]
  • Porshnev S V, Mukhtarov A A, Bobkova A O, Zyuzin V V and Bobkov V V. 2016. The study of applicability of the decision tree method for contouring of the left ventricle area in echographic video data//Proceedings of the 5th International Conference on Analysis of Images, Social Networks and Texts. Yekaterinburg: CEUR-WS: 248-258
  • Ronneberger O, Fischer P and Brox T. 2015. U-Net: convolutional networks for biomedical image segmentation//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich: Springer: 234-241[DOI:10.1007/978-3-319-24574-4_28]
  • Yang C, Wu W G, Su Y Q, Zhang S X. 2017. Left ventricle segmentation via two-layer level sets with circular shape constraint. Magnetic Resonance Imaging, 38: 202-213 [DOI:10.1016/j.mri.2017.01.011]
  • Yu F and Koltun V. 2015. Multi-scale context aggregation by dilated convolutions[EB/OL].[2020-02-20]. https://arxiv.org/pdf/1511.07122.pdf
  • Yu F, Wang D Q, Shelhamer E and Darrell T. 2018. Deep layer aggregation//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE: 2403-2412[DOI:10.1109/CVPR.2018.00255]
  • Zhang Y L, Tian Y P, Kong Y, Zhong B N and Fu Y. 2018. Residual dense network for image super-resolution//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE: 2472-2481[DOI:10.1109/CVPR.2018.00262]
  • Zhao H S, Shi J P, Qi X J, Wang X G and Jia J Y. 2017. Pyramid scene parsing network//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE: 2881-2890[DOI:10.1109/CVPR.2017.660]
  • Zhou Z W, Siddiquee M M R, Tajbakhsh N and Liang J M. 2018. UNet++: a nested U-net architecture for medical image segmentation//Stoyanov D, Taylor Z, Carneiro G, Syeda-Mahmood T, Martel A, Maier-Hein L, Tavares J M R S, Bradley A, Papa J P, Belagiannis V, Nascimento J C, Lu Z, Conjeti S, Moradi M, Greenspan H and Madabhushi A, eds. Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support. Cham: Springer: 3-11[DOI:10.1007/978-3-030-00889-5_1]
  • Zyuzin V, Sergey P, Mukhtarov A, Chumarnaya T, Solovyova O, Bobkova A and Myasnikov V. 2018. Identification of the left ventricle endocardial border on two-dimensional ultrasound images using the convolutional neural network Unet//2018 Ural Symposium on Biomedical Engineering, Radioelectronics and Information Technology (USBEREIT). Yekaterinburg: IEEE: 76-78[DOI:10.1109/USBEREIT.2018.8384554]