Print

发布时间: 2020-02-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190242
2020 | Volume 25 | Number 2




    医学图像处理    




  <<上一篇 




  下一篇>> 





融合型UNet++网络的超声胎儿头部边缘检测
expand article info 邢妍妍1,2, 杨丰1,2, 唐宇姣1,2, 张利云1,2
1. 南方医科大学生物医学工程学院, 广州 510515;
2. 广东省医学图像处理重点实验室(南方医科大学), 广州 510515

摘要

目的 超声胎儿头部边缘检测是胎儿头围测量的关键步骤,因胎儿头部超声图像边界模糊、超声声影造成图像中胎儿颅骨部分缺失、羊水及子宫壁形成与胎儿头部纹理及灰度相似的结构等因素干扰,给超声胎儿头部边缘检测及头围测量带来一定的难度。本文提出一种基于端到端的神经网络超声图像分割方法,用于胎儿头部边缘检测。方法 以UNet++神经网络结构为基础,结合UNet++最后一层特征,构成融合型UNet++网络。训练过程中,为缓解模型训练过拟合问题,在每一卷积层后接一个空间dropout层。具体思路是通过融合型UNet++深度神经网络提取超声胎儿头部图像特征,通过胎儿头部区域概率图预测,输出胎儿头部语义分割的感兴趣区域。进一步获取胎儿的头部边缘关键点信息,并采用边缘曲线拟合方法拟合边缘,最终测量出胎儿头围大小。结果 针对现有2维超声胎儿头围自动测量公开数据集HC18,以Dice系数、Hausdorff距离(HD)、头围绝对差值(AD)等指标评估本文模型性能,结果Dice系数为98.06%,HD距离为1.21±0.69 mm,头围测量AD为1.84±1.73 mm。在妊娠中期测试数据中,Dice系数为98.24%,HD距离为1.15±0.59 mm,头围测量AD为1.76±1.55 mm。在生物医学图像分析平台Grand Challenge上HC18数据集已提交结果中,融合型UNet++的Dice系数排在第3名,HD排在第2名,AD排在第10名。结论 与经典超声胎儿头围测量方法及已有的机器学习方法应用研究相比,融合型UNet++能有效克服超声边界模糊、边缘缺失等干扰,精准分割出胎儿头部感兴趣区域,获取边缘关键点信息。与现有神经网络框架相比,融合型UNet++能充分利用上下文相关信息与局部定位功能,在妊娠中期的头围测量中,本文方法明显优于其他方法。

关键词

医学图像分割; UNet++; 胎儿头部边缘检测; 胎儿头围测量; 深度学习; 超声图像

Ultrasound fetal head edge detection using fusion UNet++
expand article info Xing Yanyan1,2, Yang Feng1,2, Tang Yujiao1,2, Zhang Liyun1,2
1. School of Biomedical Engineering, Southern Medical University, Guangzhou 510515, China;
2. Guangdong Provincial Key Laboratory of Medical Image Processing, Southern Medical University, Guangzhou 510515, China
Supported by: National Natural Science Foundation of China(61771233)

Abstract

Objective Ultrasound fetal head circumference measurement is crucial for monitoring fetus growth and estimating the gestational age. Computer-aided measurement of fetal head circumference is valuable for sonographers who are short of experiments in ultrasound examinations. Through computer-aided measurement, they can further accurately detect fetal head edge and quickly finish an examination. Fetal head edge detection is necessary for the automatic measurement of fetal head circumference. Ultrasound fetal head image boundary is fuzzy, and the gray scale of fetal head is similar to the mother's abdominal tissue, especially in the first trimester. Ultrasound shadow leads to the loss of head edge and incomplete fetal head in the image, which brings certain difficulties in detecting the complete fetal head edge and fit head ellipse. The structures of the amniotic fluid and uterine wall are similar to the head texture and gray scale, often leading to misclassification of this part as fetal head. All these factors result in challenges to ultrasound fetal head edge detection. Therefore, we propose a method for detecting the ultrasound fetal head edge by using convolutional neural network to segment the fetal head region end-to-end. Method The model proposed in this paper is based on UNet++. In deep supervised UNet++, every output is different and can provide a predicted result of the region of interest, but only the best predicted result will be used to predict the region of fetal head. Generally, the output results increase in accuracy from left to right. Four feature blocks exist before four outputs of UNet++. The left feature contains location information, and the right one contains sematic information. To utilize the feature map before outputs fully, we fuse them by concatenation and further extract fused features. The improved model is named Fusion UNet++. To prevent overfitting, we introduce spatial dropout after each convolutional layer instead of standard dropout, which extends the dropout value across the entire feature map. The idea of fetal head circumference measurement is as follows:first, we use Fusion UNet++ to learn the features of 2D ultrasound fetal head image and obtain the semantic segmentation result of the fetal head by using fetal head probability map. Second, on the basis of the image segmentation result, we extract the fetal head edge by using an edge detection algorithm and use the direct least square ellipse fitting method to fit the head contour. Finally, the fetal head circumference can be calculated using the ellipse circumference formula. Result The open dataset of the automated measurement of fetal head circumference of the 2D ultrasound image named HC18 on Grand Challenges contains the first, second, and third trimester images of fetal heads. All fetal head images are the standard plane of measuring fetal head circumference. In the HC18 dataset, 999 2D ultrasound images have annotations of fetal head circumference in the train set, and 335 2D ultrasound fetal head images have no annotations in the test set. We use the train set to train the convolutional neural network and submit the predicted results of the test set to participate in the model evaluation on HC18, Grand Challenges. We use the Dice coefficient, Hausdorff distance (HD), and absolute difference (AD) as assessment indexes to evaluate the proposed method quantitatively. With the proposed method, for the dataset of fetal head images for all three trimesters, the Dice coefficient of the fetal head segmentation is 98.06%, the HD is 1.21±0.69 mm, and the AD of the fetal head circumference measurement is 1.84±1.73 mm. The skull in the second trimester is visible and appears as a bright structure; it is invisible in the first trimester and visible but incomplete in the third trimester. Seeing the complete skull is difficult in the first and third trimesters; thus, the measurement result of the fetal head circumference in the second trimester is the best among all trimesters. Most algorithms measure the fetal head circumference only in the second trimester or in the second and third trimester fetal head ultrasound images. For the second trimester, the Dice coefficient of the fetal head segmentation is 98.24%, the HD is 1.15±0.59 mm, and the AD of the fetal head circumference measurement is 1.76±1.55 mm. On the basis of the results presented in the open test set, our Dice ranked the 3rd, HD is the 2nd, and AD is the 10th. Conclusion In comparison with the traditional and machine learning methods, the proposed method can effectively overcome the interference of fuzzy boundary and lack of edge and can accurately segment the fetal head region. In comparison with existing neural network methods, the proposed method surpasses the other methods in the second trimester of pregnancy in fetal head segmentation and head circumference measurement. The proposed method achieves the state-of-the-art results of fetal head segmentation.

Key words

medical image segmentation; UNet++; fetal head edge detection; fetal head circumference measurement; deep learning; ultrasound image

0 引言

胎儿检查的主要目的是为了监测胎儿的发育情况。胎儿头围测量是胎儿检查的重要项目,产科和妇科医生可以通过测量胎儿头围预测孕妇的孕龄、评估胎儿的发育情况以及孕妇的分娩方式。超声成像以其无创伤、无辐射、价格低廉、便捷和实时成像等优点在胎儿筛查和监测中得到广泛应用。但是超声检查对医生的依赖性太强,正确测量胎儿头围需要超声检查医生经过多年的专业训练与临床经验积累才能完成。胎儿头围的测量结果与医生的操作手法和临床经验密切相关,医生临床经验差异会导致测量结果存在一定的偏差。计算机辅助测量胎儿头围可以降低超声医师之间的测量误差,减轻医生的工作负担,提升医生工作效率,因此,胎儿头围测量算法研究具有十分重要的临床意义。

现有超声胎儿头围测量方法,多以胎儿头部轮廓呈近似椭圆形状的假设为前提,分3步测量头围:1)检测胎儿头部轮廓;2)拟合椭圆;3)计算胎儿头围。检测胎儿头部轮廓是测量头围的关键步骤,由于超声胎儿图像存在一些缺陷,如:胎儿超声图像头部边界模糊、超声声影造成图像中颅骨部分缺失、母亲子宫壁与羊水构成类似头围的纹理结构等,这导致检测出的头部轮廓不完整甚至错误检测,椭圆拟合算法不能正确拟合头部边缘,给超声胎儿头围的自动测量带来一定的挑战。在早期的实践中,先使用K-均值聚类(Hartigan等,1979)、随机森林(Svetnik等,2003)等传统方法或机器学习方法检测胎儿头部轮廓,然后使用霍夫变换(Duda等,1972)、直接最小二乘法(Fitzgibbon等,1999)及其改进方法等椭圆检测算法拟合胎儿头部边缘。Lu等人(2005)针对强噪声、图像的不完全椭圆检测问题,提出了迭代随机霍夫变换的方法,用K-均值聚类分割头部轮廓,采用迭代随机霍夫变换逼近胎儿头部椭圆,该方法中K-均值聚类不能有效提取颅骨,迭代随机霍夫变换对较大间隙和强噪声图像有一定的作用,但是对低对比度或非常大的间隙则无法检测,导致漏检误检。陈凯等人(2009)Lu等人(2005)的基础上,通过预处理去除更多的噪声和背景数据,进一步降低随机霍夫变换计算量,提高了检测速度。Carneiro等人(2008)利用训练约束概率增强树,先粗略定位头部感兴趣区域(ROI),再用由粗到精的分类器精确定位头部ROI,由ROI估计出椭圆的位置。Foi等人(2014)提出基于高斯差分方法,沿椭圆轨迹旋转提取头围轮廓。该方法在2012年取得ISBI举办的Challenge US胎儿头围测量子挑战赛的第1名。在妊娠早期、中期、晚期的图像上,van den Heuvel等人(2018)采用随机森林算法定位颅骨,用霍夫变换提取胎儿头围。该方法同时处理所有孕期的胎儿超声图像。Zhang等人(2016)设计多尺度、多方向滤波器组,用于提取胎儿解剖结构特征及纹理特征,采用直接最小二乘椭圆拟合方法,构建闭合头部轮廓。但是该方法在特征提取、纹理生成和边缘检测等过程中计算耗时相当长。Li等人(2018)先联合胎儿头围先验知识,用随机森林获取感兴趣区,再用相位对称性检测胎儿头部边缘。但该方法对妊娠晚期胎儿颅骨缺失的超声图像拟合效果较差。

胎儿头围测量的早期研究在胎儿头部边缘检测上的效果并不理想,霍夫变换拟合椭圆抗噪声的鲁棒性较差且计算量大,同时头围测量计算耗时较长。近几年来,随着深度学习在图像处理上应用迅速发展,以U-Net (Ronneberger等,2015)、全卷积网络(FCN)(Shelhamer等,2017)等为基础的深度学习分割算法已广泛应用于图像分割,并拓展到生物医学成像领域。人们在胎儿头围测量上也通过神经网络直接检测胎儿头部轮廓,或者采用先分割出胎儿头部ROI再提取头部轮廓的方法。Kim等人(2018)先将胎儿超声图像从笛卡儿坐标系转换到极坐标系,再根据胎儿头部解剖结构的先验信息,采用U-Net网络检测头部边界的像素,随后用卷积网络预测边界框,最终拟合边界框内的边界像素。该方法分两个阶段完成胎儿头部边缘检测,能有效区分组织边界与胎儿边界,去除错误预测边界。Wu等人(2017)采用级联的全卷积网络(cascaded FCN)方式,结合上下文信息,完成超声图像的胎儿头部及腹部分割,也取得了良好的分割效果,其仅在头骨外缘进行胎儿头部轮廓标注,未做椭圆标注,故该方法未进行头围估计。Sinclair等人(2018)在全卷积网络结构上,导入预先训练的VGG16模型(Simonyan等,2014),构成VGG16-FCN分割网络,实现胎儿头部超声图像分割。该方法主要针对孕龄为18~22周的胎儿头围测量,因该时期胎儿头骨显示较完整,其分割效果较好。

目前卷积神经网络在超声胎儿头围测量中的应用研究文献较少。若用卷积神经网络直接提取胎儿头部边界像素关键点,因声影等造成的图像头骨缺失,导致头部边缘检测不完整,图像中与头骨结构相似的地方会被错误分类为边界像素,需增加新的卷积网络检测胎儿头部边界框,去除错误分类的边缘关键点。应用卷积神经网络分割胎儿头部ROI,通过对颅骨及颅内组织的检测可以有效检测出胎儿头部区域。先分割胎儿的整个头部区域,再提取边缘可以降低头部边缘缺失和图像中相似结构对胎儿头部边缘检测的影响。U-Net网络在医学图像分割中取得了良好效果,U-Net网络中编码器高分辨特征可以提供目标的精确定位,跳跃连接结构(skip connection)将高分辨率特征与解码器上采样输出特征连接,最终的预测结果更加精确。鉴于U-Net在图像分割中的优秀表现,生物医学图像分割网络结构多在U-Net的U型结构基础上进行改进。UNet++(Zhou等,2018)是将U-Net原始编码器与解码器之间的直接跳跃连接部分调整为嵌套的密集跳跃连接(dense skip connection),缩短编码器与解码器之间的语义鸿沟(semantic gap)。该模型在细胞核、结肠息肉、CT肝脏等医学图像分割中表现良好。本文提出的胎儿头部图像分割网络在使用深度监督(deep supervise)的UNet++基础上改进。UNet++模型选择训练时评估结果最好的输出作为模型的预测结果。由于UNet++在最后一层特征上含有丰富的空间信息和语义信息,因此,组合UNet++最后一层密集跳跃连接模块的输出特征,构成融合型UNet++网络(fusion UNet++)。先分割出胎儿头部ROI,再提取头部边缘信息,然后用椭圆拟合算法拟合头部边缘曲线,计算胎儿头围大小。以Dice系数、Hausdorff距离(HD)、胎儿头围绝对差值(AD)等指标定量评价本文提出的模型,并与现有的超声胎儿头围测量算法进行比较。

1 方法

本文提出的测量胎儿头围的算法流程如图 1所示,主要步骤包括:1)胎儿头部ROI分割。通过胎儿超声图像及对应的标注数据训练卷积神经网络,获取胎儿头部ROI概率图。2)头围椭圆拟合。通过ROI的边缘提取,得到边界关键点,再用直接最小二乘算法拟合为头部椭圆,由头部椭圆参数计算胎儿头围大小。

图 1 超声胎儿头围测量框图
Fig. 1 Overview of the proposed method for fetal head circumference measurement

1.1 UNet++网络结构

U-Net神经网络结构主要是针对医学图像分析中数据量较少、边界不清晰、灰度范围大等问题提出的,其结合网络浅层信息,改善了网络上采样信息不足的缺陷,对提高医学图像的分割精度起到了重要作用。U-Net网络框架主要由编码器、解码器和跳跃连接组成。编码器用于分解图像为不同层次的特征图像,编码器各模块具有提取图像浅层的、低级的、细粒度等特征的功能,用于捕获图像上下文信息。解码器还原各层的特征图,其中包含大量的通道特征,可传递图像上下文信息向高分辨率层,其解码模块具有表达图像深层的、语义的、粗粒度特征的功能,用于定位ROI,并预测目标位置及区域概率图。跳跃连接则是完成编码器特征与解码器特征之间的通道连接,减少特征提取过程中的信息损失,达到准确定位,精确分割的目的。

UNet++在保持U-Net网络结构基础上,改进编码器与解码器之间特征连接方式。U-Net中的跳跃连接直接将编码的高分辨率特征与解码的上采样特征融合在一起。这种融合方式仅仅实现浅层信息的简单融合,更深层的信息未充分利用,造成低级特征和高级特征之间存在语义鸿沟,未能达到最佳的预测效果。将深层特征进行上采样引入浅层特征或者将浅层特征进行下采样引入深层特征,可以缩短编码器与解码器之间的语义鸿沟,提升模型性能(Zhang等,2018)。在UNet++结构中,编码器的相邻级别的特征语义鸿沟较小,在与解码器特征融合之前,低分辨率特征上采样后与高分辨率特征融合。对于每个融合模块,特征自上而下逐级聚合,并通过密集跳跃连接方式与解码器特征融合。UNet++结构能有效缩短编码器与解码器之间的语义鸿沟。

UNet++网络拓扑结构如图 2所示,由编码结构、解码结构和密集跳跃连接组成。相同尺寸大小的特征图定义为同一层,自上而下分别为第1~5层,用$L1 \sim L5$表示。每一个节点代表一个特征提取模块,每个特征模块由两个3×3的卷积层组成,其卷积操作之后,接修正线性单元(ReLU)。UNet++通过不同层之间由浅入深的空间信息融合,以及同一层模块之间密集跳跃连接的语义信息融合,缩短编码器与解码器之间的语义鸿沟,充分利用上下文特征,网络模型能充分有效地捕获目标的细节特征,提升分割性能。

图 2 UNet++网络结构
Fig. 2 Architecture of UNet++

UNet++结构中,在不同网络层之间,自上而下,将编码器特征与下一层编码器上采样特征进行融合。融合后的模块输出继续与下一层相应模块上采样特征再融合,如此迭代下去,直到模块下一层没有对应的上采样模块。每一模块的输出结果为

$ \boldsymbol{x}^{i, j}=\left\{\begin{array}{ll} {c\left(\boldsymbol{x}^{i-1, j}\right)} & {j=0} \\ {c\left(\left[\boldsymbol{x}^{i, j-1}, u\left(\boldsymbol{x}^{i+1, j-1}\right)\right]\right)} & {j>0} \end{array}\right. $ (1)

式中,$\boldsymbol{x}^{i, j}$表示当前特征提取模块的输出,$i$表示编码器下采样的层序,取值为1~5,$j$表示同一层的模块序号,$j=0$表示编码器特征提取模块,$c(·)$表示特征提取模块的卷积操作,$u(·)$表示上采样操作,[·]表示特征通道连接。

UNet++结构中,在同一网络层之间,各个特征提取模块采用密集跳跃连接的形式进行特征融合。密集跳跃连接是将当前模块的输出结果传递到其后所有的模块,并与其他输入特征进行融合。单个模块的输出为

$ \boldsymbol{x}^{i, j}=c\left(\left[\boldsymbol{x}^{i, k}\right]_{k=0}^{j-1}\right) $ (2)

综上所述,结合同一层模块及不同层模块之间的融合方式,UNet++编码模块的输入来自上一编码模块的输出,其他特征提取模块的输入来自同一层该模块之前的所有模块及下一层对应的模块上采样的输出结果的通道连接。UNet++中每一模块的输出为

$ \boldsymbol{x}^{i, j}=\left\{\begin{array}{ll} {c\left(\boldsymbol{x}^{i-1, j}\right)} & {j=0} \\ {c\left(\left[\left[\boldsymbol{x}^{i, k}\right]_{k=0}^{j-1}, u\left(\boldsymbol{x}^{i+1, j-1}\right)\right]\right)} & {j>0} \end{array}\right. $ (3)

因此,UNet++整体特征融合结构方式呈倒金字塔形,金字塔的每一层相当于密集模块(dense block),通过密集跳跃连接将模块特征向后传递。在不同层之间,特征自上至下深度聚合,缩短编码器特征与解码器特征跳跃连接时的语义鸿沟,提升模型的特征学习能力。

1.2 UNet++网络特征融合

对于深度监督的UNet++结构,输入图像到各个输出经过的深度网络层数逐渐增加,从左到右,网络输出依次为:浅层输出、中层输出和深层输出。UNet++依据模型训练时预测最佳的输出作为最终结果。就本文超声胎儿头围测量任务而言,UNet++模型自左至右网络深度由浅至深,其输出结果对应的特征由粗糙到精细,因此,头部区域预测结果从左至右越来越精细。在UNet++模型中最右端的输出,因卷积层数增多,其胎儿头部分割效果最好,因此网络测试时,一般选择最深层的网络输出作为最终预测结果,但是在UNet++网络结构中,浅层输出和中层输出也存在对预测有用的信息。即使在深层输出预测中出现的错误区域,也能在其他输出层获得正确预测值。因中层输出和深层输出的预测结果存在差异,融合中层特征与深层特征,能将中层特征和深层特征中有用的信息结合。在此,本文提出一种融合型UNet++模型,充分利用UNet++模型的中层输出和深层输出等特征信息。有效组合这些特征,利用组合特征训练网络模型,有利于提升模型整体的最优预测分割精度。

图 2所示,在UNet++的$L1$层特征块中,每个特征块都包含空间信息和语义信息。对于中间层的输出特征,其定位信息比较精确,而深层的输出特征能准确获取图像像素级的类别信息。为了充分利用各输出层特征块之间信息差异,本文将UNet++模型的$L1$层中各特征提取模块进行特征融合,将其融合为更加丰富的特征,构成融合型UNet++网络,对融合后的输出进行深度监督,根据融合输出结果,通过反向传播算法调整网络参数,能有效提升图像分割效果,如图 3所示。

图 3 融合型UNet++网络结构
Fig. 3 Architecture of fusion UNet++

$L1$层特征融合网络结构先将$L1$层最后3个卷积特征块进行通道连接,再用一个卷积模块提取通道连接后的特征信息,即进行特征融合,最后输出特征融合后的预测结果。在融合型UNet++中,根据预测结果计算损失,通过反向传播,调节网络参数。这不仅影响融合特征的输出,还能通过对整体网络的参数调整,达到对浅层、中层和深层输出结果在不同程度上的优化作用。这也是融合型UNet++网络的深层输出结果优于原有UNet++网络单一深层输出结果的原因。因浅层输出预测结果十分粗糙,错误预测区域范围较大,融合该层预测信息,未能产生很好的效果。因此,本文仅选择$L1$层的中层与深层的特征进行融合。实验结果表明,融合型UNet++的图像分割效果好于UNet++。特别是在边缘模糊、图像中存在与胎儿头部轮廓相似结构等情况下,其图像分割区域能正确预测,减小误差。从各项评估指标比较,融合型UNet++网络较U-Net或UNet++均有明显提升。

1.3 损失函数与训练策略

本文模型用Dice系数损失函数作为每一个输出预测结果的损失函数,定义为

$ L\left(\boldsymbol{Y}_{\mathrm{GT}}, \boldsymbol{Y}_{\mathrm{p}}\right)=\frac{1}{N} \sum\limits_{b=1}^{N}\left(1-\frac{2 \times\left|\boldsymbol{Y}_{\mathrm{GT}}^{b} \cap \boldsymbol{Y}_{\mathrm{p}}^{b}\right|}{\left|\boldsymbol{Y}_{\mathrm{GT}}^{b}\right|+\left|\boldsymbol{Y}_{\mathrm{p}}^{b}\right|}\right) $ (4)

式中,$\boldsymbol{Y}_{\mathrm{GT}}$表示胎儿头部标注,$\boldsymbol{Y}_{\mathrm{p}}$表示预测结果,$\boldsymbol{Y}_{\mathrm{GT}}^{b}$表示第$b$幅图像拉伸后的分割标注,$\boldsymbol{Y}_{\mathrm{p}}^{b}$表示第$b$幅图像拉伸后的预测概率,$N$表示批大小。

为缓解模型训练过拟合问题,提升模型的泛化性能,在训练时对网络结构进行适当的调整。在大多数卷积神经网络训练时,一般会采取dropout策略(Srivastava等,2014)缓解过拟合,即训练时将部分神经元的激活置零,让这些神经元不影响网络训练;而在测试时,所有神经元均被激活。dropout通过防止神经元激活之间的密切相关性,来提升模型的泛化能力,防止过度训练。特征图内,当激活单元之间具有强相关性时,dropout将部分激活随机置零,误差反向传播时,置零激活的梯度是零,但与之强相关的激活梯度依然存在,并影响权重更新,dropout并没有提升训练之间的独立性。对于形状较规则、图像像素之间相关性较大的超声胎儿头部图像来说,上述缓解过拟合的方式效果不佳,在训练过程中,极易出现过拟合现象。因此,本文采用一种空间dropout(spatial dropout)策略(Tompson等,2015)在每个卷积层之后添加空间dropout层,将dropout作用从单个神经元扩展到整个特征图上,被选定特征图上所有单元均被置零,未选定的特征图上所有单元均被激活。特征图之间相关性要比特征图内相关性小,能有效提升不同训练之间的独立性,达到缓解过拟合效果。如图 4所示,蓝色实线与虚线分别表示采用常规dropout策略时训练集与验证集的损失收敛曲线;红色实线与虚线是采用空间dropout策略的训练集与验证集的损失收敛曲线。两种网络训练策略的训练集损失曲线均收敛。采用常规的dropout策略训练时,验证集的损失曲线在前20批(epoch)快速收敛之后,存在剧烈震荡、无收敛迹象;采用空间dropout策略训练时,验证集的损失曲线逐渐收敛,有效缓解过拟合问题。在网络结构加深的UNet++模型中,采用空间dropout策略,Dice系数提升约0.8,大大提升了超声胎儿头部图像分割性能。

图 4 Spatial dropout与dropout训练损失曲线
Fig. 4 Loss curve of spatial dropout and dropout

2 实验结果

2.1 实验数据

实验使用的数据均来自生物医学图像分析平台Grand Challenges上公开的HC18超声胎儿头围自动测量数据集(https://hc18.grand-challenge.org/),数据集示例如图 5所示。

图 5 超声胎儿头围图像
Fig. 5 Fetal head circumference in ultrasound image ((a) fetal head and label; (b) fuzzy boundary; (c) missing boundary; (d) similar structure)

图像采集自2014年5月至2015年5月接受超声检查的551名孕妇,共1 334幅2维超声图像,含妊娠早期、妊娠中期、妊娠晚期3个时期的胎儿头部图像,有关数据集分布如表 1所示。

表 1 训练集、测试集数据量
Table 1 Number of images in the train set and test set

下载CSV
孕期 训练集/幅 测试集/幅
妊娠早期 165 55
妊娠中期 693 133
妊娠晚期 141 47
总计 999 335

数据库中涉及的所有胎儿发育正常,每幅胎儿头部超声图像均是测量胎儿头围的标准平面。公开的数据库中包含999幅带标注的训练图像,335幅无标注的测试图像,以及记录训练集及测试集对应的每一幅图像像素尺寸文件,用于计算胎儿头围。每幅图像大小为540×800像素,单个像素尺寸为0.052~0.326 mm。原始数据的标注由经验医生(观察者1)和医学研究人员(观察者2)完成,经验医生的标注作为头围测量标准,医学研究人员的标注作为算法性能评估的比较对象,用于评估头围测量算法对无经验或经验不丰富人员在胎儿头围测量中的辅助能力。

实验数据的原始标注为头部轮廓拟合椭圆曲线,如图 5(a)所示。在本文实验中,先提取胎儿头部ROI,需要将头部标注轮廓线进行内部区域填充,构成图像分割的标注数据。为缓解训练过拟合程度,对原始训练数据进行扩充,增加训练网络的数据量,扩充方案为:1)图像旋转。旋转角度为[-25°, 25°],间隔5°;2)图像尺度变换。缩放比例为[0.85, 1.15],间隔0.05;3)gamma变换。gamma变换通过改变图像灰度实现数据扩充,gamma因子为[0.5, 1.5],间隔0.1;4)翻转。对图像进行水平翻转、垂直翻转、水平+垂直翻转;在超声图像进行扩充时,为保持图像与标注的一致性,每幅图像标注也进行相同的变换(gamma变换时标注图像不做变换)。采用上述数据扩充方案后,训练数据量由999幅扩充为29 970幅,扩充量为原来的30倍。此外,网络训练的图像尺寸缩小为224×288像素,并进行归一化处理。

2.2 评估指标

为了对模型进行定量分析,准确评价模型性能,本文采用Dice系数、Hausdorff距离(HD)、头围绝对差值(AD)等数值作为模型评估性能指标,各评估指标定义如下

$ f_{\text {Dice }}=\frac{2 \times\left|\boldsymbol{Y}_{\mathrm{GT}} \cap \boldsymbol{Y}_{\mathrm{p}}\right|}{\left|\boldsymbol{Y}_{\mathrm{GT}}\right|+\left|\boldsymbol{Y}_{\mathrm{p}}\right|} $ (5)

$ \begin{array}{l} {f_{\mathrm{HD}}=\max \left(h\left(\boldsymbol{Y}_{\mathrm{GT}}, \boldsymbol{Y}_{\mathrm{p}}\right), h\left(\boldsymbol{Y}_{\mathrm{p}}, \boldsymbol{Y}_{\mathrm{GT}}\right)\right)} \\ {h\left(\boldsymbol{Y}_{\mathrm{GT}}, \boldsymbol{Y}_{\mathrm{p}}\right)=\max\limits_{y_{\mathrm{GT}} \in \boldsymbol{Y}_{\mathrm{GT}}} \min\limits_{y_{\mathrm{p}} \in \boldsymbol{Y}_{\mathrm{p}}}\left\|y_{\mathrm{GT}}-y_{\mathrm{p}}\right\|} \\ {h\left(\boldsymbol{Y}_{\mathrm{p}}, \boldsymbol{Y}_{\mathrm{GT}}\right)=\max\limits_{y_{\mathrm{p}} \in \boldsymbol{Y}_{\mathrm{p}}} \min\limits_{y_{\mathrm{GT}} \in \boldsymbol{Y}_{\mathrm{GT}}}\left\|y_{\mathrm{p}}-y_{\mathrm{GT}}\right\|} \end{array} $ (6)

式中,$y_{{\rm GT}}$表示胎儿头部标注的像素,$y_{{\rm p}}$表示预测结果的像素。

$ f_{\mathrm{AD}}=\left|H C_{\mathrm{GT}}-H C_{\mathrm{p}}\right| $ (7)

式中,$HC_{{\rm GT}}$表示真实头围大小。$HC_{{\rm p}}$表示预测头围大小。

Dice系数评价模型分割效果,Dice越大表明模型分割效果越好。双向Hausdorff距离度量预测与真值之间的最大不匹配程度,HD越小效果越好。AD反映预测头围与真实头围之间的差距,头围AD越小,预测效果越好。

2.3 实验结果分析

本文实验在NVIDIA GeForce GTX 1080ti显卡上完成。初始化网络参数,每次训练100个epoch,每个epoch训练时间约18 min,完成全部训练耗时约30 h。模型训练的输入尺寸为224×288像素,优化器为Adam,学习率为0.000 1,批大小为8,spatial dropout比率为0.3。

首先,比较UNet++网络下采样的次数对模型预测性能的影响,即增加网络深度对模型的影响。本文中,执行3次、4次、5次下采样的UNet++记为UNet++_3、UNet++_4、UNet++_5。表 2展示了网络深度对模型预测结果的影响以及网络训练的参数量大小。比较UNet++_4和UNet++_3,Dice提升0.62,HD下降0.28 mm,AD下降0.14 mm。UNet++_5的表现比UNet++_4有所提升,Dice提升0.08,HD下降0.06 mm,AD下降0.11 mm。因此,随着网络深度增加,模型的分割效果越来越好。但是,相较于UNet++_3和UNet++_4之间分割性能的提升,UNet++_5分割性能提升并未像UNet++_4那样显著。此外,随着网络层次加深,模型参数量也随之明显增加,即每增加一次下采样,模型参数量约为原来的4倍。由此可见,UNet++网络模型性能优化需要在模型参数量和模型性能之间权衡,增加网络下采样深度并不是提升UNet++模型性能的最佳解决方法。

表 2 不同深度的UNet++网络预测结果比较
Table 2 Comparison between different depth of UNet++

下载CSV
方法 Dice ± std/% HD ± std/mm AD ± std/mm 参数量/M
UNet++_3 97.30 ± 5.88 1.58 ± 2.33 2.17 ± 2.66 2.21
UNet++_4 97.92 ± 1.36 1.30 ± 0.87 2.03 ± 1.99 9.04
UNet++_5 98.00 ± 1.15 1.24 ± 0.72 1.92 ± 1.82 36.46
注:加粗字体表示最优结果。

其次,比较融合型UNet++与原始UNet++的预测结果,如图 6所示。图 6(b)图 6(c)分别表示图 6(a)所示的胎儿头部超声图像经由UNet++的中层输出和深层输出预测的头部ROI概率图;图 6(d)(f)分别表示融合型UNet++的中层输出和深层输出以及融合输出预测的头部ROI概率图。对于融合型UNet++内部而言,图 6(e)深层预测输出和图 6(f)融合预测输出预测结果相近,均能准确分割胎儿头部ROI。通过图 6(c)图 6(e)之间结果比较,融合型UNet++的深层预测输出结果明显优于UNet++的深层预测输出。在UNet++预测区域中,误分割区域比较多,但是融合型UNet++基本分割出胎儿头部区域,有效减少了错误分割区域的范围。

图 6 UNet++及融合UNet++预测结果
Fig. 6 Predict of UNet++ and fusion UNet++ ((a) test data; (b) middle output of UNet++; (c) deep output of UNet++; (d) middle output of fusion UNet++; (e) deep output of fusion UNet++; (f) fused output of fusion UNet++)

为了进一步分析UNet++网络和融合型UNet++网络之间ROI误分类情况,从训练集中随机划分99幅带标注的图像作为测试集,用余下的数据重新训练UNet++网络和融合型UNet++网络。根据模型在测试集上的预测结果,绘制ROC曲线,如图 7所示,蓝色和红色分别表示UNet++和融合型UNet++预测结果的ROC曲线。由图 7可见,两种网络结构均表现对胎儿头部图像进行良好的像素级分类。但是融合型UNet++的ROC曲线下面积比UNet++略大,其在抑制ROI误分割上表现优于UNet++网络。

图 7 UNet++及融合型UNet++预测ROC曲线
Fig. 7 ROC curve of UNet++ and fusion UNet++

最后,本文对U-Net、UNet++和融合型UNet++的预测结果进行比较。图 8分别说明了U-Net、UNet++和融合型UNet++的预测结果。图 8(d)显示U-Net、UNet++、融合型UNet++等模型的头部轮廓椭圆拟合结果。在头部边缘拟合时,拟合算法将进一步改善头围测量精度,即当图像中存在若干小面积误分割区域时,检测边缘时将提取出多个预测边缘,这些边缘中仅有一个是正确的胎儿头部边缘。在椭圆拟合时,以周长最长的边缘作为拟合目标,忽略其他预测边缘,该处理能去除图像中错误预测的头部区域,正确拟合胎儿头部边缘。在图 8第1行中,在头部边缘较完整清晰、其他部位相似结构不明显的情况下,所有模型均能准确分割出胎儿头部。在第2行中,在胎儿颅骨边缘不完整的情况下,3个模型也能分割出胎儿头部ROI,并拟合头部轮廓曲线。在第3行中,当胎儿的头部边界模糊、头部和周围组织灰度、纹理等结构相似时,U-Net会将周围的组织错误分类为头部区域,UNet++和融合型UNet++能准确定位并分割出胎儿头部ROI。在第4行中,当超声图像中存在与胎儿头部相似的结构区域时,U-Net网络的错误分割区域面积大于UNet++,而UNet++的错分区域又大于融合型UNet++。将3个模型最终拟合曲线放在图 8第4列同一位置进行比较,蓝色表示U-Net的结果,绿色表示UNet++的结果,红色代表融合型UNet++的结果。从中可以看出,在边界清晰、颅骨完整图像中,3个模型分割结果一致,无明显差别。当图像边界模糊、图像中与头部相似结构面积较大时,模型表现差异较大,红色线更接近真实轮廓线。因此,在头部边界模糊和存在较大相似结构干扰区域的超声图像中,融合型UNet++能准确识别胎儿头部区域,实现目标精准分割,其模型效果优于常规的U-Net和UNet++。

图 8 U-Net、UNet++、融合型UNet++预测结果对比
Fig. 8 Comparison of prediction results of U-Net, UNet++ and fusion UNet++ ((a) U-Net; (b) UNet++; (c) fusion UNet++; (d) fitting ellipse)

为全面评估模型的性能,使用Dice系数、HD距离和头围AD等3项指标对模型进行定量评估。在表 3中,融合型UNet++的深层输出和融合输出的指标相近,深层输出的结果略优于融合输出,两者均优于常规的UNet++。由此可见,通过对UNet++融合后的特征进行监督,可以提升网络整体性能,但是因中层特征较粗糙,融合输出效果略差于深层输出。本文让融合特征对整体网络起到监督学习的作用,促进网络最大限度地学习图像特征,进一步提升深层输出的预测精度。融合型UNet++与UNet++相比较,融合型UNet++模型表现优于UNet++_5,且参数量仅是UNet++_5的1/4,与UNet++_4相比,参数量相差不大。该结果表明,融合型UNet++能够在不增加网络参数量情况下取得很好的分割性能。3种网络结构的头围测量误差均小于医学研究人员的测量误差,融合型UNet++表现最好,与医学研究人员的测量结果相比,所有评估指标均显著提升。结果表明,本文方法可以有效辅助缺乏经验的医生完成胎儿头围测量。

表 3 本文方法与医学研究人员及U-Net和UNet++的结果比较
Table 3 Comparison of results between the proposed method and medical researcher, U-Net, UNet++

下载CSV
方法 Dice ± std/% HD ± std/mm AD ± std/mm 参数量/M
观察者2 (van den Heuvel等人, 2018) 97.22±1.23 1.76±1.08 3.63±2.93 -
U-Net 97.35±7.67 1.51±3.10 2.15±2.93 7.77
UNet++_4 97.92±1.36 1.30±0.87 2.03±1.99 9.04
UNet++_5 98.00±1.15 1.24±0.72 1.92±1.82 36.46
fusion UNet++(融合输出) 98.05±1.06 1.21±0.69 1.84±1.74 9.08
fusion UNet++(深层输出) 98.06±1.06 1.21±0.69 1.84±1.73 9.08
注:加粗字体为最优结果,“-”表示文献中无此参数。

本文模型除了与已有的U-Net及UNet++分割结果进行比较,还与采用相同数据库的文献及HC18网站上头围测量提交结果中前5名(截止2019年5月28日,若相同队伍多次提交则取排名最高结果)进行比较。van den Heuvel等人(2018)最先使用该数据库进行胎儿头围自动测量方法研究,C方法是van den Heuvel等人(2018)提到的A、B、C 3种不同训练策略中表现最好的模型。从表 4可以看出,本文方法优于van den Heuvel等人(2018)的最优方法。在HC18网站上提交的结果中,本文方法的Dice系数排第3名,HD距离排第2名,头围AD排第10名,取得了很好的胎儿头围测量结果。

表 4 本文方法与其他研究及挑战赛方法的结果比较
Table 4 Comparison of results between the proposed method and other papers and challenges

下载CSV
方法 Dice±std/% HD±std/mm AD±std/mm
C方法(van den Heuvel等,2018) 97.10±2.73 1.83±1.60 2.83±3.16
挑战赛第1名 98.09±0.95 1.19±0.66 1.76±1.66
挑战赛第2名 93.31±1.93 6.62±3.22 1.78±1.67
挑战赛第4名 97.94±1.34 1.26±0.70 1.81±1.69
挑战赛第5名 97.94±1.34 1.22±0.77 1.81±1.69
本文 98.06±1.06 1.21±0.69 1.84±1.73

由于近年来胎儿头围相关的研究极少使用全部3个孕期的超声图像,大多数研究在处于妊娠中期的超声胎儿图像上进行头围测量研究。为此,在妊娠中期胎儿超声图像上,将融合型UNet++模型的预测结果与近几年来在相同孕期图像上的研究结果进行比较。由表 5可以看出,本文超声胎儿头围测量方法在各项指标比较中,均优于其他使用妊娠中期图像评估头围测量精度的方法。

表 5 本文方法与其他研究中的妊娠中期的结果比较
Table 5 Comparison of results between the proposed method and other literatures in the second trimester

下载CSV
方法 孕龄/周 Dice±std/% HD±std/mm AD±std/mm
Rueda等人(2014) 21, 28, 33 97.80±1.04 2.16±1.44 -
C方法(Van Den Heuvel等,2018) 妊娠中期 97.63±1.37 1.61±1.27 2.38±2.38
Sinclair等人(2018) 18~22 98.10±0.70 - 1.80±1.49
本文 妊娠中期 98.24±0.78 1.15±0.59 1.76±1.55
注:加粗字体为最优结果, “-”表示文献中无此参数。

3 结论

针对超声胎儿头部图像边缘检测存在的难点问题,提出一种融合型UNet++模型,先分割ROI,再检测边缘,取得了较好的边缘检测效果。特别是在胎儿头部端到端的分割中,分割效果提升更加明显。一旦网络模型训练完成,预测一幅胎儿超声图像中头部ROI耗时仅18 ms,能达到实时测量胎儿头围的要求。将本文方法与目前在本领域上超声胎儿图像分割算法比较可以看出:1)在同类型网络结构的U-Net、UNet++和加深UNet++中,融合型UNet++网络分割性能优于U-Net、UNet++以及加深的UNet++。融合型UNet++网络参数量比UNet++略有增加,比加深的UNet++大幅度降低,仅为其1/4。2)在使用同一数据库的文献中,本文方法的图像分割及胎儿头围测量精度有很大提升。3)在使用妊娠中期数据的文献中,文献方法包括机器学习方法和深度学习方法,本文方法表现优于其他文献提出的方法。但是,本文方法分割的胎儿头部图像也存在一定的缺点,当图像中子宫壁与羊水形成类似胎儿头部结构的区域面积非常大时,少数图像会将头部以外区域误归类为胎儿头部。由于误分类区域面积较小,在拟合头部曲线时,选择周长最大的边缘,拟合头部轮廓,可以有效解决模型感兴趣区域误分类问题。

参考文献

  • Carneiro G, Georgescu B, Good S, Comaniciu D. 2008. Detection and measurement of fetal anatomies from ultrasound images using a constrained probabilistic boosting tree. IEEE Transactions on Medical Imaging, 27(9): 1342-1355 [DOI:10.1109/TMI.2008.928917]
  • Chen K, Li S L, Tang P. 2009. A method for fetal head ellipse detection in ultrasound image. Journal of Image and Graphics, 14(12): 2478-2482 (陈凯, 李胜利, 唐娉. 2009. 超声图像胎儿颅骨椭圆自动检测方法. 中国图象图形学报, 14(12): 2478-2482) [DOI:10.11834/jig.20091208]
  • Duda R O, Hart P E. 1972. Use of the hough transformation to detect lines and curves in pictures. Communications of the ACM, 15(1): 11-15 [DOI:10.1145/361237.361242]
  • Fitzgibbon A, Pilu M, Fisher R B. 1999. Direct least square fitting of ellipses. IEEE Transactions on Pattern Analysis and Machine Intelligence, 21(5): 476-480 [DOI:10.1109/34.765658]
  • Foi A, Maggioni M, Pepe A, Rueda S, Noble J A, Papageorghiou A T, Tohkaa J. 2014. Difference of Gaussians revolved along elliptical paths for ultrasound fetal head segmentation. Computerized Medical Imaging and Graphics, 38(8): 774-784 [DOI:10.1016/j.compmedimag.2014.09.006]
  • Hartigan J A, Wong M A. 1979. Algorithm AS 136:A K-means clustering algorithm. Journal of the Royal Statistical Society. Series C, 28(1): 100-108 [DOI:10.2307/2346830]
  • Kim H P, Lee S M, Kwon J Y, Park Y, Kim K C and Seo J K. 2018. Automatic evaluation of fetal head biometry from ultrasound images using machine learning[EB/OL].[2019-05-04]. https://arxiv.org/pdf/1808.06150.pdf
  • Li J, Wang Y, Lei B Y, Cheng J Z, Qin J, Wang T F, Li S L, Ni D. 2018. Automatic fetal head circumference measurement in ultrasound using random forest and fast ellipse fitting. IEEE Journal of Biomedical and Health Informatics, 22(1): 215-223 [DOI:10.1109/JBHI.2017.2703890]
  • Lu W, Tan J L, Floyd R. 2005. Automated fetal head detection and measurement in ultrasound images by iterative randomized Hough transform. Ultrasound in Medicine and Biology, 31(7): 929-936 [DOI:10.1016/j.ultrasmedbio.2005.04.002]
  • Ronneberger O, Fischer P and Brox T. 2015. U-Net: Convolutional networks for biomedical image segmentation//Proceedings of the 18th International Conference on Medical Image Computing and Computer-assisted Intervention. Munich, Germany: Springer: 234-241[DOI: 10.1007/978-3-319-24574-4_28]
  • Shelhamer E, Long J, Darrell T. 2017. Fully convolutional networks for semantic segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(4): 640-651 [DOI:10.1109/TPAMI.2016.2572683]
  • Simonyan K and Zisserman A. 2014. Very deep convolutional networks for large-scale image recognition[EB/OL].[2019-05-04]. https://arxiv.org/pdf/1409.1556.pdf
  • Sinclair M, Baumgartner C F, Matthew J, Bai W J, Martinez C J, Li Y W, Smith S, Knight C L, Kainz B, Hajnal J, King A P and Rueckert D. 2018. Human-level performance on automatic head biometrics in fetal ultrasound using fully convolutional neural networks[EB/OL].[2019-05-04]. https://arxiv.org/pdf/1804.09102.pdf
  • Srivastava N, Hinton G, Krizhevsky A, Sutskever T, Salakhutdinov R. 2014. Dropout:A simple way to prevent neural networks from overfitting. The Journal of Machine Learning Research, 15(1): 1929-1958
  • Svetnik V, Liaw A, Tong C, Culberson J C, Sheridan R P, Feuston B P. 2003. Random forest:A classification and regression tool for compound classification and QSAR modeling. Journal of Chemical Information and Computer Sciences, 43(6): 1947-1958 [DOI:10.1021/ci034160g]
  • Tompson J, Goroshin R, Jain A, LeCun Y and Bregler C. 2015. Efficient object localization using convolutional networks//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE: 648-656[DOI: 10.1109/CVPR.2015.7298664]
  • van den Heuvel T L A, de Bruijn D, de Korte C L, van Ginneken B. 2018. Automated measurement of fetal head circumference using 2D ultrasound images. PLoS One, 13(8): e0200412 [DOI:10.1371/journal.pone.0200412]
  • Wu L Y, Xin Y, Li S L, Wang T F, Heng P A and Ni D. 2017. Cascaded fully convolutional networks for automatic prenatal ultrasound image segmentation//Proceedings of 2017 IEEE 14th International Symposium on Biomedical Imaging. Melbourne, VIC, Australia: IEEE: 663-666[DOI: 10.1109/ISBI.2017.7950607]
  • Zhang L, Ye X J, Lambrou T, Duan W T, Allinson N, Dudley N J. 2016. A supervised texton based approach for automatic segmentation and measurement of the fetal head and femur in 2D ultrasound images. Physics in Medicine and Biology, 61(3): 1095-1115 [DOI:10.1088/0031-9155/61/3/1095]
  • Zhang Z L, Zhang X Y, Peng C, Xue X Y and Sun J. 2018. ExFuse: Enhancing feature fusion for semantic segmentation//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 273-288[DOI: 10.1007/978-3-030-01249-6_17]
  • Zhou Z W, Siddiquee M M R, Tajbakhsh N and Liang J M. 2018. UNet++: A nested U-Net architecture for medical image segmentation//Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support. Cham: Springer: 3-11[DOI: 10.1007/978-3-030-00889-5_1]