Print

发布时间: 2022-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210523
2022 | Volume 27 | Number 3




    计算机断层扫描图像    




  <<上一篇 




  下一篇>> 





COVID-19肺部CT图像多尺度编解码分割
expand article info 陆倩杰, 柏正尧, 樊圣澜, 周雪, 许祝
云南大学信息学院, 昆明 650500

摘要

目的 新型冠状病毒肺炎(corona virus disease 2019,COVID-19)患者肺部计算机断层扫描(computed tomography,CT)图像具有明显的病变特征,快速而准确地从患者肺部CT图像中分割出病灶部位,对COVID-19患者快速诊断和监护具有重要意义。COVID-19肺炎病灶区域复杂多变,现有方法分割精度不高,且对假阴性的关注不够,导致分割结果往往具有较高的特异度,但灵敏度却很低。方法 本文提出了一个基于深度学习的多尺度编解码网络(MED-Net(multiscale encode decode network)),该网络采用资源利用率高、计算速度快的HarDNet68(harmonic densely connected network)作为主干,它主要由5个harmonic dense block(HDB)组成,首先通过5个空洞空间卷积池化金字塔(atrous spatial pyramid pooling,ASPP)对HarDNet68的第1个卷积层和第1、3、4、5个HDB提取多尺度特征。接着在并行解码器(paralleled partial decoder,PPD)基础上设计了一个多尺度的并行解码器(multiscale parallel partial decoder,MPPD),通过对3个不同感受野的分支进行解码,解决了编码器部分的信息丢失及小病灶分割困难等问题。为了提升CT图像分割精度,降低网络学习难度,网络加入了深度监督机制,配合多尺度解码器,增加了对假阴性的关注,从而提高模型的灵敏度。结果 在COVID-19 CT segmentation数据集上对本文网络进行了测试。实验结果表明,MED-Net可以有效地应对数据集样本少,以及分割目标的纹理、尺寸和位置变异大等问题。在只有50幅训练图像和50幅测试图像的数据集上,分割结果的Dice系数为73.8%,灵敏度为77.7%,特异度为94.3%;与Inf-Net(lung infection segmentation deep network)网络相比,分别提升了8.21%、12.28%、7.76%。其中,Dice系数和灵敏度达到了目前基于该数据集相同划分方式的先进水平。结论 本文网络提高了COVID-19肺炎CT图像分割精确度,有效解决了数据集的数据量少、小病灶分割难度大等问题,具有全自动分割COVID-19肺炎CT图像的能力。

关键词

新型冠状病毒肺炎(COVID-19); CT图像分割; 多尺度编解码; 深度监督机制; 小病灶分割

Multiscale codec network based CT image segmentation for human lung disease derived of COVID-19
expand article info Lu Qianjie, Bai Zhengyao, Fan Shenglan, Zhou Xue, Xu Zhu
School of Information Science and Engineering, Yunnan University, Kunming 650500, China
Supported by: Yunnan Provincial Major Science and Technology Special Plan Projects(202002AD080001)

Abstract

Objective The corona virus disease 2019 (COVID-19), also known as severe acute respiratory syndrome coronavirus (SARS-CoV-2), has rapidly spread throughout the world as a result of the increased mobility of populations in a globalized world, wreaking havoc on people's daily lives, the global economy, and the global healthcare system. The novelty and dissemination speed of COVID-19 compelled researchers around the world to move quickly, using all resources and capabilities to analyse and characterize the novel coronavirus in terms of transmission routes and viral latency. Early and effective screening of COVID-19 patients and corresponding medical treatment, care and isolation to cut off the transmission route of the novel coronavirus are the key to prevent the spread of the epidemic. Due to the rapid infection of COVID-19, it is very important to screen COVID-19 threats based on precise segmenting lesions in lung CT images, which can be a low cost and quick response method nowadays. Rapid and accurate segmentation of coronavirus pneumonia CT images is of great significance for auxiliary diagnosis and patient monitoring. Currently, the main method for COVID-19 screening is the reverse transcription polymerase chain reaction like reverse transcription-polymerase chain reaction(RT-PCR) analysis. But, RT-PCR is time consuming to provide the diagnosis results, and the false negative rate is relatively high. Another effective method for COVID-19 screening is computed tomography (CT) technology. The CT scanning technology has high sensitivity and enhanced three-dimensional representation of infection visualization. Computed tomography (CT) has been used as an important method for the diagnosis and treatment of patients with COVID-19, the chest CT images of patients with COVID-19 mostly show multifocal, patchy, peripheral distribution, and ground glass opacity (GGO) which is mostly seen in the lower lobes of both lungs; a high degree of suspicion for novel coronavirus's infection can be obtained if more GGO than consolidation is found on CT images; therefore, detection of GGO in CT slices regions can provide clinicians with important information and help in the fight against COVID-19. The current analysis of COVID-19 pneumonia lesions has low segmentation accuracy and insufficient attention to false negatives. Method Our accurate segmentation model based on small data set. In view of the complexity and variability of the targeted area of COVID-19 pneumonia, we improved Inf-Net and proposed a multi-scale encoding and decoding network (MED-Net) based on deep learning method. The computational cost may be caused by multi-scale encoding and decoding. The network extends the encoder-decoder structure in FC-Net, in which the decoder part is on the left column; The middle column is atrous spatial pyramid pooling (ASPP) structure; The right column is a multi-scale parallel decoder which is based on the improvement of parallel partial decoder. In this network structure, HarDNet68 is adopted as the backbone in terms of high resource utilization and fast computing speed, which can be as a simplified version of DenseNet, reduces DenseNet based hierarchical connections to get cascade loss deduction. HardNet68 is mainly composed of five harmonious dense blocks (HDB). Based on 5 different scales, We extract multiscale features from the first convolution layer and the 5 HDB sequential steps of HarDNet68 via a five atrous spatial pyramid pooling (ASPP). Meanwhile, as a new decoding component, a multiscale parallel partial decoder (MPPD) is based on the parallel decoder (PPD), which can aggregate the features between different levels in parallel. By decoding the branches of three different receptive fields, we have dealt with information loss issues in the encoder part and the difficulty of small lesions segmentation. Our deep supervision mechanism has melted the multi-scale decoder into the true positive and true negative samples analyses, for improving the sensitivity of the model. Result Current COVID-19 CT Segmentation provides completed segmentation labels as a small data set. This research is improved based on Inf-Net, and the model structure is simple, the edge attention module(EA) is not introduced, and the reverse attention module(RA) is not quoted, only one MPPD is used to optimize the network stricture. The quantitative results show that MED-Net can effectively cope with the problems of fewer samples in the small dataset, the texture, size and position of the segmentation target vary greatly. On the data set with only 50 training images and 50 test images, the Dice coefficient is 73.8%, the sensitivity is 77.7%, and the specificity is 94.3%. Compared with the previous work, it has increased by 8.21%, 12.28% and 7.76% respectively. Among them, Dice coefficient and sensitivity have reached the most advanced level based on the same division mode of this data set. Simultaneously the qualitative results address that the segmentation result of the proposed model is closer to ground-truth in this experiment. We also conducted ablation experiments, that the use of MPPD has obvious effects to deal with small lesions area segmentation and improving segmentation accuracy. Conclusion Our analysis shows that the proposed method can effectively improve the segmentation accuracy of the lesions in the CT images of the COVID-19 derived lungs disease. Our segmentation accuracy of MED-Net is qualified. The quantitative and qualitative results demonstrate that MED-Net is relatively effective in controlling edges and details, which can capture rich context information, and improve sensitivity. MED-Net can also effectively resolve the small lesions segmentation issue. For COVID-19 CT Segmentation data set, it has several of qualified evaluation indicators based on end-to-end learning. The potential of automatic segmentation of COVID-19 pneumonia is further facilitated.

Key words

corona virus disease 2019(COVID-19); CT image segmentation; multi-scale codec; depth monitoring mechanism; small lesions segmentation

0 引言

自新型冠状病毒肺炎(corona virus disease 2019, COVID-19)爆发以来,迅速在全球范围内传播,对人类生命安全构成了严重的威胁。

Wang等人(2020)提出核酸检测(RT-PCR)是筛选COVID-19病例的主要方法。但是该方法存在一定缺点,如检测试剂不足、检测时间长、灵敏度较低等,因此需要进一步加快检测速度和降低成本。为了向患有新冠病毒的危重病人提供即时和适当的临床支持,Mahmud等人(2020)提出的胸部X射线和计算机断层扫描(computer tomography, CT)的自动筛查已作为COVID-19诊断的重要信息来源。CT扫描能作为COVID-19诊断的依据在于Li等人(2020)指出其具有较高的敏感性和增强的3维表现感染可视化的特点。虽然CT检查被证明了是一种低成本、准确、高效的新冠肺炎早期筛查和诊断工具,但是需要更加专业的放射科医生。然而此次疫情却面临着传播范围广、感染人数过多、专业的放射科医生严重缺乏等挑战。因此,相继开发出计算机辅助系统,并期望用于自动CT扫描筛查。

由于神经网络的快速发展,将视觉影像信息转化为深层次特征信息有助于减少人工操作、提高精准定量分析的效率(张楠等, 2020)。Shi等人(2021)提出深度学习系统可以通过放射成像来检测感染新冠肺炎的患者。基于深度学习的COVID-19肺炎分割方法也在逐步开发,例如Yazdani等人(2020)提出了一个带有残差连接和注意力觉察单元的模型,可用来预测新冠肺炎患者与阴性的关系。受到深度卷积神经网络的启发,Gunraj等人(2021)提出了一种增强型深度神经网络,可以通过更大、更多样化的学习方法从胸部CT图像中检测COVID-19。目前人们针对COVID-19肺炎诊断提出的深度学习方法中,大多是集中在COVID-19肺炎的识别上。由于在CT扫描中获取肺部感染的高质量像素级注释是昂贵且耗时的,只有一个由MedSeg Team(2020)提出的数据集(COVID-19 CT Segmentation)提供了100张分割标签,所以很少有方法对COVID-19肺炎病灶进行精确分割。

目前,COVID-19患者肺炎CT图像中的病灶部位的分割存在以下3点困难:

1) COVID-19的病灶纹理、大小和位置变化较大,且与正常组织间差异较小,为分割模型的构造带来了较大的挑战。同时,像COVID-19中的小病灶区域,也是语义分割和目标检测网络中面临的一个主要难题。

2) 数据的收集和标注十分困难。目前的方法大多是使用具有100个注释切片的COVID-19 CT segmentation数据集来开发新冠肺炎分割方法。

3) 尽管也有一些方法,如Inf-Net提出了一种半监督的分割方式,但是该方法较为复杂、生成伪标签耗时巨大、无法进行端到端的分析,而且数据集容易出现假阴性的问题没有得到有效解决。

为了准确地对COVID-19患者肺炎CT图像中的病灶部位进行分割,本研究针对COVID-19 CT segmentation数据集,提出了一个在小数据集上也能准确分割的模型。在只有50幅图像的训练集和50幅图像的测试集上,也达到了73.8%的平均骰子系数、77.7%的灵敏度和94.3%的特异度。本文模型有效地提高了分割精度、增强了对假阴性的关注度,并且很好地解决了小病灶分割困难等问题。其中,平均骰子系数和灵敏度都达到了目前基于该数据集相同划分方式的先进水平。

1 相关工作

卷积神经网络(convolutional neural network, CNN)发展迅速,已应用在不同的计算机视觉领域,并且在医学图像分割任务中也得到了广泛的应用。

Shelhamer等人(2017)提出了用于图像分割任务的全卷积网络(fully convolution networks, FCN),证明了使用端到端训练的卷积神经网络对图像中的每个像素进行分类是现有分割中较先进的技术。Ronneberger等人(2015)在全卷积语义分割网络的基础上提出了包含压缩路径和扩展路径的对称U形网络U-Net,该网络此后广泛地应用在医学图像领域中。Zhou等人(2018)提出了U-Net++对U-Net中的跳跃连接方式进行改进,拓展了U型结构,解决了上采样和下采样带来的一系列问题。

最近几年,卷积神经网络在医学图像语义分割中取得了越来越好的实验结果,多数都是使用了更好的CNN,或者是引入了注意力机制模块,前者的例子包括Diakogiannis等人(2020)提出的ResUNet、Jha等人(2019)提出的ResUNet++和Jha等人(2020)提出的DoubleU-Net,通过使用更好的主干,使得网络具有更强的识别能力,从而具有更强的特征提取能力。后者是增加注意力模块,有利于网络将注意力集中在更加需要提取的特征,有利于处理不同尺寸的分割图像,提高分割精度。注意力在计算机视觉领域也得到了很广泛的应用。方成和柏正尧(2021)在特征提取网络中加入注意力机制,增加了特征图的全局上下文的相关性。郭宁和柏正尧(2021)将注意力机制引入网络的解码部分,通过增大关键信息权重以突出目标区域抑制背景像素干扰。

Fan等人(2020)提出了边缘注意模块和反向注意模块来关注病灶中的边缘信息和小病灶区域。虽然特异度得到了很大提升,但是对于小病灶和纹理复杂的病灶区域,分割效果依然不理想,灵敏度不高。Valanarasu等人(2021)提出了KIU-Net(kite,KI),该网络在U-Net的基础上增加了一个限制感受野的分支,以增加对小目标区域及边缘信息的关注度。

受KIU-Net的启发,针对COVID-19肺炎病灶区域呈现不同尺度的特点,本文提出了一种基于深度学习的多尺度编解码网络(MED-Net)用于COVID-19肺炎的自动分割。首先本文网络以HarDNet68为特征提取的主干,该网络为DenseNet的精简版,在延用了DenseNet特征重用,深度监督等特点的同时,降低了网络的内存占用。HarDNet68主要由5个harmonic dense block(HDB)组成,第2个和第3个的输出特征图尺寸相同,后面的HDB输出特征图尺度依次减半。每个HDB后面接着用一个1×1的卷积核来调整特征通道数。为了提取到不同尺度的特征,本文用空洞空间卷积池化金字塔(atrous spatial pyramid pooling, ASPP)分别对HarDNet68的第1个卷积层和第1、3、4、5个HDB提取多尺度特征。最后设计了一个多尺度并行解码器(multiscale parallel decoder, MPPD),通过3个并行解码器(parallel decoder, PPD)对编码器部分输出的5个特征图$({\boldsymbol{f}_{0}}, {\boldsymbol{f}_{1}}, {\boldsymbol{f}_{2}}, {\boldsymbol{f}_{3}}, {\boldsymbol{f}_{4}})$$({\boldsymbol{f}_{4}}, {\boldsymbol{f}_{3}}, {\boldsymbol{f}_{2}})、({\boldsymbol{f}_{3}}, {\boldsymbol{f}_{2}}, {\boldsymbol{f}_{1}})、({\boldsymbol{f}_{2}}, {\boldsymbol{f}_{1}}, {\boldsymbol{f}_{0}})$分别进行聚合再解码,以兼顾不同感受野的目标。实验证明,该解码器能够很好地解决编码过程中信息的丢失问题,提高分割精度,同时对假阳性和假阴性之间的比例有一个很好的分配效果,分割结果能够更多关注假阴性,在保证高特异度的同时,有效提高了灵敏度。

2 方法

2.1 网络架构

本文网络结构如图 1所示。该网络延用了全卷积网络(fully convolutional network, FC-Net)中的编码器-解码器结构。其中左边为编码器部分,以HarDNet为主干进行粗略的特征提取;中间用空洞空间池化金字塔结构(ASPP)提取多尺度特征;右边为基于并行解码器(PPD)改进的多尺度并行解码器(MPPD)。在下文中将具体描述文中所提及的编码器、解码器以及深度监督机制。

图 1 MED-Net网络架构
Fig. 1 MED-Net network architecture

2.2 编码器

Huang等人(2021)提出了HarDNet-MSEG,该网络以HarDNet68为主干,通过感受野模块(receptive field block, RFB)输出3层高级特征层,仅仅用了一个并行型解码器(PPD)对该3层特征层进行解码,就在息肉分割中达到了当时最优效果。HarDNet可以看做是DenseNet的精简版,减少了来自DenseNet的大部分层连接,以降低级联损耗。HarDNet突出的特点是低内存占用率,且可以达到与其他网络相同的精度。本文网络的编码器以HarDNet68作为特征提取的主干。由于COVID-19肺炎病灶区域复杂,在不同阶段,其纹理、大小、形状都不相同,在考虑高级特征的同时,还要重点关注低级特征。HarDNet68的第1个卷积层和第1个HDB含有丰富的低级特征,第2、3个HDB的输出特征尺度相同,由于第2个HDB无论对低级特征还是高级特征的贡献都不够,为了减少计算参数,本文没有对第2个HDB进行特征提取。因此本文网络分别对HarDNet68的第1个卷积层和第1、3、4、5个HDB用ASPP进行特征提取(如图 1所示,对应网络中子模块的第1、4、9、12、15层),特征图的尺寸分别为176×176、88×88、44×44、22×22、11×11。

ASPP在SPP的基础上引入了空洞卷积,在增加感受野的同时弥补了池化层带来的信息丢失等问题,可以更好地提取多尺度特征。其结构如图 2所示,分别采用了1个1×1卷积和3个3×3的空洞率为rates={6, 12, 18}的空洞卷积,使得输出特征层中的神经元包含多个感受野大小,对新冠肺炎感染信息进行编码,最终提高分割性能。

图 2 ASPP结构图
Fig. 2 ASPP structure diagram

2.3 多尺度并行解码器(MPPD)

作为一种新的解码组件,并行解码器可以通过并行来聚合不同层级之间的特征,并且具有计算速度快、占用显存小等优点。其结构如图 3所示。

图 3 PPD的结构图
Fig. 3 Structure diagram of PPD

其输出结果的形式可以表示为

$ \boldsymbol{OUT}=C(C(C(C(C(U(\boldsymbol{X}_{1}))×\boldsymbol{X}_{2}+\\ \;\;\;\;\;C(U(\boldsymbol{X}_{1}))))+C(U(U(\boldsymbol{X}_{1})))×\\ \;\;\;\;\;\;\;\;\;\;C(U(\boldsymbol{X}_{2}))×\boldsymbol{X}_{3})) $ (1)

式中,$C$表示卷积、$U$表示2倍上采样、+表示维度拼接、×表示相乘,${\boldsymbol{X}_{1}}、{\boldsymbol{X}_{2}}、{\boldsymbol{X}_{3}}$分别为3个不同尺度的输入特征图。

同样地,为了应对COVID-19病灶种类多、大小不一和病灶形状复杂等问题,解码器部分依然采用多尺度的方式。本文设计了一个基于PPD的多尺度并行解码器(MPPD)。如图 4所示,对编码器部分输出的5个尺度的特征图$({\boldsymbol{f}_{0}}, {\boldsymbol{f}_{1}}, {\boldsymbol{f}_{2}}, {\boldsymbol{f}_{3}}, {\boldsymbol{f}_{4}})$,该解码器用了3个PPD解码组件分别对特征层$({\boldsymbol{f}_{4}}, {\boldsymbol{f}_{3}}, {\boldsymbol{f}_{2}})、({\boldsymbol{f}_{3}}, {\boldsymbol{f}_{2}}, {\boldsymbol{f}_{1}})、({\boldsymbol{f}_{2}}, {\boldsymbol{f}_{1}}, {\boldsymbol{f}_{0}})$进行特征融合,得到了3个具有不同尺度的解码输出特征图$({\boldsymbol{F}_{1}}, {\boldsymbol{F}_{2}}, {\boldsymbol{F}_{3}})$。最后将该3个特征图进行拼接再降维,以更好地融合多尺度特征,增加上下文的语义信息。其中为了提高资源利用率,降低模型的计算参数,对于每一次拼接操作,都会后接一个32×1×1的卷积核进行降维。

图 4 多尺度并行解码器
Fig. 4 Multi-scale parallel decoder

图 4可以看出,每个并行解码器输出特征图的尺度是不同的,因此首先需要将其都调整到相同的尺度(176×176),以便后面进行维度的拼接。其次,对于每个并行解码器(PPD),其输出通道数都调整到32维。对于最后的输出特征图,本文采用一个1×1的卷积核将其降维到1维,再进行2倍上采样操作得到最终的预测结果图。

2.4 多尺度监督机制

为了使模型的分割效果更精准,并没有使用文献中普遍采用的注意力机制去给特征通道或者像素点分配权重。对于病灶区域种类多、形状大小不一、复杂程度不尽相同的小样本数据来说,实验证明,添加注意力机制容易造成分割重心集中在某种病灶区域上,使得模型会更加关注假阳性,造成灵敏度下降。为了兼顾灵敏度和特异度,本文网络采用多尺度监督机制,对不同尺度特征的解码结果进行深度监督。

图 5所示,对于多尺度并行解码器输出的3种尺度的特征图都用1×1的卷积核降维到1维,然后分别进行了8倍上采样、4倍上采样和2倍上采样,以达到与输入图片相同的尺寸。最后加入损失函数,对其分割过程进行监督,优化网络模型,降低学习难度。

图 5 多尺度监督机制
Fig. 5 Multi-scale supervision mechanism

3 实验

3.1 数据集

本文实验在数据集COVID-19 CT segmentation上进行。该数据集来自意大利医学和介入放射学会,包括来自60名新冠肺炎患者的100幅轴位CT图像。放射科医生使用3种标签对图像进行分割:肺磨玻璃结节(ground glass opacity)、肺实变(consolidation)和胸腔积液(hydrothorax)。

3.2 数据预处理

为了便于比较,实验按照Inf-Net网络中的划分方法,将数据集划分为50%的训练集和50%的测试集。实验中将3种病灶区域(肺磨玻璃结节、肺实变和胸腔积液)集中放在一起作为分割目标,以应对数据集中存在的类别不平衡问题。由于训练数据较少,为了提高网络的鲁棒性,降低过拟合,实验将数据缩放为352×352像素和归一化处理。

3.3 评估指标

为了评估该模型的性能,本实验使用了与Inf-Net相同的6个指标:Dice系数、灵敏度(sensitivity, SE)、特异度(specificity, SP)、结构度量($S_{a}$)、增强对准度量($E^{m}_{\phi }$)和平均绝对误差(mean absolute error, MAE)。

1) Dice系数:用于评估预测结果和ground-truth的重叠率,其表达如式(2)所示,$TP$是被正确分类为病灶的像素数;$FP$是被错误分类为病灶的像素数;$FN$是被错误分类为背景的像素数,计算为

$ Di=\frac{{2TP}}{{2TP+FP+FN}} $ (2)

2) 灵敏度(SE):也称为真阳性率、召回率,用于衡量正确识别真阳性样本的比率,计算为

$ Se=\frac{{TP}}{{TP+FN}} $ (3)

3) 特异度(SP):也称为真阴性率、查全率,用于衡量正确识别真阴性样本的比率,计算为

$ Sp=\frac{{TN}}{{TN+FP}} $ (4)

4) 结构度量($S_{a}$):用于衡量预测图和真实标签之间结构的相似性。计算为

$ S_{a}=(1-α)×S_{{\rm{o}}}(S_{{\rm{p}}}, G)+α×S_{{\rm{r}}}(S_{{\rm{p}}}, G) $ (5)

式中,$S_{\rm{o}}$是目标感知相似系性;$S_{\rm{r}}$是区域感知相似性;${α}$是目标感知相似系性与区域感知相似性之间的平衡系数,通常取0.5。$G$代表真实标签;$S_{\rm{p}}$代表预测结果。

5) 增强对准度量($E^{m}_{\phi }$):用于评估两个二值映射之间的局部和全局相似性。计算为

$ E_{\phi}^{m}=\frac{1}{w \times h} \sum\limits_{x}^{w} \sum\limits_{y}^{h} \boldsymbol{\phi}\left[S_{p}(x, y), G(x, y)\right] $ (6)

式中,$w$$h$分别代表真实标签的宽和高;${\boldsymbol{\phi }}$代表增强对齐矩阵,将预测结果$S_{\rm{p}}$转换成阈值为0~255的二进制掩码。

6) 平均绝对误差(MAE):用于评估预测图和ground-truth之间的误差。

$ M A E=\frac{1}{w \times h} \sum\limits_{x}^{w} \sum\limits_{y}^{h} \boldsymbol{\phi}\left[S_{\mathrm{p}}(x, y)-G(x, y)\right] $ (7)

3.4 损失函数

在图像分割领域,导致小物体分割比较困难的原因之一是采用了逐像素交叉熵损失函数。交叉熵损失函数的方法会给所有的像素分配同样的权重,由此会导致训练过程中学习到的特征偏向于像素数较多的类,很难学习到较小物体的特征。为了解决这个问题,Qin等人(2019)提出了对二进制交叉熵(binary cross entropy,BCE)损失进行加权的思想,通过增加加权交并比(intersection over union, IOU)损失来提升硬像素的权重。因此,本文网络中将分割损失函数$L_\rm{seg}$定义为加权IOU损失和加权二进制交叉熵(BCE)损失之和,即

$ L_{\rm{seg}}=aL_{\rm{IOU}}+bL_{\rm{BCE}} $ (8)

式中,$a、b$分别为IOU损失和二进制交叉熵损失的加权系数,通常都取1。

对于每一个并行解码器的输出,都引入伴随目标函数。最终目标函数可表示为

$ L_{\mathrm{to}}=L_{\mathrm{seg}}\left(G_{\mathrm{s}}, S_{\mathrm{g}}^{\mathrm{up}}\right)+\sum\limits_{i=1}^{3} L_{\mathrm{seg}}\left(G_{\mathrm{s}}, S_{i}^{\mathrm{up}}\right) $ (9)

式中,${L_{{\rm{seg}}}}\left({{G_{\rm{s}}}, S_{\rm{g}}^{{\rm{up}}}} \right)$为最终多尺度并行解码器输出的分割损失,$\sum\limits_{i = 1}^3 {{L_{{\rm{seg}}}}} \left({{G_{\rm{s}}}, S_i^{{\rm{up}}}} \right)$为每个子解码器的输出的分割损失。

3.5 实验细节及结果

本文网络基于Pytorch实现,并由RTX3060GPU加速。使用Adama优化器进行参数优化,学习率设定为10^{-4},权重衰减(weight decay)系数设置为0.1,每50个epoch进行一次权重衰减,batch size设置为8。总共训练100个epoch, 大约需要15 min。选择第80个epoch的训练权重为最终的结果,在50幅图像的测试集上的评估结果分别0.738的骰子(Dice)系数、0.777的灵敏度、0.943的特异度、0.776的结构度量、0.903的增强对准度量和0.070的平均绝对误差。为了验证本文网络的性能,分别进行了定量分析和定性分析。

3.5.1 定量结果

定量结果的分析如表 1所示。本文网络的Dice系数、灵敏度(SE)、增强对准度量($E^{m}_{\phi }$)和平均绝对误差(MAE)4个指标均明显优于其他基于该数据集的分割网络。特异度(SP)和结构度量($S_{α}$)也达到了目前较先进的水平。其中,Fan等人(2020)提出的Inf-Net采用了边缘注意力模块(edge attention module, EA)和反向注意力模块(reverse attention module, RA), 取得了比较好的分割结果。但是由于其在边缘注意力模块中需要提前计算分割区域的边界,过程复杂且不能进行端到端的分析。毛丽和李秀丽(2020)提出的RCB-UNet++(residual convolutional block,RCB)在U-Net++的基础上引入了残差块和注意力机制模块,在骰子系数和特异度两个指标上得到了较大的提升。本文网络以Inf-Net为基础,模型结构比较简单。既没有引入边缘注意力模块(EA),也没有引用反向注意力模块(RA),仅仅使用了一个多尺度的并行解码器(MPPD)对网络结构进行优化,在没有任何注意力机制的前提下,Dice系数、灵敏度、增强对准度量($E^{m}_{\phi }$)和平均绝对误差(MAE)在Inf-Net的基础上分别提升了8.21%、12.28%、7.76%和1.46%。虽然结构度量($S_{α}$)下降了0.064%,但是也达到了目前比较先进的水平。

表 1 不同模型在该测试集上的指标对比
Table 1 Comparison of the indicators of the different models on the test set

下载CSV
模型 指标
Dice SE SP $S_{α}$ $E^{m}_{\phi }$ MAE
U-Net(Ronneberger等,2015) 0.439 0.534 0.858 0.622 0.625 0.186
Attention-UNet(Oktay等,2018) 0.583 0.637 0.921 0.744 0.739 0.112
Gated-UNet(Schlemper等,2019) 0.623 0.658 0.926 0.725 0.814 0.102
Dense-UNet(Li等,2018) 0.515 0.594 0.840 0.655 0.662 0.184
U-Net++(Zhou等,2018) 0.581 0.672 0.902 0.722 0.720 0.120
Inf-Net(Fan等,2020) 0.682 0.692 0.943 0.781 0.838 0.082
RCB-UNet++(毛丽和李秀丽,2020) 0.715 0.754 0.952 0.769 0.884 0.073
MED-Net 0.738 0.777 0.943 0.776 0.903 0.070
注:加粗字体为每列最优值。

为了缓解标记数据不足的问题,Fan等人(2020)提出了一种基于随机选择的传播策略的半监督分割框架, 该策略利用大量未标记的CT图像生成伪标签来有效地扩充训练数据集。实验证明,该策略能够大大提升网络的分割性能,但是生成伪标签的过程非常复杂且耗时,该方法生成伪标签大概需要50 h,对于1 600张伪标签的训练,在batch size为24的前提下也需要3 h,且无法进行端到端分析。

表 2所示,可以看出,MED-Net无需进行任何的数据处理,也无需加任何的注意力模块,仅50幅图像的训练集,100个epoch训练15 min就达到了与Semi-Inf-Net差不多的性能,且灵敏度提升了6.69%,证明了MED-Net的有效性。

表 2 MED-Net与Semi-Inf-Net在该测试集上的指标对比
Table 2 Comparison of the indicators between MED-Net and Semi-Inf-Net on this test set

下载CSV
模型 Dice SE SP $S_{α}$ $E^{m}_{\phi }$ MAE
Semi-Inf-Net 0.739 0.725 0.960 0.800 0.894 0.064
MED-Net 0.738 0.777 0.943 0.776 0.903 0.070
注:加粗字体为每列最优值。

3.5.2 定性结果

为了验证MED-Net在分割精度、灵敏度以及对小物体分割方面的提升,本文分别用U-Net、U-Net++、Inf-Net、Semi-Inf-Net、MED-Net进行分割实验。

结果如图 6所示,由图 6中的分割结果可知,MED-Net的分割效果是最接近真实标签的。在没有任何注意力机制的前提下,MED-Net的分割结果不仅有很好的全局信息,且边缘和细节把控都比另外几个网络要好。其次,对于图 6中第3排形状特别复杂的小病灶区域,MED-Net也完整地把病灶分割了出来,很少有多分割或者漏分割的情况,证明了MED-Net能够有效地解决分割目标的纹理、尺寸和位置高变异的问题。

图 6 不同模型的分割结果
Fig. 6 Segmentation results of different models
((a)original images; (b)U-Net; (c)U-Net++; (d)Inf-Net; (e)Semi-Inf-Net; (f)ours; (g)labels)

3.6 消融实验

为了验证MED-Net中多尺度并行解码器(MPPD)的有效性。文中分别在一个并行解码器和两个并行解码器的情况下进行消融实验与MED-Net的结果进行对比。

表 3所示,与HardNet_PPD×1相比,HardNet_PPD×2的Dice相似系数和灵敏度有了明显的提升,MED-Net的Dice相似系数和灵敏度又在HardNet_PPD×2的基础上有了明显的提升,证明了采用多尺度并行解码器(MPPD)在解决小病灶区域分割问题和提升分割精度方面有很明显的效果。

表 3 不同PPD个数下的模型性能对比
Table 3 Comparison of models with different number of PPD

下载CSV
模型 指标
Dice SE SP $S_{α}$ $E^{m}_{\phi }$ MAE
HardNet_PPD×1 0.683 0.667 0.947 0.750 0.870 0.083
HardNet_PPD×2 0.710 0.725 0.943 0.760 0.886 0.078
MED-Net 0.738 0.777 0.943 0.776 0.903 0.070
注:加粗字体为每列最优值。

4 结论

COVID-19的病灶纹理、大小和位置变化较大,不同大小的分割目标需要的感受野不同;对病灶形状特别复杂的区域,希望能在提取高级语义信息的同时也能兼顾边缘信息;对于小目标样本,希望能准确地将它们分割出来,让网络更加关注假阴性。针对以上问题,设计的网络需要有不同的感受野分支去兼顾不同大小的目标,且需要多尺度去应对分割目标形状复杂的问题。本文提出的多尺度编解码分割网络MED-Net,通过提取多尺度特征和融合多尺度特征,在COVID-SemiSeg数据集上的实验表明:MED-Net能够很好地弥补下采样过程中造成的信息损失,捕捉丰富的上下文信息,在保证高特异度的同时提高灵敏度。针对COVID-19 CT segmentation数据集,直接通过端到端的学习,在各项评估指标中就达到了当前最前沿的性能,在新冠肺炎的诊断评估中有很大的应用潜力。

由于本文网络仅在一个数据集上进行训练和测试,且数据量极其稀少,该数据集只有100张高质量的标签数据,因此本文网络的潜力还没有完全开发出来。此外,虽然文中用了一个轻量级的骨干网络,但是模型由于是多尺度编码和解码的,因此占用显存比较大。本文网络是通过控制编码器和解码器中每一层的输出维度来控制特征层的线性增长,降低了模型应有的性能潜力。未来将继续考虑引入注意力机制,以及对网络中不必要的特征层进行修剪。

参考文献

  • Diakogiannis F I, Waldner F, Caccetta P, Wu C. 2020. Resunet-a: a deep learning framework for semantic segmentation of remotely sensed data. Isprs Journal of Photogrammetry and Remote Sensing, 162: 94-114 [DOI:10.1016/j.isprsjprs.2020.01.013]
  • Fang C, Bai Z Y. 2021. Multi-scale bone lesion detection based on attention mechanism and deformable convolution. Journal of Image and Graphics, 26(9): 2181-2192 (方成, 柏正尧. 2021. 融合注意力机制与可变形卷积的多尺度骨病变检测. 中国图象图形学报, 26(9): 2181-2192) [DOI:10.11834/jig.200476]
  • Fan D P, Zhou T, Ji G P, Zhou Y, Chen G, Fu H Z, Shen J B, Shao L. 2020. Inf-Net: automatic COVID-19 lung infection segmentation from CT images. IEEE Transactions on Medical Imaging, 39(8): 2626-2637 [DOI:10.1109/TMI.2020.2996645]
  • Guo N, Bai Z Y. 2021. The integration of attention mechanism and dense atrous convolution for lung image segmentation. Journal of Image and Graphics, 26(9): 2146-2155 (郭宁, 柏正尧. 2021. 注意力机制下密集空洞卷积的肺部图像分割. 中国图象图形学报, 26(9): 2146-2155) [DOI:10.11834/jig.200429]
  • Gunraj H, Sabri A, Koff D and Wong A. 2021. COVID-Net CT-2: enhanced deep neural networks for detection of COVID-19 from chest CT images through bigger, more diverse learning[EB/OL]. [2021-06-24]. https://arxiv.org/pdf/2101.07433.pdf
  • Huang C H, Wu H Y and Lin Y L. 2021. HarDNet-MSEG: a simple encoder-decoder polyp segmentation neural network that achieves over 0.9 mean dice and 86 FPS[EB/OL]. [2021-06-24]. https://arxiv.org/pdf/2101.07172.pdf
  • Jha D, Riegler M A, Johansen D, Halvorsen P and Johansen H D. 2020. DoubleU-Net: a deep convolutional neural network for medical image segmentation[EB/OL]. [2021-06-24]. https://arxiv.org/pdf/2006.04868.pdf
  • Jha D, Smedsrud P H, Riegler M A, Johansen D, de Lange T, Halvorsen P and Johansen H D. 2019. ResUNet++: an advanced architecture for medical image segmentation[EB/OL]. [2021-06-24]. https://arxiv.org/pdf/1911.07067.pdf
  • Li L, Qin L X, Xu Z G, Yin Y B, Wang X, Kong B, Bai J J, Lu Y, Fang Z H, Song Q, Cao K L, Liu D L, Wang G S, Xu Q Z, Fang X S, Zhang S Q, Xia J, Xia J. 2020. Using artificial intelligence to detect COVID-19 and community-acquired pneumonia based on pulmonary CT: evaluation of the diagnostic accuracy. Radiology, 296(2): E65-E71 [DOI:10.1148/radiol.2020200905]
  • Li X M, Chen H, Qi X J, Dou Q, Fu C W, Heng P A. 2018. H-DenseUNet: hybrid densely connected UNet for liver and tumor segmentation from CT volumes. IEEE Transactions on Medical Imaging, 37(12): 2663-2674 [DOI:10.1109/TMI.2018.2845918]
  • Mahmud T, Rahman M A, Fattah S A. 2020. CovXNet: a multi-dilation convolutional neural network for automatic COVID-19 and other pneumonia detection from chest X-ray images with transferable multi-receptive feature optimization. Computers in Biology and Medicine, 122: #103869 [DOI:10.1016/j.compbiomed.2020.103869]
  • Mao L, Li X L. 2020. Segmentation of COVID-19 lesions based on deep learning and CT images. Journal of Integration Technology, 9(6): 40-47 (毛丽, 李秀丽. 2020. 基于深度学习和CT影像的新型冠状病毒肺炎病灶分割. 集成技术, 9(6): 40-47) [DOI:10.12146/j.issn.2095-3135.20200921001]
  • MedSeg Team. 2020. COVID-19 CT segmentation dataset[DB/OL]. [2021-06-24]. https://medicalsegmentation.com/covid19/
  • Oktay O, Schlemper J, Le Folgoc L, Lee M, Heinrich M, Misawa K, Mori K, McDonagh S, Hammerla N Y, Kainz B, Glocker B and Rueckert D. 2018. Attention U-Net: learning where to look for the pancreas[EB/OL]. [2021-06-24]. https://arxiv.org/pdf/1804.03999.pdf
  • Qin X B, Zhang Z C, Huang C Y, Gao C, Dehghan M and Jagersand M. 2019. Basnet: boundary-aware salient object detection//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2019). Long Beach, USA: IEEE: 7471-7481[DOI: 10.1109/CVPR.2019.00766]
  • Ronneberger O, Fischer P and Brox T. 2015. U-net: convolutional networks for biomedical image segmentation//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer: 234-241[DOI: 10.1007/978-3-319-24574-4_28]
  • Schlemper J, Oktay O, Schaap M, Heinrich M, Kainz B, Glocker B, Rueckert D. 2019. Attention gated networks: learning to leverage salient regions in medical images. Medical Image Analysis, 53: 197-207 [DOI:10.1016/j.media.2019.01.012]
  • Shelhamer E, Long J, Darrell T. 2017. Fully convolutional networks for semantic segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(4): 640-651 [DOI:10.1109/TPAMI.2016.2572683]
  • Shi F, Wang J, Shi J, Wu Z Y, Wang Q, Tang Z Y, He K L, Shi Y H, Shen D G. 2021. Review of artificial intelligence techniques in imaging data acquisition, segmentation, and diagnosis for COVID-19. IEEE Reviews in Biomedical Engineering, 14: 4-15 [DOI:10.1109/RBME.2020.2987975]
  • Valanarasu J M J, Sindagi V A, Hacihaliloglu I and Patel V M. 2021. KiU-Net: overcomplete convolutional architectures for biomedical image and volumetric segmentation[EB/OL]. [2021-06-24]. https://arxiv.org/pdf/2010.01663.pdf
  • Wang W, Xu Y, Gao R, Lu R, Han K, Wu G, Tan W. 2020. Detection of SARS-CoV-2 in different types of clinical specimens. Jama-Journal of the American Medical Association, 323(18): 1843-1844 [DOI:10.1001/jama.2020.3786]
  • Yazdani S, Minaee S, Kafieh R, Saeedizadeh N and Sonka M. 2020. COVID CT-Net: predicting COVID-19 from chest CT images using attentional convolutional network[EB/OL]. [2021-06-24]. http://arxiv.org/pdf/2009.05096.pdf
  • Zhang N, Zou M Y, Zhou S. 2020. Low-dose CT scan combined with AI auxiliary diagnosis system in diagnosing COVID-19. Chinese Medical Equipment Journal, 41(5): 9-11, 15 (张楠, 邹明宇, 周姝. 2020. CT低剂量扫描结合AI辅助诊断系统在新型冠状病毒肺炎检查中的应用. 医疗卫生装备, 41(5): 9-11, 15) [DOI:10.19745/j.1003-8868.2020100]
  • Zhou Z, Siddiquee M M R, Tajbakhsh N, Liang J. 2020. Unet plus plus: redesigning skip connections to exploit multiscale features in image segmentation. Ieee Transactions On Medical Imaging, 39(6): 1856-1867 [DOI:10.1109/TMI.2019.2959609]
  • Zhou Z W, Siddiquee M M R, Tajbakhsh N and Liang J M. 2018. UNet++: a nested U-Net architecture for medical image segmentation//Proceedings of the 4th International Workshop on Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support. Granada, Spain: Springer: 3-11[DOI: 10.1007/978-3-030-00889-5_1]