Print

发布时间: 2022-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210250
2022 | Volume 27 | Number 3




    计算机断层扫描图像    




  <<上一篇 




  下一篇>> 





基于特征选择与残差融合的肝肿瘤分割模型
expand article info 乔伟晨1, 黄冕2, 刘利军1,3, 黄青松1,4
1. 昆明理工大学信息工程与自动化学院, 昆明 650500;
2. 云南国土资源职业学院信息中心, 昆明 652501;
3. 云南大学信息学院, 昆明 650091;
4. 云南省计算机技术应用重点实验室, 昆明 650500

摘要

目的 高效的肝肿瘤计算机断层扫描(computed tomography,CT)图像自动分割方法是临床实践的迫切需求,但由于肝肿瘤边界不清晰、体积相对较小且位置无规律,要求分割模型能够细致准确地发掘类间差异。对此,本文提出一种基于特征选择与残差融合的2D肝肿瘤分割模型,提高了2D模型在肝肿瘤分割任务中的表现。方法 该模型通过注意力机制对U-Net瓶颈特征及跳跃链接进行优化,为符合肝肿瘤分割任务特点优化传统注意力模块进,提出以全局特征压缩操作(global feature squeeze,GFS)为基础的瓶颈特征选择模块,即全局特征选择模块(feature selection module,FS)和邻近特征选择模块(neighbor feature selection module,NFS)。跳跃链接先通过空间注意力模块(spatial attention module,SAM)进行特征重标定,再通过空间特征残差融合(spatial feature residual fusion module,SFRF)模块解决前后空间特征的语义不匹配问题,在保持低复杂度的同时使特征高效表达。结果 在LiTS(liver tumor segmentation)公开数据集上进行组件消融测试并与当前方法进行对比测试,在肝脏及肝肿瘤分割任务中的平均Dice得分分别为96.2%和68.4%,与部分2.5D和3D模型的效果相当,比当前最佳的2D肝肿瘤分割模型平均Dice得分高0.8%。结论 提出的FSF-U-Net(feature selection and residual fusion U-Net)模型通过改进的注意力机制与优化U-Net模型结构的方法,使2D肝肿瘤分割的结果更加准确。

关键词

肝肿瘤自动分割; 注意力机制; U-Net结构; 特征选择; 残差融合

Feature selection and residual fusion segmentation network for liver tumor
expand article info Qiao Weichen1, Huang Mian2, Liu Lijun1,3, Huang Qingsong1,4
1. Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China;
2. Yunnan Land and Resources Vocational College Information Center, Kunming 652501, China;
3. School of Information, Yunnan University, Kunming 650091, China;
4. Computer Technology Application Key Laboratory of Yunnan Province, Kunming 650500, China
Supported by: National Natural Science Foundation of China (81860318, 81560296)

Abstract

Objective Liver cancer is currently one of the most common cancers with the highest mortality rate in the world. Computed tomography (CT) is a commonly used clinical tumor diagnosis method. It can aid to designate targeted treatment plans based on the shape and location of the tumor measurement. Manual segmentation of CT images has challenged issues, such as low efficiency and the influence of doctors' experience. Hence, an efficient automatic segmentation method is focused on in clinical practice. Liver treatment can benefit from accurate and fast automatic segmentation methods. Due to the low contrast of soft tissue in CT images, the shape and position of liver tumors are highly variable, and the boundaries of liver tumor regions are difficult to identify, most of the tumors area are relatively small, so automatic liver tumor segmentation is a challenging task in practice. The segmentation model is capable to discover the differences between each class accurately. Deep-learning-based models can be divided into three categories: 2D, 2.5D and 3D, respectively. The traditional channel attention module uses the global average pooling (GAP) to squeeze feature map. This operation calculates the average value of the feature map straightforward, resulting in the loss of spatial information on the feature map. The model can focus on the correlation amongst channels and ignore the spatial features of each channel, but segmentation task is related to the spatial information. This research illustrated a liver tumor 2D segmentation model with feature selection and residual fusion to improve the performance of low-complexity models. Method The attention-mechanism-based model optimizes U-Net bottleneck features and redesigned skip connections. In order to meet the characteristics of liver tumor segmentation tasks, we optimized the traditional attention module. Our demonstration facilates the global feature squeeze (GFS) substitute of the global average pooling (GAP) in the traditional attention module. A designed bottleneck feature selection module is based on this attention module. In terms of the diversity of liver and liver tumor segmentation tasks, the feature selection (FS) module and the neighboring feature selection (NFS) module are evolved. The spatial information with the least amount of parameters greatly improves the accuracy of the segmentation task. Both modules can calibrate the channels adaptively. The difference is that the global feature selection module focuses on the conditions of all channels. Each channel proposes a type of semantic feature. The operation of the channel feature is to compress all channels to determine the correlation of all channels. It is suitable for segmentation tasks such as liver segmentation tasks that need to melt all the semantic information into the graph. The adjacent feature association module is oriented adjacent groups of channels and aims to identify the connection of adjacent semantic features, which is suitable for segmentation division tasks, such as liver tumor segmentation tasks. The spatial feature residual fusion (SFRF) module in U-Net skip connection is designated to resolve the semantic gap issue of U-Net skip connection and make full use of the effectiveness of spatial features. The spatial feature residual fusion module fill the semantic gap in the early skip connections via introducing mid-to-late high-level features. In order to avoid excessively affecting the early feature expression, the residual link method is adopted. The module uses 1×1 convolution compression for deep features. The bilinear interpolation to upsample the feature map is conducted following the channel. The skip connections are introduced to implement feature recalibration based on the spatial attention module (SAM). The spatial feature residual fusion module is used to resolve semantic mis-match issue between the front and rear spatial features, so that the features can be sorted out efficiently. Result Our research analysis performed component ablation tests on the LiTS public data set and compared it with the current method. Following the feature selection (FS/NFS) operation in U-Net bottleneck, the model is significantly improved compared to the baseline. The per Dice score of the liver segmentation prediction results is above 95%, which is about 37% better than the error prediction of the baseline. The tumor segmentation prediction scores were all above 65%. The baseline added spatial attention module (SAM) and spatial feature residual fusion (SFRF) module to the skip connection. The FS module and the NFS module achieved the highest per Dice score in liver segmentation and liver tumor segmentation tasks, respectively. In the liver and liver tumor segmentation tasks, per Dice score of 96.2% and 68.4% were obtained, respectively. This analysis result is comparable to 2.5D and 3D. The effect of the model is equivalent, 0.8% higher than the per Dice score of the current 2D liver tumor segmentation model. Conclusion Our demonstration delivered a liver tumor 2D segmentation model based on feature selection and residual fusion. The model realized the function of the channel degree via the bottleneck feature selection module, effectively inhibits the invalid features, and improves the accuracy of the prediction results. To optimize the skip connection and fill the semantic gap of U-Net, the spatial features can be facilitated. The segmentation effect of the model is further improved. The Experiments show that the proposed model has qualified on the LiTS dataset, especially in the 2D segmentation analysis.

Key words

automatic liver tumor segmentation; attention mechanism; U-Net; feature selection; residual fusion

0 引言

肝癌是目前全球死亡率最高且最常见的癌症之一。计算机断层扫描(computed tomography,CT)是临床上常用的肿瘤诊断方法,通过测定肿瘤的形状、位置等信息可帮助医生制订相应的治疗计划。CT图像的手动分割存在效率低下、医生主观经验影响等问题,因此临床实践中迫切需要一种高效的自动分割方法,肝脏治疗可以通过准确快速的自动分割方法获益。然而,由于CT图像中软组织的对比度较低,并且肝肿瘤的形状与位置具有高可变性,同时肝肿瘤区域边界不清楚,大部分肿瘤相对较小,所以肝肿瘤自动分割在实践中是一项艰巨的任务。

为解决肝肿瘤自动分割问题,基于深度学习提出了3类解决方法。1)2D模型。Multiple U-Nets(Chlebus等,2018)在每层收缩路径和扩展路径中采用残差链接增加训练效率并在扩展路径的卷积之前加入概率为0.5的dropout防止网络过拟合,在2D输入情况下取得了领先效果;FED-Net(feature-fusion encoder-decoder network)(Chen等,2019)基于注意力机制设计了一种新颖的特征融合方法,可以将语义信息嵌入到低级特征中,并且替换传统U-Net的收缩路径和扩展路径,分别改为残差卷积块和密集上采样卷积,在跳跃链接部分引入卷积改善前后语义不匹配问题,但未能解决特征冗余问题。2)2.5D模型。Res-U-Net(Han,2017)使用了两个U型结构长跳与短跳连接模型,第1个网络用于粗略的肝脏分割,第2个网络专注于肝脏细致分割,第2个网络经过训练可以进一步分割肝脏和肝肿瘤,模型通过接收5个相邻切片为模型提供上下文信息,但采用多段级联处理逐步细化,导致模型冗余,不易部署。LW-HCN(light-weight hybrid convolutional network)(Zhang等,2019)为降低模型复杂度,替换3D编码器底部卷积为2D卷积,设计了深度和时空分离(depthwise and spatiotemporal separate,DSTS)操作处理3D卷积降低模型复杂度。非线性增强及图割方法(廖苗等,2019)通过组织对比增强图像和边界信息融入图割能量函数,最后使用3维形态学进行后处理实现高精度分割,着重于预处理及后处理过程。结合影像组学方法(刘云鹏等,2020),先经过级联的2D分割模型,然后结果分别经过影像组学分类模型和3D模型减少假阳性并细化分割结果。该方法依赖于后处理消除假阳性以提升分割结果,中间过程效果不佳。3)3D模型。H-DenseU-Net(Li等,2018)使用2D-DenseU-Net模型提取切片内特征,并根据自动上下文算法进行层次聚合,即切片内和切片间混合特征学习体系,分割效果优秀,但3D模型参数量达到千万级,模型庞大且不易训练。CDNN(deep fully convolutional-deconvolutional neural networks)(Yuan,2017)提出一个分层的深度完全卷积-反卷积神经网络模型,第1层用整个CT体素粗分割肝脏区域,第2层进行精细的肝脏分割,第3层进行肝肿瘤分割的补充输入。

上述方法中,2D模型不能充分利用CT图像的片间关联信息,导致分割精度较低,而升高模型维度会导致计算开销激增,对硬件配置有很高要求。同等计算资源下,2D模型可以具有更深的网络结构和更大的过滤器视野,这两点对于模型性能的提升至关重要(Simonyan和Zisserman,2014)。由于U-Net结构(Ronneberger等,2015)在生物图像分割中的优秀表现,通常会将U-Net结构作为基础网络结构。上述3类方法大多采用U-Net作为基础网络,传统U-Net结构如图 1所示,图中C表示各层特征的通道数。

图 1 传统U-Net结构
Fig. 1 Traditional U-Net architecture

U-Net的瓶颈特征由收缩路径收集的高级语义特征组成,这些特征会随着扩展路经传递到最终输出分割图。因此,瓶颈特征对分割结果具有深远影响。瓶颈特征可以在空间上或通道上分解,空间上的特征与分割对象的位置信息相关联,而通道间的特征则集中在有关分割对象的语义类别上(Woo等,2018)。跳跃链接允许模型检索池化操作丢失的空间信息(Drozdzal等,2016),这使得模型可以从收缩路径中传递空间信息到扩展路径,在拼接过程中恢复丢失的空间信息。但是扩展路径的特征来自模型的较深层,通过跳跃链接而来的特征则由模型早期计算得出,收缩路径的特征与扩展路径的特征之间存在语义鸿沟(Ibtehaz和Rahman,2020)。

卷积网络提取的图像特征中存在大量冗余特征,这些冗余特征通常来自除任务目标外的背景或者其他目标,这些特征会对分割结果产生干扰,从而影响模型性能。注意力机制通过启发式搜索的方式对卷积特征进行选择,即注意力机制通过学习要强调或抑制的特征来有效帮助信息在网络内流动(Woo等,2018),最终达到特征选择的目的。压缩激励网络(squeeze-and-excitation networks,SENet)(Hu等,2018)和高效通道注意力网络(efficient channel attention,ECA)(Wang等,2020)等通过注意力模块学习特征通道的重要程度对通道进行校正,由于其出色的表现在计算机视觉领域获得广泛应用,但两者均在压缩特征图时采用全局平均池化(global average pooling,GAP)操作,如图 2所示,该操作直接计算特征图平均值,导致特征图上的空间信息丢失,模型仅能专注于通道间的关联而忽视各个通道空间上的特征,而分割任务与空间信息是密不可分的关系。

图 2 全局平均池化
Fig. 2 Global average pooling

根据上述情况,本文提出一种基于特征选择与残差融合U-Net(feature selection and residual fusion U-Net,FSF-U-Net)的2D分割模型。主要贡献为:1)提出全局特征压缩(global feature squeeze,GFS)操作代替全局平均池化(GAP)操作,并依此设计瓶颈特征选择模块对U-Net瓶颈特征进行选择。2)设计跳跃链接空间特征残差融合模块解决U-Net跳跃链接语义鸿沟问题,充分利用空间特征的有效性。3)针对肝脏及肝肿瘤分割任务的不同情况,对瓶颈特征选择模块进行细化,即全局特征选择模块和邻近特征选择模块。4)本文提出的模型在使用LiTS数据集(Bilic等,2019)的2D肝肿瘤分割模型中取得了当前最佳的平均Dice得分。

1 FSF-U-Net模型结构

本文提出的特征选择与残差融合(FSF-U-Net)模型如图 3所示。与传统U-Net结构相比,FSF-U-Net通过优化收缩路径和扩展路径之间的瓶颈特征表示、增加跳跃链接多级语义特征残差融合两种方法实现高级特征筛选及空间特征的有效融合,并根据不同任务特点适配不同特点的瓶颈特征筛选模块。

图 3 特征选择与残差融合模型总体结构
Fig. 3 Feature selection and residual fusion network(FSF-U-Net)

FSF-U-Net的详细模型结构如图 4(a)所示,该模型由1个4层的收缩路径和1个对称的扩展路径组成,其中收缩路径为不包含全连接层的VGG16(Visual Geometry Group 16-layer net)(Simonyan和Zisserman,2014)卷积网络,每个卷积层包含两个卷积单元,每个卷积单元包括1个3 × 3卷积,1个批标准化层(batch normalization,BN)和1个线性整流函数(rectified linear unit,ReLU)。收缩路径每卷积层间通过步长为2的2 × 2最大池化进行下采样。随着模型层数的增加,特征通道数增加,特征图维度降低,收缩路径的最底层为瓶颈特征。

图 4 FSF-U-Net总体模型及关键组件结构
Fig. 4 The architecture of FSF-U-Net and key components
((a)overall architecture; (b)feature selection module; (c)global feature squeeze module; (d)neighbor feature selection module; (e)spatial attention module; (f)spatial feature residual fusion module)

瓶颈特征部分采用全局特征选择模块(feature selection module,FS)处理肝脏CT图像(图 4(b)),采用邻近特征选择模块(neighbor feature selection module,NFS)处理肝肿瘤CT图像(图 4(d)),两种模块均采用全局特征压缩操作(GFS)压缩特征图(图 4(c)),以最少的参数量增加额外空间信息,极大改善了分割任务的准确率。两种模块均可以自适应地校准通道,区别在于全局特征选择模块考虑所有通道情况,每个通道代表一类语义特征,其在通道特征的操作为压缩全体通道,以确定全体通道间的关联,适用于肝脏分割任务这类需要结合图中全部语义信息的分割任务。邻近特征关联模块考虑相邻$n$组通道的情况,目的在于识别邻近$n$个语义特征间的联系,适用于肝肿瘤分割这类细致划分的分割任务。

跳跃链接部分采用空间注意力模块(spatial attention module,SAM)(图 4(e))和空间特征残差融合模块(spatial feature residual fusion module,SFRF)(图 4(f))提取空间维度的有效信息并解决语义鸿沟问题。空间注意力模块同样使用复杂度低但十分有效的结构,在1个1×1卷积压缩通道后由1个sigmoid函数激活压缩特征图,使其可以重标定空间特征的重要程度,为后续的特征融合做铺垫。空间特征残差融合模块通过在早期跳跃链接中引入中后期的高级特征弥补语义鸿沟问题。为避免过度影响早期特征表达,采用残差链接的方法,模块对深层特征采用1×1卷积压缩通道后,采用双线性插值对特征图进行上采样,结果与SAM模块处理后的浅层特征矩阵相加得到融合特征。

输出分割图需要特征图维度与输入一致,故采用扩展路径增加特征图维度并减少特征通道数。扩展层均采用2倍上采样双线性插值法生成扩展特征图,扩展特征图通过1个卷积单元后与收缩路径同层的高分辨率特征图拼接,得到的特征通过1个卷积单元调整通道数。最后使用1×1卷积输出分割图,维度与原始输入的相同,通道数为1。

2 特征选择与残差融合

2.1 瓶颈特征选择

2.1.1 全局特征选择模块

全局特征选择模块(FS)较SENet的改进是优化原有的全局平均池化(GAP)操作,改用本文提出的全局特征压缩(GFS)操作,如图 4(c)所示,该操作通过矩阵运算在压缩特征图的同时融入空间特征,提高网络的表达能力及泛化性,全局特征压缩模块(GFS)的计算式为

$ f_{\rm{GFS}}(\boldsymbol{X})=\boldsymbol{X}({\rm{softmax}}(\boldsymbol{X}^{{\rm{T}}}\boldsymbol{W}^{{\rm{T}}}_{\rm{A}})) $ (1)

式中,$f_{\rm{GFS}}$表示全局特征压缩操作,输入$\boldsymbol{X}∈{\bf{R}}^{C×HW}$,输出$f_{\rm{GFS}}(\boldsymbol{X})∈{\bf{R}}^{C×1}$$C$是特征图的通道数,$H$$W$分别表示特征图的高和宽。$\boldsymbol{W}^{{\rm{T}}}_{\rm{A}}∈{\bf{R}}^{C×1}$表示1×1卷积矩阵的转置,其目的是将特征图通道数由$C$压缩至1,全局特征选择模块(FS)的计算式为

$ f_{\rm{FS}}(\boldsymbol{X})=σ(\boldsymbol{W}_{E}({\rm{ReLU}}(\boldsymbol{W}_{S}f_{\rm{GFS}}(\boldsymbol{X}))))\\ \;\;\;\;\;\;\;\; Y_{\rm{FS}}(\boldsymbol{X})=F_{S}(f_{\rm{FS}}(\boldsymbol{X}))·\boldsymbol{X} $ (2)

式中,$f_{\rm{FS}}$是全局特征选择操作,$f_{\rm{FS}}(\boldsymbol{X})∈{\bf{R}}^{C×1}$$\boldsymbol{W}_{S}∈{\bf{R}}^{M×C}$表示1×1卷积矩阵,用于压缩通道数,$M$为压缩后的通道数。$\boldsymbol{W}_{E}∈{\bf{R}}^{C×M}$表示1 × 1卷积矩阵,用于恢复通道数为原始维度$C$$σ$为sigmoid函数,其目的为输出各个通道的激活值,范围为[0, 1]。$F_{S}$为空间维度扩展函数,功能为扩展$f_{\rm{FS}}(\boldsymbol{X})$空间维度与输入$\boldsymbol{X}$一致,$Y_{\rm{FS}}∈{\bf{R}}^{C×HW}$为全局特征选择模块(FS)的输出。

2.1.2 邻近特征选择模块

邻近特征选择模块(NFS)在特征图压缩时采用GFS操作,NFS模块的详细结构如图 4(d)所示,其与全局特征选择模块(FS)的区别在于NFS模块关联$n$个相邻的特征通道,有利于更加细微的特征表达,同时可以捕获跨通道交互,适用于处理肝肿瘤CT图像,而FS模块通过压缩全部通道融合全局特征,适合肝脏CT图像这类具有全局位置特点表达需求的数据。NFS的$n$邻近关联可以通过1维卷积操作实现,卷积核的大小为$n$,代表本组通道交互的覆盖范围,为避免通过手动调整$n$,本文采用ECA网络给出的计算公式,具体为

$ n=f_{n}(C)=\left|\frac{\log _{2}(C)}{\gamma}+\frac{\beta}{\gamma}\right|_{\text {odd }} $ (3)

式中,$|t|_{\rm{odd}}$表示与$t$最接近的奇数,$C$表示特征通道数,$γ$$β$数值分别为2和1。邻近特征选择模块(NFS)的计算式为

$ f_{\rm{NFS}}(\boldsymbol{X}, n)=σ(C^{1D}_{n}(f_{\rm{GFS}}(\boldsymbol{X})))\\ Y_{\rm{NFS}}(\boldsymbol{X}, n)=F_{S}(f_{\rm{NFS}}(\boldsymbol{X}, n))·\boldsymbol{X} $ (4)

式中,$f_{\rm{NFS}}$表示邻近特征选择操作,输入为特征图$\boldsymbol{X}∈{\bf{R}}^{C×HW}$和1维卷积核大小$n$,输出$f_{\rm{NFS}}(\boldsymbol{X}, n)∈{\bf{R}}^{C×1}$与输入保持一致。$C^{1D}_{n}$表示卷积核大小为$n$的1维卷积,$σ$为sigmoid函数,其输出激活值对特征图$X$的通道维度进行特征选择。邻近特征选择模块(NFS)输出为$Y_{\rm{NFS}}∈{\bf{R}}^{C×HW}$

2.2 跳跃链接特征融合

2.2.1 空间注意力模块

压缩与激励网络(SENet)提出通道注意力(channel attention,CA)机制以来,scSE(concurrent spatial and channel squeeze & excitation)(Roy等,2018)和CBAM(convolutional block attention module)(Woo等,2018)等相继推出空间注意力机制,其目的在于重新校准特征图的空间位置重要程度,忽略相对不相关的位置,对细粒度图像分割具有积极作用。如图 4(e)所示,本文使用的空间注意力模型采用1×1卷积压缩通道维度至1,不改变特征图的大小,保证空间维度特征一致性,空间注意力模块的计算式为

$ \;\;\;\;\;f_{\rm{SA}}(\boldsymbol{X})=σ(\boldsymbol{W}_{K}\boldsymbol{X})\\ Y_{\rm{SA}}(\boldsymbol{X})=F_{C}(f_{\rm{SA}}(\boldsymbol{X}))·\boldsymbol{X} $ (5)

式中,$f_{\rm{SA}}$表示空间注意力操作,输出$f_{\rm{SA}}(\boldsymbol{X})∈{\bf{R}}^{1×HW}$$\boldsymbol{W}_{K}∈{\bf{R}}^{1×C}$为1×1卷积矩阵,用于压缩通道维度至1,$σ$为sigmoid函数,输出空间维度特征的激活值。空间注意力模块的输出$Y_{\rm{SA}}∈{\bf{R}}^{C×HW}$$F_{C}$为通道维度扩展函数,可通过该函数将函数输入的通道维度扩展至$C$

2.2.2 空间特征残差融合模块

空间特征残差融合模块(SFRF)用于解决跳跃链接带来的语义鸿沟问题。如图 4(f)所示,SFRF接收模型相对浅层特征($k$层)及相对深层特征($k$+1层)为输入,$k$为[1, 4]中的整数。空间特征残差融合模块的计算式为

$ Y_{\rm{SFRF}}(\boldsymbol{X}_{k}, \boldsymbol{X}_{k+1})=\boldsymbol{X}_{k}+F_{\rm{up}}(\boldsymbol{W}_{F}\boldsymbol{X}_{k+1}) $ (6)

式中,$\boldsymbol{X}_{k}∈{\bf{R}}^{C×HW}$为来自$k$层收缩路径的输出特征,$\boldsymbol{X}_{k+1}∈{\bf{R}}^{2C×\overline {HW} }$为来自$k$+1层SFRF的输出特征,仅当$k$ = 4时,$\boldsymbol{X}_{k+1}$为瓶颈特征选择模块的输出,$\overline {HW} $表示$H$$W$大小分别减半。$\boldsymbol{W}_{F}∈{\bf{R}}^{C×2C}$为1×1卷积操作,目的为压缩通道数由$2C$$C$$F_{\rm{up}}$为2倍上采样双线性插值操作,可通过双线性插值的方式对特征图进行扩充,使输出$Y_{\rm{SFRF}}(\boldsymbol{X}_{k}, \boldsymbol{X}_{k+1})∈{\bf{R}}^{C×HW}$$\boldsymbol{X}_{k}$在特征维度上保持一致。

2.3 损失函数

针对数据集存在的正负样本不均衡情况,本文采用二元交叉熵(binary cross entropy,BCE)与骰子损失(Dice loss,DL)加权结合的方式,由于骰子损失(DL)可能会导致梯度剧烈变化从而影响反向传播导致训练困难,所以适当降低DL的权重。损失函数的计算式为

$ L(y,\hat{y} )=ωDL(y,\hat{y} )+(1-ω)BCE(y, {\hat y}) $ (7)

$ \begin{gathered} B C E(y, \hat{y})=-(y \log \hat{y}+(1-y) \log (1-\hat{y})) \\ D L(y, \hat{y})=1-\frac{2|y \cap \hat{y}|+\varepsilon}{|y|+|\hat{y}|+\varepsilon} \end{gathered} $

式中,$y$表示真实的分割图对应值,${\hat y}$为模型预测的分割图对应值,$ω$为两种损失的权重,设置为0.3,$ε$为避免分母为0而设置的平滑项,设置$ε$为1.0。

3 实验

3.1 数据集

使用MICCAI(Medical Image Computing and Computer Assisted Intervention Society) 2017 LiTS Challenge的训练数据集对模型进行测验,该数据集包含来自7个临床机构的131个对比增强的腹部CT扫描。放射科医生对CT扫描数据中的肝脏和肝肿瘤部分进行标注。平面分辨率范围为0.5~1.0 mm,切片厚度范围为0.7~5.0 mm,每个切片均为512 × 512像素。

为降低其他器官和组织无关信息在分割过程中的干扰,本文截取所有CT扫描切片的HU(Hounsfiled unit)值为[-130, 230],所有切片HU值截断后使用归一化压缩至[0, 1]范围内。

实验时,将131个病例随机分为训练集和测试集,训练集包含108个病例,测试集包含23个病例,并将训练集中的108个病例按8 ∶2的比例随机分为训练数据和验证数据,3组数据之间相互独立。

3.2 实验参数

实验环境配置为Intel(R)Silver CPU,NVIDIA TITAN XP(12 G)GPU,128 GB内存,Ubuntu16.04操作系统。输入图像为512 × 512像素,通道数为3。使用Adam作为优化器,学习率采用余弦退火(cosine annealing)策略,初始学习率设置为0.001,最小值为0.000 01,每30轮次重置为初始学习率。训练总轮数为80,批量大小设置为4。数据增强方法为图像水平翻转、图像垂直翻转和图像对比度随机改变。

3.3 模型组件测试

本模型由U-Net作为基础网络(baseline),模型组件包含全局特征选择模块(FS)或邻近特征选择模块(NFS)、空间注意力模块(SAM)、空间特征残差融合模块(SFRF)。预测结果均采用国际上常用的平均Dice得分进行衡量,该标准反映了预测结果与真实结果的相似程度。平均Dice得分的计算式为

$ D_{\text {avg }}\left(\boldsymbol{y}_{i j}, \hat{\boldsymbol{y}}_{i j}\right)=\sum \frac{2\left|\boldsymbol{y}_{i j} \cap \hat{\boldsymbol{y}}_{i j}\right|}{\left|\boldsymbol{y}_{i j}\right|+\left|\hat{\boldsymbol{y}}_{i j}\right|} / N $ (8)

式中,$\boldsymbol{y}_{ij}$${\hat{\boldsymbol{y}}_{ij}}$分别表示第$i$例CT的第$j$张切片的真实分割图与模型预测分割图,$N$表示所有CT切片的总数。

实验测试了邻近特征选择模块(NFS)不同取值的超参数$n$对实验结果的影响,结果如表 1所示。测试模型为基础网络U-Net的瓶颈特征处增加邻近特征选择模块,本次测试的瓶颈特征通道特征维度为1 024,实验结果为5折交叉验证均值。

表 1 不同超参数n下模型的平均Dice
Table 1 The Dice of different hyper parameters n in the NFS module

下载CSV
参数 肝脏 肿瘤
n = 3 0.946 0.636
n = 5 0.951 0.655
n = 7 0.948 0.643
n = 9 0.942 0.633
注:加粗字体为各列最优结果。

不同注意力模块作用在瓶颈特征部分的结果如表 2所示,结果为5折交叉验证均值。其中SE模块和ECA模块都是只作用于通道特征上的注意力模块。scSE模块和CBAM模块都是空间加通道混合注意力模块,两者分别以串联及并联的方式处理空间注意力和通道注意力。结果表明,混合注意力的模式有利于提高分割任务结果,但scSE和CBAM在引入的参数量高于本文提出的FS和NFS模块的情况下,效果低于本文方法。

表 2 不同注意力模块下模型的平均Dice
Table 2 The results of different attention modules adding on the bottleneck

下载CSV
模块 肝脏 肿瘤
SE(Hu等,2018) 0.942 0.640
ECA(n=5)(Wang等,2020) 0.940 0.643
scSE(Roy等,2018) 0.949 0.650
CBAM(Woo等,2018) 0.947 0.648
FS 0.952 0.650
NFS(n=5) 0.951 0.655
注:加粗字体为各列最优结果。

模型组件测试结果如表 3所示,结果为5折交叉验证均值。

表 3 模型关键组件消融实验结果平均Dice
Table 3 The ablation experiment results of key components

下载CSV
模型 肝脏 肿瘤
baseline 0.921 0.633
baseline+FS 0.952 0.650
baseline+NFS(n=5) 0.951 0.655
baseline+SAM 0.945 0.646
baseline+SFRF 0.931 0.639
baseline+SAM+SFRF 0.952 0.653
baseline+FS+SAM 0.957 0.661
baseline+FS+SFRF 0.959 0.674
baseline+NFS(n=5)+SAM 0.955 0.667
baseline+NFS(n=5)+SFRF 0.956 0.676
baseline+FS+SAM+SFRF 0.962 0.682
baseline+NFS(n=5)+SAM+SFRF 0.959 0.684
注:加粗字体为各列最优结果。

表 3可以看出,在分别加入瓶颈特征选择(FS/NFS)操作后,模型相较于基础网络效果明显提升,其中肝脏分割预测结果的平均Dice得分均达到0.95以上,比基础网络的错误预测改善约37%,肝肿瘤分割预测得分均达到0.65以上。基础网络在跳跃链接处分别加入空间注意力模块和空间特征残差融合模块(SFRF)后效果均得到提升,其中单独加入SFRF模块的效果提升有限,分析原因为SFRF模块接收了未经$k$层空间注意力机制与$k$+1层瓶颈特征选择(FS/NFS)的原始U-Net特征,冗余特性重复干扰模型导致训练困难。添加全部组件后,FS模块和NFS模块分别在肝脏分割和肝肿瘤分割任务中达到最高的平均Dice得分。实验结果表明了模型组件的有效性。

3.4 实验可视化结果

包括FS和NFS两种瓶颈特征选择模块的FSF-U-Net与U-Net肝肿瘤分割效果对比如图 5所示,图示结果来自同一测试病例数据。两种FSF-U-Net模型均可准确识别出U-Net未识别出的分割目标,并且比U-Net准确覆盖更大的真实分割面积,从而达到更好的分割效果。FS模块和NFS模块均可以有效提升模型表现,但NFS模块得益于邻近特征关联操作对于细节的把控要优于FS模块。

图 5 分割结果对比
Fig. 5 Comparison of segmentation results
((a)Hu enhanced slices; (b)ground truth; (c)U-Net; (d)FSF-U-Net with FS module; (e)FSF-U-Net with NFS module)

FSF-U-Net模型训练过程中不同轮次测试图像获得的注意力热图可视化结果如图 6所示。其中,图 6(a)为HU值增加图像及肝肿瘤目标区域,图 6(b)-(e)分别为第3、6、10、80轮的训练注意力热图。通过观察不同轮次的模型关注区域分析可以得知,模型前期会优先关注产生差异的区域,在各个差异区域均匀分布。在3~10轮时模型会逐渐更新至肝肿瘤附近,并减少部分非病变区域的注意力,此时的结果较为粗糙,后续的更新围绕目标区域优化边缘。当不存在病变区域时,如图 6第4行所示,模型依然先关注产生差异的区域,在后续模型学习的过程中逐渐排除假阳性结果,减少并消除假阳性预测。

图 6 不同训练轮次注意力热图可视化
Fig. 6 Visualization of attention heat maps in different training epochs
((a)Hu enhanced slices with liver tumor segmentation; (b)the 3rd epoch; (c)the 6th epoch; (d)the 10th epoch; (e)the 80th epoch)

3.5 与当前方法对比

为进一步验证本文方法的性能,在同一数据集与肝肿瘤分割任务当前领先的2D、2.5D和3D方法进行对比,结果如表 4所示。可以看出,本文提出的模型在2D方法中取得当前最佳的平均Dice得分,且在参数量远小于其他领先的3D和2.5D方法的情况下取得较为近似的结果。实验结果表明,本文提出的模型在低复杂度下的表现具有高竞争力。

表 4 本文与已发布的LiTS主流方法对比
Table 4 Comparison among published approaches and ours on the LiTS challenge

下载CSV
方法 维度 肿瘤
H-DenseU-Net(Li等,2018) 3D 0.722
CDNN(Yuan,2017) 3D 0.657
LW-HCN(Zhang等,2019) 2D+3D 0.730
Hy-CompNet(Dey和Hong,2020) 2D+3D 0.681
Res-U-Net(Han,2017) 2.5D 0.670
Multiple U-Nets(Chlebus等,2018) 2D 0.676
Two FCNs(Vorontsov等,2018) 2D 0.661
FED-Net(Chen等,2019) 2D 0.650
本文 2D 0.684
注:加粗字体为2D方法中的最佳结果。

同时,与当前主流图像分割领域方法在本文使用的数据集进行实验对比,结果如表 5所示。可以看出,在使用不同分割任务中主流的分割模型测试本文相同的数据时,结果呈现差异化表现。医学图像分割方法Attention U-Net和MS-DG(MS-dual-guided)在肝脏分割任务中表现出较为优秀的结果,但MS-DG在肝肿瘤分割任务中表现不佳,分析原因为肝肿瘤分割任务目标区域具有不确定性与小体积的特点,要求模型侧重于邻近区域特征之间的关系,而MS-DG侧重于捕获长距离特征的依存关系,模型特性导致其不适用于肝肿瘤分割这类随机性小目标分割任务。Attention U-Net模型原用于解决胰腺分隔任务中胰腺位置变化大、胰腺与周围组织对比度低的问题,迁移到肝肿瘤分割任务中展现出模型的适应性。而适用于场景分割的MsAU-Net(multi-scale attention U-Net)受到Attention U-Net注意力门机制的启发,并在上采样时采用inception结构融合不同感受野信息,以达到获得长距离特征关系,模型在肝脏分割与肝肿瘤分割任务中分别获得了96.2%与67.3%的成绩,在肝脏器官分割任务中与本文方法持平,但肝肿瘤分割效果不及Attention U-Net和本文方法。

表 5 本文与其他主流分割方法对比
Table 5 Comparison among other mainstream segmentation methods and ours

下载CSV
方法 肝脏 肿瘤
Attention U-Net (Oktay等,2018) 0.956 0.676
MS-DG(Sinha和Dolz,2021) 0.960 0.657
MsAU-Net(Chattopadhyay和Basak,2020) 0.962 0.673
本文 0.962 0.684
注:加粗字体为各列最优结果。

4 结论

本文提出一种基于特征选择与残差融合的肝肿瘤2D分割模型。首先通过全局特征压缩(GFS)操作与肝脏及肝肿瘤任务的特点设计了两种瓶颈特征选择模块,实现了重标定瓶颈特征语义通道重要程度的功能,有效抑制无效特征的表达,相较于base-line模型,平均Dice得分在肝脏及肝肿瘤分割任务上分别提高了3.1%及2.2%,在同样条件下比使用全局平均池化(GAP)操作的SE模块及ECA模块多1%及1.2%,GFS方法在肝肿瘤分割任务平均Dice提升中的贡献超过50%。然后通过在U-Net跳跃链接处加入空间特征残差融合模块(SFRF)解决U-Net跳跃链接的语义鸿沟问题,配合空间注意力模块(SAM)使空间特征可以高效表达,并提供相对高质量的空间特征流动至上采样阶段,SFRF需与SAM和FS/NFS模块配合使用,在肝脏及肝肿瘤分割任务上分别达到96.2%和68.4%的平均Dice得分。

实验表明,本文模型在LiTS数据集上取得了较好性能,肝肿瘤分割结果比当前最好的2D分割模型结果高0.8%。但本文方法因2D输入限制,无法引入上下文信息,故效果不及部分优秀的高维模型,并且模型中空间特征残差融合模块(SFRF)由于结构特点依赖于瓶颈特征,若瓶颈特征部分不做处理将会给网络各层带去额外的冗余信息,加重整体网络的学习负担。在未来工作中,可尝试优化空间特征残差融合模块(SFRF)的拓扑结构,将本文方法根据目标任务特点应用于其他医学图像分割任务中。实验环境条件允许或者有输入与模型参数量优化的情况下,也可以将本文思想扩展至高维度的医学影像处理方法中。

参考文献

  • Bilic P, Christ P F, Vorontsov E, Chlebus G, Chen H, Dou Q, Fu C W, Han X, Heng P A, Hesser J, Kadoury S, Konopczynski T, Le M, Li C M, Li X M, Lipkovà J, Lowengrub J, Meine H, Moltz J H, Pal C, Piraud M, Qi X J, Qi J, Rempfler M, Roth K, Schenk A, Sekuboyina A, Vorontsov E, Zhou P, Hülsemeyer C, Beetz M, Ettlinger F, Gruen F, Kaissis G, Lohöfer F, Braren R, Holch J, Hofmann F, Sommer W, Heinemann V, Jacobs C, Mamani G E H, van Ginneken B, Chartrand G, Tang A, Drozdzal M, Ben-Cohen A, Klang E, Amitai M M, Konen E, Greenspan H, Moreau J, Hostettler A, Soler L, Vivanti R, Szeskin A, Lev-Cohain N, Sosna J, Joskowicz L and Menze B H. 2019. The liver tumor segmentation benchmark (LiTS)[EB/OL]. [2021-04-21]. https://arxiv.org/pdf/1901.04056.pdf
  • Chattopadhyay S and Basak H. 2020. Multi-scale attention U-Net (MsAU-Net): a modified U-Net architecture for scene segmentation[EB/OL]. [2021-04-21]. https://arxiv.org/pdf/2009.06911.pdf
  • Chen X Y, Zhang R and Yan P K. 2019. Feature fusion encoder decoder network for automatic liver lesion segmentation//The 16th IEEE International Symposium on Biomedical Imaging. Venice, Italy: IEEE: 430-433[DOI: 10.1109/ISBI.2019.8759555]
  • Chlebus G, Schenk A, Moltz J H, van Ginneken B, Hahn H K, Meine H. 2018. Automatic liver tumor segmentation in CT with fully convolutional neural networks and object-based postprocessing. Scientific Reports, 8(1): #15497 [DOI:10.1038/s41598-018-33860-7]
  • Dey R and Hong Y. 2020. Hybrid cascaded neural network for liver lesion segmentation//Proceedings of the 17th IEEE International Symposium on Biomedical Imaging (ISBI). Iowa City, USA: IEEE: 1173-1177[DOI: 10.1109/ISBI45749.2020.9098656]
  • Drozdzal M, Vorontsov E, Chartrand G, Kadoury S and Pal C. 2016. The importance of skip connections in biomedical image segmentation. Deep learning and data labeling for medical applications: Springer, Cham: 179-187[DOI: 10.1007/978-3-319-46976-8_19]
  • Han X. 2017. Automatic liver lesion segmentation using a deep convolutional neural network method[EB/OL]. [2021-04-21]. https://arxiv.org/pdf/1704.07239.pdf
  • Hu J, Shen L and Sun G. 2018. Squeeze-and-excitation networks//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 7132-7141[DOI: 10.1109/CVPR.2018.00745]
  • Ibtehaz N, Rahman M S. 2020. MultiResU-Net: rethinking the U-Net architecture for multimodal biomedical image segmentation. Neural Networks, 121: 74-87 [DOI:10.1016/j.neU-Net.2019.08.025]
  • Li X M, Chen H, Qi X J, Dou Q, Fu C W, Heng P A. 2018. H-DenseU-Net: hybrid densely connected U-Net for liver and tumor segmentation from CT volumes. IEEE Transactions on Medical Imaging, 37(12): 2663-2674 [DOI:10.1109/TMI.2018.2845918]
  • Liao M, Liu Y Z, Ouyang J L, Yu J Y, Zhao Y Q, Zhang B Z. 2019. Automatic segmentation of liver tumor in CT volumes using nonlinear enhancement and graph cuts. Journal of Computer-Aided Design and Computer Graphics, 31(6): 1030-1038 (廖苗, 刘毅志, 欧阳军林, 余建勇, 赵于前, 张宝泽. 2019. 基于非线性增强和图割的CT序列肝脏肿瘤自动分割. 计算机辅助设计与图形学学报, 31(6): 1030-1038) [DOI:10.3724/SP.J.1089.2019.17258]
  • Liu Y P, Liu G P, Wang R F, Jin R, Sun D C, Qiu H, Dong C, Li J, Hong G B. 2020. Accurate segmentation method of liver tumor CT based on the combination of deep learning and radiomics. Journal of Image and Graphics, 25(10): 2128-2141 (刘云鹏, 刘光品, 王仁芳, 金冉, 孙德超, 邱虹, 董晨, 李瑾, 洪国斌. 2020. 深度学习结合影像组学的肝脏肿瘤CT分割. 中国图象图形学报, 25(10): 2128-2141) [DOI:10.11834/jig.200198]
  • Oktay O, Schlemper J, Le Folgoc L L, Lee M, Heinrich M, Misawa K, Mori K, McDonagh S, Hammerla N Y, Kainz B, Glocker B and Rueckert D. 2018. Attention U-Net: learning where to look for the pancreas[EB/OL]. [2021-04-21]. https://arxiv.org/pdf/1804.03999.pdf
  • Ronneberger O, Fischer P and Brox T. 2015. U-net: convolutional networks for biomedical image segmentation//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer: 234-241[DOI: 10.1007/978-3-319-24574-4_28]
  • Roy A G, Navab N and Wachinger C. 2018. Concurrent spatial and channel "squeeze and excitation" in fully convolutional networks//Proceedings of the 21st International Conference on Medical Image Computing and Computer Assisted Intervention. Granada, Spain: Springer: 421-429[DOI: 10.1007/978-3-030-00928-1_48]
  • Simonyan K and Zisserman A. 2014. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2021-04-21]. https://arxiv.org/pdf/1409.1556.pdf
  • Sinha A, Dolz J. 2021. Multi-scale self-guided attention for medical image segmentation. IEEE Journal of Biomedical and Health Informatics, 25(1): 121-130 [DOI:10.1109/JBHI.2020.2986926]
  • Vorontsov E, Tang A, Pal C and Kadoury S. 2018. Liver lesion segmentation informed by joint liver segmentation//The 15th IEEE International Symposium on Biomedical Imaging (ISBI 2018). Washington, USA: IEEE: 1332-1335[DOI: 10.1109/ISBI.2018.8363817.]
  • Wang Q L, Wu B G, Zhu P F, Li P H, Zuo W M and Hu Q H. 2020. ECA-Net: efficient channel attention for deep convolutional neural networks//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 11531-11539[DOI: 10.1109/cvpr42600.2020.01155]
  • Woo S, Park J, Lee J Y and Kweon I S. 2018. CBAM: convolutional block attention module//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 3-19[DOI: 10.1007/978-3-030-01234-2_1]
  • Yuan Y D. 2017. Hierarchical convolutional-deconvolutional neural networks for automatic liver and tumor segmentation[EB/OL]. [2021-04-21]. https://arxiv.org/pdf/1710.04540.pdf
  • Zhang J P, Xie Y T, Zhang P P, Chen H, Xia Y and Shen C H. 2019. Light-weight hybrid convolutional network for liver tumor segmentation//Proceedings of the 28th International Joint Conference on Artificial Intelligence. Macao, China: IJCAI: 4271-4277[DOI: 10.24963/ijcai.2019/593]