Print

发布时间: 2021-09-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200584
2021 | Volume 26 | Number 9




    磁共振图像    




  <<上一篇 




  下一篇>> 





引入注意力机制和多视角融合的脑肿瘤MR图像U-Net分割模型
expand article info 罗恺锴1, 王婷1, 叶芳芳2
1. 南京林业大学信息科学技术学院, 南京 210037;
2. 浙江树人大学信息科技学院, 杭州 310015

摘要

目的 脑肿瘤核磁共振(magnetic resonance,MR)图像分割对评估病情和治疗患者具有重要意义。虽然深度卷积网络在医学图像分割中取得了良好表现,但由于脑胶质瘤的恶性程度与外观表现有巨大差异,脑肿瘤MR图像分割仍是一项巨大挑战。图像语义分割的精度取决于图像特征的提取和处理效果。传统的U-Net网络以一种低效的拼接方式集成高层次特征和低层次特征,从而导致图像有效信息丢失,此外还存在未能充分利用上下文信息和空间信息的问题。对此,本文提出一种基于注意力机制和多视角融合U-Net算法,实现脑肿瘤MR图像的分割。方法 在U-Net的解码和编码模块之间用多尺度特征融合模块代替传统的卷积层,进行多尺度特征映射的提取与融合;在解码模块的级联结构中添加注意力机制,增加有效信息的权重,避免信息冗余;通过融合多个视角训练的模型引入3维图像的空间信息。结果 提出的模型在BraTS18(Multimodal Brain Tumor Segmentation Challenge 2018)提供的脑肿瘤MR图像数据集上进行验证,在肿瘤整体区域、肿瘤核心区域和肿瘤增强区域的Dice score分别为0.907、0.838和0.819,与其他方法进行对比,较次优方法分别提升了0.9%、1.3%和0.6%。结论 本文方法改进了传统U-Net网络提取和利用图像语义特征不足的问题,并引入了3维MR图像的空间信息,使得肿瘤分割结果更加准确,具有良好的研究和应用价值。

关键词

脑肿瘤分割; 卷积神经网络(CNN); 多尺度特征; 注意力机制; 多视角融合

U-Net segmentation model of brain tumor MR image based on attention mechanism and multi-view fusion
expand article info Luo Kaikai1, Wang Ting1, Ye Fangfang2
1. College of Information Science and Technology, Nanjing Forestry University, Nanjing 210037, China;
2. College of Information Technology, Zhejiang Shuren University, Hangzhou 310015, China
Supported by: General Project of Joint Fund of Zhejiang Society of Mathematical Medicine(LSY19F010001)

Abstract

Objective Magnetic resonance (MR) image segmentation of brain tumors is crucial for patient evaluation and treatment. In recent years, as the feature extraction capability of convolutional neural networks improved, deep learning technology has been applied to medical image segmentation and achieved better results than those of traditional segmentation methods. The accuracy of image semantic segmentation depends on the effect of semantic feature extraction and processing. Traditional U-Net integrates high-level and low-level features inefficiently, leading to a loss of effective image information. In addition, U-Net does not make full use of context information. This study proposes a segmentation method for brain tumor MR images based on the attention mechanism and multi-view fusion U-Net algorithm. Method The model is modified as follows. First, in order to improve the network structure, residual structure is added to the U-Net to enhance the compensation of the network low-level information to the high-level information. On the one hand, the application of the residual idea, removes the same main part of the output of each convolution layer, highlights the small changes, makes each layer of the network more sensitive to the changes of the output, and makes the training easier, on the other hand, it alleviates the problem of gradient disappearance. Second, attention mechanism is added to the cascade structure, and the weight of tumor region is increased adaptively to enhance the utilization of effective information and improve the segmentation accuracy. Third, multi-scale feature fusion module is used to replace the traditional convolution layer between the down sampling structure and up sampling structure, and hole convolution with different sampling rates is used to extract and fuse the multi-scale feature information of the image in parallel. The above is the adjustment of the network structure, and the influence of loss function and 3D structure of Brain tumor MR data set on model training is also considered in the experiment. There is a class imbalance problem in brain tumor segmentation, tumor area is smaller than normal brain tissue, network training is easily guided by a large number of irrelevant pixels, and linear combination of generalized dice loss and cross entropy loss is used to solve class imbalance problem and accelerate convergence. At the same time, Considering the influence of different view slices on the segmentation performance of the model, the three view slices of 3D MR image are trained respectively, and the multi view training model is fused in the segmentation prediction to improve the segmentation performance of the model. Result The proposed model is validated using the brain tumor MR image data set provided by Multi- modal Brain Tumor Segmentation Challenge 2018 (BraTS18), which includes four kinds of MR images of 210 high-grade gliomas(HGG) patients and 75 low-grade gliomas(LGG) patients and their real segmentation labels. The Dice similarity coefficient and Hausdorff distance95 are selected as technical indicators to further evaluate the accuracy of the brain tumor segmentation results. The effectiveness of the proposed module is proved by ablation experiments. After adding all modules, the performance of the model is optimal, the Dice scores of the entire tumor area, the core region, and the enhanced region reach 0. 883, 0. 812, and 0.774. Compared with the traditional U-Net, it is improved by 3.9%, 5.1% and 3.3% respectively, especially in the core region. After the fusion of three perspective slice training, comprehensive experiments show that the Dice scores of the entire tumor area, the core region, and the enhanced region reach 0. 907, 0. 838, and 0. 819 respectively, this algorithm exhibits better performance in terms of Dice score and Hausdorff 95 distance than others. At the same time, the slices showthe slice shows the segmentation comparison with other classical models such as FCN. In the HGG sample, the proposed method has more delicate segmentation effect in the tumor boundary area. However, the segmentation results of the LGG sample is not as good as the HGG sample, this is due to the small number of LGG training samples, which is only one third of HGG samples, proposed method is still performs better than other methods. Conclusion The segmentation method of brain tumor MR images proposed in this study improves the short- comings of the traditional U-Net network in extracting and using image semantic features, and introduces attention mechanism and multi-scale feature fusion module. The weighted mixed loss function is used to solve the class imbalance problem in brain tumor segmentation, and considering the spatial characteristics of the dataset, the multi-view model is fused to improve the segmentation performance. Experimental results show that the algorithm has good performance in the segmentation of different tumor regions and has stronger robustness, thus providing a useful reference for the clinical application of brain tumor MR image segmentation.

Key words

brain tumor segmentation; convolution neural network(CNN); multi scale feature; attention mechanism; multi-view fusion

0 引言

胶质瘤是最常见的原发性脑肿瘤,由神经胶质细胞引起,约占颅内肿瘤的35.2 % ~61 %。脑胶质瘤按肿瘤细胞的恶性程度可划分为高级别胶质瘤(high-grade gliomas,HGG)和低级别胶质瘤(low-grade gliomas,LGG)两种类型。HGG是低分化的胶质瘤,属于恶性肿瘤,具有更强的侵袭性,通常采取手术治疗,但预后效果较差。LGG是分化良好的胶质瘤,是良性或恶性肿瘤,可通过积极治疗取得相对较好的预后效果(Bakas等,2017)。

核磁共振成像(magnetic resonance imaging,MRI)是目前广泛应用的脑肿瘤分析和监测技术。脑肿瘤MRI模态包括T1加权(T1-weighted)、对比增强T1加权(contrast enhanced T1-weighted,T1CE)、T2加权(T2-weighted)和液体衰减反转恢复脉冲(fluid attenuated inversion recovery,FLAIR)模态(Iftekharuddin等,2009),通常根据患者状况并结合多种MRI模态及其分割图来确定治疗方案。然而一次MRI会得到大量不同模态的图像,MRI图像的分割时间和精度势必会影响诊断和治疗。因此,需要一种快速准确的全自动脑肿瘤分割方法为临床应用提供参考。

深度学习方法已经成功应用于医学图像领域。采用深度学习模型的分割方法一方面弥补了人工分割费时、费力等缺点,另一方面又解决了传统自动分割方法如阈值分割(桑林琼等,2010)、区域分割(刘岳等,2015)、聚类分割(黄峰茜等,2007)等精确度差和对数据依赖性强的问题。Shelhamer等人(2017)提出FCN(fully convolutional network),使用卷积层代替CNN(convolutional neural network)中的全连接层,实现从图像级别的分类到像素级别的分类,为后续深度学习在语义分割中的应用打下了重要基础。Ronneberger等人(2015)对FCN网络结构进行改进,提出了U-Net网络,在解码层通过跳跃连接的方式将图像的高层信息与图像的浅层信息相结合,使得各层次的信息得以保留,提高了特征映射的利用率。Milletari等人(2016)提出了V-Net网络结构,相较于U-Net,V-Net将网络结构从2维变为3维,从而引入了图像的空间上下文信息,提高了分割精度,但也增加了计算量。Chen等人(2018)提出ASPP(atrous spatial pyramid pooling)结构,以不同采样率的空洞卷积捕获多尺度特征,并通过特征融合引入更多的上下文信息,从而提高卷积神经网络对全局信息的获取能力。

在以上研究的基础上,本文对U-Net结构现存的问题进行改进。对网络如何充分利用图像的上下文信息问题,在编码模块和解码模块之间用多尺度特征融合模块代替传统的卷积层;对U-Net网络采用级联结构无法甄别信息的有效性问题,在级联结构中添加注意力机制,通过自适应地控制每个通道的权重来加强有效信息的利用;对2维U-Net无法利用3维图像的空间上下文信息问题,采用3维图像的多个视角对模型训练,并结合多个视角训练的模型对脑肿瘤进行分割。

1 实验方法

1.1 网络

图 1为本文提出的网络结构。该网络框架是在U-Net结构的基础上设计的,主要由编码模块和解码模块两部分组成,编码模块包括3个残差模块和两个下采样操作,每个残差模块包含两个3×3的卷积层,每个卷积层后连接着一个BN(batch normalize)层(Zhou等,2016)和PReLU(parametric rectified linear unit)(He等,2015)激活层。在编码过后,将图像特征映射传入多尺度特征融合模块进行多尺度特征信息的提取与融合,再传入解码模块。在解码过程中,为了使高层特征映射与浅层特征映射有效结合,本文在3个级联结构中增加了基于注意力机制的模块。语义信息在经过3个残差模块和两次上采样操作后,通过1个1×1的卷积层和softmax激活函数层,输出和输入图像分辨率相同的分割结果预测图。

图 1 网络结构
Fig. 1 Structure of network

1.2 空洞卷积

在卷积神经网络中,一般通过图像下采样减小尺寸的方式增强感受视野,但会造成图像信息的损失。为了在不减小图像尺寸和增加模型参数的条件下增大感受视野,在卷积核中加入采样率,以采样率减1进行间隔采样。空洞卷积核(Hamaguchi等,2018)的大小为

$ {K^\prime } = (d - 1) \times (K - 1) + K $ (1)

式中,$d$为采样率,$K$为原始卷积核大小。当$K$为3×3的卷积核时,不同采样率的空洞卷积核如图 2所示。

图 2 不同采样率的空洞卷积
Fig. 2 Dilated convolution with different sampling rates

1.3 多尺度特征融合模块和注意力机制模块

本文的多尺度特征融合模块基于ASPP结构构建,采用不同采样率的空洞卷积来捕获输入特征映射的上下文多尺度信息。多尺度特征融合模块如图 3所示,该模块对下采样的特征映射进行4次并行的卷积操作。第1次卷积采用256个普通的1×1卷积核进行卷积操作,同时进行BN操作,第2~4次卷积分别采用采样率为2、3、4的空洞卷积核进行卷积操作(每个卷积核的通道数均为256),得到不同的局部特征信息。最后将4个特征映射进行拼接送入通道数为512的1×1卷积核,完成特征信息的融合并减少特征维度。

图 3 多尺度特征融合模块
Fig. 3 Multi-scale feature fusion block

传统U-Net以直接拼接的方式融合高层特征和浅层特征,降低了计算成本,但会带来信息冗余和混乱。为了解决这些问题,本文在解码部分的级联结构中加入注意力机制模块。注意力机制模块如图所示,包括挤压和扩张两个步骤。挤压操作将大小为$W×H$特征图$\boldsymbol{U}$进行全局平均池化操作,得到全局信息$\boldsymbol{Z}$。扩张操作通过两层全连接的瓶颈结构得到特征图的每个通道的权重$\boldsymbol{s}$。具体为

$ \mathit{\boldsymbol{Z}} = \frac{1}{{W \times H}}\sum\limits_{i = 1}^W {\sum\limits_{j = 1}^H \mathit{\boldsymbol{U}} } (i, j) $ (2)

$ \mathit{\boldsymbol{s}} = \sigma \left({{\mathit{\boldsymbol{W}}_2}\delta \left({{\mathit{\boldsymbol{W}}_1}\mathit{\boldsymbol{Z}}} \right)} \right) $ (3)

图 4 注意力机制模块
Fig. 4 The block based on attention mechanism

式中,$\boldsymbol{W}_1$为第1个全连接层的权重,$δ$为ReLU激活函数,$\boldsymbol{W}_2$为第2个全连接层的权重,$σ$为sigmoid激活函数。将$\boldsymbol{s}$$\boldsymbol{U}$相乘,会使得有效信息权重变大,无关信息权重变小,从而提升分割精度。

1.4 损失函数

分割模型的总体性能不仅取决于网络结构,而且取决于损失函数。脑肿瘤区域和非肿瘤区域的分布使得分割任务存在固有的类别不平衡问题,通常使用的损失函数并不适合训练网络。如果采用这些损失函数,卷积网络的训练将会由像素较多的非肿瘤区域主导,较小的脑肿瘤区域很难学习到其特征,从而降低网络的有效性,导致分割结果不佳。为了解决这个问题,本文采用GDL(generalized dice loss)(Sudre等,2017)自适应地将类别加权,同时结合交叉熵损失函数,加快收敛速度。损失函数计算为

$ L = {L_a} + \lambda \times {L_b} $ (4)

式中,$λ$为超参数,用来控制$L_{a}$$L_{b}$之间的平衡,本文将$λ$设置为1.1。

GDL函数是多分类的损失函数,为每个类分配一个自适应权重,用来处理类的不平衡问题。GDL损失函数计算为

$ {L_a} = 1 - 2\frac{{\sum\limits_{j = 1}^C {\left({{W_j} \times \sum\limits_{i = 1}^N {\left({{g_{ij}} \times {p_{ij}}} \right)} } \right)} + \varepsilon }}{{\sum\limits_{j = 1}^C {\left({{W_j} \times \sum\limits_{i = 1}^N {\left({{g_{ij}} + {p_{ij}}} \right)} } \right)} + \varepsilon }} $ (5)

式中,$ε$是防止分母为0而设置的一个光滑算子,$g_{ij}$为类别$j$在第$i$个像素的标准值,$p_{ij}$为类别$j$在第$i$个像素的预测值。$W _{j}$为第$j$个类别的权重,定义为

$ {W_j} = \frac{1}{{\sum\limits_{i = 1}^N {{g_{ij}}} }} $ (6)

多分类的交叉熵损失函数计算为

$ {L_b} = - \frac{1}{N}\sum\limits_{i = 1}^N {\sum\limits_{j = 0}^C {\left({{g_{ij}} \times \log {p_{ij}}} \right)} } $ (7)

1.5 多视角融合

Noori等人(2019)为利用图像空间信息,对3维MRI图像从冠状位和轴位视角提取2维图像切片,分别对模型进行训练,并在分割结果上进行融合,结果表明相较于单视角切片训练的模型,融合了两个视角的模型整体性能更好,鲁棒性更强。受此启发,本文将3维MRI图像从冠状位、轴位和矢状位视角进行切片训练,实验结果表明,不同视角切片训练的模型对肿瘤不同区域的分割性能有所差异,其中轴位视角训练的模型在肿瘤整体区域表现更好,矢状位视角训练的模型在肿瘤核心区域和肿瘤增强区域表现更好,冠状位视角训练的模型在Hausdorff距离指标上表现更好。为了综合以上模型的性能,本文将3个视角的模型在分割结果预测上进行融合,结果表明相较于单视角模型,融合了多视角的模型分割性能更加优秀。与Noori等人(2019)提出的双视角融合模型对比,结果表明三视角融合的模型整体表现更加优秀,引入矢状位视角的图像信息可提升模型性能。多视角融合过程如图 5所示。

图 5 多视角融合过程
Fig. 5 Multi-view fusion process

2 实验

2.1 数据集

实验数据采用国际医学图像计算和计算机辅助干预协会(Medical Image Computing and Computer Assisted Intervention Society,MICCAI)提供的脑胶质瘤公共数据集BraTS2018(Multimodal Brain Tumor Segmentation Challenge 2018)(Bakas等,2017Menze等,2015),包括了210例HGG患者和75例LGG患者的4种模态MR图像及其真实分割标签,每组样本包含155幅大小为240×240像素的不同扫描层的图像。本文使用5折交叉验证避免偏差,采用168名HGG患者和60名LGG患者作为训练集,42名HGG患者和15名LGG患者作为测试集。实验的验证集采用66名未确认胶质瘤级别的患者,验证集的样本同样包含4种模态MR图像但不包含真实分割标签。数据集的标签共4个,分别是肿瘤增强区(enhancing tumor)、水肿区(edema)、坏死区(necrosis)和背景(background)。分割任务包括对WT(whole tumor region)、TC(tumor core region)和ET(enhancing tumor region)的分割,其中WT包括肿瘤增强区、水肿区以及坏死区,TC包括肿瘤增强区和坏死区,ET包括肿瘤增强区。

2.2 预处理

对数据集进行预处理,首先使用N4ITK偏差校正(Tustison等,2010),对MRI图像进行平滑处理。然后将图像中不包含大脑的区域切除,如图 6所示,将原来155×240×240的3维MR图像切割为144× 192×152的3维MR图像,并分别沿$z$轴、$y$轴、$x$轴对图像进行垂直切片,同时去除1 % 的不包含脑肿瘤区域的顶部和底部切片,再进行标准化处理。最后为防止模型过拟合,切片进行水平翻转和垂直翻转,增加数据集图像数量。

图 6 2维图像提取过程
Fig. 6 2D images extraction process

2.3 实验评估

为了评价模型的性能,用Dice score和Hausdorff distance对WT、TC、ET的分割情况进行评价。

Dice score是衡量两个集合的相似度指标,取值范围是[0, 1],值越大说明肿瘤分割结果与标注结果越接近,分割效果越好。计算公式为

$ {\rm{ Dice }} = \frac{{2|\mathit{\boldsymbol{A}} \cap \mathit{\boldsymbol{B}}|}}{{|\mathit{\boldsymbol{A}}| + |\mathit{\boldsymbol{B}}|}} $ (8)

式中,$\boldsymbol{A}$$\boldsymbol{B}$分别表示模型分割的样本集合和手工标注的样本集合。

Hausdorff distance是描述两组点集之间相似程度的一种量度,表示分割结果与标注结果两个点集之间最短距离的最大值,度量二者的最大不匹配程度,计算公式为

$ HD(\mathit{\boldsymbol{A}}, \mathit{\boldsymbol{B}}) = \max \left\{ {\mathop {\sup }\limits_{a \in \mathit{\boldsymbol{A}}} \mathop {\inf }\limits_{b \in \mathit{\boldsymbol{B}}} d(a, b), \mathop {\sup }\limits_{b \in \mathit{\boldsymbol{B}}} \mathop {\inf }\limits_{a \in \mathit{\boldsymbol{A}}} d(a, b)} \right\} $ (9)

式中,$d(a, b)$表示$a$, $b$两点之间的欧氏距离。为消除离群点的影响,采用Hausclorff 95作为评估指标。

2.4 实验环境与模型配置

实验的硬件环境为Ubuntu16.04 LST64位操作系统,NVIDIA GeForce GTX1080Ti显卡,intel(R) Core(TM)i5-9600KF CPU 3.60 GHz处理器,32 GB内存。软件环境为keras框架, tensorflow后端,CUDA 10.0架构平台,CuDNN 7.64深度神经网络计算库。

实验输入为FLAIR、T1加权图像、T1ce加权图像和T2加权图像等4个MR图像模态及其真实分割标签。模型学习率为9E-3,批量大小设置为12,训练迭代期为200,优化方法采用动量系数为0.9的随机梯度下降法,激活函数使用softmax。

2.5 消融实验

为了验证添加模块的有效性,在U-Net中添加不同模块,使用相同参数进行实验。结果如表 1所示,其中Res代表残差模块,Attn代表注意力机制模块,MSFF代表多尺度特征融合模块。可以看出,U-Net在添加残差模块后,模型性能有小幅提升但不明显。在添加注意力机制模块后,模型在肿瘤整体区域、肿瘤核心区域和肿瘤增强区域的Dice score分别提高2.3 %、3.3 %和1.4 %。最后添加多尺度特征融合模块,模型的3个分割结果均达到最优,说明本文提出的网络结构的不同模块对分割精度均有提升。

表 1 U-Net添加不同模块的评估结果
Table 1 Evaluation results of different blocks added to U-Net

下载CSV
模型 Dice score
WT TC ET
U-Net 0.844 0.761 0.741
U-Net+Res 0.856 0.768 0.744
U-Net+Res+Attn 0.879 0.801 0.768
U-Net+Res+Attn+MSFF(本文) 0.883 0.812 0.774
注:加粗字体为各列最优结果。

2.6 实验结果

表 2为轴位(axial-view)、冠状位(coronal-view)和矢状位(sagittal-view)3种视角训练模型以及多视角融合后的结果。在3种视角中,用轴位训练的模型在肿瘤整体区域的Dice score和肿瘤核心区域的Hausdorff95最优; 用冠状位训练的模型在肿瘤整体区域的Hausdorff95最优; 用矢状位训练的模型在肿瘤核心区域和肿瘤增强区域的Dice score最优,但在3个区域的Hausdorff95均低于其他两个视角。多视图融合后的结果除肿瘤增强区域的Dice score外,性能指标均为最优。不同视角训练的模型对肿瘤分割存在差异性,而多视角融合使不同视角训练的模型进行了性能上的互补,从而达到了整体性能最优。

表 2 轴位、冠状位和矢状位视图结果以及多视角融合结果
Table 2 The results of axial, coronal and sagittal views along with the results of multi-view fusion

下载CSV
模型 Dice score Hausdorff95
WT TC ET WT TC ET
轴位 0.903 0.823 0.795 4.89 8.29 3.66
冠状位 0.899 0.830 0.813 5.43 8.68 3.26
矢状位 0.882 0.834 0.821 9.10 11.38 5.42
多视角融合 0.907 0.838 0.819 3.98 7.17 3.23
注:加粗字体为各列最优结果。

图 7图 8为3个视角和多视角融合后对HGG和LGG样本的分割结果。在HGG分割样本中,4个模型的分割结果均与真实标签较为接近,但在细节方面,轴位和矢状位训练的模型在肿瘤增强区域的分割不够连续,存在欠分割问题;轴位和冠状位训练的模型在肿瘤水肿区的分割轮廓不够细腻。通过多视角融合的分割结果在细节上达到了最好效果。在LGG分割样本中,3个视角训练的模型在水肿区存在不同程度的过分割问题,轴位训练的模型未进行肿瘤增强区的分割,冠状位训练的模型在坏死区存在欠分割问题,通过多视角融合,不同区域的分割情况得到了改善。

图 7 HGG样本的3个视角模型及多视角融合后的分割结果
Fig. 7 Segmentation results of three views model and multi-view fusion for an HGG example
((a) FLAIR; (b) T1; (c) T1 ce; (d) T2; (e) axial-view train; (f) coronal-view train; (g) sagittal-view train; (h) multi-view; (i) ground truth)
图 8 LGG样本的3个视角模型及多视角融合后的分割结果
Fig. 8 Segmentation results of three views model and multi-view fusion for an LGG example
((a) FLAIR; (b) T1; (c) T1 ce; (d)T2; (e) axial-view train; (f) coronal-view train; (g) sagittal-view train; (h) multi-view; (i) ground truth)

图 9为3个不同视角模型及多视角融合的分割结果盒图,结果表明相较于单视角切片训练的模型,多视角融合后的模型鲁棒性更加优秀。

图 9 3个不同视角及多视角融合的分割结果盒图
Fig. 9 Box plots of three views and multi-view fusion

为了进一步验证所提模型的肿瘤分割性能,与FCN(Shen等,2017)、Recurrent U-Net(Wang等,2019)和V-Net(Ahmed等,2019)3种模型进行对比,结果如表 3所示。

表 3 不同模型的评估结果
Table 3 Evaluation results of different models

下载CSV
模型 Dice score
WT TC ET
FCN(Shen等,2017) 0.833 0.747 0.681
Recurrent U-Net(Wang等,2019) 0.869 0.796 0.733
V-Net(Ahmed等,2019) 0.895 0.804 0.768
本文 0.907 0.838 0.819
注:加粗字体为各列最优结果。

表 3可以看出,FCN在3个肿瘤区域的Dice方面表现均不如其余3种模型,尤其在肿瘤核心区域和增强区域。而Recurrent U-Net和V-Net在肿瘤核心区域的Dice值近似,但V-Net在肿瘤整体区域和肿瘤增强区域优于Recurrent U-Net。本文方法在肿瘤整体区域与V-Net较为接近,其余标签的分割结果均优于其他模型。

图 10图 11为4种模型对HGG样本和LGG样本的分割结果。在HGG样本中,FCN和Recurrent U-Net虽然对肿瘤轮廓分割较为平滑,但在细节上有所缺失,肿瘤核心区域存在过分割问题。V-Net和本文方法在肿瘤轮廓和细节的分割表现均优于以上两种方法,但本文方法在肿瘤边界上更加细腻。在LGG样本中,FCN和V-Net在肿瘤核心区域存在过分割问题,但肿瘤轮廓分割较为平滑。Recurrent U-Net在肿瘤核心区域存在欠分割问题,但轮廓边界较为细腻。相较于其他3种方法,本文方法的肿瘤核心区域与真实标签更为接近,能有效解决其他方法的过分割和欠分割问题,但在肿瘤整体区域的分割边界上较为毛糙,不够平滑。

图 10 4种模型对HGG样本的分割结果
Fig. 10 Segmentation results for an HGG example by four models
((a) ground truth; (b) FCN; (c) Recurrent U-Net; (d) V-Net; (e) ours)
图 11 4种模型对LGG样本的分割结果
Fig. 11 Segmentation results for an LGG example by four models
((a) ground truth; (b) FCN; (c) Recurrent U-Net; (d) V-Net; (e) ours)

2.7 与其他方法比较

本文方法与其他方法的脑肿瘤分割性能指标如表 4所示。可以看出,在Dice score指标上,本文方法的WT评分超过了0.9,TC和ET评分分别为0.838和0.819,相较于次优方法提升了1.3 %和0.6 %,表明本文方法在肿瘤核心区域和增强区域的分割具有更优秀的表现,尤其是核心区域;在Hausdorff 95指标上,本文方法除TC外, 其余区域评分均为最优,其中WT评分和ET评分为3.98和3.23。与Noori等人(2019)提出的双视角融合的模型相比,在不同肿瘤区域的分割性能上均有提升,表明矢状位视角信息的引入可提高模型性能。

表 4 本文方法与其他方法的对比
Table 4 Comparison between proposed method and other segmentation methods

下载CSV
模型 Dice score Hausdorff 95
WT TC ET WT TC ET
Chen等人(2019) 0.888 0.808 0.733 5.51 8.14 4.46
Ma和Yang(2019) 0.872 0.773 0.743 6.12 10.40 4.69
Banerjee等人(2019) 0.880 0.800 0.770 4.90 6.59 4.29
Islam等人(2019) 0.898 0.825 0.765 5.09 7.11 3.60
Noori等人(2019) 0.895 0.823 0.813 4.05 6.34 2.93
本文 0.907 0.838 0.819 3.98 7.17 3.23
注:加粗字体为各列最优结果。

3 结论

本文对U-Net结构进行改进,提出了基于注意力机制和多视角融合U-Net的脑肿瘤MR图像分割算法。一方面采用多尺度特征融合模块,提取上下文的多尺度信息进行融合; 另一方面在解码过程中采用基于注意力机制的级联结构,加强了有效信息获取,避免信息冗余。最后为了使2维结构的U-Net能利用3维图像的空间上下文信息,使用3维图像的不同视角分别训练网络,并在预测结果上进行平均融合。

实验结果表明,所提方法能有效分割脑肿瘤的不同区域。同时量化评价结果也表明,与其他方法相比,所提方法对不同脑肿瘤区域的分割均有不同程度的性能提升。但本文方法也存在不足,例如在多视角融合方面采取了每个视角平均的策略,未能充分利用不同视角对不同区域分割性能的优势。后续工作将对如何集成不同视角的模型达到性能最优展开研究。

参考文献

  • Ahmed S F, Rahman F S, Tabassum T and Bhuiyan T I. 2019. 3D U-Net: fully convolutional neural network for automatic brain tumor segmentation//Proceedings of the 22nd International Conference on Computer and Information Technology (ICCIT). Dhaka, Bangladesh: IEEE: 1-6[DOI:10.1109/ICCIT48885.2019.9038237]
  • Bakas S, Akbari H, Sotiras A, Bilello M, Rozycki M, Kirby J S, Freymann J B, Farahani K, Davatzikos C. 2017. Advancing the cancer Genome Atlas glioma MRI collections with expert segmentation labels and radiomic features. Scientific Data, 4: #170117 [DOI:10.1038/sdata.2017.117]
  • Banerjee S, Mitra S and Shankar B U. 2019. Multi-planar spatial-ConvNet for segmentation and survival prediction in brain cancer//Proceedings of the 4th International Workshop on Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries. Granada, Spain: Springer: 94-104[DOI:10.1007/978-3-030-11726-9_9]
  • Chen L C, Papandreou G, Kokkinos I, Murphy K, Yuille A L. 2018. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(4): 834-848 [DOI:10.1109/TPAMI.2017.2699184]
  • Chen W, Liu B Q, Peng S T, Sun J W and Qiao X. 2019. S3D-UNet: separable 3D U-Net for brain tumor segmentation//Proceedings of the 4th International Workshop on Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries. Granada, Spain: Springer: 358-368[DOI:10.1007/978-3-030-11726-9_32]
  • Hamaguchi R, Fujita A, Nemoto K, Imaizumi T and Hikosaka S. 2018. Effective use of dilated convolutions for segmenting small object instances in remote sensing imagery//Proceedings of 2018 IEEE Winter Conference on Applications of Computer Vision (WACV). Lake Tahoe, USA: IEEE: 1442-1450[DOI:10.1109/WACV.2018.00162]
  • He K M, Zhang X Y, Ren S Q and Sun J. 2015. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 1026-1034[DOI:10.1109/ICCV.2015.123]
  • Huang F Q, Chen C X, Wu W J. 2007. Application of PSO algorithm to brain tumor image division. Journal of Henan University of Science and Technology (Natural Science), 28(6): 97-99 (黄峰茜, 陈春晓, 吴文佳. 2007. 粒子群优化算法在脑部肿瘤图像分割中的应用. 河南科技大学学报(自然科学版), 28(6): 97-99) [DOI:10.3969/j.issn.1672-6871.2007.06.028]
  • Iftekharuddin K M, Zheng J, Islam M A, Ogg R J. 2009. Fractal-based brain tumor detection in multimodal MRI. Applied Mathematics and Computation, 207(1): 23-41 [DOI:10.1016/j.amc.2007.10.063]
  • Islam M, Jose V J M and Ren H L. 2019. Glioma prognosis: segmentation of the tumor and survival prediction using shape, geometric and clinical information//Proceedings of the 4th International Workshop on Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries. Granada, Spain: Springer: 142-153[DOI:10.1007/978-3-030-11726-9_13]
  • Liu Y, Wang X P, Wang J Q, Yu H. 2015. Watershed algorithm for brain tumor segmentation based on morphological reconstruction and gradient layered modification. Application Research of Computers, 32(8): 2487-2491 (刘岳, 王小鹏, 王金全, 于挥. 2015. 基于形态学重建和梯度分层修正的分水岭脑肿瘤分割. 计算机应用研究, 32(8): 2487-2491) [DOI:10.3969/j.issn.1001-3695.2015.08.060]
  • Ma J and Yang X P. 2019. Automatic brain tumor segmentation by exploring the multi-modality complementary information and cascaded 3D lightweight CNNs//Proceedings of the 4th International Workshop on Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries. Granada, Spain: Springer: 25-36[DOI:10.1007/978-3-030-11726-9_3]
  • Menze B H, Jakab A, Bauer S, Kalpathy-Cramer J, Farahani K, Kirby J, Burren Y, Porz N, Slotboom J, Wiest R, Lanczi L, Gerstner E, Weber M A, Arbel T, Avants B B, Ayache N, Buendia P, Collins D L, Cordier N, Corso J J, Criminisi A, Das T, Delingette H, Demiralp ç, Durst C R, Dojat M, Doyle S, Festa J, Forbes F, Geremia E, Glocker B, Golland P, Guo X T, Hamamci A, Iftekharuddin K M, Jena R, John N M, Konukoglu E, Lashkari D, Mariz J A, Meier R, Pereira S, Precup D, Price S J, Raviv T R, Reza S M S, Ryan M, Sarikaya D, Schwartz L, Shin H C, Shotton J, Silva C A, Sousa N, Subbanna N K, Szekely G, Taylor T J, Thomas O M, Tustison N J, Unal G, Vasseur F, Wintermark M, Ye D H, Zhao L, Zhao B S, Zikic D, Prastawa M, Reyes M, Van Leemput K. 2015. The multimodal brain tumor image segmentation benchmark (BRATS). IEEE Transactions on Medical Imaging, 34(10): 1993-2024 [DOI:10.1109/TMI.2014.2377694]
  • Milletari F, Navab N and Ahmadi S A. 2016. V-Net: fully convolutional neural networks for volumetric medical image segmentation//Proceedings of the 4th International Conference on 3D Vision. Stanford, USA: IEEE: 565-571[DOI:10.1109/3DV.2016.79]
  • Noori M, Bahri A and Mohammadi K. 2019. Attention-guided version of 2D UNet for automatic brain tumor segmentation//Proceedings of the 9th International Conference on Computer and Knowledge Engineering (ICCKE). Mashhad, Iran: IEEE: 269-275[DOI:10.1109/ICCKE48569.2019.8964956]
  • Ronneberger O, Fischer P and Brox T. 2015. U-Net: convolutional networks for biomedical image segmentation//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer: 234-241[DOI:10.1007/978-3-319-24574-4_28]
  • Sang L Q, Qiu M G, Wang L, Zhang J N, Zhang Y. 2010. Brain tumor MRI image segmentation based on statistical thresholding method. Journal of Biomedical Engineering Research, 29(4): 237-239 (桑林琼, 邱明国, 王莉, 张静娜, 张晔. 2010. 基于统计阈值的脑肿瘤MRI图像的分割方法. 生物医学工程研究, 29(4): 237-239) [DOI:10.3969/j.issn.1672-6278.2010.04.004]
  • Shelhamer E, Long J, Darrell T. 2017. Fully convolutional networks for semantic segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(4): 640-651 [DOI:10.1109/TPAMI.2016.2572683]
  • Shen H C, Wang R X, Zhang J G and Mckenna S. 2017. Multi-task fully convolutional network for brain tumour segmentation//Proceedings of the 21st Annual Conference on Medical Image Understanding and Analysis. Edinburgh, UK: Springer: 239-248[DOI:10.1007/978-3-319-60964-5_21]
  • Sudre C H, Li W Q, Vercauteren T, Ourselin S and Cardoso M J. 2017. Generalised dice overlap as a deep learning loss function for highly unbalanced segmentations//Proceedings of the 3rd MICCAI International Workshop on Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support. Québec City, Canada: Springer: 240-248[DOI:10.1007/978-3-319-67558-9_28]
  • Tustison N J, Avants B B, Cook P A, Zheng Y J, Egan A, Yushkevich P A, Gee J C. 2010. N4ITK: improved N3 bias correction. IEEE Transactions on Medical Imaging, 29(6): 1310-1320 [DOI:10.1109/TMI.2010.2046908]
  • Wang W, Yu K C, Hugonot J, Fua P and Salzmann M. 2019. Recurrent U-Net for resource-constrained segmentation//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South): IEEE: 2142-2151[DOI:10.1109/ICCV.2019.00223]
  • Zhou B L, Khosla A, Lapedriza A, Oliva A and Torralba A. 2016. Learning deep features for discriminative localization//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE: 2921-2929[DOI:10.1109/CVPR.2016.319]