Print

发布时间: 2021-09-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200436
2021 | Volume 26 | Number 9




    磁共振图像    




  <<上一篇 




  下一篇>> 





LRUNet: 轻量级脑肿瘤快速语义分割网络
expand article info 何康辉, 肖志勇
江南大学人工智能与计算机学院, 无锡 214122

摘要

目的 针对目前基于深度学习的脑肿瘤分割算法参数量大、计算复杂和快速性差的问题,提出了一种超轻量级快速语义分割网络LRUNet(lightweight rapid UNet),在保证分割精度提升的同时,极大地减少了网络的参数量与计算量,达到快速分割的效果。方法 LRUNet网络结构基于UNet,将3D-UNet的通道数减少为原来的1/4,减少原先3D-UNet过多的参数量;将UNet网络中除最后一层外的所有传统卷积变为深度可分离卷积,深度可分离卷积以牺牲极少精度,大大减少网络参数量,实现网络的轻量级;使用空间—通道压缩和激发模块(spatial and channel squeeze&excitation block,scSE),该模块能够放大特征图中对模型有利的参数的权重,缩小对模型不利参数的权重,提升网络分割的精度。结果 在BraTS 2018(Brain Tumor Segmentation Challenge 2018)数据集上的在线验证结果显示,该模型在全肿瘤、核心区肿瘤和增强区肿瘤分割的平均Dice系数分别为0.893 6、0.804 6和0.787 2。LRUNet与同为轻量级网络的S3D-UNet相比Dice有所提升,但是,参数量仅为S3D-UNet的1/4,FLOPs(floating point operations per second)仅为1/2。结论 与3D-UNet、S3D-UNet和3D-ESPNet等算法相比,LRUNet算法不仅保证精度得到提升,而且极大地减少网络中计算的参数量与计算成本消耗,同时网络模型的预测速度得到很大提升,使得快速语义分割在3维医学图像领域成为可能。

关键词

3维图像处理; 全卷积网络; 磁共振成像; 快速语义分割; U型网络

LRUNet: a lightweight rapid semantic segmentation network for brain tumors
expand article info He Kanghui, Xiao Zhiyong
School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi 214122, China
Supported by: Natural Science Foundation of Jiangsu Province for Excellent Young Scholars(BK20190079)

Abstract

Objective The brain tumor has been divided into primary and secondary tumors types. Glioma has been divided into lower glial tumors and higher glial tumors. Magnetic resonance imaging(MRI) has been a vital diagnostic tool for brain tumor analysis, detection and surgical planning. Accurate segmentation of brain tumors has been crucial for diagnosis and treatment planning. Manual segmentation has required senior doctors to spend a lot of time to complete nowadays. Automatic brain tumor segmentation has been applied instead manual segmentation further. The intensified profile of the tumor area has overlapped significantly with a healthy portion. Method This research has bridged the gap between the efficiency and accuracy of 3D MRI brain tumor segmentation models. A light-weighted rapid semantic segmentation network called LRUNet has been demonstrated. LRUNet has improved the segmentation accuracy and achieved the effect of lightweight, high precision and rapid semantic segmentation in comparison with the existing network. The amount of parameters of these networks has been deleted compared with the algorithms in order to achieve the lightweight effects. At the beginning, the number of channels in the existed 3D-UNet has deducted by four times in each output layer to reduce the number of network parameters dramatically. Next, existed 3D convolution has been excluded and deep separable convolution has been applied to 3D convolution to reduce the number of network parameters on the premise of maintaining accuracy greatly. At last, the convolution-based feature map has not been beneficial to the model entirely. The weight of parameters based on space and channel compression & excitation module has been strengthened to improve the model in the feature map, to reduce the weight of redundant parameters and to improve the performance of the model. Based on 3D-UNet, the number of channels has been reduced 4 times via each convolution. The network becomes more trainable because fewer channels lead to fewer parameters. Three dimensional depth separable convolutions have de-composed the standard convolution into deep convolution and point convolution of 1×1×1. A standard convolutional layer has been integrated to filter and merge into one output. Deep separable convolution has divided the convolution into two layers for filtering and merging each. The effect of this factorization has greatly reduced computation and model size. The application of deep separable convolution has made the network lightweight to realize fast semantic segmentation. The accuracy of the network has not still been improved. The space and channel compression & excitation module have generated a tensor to represent the importance of the feature map in space or channel direction via compressing and exciting the feature map in space or channel direction. The enhancement of important channels or spatial points has been facilitated. The neglect of unimportant channels or spatial points has been weakened. The space and channel compression & excitation module have yielded the network to remain lightweight under no circumstances of increasing the number of arguments. In addition, the accuracy of the network and the training accuracy of the model have been improved simultaneously. First, the tumors contained in the previously given segmentation map have been synthesized to make larger tumor's training area. Second, the best model of intersection over union(IOU) in the validation set has been the optimal parameters. Thirdly, binary cross entropy(BCE) Dice loss has been adopted as the loss function to solve the class imbalance of the foreground and background of the data set itself. Finally, the predicted results have been submitted online to ensure the fairness of the algorithm. Result The model has been tested in the Brain Tumor Segmentation Challenge 2018(BraTS 2018) online validation experiment. The average Dice coefficients of tumor segmentation in whole tumor, core tumor and enhanced tumor region have reached 0.893 6, 0.804 6 and 0.787 2 respectively. Compared with 3D-UNet, S3D-UNET, 3D-ESPNET and other algorithms, LRUNet has not only assured the improvement of accuracy, but also greatly reduced the consumption of computational parameters and computational costs in the network. Conclusion A new light-weighted UNet network with only 0.97 MB parameters has been developed to 31 GB floating point operations per second(FLOPs) approximately. The number of parameters has been acquired only 1/16 of the 3D-UNet and the FLOPs have reached 1/52 of the 3D-UNet. The illustrated verification has demonstrated that the great advantages in both performance and number of network parameters have been leaked out based on calculated algorithm (note: the segmentation results have been closest to the true tag). The lightweight and efficient nature of the network has been beneficial to the large-scale 3D medical data sets processing.

Key words

3D image processing; fully convolutional network; magnetic resonance imaging(MRI); rapid semantic segmentation; UNet

0 引言

磁共振成像(magnetic resonance imaging, MRI)是脑肿瘤分析、检测和手术计划的关键诊断工具。通常,可以获得集中互补的3D MRI成像,如T1、T1加造影剂(T1ce)、T2和液体衰减反转恢复序列(fluid attenuated inversion recovery, FLAIR),以强调不同的组织特性和肿瘤扩散区域。脑肿瘤的分割(Liu等,2020)是一个具有挑战性的任务,因为磁共振图像通常是通过各种协议和磁铁强度来获取的,这导致了磁共振图像的成像结果不同。此外,脑肿瘤可以出现在大脑的任何地方,其形状和大小差异很大。肿瘤区域的强度剖面与健康部分有很大程度的重叠。所以,脑肿瘤的分割是一项十分具有挑战的工作,并且也是在医学分割领域最为困难的几个问题之一。目前,脑肿瘤的分割通常采用手工分割方式。但是,手工分割需要资深的医生花费大量的时间才能完成。因此,急需一个自动方式来分割脑肿瘤。

卷积神经网络(convolution neural networks, CNNs)在计算机视觉领域取得了很大的成功(Long等,2015),与此同时,提出了许多基于深度学习的脑肿瘤分割的方法并且取得了显著的效果。Havaei等人(2017)提出一个双通道的架构,一个是本地通道另一个是全局通道,可以同时利用局部特征和全局上下文特征。Kamnitsas等人(2017)提出了一种名为deepmedic的高效全连接多尺度CNN架构,该架构利用3维卷积核,重组高分辨率和低分辨率路径得到分割结果。此外,他们使用3维全连通条件随机场来有效地去除假阳性。Isensee等人(2017)提出了新型3D-UNet,对流行的UNet架构进行了仔细修改,并且使用Dice损失函数来解决类不平衡问题。在2017年的BraTS(Brain Tumor Segmentation)测试数据上取得了有竞争力的结果。上述方法都能取得较好的效果,但是网络的参数量太大,导致所提出的网络无法大规模在实际中应用。虽然在深度神经网络中使用3维卷积是推理体积结构的一种有效方法(Çiçek等,2016Milletari等,2016),但是与常规2维CNNs相比,多层的3维卷积,具有额外的维度,导致计算成本较高。目前一些研究已经尝试通过使用轻量级网络架构来解决这一问题。例如,3D-ESPNet(Nuechterlein和Mehta,2018),该网络是一种快速高效的基于点向卷积的2维语义分割网络,适用于医学图像数据的3维语义分割。S3D-UNet(Chen等,2018)利用可分离的3维卷积,将每个3维卷积分成3个并行的分支,以减少网络参数的数量。这些方法在网络参数量与运算量上有所改进,但是在分割精度上的表现优势不足。

为了弥补3维MRI脑肿瘤分割模型计算成本与准确性的差距,本文提出一种新的轻量级UNet网络LRUNet。该网络的主要创新点如下:首先,抛弃了传统的3维卷积,将深度可分离卷积应用到3维网络中, 在保持精度不下降太多的前提下大大地减少了网络的参数量;其次,针对卷积后得到的特征图中的参数信息并不是完全有利于模型这一问题,本文使用scSE模块来加强特征图中对模型有利参数的权重,该模块不仅降低冗余参数的权重,而且提升了模型的性能。LRUNet的参数量仅有0.95 MB,是目前应用于脑肿瘤分割领域中参数最少的模型之一, 并且分割的速度可以达到快速语义分割效果。

1 相关工作

1.1 3维深度可分离卷积

传统的脑肿瘤分割网络,因为肿瘤成像3维性的原因,导致网络自身预测的速率慢,并且需要较高配置的机器才能完成。对于医生辅助治疗存在一定的阻碍(何慧和陈胜,2020江宗康等,2020)。轻量级快速语义分割的网络能够更加快速地完成分割任务。标准卷积所需要训练的参数极大,无法达到轻量级的效果,深度可分离卷积对比标准卷积则可以极大地减少卷积的参数(刘辰等,2019)。3维深度可分离卷积(Howard等, 2017Chollet,2017)将标准卷积分解为深度卷积和1×1×1的点卷积。一个标准的卷积层将过滤与合并组合成一个输出。深度可分离卷积将卷积分解为两层,一个单独的层用于过滤,另一层用于合并。这种因式分解的效果大大减少了计算量和模型大小,3维深度可分离卷积如图 1所示。一个标准的3维卷积层输入为$\boldsymbol{F}\left(D_{F}^{3} \times M\right)$的特征图,式中, $D_{F}$表示特征图的大小,$M$表示输入通道的大小。输出为$\boldsymbol{G}\left(D_{G}^{3} \times N\right)$的特征图,式中, $D_{G}$表示输出特征图的大小,$N$表示输出通道的大小。卷积核为$\boldsymbol{K}\left(D_{K}^{3}\right), D_{K}$表示卷积核的大小。标准卷积的计算量为:$D_{K}^{3} \times M \times N \times D_{G}^{3}$。深度可分离卷积的计算量为深度卷积和1×1×1的点卷积的计算量之和$D_{K}^{3} \times M \times D_{F}^{3}+M \times N \times D_{G}^{3}$。深度可分离卷积与传统卷积的计算量之比为

$ \frac{D_{K}^{3} \times M \times D_{F}^{3}+M \times N \times D_{G}^{3}}{D_{K}^{3} \times M \times N \times D_{G}^{3}}=\frac{D_{F}^{3}}{N \times D_{G}^{3}}+\frac{1}{D_{K}^{3}} $ (1)

图 1 3维深度可分离卷积模块
Fig. 1 Three dimensional depthwise separable convolution block

可以看出,可分离卷积极大地降低了网络的参数量。如:输入特征图$\boldsymbol{F}$的参数量为323×16,输出特征图$\boldsymbol{G}$的参数量为163×32,卷积核$\boldsymbol{K}$的参数量为33,深度可分离卷积与传统卷积的计算之比为

$ \frac{32^{3} \times 16 \times 3^{3}+16 \times 32 \times 16^{3}}{3^{3} \times 32 \times 16 \times 16^{3}}=\frac{1}{4}+\frac{1}{27} $

可以看出,对比3维标准卷积,深度可分离卷积的参量大大减少。

1.2 空间—通道压缩和激发模块

加入深度可分离卷积使网络变得更加轻量级,实现网络的快速分割效果。但是,深度可分离卷积的加入会使得网络的精度降低,无法进行精确的分割。对脑肿瘤的分割要求网络必须更加精确,确保能够成为医生后续辅助治疗的工具。

空间—通道压缩和激发模块通过对特征图在空间或是在通道上压缩和激发,生成一个表示特征图在空间或通道方向重要性(注意力)的张量,从而方便增强重要的通道或者空间点,削弱或者忽略不重要的通道或者空间点。能够提高肿瘤区域的分割精度,并且能够继续保持网络的轻量级。

1.2.1 空间压缩和通道激发模块

空间压缩和通道激发模块(spatial squeeze and channel excitation block, $\mathrm{cSE}$) (Hu等, 2018) 是特征图$\boldsymbol{F}$沿着空间压缩并在通道激发, 模块结构如图 2所示(图中, $\otimes$表示特征图元素相乘)。特征图$\boldsymbol{F}$是由$C$个通道结合起来的, $\boldsymbol{F}=\left[\boldsymbol{f}_{1}, \boldsymbol{f}_{2}, \cdots, \boldsymbol{f}_{C}\right], \boldsymbol{f} \in$ ${\bf{R}}^{H \times W \times D}$, 空间压缩通过全局平均池化产生向量$\boldsymbol{Z} \in$ ${\bf{R}}^{1 \times 1 \times 1 \times C}, \boldsymbol{Z}$中的第$x$个元素表示为

$ \boldsymbol{Z}_{x}=\frac{1}{H \times W \times D} \sum\limits_{i}^{H} \sum\limits_{j}^{{W}} \sum\limits_{k}^{D} \boldsymbol{f}_{x}(i, j, k) $ (2)

图 2 空间压缩和通道激发模块
Fig. 2 Spatial squeeze and channel excitation block

上述操作将全局信息嵌人到向量$Z$中。接着进行两次全连接层和一个ReLU (rectified linear unit) 操作: $\hat{\boldsymbol{Z}}=W_{1}\left(\delta\left(W_{2} \boldsymbol{Z}\right)\right)$, 式中, $\boldsymbol{W}_{1} \in {\bf{R}}^{C \times \frac{C}{2}}, \boldsymbol{W}_{2} \in$ ${\bf{R}}^{\frac{c}{2} \times C}, \delta(\cdot)$为ReLU激活函数。通过一个sigmoid层$\sigma(\cdot), \hat{\boldsymbol{Z}}$的范围被激活至$(0, 1)$的范围内。所得的向量用于重新校准或激发特征图$\boldsymbol{F}$$\boldsymbol{U}_{\mathrm{cSE}}$, 即

$ \boldsymbol{U}_{\mathrm{cSE}}=\left[\sigma\left(\hat{z}_{1}\right) f_{1}, \cdots, \sigma\left(\hat{z}_{2}\right) f_{2}, \cdots, \sigma\left(\hat{z}_{C}\right) f_{C}\right] $ (3)

式中, $\sigma\left(\hat{\boldsymbol{Z}}_{i}\right)$表示重新调节特征图$\boldsymbol{F}$中第$i$通道的重要性。随着网络的学习, 这些激活被自适应地调整,忽略不太重要的通道,强调重要的通道。

1.2.2 通道压缩和空间激发模块

通道压缩和空间激发模块(channel squeeze and spatial exciation block, $\mathrm{sSE}$) 是特征图沿着通道压缩并在空间激发, 这对于细粒度图像分割是重要的。该模块的结构如图 3所示。特征图$\boldsymbol{F}=\left[\boldsymbol{f}^{1, 1, 1}\right.$, $\left.\boldsymbol{f}^{1, 1, 2}, \cdots, f^{i, j, k}, \cdots, f^{H, {W}, D}\right]$, 式中, $\boldsymbol{f}^{i, j, k} \in {\bf{R}}^{{1 \times 1} \times 1 \times C}$为特征图中对应的$(i, j, k)$空间位置, 其中$i \in\{1, 2, \cdots, H\}, j \in\{1, 2, \cdots, W\}, k \in\{1, 2, \cdots, D\}$。通过卷积实现空间压缩操作$\boldsymbol{q}=\boldsymbol{W}_{\mathrm{sq}} \times \boldsymbol{F}$, 其中$\boldsymbol{W}_{\mathrm{sq}} \in$ ${\bf{R}}^{1 \times 1 \times C \times 1}$表示权重, 产生一个投影张量$\boldsymbol{q} \in {\bf{R}}^{H \times W \times D}$。每一个$q^{i, j, k}$表示一个空间位置$(i, j, k)$的所有通道$C$的线性组合。通过sigmoid归一化, 最后将其结果乘以特征图$\boldsymbol{F}$, 即

$ \begin{gathered} \boldsymbol{U}_{\mathrm{sSE}}=\left[\sigma\left(q_{1, 1, 1}\right) f^{1, 1, 1}, \cdots, \sigma\left(q_{i, j, k}\right) f^{i, j, k}, \cdots, \right. \\ \left.\sigma\left(q_{H, W, D}\right) f^{H, W, D}\right] \end{gathered} $ (4)

图 3 通道压缩和空间激发模块
Fig. 3 Channel squeeze and spatial excitation block

每个值$\sigma\left(q_{i, j, k}\right)$对应于给定特征图$\boldsymbol{F}$空间信息$(i, j, k)$的相对重要性。这种重新校准提供了更重要的相关空间位置, 而忽略了不相关的空间位置。

1.2.3 空间—通道压缩和激发模块

空间—通道压缩和激发模块(spatial and channel squeeze & excitation block, scSE)(Roy等,2018)是由sSE和cSE结合而来,同时考虑通道注意力和空间注意力,其模型结构图如图 4所示(图中,$ \oplus $表示特征图元素相加)。scSE的主要做法是将sSE与cSE相加,在空间和通道中得到更为精准的特征图,为

$ \boldsymbol{U}_{\mathrm{scSE}}=\boldsymbol{U}_{\mathrm{sSE}}+\boldsymbol{U}_{\mathrm{cSE}} $ (5)

图 4 空间—通道压缩和激发模块
Fig. 4 Spatial and channel squeeze & excitation block

2 本文方法

2.1 网络模型

LRUNet是基于Ronneberger等人(2015)提出的UNet结构,网络模型如图 4所示。该结构由编码和解码两个阶段组成。UNet结构在医学图像分割领域得到了广泛应用,并取得了很好的效果。其中一些研究已经证明(Chen等,2019Milletari等,2016),使用3D体积作为输入的UNet的3D版本可以产生比2D版本更好的效果。

LRUNet使用3维深度可分离块以及空间—通道压缩和激发模块作为基础构件。图 5中,网络输入的通道数为4,对应MRI数据的4种模态,即:T1、T1ce、T2、FLAIR。3个通道的输出,对应于需要预测的3种不同类型的肿瘤,即肿瘤核心(tumor core, TC)、整个肿瘤(whole tumor, WT)和增强肿瘤(enhance tumor, ET)。在特征编码阶段,每层使用两个3维深度可以分离卷积进行特征提取,随后由一个scSE模块加强特征图中重要的信息点并且抑制冗余的信息点。随后进行下采样缩小特征图大小。在特征解码阶段,编码阶段的高分辨率特征与上采样特征相连接,后接两个3维深度可分离卷积,在最后一层中使用普通的3维卷积用于输出最后的预测图。本文采用3维线性插值对特征图进行上采样。同时,在每次卷积运算之前,都要执行批归一化处理和ReLU函数。

图 5 LRUNet结构
Fig. 5 Architecture of LRUNet

2.2 损失函数

神经网络的性能不仅仅取决于网络结构,还取决于损失函数的选择。特别是在类别严重不平衡的情况下,损失函数显得尤其重要。由脑肿瘤的自身特点,分割任务存在固有的类别不平稳的问题。表 1展示了2018年BraTS训练数据的类别分布情况。Dice损失函数是针对前景比例太小的问题提出的,Dice系数源于二分类,本质上是衡量两个样本的重叠部分。本文采用二元交叉熵(binary cross entropy, BCE)损失函数(式(6))和Dice损失函数(式(7))组合的BCE Dice损失函数(式(8)),在一定程度上缓解因为前景和背景的比例差异造成的预测效果不精确问题,即

$ \boldsymbol{B C} \boldsymbol{E}=-\sum\limits_{i=1}^{N} \sum\limits_{j=1}^{L} \hat{y}_{i j} \log y_{i j}+\left(1-\hat{y}_{i j}\right) \log \left(1-y_{i j}\right) $ (6)

$ \boldsymbol{D} \boldsymbol{L}=1-\frac{2 \sum\limits_{j=1}^{L}\left(\sum\limits_{i=1}^{N} y_{i j} \hat{y}_{i j}\right)+\zeta}{\sum\limits_{j=1}^{L}\left(\sum\limits_{i=1}^{N} y_{i j}+\sum\limits_{i=1}^{N} \hat{y}_{i j}\right)+\zeta} $ (7)

$ \boldsymbol{L}=0.5 \times \boldsymbol{B C E}+0.5 \times \boldsymbol{D L} $ (8)

表 1 2018年BraTS训练集类分布情况
Table 1 The distribution of the classes in the training data of BraTS 2018

下载CSV
背景 NCR/NET ED ET
占比/% 98.88 0.28 0.64 0.20

式中,$y$表示真实的分割结果,$\hat{y}$表示预测的分割结果;对所有的样本集合$N$和所有的标签集合$L$进行计算,$ζ$是为了防止出现除以0的计算错误而设置的一个极小值,在实验中$ζ$设置为1E-5。

3 实验与结果分析

3.1 数据集预处理与后处理

本文使用的数据集来自BraTS 2018(Bakas等,2017, 2018Menze等,2014)提供3D MRI。数据包括4种MR序列,即T1、T2、T1ce和FLAIR, 4种不同的序列如图 6所示。每一种的体素为240×240×155。肿瘤数据真实的标签包括背景(标签0)、坏疽(non-enhancing tumor, NET)(标签1)、浮肿区域(peritumoral edema, ED)(标签2)和增强肿瘤区域(enhancing tumor, ET)(标签4)。需要预测的肿瘤类型有3种:肿瘤核心、整个肿瘤、增强肿瘤。数据集包括285个训练集和66个验证集。其中验证集不公开分割标签,需要通过在线评估服务器对验证集的性能进行评估。

图 6 4种不同模态的脑MRI
Fig. 6 MRI images in different modes
((a)FLAIR; (b)T1;(c)T1ce; (d)T2)

数据处理过程如下:1)将每一种序列240×240×155大小的图像填充为240×240×160,经过处理发现在脑部周围还有很大一部分的区域全都是背景,所以将图像裁剪为160×160×160大小,减少类别不平衡问题。2)由于内存显卡资源大小的限制,不能完整地输入整个图像,所以将图像沿着$Z$轴方向分为若干个160×160×32大小的数据。理论上可以将每一个序列的原始图像分为步长为32的5个切片数据。但是,首先考虑到直接切片导致两个切片图像之间的空间信息丢失,所以裁剪的步长为16。3)由于在训练集中根据ground truth可以知道肿瘤部位所对应的切片,可以将没有肿瘤的切片不放入网络中训练,减少网络的类别不平衡。在验证集中,不需要进行训练,所以步长还是为32,并且也无法通过ground truth知道肿瘤所在切片,所以只能将裁减的切片全都放入网络中。4)将裁剪完的4种MR序列的图像合并在一起形成4×160×160×32的图像,作为训练图像。

在预处理阶段,并不是直接对分割标签进行one-hot编码。给定的真实标签含有0、1、2、4这4个值。将其分为3个通道、即WT、TC、ET这3个肿瘤分别在3个通道中。以WT通道生成为例进行详细阐述:WT通道包含原始真实分割图中的1、2、4这3个标签合成,将1、2、4这3个标签变为1,非1标签的像素点变为0,合成了WT的通道。其他TC、ET通道也是如此。没有直接对原始的分割标签进行one-hot编码的理由是,因为1, 2, 4标签在整个数据集中所占用的比例本身就十分小,对其进行合并后可以尽量增大肿瘤的部分,即也是数据所希望的预测区域,减小网络训练的难度,提高训练的精确性。

由于数据需要在线提交,所以需要将预测出来的3个通道的WT、TC、ET合并为1个通道的包含0, 1, 2, 4标签的预测分割图。对于预测出的分割图使用sigmoid函数,如果该像素点预测结果大于0.5就认为该像素点为肿瘤像素点,否则为背景像素点。创建一个和真实分割图相同大小的数组,用来保存预测分割图。将3通道中的WT通道中为肿瘤的像素点在预测分割图中全部赋值为2,将TC通道中为肿瘤的像素点在预测图中全部赋值为1,将ET通道中为肿瘤的像素点全部幅值为4。通过上述操作就可以生成包含0, 1, 2, 4这4种标签的预测分割图进行在线提交。

3.2 参数设置

使用的框架是pytorch,batch size大小为16,并在2个Nvidia GeForce 2080Ti GPU上训练模型500个epoch,采用早停机制,如果30个epoch内模型在验证集中的交并比(intersection over union, IOU)没有提升,则程序终止,本实验共训练了243个epoch。本文采用Adam(Kingma和Ba,2017)优化器,初始学习率$α$=0.001,权重衰减为1E-5。采用BCE Dice损失函数,图 7为训练过程中loss下降情况。

图 7 LRUNet BEC Dice损失函数
Fig. 7 LRUNet BEC Dice loss

3.3 评价指标

评价指标旨在衡量所提方案的性能,本文采用医学图像脑部分割领域的评价标准,包括Dice系数和Hausdorff。

Dice系数用来测量分割结果和ground truth之间的重叠,值为0~1。其中$TP$表示被正确预测为肿瘤的像素个数;$FP$表示被预测为肿瘤组织的非肿瘤像素个数;$TN$表示被预测为非肿瘤的像素个数;$FN$表示未被检测到的肿瘤像素个数

$ D S C=\frac{2 T P}{2 T P+F P+F N} $ (9)

Hausdorff指标用来评估分割边界和ground truth边界之间的距离。在数学上,它被定义为给定体积$P_{1}$$\partial P_{1}$表面上所有的点$p$到另一个给定体积$T_{1}$$\partial T_{1}$表面上最近点$t$的最大距离, 即

$ \begin{gathered} {Haus}(\boldsymbol{P}, \boldsymbol{T})= \\ \max \left\{\sup \limits_{p \in \partial P_{1}} \inf\limits_{ t \in \partial T_{1}} d(p, t), \quad \sup \limits_{p \in \partial T_{1}} \inf\limits_{ t \in \partial P_{1}} d(p, t)\right\} \end{gathered} $ (10)

本文中评估Hausdorff使用Hausdorff 95, 即Hausdorff最终结果值乘以95%,目的是为了消除离群值中非常小的子集的影响。

3.4 消融实验

3.4.1 加入不同模块后的消融实验

本文进行了4组对比实验来说明3维深度可分离卷积和scSE模块可以在不同程度上提高算法的分割性能,实验结果如表 2所示。分别对比前两组和后两组实验,可以看出加入了深度可分离卷积以后Hausdorff 95值明显提高,由于深度可分离卷积参数量少的问题,造成对边界的细分割并不是很理想,也是深度可分离卷积可能会导致精度下降的原因。对比第1组和第3组实验发现,加入scSE模块以后,网络的Dice精度有了明显的提高,说明scSE能够在网络中显著加强重要参数权重,抑制不重要的参数权重。在对比第3组和第4组实验中,发现即使加入了深度可分离卷积也没有降低网络的Dice精度,说明在3D-UNet中本身就有许多的参数对网络无效,所以通过深度可分离卷积省去这些参数,降低网络参数效果。

表 2 加入不同模块后的消融实验
Table 2 Ablation experiments of each module

下载CSV
模型 Dice Hausdorff 95
ET WT TC ET WT TC
3D-UNet 0.725 0 0.884 3 0.769 9 5.418 05 6.940 52 9.913 67
3D-UNet+dsc 0.728 5 0.874 6 0.767 4 4.944 53 9.438 72 9.894 92
3D-UNet+scSE 0.730 2 0.886 3 0.791 7 3.533 9 6.323 06 7.383 16
LRUNet 0.787 2 0.893 6 0.804 6 4.559 43 9.262 04 9.111 74
注:加粗字体表示每列最优结果。

3.4.2 切片步长

本文实验中采用切片步长为16的分割方式,同时为了说明步长对实验精度的影响,对步长为8的数据切片并进行实验。对比实验结果如表 3所示,对比步长为8的分割方式,步长为16的分割方式在Dice指标下ET和WT都有明显的提升,而WT指标虽然低于步长为8的分割方式,但是仅仅低了很少的精度。在Hausdorff95的指标中ET和TC的指标两种分割方式,分割结果相差不大,WT指标中步长为8的切片方式比步长为16的低。结合上述实验分析,采用步长为16的切片方式作为实验最终的数据集切片方式。

表 3 不同步长对网络的影响
Table 3 The effect of different step sizes on the network

下载CSV
Dice Hausdorff 95
ET WT TC ET WT TC
步长16 0.787 2 0.893 6 0.804 6 4.559 43 9.262 04 9.111 74
步长8 0.767 4 0.895 2 0.784 4 4.382 95 6.079 32 9.573 89
注:加粗字体表示每列最优结果。

3.5 与其他算法比较

表 4可以明显看出,LRUNet网络参数量和FLOPs(floating point operations per second)显著优于同为轻量级脑肿瘤分割网络的S3D-UNet(Chen等,2018)和3D-ESPNet(Nuechter-lein等,2018),并且在精度上也有所提升。对比其他模型发现:1)3D-UNet参数量最多,但是精度却最差。本文参数量最少,在所有3种肿瘤的Dice指标上精度均优于3D-UNet,这说明网络结构对实验结果影响很大,并且这一对比体现了本文结构的有效性。2)各方法在TC肿瘤上分割的效果最好,在ET上相对较差,这是因为ET在脑肿瘤分割中是最小的脑瘤,同时对于低级胶质瘤并没有肿瘤增强区。所以,ET在所有的网络中分割总体比较差。图 8对比了LRUNet与3D-UNet在验证集中的分割结果,可以看出LRUNet分割的结果更加接近真实标签的结果。

表 4 与其他网络的性能对比
Table 4 Performance comparision with other algorithms

下载CSV
模型 参数量/M FLOPs/G Dice Hausdorff 95
ET WT TC ET WT TC
3D-UNet(Çiçek等,2016) 16.21 1 669.53 0.759 6 0.885 3 0.717 7 5.418 6.940 9.913
S3D-UNet(Chen等,2018) 3.32 75.20 0.749 8 0.893 5 0.830 9 4.432 4.716 7.747
3D-ESPNet(Nuechterlei等,2018) 3.63 76.51 0.737 0 0.883 0 0.814 0 5.295 5.461 7.850
LRUNet(本文) 0.97 31.91 0.787 2 0.893 6 0.804 6 4.559 9.262 9.111
注:加粗字体表示每列最优结果。
图 8 MRI脑肿瘤分割结果在水平面、矢状面、冠状面对比图
Fig. 8 The visual comparison of MRI brain tumor segmentation results in horizontal plane, sagittal plane and coronal plane
((a)3D-UNet; (b)LRUNet; (c)ground truth)

4 结论

针对目前医学分割领域的脑肿瘤分割所面临的分割网络复杂、无法达到快速语义分割效果、难以大规模应用等问题。本文提出了一种快速语义分割网络LRUNet。该网络是目前为止脑肿瘤分割领域最为轻量级的网络之一。

LRUNet的主要特点如下:1)结构改进。首先,与原始3D-UNet相比,LRUNet的通道数下降了4倍,但未影响网络性能。其次,将深度可分离卷积引入3维中,对比3维标准卷积,该模块能够在损失极低精度的前提下显著降低网络参数量与沉重的计算负担。最后,引入scSE模块在编码部分,scSE模块加强了特征图中模型有利参数的权重,降低阻碍模型学习能力的参数权重,显著提高了分割精度。2)轻量。该网络参数量仅有0.97 M,是3D-UNet的1/16。整体运算量约31 G FLOPs,约为3D-UNet的1/52。在BraTS 2018挑战的在线验证实验结果表明,LRUNet方法的精度远超3D-Unet。实验结果表明,本文算法在性能与网络参数量上都有很大优势。此外,由于本文网络轻量、高效的特性,使得其在处理大规模3D医疗数据集时更加高效与实用。

尽管本文方法取得了一定的进展,但仍然存在如下问题:评价指标显示,LRUNet在边界分割效果与其他先进算法尚有差距。在今后的研究中将尝试通过其他方法来加强边界的分割。

参考文献

  • Bakas S, Akbari H, Sotiras A, Bilello M, Rozycki M, Kirby J S, Freymann J B, Farahani K, Davatzikos C. 2017. Advancing the cancer genome atlas glioma MRI collections with expert segmentation labels and radiomic features. Scientific Data, 4(1): 1-4 [DOI:10.1038/sdata.2017.117]
  • Bakas S, Reyes M, Jakab A, Bauer S, Rempfler M, Crimi A, Shinohara R T, Berger C, Ha S M, Rozycki M and Prastawa M. 2018. Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the BRATS challenge[EB/OL]. [2020-07-12]. https://arxiv.org/pdf/1811.02629.pdf
  • Chen C, Liu X P, Ding M, Zheng J F and Li J Y. 2019. 3D dilated multi-fiber network for real-time brain tumor segmentation in MRI//Proceedings of International Conference on Medical Image Computing and Computer-Assisted Intervention. Shenzhen, China: Springer: 184-192[DOI: 10.1007/978-3-030-32248-9_21]
  • Chen W, Liu B Q, Peng S, Sun J T and Qiao X. 2018. S3D-UNet: separable 3D U-Net for brain tumor segmentation//Proceedings of International MICCAI Brainlesion Workshop. Granada, Spain: Springer: 358-368[DOI: 10.1007/978-3-030-11726-9_32]
  • Chollet F. 2017. Xception: deep learning with depthwise separable convolutions//Proceedings of 2007 IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE: 1251-1258[DOI: doi:10.1109/cvpr.2017.195]
  • Çiçek Ö, Abdulkadir A, Lienkamp S S, Brox T and Ronneberger O. 2016. 3D U-Net: learning dense volumetric segmentation from sparse annotation. //Proceedings of International Conference on Medical Image Computing and Computer-Assisted Intervention. Athens, Greece: Springer: 424-432[DOI: 10.1007/978-3-319-46723-8_49]
  • Havaei M, Davy A, Warde-Farley D, Biard A, Courville A, Bengio Y, Pal C, Jodoin P M, Larochelle H. 2017. Brain tumor segmentation with deep neural networks. Medical Image Analysis, 35: 18-31 [DOI:10.1016/j.media.2016.05.004]
  • He H, Chen S. 2020. Automatic tumor segmentation in PET by deep convolutional U-Net with pre-trained encoder. Journal of Image Graphics, 25(1): 171-179 (何慧, 陈胜. 2020. 改进预训练编码器U-Net模型的PET肿瘤自动分割. 中国图象图形学报, 25(1): 171-179) [DOI:10.11834/jig.190058]
  • Howard A G, Zhu M L, Chen B, Kalenichenko D, Wang W J, Weyand T, Andreetto M and Adam H. 2017. Mobilenets: efficient convolutional neural networks for mobile vision applications[EB/OL]. [2020-07-11]. https://arxiv.org/pdf/1704.04861.pdf
  • Hu J, Shen L and Sun G. 2018. Squeeze-and-excitation networks//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE: 7132-7141[10.1109/cvpr.2018.00745]
  • Isensee F, Kickingereder P, Wick W, Bendszus M and Maier-Hein K H. 2017. Brain tumor segmentation and radiomics survival prediction: Contribution to the brats 2017 challenge//Proceedings of International MICCAI Brainlesion Workshop. Quebec City, Canada: Springer: 287-297[DOI: 10.1007/978-3-319-7238-9_25]
  • Jiang Z K, Lyu X G, Zhang J X, Zhang Q, Wei X P. 2020. Review of deep learning methods for MRI brain tumor image segmentation. Journal of Image and Graphics, 25(2): 215-228 (江宗康, 吕晓钢, 张建新, 张强, 魏小鹏. 2020. MRI脑肿瘤图像分割的深度学习方法综述. 中国图象图形学报, 25(2): 215-228) [DOI:10.11834/jig.190173]
  • Kamnitsas K, Bai W, Ferrante E, McDonagh S, Sinclair M, Pawlowski N, Rajchl M, Lee M, Kainz B, Rueckert D and Glocker B. 2017. Ensembles of multiple models and architectures for robust brain tumour segmentation//Proceedings of International MICCAI Brainlesion Workshop. Quebec City, Canada: Springer: 450-462[DOI: 10.1007/978-3-319-75238-9_38]
  • Kingma D P and Ba J. 2017. Adam: a method for stochastic optimization[EB/OL]. [2020-07-11]. https://arxiv.org/pdf/1412.6980.pdf
  • Liu C, Xiao Z Y, Du N M. 2019. Application of imporved convolutional neural network in medical image segmentation. Journal of Frontiers of Computer Science and Technology, 13(9): 1593-1603 (刘辰, 肖志勇, 杜年茂. 2019. 改进的卷积神经网络在医学图像分割上的应用. 计算机科学与探索, 13(9): 1593-1603) [DOI:10.3778/j.issn.1673-9418.1904009]
  • Liu Z H, Chen L, Tong L, Zhou F X, Jiang Z H, Zhang Q N, Shan C F, Wang Y H, Zhang X R, Li L and Zhou H Y. 2020. Deep learning based brain tumor segmentation: a survey[EB/OL]. [2020-07-21]. https://arxiv.org/pdf/2007.09479.pdf
  • Long J, Shelhamer E and Darrell T. 2015. Fully convolutional networks for semantic segmentation//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 3431-3440[DOI: 10.1109/CVPR.2015.7298965]
  • Menze B H, Jakab A, Bauer S, Kalpathy-Cramer J, Farahani K, Kirby J, Burren Y, Porz N, Slotboom J, Wiest R, Lanczi L. 2014. The multimodal brain tumor image segmentation benchmark (BRATS). IEEE Transactions on Medical Imaging, 34(10): 1993-2024 [DOI:10.1109/TMI.2014.2377694]
  • Milletari F, Navab N and Ahmadi S A. 2016. V-net: fully convolutional neural networks for volumetric medical image segmentation//Proceedings of the 4th International Conference on 3D Vision. San Francisco, USA: IEEE: 565-577[DOI: 10.1109/3DV.2016.79]
  • Nuechterlein N and Mehta S. 2018. 3D-ESPNet with pyramidal refinement for volumetric brain tumor image segmentation//Proceedings of International MICCAI Brainlesion Workshop Granada, Spain: Springer: 245-253[DOI: 10.1007/978-3-030-11726-9_22]
  • Ronneberger O, Fischer P and Brox T. 2015. U-net: Convolutional networks for biomedical image segmentation//Proceedings of International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Spain: Springer: 234-241[DOI: 10.1007/978-3-319-24574-4_28]
  • Roy A G, Navab N and Wachinger C. 2018. Concurrent spatial and channel "squeeze & excitation" in fully convolutional networks//Proceedings of International Conference on Medical Image Computing and Computer-Assisted Intervention. Granada, Spain: Springer: 421-429[DOI: 10.1007/978-3-030-00928-1_48]