Print

发布时间: 2022-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210137
2022 | Volume 27 | Number 3




    磁共振图像    




  <<上一篇 




  下一篇>> 





面向多模态MRI脑胶质瘤区域三维分割与生存期预测的级联U-Net网络
expand article info 余力1, 刘宵雪2, 闫朝阳1, 李建瑞2, 张志强2, 黄韫栀1, 徐军1
1. 南京信息工程大学人工智能学院医学人工智能联合研究院, 南京 210044;
2. 东部战区总医院影像科,南京 210002

摘要

目的 针对常见方法对脑胶质瘤的肿瘤分割和生存预测需要单独建模的问题,提出一种带有变分自编码器(variational auto-encoder, VAE)分支的两阶段级联U-Net算法,旨在分割肿瘤的同时提取鲁棒的特征预测患者生存期,有助于患者的精准治疗。方法 提出的两阶段级联U-Net网络,第1阶段实现初步粗分割,第2阶段实现精细化分割。此外,在第2阶段添加变分自编码器分支以提取更加鲁棒的特征并提高模型泛化性。其中,变分自编码器分支获取的特征被送入随机森林算法以进行生存期预测。另外,在两个阶段的解码器部分都添加了SE(squeeze-and-excitation)-残差模块以及注意力门模块,提高了分割精度。结果 在Brain Tumor Segmentation (BraTS)竞赛官网分别评估了本文方法在BraTS2020验证集上分割以及总体生存期预测两大任务的结果,本文算法在该验证集的全肿瘤区域、肿瘤核心区域以及增强型肿瘤区域分别取得了90.66%、85.09%和79.02%的Dice相似系数。相较3DU-Net在3个肿瘤子区域的Dice相似系数分别提高了4.3%、1.37%和5.36%。对于总体生存期的预测准确率达到了55.2%,相较性能最佳算法的预测准确率虽然低3.4%,但是从均方误差这一评估指标来看略有优势。结论 为了防止出现过拟合,提出带有VAE分支的两阶段级联U-Net网络结构,同时该分支能够提取肿瘤的鲁棒特征用于后续生存分析。实验表明,该网络能够较为准确地分割脑肿瘤,并且其提取的特征能够准确地预测患者生存期,可以为临床医生进行脑胶质瘤诊断提供有力的参考。

关键词

脑胶质瘤3维自动分割; 生存期预测; 级联神经网络; 变分自编码器; 注意力机制

Brain glioma tumor segmentation and survival prediction from multi-modality MRIs via cascaded U-Net
expand article info Yu Li1, Liu Xiaoxue2, Yan Chaoyang1, Li Jianrui2, Zhang Zhiqiang2, Huang Yunzhi1, Xu Jun1
1. Institute for AI Medicine, School of Artificial Intelligence, Nanjing University of Information Science and Technology, Nanjing 210044, China;
2. Department of Radiology, General Hospital of Eastern Theater Command, Nanjing 210002, China
Supported by: National Natural Science Foundation of China (U1809205, 62171230, 92159301, 61771249, 91959207, 81871352)

Abstract

Objective Glioma is the most common primary brain tumor with the highest mortality. The survival rate of different degrees of gliomas varies greatly. The magnetic resonance imaging based (MRI-based) scan imaging in the context of tumor substructure is composed of diversified intensity distributions, reflecting different tumor biological characteristics. Diagnosis grading and survival time prediction are conducted in terms of accurate detection and segmentation of abnormal tumor tissues. Radiomics aims to mine medical image data via a wide range of quantitative features extraction nowadays. The radiomics-based analyses are becoming essential for the medical prognosis. There is some constraints in designing and extracting features for traditional image omics. Deep learning methods are subjected of manual designing and extracting features. Deep learning convolutional neural networks (CNNs) has its priority in U-Net based image segmentation currently. Due to the time-consuming and labor-intensive labeling of gliomas and the lack of a large amount of supervision information, a U-Net based variational-auto-encoder (VAE) branch and the self-supervision information can deal with the over-fitting of the model effectively. The VAE branch can extract the potential robust features of images to resolve traditional image omics. A two-stage cascaded U-Net algorithm is demonstrated in context of VAE branch, which can realize the automatic segmentation of gliomas for diagnosis grading and the extraction of robust features derived from subsequent survival time prediction. Method In the first stage, the network predicts the coarse segmentation results in terms of the input of multi-modal MR images. The initial results and the multi-modal MR images are integrated as the input of the second stage for the network to improve the segmentation results. Moreover, a VAE branch is melted in the second stage of the network to obtain robust representative features and improve the generalization of the model. The representative features are used to predict the human life span based on the random forest algorithm. The traditional convolution gives the same weights to all channels of the input feature maps by default for feature fusion, while the squeeze-and-excitation (SE) module can learn the importance of different channels, so the SE module is evolved to the basic unit of this demonstrated algorithm. Furthermore, the prediction illustrates large differences in shape and size between patients, the cascaded network that detects and then segment can lead to the redundancy of model parameters. The proposed network adds an attention gate mechanism to the additive jump connection of the traditional U-Net, which achieves the same effect as the method that detects and then segment without increasing the amount of parameters. In addition, when the enhanced tumor area is small, this algorithm analysis is probably mislead the necrotic area and the non-enhanced tumor area as the enhanced tumor area. When the predicted enhanced tumor area is less than 500 voxels, the enhanced tumor area is substituted with necrotic and non-enhancing tumor area. This research method illustrates a random forest-based regressor for the prediction of the overall survival time and a random forest-based classifier for the prediction of category of the overall survival time at the end. The premise requires the use of low-dimensional potential features extracted by VAE and the clinical features of the patient's age, and feature option is implemented via the recursive feature elimination method based on random forest regression. When the prediction result of the regression model is inconsistent with the prediction category of the classification model, the final prediction result is divided into a fixed overall survival time according to the prediction category if the probability predicting the category exceeds 80% The short-term corresponds to 10 months, the mid-term corresponds to 12.5 months, and the long-term corresponds to 15 months. Result Our research analysis implements a five-fold cross validation on BraTS2020 training set. The generated result is the average of 5 validation results. The method achieves Dice similarity coefficients of 90.66%, 85.09%, and 79.02% in the whole tumor area, tumor core area and enhanced tumor area in the validation set, respectively. In terms of the clinical feature of patient's age, the overall survival prediction accuracy rate reaches 41.4%, and the potential extracted features in the VAE branch, the accuracy rate could reach 55.2%. Although the accuracy rate is 3.5% lower than that of the first-ranked method, this proposed method has a slight advantage in terms of the mean square error. Conclusion the research proposes a two-stage cascaded U-Net network with a VAE branch to resolve over-fitting issue. Simultaneously, the branch can also extract the potential features of the tumor to predict the survival time. The test results demonstrate that the network can segment brain tumors more accurately, and the potential extracted features can predict suitable patient survival time, which can provide a powerful reference for clinicians in the diagnosis of gliomas.

Key words

automatic 3D segmentation of glioma; survival prediction; cascade neural network; variational auto-encoder(VAE); attention mechanism

0 引言

脑胶质瘤是最常见、死亡率最高的原发性脑肿瘤。根据世界卫生组织的分类,脑胶质瘤按照其恶性程度可以分为Ⅱ—Ⅳ级(Louis等,2016)。低级别脑胶质瘤,如星型细胞瘤和少突胶质瘤,10年生存率为57 % (Glas等,2009)。然而高级别脑胶质瘤,即Ⅳ级的胶质母细胞瘤,5年生存率仅为5 % (Saunders等,2021)。因此,早期发现以及良好的预后对于患者的健康是至关重要的。

磁共振图像具有软组织对比度高、空间分辨率高等优点,广泛应用于评价肿瘤的异质性(Leach等,2005)。脑胶质瘤具有不同的组织学子区域,包括肿瘤周围水肿/侵入组织、坏死核心以及增强和非增强肿瘤核心。脑胶质瘤的这种固有异质性也体现在其成像表型上,核磁共振扫描成像所显示的肿瘤亚结构是由不同强度分布组成的,反映了不同的肿瘤生物学特征。在对异常肿瘤组织进行准确检测和分割的基础上,进行诊断分级以及生存预测,进而制订不同的治疗方案,将会极大地改善患者的生活质量。然而,手动分割肿瘤亚区并对其进行分析诊断十分耗时,并且需要经验丰富的神经放射科医生,此外,不同医生间的主观差异同样不可避免。

弥散性脑胶质瘤的显著异质性意味着需要有效的风险分级以便对不同患者制订最为适合的治疗方案。许多研究开发了基于分子亚型的分类器,为患者的生存分析提供了有效办法(Patel等,2014)。放射组学是一个快速发展的领域,旨在通过提取广泛的定量特征来挖掘医学影像数据(Aerts等,2014)。基于放射组学的分析结果对于患者预后越来越重要。传统的基于机器学习的方法,如支持向量机(support vector machine,SVM)、K近邻算法(k-nearest neighbor,KNN)和随机森林(random forest, RF)通常用于脑肿瘤分析(Kaur等,2019Reza等,2019),然而这些方法在建模阶段都存在特征不充分、不完全的共同局限性。

基于深度学习的方法(张巧丽等,2017田萱等,2019李锵等,2020江宗康等,2020)克服了手工特征设计的缺点,通过建立大规模可训练的模型以学习给定任务所需的最佳特征。Havaei等人(2017)提出使用卷积神经网络(convolutional neural network, CNN)利用局部和全局特征进行鲁棒性脑肿瘤分割,然而,该算法以2D切片作为输入,因此忽略了核磁共振(magnetic resonance, MR)图像3D空间的上下文信息。Kamnitsas等人(2017)提出的DeepMedic网络采用并行3D卷积进行多尺度处理,有效结合了局部和上下文信息,大大地提高了分割性能,获得两项竞赛的冠军。然而该网络仅能处理局部图像块,并且分割效率较低。

在BraTS2018(Brain Tumor Segmentation 2018)竞赛中,Myronenko(2019)提出了一种非对称U型网络结构,其中较大的编码器分支用于特征提取,较小的解码器用于标签重建,此外,该方法利用变分自编码器分支来正则化解码器分支,从而提高泛化性能。2019年的BraTS竞赛中,Jiang等人(2019)提出了一个两阶段的网络,第1阶段使用不对称U型网络来进行粗分割,然后在第2阶段使用类似但更宽的网络来进行二次预测分割。同样地,该方法在第2阶段也增加了一个解码器分支,用于正则化编码器。Clough等人(2019)提出基于变分自编码器(variational auto-encoder, VAE)的分类算法,该算法利用编码器获取的低维隐空间特征进行图像重建和图像分类。可见,在解码器中加入变分自编码器分支不仅可以减少过拟合,提高模型鲁棒性,而且可以发掘数据的潜在有效表示,提高模型性能。

对于特定的肿瘤分割任务,一个具有挑战性的问题是不同肿瘤的发展阶段以及不同病例中肿瘤形态和位置具有可变性。为了提高预测精度,许多分割方法(Wang等,2017Zhou等,2018)将任务分解为检测和分割两大任务,并使用附加的前向模型进行对象定位。例如,Wang等人(2017)根据肿瘤亚区层次顺序训练了3个网络。Oktay等人(2018)证明,在胰腺肿瘤分割任务中,通过将注意力门(attention gates, AGs)引入标准卷积神经网络框架,可以达到与先检测后分割方法同样的效果。

受到上述工作的启发,本文针对脑胶质瘤提出一套完整的计算机辅助诊断算法。首先,本文算法利用两阶段级联网络对脑胶质瘤图像进行分割以及特征提取,接下来根据上述特征进行总体生存期的预后工作。本文算法采用不对称的U型网络结构作为第1阶段网络,从而获得相对粗糙的分割结果。第2阶段中,将第1阶段网络的初步分割图与MR(magnetic resonance)图像的拼接作为输入,对肿瘤子区域进行更加精确的预测,此外,本文算法中第2阶段包含有变分自编码器分支,不仅可以防止分割模型过拟合,提高泛化性,还可以基于该分支的鲁棒性特征实现患者总体生存期的预后。

1 本文方法

图 1展示了本文方法的整体流程。图 1(a)包括4种原始MRI(magnetic resonance imaging)模态:T1模态(native), T1Gd模态(post-contrast T1 weighted), T2模态(T2-weighted)以及T2-FLAIR模态(T2 fluid attenuated inversion recovery);图 1(b)展示了多模态图像经过裁剪、${\rm{z-score}}$标准化等预处理操作后的结果;图 1(c)展示了本文所提出的多任务网络,该网络可同时实现脑胶质瘤多个子区域的自动分割任务和分割结果的重建任务;图 1(d)展示了该网络的分割结果;图 1(e)展示了基于重构任务提取的隐藏层特征应用随机森林算法进行生存期预测的结果。

图 1 本文方法整体工作流程
Fig. 1 Overall workflow of the proposed
((a)original MR images of four modes; (b) preprocessed images; (c) the overall network architecture; (d) segmentation results of glioma; (e) prediction results of survival)

1.1 两级级联网络结构

本文提出了一种带有VAE分支的两级级联的网络结构。第1阶段网络以多模态MR图像为输入,预测粗略分割图。初步分割结果与多模态MR图像进行拼接作为第2级网络的输入,从而改进分割效果。另外,第2阶段添加了VAE分支,起到防止过拟合作用,并且能够提取图像有效的潜在特征进行生存期预测。整体网络结构如图 1(c)所示。

首先,第1阶段的网络(图 2)包括用于语义特征提取的编码器以及用于肿瘤分割结果预测的解码器。

图 2 第1阶段网络结构
Fig. 2 Network structure of the first stage

为了解决随着网络加深而产生梯度消失或梯度爆炸的问题,He等人(2016)提出的ResNet引入了跳跃连接的思想,在残差块的输入和输出之间添加一个恒等映射,有效地缓解深层网络产生的模型退化现象。本文方法同样采用了恒等映射思想。编码器部分由残差块组成,共计4个空间级别,分别包括1,2,2和4个残差块。每个残差块包括两个带有组归一化和ReLU激活函数的3×3×3大小、步长为1的3D卷积,并行添加一个加性跳跃连接。编码器部分的输入是尺寸为4×128×128×128的图像块,由4种模态的裁剪为128×128×128的MR图像块组成。经过32×3×3×3大小的卷积层以及一个随机丢失率为0.2的Dropout层后,再经过上述一系列的残差模块。这里,不同空间层次的残差块通道数分别为32,64,128,256。最终,编码器部分得到256×16×16×16大小的特征图。

解码器部分与编码器部分不同的是在残差块的基础上引入了SE-Net(squeeze-and-excitation networks)(Hu等,2018)的思想,利用3组SE-残差模块以及反卷积将编码器所提取的高维特征恢复至原始图像块分辨率。首先利用1×1×1大小的卷积块将特征图通道数减少一半,同时利用步长为2的3维反卷积将空间大小进行翻倍操作,然后将编码器部分中相同的空间级别的输出特征图经过AGs模块(注意力门)(Oktay等,2018),进而作为下一SE残差模块的输入。AGs模块生成一个门控信号,用来控制不同空间位置的特征的重要性。在解码器的最后部分使用1×1×1大小的卷积将特征通道数从32映射为4,最后使用Softmax激活函数将特征映射转换为概率层面的分割结果。

第2阶段网络(图 3)的输入则是由4种模态的MR图像与第1阶段网络生成的分割图进行拼接构建的,因此,第2阶段网络输入通道数为8(4组通道为4种模态的MR图像,4组通道为第1阶段网络生成的概率分割图),编码器和解码器其他部分与第1阶段保持一致。

图 3 第2阶段网络结构
Fig. 3 Network structure of the second stage

为了防止模型过拟合,提高模型的泛化性,本文方法在该阶段添加变分自编码器(VAE)分支进行图像重构。在该分支中,首先利用自适应平均池化层以及全连接层将编码器输出降低至256维,用其表示具有正态分布的128个平均值以及128个标准差。然后,从具有该均值和标准差的正态分布中提取样本,按照与解码器相同的策略逐步重构为第1阶段的分割结果的维数。需要注意的是,编码器与VAE分支之间不添加跳跃连接,并且上采样使用的是三线性插值方法。

1.1.1 SE-残差模块

由于不同模态对于不同的肿瘤子区域区分度是不同的,例如T1Gd模态能够更加清晰地反映出肿瘤核心区域以及坏死区域,而T2模态对于水肿区域有着更高的对比度,因此期望网络能够反映出不同的通道之间重要性的差异。传统卷积对于通道维度上的特征融合默认是对于输入特征图的所有通道赋予相同的权重进行融合,而SENet(Hu等,2018)提出了SE(squeeze-and-excitation)模块,能够学习到不同通道间的重要性。首先该模块对卷积得到的特征图进行压缩操作,得到通道级别的全局特征,然后对这个全局特征进行激励操作,学习不同通道间的关系,从而得到不同通道间的权重。这种通道上的注意力机制能够关注信息量更大的通道特征,抑制不重要的通道特征,与不同肿瘤子区域的预测需要关注不同的模态这个想法相吻合。因此本文将连续的两个卷积层替换为带有跳跃连接的SE模块,如图 2中SE-残差模块所示。该模块由两个带有组归一化和ReLU激活层的3×3×3大小的卷积块、一个SE模块以及一个跳跃连接组成。由于本文数据以及网络较大,批大小仅能设为1,在批大小较小时,组归一化相较批归一化有更好的性能,因此选择组归一化替代了常用的批归一化。

1.1.2 attention gate(AG)模块

当预测目标在形状和大小方面表现出较大的患者间差异时,先检测再分割的多级级联卷积神经网络结构(Zhou等,2018)能够取得较好的效果。然而,这种方法会导致计算资源浪费和模型参数冗余。为了解决这个问题,attention U-Net(Oktay等,2018))提出了注意力门的方法, 在不引入大量参数和计算量的前提下,可以抑制无关区域的特征来提高模型灵敏度和准确性。因此,本文在传统U-Net的加性跳跃连接处增加了注意力门机制(Oktay等,2018)。

1.2 损失函数

损失函数包含3个部分

$ L=L_{1}+L_{2}+0.1 \times L_{3} $ (1)

式中,$L_\rm{1}$、$L_\rm{2}$分别为第1阶段输出和第2阶段预测的分割与专家标记之间的损失函数,即

$ L_{1}=L_{\mathrm{d}}+L_{\mathrm{f}} $ (2)

$ L_{2}=L_{\mathrm{d}}+L_{\mathrm{f}} $ (3)

$L_ {\rm{d}}$表示解码器的输出与真实分割标记之间的广义Dice损失。

$ L_{\mathrm{d}}=1-2 \frac{\sum\limits_{l=1}^{4} \omega_{l} \sum\limits_{n} r_{l n} p_{l n}}{\sum\limits_{l=1}^{4} \omega_{l} \sum\limits_{n}\left(r_{l n}+p_{l n}\right)} $ (4)

式中,$r_{ln}$代表类别$l$在第$n$个位置的真实像素类别,而$p_{ln}$表示相应的预测概率值,$ω_l$表示每个类别的权重,计算公式为

$ \omega_{l}=\frac{1}{\sum\limits_{i=1}^{n} r_{l n}^{2}} $ (5)

$L_ \text f$是在交叉熵损失函数的基础上进行了修改,解决了样本类别失衡的问题,公式为

$ L_{\mathrm{f}}=\left(1-p_{t}\right)^{\gamma} \log \left(p_{t}\right) $ (6)

式中,$p_{t}$表示真实标记的预测概率,$γ$则是调节简单样本权重降低速率的参数,本文默认设为2。

$ L_{3}=L_{\mathrm{L} 2}+L_{\mathrm{KL}} $ (7)

$L_\rm{L2}$是VAE分支的输出$ {\boldsymbol{I}} _ {\rm{p}}$与第1阶段预测的分割图像$ {\boldsymbol{I}} _i$之间的均方误差损失

$ L_{\mathrm{L} 2}=\sum\limits_{i}\left(\boldsymbol{I}_{\mathrm{p}}-\boldsymbol{I}_{i}\right)^{2} $ (8)

$L_\rm{KL}$是${\rm{KL}}$(Kullback-Leibler)散度,作为VAE分支的惩罚项,使得隐藏层特征接近正态分布, 即

$ L_{\mathrm{KL}}=\frac{1}{N} \sum\left(\boldsymbol{\mu}^{2}+\boldsymbol{\sigma}^{2}-\log \boldsymbol{\sigma}^{2}-1\right) $ (9)

式中,$N$表示图像块中体素的个数,$ {\mathit{\pmb{μ}}} $为隐藏层中代表均值的128维向量,$ {\mathit{\pmb{σ}}} $为隐藏层中代表标准差的128维向量。按照Myronenko(2019)的方法,将超参数权重设置为0.1,从而在各项损失之间达到良好的平衡。

1.3 总体生存期预测

患者的信息包括4种模态的MR影像以及患者的年龄。以往研究表明,仅凭患者的年龄就可以相对较好地预测患者的预后,并且优于综合更复杂的影像组学特征的方法(Weninger等,2018Kofler等,2019)。鉴于Clough等人(2019)利用变分自编码器(VAE)提取的低维潜在向量进行分类任务,本文摒弃传统的影像组学特征,使用VAE分支所提取的高级语义特征进行总体生存期的预测。如图 4所示,首先,利用VAE提取分割后的肿瘤特征以及患者的年龄这一临床特征,二者结合构建总特征集。接下来,利用皮尔森相关系数检验出高度相关的特征,并去除冗余特征。通过基于随机森林回归的递归特征消除方法进一步减少特征的数量。通过对特征的重要性评估,迭代消除不重要的特征。按照10个月与15个月的总生存期将患者生存期划分为短期、中期以及长期3大类。参考Agravat和Raval (2019)的方法,分别使用基于随机森林的回归器对总体生存期进行预测,使用基于随机森林的分类器对于总体生存期的类别进行预测。当回归模型的预测结果与分类模型的类别不一致时,如果分类模型预测该类别的概率超过80 % 时,将最终的预测结果按照分类模型的预测类别划分为一个固定的总体生存时间,即短期对应于10个月,中期对应于12.5个月,长期预测生存期对应于15个月。

图 4 预测总体生存期流程
Fig. 4 Pipeline of predicting overall survival period

2 实验结果与分析

2.1 实验数据

2.1.1 数据介绍

本文使用来自MICCAI(Medical Image Computing and Computer Assisted Intervention Society)多模态脑肿瘤分割挑战赛(BraTS 2020) 的实验数据进行脑胶质瘤的分割以及预后工作。训练数据共计369例,包括76例低级别脑胶质瘤患者样本以及293例高级别脑胶质瘤患者,其中肿瘤完全切除状态的患者包括118例。验证集共计125例无标签患者样本,其中肿瘤完全切除状态的患者包括29例。所有模态图像大小均为240×240×155,分辨率重采样为1 mm×1 mm×1 mm。所有用于预测总体生存期的患者均提供了年龄这一临床指标。

2.1.2 数据预处理

由于原始MR图像尺寸较大,本文将其根据脑体积裁剪至128×160×192的大小,既可以使数据去除冗余信息(强度值为0的位置,即非脑部信息),又可以减小图像块体积,满足计算机显存大小。其次,由于扫描仪中患者位置的不同,扫描仪本身以及许多未知因素将导致MR图像上的强度值差异,这称为偏置场的低频平滑的不良信号,因此在进行分割前,使用SimpleITK(https://simpleitk.org/)进行偏置场校正。最后将执行过偏置场校正的图像块进行${\rm{z-score}}$标准化处理。最终得到的图像如图 1(b)所示。${\rm{z-score}}$标准化公式为

$ z=\frac{x-u}{\sigma} $ (10)

式中,$x$为原始数据,而$u$和$σ$则分别为所有原始数据的均值和标准差,计算方法分别为

$ u=\frac{1}{N} \sum\limits_{i=1}^{N} x_{i} $ (11)

$ \sigma=\sqrt{\frac{1}{N} \sum\limits_{i=1}^{N}\left(x_{i}-u\right)^{2}} $ (12)

2.1.3 数据增强方法

为了防止过拟合,本文采取了一系列数据增强方法,包括对每个轴应用随机翻转、随机旋转、伽马变换以及弹性形变。每种策略皆以50% 的概率实施。

2.2 实验环境及设置

实验环境为:Ubuntu16.04 LST64位操作系统,128 GB内存,显卡为NVIDIA GeForce RTX 2080Ti,CPU E5-2630。

本文网络基于PyTorch进行实施。最大迭代轮数设为300。本文使用Adam优化器进行权重更新,批大小设置为1,初始学习率设为1E-4,并且进行更新

$ l_{r}=l_{r_{0}} \times\left(1-\frac{e}{N_{e}}\right)^{0.9} $ (13)

式中, $l_{r}$表示当前学习率,$l_{r0}$表示初始学习率,$e$是当前迭代轮数,$N_e$为总迭代轮数。本文还使用了1E-5的L2权重衰减进行正则化。由于显存受限,利用PyTorch中的checkpoint包有效减少了显存占用。

2.3 后处理

结果表明,当预测的增强肿瘤区域较小时,本文算法容易将非增强型肿瘤区域错误预测为增强型肿瘤区域。在后处理中,根据经验,当预测的增强型肿瘤区域小于500个体素时,使用坏死区域替代增强肿瘤区域。

2.4 评估指标

2.4.1 分割任务评估指标

脑胶质瘤分割结果的评估针对3个亚肿瘤区域,包括全肿瘤区域、肿瘤核心区域以及增强型肿瘤区域。肿瘤核心区域是由增强型肿瘤区域以及坏死区域共同组成,而全肿瘤区域则是由肿瘤核心区域以及水肿区域组成。

本文分别以Dice相似系数(Dice similarity coefficient, ${\rm{DSC}}$)以及豪斯多夫距离(Hausdorff distance)来评估预测分割结果的好坏。

其中,${\rm{DSC}}$计算方式为

$ D S C(\boldsymbol{P}, \boldsymbol{T})=\frac{2|\boldsymbol{P} \cap \boldsymbol{T}|}{|\boldsymbol{P}| \cup|\boldsymbol{T}|} $ (14)

式中,$ {\boldsymbol{P}} $表示预测结果,$ {\boldsymbol{T}} $表示真实标记。

豪斯多夫距离则是两个点集之间最大不匹配程度的一种度量,定义为

$ H(\boldsymbol{P}, \boldsymbol{T})=\max (h(\boldsymbol{P}, \boldsymbol{T}), h(\boldsymbol{T}, \boldsymbol{P})) $ (15)

$ h(\boldsymbol{P}, \boldsymbol{T})=\max (p \in \boldsymbol{P}) \min (t \in \boldsymbol{T})\|p-t\| $ (16)

$ h(\boldsymbol{T}, \boldsymbol{P})=\max (t \in \boldsymbol{T}) \min (p \in \boldsymbol{P})\|t-p\| $ (17)

式中,$H$($ {\boldsymbol{P}} $, $ {\boldsymbol{T}} $)称为双向豪斯多夫距离,$h$($ {\boldsymbol{P}} $, $ {\boldsymbol{T}} $)称为从点集$ {\boldsymbol{P}} $到点集$ {\boldsymbol{T}} $的单向豪斯多夫距离,$h$($ {\boldsymbol{T}} $, $ {\boldsymbol{P}} $)则称为从点集$ {\boldsymbol{T}} $到点集$ {\boldsymbol{P}} $的豪斯多夫距离。

2.4.2 生存期预测评估指标

总体生存期以10个月和15个月为界限分为短期、中期以及长期3大类生存期。本文主要以这3大类的准确率以及生存期的均方误差来评估生存期预测的效果。

准确率(accuracy, ${\rm{ACC}}$)是最常见的评价指标,即

$ A c c=\frac{T_{S}+T_{M}+T_{L}}{S+M+L} $ (18)

式中,$ S$、$ M$、$L$代表短期、中期和长期类患者的个数,$ T_ S$、$ T_M$、$ T_L$则代表被正确分类的短期、中期和长期类患者的个数。

均方误差(mean sqkare error, ${\rm{MSE}}$)则是衡量各数据偏离真实值的距离平方和的平均数

$ M S E=\frac{1}{n} \sum\limits_{i=1}^{n}\left(\hat{y}_{i}-y_{i}\right)^{2} $ (19)

式中,$y_{i}$和$\hat y_i$分别代表患者的真实生存期以及预测的生存期。

2.5 结果与分析

2.5.1 脑肿瘤分割结果

为了验证本文算法的有效性,分别选择以下5个网络结构进行对比:

1) 3D U-Net(Çiçek等,2016)。对称的编码解码结构,在相同的空间维度增加了跳跃连接。

2) UNet-VAE(Myronenko,2019)。增加了变分自编码分支,防止过拟合。

3) attention U-Net(Oktay等,2018)。在U-Net的跳跃连接处加入了注意力门机制。

4) attention U-Net-VAE。结合了2)和3)两种方法。

5) two stage attention U-Net: 两阶段级联注意力U-Net。将第1阶段的粗分割结果与输入的多模态MR图像拼接在一起作为第2阶段的输入,进而进行更加精细的分割。

图 5展示了不同算法在BraTS 2020代表性病例的轴向面、冠状面和矢状面的肿瘤组织分割结果。其中黄色区域为增强型肿瘤区,红色区域为坏死和非增强型肿瘤区,绿色区域为水肿区域。可以看到各个算法都或多或少地存在将增强型肿瘤区域预测为坏死及非增强型肿瘤区域的现象。相较之下,本文算法很好地解决了这个问题。两阶段级联注意力U-Net出现将水肿区域错误地预测为增强型肿瘤区域,本文算法并未出现这种情况。

图 5 不同算法在水平面、矢状面和冠状面的分割效果对比图
Fig. 5 The comparison of the segmentation effects of different algorithms on the horizontal plane, sagittal plane and coronal plane
((a)FLAIR; (b)label; (c) 3D U-Net; (d) U-Net-VAE; (e) attention U-Net; (f) attention U-Net-VAE; (g) two stage attention U-Net; (h)ours)

表 1展示了不同算法在BraTS2020验证集上的结果。相较于其他算法,本文算法在3个肿瘤子区域皆取得了最好的结果。可以看到在残差U-Net的基础上添加变分自编码器分支,相较于原始残差U-Net在增强型肿瘤区域的分割结果上并没有明显优势,反而Dice相似系数低了1 %,但是在全肿瘤区域以及肿瘤核心区域上取得了更好的结果。由此可见,加入了该分支后,模型存在将增强型肿瘤区域预测为坏死区域的现象。而attention U-Net相较于残差U-Net则是在每个肿瘤子区域都取得了0.4 % ~0.7 % 的优势,相较于U-Net-VAE的效果更好。由此可见,在跳跃连接处加入注意力门机制的方法是有效的。通过对比attention U-Net-VAE与U-Net-VAE同样可以发现注意力机制对于分割结果的有效改善。本文算法采用两阶段级联结构,通过对粗略分割的细化,在每个肿瘤子区域都取得了最优的分割结果,对于增强型肿瘤区域及肿瘤核心区域的分割效果得到了较为显著的提升,相较于3D U-Net在这两个区域分别提升了4.3 %和5.36 % 的Dice相似系数。各个分割算法在全肿瘤区域都取得了89 % ~90 % 的Dice相似系数,这是因为全肿瘤区域是由增强型肿瘤区域、坏死及非增强型肿瘤区域以及水肿区域共同组成,水肿区域具有明显的边界,因此各个算法在该区域都取得了较好的结果。

表 1 各类算法在BraTS2020验证集上的分割效果对比表
Table 1 Comparison table of the segmentation effect of various algorithms on the BraTS2020 verification set

下载CSV
分割算法 Dice_ET/% Dice_WT/% Dice_TC/% HD95_ET HD95_WT HD95_TC
U-Net 74.72 89.29 79.73 34.039 98 6.106 17 10.779 3
U-Net-VAE 74.65 89.50 81.29 37.216 83 8.120 72 8.138 15
attention U-Net 75.11 89.69 81.49 33.370 40 6.524 10 7.751 12
attention U-Net-VAE 76.87 89.59 82.11 30.210 17 4.876 37 9.796 07
two stage attention U-Net 77.48 89.21 84.46 30.112 31 6.670 74 6.377 14
本文 79.02 90.66 85.09 26.924 44 6.346 61 6.106 18
注:加粗字体为每列最优值,Dice_ET,Dice_WT以及Dice_TC分别为增强型肿瘤区域、全肿瘤区域以及肿瘤核心区域的Dice相似系数,HD95_ET,HD95_WT以及HD95_TC分别为增强型肿瘤区域、全肿瘤区域以及肿瘤核心区域的豪斯多夫距离。

2.5.2 总体生存期预测结果

表 2展示了本文方法在BraTS2020竞赛验证集上的总体生存期预测结果。本文尝试了在VAE分支提取的特征后添加两层全连接层以进行端到端的预后任务,同样将年龄这一临床特征作为输入,具体结构如图 6所示。相较于利用传统机器学习方法,直接使用端到端的方法进行预后,可以发现准确率有所下降。由于显存有限,批大小只能设为1,每次只能训练一个样本,损失振荡剧烈,因此网络较难拟合。并且本文肿瘤完全切除状态的患者(有预后信息)仅118例,在小样本数据集的情况下,传统机器学习有所优势。可以看到使用传统机器学习的方法进行预后时,当仅使用年龄这一临床特征时,准确率可以达到0.414,而结合了本文使用VAE分支所提取的潜在特征,准确率可以达到0.552。另外与竞赛排名第1的Agravat和Raval (2019)方法进行了对比,可以看到本文方法的准确率与其相比低了3.4 %,然而从均方误差的角度来衡量,本文的方法略有优势。

表 2 各类算法在BraTS2020验证集上的总体生存期预测效果对比表
Table 2 Comparison table of the overall survival prediction effect of various algorithms on the BraTS2020 validation set

下载CSV
生存期预测方法 准确率/% 均方误差 中位平方误差 平方误差标准差 斯皮尔曼等级相关
临床变量 41.4 101 900 63 734 132 055 0.169
本文 55.2 100 501 33 242 166 995 0.261
端到端 44.8 99 138 38 416 182 706 0.331
Feng等人(2019) 31.0 107 639 77 906 109 587 0.204
Agravat和Raval(2019) 58.6 105 062 16 461 188 752 0.404
Wang等人(2020) 44.8 100 000 49 300 135 000 0.250
Hermoza等人(2021) 51.7 105 746 51 962 181 311 0.248
注:加粗字体表示准确率以及均方误差的最优值,下划线表示次优值。
图 6 基于神经网络的端到端预后方法
Fig. 6 End to end prognosis method based on neural network

以上结果说明本文算法提取的特征具有鲁棒性,并且不需要另外单独计算大量的影像组学特征,大大提高了生存期预测的效率。

3 结论

本文将基于深度学习和传统机器学习的方法应用于多模态MR脑部影像,实现了脑肿瘤分析中的分割多肿瘤组织区域以及总体生存期预测两大任务。由于变分自编码器既可以提供额外的监督信息,增强模型的鲁棒性,又可以发掘数据的潜在有效表示,本文提出了一种两阶段级联的带有VAE分支的肿瘤分割方法。进而利用VAE分支所提取的潜在有效特征进行总体生存期预测的任务。具体来说,本文基于上述提取的特征,利用基于随机森林的递归特征消除方法进行特征选择,最后利用随机森林基于所选特征进行总体生存期的预测任务。本文的工作集多肿瘤子区域分割与总体生存期预测于一体,可以在临床医生对患者进行诊断时提供有力的参考依据。但是本文模型整体计算量较大,后续工作将在保持模型分割精确度以及所提取特征有效性的基础上,减小模型的计算量。

参考文献

  • Aerts H J W A, Velazquez E R, Leijenaar R T H, Parmar C, Grossmann P, Carvalho S, Bussink J, Monshouwer R, Haibe-Kains B, Rietveld D, Hoebers F, Rietbergen M M, Leemans C R, Dekker A, Quackenbush J, Gillies R J, Lambin P. 2014. Decoding tumour phenotype by noninvasive imaging using a quantitative radiomics approach. Nature Communications, 5: #4006 [DOI:10.1038/ncomms5006]
  • Agravat R R and Raval M S. 2019. Brain tumor segmentation and survival prediction//Proceedings of the 5th International MICCAI Brainlesion Workshop. Shenzhen, China: Springer: 338-348[DOI: 10.1007/978-3-030-46640-4_32]
  • Çiçek Ö, Abdulkadir A, Lienkamp S S, Brox T and Ronneberger O. 2016. 3D U-Net: learning dense volumetric segmentation from sparse annotation//Proceedings of the 19th International Conference on Medical Image Computing and Computer-Assisted Intervention. Athens, Greece: Springer: 424-432[DOI: 10.1007/978-3-319-46723-8_49]
  • Clough J R, Oksuz I, Puyol-Antón E, Ruijsink B, King A P and Schnabel J A. 2019. Global and local interpretability for cardiac MRI classification//Proceedings of the 22nd International Conference on Medical Image Computing and Computer-Assisted Intervention. Shenzhen, China: Springer: 656-664[DOI: 10.1007/978-3-030-32251-9_72]
  • Feng X, Dou Q, Tustison N and Meyer C. 2019. Brain tumor segmentation with uncertainty estimation and overall survival prediction//Proceedings of the 5th International MICCAI Brainlesion Workshop. Shenzhen, China: Springer: 304-314[DOI: 10.1007/978-3-030-46640-4_29]
  • Glas M, Happold C, Rieger J, Wiewrodt D, Bähr O, Steinbach J P, Wick W, Kortmann R D, Reifenberger G, Weller M, Herrlinger U. 2009. Long-term survival of patients with glioblastoma treated with radiotherapy and lomustine plus temozolomide. Journal of Clinical Oncology, 27(8): 1257-1261 [DOI:10.1200/JCO.2008.19.2195]
  • Havaei M, Davy A, Warde-Farley D, Biard A, Courville A, Bengio Y, Pal C, Jodoin P M, Larochelle H. 2017. Brain tumor segmentation with deep neural networks. Medical Image Analysis, 35: 18-31 [DOI:10.1016/j.media.2016.05.004]
  • He K M, Zhang X Y, Ren S Q and Sun J. 2016. Identity mappings in deep residual networks//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer: 630-645[DOI: 10.1007/978-3-319-46493-0_38]
  • Hermoza R, Maicas G, Nascimento J C and Carneiro G. 2021. Post-hoc overall survival time prediction from brain MRI//Proceedings of the 18th IEEE International Symposium on Biomedical Imaging. Nice, France: IEEE: 1476-1480[DOI: 10.1109/ISBI48211.2021.9433877]
  • Hu J, Shen L and Sun G. 2018. Squeeze-and-excitation networks//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, Utah, USA: IEEE: 7132-7141[DOI: 10.1109/CVPR.2018.00745]
  • Jiang Z K, Lyu X G, Zhang J X, Zhang Q, Wei X P. 2020. Review of deep learning methods for MRI brain tumor image segmentation. Journal of Image and Graphics, 25(2): 217-230 (江宗康, 吕晓钢, 张建新, 张强, 魏小鹏. 2020. MRI脑肿瘤图像分割的深度学习方法综述. 中国图象图形学报, 25(2): 217-230) [DOI:10.11834/jig.190173]
  • Jiang Z Y, Ding C X, Liu M F and Tao D C. 2019. Two-stage cascaded U-Net: 1st place solution to braTS challenge 2019 segmentation task//Proceedings of the 5th International MICCAI Brainlesion Workshop. Shenzhen, China: Springer: 231-241[DOI: 10.1007/978-3-030-46640-4_22]
  • Kamnitsas K, Ledig C, Newcombe V F J, Simpson J P, Kane A D, Menon D K, Rueckert D, Glocker B. 2017. Efficient multi-scale 3D CNN with fully connected CRF for accurate brain lesion segmentation. Medical Image Analysis, 36: 61-78 [DOI:10.1016/j.media.2016.10.004]
  • Kaur T, Saini B S, Gupta S. 2019. An adaptive fuzzy K-nearest neighbor approach for MR brain tumor image classification using parameter free bat optimization algorithm. Multimedia Tools and Applications, 78(15): 21853-21890 [DOI:10.1007/s11042-019-7498-3]
  • Kofler F, Paetzold J C, Ezhov I, Shit S, Krahulec D, Kirschke J S, Zimmer C, Wiestler B and Menze B H. 2019. A baseline for predicting glioblastoma patient survival time with classical statistical models and primitive features ignoring image information//Proceedings of the 5th International MICCAI Brainlesion Workshop. Shenzhen, China: Springer: 254-261[DOI: 10.1007/978-3-030-46640-4_24]
  • Leach M O, Brindle K M, Evelhoch J L, Griffiths J R, Horsman M R, Jackson A, Jayson G C, Judson I R, Knopp M V, Maxwell R J, McIntyre D, Padhani A R, Price P, Rathbone R, Rustin G J, Tofts P S, Tozer G M, Vennart W, Waterton J C, Williams S R, Workman P. 2005. The assessment of antiangiogenic and antivascular therapies in early-stage clinical trials using magnetic resonance imaging: issues and recommendations. British Journal of Cancer, 92(9): 1599-1610 [DOI:10.1038/sj.bjc.6602550]
  • Li Q, Bai K X, Zhao L, Guan X. 2020. Progresss and challenges of MRI brain tumor image segmentation. Journal of Image and Graphics, 25(3): 419-431 (李锵, 白柯鑫, 赵柳, 关欣. 2020. MRI脑肿瘤图像分割研究进展及挑战. 中国图象图形学报, 25(3): 419-431) [DOI:10.11834/jig.190524]
  • Louis D N, Perry A, Reifenberger G, Von Deimling A, Figarella-Branger D, Cavenee W K, Ohgaki H, Wiestler O D, Kleihues P, Ellison D W. 2016. The 2016 World Health Organization classification of tumors of the central nervous system: a summary. Acta Neuropathologica, 131(6): 803-820 [DOI:10.1007/s00401-016-1545-1]
  • Myronenko A. 2019. 3D MRI brain tumor segmentation using autoencoder regularization//Proceedings of the 4th International MICCAI Brainlesion Workshop. Granada, Spain: Springer: 311-320[DOI: 10.1007/978-3-030-11726-9_28]
  • Oktay O, Schlemper J, Le Folgoc L, Lee M, Heinrich M, Misawa K, Mori K, McDonagh S, Hammerla N Y, Kainz B, Glocker B and Rueckert D. 2018. Attention u-net: learning where to look for the pancreas[EB/OL]. [2020-06-10]. https://arxiv.org/pdf/1804.03999.pdf
  • Patel A P, Tirosh I, Trombetta J J, Shalek A K, Gillespie S M, Wakimoto H, Cahill D P, Nahed B V, Curry W T, Martuza R L, Louis D N, Rozenblatt-Rosen O, Suvà M L, Regev A, Bernstein B E. 2014. Single-cell RNA-seq highlights intratumoral heterogeneity in primary glioblastoma. Science, 344(6190): 1396-1401 [DOI:10.1126/science.1254257]
  • Reza S M S, Samad M D, Shboul Z A, Jones K A, Iftekharuddin K M. 2019. Glioma grading using structural magnetic resonance imaging and molecular data. Journal of Medical Imaging, 6(2): #024501 [DOI:10.1117/1.JMI.6.2.024501]
  • Saunders C N, Cornish A J, Kinnersley B, Law P J, Houlston R S, Collaborators. 2021. Searching for causal relationships of glioma: a phenome-wide Mendelian randomisation study. British Journal of Cancer, 124(2): 447-454 [DOI:10.1038/s41416-020-01083-1]
  • Tian X, Wang L, Ding Q. 2019. A review of image semantic segmentation methods based on deep learning. Journal of Software, 30(2): 440-468 (田萱, 王亮, 丁琪. 2019. 基于深度学习的图像语义分割方法综述. 软件学报, 30(2): 440-468) [DOI:10.13328/j.cnki.jos.005659]
  • Wang F F, Jiang R Z, Zheng L Q, Meng C and Biswal B. 2020. 3D U-Net based brain tumor segmentation and survival days prediction//Proceedings of the 5th International MICCAI Brainlesion Workshop. Shenzhen, China: Springer: 131-141[DOI: 10.1007/978-3-030-46640-4_13]
  • Wang G T, Li W Q, Ourselin S and Vercauteren T. 2017. Automatic brain tumor segmentation using cascaded anisotropic convolutional neural networks//Proceedings of the 3rd International MICCAI Brainlesion Workshop. Quebec City, Canada: Springer: 178-190[DOI: 10.1007/978-3-319-75238-9_16]
  • Weninger L, Rippel O, Koppers S and Merhof D. 2018. Segmentation of brain tumors and patient survival prediction: Methods for the brats 2018 challenge//Proceedings of the 4th International MICCAI Brainlesion Workshop. Granada, Spain: Springer: 3-12[DOI: 10.1007/978-3-030-11726-9_1]
  • Zhang Q L, Zhao D, Chi X B. 2017. A review of medical imaging diagnosis based on deep learning. Computer Science, 44(Z11): 1-7 (张巧丽, 赵地, 迟学斌. 2017. 基于深度学习的医学影像诊断综述. 计算机科学, 44(Z11): 1-7) [DOI:10.11896/j.issn.1002-137X.2017.11A.001]
  • Zhou C H, Ding C X, Lu Z T, Wang X C and Tao D C. 2018. One-pass multi-task convolutional neural networks for efficient brain tumor segmentation//Proceedings of the 21st International Conference on Medical Image Computing and Computer-Assisted Intervention. Granada, Spain: Springer: 637-645[DOI: 10.1007/978-3-030-00931-1_73]