网刊加载中。。。

0引言肺癌对我国居民的身体健康造成了极大威胁，发病率和死亡率呈现逐年上升的趋势(陈万青等，2010)。目前，计算机断层扫描(computed tomography，CT)是肺癌诊断和治疗的重要辅助工具。绝大多数肺癌患者直到晚期才被确诊，错失了最佳的治疗时机，特别是在医疗资源相对匮乏的地区，因此对早期癌症病灶的检测和诊断显得尤为关键。在传统临床中，对肺癌肿瘤的诊断需要专业的放射医师对每一张CT切片进行认真细致的检查，寻找并确认病灶位置，同时需要其他有经验的医师进行核验，这一过程费时费力。此外，由于不同医生主观经验的差别，容易产生同时不同诊，甚至出现同一个医生在不同时间的诊断结果也不相同的情况。为了解决上述问题，快速、稳定和精准的肺肿瘤分割算法已经成为研究热点。传统的肺部肿瘤分割方法主要可以分为两类，第1类为基于区域的方法，第2类为基于边缘的方法。基于区域的方法可分为阈值法(Wei等，2009)、区域生长法(Parveen和Kavitha，2013)和分水岭算法(Kanitkar等，2015); 基于边缘的方法可细分为微分算子法和活动轮廓法，活动轮廓法又包括Snake模型(Mirderikvand等，2016)和水平集算法(Farag等，2013)。2009年，Wei等人提出了一种优化后的阈值方法，融合了OSTU(大津法)和遗传算法，用于分割肺部的感兴趣区域。Parveen和Kavitha于2013年使用区域生长法实现了肺部病灶区域的分割，但是该方法的结果会包括胸腔轮廓、动脉等其他组织。Kanitkar等人(2015)采用标记控制的分水岭算法，通过标记前景和背景，解决了分水岭算法的过分割问题，实现了肺癌病灶的自动检测，但该方法同样无法获取精确的肿瘤轮廓。Mirderikvand等人(2016)使用图割算法(graph cut)和Snakes算法实现了对CT图像中肺结节的精确分割。Farag等人(2013)提出了一种通用的肺结节形状模型，并使用水平集算法完成对肺结节的自动分割，但是需要首先建立肺结节的先验形状模型，使得算法过程十分复杂。随着计算机视觉技术和深度学习的发展，同时得益于不断提高的计算能力和持续增长的可用数据量，深度学习技术在医疗影像分析领域不断取得重大突破。在众多深度学习算法中，卷积神经网络(convolutional neural network，CNN)成为医疗影像分析领域的主流，与传统方法相比，CNN能够更有效解决医疗影像分析中病灶检测、分割和分类等任务。1995年，CNN已经被应用于医学影像分析领域(Lo等，1995)，但之后一段时间发展缓慢。直到2012年，具有划时代意义的AlexNet(Krizhevsky等，2012)被提出，卷积神经网络的大规模应用才真正开始。全卷积神经网络(fully convolutional network，FCN)能够完成像素级别的分类，奠定了图像语义分割的基础。U-Net被提出后(Ronneberger等，2015)，逐渐成为了目前医学影像分割领域最常用的卷积神经网络结构。后来更多类似的网络出现，如Zhou等人(2019)提出的U-Net + +、Li等人(2018a)提出的H-DenseUNet(hybrid densely connected U-Net)等。这些网络的诞生推动了卷积神经网络在医疗影像领域的发展，高精度的肺肿瘤自动分割成为可能。除了不同卷积神经网络结构本身的发展，一些特殊的模块，例如注意力(attention)模块被设计出来，用于提升语义分割的性能。Oktay等人(2018)提出了集成注意力门(attention gate, AG)的attention U-Net，注意力门很容易集成到标准的卷积神经网络结构中，抑制模型与任务无关的部分，同时加强学习与任务有关的特征。Fu等人(2019)提出了具有通道注意力和位置注意力机制的双注意力机制网络(dual attention network, DANet)，通过两种注意力机制增强不同通道、不同位置间具有依赖的特征，进而提升模型的整体精度。双注意力机制为本文的研究工作提供了思路。本文采用3维卷积神经网络，以适应肺部肿瘤的3维空间特性，实现肺肿瘤端到端的分割。在3D U-Net的基础上，将网络结构中每两个相邻的卷积层替换为残差模块，同时在网络结构中添加了位置注意力机制和通道注意力机制，最终得到3维双注意力机制U-Net(dual attention U-Net, DAU-Net)。在预测时，本文采用基于连通域分析的后处理方法，清除假阳性区域，进一步提升肺肿瘤分割的准确度。1本文方法1.1网络结构概述本文提出了一种以3D U-Net为基础的新型卷积神经网络，网络结构如图 1所示。该模型采用典型的编码器—解码器结构，具有两条对称的路径，左边的路径称为收缩路径(编码器)，右边的路径称为扩张路径(解码器)。收缩路径用于下采样，提取深层的语义特征，由于收缩路径中包含了池化层，所以特征图的尺寸不断缩小。扩张路径用于上采样，与收缩路径有所不同，池化层被替换为了上采样层，以逐渐恢复图像的分辨率，进而达到端到端分割的目的。收缩路径与扩张路径的对应层之间通过跳转链接相连。跳转链接将收缩路径中具有位置信息的高分辨率特征图传递到扩张路径，与具有上下文语义信息的低分辨率特征图融合，能够捕获不同尺度的目标，从而实现像素级别精细分割的目的。图1 DAU-Net网络结构图 Structure diagram of DAU-NetFig 1理论上，卷积神经网络越深性能越好，但是由于神经网络反向传播过程中梯度连乘的原因，网络加深会产生梯度消失或梯度爆炸，使得网络训练困难。针对以上问题，He等人(2016)提出了残差结构，有助于缓解神经网络深度增加带来的网络退化、梯度消失和梯度爆炸等问题。为了增强卷积神经网络的性能，本文将3D U-Net中每两个相邻的卷积层替换为残差模块(如图 1中所示的残差模块)。具有编码器—解码器结构的卷积神经网络在医学图像领域的语义分割任务中具有突出表现，但该类网络由于感受野范围的限制，无法在局部特征中编码范围更广的上下文信息，也不能利用不同通道间的依赖关系。为了解决这个问题，同时保留编码器—解码器结构优点，本文在3D U-Net的编码器和解码器中间添加了并联在一起的位置注意力模块和通道注意力模块，二者的输出求和后输入解码器。使得原本应用于2维卷积神经网络的两种注意力模块在本文中被拓展为3维结构。两个模块分别在空间和通道维度获取全局范围内的特征依赖，并对特征图中任何两个具有关联的特征进行加强，从而提升网络的表示能力。网络结构如图 1所示。图中的数字代表了残差模块中两个卷积层具有的卷积核数。1.2位置注意力模块位置注意力模块能够在局部特征中编码更长范围内的上下文信息，从而提升局部特征的表达能力，其结构如图 2所示。位置注意力模块的工作流程如下：图2 位置注意力模块结构图 Structure diagram of position attention mechanismFig 21) 特征图$\boldsymbol{A}$分别通过3个卷积层，得到3个新的特征图$\boldsymbol{B}$、$\boldsymbol{C}$和$\boldsymbol{D}$。2) 对$\boldsymbol{B}$进行尺寸变换(reshape)和维度变换(transpose)得到$\boldsymbol{E}$，尺寸从$C×D×H×W$变为$N×C$，其中$N$的大小为$D×H×W$。3)$\boldsymbol{E}$与$\boldsymbol{C}$相乘，再通过softmax函数得到空间监督图$\boldsymbol{S}$，这时$\boldsymbol{S}$的尺寸为$N×N$。4) 将$\boldsymbol{D}$的维度reshape为$C×N$，之后与$\boldsymbol{S}$相乘得到$\boldsymbol{F}$，再乘以系数$α$，之后将维度reshape为$C×D×H×W$。其中$α$初始化为0，并通过训练过程进行学习。5) 最后，$\boldsymbol{F}$与$\boldsymbol{A}$相加得到$\boldsymbol{G}$，$\boldsymbol{G}$即为位置注意力模块的输出。1.3通道注意力模块通道注意力模块用于寻找不同通道之间的依赖关系，并对依赖的特征进行加强，其结构如图 3所示。通道注意力模块的工作流程如下：图3 通道注意力模块结构图 Structure diagram of channel attention mechanismFig 31) 分别对特征图$\boldsymbol{A}$进行reshape、reshape、reshape和transpose，得到$\boldsymbol{B}$、$\boldsymbol{C}$和$\boldsymbol{D}$。2) 将$\boldsymbol{D}$进行reshape和transpose，得到大小为$N×C$的特征图，与$\boldsymbol{C}$相乘再通过softmax得到$\boldsymbol{X}$，$\boldsymbol{X}$的大小为$C×C$。3) $\boldsymbol{B}$与$\boldsymbol{X}$相乘得到$\boldsymbol{E}$。4) $\boldsymbol{E}$与系数$β$相乘后，reshape为$C×D×H×W$，其中$β$初始化为0，并通过训练过程学习。5) 最后$\boldsymbol{E}$与$\boldsymbol{A}$相加得到$\boldsymbol{F}$，$\boldsymbol{F}$为通道注意力模块的输出。1.4评估指标与损失函数1) 采用医学影像分割领域中使用最广泛Dice相似系数进行评估，计算为 1 $ D = \frac{{2\left| {\mathit{\boldsymbol{P}} \cap \mathit{\boldsymbol{G}}} \right|}}{{\left| \mathit{\boldsymbol{P}} \right| \cup \left| \mathit{\boldsymbol{G}} \right|}} $ 式中，$\boldsymbol{P}$和$\boldsymbol{G}$分别为预测结果和真实标注，而损失函数$loss$计算为 2 $L = 1 - D$ 2) 采用哈斯多夫距离(Hausdorff distance，HD)进行评估，定义为 3 $ \begin{array}{l}\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;H(\mathit{\boldsymbol{A}}, \mathit{\boldsymbol{B}}) = \\{\rm{max}}\{ \mathop {{\rm{max}}}\limits_{a \in \mathit{\boldsymbol{A}}} \mathop {{\rm{min}}}\limits_{b \in \mathit{\boldsymbol{B}}} d\left({a, b} \right), \mathop {{\rm{max}}}\limits_{b \in \mathit{\boldsymbol{B}}} \mathop {{\rm{min}}}\limits_{a \in \mathit{\boldsymbol{A}}} d\left({a, b} \right)\} \end{array} $ 式中，$a$，$b$分别是$\boldsymbol{A}$和$\boldsymbol{B}$上的像素点，$d$为欧氏距离。3) 采用假阳性率(false positive rate, FPR)和真阳性率(true positive rate, TPR)在像素级别对分割结果进行评估，分别定义为 4 $FPR = \frac{{FP}}{{FP + TN}}$ 5 $TPR = \frac{{TP}}{{TP + FN}}$ 式中，$FP$表示将背景错误预测为肿瘤的部分，$TN$表示正确预测为背景的部分，$FN$表示被错误预测为背景的肿瘤部分。2实验结果与分析2.1数据集本文回顾性研究了2013—2017年在上海胸科医院就诊的1 010例肺癌患者数据，该数据集首先应用于表皮生长因子受体(epidermal growth factor receptor，EGFR)基因突变的检测任务(Li等，2018b)。该数据集由上海交通大学附属胸科医院认证，同时CT图像的使用通过了道德认证(ethical approval，ID: KS 1716)。每例数据都包含金标准，由经验丰富的影像科医师手动勾画。每例CT图像，由90~130幅尺寸为512×512像素、厚度为5 mm的2维切片构成。切片内部像素的间距为0.607~0.976 mm之间，每例数据均只含有一个肿瘤病灶。2.2预处理与后处理1) 不同病例的CT切片厚度相同，但是切片内部的像素间距不同，所以首先对不同病例的像素间距进行调整，采用线性插值的方式，将不同病例每张切片的像素间距调整为1 mm，调整之后的CT图像仍以3维的形式存在。此时，切片的尺寸会小于512×512像素，具体尺寸取决于切片的原始像素间距。其次设置CT图像的窗宽和窗位，起到清除干扰、增强感兴趣区域的作用。本文将CT值大于600 HU(Hounsfield unit)设置为600 HU，CT值小于-1 000 HU设置为-1 000 HU，然后将像素值归一化至[0, 1]。由于CT影像中每张切片的边界与人体组织区域之间具有大范围的黑色区域，其中可能存在的成像仪器金属骨架或尾影会对模型的收敛效果产生影响，而且会占用大量显存。所以，本文采用以下步骤对CT图像进行裁剪，去除黑色区域(示意图如图 4)：图4 数据预处理示意图 Schematic diagram of data preprocessingFig 4(1) 将3维CT图像作为若干张2维切片的组合；(2) 切片内像素间距调整为1 mm后，尺寸会小于512×512像素，将每张切片的尺寸零填充为512×512像素；(3) 以左上角坐标为(90, 130)的像素作为起始点，将切片的尺寸裁剪为320×260像素。(4) 将属于同一个病例的切片按原始顺序进行组合，得到尺寸为$N×320×260$的CT图像，其中$N$为切片数量；(5) 通过差值的方式将输入图片的尺寸缩放为64×320×260。2) 得到卷积神经网络的输出后，采用基于连通域分析的后处理方法清除假阳性区域。连通域(connected component)是指图像中具有相同像素值且位置相邻的前景像素点组成的图像区域，而连通域分析是指将各个连通域找出并进行标记。在本文涉及的肺肿瘤分割场景下，前景为神经网络输出二值化后的阳性像素点。在连通域标记时，由于CT图像本身是3维的特点，采用基于二十六邻域的分析方法，判断某像素与周围26个点的值是否相同，相同则认为两个像素属于同一连通域。根据对数据集的分析，每例数据中只包含一个感兴趣区域(肺肿瘤病灶)，所以在得到网络输出的二值图像后，采用连通域分析法判断每个像素与周围26个像素的连通关系，获得所有的连通域并计算体积，选择体积最大的连通域作为最终的肿瘤区域。2.3训练细节以及参数设置首先将所有数据随机划分为10份，采用十折交叉验证。依次选择其中的一折作为测试集，剩余数据按照8 : 2的比例划分为训练集和验证集。每折数据在训练时，数据量分别为：训练集646例、验证集162例以及测试集202例。网络结构采用Pytorch 1.2.0实现，使用英伟达P40显卡进行训练。训练时使用Adam作为优化器，权重衰减设置为0.000 01，批尺寸设置为4。采用余弦退火(Loshchilov和Hutter，2017)学习率变化方案，初始学习率设置为0.01，最小学习率设置为0.000 01，学习率变化迭代周期设置为4。总共训练150次迭代，保存在验证集上Dice系数最高的3组权重。在测试时，计算3组权重的算数平均值作为模型的最终结果。2.4实验结果分析表 1列举了不同模型在肺肿瘤数据集上的实验结果。实验中使用的模型均采用3维卷积神经网络，分割结果为十折交叉验证的平均值。在实验中，本文除了对比3D U-Net之外，还复现了3D版本的Attention U-Net(Oktay等，2018)。如表 1所示，本文提出的肺肿瘤分割算法在Dice系数、哈斯多夫距离(HD)、真阳性率(TPR)和假阳性率(FPR)等评估方法上都取得了最优的结果。对比3D U-Net，本文方法的Dice和HD分别提升了2.5 %和9.7 %，FPR减少了13.6 %。在不使用后处理的情况下，3D U-Net的Dice分割结果为0.751，3D Attention U-Net的分割结果与3D U-Net相比有所提高，Dice系数为0.754，但本文提出的网络DAU-Net的结果能够达到0.770。表1 分割结果对比网络结构 HD Dice TPR FPR/10-3 3D U-Net 2.410 0.751 0.771 0.191 3D U-Net+后处理 2.432 0.759 0.764 0.162 3D Attention U-Net 2.381 0.754 0.779 0.186 3D Attention U-Net+后处理 2.405 0.764 0.773 0.154 DAU-Net 2.127 0.769 0.797 0.170 DAU-Net+后处理 2.151 0.774 0.789 0.153 Comparision of segmentation resultsTable 1 加粗字体为最优值，网络均为3维结构。在使用基于连通域分析的后处理方法后，不同网络的Dice都有所提升，3D U-Net的分割结果从0.751提升至0.759，3D Attention U-Net的结果从0.754提升至0.764，DAU-Net从0.770提升至0.774。同时，3D U-Net的FPR从0.191降低至0.162，3D Attention U-Net的FPR从0.186降低至0.154，而本文提出的DAU-Net具有最低的FPR值(0.170)，并通过后处理方法降低至0.153。在使用HD对网络性能进行评估时，3D Attention U-Net的结果与3D U-Net相似，分别为2.381和2.410，而DAU-Net的结果为2.127，应用后处理方法后HD降低至2.151，但仍有9.7 %的提升。图 5分别为本文算法、3D Attention U-Net和3D U-Net算法的分割结果图。图5 预测结果对比图 Comparison of prediction resultsFig 5((a) ours; (b) 3D Attention U-Net; (c) 3D U-Net) 根据图 5第1、2行所示情况，预测结果与金标准重合度高，不同模型在分割肿瘤方面都具有较高准确度，但3D Attention U-Net和3D U-Net在同一张切片上的分割得到了两个感兴趣区域，而实际的肿瘤区域只有一个，产生了假阳性，错误地将正常组织作为病灶进行分割，本文算法通过基于连通域分析的后处理，清除了假阳性区域，去除肿瘤区域之外被错误分割的正常组织。此外，由于肿瘤区域分布在连续的CT切片上，当使用神经网络进行分割时，假阳性区域还可能会出现在肿瘤区域之外的不同切片上，如图 5第3行中3D Attention U-Net和3D U-Net的分割结果，原本没有病灶的切片被错误分割，但本文算法减少了这一情况的出现。由图 5第4—6行可以看到，3D Attention U-Net的分割结果与金标准相差较大。3D U-Net的分割结果同样较差，而且分割得到的感兴趣区域内含有空洞。与二者相比，DAU-Net具有最准确的分割结果，与金标准的轮廓有更多的重合。如图 5第6行所示，当肿瘤区域与正常组织的边界不够清晰时，卷积神经网络的效果不够理想，与金标准相比相差较多，但本文模型仍具有更好的性能。3结论本文提出一种融合双注意力机制与残差结构的3维卷积神经网络DAU-Net。该模型具有编码器—解码器结构，能够对使用不同层级的特征进行融合，并通过在收缩路径和扩张路径中间添加位置注意力和通道注意力模块，搜索同一通道内不同距离之间、以及不同通道之间深层语义特征的依赖关系，并对具有依赖关系的特征进行增强，从而提升网络的分割性能。此外，本文采用连通域分析作为后处理方法，清除肿瘤之外被错误分割的假阳性区域，进一步提升分割准确度。实验结果表明，与3D U-Net和3D Attention U-Net相比，本文模型能够更精确地完成CT中肺部肿瘤的分割任务。但本文提出的后处理方法具有一定的局限性，只适用单发的肺肿瘤分割，后续工作将聚焦在多发的肺肿瘤病例，结合实例分割的思想，实现更具普遍性的深度学习算法。