Print

发布时间: 2021-09-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200765
2021 | Volume 26 | Number 9




    研究应用    




  <<上一篇 




  下一篇>> 





融合空洞卷积与注意力的胃癌组织切片分割
expand article info 陈颍锶, 李晗, 周雪婷, 万程
南京航空航天大学电子信息工程学院, 南京 211106

摘要

目的 病理组织切片检查是诊断胃癌的金标准,准确发现切片中的病变区域有助于及时确诊并开展后续治疗。然而,由于病理切片图像的复杂性、病变细胞与正常细胞形态差异过小等问题,传统的语义分割模型并不能达到理想的分割效果。基于此,本文提出了一种针对病理切片的语义分割方法ADEU-Net(attention-dilated-efficient U-Net++),提高胃癌区域分割的精度,实现端到端分割。方法 ADEU-Net使用经过迁移学习的EfficientNet作为编码器部分,增强图像特征提取能力。解码器采用了简化的U-Net++短连接方式,促进深浅层特征融合的同时减少网络参数量,并重新设计了其中的卷积模块提高梯度传递能力。中心模块使用空洞卷积对编码器输出结果进行多尺度的特征提取,增强模型对不同尺寸切片的鲁棒性。编码器与解码器的跳跃连接使用了注意力模块,以抑制背景信息的特征响应。结果 在2020年“华录杯”江苏大数据开发与应用大赛(简称“SEED”大赛)数据集中与其他经典方法比较,验证了一些经典模型在该分割任务中难以拟合的问题,同时实验得出修改特征提取方式对结果有较大提升,本文方法在分割准确度上比原始U-Net提高了18.96%。在SEED数据集与2017年中国大数据人工智能创新创业大赛(brain of things,BOT)数据集中进行了消融实验,验证了本文方法中各个模块均有助于提高病理切片的分割效果。在SEED数据集中,本文方法ADEU-Net比基准模型在Dice系数、准确度、敏感度和精确度上分别提升了5.17%、2.7%、3.69%、4.08%;在BOT数据集中,本文方法的4项指标分别提升了0.47%、0.06%、4.30%、6.08%。结论 提出的ADEU-Net提升了胃癌病理切片病灶点分割的精度,同时具有良好的泛化性能。

关键词

胃癌; 病理组织切片; 语义分割; 深度卷积神经网络; 注意力机制; 多尺度特征融合

The fusing of dilated convolution and attention for segmentation of gastric cancer tissue sections
expand article info Chen Yingsi, Li Han, Zhou Xueting, Wan Cheng
College of Electronic and Information Engineering, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China
Supported by: Chinese Postdoctoral Science Foundation (2019M661832); Jiangsu Planned Projects for Postdoctoral Research Funds (2019K226)

Abstract

Objective As the gold standard for the diagnosis of gastric cancer, pathological section has been a hotspot nowadays. The degree of precise detection of the lesion area in the section has rather beneficial to in-situ diagnosis and follow-up treatment. The pathologists have missed some subtle changes in cancerous cells in their practice. Automated gastric cancer cells segmentation has been aided to diagnose. Deep learning-based pathological section image of stomach have been obtained qualified classification via deep convolutional neural networks (DCNNs). Focused segmentation for pathological section has been challenged to some issues as below. First, the color and morphology between gastric cancer cells and normal cells to extract deep features. Second, the different magnifications in pathological section images have been hard to segment in different sizes. A semantic segmentation neural network called attention-dilated-efficient U-Net++ (ADEU-Net) has been demonstrated rather than original U-Net to facilitate the precision of gastric cancer cell segmentation. Method The illustrated framework is an encoder-decoder networks which can achieve end-to-end training. The capability of the encoder has affected the segmentation accuracy based on the deep features of pathological section images interpretation. The featured extraction part of EfficientNet has been adopted as the encoder via qualified classification. The initialized weights of EfficientNet have been pre-trained on ImageNet and its structure have been divided into five stages for the skipped cohesions. The decoder has been designed in terms of the structure of U-Net++. The encoder and decoder sub-networks have been via the integration of nested, dense skip pathways. An 8 GB GPU model training has been implemented based on the most skip cohesions in U-Net++. The convolution blocks in the decoder has been re-modified to the gradient transfer issues. An additional module called DBlock has been integrated to enhance the feature extraction capability for multi-sized pathological sections. Three multi-layers dilation rates convolution have been cascaded in DBlock to realize the features in receptive fields. The dilation rates of the stacked dilated convolution layers have been calculated to 1, 2, 5 and the receptive field of each layer has been realized 3, 7, 17 each in terms of the structure of hybrid dilated convolution (HDC). The featured maps have been concatenated by channel and fused via a 1×1 convolution layer to realize multi-scale features simultaneously. The attention mechanism has been used to replace the skip connection between the encoder and the decoder to suppress the feature correspondence of the background region effectively as well. The outputs of the encoder and the decoder of the upper layer have been conducted each based on a 1×1 convolution layer. The optional assigned weights to the parameters of the original feature map have been added together to form the attention gate. deep supervised learning can be altered to solve the low speed convergence in the training process. Result The experiments on two datasets called SEED and BOT have been conducted to verify the effectiveness of the method obtained from two gastric cancer cell section segmentation competition. The evaluation metrics of the models have Dice coefficient, sensitivity, pixel-wise accuracy and precision. Different segmentation results have also been calculated visually. First the baseline method has been compared to some classical models on SEED dataset in 18.96% accuracy higher than original U-Net and it has been found that the design of feature extraction has been crucial to the segmentation accuracy. Transfer-learning strategies of the encoder have been improved the results greatly. The further ablation experiments have been performed to each added module to confirm the results of segmentation., The Dice coefficient, sensitivity, accuracy and precision has been increased by 5.17% and 0.47%, 2.7% and 0.06%, 3.69% and 4.30%, 4.08% and 6.08% each compared with the baseline model's results with SEED and BOT. The results have demonstrated the effectiveness of each part of proposed algorithm. The visual segmentation results have more similar to the ground truth label. Conclusion A semantic segmentation model called ADEU-Net has been illustrated to the segmentation of pathological sections of gastric cancer task. The involvement of EfficientNet has beneficial to feature extraction, multi-scale features assembling cascade dilated convolution layers and the attention module in replace of the skip connection between the encoder and decoder.

Key words

gastric cancer; pathological section; semantic segmentation; deep convolutional neural network(DCNN); attention mechanism; multi-scale features fusion

0 引言

胃癌作为第5常见的癌症,在所有癌症中致死率位列全球第3(Jin等,2020)。在临床上,内窥镜、影像检查能检测出胃部的异常情况,但只有通过病理组织切片检查才能确诊是否患有胃癌。病理切片需要专业的医师进行检查,然而至2018年,我国有执照的病理医生仅有一万余人,缺口达90% (卞修武和平轶芳,2019)。不仅如此,由于病理切片图像特征的复杂性,不同的医师可能会得出不同的诊断结果,从而耽误宝贵的治疗时机。

深度卷积神经网络(deep convolutional neural network, DCNN)(Simonyan和Zisserman,2015Krizhevsky等,2017)在许多图像分类任务中展示了其优越的性能,许多学者也尝试将其应用于病理切片的任务。Cosatto等人(2013)使用一种多示例学习(multiple instance learning)的半监督方式对胃癌细胞切片进行分类,达到了90%的分类敏感度;Sharma等人(2017)通过AlexNet(Krizhevsky等,2017)提取图像特征信息, 也实现了对胃癌细胞切片的分类,其中对癌症图像识别准确率为69.90%,细胞坏死识别准确率为81.44%;Liu等人(2018)对比了多种分类网络在病理组织切片图像上的分类效果,其中效果最优的网络为ResNet(He等人,2016),F值达到96%;Iizuka等人(2020)结合卷积神经网络和循环神经网络的方式对胃腺癌和腺瘤进行分类,AUC(area under curve)值分别达到了0.97和0.99。

对胃部病理切片图像的分类已经逐步成熟且达到接近医生诊断的准确度,但实际应用中准确定位出病灶点并标注会比单纯的图像分类更直观,从而更有效地辅助医生进行诊断及后续治疗。对医学图像进行手动标注需要高额的成本及时间,因此运用人工智能对医学图像进行语义分割一直是医学图像分析领域的热门内容。全卷积网络(fully convolutional networks,FCN)(Long等,2015)架构及U-Net网络(Ronneberger等,2015)架构作为两个热门的语义分割架构,在该领域一直有突出的表现。FCN的架构可以通过单次的前向传播产生完整图像的分割图,实现端到端的图像分割。Roth等人(2017)将3D全卷积网络运用于腹部电子计算机断层扫描(computed tomography,CT)成像,实现对多器官的分割;Khened等人(2019)将全卷积网络运用于心脏磁共振成像,实现了心室分割的效果。后期发展的许多语义分割模型均是在FCN架构的基础上进行改良的,包括医学图像分割常用的U-Net架构。U-Net在全卷积网络基础上增加了编码器到解码器每一层对称的跳跃连接(skip connection),从而使神经网络能学到多尺度的特征。对于图像分辨率大、样本稀缺的医学图像问题,U-Net架构有着更好的处理效果。Li等人(2018)使用混合密集连接的U-Net,实现了对肝脏肿瘤的分割;Liao等人(2019)将3D-U-Net运用于肺部CT成像,实现了对肺结节的检测和分割。

尽管医学图像分割已经进行了广泛的研究,但是病理组织切片图像存在特征过于复杂细微、癌症细胞仅具有较小形态变化等难点,以致在其他任务中表现优异的分割模型都难以在分割癌症病变细胞的任务中达到较好的分割效果。基于以上难点,本文提出了一种针对病理切片图像的语义分割模型ADEU-Net(融合注意力、空洞卷积、高效率网络与U-Net++的模型,attention dilated efficient U-Net++),本文的研究思路为:

1) 针对病理组织切片特征层次较深的问题,搭建了一个端到端的分割网络,解码器采用了简化的U-Net++,编码器使用了经过迁移学习的EfficientNet。该网络通过平衡模型的宽度与深度,在减少训练参数的同时捕捉到更丰富、更复杂的图像特征,增强对病理组织切片的特征提取能力。

2) 针对分割目标形态大小各异的问题,网络中心部分采用多系数级联的空洞卷积,在不使用池化方式、保留图像信息的情况下得到多感受野特征,从而提高网络对多分辨率病理切片的特征提取能力及鲁棒性。

3) 针对网络参数量过大的问题,简化了U-Net++解码器部分的跳跃连接,减少网络待优化的参数,在保持较高分割精度的情况下提高网络的运算速度。添加直连的方式重新设计解码器部分的卷积模块,增加解码器部分的梯度传递能力。

4) 针对网络的可解释性与分割精度问题,编码器与解码器之间的跳跃连接采用注意力模块,抑制每层网络对背景区域的特征响应,提高对分割目标的识别精度。

近年来,许多组织举办了有关病理组织切片的病灶点分割挑战赛,从而挖掘更有效的模型。2020年“华录杯”江苏大数据开发与应用大赛(简称“SEED大赛”)——癌症风险智能诊断竞赛旨在通过提供大规模经过专业医师标注的胃部组织病理切片图像,选手使用深度学习等方法定位识别出胃部组织病理切片图像中的胃癌恶性病变组织部分(即病灶区域),辅助医生进行诊断,提高病理的检测效率。使用本文提出的ADEU-Net在本次大赛的测试集中获得了好成绩。

1 本文方法

1.1 整体网络架构

U-Net的编码器—解码器结构有助于同时获取图像的上下文信息和位置信息,对大分辨率医学图像的分割有杰出表现。U-Net++(Zhou等,2018b)通过短连接方式,有效融合了深浅层的特征,进一步提高了图像分割的准确度。综合考虑细胞病理切片图像特征后,本文搭建了基于U-Net++的分割网络ADEU-Net。ADEU-Net网络结构组成分为编码器、中间部分和解码器3个部分,如图 1所示。

图 1 ADEU-Net网络结构
Fig. 1 The architecture of ADEU-Net

绿色部分为采用EfficientNet结构的编码器。红色部分为解码器,在原始U-Net++基础上减少了大量的跳跃连接,使每一个节点只保留一次跳跃连接。为了增强对多尺寸目标的识别,ADEU-Net额外增加了橙色的中间部分,级联多个空洞系数的空洞卷积得到不同感受野的特征。

1.2 编码器设计

ADEU-Net使用在数据集ImageNet(Deng等,2009)上预训练的高效率网络(EfficientNet)(Tan和Le,2019)作为编码器。针对不同的数据集分辨率和样本数量,编码器可以灵活地替换为不同深度的EfficientNet模型。EfficientNet的特征提取部分被拆分为5个阶段,图 2中以EfficientNet-b0为例,每个阶段对输出的特征图采用3×3卷积,步长为2,并保持与原图相同的填充,因此输出特征图的宽和高均缩小一倍。其中编码器的核心模块为移动翻转瓶颈卷积(mobile inverted bottleneck convolution,MBConv),该模块引入了压缩与激发网络(squeeze-and-excitation network,SENet)(Hu等,2018)的注意力思想,对特征图进行通道上的压缩与激发,生成含全局信息的注意力掩膜。将该掩膜与原特征图相乘,从而达到抑制无用通道特征响应的效果。

图 2 ADEU-Net的EfficientNet-b0编码器结构
Fig. 2 EfficientNet-b0 encoder structure of ADEU-Net

1.3 空洞卷积模块

考虑到病理切片图像的复杂性、图像整体的相关性以及每幅数据样本原始分辨率分布的差异,提高网络中心部分特征的感受范围以及对多重感受野的特征融合是十分有意义的。池化方式可以高效地提高特征图的感受野,但同时也会因为特征图分辨率的下降而丢失重要的空间信息。参考D-LinkNet(Zhou等,2018a)的处理方法,ADEU-Net的中心部分设计了一个带有跳跃连接的3层空洞卷积模块DBlock来获得3种感受野的特征。该模块的结构如图 3所示(其中$C$表示编码器的输出通道数),具体定义为

$ \boldsymbol{d}=\boldsymbol{\psi}\left(\boldsymbol{C}\left(\sigma\left(\boldsymbol{g}_{1}\right) ; \sigma\left(\boldsymbol{g}_{2}\right) ; \sigma\left(\boldsymbol{g}_{3}\right)\right)\right) $ (1)

式中, $\boldsymbol{g}_{i}$表示第$i$层空洞卷积的输出; $\sigma$$\mathrm{ELU}$ (exponential linear units) 激活函数, 本文中该激活函数的可调参数$\alpha$均设为$1 ; \boldsymbol{C}$表示将特征图按通道堆叠; $\boldsymbol{\psi} \in {{\bf{R}}}^{1 \times 1 \times N / 2}$为卷积参数矩阵, 其中$N$为输人DBlock模块的特征图大小。

空洞卷积通过在卷积核中注入空洞,在不引入新的参数量的同时有效提高了感受野,具体定义为

$ g[x, y]=\sum\limits_{i}^{M} \sum\limits_{j}^{M} f[x+r \cdot i, y+r \cdot j] \cdot h[i, j] $ (2)

式中,$x, y$表示特征点坐标,$i$$j$表示卷积点坐标,$M$为卷积核大小,$r$为空洞系数,在标准的卷积操作中$r=1$$f$为输入特征,$h$为卷积核,$g$为输出特征。

但是,如果在连续的空洞卷积层中采用非互质的空洞系数设置,会产生特征图采样不连续的问题,即网格效应,从而丢失大量的特征信息。为了避免该效应,并兼顾对大小物体的分割效果,DBlock的空洞系数设置遵循混合空洞卷积(hybrid dilated convolution,HDC)(Wang等,2018)的设计结构,将3层空洞系数分别设为1、2、5,卷积核大小均为3×3,步长为1。这样的设置既能使DBlock模块的浅层获得特征图的相邻信息,提高对小目标的识别能力;也能使深层获得与特征图相近的感受野,提高对大目标的识别能力。

感受野计算为

$ l_{k}=l_{k-1}+\left(\left(f_{k}-1\right) \times \prod\limits_{i=1}^{k-1} s_{i}\right) $ (3)

式中,$l_{k}$为第$k$层每个点的感受野;$f_{k}$为第$k$层卷积核大小;$s_{i}$为第$i$层的卷积步长。通过式(3)计算出每层相对于编码器输出特征图的实际感受野分别为3、7、17。由于编码器的输出特征图大小为16×16,第3层空洞卷积的特征点将覆盖DBlock输入特征图中较为完整的信息。另外,ADEU-Net中的DBlock将不同感受野的特征图进行通道堆叠后使用1×1卷积替代了通道相加的方式,提高了网络自适应地调整不同感受野特征权重的能力,促进了信息融合。

图 3 ADEU-Net的DBlock模块
Fig. 3 DBlock module of ADEU-Net

1.4 解码器设计

ADEU-Net的解码器借鉴了U-Net++的短连接架构。为了使整体网络参数量保持与U-Net++相近,且出于细胞病理切片分割任务的实际需求,ADEU-Net的每一个节点的跳跃连接只保留一次,均连接到最右侧的解码器节点。该方式通过将更多的参数量分配给网络的特征提取部分,在硬件条件有限的情况下牺牲了适量分割边缘精度来提高对分割目标的识别准确度。为了弥补该部分跳跃连接数量减少所带来的梯度难以传递、且神经元容易死亡的现象,可将ADEU-Net解码器部分卷积模块设计为残差块(He等,2016)的形式,并选择指数线性单元(exponential linear units,ELU)(Clevert等,2016)作为激活函数,如图 4所示。除此之外,ADEU-Net还可以选择使用深度监督(Lee等,2015)的方式对网络进行训练。若使用该方式,解码器的(上采样4,3)节点将增加一层逆卷积得到DS(deep supervision)节点,输出与分割图的维度一致的特征图并共同参与损失值计算。该方式只会在训练的过程传递梯度值,在进行验证的时候DS节点将不参与计算。中心部分的16×16像素特征图将通过解码器逐层上采样恢复到512×512像素的大小,即产生分割结果。

图 4 ADEU-Net解码器内的卷积模块
Fig. 4 Convolution module in the decoder of ADEU-Net

1.5 注意力模块

在ADEU-Net的编码器设计中引入针对通道的注意力思想,有效提高了编码器特征提取能力,从而抑制了冗余特征层的特征表达。除此之外,由于病理切片图像的目标与背景在空间特征具有一定相似性,为了弥补编码器在空间上注意力的不足,有效地抑制特征图中的背景特征响应,ADEU-Net额外引入针对空间的注意力思想,将编码器节点的跳跃连接替换为注意力模块(attention block)(Oktay等,2018),使特征图的注意力集中在目标区域附近。注意力模块简单高效,且参数量低,定义如下

$ \boldsymbol{\alpha}_{i}=\sigma_{2}\left(\boldsymbol{\psi}\left(\sigma_{1}\left(\boldsymbol{W}_{x} \boldsymbol{x}_{i}+\boldsymbol{W}_{g} \boldsymbol{g}_{i}+\boldsymbol{b}_{g}\right)\right)+\boldsymbol{b}_{\psi}\right) $ (4)

$ \hat{\boldsymbol{x}}_{i}=\boldsymbol{\alpha}_{i} \otimes \boldsymbol{x}_{i} $ (5)

式中, $\boldsymbol{x}_{i} \in {\bf{R}}^{N \times N \times C_{1}}$为第$i$层的编码器节点的输出矩阵, 其中$N$为特征图的大小, $C_{1}$为编码器输出特征图的通道数; $\boldsymbol{g}_{i} \in {\bf{R}}^{N \times N \times C_{2}}$为解码器节点的输出矩阵, 其中$C_{2}$为编码器输出特征图的通道数; $\boldsymbol{\psi} \in {\bf{R}}^{1 \times 1 \times C_{2}}, \boldsymbol{W}_{x} \in {\bf{R}}^{1 \times 1 \times C_{2} / 2}$$\boldsymbol{W}_{g} \in {\bf{R}}^{1 \times 1 \times C_{2} / 2}$均为卷积的参数矩阵, $\boldsymbol{b}_{g} \in {\bf{R}}^{C_{2} / 2}$$\boldsymbol{b}_{\psi} \in {\bf{R}}$均为卷积的偏置向量;$\sigma_{1}$$\sigma_{2}$分别为$\mathrm{ELU}$激活函数与Sigmoid激活函数, 输出的$\boldsymbol{\alpha}_{i} \in {\bf{R}}^{N \times N \times 1}$即第$i$层的注意力门(attention gate)。$\otimes$为矩阵点乘操作, $\hat{\boldsymbol{x}}_{i}$为注意力模块输出结果, 具体操作如图 5所示。图中$N$表示输人特征图的大小, $C_{1}$表示阶段$i$输出的通道数, $C_{2}$表示上采样$i, 0$输出的通道数。

图 5 ADEU-Net的注意力模块
Fig. 5 Attention block of ADEU-Net

2 实验

实验使用PyTorch作为深度学习框架。系统的处理器为64位Intel i7-7700,内存为16 GB;同时使用了GPU来加速网络的运算速度,显卡型号为NVIDIA GTX 1080,显存为8 GB。

2.1 数据集介绍和分析

分别使用了2020年“华录杯”江苏大数据开发与应用大赛(简称SEED大赛)——癌症风险智能诊断赛道与2017年中国大数据人工智能创新创业大赛(brain of things, BOT)——病理切片识别AI(artificial intalligence)挑战赛提供的数据集来测试本文方法。SEED数据集与BOT数据集分别包含714幅和560幅带胃癌病灶的病理切片样本。两份数据集均为二分类分割问题,其中癌症细胞区域被标记为前景,正常细胞区域及无细胞区域被标记为背景。

与自然图像分割任务,如PASCAL VOC(pattern analysis,statistical modelling and computational learning visual object classes)(Everingham等,2010)、Cityscapes(Cordts等,2016)等相比,细胞病理切片的分割任务具有以下两个特点:1)目标(病变细胞)与背景(正常细胞)之间差异较小,颜色和形态上都具有高度的相似性,因此病理切片分割模型所需要依赖的图像特征比自然图像更为复杂;2)自然图像分割任务注重于目标边缘轮廓的分割精度,而病理切片的分割任务并不十分注重精确到像素的目标边缘(实际上在SEED癌症风险智能诊断竞赛中,数据集提供的标签也没有提供精确的目标边缘)。除此之外,SEED比赛中提供的数据集原始图像分辨率分布差异较大(如图 6所示, 每个点代表一个样本),训练集图像分辨率最小为372×489像素,最大为12 047×18 257像素,图像均在20倍率视野下采集得到。若对图像尺寸进行归一化,每幅图像的细胞大小相应地会有较大的差异。BOT数据集所有样本分辨率均为1 024×1 024像素,但大部分病灶点区域较小。

图 6 SEED数据集尺寸分布图
Fig. 6 Image size distribution of SEED dataset

2.2 训练细节

对于SEED竞赛数据集,在比赛中为了充分利用所得的数据集,本文没有对数据进行划分,仅使用主办方提供的测试结果衡量本文模型。为了进行更充分的对比实验,赛后将数据集进行了划分,对714幅样本使用交叉验证方式验证模型。为了避免过拟合以及数据量过小的情况,实验中进行了大量的数据增强,包括但不限于水平翻转、垂直翻转、随机平移旋转缩放、色彩抖动、亮度对比度变化、模糊处理和增加噪声等。对于BOT竞赛数据集,对560幅样本进行五折交叉验证,数据增强方式与前者相同。两个数据集中的图像均缩放至512×512像素大小。

二元交叉熵损失(binary cross entropy,BCE)稳定性较好,但易受到类别不平衡的问题影响,定义为

$ L_{\mathrm{B}}=-\sum\limits_{i} y_{i} \log \hat{y}_{i}+\left(1-y_{i}\right) \log \left(1-\hat{y}_{i}\right) $ (6)

式中, $y_{i}$表示第$i$个像素的标签值, $\hat{y}_{i}$表示第$i$个像素的预测值。

Dice损失更关注目标区域,提高目标分割的效果,但稳定性较差,定义为

$ L_{\mathrm{D}}=1-\frac{2|\boldsymbol{y} \cap \hat{\boldsymbol{y}}|}{|\boldsymbol{y}|+|\hat{\boldsymbol{y}}|} $ (7)

式中, $\boldsymbol{y}$表示标签矩阵, $\hat{\boldsymbol{y}}$表示预测矩阵。

为了同时考虑稳定性与类别平衡问题,本文对所有模型的训练均使用二元交叉熵损失与Dice损失的加权和作为总的损失函数,即

$ L=\sum\limits_{i=1}^{N} \alpha L_{\mathrm{B}}\left(\boldsymbol{y}_{i}, \hat{\boldsymbol{y}}_{i}\right)+\beta L_{\mathrm{D}}\left(\boldsymbol{y}_{i}, \hat{\boldsymbol{y}}_{i}\right) $ (8)

式中,$N$为样本总数,$\boldsymbol{y}_{i}$$\hat{\boldsymbol{y}}_{i}$分别代表第$i$个标签矩阵与预测矩阵;$α$$β$分别代表两个损失函数的权重,本文中分别设定为$α$=0.5,$β$=1。并采用修正自适应矩估计(rectified adaptive moment estimation, RAdam)(Liu等,2019)作为所有模型的优化器。本文中参数的设置均为在已有理论及经验的基础上通过多次实验进行微调后确定,其中学习率初始化为5E-5,在前5个epochs线性增长至2.5E-4后使用余弦滚降的策略。训练批次大小均设置为4,在200个epochs内网络均达到收敛。

2.3 实验结果

2.3.1 与经典模型对比

首先选取几个经典模型对SEED数据集进行实验,包括U-Net、U-Net++、ResU-Net(Xiao等,2018)以及使用EfficientNet作为编码器的U-Net,称之为EU-Net。其中EU-Net分别对比了编码器使用ImageNet进行迁移学习前后的结果。在实验中,综合Dice系数、平均准确度($MA$)、敏感度($SE$)和精确率($PR$)共同作为评价指标,具体计算为

$ f_{\text {Dice }}=\frac{2|\boldsymbol{y} \cap \hat{\boldsymbol{y}}|}{|\boldsymbol{y}|+|\hat{\boldsymbol{y}}|} $ (9)

$ M A=\frac{T P+T N}{T P+F N+T N+F P} $ (10)

$ S E=\frac{T P}{T P+F N} $ (11)

$ P R=\frac{T P}{T P+F P} $ (12)

式中,$\boldsymbol{y}$表示标签矩阵,$\hat{\boldsymbol{y}}$表示预测矩阵;$TP、FP、FN、TN$分别表示真阳性、假阳性、假阴性、真阴性的像素概率。其中$MA$$SE$$PR$均通过将预测矩阵以0.5为阈值进行二值化后得出。

实验结果如表 1所示,U-Net虽然获得了最高的敏感度,但另外3项指标与其余模型差距较大。

表 1 经典模型与EU-Net在SEED数据集上的结果
Table 1 The results of classical algorithms and EU-Net on SEED dataset  

下载CSV
/%
模型 Dice 准确度 敏感度 精确度
U-Net 43.89 71.27 92.22 50.61
U-Net++ 69.22 81.30 83.42 63.28
ResU-Net 62.25 74.81 85.53 54.12
EU-Net 72.48 85.09 75.85 73.77
EU-Net 80.77 90.23 85.12 80.94
注:取五折交叉验证的均值作为各模型的评估结果,†表示使用迁移学习方式,加粗字体为各列最优值。

通过精确度指标可以分析得到,产生该现象的原因是模型倾向于将像素判别为目标,即假阳性过高,在图 7的ROC(region of interest)曲线及AUC值中可以更直观地观察出U-Net的不足。原始的U-Net编码器较为简单,并没有很好地提取到病理切片图像的深入特征, 从而导致模型无法拟合该数据集。将编码器替换为ResNet和EfficientNet,或将编码器的跳跃连接替换为多节点的短连接均对结果有极大的提升,而对编码器的迁移学习也会对Dice系数提升8.29%。其中经过预训练的EU-Net有最优的效果。由以上实验可以得出,模型对特征的提取及处理是提高病理切片分割准确度的关键。

图 7 经典模型与EU-Net在SEED下的ROC曲线及AUC值
Fig. 7 ROC curve and AUC value of classical algorithms and EU-Net on SEED dataset

2.3.2 各模块消融实验

上述实验中经过预训练的EU-Net有着更优的效果,模型也确定了进一步优化的方向,即加强模型特征提取的能力,以及多尺度特征的融合能力。因此在进一步实验中,将使用经过预训练的EU-Net作为消融实验的基准模型。本节对以下模型进行了对比:1)将EU-Net的解码器替换为与ADEU-Net一致的U-Net++结构,实验中称为EU-Net++;2)对模型增加DBlock模块,称为DEU-Net++;3)对DEU-Net++增加注意力模块,即ADEU-Net,并对比ADEU-Net采用深度监督学习前后的结果。不同模型在两个数据集中的结果分别如表 2表 3所示。

表 2 不同模型在SEED数据集上的结果
Table 2 The results of different models on SEED dataset  

下载CSV
/%
模型 Dice 准确度 敏感度 精确度
EU-Net 80.77 90.23 85.12 80.94
EU-Net++ 80.35 89.89 83.77 80.94
DEU-Net++ 82.77 90.78 87.98 81.39
ADEU-Net 84.54 92.34 86.70 84.88
ADEU-Net 85.94 92.93 88.81 85.02
注:取五折交叉验证的均值作为各模型的评估结果,†表示使用深度监督学习方式,加粗字体为各列最优值。

表 3 不同模型在BOT数据集上的结果
Table 3 The results of different models on BOT dataset  

下载CSV
/%
模型 Dice 准确度 敏感度 精确度
EU-Net 75.31 90.79 75.27 73.78
EU-Net++ 73.03 89.82 75.42 77.00
DEU-Net++ 74.46 90.78 72.70 78.36
ADEU-Net 75.78 90.85 79.57 79.86
ADEU-Net 75.70 90.71 79.57 79.49
注:取五折交叉验证的均值作为各模型的评估结果,†表示使用深度监督学习方式,加粗字体为各列最优值。

从评价指标来看,ADEU-Net在敏感性与精确度指标中表现最优,也就是说该模型对真实病灶区域的识别更为准确,漏判、误判率低;在图像分割常用的Dice系数指标和像素准确度中,ADEU-Net也表现最优。在AUC指标中,ADEU-Net模型在SEED数据集分数最高,BOT数据集仅次于DEU-Net++,证明该模型有较好鲁棒性,ROC曲线及AUC值如图 8所示。

图 8 不同模型在SEED和BOT数据集下的ROC曲线及AUC值
Fig. 8 ROC curve and AUC value of different models on SEED and BOT dataset
((a) SEED dataset; (b) BOT dataset)

图 9中展示了6组在不同模型下的分割结果,可以直观地看出,本文提出的ADEU-Net对小目标的分割结果更精细,大面积目标的分割也更完整。

图 9 SEED和BOT数据集分割图
Fig. 9 Segmentation masks of SEED & BOT datasets
((a)SEED dataset; (b)BOT dataset)

3 讨论

病理图像分割的难点之一是背景与目标的相似性,因此模型对图像特征的提取比其他分割任务更为关键。EU-Net++在基准模型的基础上增加了编码器到解码器之间的短连接,针对性地增加了网络的特征提取能力,在各项指标上有了明显的提升。短连接有效地融合了深浅层的图像特征,可以使模型保持较高精度的情况下减少解码器的输出通道数。随后该模型增加的空洞卷积模块DBlock与注意力模块都更进一步地提取与利用了图像的特征,通过主要的几项指标与分割结果图可以看到模型的效果都有不同程度的提高。DBlock通过空洞卷积的方式得到更多尺度的感受野,从而使分割目标在整体图像的分割情况更完整准确。如图 9中SEED数据集的第1个样本与BOT数据集的第2个样本所示,DEU-Net++与ADEU-Net对大片病灶区域的分割更为完整。注意力模块通过注意力门调整编码器输出特征的方式,提高对目标区域的特征响应,从而对细微目标的识别更为精确。如BOT数据集的第1、第3个样本所示,ADEU-Net在细小目标区域的识别情况更为准确,误判与漏判病灶点的情况较轻。图 10展示了一组样本在增加attention模块前后的结果以及最后两层attention gate参数平均值的热力图。从热力图可见,注意力门将特征区域的响应限制在目标区域周围,与原始特征图相乘后将达到抑制背景区域特征表达的效果,一定程度上避免了对病灶区域的误判和漏判。

图 10 增加attention模块前后分割图及热力图
Fig. 10 Segmentation masks and heat maps before and after adding attention module
((a)SEED dataset; (b)BOT dataset)

深度监督学习的方式提高了ADEU-Net训练初期的收敛速度,如图 11(a)所示。但该方式给模型增加了额外的参数约束,也可能使模型存在无法达到原本的局部最优的情况,如图 11(b)所示。该方式在两个数据集中表现有优有劣,实际应用中应该综合训练的时间成本以及模型的实际表现来衡量是否采用该手段。

图 11 使用深度监督学习前后验证集的Dice系数曲线
Fig. 11 Dice coefficient curves of validation sets before and after deep supervision
((a)SEED dataset; (b)BOT dataset)

4 结论

针对病理切片癌症病灶点的分割任务,本文提出了ADEU-Net语义分割模型,实现了端到端的病灶分割。通过选用特征提取能力更强的EfficientNet作为编码器,结合多尺度特征的空洞卷积作为中心部分,以及有效融合深浅层特征的U-Net++结构作为解码器并使用attention模块抑制背景的特征响应,ADEU-Net有效地应对了病理切片图像分割的任务难点,比如背景与目标的相似性高、病灶区域大小不一等。ADEU-Net在两个数据集上相比于使用EfficientNet作为编码器的U-Net模型分别得到了5.17%和0.47%的Dice系数提升,验证了本文方法的有效性和泛化性。然而在病灶区域的分割完整度以及与病灶区域相似性更高的背景部分,ADEU-Net仍有一定的误判概率,分割目标的边缘轮廓也与标签存在一定的误差。在接下来的工作中可以在解码器的设计与训练图像的输入方式、预处理方式上做进一步的研究。此外,虽然ADEU-Net的设计最初是针对病理切片图像的,但未来可以将其运用在其他图像特征层次深的语义分割任务中做进一步的探究。

参考文献

  • Bian X W, Ping Y F. 2019. Pathology in China: challenges and opportunities. Journal of Third Military Medical University, 41(19): 1815-1817
  • 卞修武, 平轶芳. 2019. 我国病理学科发展面临的挑战和机遇. 第三军医大学学报, 41(19): 1815-1817 [DOI:10.16016/j.1000-5404.201909212]
  • Clevert D A, Unterthiner T and Hochreiter S. 2016. Fast and accurate deep network learning by exponential linear units (ELUs)//Proceedings of the 4th International Conference on Learning Representations, ICLR 2016-Conference Track Proceedings. San Juan, Puerto Rico, USA: ICLR: 1-14
  • Cordts M, Omran M, Ramos S, Rehfeld T, Enzweiler M, Benenson R, Franke U, Roth S and Schiele B. 2016. The cityscapes dataset for semantic urban scene understanding//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE: 3213-3223[DOI: 10.1109/CVPR.2016.350]
  • Cosatto E, Laquerre P F, Malon C, Graf H P, Saito A, Kiyuna T, Marugame A and Kamijo K. 2013. Automated gastric cancer diagnosis on H and E-stained sections; ltraining a classifier on a large scale with multiple instance machine learning//Proceedings of Medical Imaging 2013: Digital Pathology. Lake Buena Vista (Orlando Area), USA: SPIE: 867605[DOI: 10.1117/12.2007047]
  • Deng J, Dong W, Socher R, Li L J, Li K and Li F F. 2009. Imagenet: a large-scale hierarchical image database//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA: IEEE: 248-255[DOI: 10.1109/CVPR.2009.5206848]
  • Everingham M, Van Gool L, Williams C K I, Winn J, Zisserman A. 2010. The pascal visual object classes (VOC) challenge. International Journal of Computer Vision, 88(2): 303-338 [DOI:10.1007/s11263-009-0275-4]
  • He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE: 770-778[DOI: 10.1109/CVPR.2016.90]
  • Hu J, Shen L and Sun G. 2018. Squeeze-and-excitation networks//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 7132-7141[DOI: 10.1109/CVPR.2018.00745]
  • Iizuka O, Kanavati F, Kato K, Rambeau M, Arihiro K, Tsuneki M. 2020. Deep learning models for histopathological classification of gastric and colonic epithelial tumours. Scientific Reports, 10(1): #1504 [DOI:10.1038/s41598-020-58467-9]
  • Jin P, Ji X Y, Kang W Z, Li Y, Liu H, Ma F H, Ma S, Hu H T, Li W K, Tian Y T. 2020. Artificial intelligence in gastric cancer: a systematic review. Journal of Cancer Research and Clinical Oncology, 146(9): 2339-2350 [DOI:10.1007/s00432-020-03304-9]
  • Khened M, Kollerathu V A, Krishnamurthi G. 2019. Fully convolutional multi-scale residual densenets for cardiac segmentation and automated cardiac diagnosis using ensemble of classifiers. Medical Image Analysis, 51: 21-45 [DOI:10.1016/j.media.2018.10.004]
  • Krizhevsky A, Sutskever I, Hinton G E. 2017. Imagenet classification with deep convolutional neural networks. Communications of the ACM, 60(6): 84-90 [DOI:10.1145/3065386]
  • Lee C Y, Xie S N, Gallagher P, Zhang Z Y, Tu Z W. 2015. Deeply-supervised nets. Journal of Machine Learning Research, 38: 562-570
  • Li X M, Chen H, Qi X J, Dou Q, Fu C W, Heng P A. 2018. H-DenseUNet: hybrid densely connected UNet for liver and tumor segmentation from CT volumes. IEEE Transactions on Medical Imaging, 37(12): 2663-2674 [DOI:10.1109/TMI.2018.2845918]
  • Liao F Z, Liang M, Li Z, Hu X L, Song S. 2019. Evaluate the malignancy of pulmonary nodules using the 3-D deep leaky noisy-OR network. IEEE Transactions on Neural Networks and Learning Systems, 30(11): 3484-3495 [DOI:10.1109/TNNLS.2019.2892409]
  • Liu B, Yao K, Huang M M, Zhang J H, Li Y and Li R. 2018. Gastric pathology image recognition based on deep residual networks//Proceedings of the 42nd IEEE Annual Computer Software and Applications Conference (COMPSAC). Tokyo, Japan: IEEE: 408-412[DOI: 10.1109/COMPSAC.2018.10267]
  • Liu L Y, Jiang H M, He P C, Chen W Z, Liu X D, Gao J F and Han J W. 2019. On the variance of the adaptive learning rate and beyond[EB/OL]. [2020-05-17]. https://arxiv.org/pdf/1908.03265.pdf
  • Long J, Shelhamer E and Darrell T. 2015. Fully convolutional networks for semantic segmentation//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA: IEEE: 3431-3440[DOI: 10.1109/CVPR.2015.7298965]
  • Oktay O, Schlemper J, Folgoc L L, Lee M, Heinrich M, Misawa K, Mori K, McDonagh S, Hammerla N Y, Kainz B, Glocker B and Rueckert D. 2018. Attention U-net: learning where to look for the pancreas//Proceedings of the 1st Conference on Medical Imaging with Deep Learning. Amsterdam, The Netherlands: 1-10
  • Ronneberger O, Fischer P and Brox T. 2015. U-net: Convolutional networks for biomedical image segmentation//Proceedings of International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer: 234-241[DOI: 10.1007/978-3-319-24574-4_28]
  • Roth H R, Oda H, Hayashi Y, Oda M, Shimizu N, Fujiwara M, Misawa K and Mori K. 2017. Hierarchical 3D fully convolutional networks for multi-organ segmentation[EB/OL]. [2020-11-14]. https://arxiv.org/pdf/1704.06382.pdf
  • Sharma H, Zerbe N, Klempert I, Hellwich O, Hufnagl P. 2017. Deep convolutional neural networks for automatic classification of gastric carcinoma using whole slide images in digital histopathology. Computerized Medical Imaging and Graphics, 61: 2-13 [DOI:10.1016/j.compmedimag.2017.06.001]
  • Simonyan K and Zisserman A. 2015. Very deep convolutional networks for large-scale image recognition//Proceedings of the 3rd International Conference on Learning Representations, ICLR 2015-Conference Track Proceedings. San Diego, USA: ICLR: 1-14
  • Tan M X and Le Q V. 2019. Efficientnet: rethinking model scaling for convolutional neural networks[EB/OL]. [2020-11-09]. https://arxiv.org/pdf/1905.11946v3.pdf
  • Wang P Q, Chen P F, Yuan Y, Liu D, Huang Z H, Hou X D and Cottrell G. 2018. Understanding convolution for semantic segmentation//Proceedings of 2018 IEEE Winter Conference on Applications of Computer Vision (WACV). Lake Tahoe, USA: IEEE: 1451-1460[DOI: 10.1109/WACV.2018.00163]
  • Xiao X, Lian S, Luo Z M and Li S Z. 2018. Weighted res-UNet for high-quality retina vessel segmentation//Proceedings of the 9th International Conference on Information Technology in Medicine and Education (ITME). Hangzhou, China: IEEE: 327-331[DOI: 10.1109/ITME.2018.00080]
  • Zhou L C, Zhang C and Wu M. 2018a. D-LinkNet: linknet with pretrained encoder and dilated convolution for high resolution satellite imagery road extraction//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPR). Salt Lake City, USA: IEEE: 182-186[DOI: 10.1109/CVPRW.2018.00034]
  • Zhou Z, Siddiquee M M R, Tajbakhsh N and Liang J. 2018b. UNet++: a nested U-Net architecture for medical image segmentation//Stoyanov D, Taylor Z, Carneiro G, Syeda-Mahmood T, Martel A, Maier-Hein L, Tavares J M R S, Bradley A, Papa J P, Belagiannis V, Nascimento J C, Lu Z, Conjeti S, Moradi M, Greenspan H and Madabhushi A, eds. Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support. Cham: Springer: 3-11[DOI: 10.1007/978-3-030-00889-5_1]