发布时间: 2022-12-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210966
2022 | Volume 27 | Number 12

医学图像处理

双重编—解码架构的肠胃镜图像息肉分割

魏天琦, 肖志勇

江南大学人工智能与计算机学院，无锡 214122

收稿日期: 2021-10-11; 修回日期: 2022-01-27; 预印本日期: 2022-02-03

基金项目: 江苏省优秀青年基金项目(BK20190079)

作者简介: 魏天琦，男，硕士研究生，主要研究方向为医学图像处理。E-mail: 6201924169@stu.jiangnan.edu.cn
肖志勇，通信作者，男，副教授，主要研究方向为人工智能、机器视觉、图像/视频处理。E-mail: zhiyong.xiao@jiangnan.edu.cn
*通信作者: 肖志勇 zhiyong.xiao@jiangnan.edu.cn

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2022)12-3637-14

摘要

目的肠胃镜诊断一直被认为是检测及预防结直肠癌的金标准，但当前的临床检查中仍存在一定的漏诊概率，基于深度学习的肠胃内窥镜分割方法可以帮助医生准确评估癌前病变，对诊断和干预治疗都有积极作用。然而提高目标分割的准确性仍然是一项具有挑战性的工作，针对这一问题，本文提出一种基于双层编—解码结构的算法。方法本文算法由上、下游网络构成，创新性地利用上游网络训练产生注意力权重图，对下游网络解码过程中的特征图产生注意力引导，使分割模型更加注重目标区域；提出子空间通道注意力结构，在跨越连接中提取多分辨率下的跨通道信息，可以有效细化分割边缘；最终输出添加残差结构防止网络退化。结果在公共数据集CVC-ClinicDB(Colonoscopy Videos Challenge-ClinicDataBase)和Kvasir-Capsule上进行测试，采用Dice相似系数(Dice similariy coefficient，DSC)、均交并比(mean intersection over union，mIoU)、精确率(precision)以及召回率(recall)为评价指标，在两个数据集上的DSC分别达到了94.22%和96.02%。进一步将两个数据集混合，测试了算法在跨设备图像上的鲁棒性，其中DSC提升分别达到17%—20%，在没有后处理的情况下，相较其他先进模型(state-of-the-art，SOTA)，如U-Net在DSC、mIoU以及recall上分别取得了1.64%、1.41%和2.54%的提升，与ResUNet++的对比中，在DSC以及recall指标上分别取得了2.23%和9.87%的提升，与SFA (selective feature aggregation network)、PraNet和TransFuse等算法相比，在上述评价指标上也均有显著提升。结论本文算法可以有效提高医学图像分割效果，并且对小目标分割、边缘分割具有更高的准确率。

关键词

息肉分割; 结肠镜检查; 深度学习; 语义分割; 注意力机制; 医学图像处理

Dual encoded-decoded polyp segmentation method for gastroscopic images architecture

Wei Tianqi, Xiao Zhiyong

School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi 214122, China

Supported by: Natural Science Foundation of Jiangsu Province for Excellent Young Scholars(BK20190079)

Abstract

Objective Adenomatous polyp is demonstrated as the early manifestation of colorectal cancer. Early intervention is an effective way to prevent colorectal cancer. Current gastroscopy has been regarded as the "gold standard" for detection and prevention of colorectal cancer. However, a certain probability of missed diagnosis is still existed for clinical examination. Deep learning based gastrointestinal endoscopy segmentation method can aid to assess precancerous lesions efficiently, which has a positive effect on diagnosis and clinical intervention. Intestinal polyps are also characterized by small, round and blurred edges, which greatly increase the difficulty of semantic segmentation. Our research is focused on developing an improved algorithm based on the double-layer encoder-decode structure. Method Our algorithm comprises of upstream and downstream architectures. The attention weight graph generated by the upstream network training is melted into the decoding part of the downstream network. 1) To promote effective network for target area in the image, the generated attention guidance is clarified to the feature map in the decoding process. The background-area-ignored model can be paid more attention to the segmentation contexts, which has a significant effect on small target recognition in semantic segmentation. 2) The edge extraction issue is concerned as well. Due to the similarity of intestinal wall and polyp mucous membrane, the segmentation target edge is blurred. It is essential to strengthen the edge extraction ability of the model and obtain more accurate segmentation results as well. In order to improve the segmentation ability of polyp target boundary, subspace channel attention is integrated into the cross-connection portion of the downstream network for extracting cross-channel information at multi-resolution and refining the edges. Unlike the convolution operation, a self-attention mechanism is involved in. Its ability to model remote dependencies provides an infinite receptive field for the application of visual models. However, traditional attention mechanism brings a huge amount of additional computational overhead. To realize the refine edge effect, the introduction of lightweight subspace channel attention mechanism can feature each space division, reduce the amount of calculation, learn the attention of multiple features, and get the attention of the fusion feature maps. We conduct tests performed on the public datasets Colonoscopy Videos Challenge-ClinicDataBase(CVC-ClinicDB) and Kvasir-Capsule. The CVC-ClinicDB dataset is used to the image data of intestinal polyps collected by conventional colonoscopy and there are 612 pictures in total, while Kvasir-Capsule dataset tends to the image data of polyps collected by Capsule gastroscopy and there are 55 pictures in total. A big gap needs to be bridged in imaging although the same kinds of targets are collected. At the same time, to further prove the robustness of this algorithm, our tests are carried out on the ultrasound nerve segmentation dataset, which has 5 633 ultrasound images of the brachial plexus taken by the imaging surgeon. The resolution of all images are set to 224×224 pixels and it can be randomly scrambled, divided into training set, verification set and test set according to the ratio of 6∶2∶2 and trained on a single GTX 1080Ti GPU. Our saliency network is implemented in Pytorch. In the experiment, binary cross entropy loss function(BCE loss) and Dice loss are proportionally mixed to construct a new Loss function, which has better performance for semantic segmentation of dichotomies. The Adam optimizer is used as well. The initial learning rate is 0.000 3 and the learning rate attenuation is set. Result The Dice similariy coefficient(DCS), mean intersection over union(mIoU), precision and recall are used as the quantitative evaluation metrics, and these metrics are all between 0 and 1. The higher of the index is, the segmentation performance of the model is better. The experimental results showed that the DCS of our model on CVC-ClinicDB and Kvasir-Capsule datasets reached 94.22% and 96.02%, respectively. Compared with U-Net, our DCS, mIoU, precision and recall is increased by 1.89%, 2.42%, 1.04%, 1.87% of each in CVC-ClinicDB dataset and 1.06%, 1.9%, 0.4%, 1.58% in Kvasir-Capsule dataset. The robustness of our algorithm on cross-device images is tested further by mixing the two data sets. Among them, DSC is increased by 17% to 20%, Compared with U-Net, the DCS of our model is increased by 16.73% in CVC-KC dataset (trained on CVC-ClinicDB and tested on Kvasir-Capsule) and 1% in KC-CVC dataset (trained on Kvasir-Capsule and tested on CVC-ClinicDB). Conclusion We propose an attention segmentation model with dual encode-decoder architecture. Our algorithm can improve the effect of medical image segmentation effectively, and has higher accuracy for small target segmentation and edge segmentation on improving colorectal cancer screening strategies.

Key words

polyp segmentation; colonoscopy; deep learning; semantic segmentation; attention mechanism; medical image processing

0 引言

作为全球发病率第3位(10.2%)、病死率第2位(9.2%)的疾病，自2018年以来，结直肠癌(colorectalcancer，CRC)的发病数量在中国快速上升，严重威胁了我国人民群众的生命健康(田传鑫和赵磊，2021)。然而大多数的CRC肿瘤在早期是以腺瘤性息肉的形式生长于肠道内壁，随着病情的进展逐渐发展成恶性肿瘤并扩散到其他组织，因此早期肠道息肉检查至关重要，可以大大提高成活率(90%) (Siegel等，2019)。通过结肠镜的胃肠道检查以发现早期肠道息肉并进行切除仍然是CRC防治的金标准，目前大多数指南推荐从50岁时开始筛查(Finlay等，2021)。然而传统的结肠镜检查需要至少一位有资质的内镜医生将长约1.5 m的肠镜经肛门顺着肠腔插入到结肠及回盲部，从黏膜表面观察结肠是否发生病变。这一方法不仅对内镜医生的专业水平有较高要求，同时由于肠镜的快速进出、不同息肉的发展状态(如图 1所示)、内镜医生的工作状态以及采用设备的缺陷等因素，结肠镜检查有着高达6%~27%的漏诊率(Ahn等，2012)。因此，计算机辅助系统在提高结肠镜检查效果方面有着巨大潜力。

图 1 结肠息肉大小、形状和外观示例图

Fig. 1 Example images showing the differences in size, shape and appearance of colonic polyps

综上所述，息肉的精确分割在临床应用中至关重要，使用先进的辅助算法对成像上的息肉进行自动分割可以显著提高腺瘤的查出率。然而随着息肉生长状态的不同，在大小、颜色和纹理等特征上往往存在差异且息肉边界模糊不清，这些因素使得息肉分割仍然是一项具有挑战性的任务。为了解决这一问题，在过去的十几年里有很多方法相继提出，早期的息肉分割是传统的基于手工特征的机器学习方法，例如Mamonov等人(2014)设计了基于帧的纹理内容，利用几何分析来标记图像中是否包含多边形的二分类器的结肠息肉分割算法，在视频序列长度为3 747帧的前提下为操作员节省了约90%的工作量。随着深度学习的快速发展，全卷积神经网络在医疗图像分割上的应用越来越广泛，Jha等人(2019)在ResUNet(Xiao等，2018)的基础上继续加入空洞空间卷积池化金字塔(atrous spatial pyramid pooling，ASPP)和注意力模块后提出的ResUNet++在多个结肠息肉数据集上取得了优于U-Net(Ronneberger等，2015)和ResUNet的成绩。Jha等人(2020)提出的Double U-Net将两个U-Net的编码器(encoder)和解码器(decoder)进行skip connections，通过两个U-Net的堆叠捕获到更多的语义信息, 并使用ASPP空间金字塔池化来捕获上下文信息，在MICCAI(Medical Image Computing and Computer Assisted Intervention Society) 2015(Bernal等，2017)挑战赛中对微小扁平息肉分割取得了更精确的结果。近年来，注意力机制越来越受到研究者们的重视，Chen等人(2021)认为，尽管U-Net系列网络已经取得了很大的进步，但仍然存在由全卷积网络本身所带来的无法进行长距离依赖建模的缺陷，因此将Transformer(Vaswani等，2017)引入到U-Net中，提出了TransUNet，为医学图像分割网络的改进提供了新的思路。何康辉和肖志勇(2021)提出了多层多视角的卷积方法，增强了对特征的冗余学习。Oktay等人(2018)提出了一种应用于医学图像的门控注意力模块(attention gate，AGs)，可在训练时自动学习抑制不相关区域，注重有用的显著特征。

上述方法都能够有效分割息肉的主体部分，尤其是注意力机制的运用可以使模型有效地聚焦前景部分，实现像素级的全局参考，但自注意力机制会带来大量额外的计算开销，同时对大规模预训练以及数据集具有较高的要求，这都极大提高了模型训练的成本。不同于以往的利用图像本身构造注意力权重图的方法，受Jha等人(2020)使用两个U-Net级联的方式来加强上下文关系的启发，本文提出了一种由多个模型互相影响的注意力权重图构造方法，将上游网络输出的预测结果作为权重图对下游分割网络产生影响，同时在解码阶段加入轻量化模块来更好地获取全局信息，可以获得更好的分割效果。

本文的主要贡献包括5个方面:

1) 提出一种针对上述问题设计的深度神经网络结构；

2) 提出一种新的注意力矩阵获取方法，这种方法可以得到一个高精度的注意力权重图；

3) 提出一种划分子空间施加通道注意力的方法；

4) 在内镜图像CVC-ClinicDB数据集和胶囊内窥镜图像Kvasir-Capsule(Smedsrud等，2021；Jha等，2021)数据集上对模型的分割效率进行验证，并与现有的息肉分割模型进行比较；

5) 混合了上文提到的两种数据集，并对提出的方法进一步验证，以显示模型在使用不同设备捕获的图像上的分割效率。

1 相关工作

1.1 门控注意力机制

以U-Net为代表的利用卷积神经网络(convolutional neural networks，CNN)的强表征性来分割医学图像的方法通常是将分割任务分为两个步骤，即检测和分割：先确定待分割目标的感兴趣区域(region of interest，ROI)，再针对ROI进行小范围的分割。但是由于医学图像本身的特点(目标组织/器官在形状、大小和颜色等特征上呈多样性等)，精准地确定ROI一直是医学图像分割所要解决的难点之一。为此，Oktay等人(2018)提出了将软注意力机制应用于U-Net的门控注意力机制(attention gate，AGs)，并通过对比试验证明了AGs的有效性。

AGs的具体结构如图 2所示，其中，$ {\mathit{\boldsymbol{g}}}$代表解码部分的特征矩阵，$ {\mathit{\boldsymbol{x}}}^l$是编码部分的矩阵，两个矩阵经过大小为1×1的卷积操作统一通道数之后进行concat拼接后进入解码层，通过Resampler重采样器将特征图重采样到原来$ {\mathit{\boldsymbol{x}}}^l$的大小，最终生成一个可以通过反向传播学习的权重矩阵，获得每个元素的重要性，再将权重矩阵与原编码部分的特征矩阵相乘，得到注意力特征图。AGs的定义为

$q_{\text {att }}^l=\boldsymbol{\psi}^{\mathrm{T}}\left(\sigma_1\left(\boldsymbol{W}_x^{\mathrm{T}} \boldsymbol{x}_i^l+\boldsymbol{W}_g^{\mathrm{T}} \boldsymbol{g}_i+b_g\right)\right)+b_\psi$

(1)

$\alpha_i^l=\sigma_2\left(q_{\text {att }}^l\left(\boldsymbol{x}_i^l, \boldsymbol{g}_i ; {\mathit{\boldsymbol{ \boldsymbol{\varTheta}}}}_{\text {att }}\right)\right)$

(2)

图 2 门控注意力机制

Fig. 2 Attention gate

式中，$ {\sigma _1}$代表激活函数ReLU，$ {\sigma _2}$是激活函数Sigmoid，$ {\mathit{\boldsymbol{W}}}_g$、$ {\mathit{\boldsymbol{W}}}_x$、$ \mathit{\boldsymbol{\psi }}$都是大小为1×1的卷积函数，其中$ {\mathit{\boldsymbol{g }}}$代表参与本层注意力计算的decoder中的矩阵，而$ {\mathit{\boldsymbol{x}}}$代表参与本层注意力计算的encoder中的矩阵，因为二者尺寸不同，所以需要利用卷积函数进行统一，使用添加下标的形式来对两个矩阵的卷积方法进行区分；$ b_g$、$ b_\psi $是对应卷积的偏置变量，$ a_i^l$是介于0到1之间的像素分类置信度变量，表示该像素分类为前景或者背景的概率。$ {\mathit{\boldsymbol{ \boldsymbol{\varTheta}}}}_{\text {att }}$代表一组参数。

模型的泛化性是指在独立数据集上的性能；鲁棒性指在具有挑战性图像上的性能，这两者都是评价深度学习算法在临床应用价值的重要指标，因此建立一个强有力的医学分割模型必须具备足够的泛化性和鲁棒性，然而AGs对于部分医学图像并不能展现出显著的性能提升，尤其是针对像结肠息肉这一类细粒度、小目标的分割。针对这一问题，本文发现只需充分利用U-Net自身的分割性能就可以构建精确的权重图谱，因此尝试了利用网络自身产生注意力权重的方法，即双重U-Net网络结构。

1.2 双重U-Net架构

传统U-Net网络包含两部分：分析路径和合成路径。分析路径负责学习图像特征；合成路径则根据学习到的特征生成分割结果。此外，U-Net还加入了跨越连接使合成路径产生更精确的结果。然而普通的U-Net网络并不能适应所有类型的医学图像应用，为了解决这一问题，Jha等人(2020)提出了一种用于语义分割的新框架Double U-Net，模型结构如图 3所示。

图 3 双重U-Net

Fig. 3 Double U-Net

Jha等人(2020)认为在ImageNet(Deng等，2009)上预训练过的模型可以显著提升性能，因此选择了VGG-19(Visual Geometry Group)(Simonyan和Zisserman，2015)作为上游U-Net结构的编码器，并在下游网络结构中使用了空间金字塔池化，在上下游网络之间进行跨越连接进一步提高特征利用率。该网络最终在CVC-ClinicDB(Colonoscopy Videos Challenge-ClinicDataBase)数据集(Bernal等，2015)上取得了state-of-the-art (SOTA)的结果。刘佳伟等人(2021)在此基础上加入的注意力模块在息肉分割上取得不错的成绩。

但由于对上游网络编码器有较高的预训练要求，在实际应用中往往需要有针对性地运用其他大型数据集对某一特定的医学图像进行预训练，这大大提高了使用成本，再加上U-Net已经在多个医学图像任务中展现了极佳的性能，因此可以选择U-Net作为上游网络参与训练来生成注意力权重图。

1.3 轻量型注意力模块

Saini等人(2020)认为现有注意力计算机制产生了较高的参数开销，因此不适合以CNN为代表的紧凑型卷积神经网络，并为此提出了一种简单有效的超轻量级子空间注意力机制(ultra-lightweight subspace attention mechanism，ULSAM)，如图 4所示，在ULSAM中将每个特征图分解为多个子空间，并在多个子空间内学习不同的注意力特征图，从而实现多尺度、多频率的特征表示。实验结果证明，多尺度融合对精细化的目标边缘分割效果的提升是有帮助的(吉淑滢和肖志勇，2021)。

图 4 子空间注意机制

Fig. 4 Subspace attention mechanism

结肠息肉整体较为圆滑且颜色与肠壁较为相似，因此网络会在目标边界处理上产生一定误差，影响分割性能。为了进一步提高模型在息肉边界的分割能力，可以引入轻量化注意力模块。受ULSAM的启发，在下游网络的跨越连接中加入改进的子空间通道注意力模块来提取每个特征子空间的个体注意力映射，为原始特征图提供了跨通道信息高效学习的能力，进一步提升模型针对细粒度、小目标分割上的性能。

2 方法

2.1 方法概述

本文方法的整体结构如图 5所示，因为传统卷积操作不能对小目标进行精确分割，而注意力机制可以很好地解决这一难题，因此本文设计了一个包含两种编—解码网络的模型结构，对输入图像进行两次训练，第1次训练的目标是获得注意力权重图，通过平均池化操作缩小特征图尺寸之后再将其与下游网络的解码器输出逐级相乘得到注意力权重图，利用权重图对原始图片进行拼接后进行第2轮的加强训练；通过在下游网络跨越连接中添加改进的轻量级模块ULSAM，增强通道之间的内部关系；最后通过连接操作将两部分的特征图进行融合，再进行上采样操作将融合信息汇总为增广表示，最终实现端到端的像素级预测。

图 5 网络结构

Fig. 5 Network mechanism

2.2 注意力权重

注意力是一种机制或方法论，其并没有严格的数学定义，因此本文提出的通过添加额外的神经网络来给输入的部分分配不同的权重应该属于软注意力(soft attention)。软注意力包括空间注意力和通道注意力，其最终目的就是选择细粒度的重要像素点，进而让网络把注意力放到该区域上，简单来说就是要让目标区域的像素值变大。通常使用的方法是利用输入图像自身结合在编—解码过程中的上下文信息来挖掘输入和输出之间的关系。

本文方法使用掩码(mask)来形成注意力机制，是基于位置的软注意力。掩码的原理在于通过一层新的权重将图像数据中关键的特征标识出来，通过学习训练让双层网络学习到每一幅输入图像中需要关注的区域。在上游网络的backbone中利用两个大小为3×3、激活函数为ReLU的卷积块提取出特征图，为了防止在训练过程中数据分布发生改变以及梯度爆炸，在每一次卷积操作之后加入批归一化层(batch normalization，BN)进行批归一化操作。在解码器中需要将图像恢复至原来的尺寸，通过使用反卷积的上采样操作可以增大特征图的分辨率。由于网络的整个操作都可反向传播，因此上游网络可以通过反向传播不断训练以提高输出掩码图像的精确度，最后经过Sigmoid操作可以将上游网络输出图像的像素归一化到0~1的范围内，像素值越接近1就代表原图像中对应像素判断为目标的概率越大。为了更大限度地利用上游网络的输出信息，整体模型的输出还将与未进行Sigmoid操作的上游输出进行一次残差操作，模型输出具体为

$\boldsymbol{y}=F\left(\sigma_2(f(\boldsymbol{x})) \times \boldsymbol{x}\right)+f(\boldsymbol{x})$

(3)

式中，$ \boldsymbol{y}$表示模型的最终输出矩阵，$ \boldsymbol{x}$表示模型的输入图像，$ F$表示下游网络的操作函数，$ f$表示上游网络的操作函数，$ {\sigma _2}$表示Sigmoid函数。

2.3 门控注意力

与Attention U-Net类似，经过上游网络输出的掩码图像可以在下游网络解码器中作为门控信号来调整特征图。在压缩掩码分辨率的过程中选择了2×2的平均池化层。因为相较于最大池化，平均池化可以保证在嵌套的池化操作中保留准确的掩码信息，防止将低概率像素值增大。如图 6所示，在一个2×2的滑动窗口内有3种可能的情况：4个像素均为背景、4个像素均为前景以及4个像素中部分为前景。当出现第1种情况时，虽然最大池化可以保证池化后的像素值仍然可以预测为背景，但是在经过多轮最大池化后该像素值会不断升高，最终导致原本应该是背景的区域被放大；当4个像素均为前景时平均池化可以保证网络始终给予这部分特征较大的关注；对于4个像素中大部分为前景或大部分为背景的情况下平均池化可以起到细化边缘的作用。

图 6 平均池化与最大池化的比较

Fig. 6 Compare with Avgpooling and Maxpooling

需要特别指出的是，在下游网络的第1层并没有像其他层一样将掩码图像作为门控信号来对解码路径中的特征图进行调整，因为本文认为未经池化压缩的原始图像具有最丰富的语义信息，压缩再扩张操作反而会损失这些上层语义信息，因此选择将上游网络的输出经Sigmoid激活函数之后直接与输入图像进行乘操作，这样可以确保在保留图像的高级语义信息的同时又保证模型将注意力集中在目标区域。

2.4 子空间通道注意力

为了使编码器传送给解码器的特征空间包含更多的远程依赖，同时尽可能减少计算量，本文参考了Saini等人(2020)方法将完整的特征图划分为互斥的多个子空间，以及DANet(Fu等，2019)的通道注意力的思想，在下游网络的跨越连接中加入了轻量级子空间通道注意力模块ULSCAM，对特征图分块计算注意力后进行信息汇总，这种方法可以用极少的附加参数和计算来捕捉更为复杂的跨通道信息交互。

具体结构如图 7所示：对于拆分后的每个子空间，让注意力机制分别学习各个子空间的注意力图，以减少整体计算上的空间和通道冗余，同时对不同层的特征图用划分子空间求注意力图的学习方式实现了多频率的特征表示，这种方法对高频率区域内细微细节的精细化分割效果更为理想，计算为

$\hat{\boldsymbol{F}}=\operatorname{Con}\left(\left[\hat{\boldsymbol{F}}_1, \hat{\boldsymbol{F}}_2, \hat{\boldsymbol{F}}_3, \cdots, \hat{\boldsymbol{F}}_n\right]\right)$

(4)

$\begin{gathered} \hat{\boldsymbol{F}}_n=\boldsymbol{F}_n+R_1\left(\boldsymbol{F}_n\right) \times \\ \boldsymbol{\sigma}_2\left\{\left[R_2\left(\boldsymbol{F}_n\right) \times T\left[R_2\left(\boldsymbol{F}_n\right)\right]\right]\right\} \end{gathered}$

(5)

图 7 轻量级子空间通道注意力模块

Fig. 7 Ultra-lightweight subspace channel attention module

式中，$ Con$代表connect操作函数，$ \hat{\boldsymbol{F}}$表示注意力特征矩阵，$ \hat{\boldsymbol{F}}_n$表示注意力子空间矩阵，$ R_n$代表reshape操作函数，$ T$表示Transpose操作函数，$ {\sigma _2}$表示softmax激活函数。每个子空间分别进行两次reshape操作后由$ C\times H\times W$变为$ C\times N$，其中$ N=H\times W$，对其中一个进行转置操作之后相乘，由Softmax函数激活之后得到大小为$ C\times C$的通道注意力图，再与原特征图相乘后相加，就可以得到带有通道注意力的子特征图。最终的输出$ \hat{\boldsymbol{F}}$是将各组的特征图链接在一起得到的(式(4))。

3 实验与分析

3.1 实验数据集

如表 1所示，本文使用了两种不同设备采集的带有ground truth的结肠息肉数据集。Kvasir-Capsule数据集(Oktay等，2018)是包含了13类标记异常的开放数据集，在肠胃医学专家的帮助下从胶囊内窥镜采集到的44 228个视频帧中存在55个包含息肉的帧，Jha等人(2021)对这55个视频帧进行了标注并提供了息肉的位置信息，将其整合成了KvasirCapsule-SEG数据集并开放于医学图像分割和定位任务。CVC-ClinicDB数据集(Bernal等，2015)来自西班牙巴塞罗那临床医院，由31个结肠镜检查视频中提取的612幅息肉图像和专家手工标注的ground truth组成，用于医学图像处理中的分割实验。

表 1 实验中用到的医学分割数据集
Table 1 The biomedical segmentation datasets used in our experiments

下载CSV

数据集	图像数/幅	采集设备	图像/像素
KvasirCapsule-SEG	55	胶囊内镜	336×336
CVC-ClinicDB	612	结肠镜	384×288
CVC-KC	55+612	胶囊内镜+ 结肠镜	336×336

上述两个结肠息肉数据集是由不同设备提取得到的，在成像方面具有明显差异性，胶囊内镜采集到的图像呈现出鱼眼镜头所特有的凸面效果，而常规肠胃镜的图像则更为舒展。为了研究提出的网络在跨设备图像上的分割效果，将上述两种数据集混合，组成了一个全新数据集CVC-KC，分辨率统一到336×336像素。

3.2 评价指标

为了评估本算法的性能，选择Dice相似指数(DSC)、精确率(precision)、召回率(recall)以及均交并比(mIoU)作为评价指标，分别定义为

$D S C =\frac{2|\boldsymbol{X} \cap \boldsymbol{Y}|}{|\boldsymbol{X}|+|\boldsymbol{Y}|}$

(6)

$ { Pre } =\frac{T P}{T P+F P}$

(7)

${Rec} =\frac{T P}{T P+F N}$

(8)

$m I o U =\frac{1}{k} \sum\limits_{i=1}^k \frac{\boldsymbol{X} \cap \boldsymbol{Y}}{\boldsymbol{X} \cup \boldsymbol{Y}}$

(9)

式中，真阳性$ TP$ (true positive)是将正样例(息肉部分)正确分类的像素点数；真阴性$TN$ (true negative)是将负样例(背景区域)正确分类的像素点数；假阳性$ FP$ (false positive)是将负样例错误分类的像素点数；假阴性$ FN$ (false negative)是将正样例错误分类的像素点数。Dice系数是一种集合相似度量函数，其中$ |\boldsymbol{X} \cap \boldsymbol{Y}|$表示矩阵$ \boldsymbol{X}$和矩阵$ \boldsymbol{Y}$之间的交集元素的个数，$| {\mathit{\boldsymbol{X}}}|$和$ |\boldsymbol{Y}|$分别表示两矩阵元素的个数，$ k$表示分类数，在本文的实验中均为1。所有评价指标值均介于0~1，指数越接近1表示分割结果与ground truth的相似度越高。

3.3 实验环境及参数设置

模型基于Pytorch框架，在一块NVIDIA RTX 1080Ti上进行训练，为了充分利用GPU设备的显存资源，将图片的大小统一设置为224×224像素，batch-size设置为8。为了扩充训练集采取了随机旋转、翻转和移位的数据增强策略，对于每一个数据集将其顺序完全打乱并随机划分为6∶2∶2的3个互斥组分别作为训练、验证和测试集；对于混合数据集CVC-KC，使用CVC-ClinicDB数据集中全部图像进行4∶1的划分作为训练集和验证集，并在KvasirCapsule-SEG数据集上测试模型的分割性能，并交换二者位置进行第2次实验，标记为数据集KC-CVC。使用Adam优化器，为了得到最佳分割结果，将初始学习率设置为3E-4，学习率衰减定义为

$l r=b l \times\left(1.0-\frac{G}{M}\right) \times 0.6$

(10)

$ \\ M=E \times T$

(11)

式中，$ bl$代表基础学习率，$ G$表示当前已训练的batch总数，$ M$是训练轮数与训练集大小的乘积，$ E$则代表训练的epoch数，$ T$代表训练集大小。

3.4 损失函数

Dice loss是Milletari等人(2016)在V-Net中提出的loss函数，计算为

$\text { Loss }=1-\frac{2|\boldsymbol{X} \cap \boldsymbol{Y}|}{|\boldsymbol{X}|+|\boldsymbol{Y}|}$

(12)

式中，矩阵$ {\mathit{\boldsymbol{X}}}$和矩阵$ \boldsymbol{Y}$分别代表进行对比的矩阵。由于对正负样例不均衡的场景有着不错的性能且训练过程中更注重对前景区域的挖掘，因此Dice loss非常适合于小目标、样本不均衡场景下的语义分割，广泛采用于医学图像分割任务中。但它也存在着训练loss不稳定、曲线混乱等缺点，因此本文将二分类交叉熵损失函数BCE loss(BL)和Dice loss(DL)混合使用，最终loss函数定义为

$ { Loss }=B L \times w+D L \times(1-w)$

(13)

式中，变量$ w$代表二分类交叉熵损失函数的权重，默认大小设置为0.5。

3.5 实验结果

3.5.1 消融实验

为了度量文中提出的所有组件的有效性，进行两组对比实验来证明双重U-Net结构(U2 Net)、掩码注意力门(mask attention gate，MAG)和ULSCAM都可以在一定程度上提高息肉分割的性能。

本文提出的多种改进策略结果如表 2所示，可以发现，当采用级联U-Net并将第1个网络的输出作为注意力权重对第2个网络的输入进行改进后，各项性能指标均取得了较大的提升，尤其是在CVC-ClinicDB数据集上，准确率和召回率的提升都达到了2%以上；进一步将上游网络的输出经过平均池化之后对下游网络解码器部分的特征矩阵进行权重分配后对召回率的提升最为显著，接近4.5%，同时在KvasirCapsule-SEG数据集上也取得了提升；因此本模型相较于U-Net在分割性能上具有明显优势。

表 2 本文改进方法的比较
Table 2 Comparison of segmentation algorithms of proposed improved strategies

下载CSV

/%
模型	CVC-ClinicDB				KvasirCapsule-SEG
模型	DCS	mIoU	精确率	召回率	DCS	mIoU	精确率	召回率
U-Net(baseline)	92.33±10.29	86.96±12.94	93.49±10.18	92.45±11.49	94.96±3.37	90.58±5.95	94.27±6.26	96.05±4.13
U2 Net	92.94±8.05	87.63±11.12	95.46±4.87	91.73±11.62	95.47±3.22	91.49±5.73	95.40±5.54	95.80±3.76
U2 Net+MAG	93.08±6.59	87.66±9.88	93.12±7.67	93.96±8.44	95.59±2.97	91.69±5.27	95.73±5.80	95.72±3.03
U2 Net+MAG+ULSCAM	94.22±4.30	89.38±7.01	94.53±4.34	94.32±6.97	96.02±2.90	92.48±5.14	94.67±5.66	97.63±1.35
注：加粗字体表示各列最优结果。

3.5.2 ULSCAM中子空间数的影响

为了探究ULSCAM模块中划分子空间数对模型分割性能的影响，本文做了进一步实验：分别将特征图划分为子空间数1(不划分)、2、4、8和16且其他条件相同的情况下的各项指标。可以预测的是，虽然在划分次数小时会损失一定的精度，但当划分数逐渐增大之后，本模块可以得到更好的跨通道信息交互，结果如表 3所示。

表 3 ULSCAM中子空间数的比较
Table 3 Comparison of the number of subspaces in ULSCAM

下载CSV

/%
模型	CVC-ClinicDB				KvasirCapsule-SEG
模型	DCS	mIoU	精确率	召回率	DCS	mIoU	精确率	召回率
ULSCAM_1	93.52±6.67	88.39±9.22	93.78±7.30	93.72±8.23	95.02±3.23	90.68±5.72	95.08±4.88	95.29±5.09
ULSCAM_2	93.40±9.95	88.62±11.15	94.26±10.20	93.02±11.21	95.30±3.37	91.19±5.95	95.02±5.68	95.87±4.01
ULSCAM_4	92.27±7.82	86.45±11.24	94.09±6.37	91.47±11.36	95.26±3.03	91.09±5.38	95.35±5.29	95.43±3.64
ULSCAM_8	91.50±11.60	85.75±13.73	92.66±11.67	91.64±13.64	95.50±2.94	91.52±5.22	94.90±5.73	96.34±2.17
ULSCAM_16	94.22±4.30	89.38±7.01	94.53±4.34	94.32±6.97	96.02±2.90	92.48±5.14	94.67±5.66	97.63±1.35
注：加粗字体表示各列最优结果，模型中下划线后数字表示子空间划分数。

3.5.3 以权重图为基础的门控注意力机制的作用

为了探究以上游网络生成的权重图对下游网络的解码过程中添加门控注意力机制的影响，本节对消融实验中的MAG进行分析。相较于Attention U-Net，MAG机制的实现是通过附加的注意力权重图谱，上游网络的输出结果经过归一化处理后会形成预测图的注意力分布矩阵，用来表示每个像素的重要度，这个重要度是根据图像的目标学习出来的，权重矩阵也可以通过反向传播来学习。通过权重矩阵作为门控机制在下游网络的解码器部分进行乘操作可以引导模型侧重目标区域。通过消融实验表 2可以看出：相较于传统分割网络U-Net，添加了MAG模块的U2 Net网络在DCS、mIoU以及Recall上均有明显提升，证明了本文提出的MAG模块的有效性。

3.5.4 不同算法的结果比较

为了更好地验证算法的有效性，将本文算法在CVC-ClinicDB数据集和KvasirCapsule-SEG数据集上与近几年提出的SOTA算法及一些经典的语义分割算法进行比较，包括U-Net、ResUNet、ResUNet-mod(Zhang等，2018)、ResUNet++(Jha等，2019)、SFA(Fang等，2019)、PraNet(Fan等，2020)、TransFuse(Zhang等，2021)、HarDNet-MSEG(Huang等，2021)、FANet(Tomar等，2022)、UACANet(Kim等，2021)、MSBNet(Wang等，2021)、NanoNet(Jha等，2021)，如表 4和表 5所示。

表 4 CVC-ClinicDB数据集不同算法的结果
Table 4 The results of different algorithms in the CVC-ClinicDB dataset

下载CSV

模型	DCS	mIoU	精确率	召回率	年份
U-Net	0.923 3	0.869 6	0.934 9	0.924 5	2015
ResUNet-mod	0.778 8	0.454 5	0.668 3	0.887 7	2018
ResUNet++	0.919 9	0.889 2	0.939 1	0.844 5	2019
SFA(MICCAI′19)	0.700 0	0.607 0	N.A	N.A	2019
PraNet	0.898 0	0.840 0	N.A	N.A	2020
Double U-Net	0.923 9	0.861 1	0.959 2	0.845 7	2020
TransFuse	0.918 0	0.868 0	N.A	N.A	2021
HarDNet-MSEG	0.932 0	0.882 0	N.A	N.A	2021
FANet	0.935 5	0.893 7	0.933 9	0.940 1	2021
UACANet	0.926 0	0.880 0	N.A	N.A	2021
MSBNet	0.927 0	N.A	N.A	N.A	2021
本文	0.942 2	0.893 8	0.945 3	0.943 2	2021
注：加粗字体表示各列最优结果；N.A表示参考文献未指出。

表 5 KvasirCapsule-SEG数据集上不同算法的结果
Table 5 The results of different algorithms in the KvasirCapsule-SEG dataset

下载CSV

模型	DCS	mIoU	精确率	召回率	年份
U-Net	0.949 6	0.905 8	0.942 7	0.960 5	2015
ResUNet	0.953 2	0.913 7	0.932 5	0.978 5	2018
ResUNet++	0.949 9	0.908 7	0.929 6	0.976 2	2019
NanoNet	0.949 3	0.905 9	0.932 5	0.969 3	2021
本文	0.960 2	0.924 8	0.946 7	0.976 3	2021
注：加粗字体表示各列最优结果。

通过表 4可以看出，本文算法在DSC、mIoU、precision以及recall的结果均优于早期的经典算法和近期提出的SOTA算法，同时与选择作为baseline的U-Net算法相比提升显著。通过表 5可以看出，本文方法在胶囊胃镜数据集上的DSC、mIoU、precision等3个指标上都优于其他算法，虽然在recall指标上不如ResUNet，但是两者的差距仅有0.2%，仍然可以说明本文算法的有效性。为了更直观地说明本文算法的有效性，图 8展示了选用数据集的可视化分割结果。可以发现，相较于U-Net，本文的算法可以更精确地分割息肉本体以及边缘部分，这也证明了算法的有效性。

图 8 分割结果的可视化

Fig. 8 Visualization of segmentation results

((a)input; (b)ground truth; (c)U-Net; (d)ours)

3.5.5 混合数据集的结果

为了检测提出方法对使用不同设备捕获到的图像的性能，本文混合使用了CVC-ClinicDB和KvasirCapsule-SEG两个数据集，组成了一个全新的数据集CVC-KC。在实验阶段交替使用两个数据集中的全部图像作为训练和验证集，并将训练后的模型在另一个数据集上进行测试，表 6和表 7分别显示了混合数据集在两个数据集上的测试结果。可以看出，相较于传统的图像分割算法，本文方法在各项性能指标上都能够带来较大的效果提升，尤其是表 6中本文模型在DSC上的涨幅接近17%，同时在召回率上的提升超过了20%。同样的情况也可以在表 7中看到，本文模型在胶囊胃镜图像上训练后再在肠镜图像上的预测结果仍然优于baseline，但由于训练集的图像数量、椭圆/圆形的ground truth与测试集差距较大以及KvasirCapsule-SEG数据集图像较不均衡等因素，性能提升的差距并没有表 6中所展示得那么显著，这一类问题可以通过使用更大数据集或者数据增强的方式得到改善。在图 9展示了跨数据集分割的可视化结果，前两行是先在CVC-ClinicDB上训练后在KvasirCapsule-SEG上测试的结果对比；后两行是先在KvasirCapsule-SEG上训练后在CVC-ClinicDB上测试的结果对比。

表 6 使用CVC-ClinicDB作为训练集的交叉数据集的结果
Table 6 The cross-dataset results using CVC-ClinicDB as the training set

下载CSV

模型	DCS	mIoU	精确率	召回率
U-Net(baseline)	0.622 1	0.468 6	0.937 7	0.479 2
U2Net	0.763 1	0.646 6	0.909 8	0.712 3
U2Net+MAG	0.736 2	0.592 3	0.906 2	0.632 8
U2Net+MAG+ULSCAM	0.789 4	0.676 8	0.958 8	0.698 0
注：加粗字体表示各列最优结果。

表 7 使用KvasirCapsule-SEG作为训练集的交叉数据集的结果
Table 7 The cross-dataset results using KvasirCapsule-SEG as the training set

下载CSV

模型	DCS	mIoU	精确率	召回率
U-Net(baseline)	0.306 7	0.205 6	0.236 2	0.779 5
U2 Net	0.299 7	0.198 3	0.215 2	0.834 0
U2 Net+MAG	0.304 8	0.204 6	0.235 2	0.780 0
U2 Net+MAG+ULSCAM	0.316 7	0.214 6	0.234 7	0.832 7
注：加粗字体表示各列最优结果。

图 9 跨数据集分割结果的可视化

Fig. 9 Visualization of cross-dataset segmentation results

((a)input; (b)ground truth; (c)U-Net; (d)ours)

通过表 6和表 7的对比不难发现：在表 6中使用了612幅图像的CVC-ClinicDB数据集进行训练后模型在KvasirCapsule-SEG数据集上的分割结果相较于传统的U-Net网络在DSC、mIoU、precision以及recall等4项指标上分别取得了16.73%、20.82%、2.11%以及21.88%的显著提升，具有明显的临床应用前景；而在表 7实验中使用KvasirCapsule-SEG数据集进行训练的实验中虽然相较于U-Net有效果提升但是整体指标过低而不具备临床应用的可行性。这是由于KvasirCapsule-SEG数据集中图像数量限制的同时又与测试集图像存在明显差异性的原因，但参考图 8仍可以看出本文模型在肠胃镜图像上方的息肉分割相较于U-Net在整体以及边缘处理上仍然具有明显优势，因此可以认为本文方法在临床应用特别是跨采集设备的图像分割方向上虽然具有应用前景但仍然需要足够数量的图像作为训练集才能保证分割结果的性能。

这进一步证明了在大多数结肠息肉数据集特别是采集设备跨度较大的情况下本文模型仍然具有一定的鲁棒性，从医师的角度来看，模型对于多种应用环境下的临床辅助诊断具有一定的准确性，为降低实际应用中的漏报率提供了一种可行的解决方案，对提高大肠癌筛查策略具有潜力。

3.5.6 模型显著性测试

显著性验证(significance test)作为判断两个乃至多个数据集之间是否存在显著性差异以及差异是否明显的方法应用于各种研究领域，在统计学中，显著性检验是“统计假设检验”的一种。对本文算法与baseline进行基于DSC数据的显著性测试，以排除本文实验所得数据的偶然性。

图 10显示了两个数据集的指标对比，其中粉色箱型图为KvasirCapsule-SEG数据集，亮蓝色箱型图为CVC-ClinicDB数据集。两组DSC数据不满足正态分布，因此使用非参数检测的Wilcoxon符号秩和检验方法求得两数据集对应显著性差异概率值分别为0.006 835 937 5和0.037 927 273 453 751 33，均小于设定水准0.05，可以认为本文模型与baseline具有显著性差异。

图 10 本文方法与baseline对比的箱型图结果

Fig. 10 Box plot results comparison between ours and with baseline

((a) DSC; (b) mIoU; (c) precision; (d) recall)

4 结论

本文针对结肠息肉分割中性能提升和边缘分割模糊这一问题提出了一种改进的基于编—解码结构模型，创新性地利用上、下游两个分割网络分别负责生成掩码注意力权重图以及语义分割，通过反向传播不断更新上游可训练网络生成的权重，在下游网络的解码步骤中使用生成的注意力图对特征图进行权重配置，并通过平均池化压缩权重图使其能够适配不同分辨率的特征图，同时融合了轻量化通道注意力模块，将下游网络跨越连接部分的权重图分割为多个子空间，针对各个子空间分别施加通道注意力，再将子空间合并，最终实现多频特征下的跨通道注意融合。然后进一步在CVC-ClinicDB和KvasirCapsule-SEG两个数据集上进行独立实验，并将两个数据集融合验证了本文模型在跨设备数据上的鲁棒性，实验数据证明其性能优于很多经典医学图像分割网络以及近期的SOTA网络。因此本文模型的优点就是相较于其他网络可以更好地细分割息肉的边缘部分并更能成功分割息肉中扁而小的部分，这些恰恰是经验不足的内镜医师容易忽略的。

此外，该模型不需要任何的后处理，这也是本文方法的一大优势，然而仍然需要一系列临床试验才能证明模型在应用上的有效性，希望这项工作能够在未来的临床应用中为更多内镜医师提供工作上的便利，为保障我国人民的身体健康做出贡献。

参考文献

Ahn S B, Han D S, Bae J H, Byun T J, Kim J P, Eun C S. 2012. The miss rate for colorectal adenoma determined by quality-adjusted, back-to-back colonoscopies. Gut and Liver, 6(1): 64-70 [DOI:10.5009/gnl.2012.6.1.64]

Bernal J, Tajkbaksh N, Sánchez F J, Matuszewski B J, Chen H, Yu L Q, Angermann Q, Romain O, Rustad B, Balasingham I, Pogorelov K, Choi S, Debard Q, Maier-Hein L, Speidel S, Stoyanov D, Brandao P, Córdova H, Sánchez-Montes C, Gurudu S R, Fernández-Esparrach G, Dray X, Liang J M, Histace A. 2017. Comparative validation of polyp detection methods in video colonoscopy: results from the MICCAI 2015 endoscopic vision challenge. IEEE Transactions on Medical Imaging, 36(6): 1231-1249 [DOI:10.1109/TMI.2017.2664042]

Bernal J, Sánchez F J, Fernández-Esparrach G, Gil D, Rodríguez C, Vilariño F. 2015. WM-DOVA maps for accurate polyp highlighting in colonoscopy: validation vs. saliency maps from physicians. Computerized Medical Imaging and Graphics, 43: 99-111 [DOI:10.1016/j.compmedimag.2015.02.007]

Chen J N, Lu Y Y, Yu Q H, Luo X D, Adeli E, Wang, Lu L, Yuille A L and Zhou Y Y. 2021. TransUNet: transformers make strong encoders for medical image segmentation [EB/OL]. [2021-02-08]. https://arxiv.org/pdf/2102.04306.pdf

Deng J, Dong W, Socher R, Li L J, Li K and Li F F. 2009. ImageNet: a large-scale hierarchical image database//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA: IEEE: 248-255 [DOI: 10.1109/CVPR.2009.5206848]

Fan D P, Ji G P, Zhou T, Chen G, Fu H Z, Shen J B and Shao L. 2020. PraNet: parallel reverse attention network for polyp segmentation//Proceedings of the 23rd International Conference on Medical Image Computing and Computer Assisted Intervention—MICCAI 2020. Lima, Peru: Springer: 263-273 [DOI: 10.1007/978-3-030-59725-2_26]

Fang Y Q, Chen C, Yuan Y X and Tong K Y. 2019. Selective feature aggregation network with area-boundary constraints for polyp segmentation//Proceedings of the 22nd International Conference on Medical Image Computing and Computer Assisted Intervention—MICCAI 2019. Shenzhen, China: Springer: 302-310 [DOI: 10.1007/978-3-030-32239-7_34]

Finlay A M, Parikh A R and Ricciardi R. 2021. Clinical presentation, diagnosis, and staging of colorectal cancer [EB/OL]. [2021-07-27]. https://www.uptodate.com/contents/zh-Hans/clinical-presentation-diagnosis-and-staging-of-colorectal-cancer

Fu J, Liu J, Tian H J, Li Y, Bao Y J, Fang Z W and Lu H Q. 2019. Dual attention network for scene segmentation//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 3146-3154 [DOI: 10.1109/CVPR.2019.00326]

He K H, Xiao Z Y. 2021. LRUNet: a lightweight rapid semantic segmentation network for brain tumors. Journal of Image and Graphics, 26(9): 2233-2242 (何康辉, 肖志勇. 2021. LRUNet: 轻量级脑肿瘤快速语义分割网络. 中国图象图形学报, 26(9): 2233-2242) [DOI:10.11834/jig.200436]

Huang C H, Wu Y H and Lin L Y. 2021. HarDNet-MSEG: a simple encoder-decoder polyp segmentation neural network that achieves over 0.9 mean Dice and 86 FPS [EB/OL]. [2021-01-20]. https://arxiv.org/pdf/2101.07172.pdf

Jha D, Riegler M A, Johansen D, Halvorsen P and Johansen H D. 2020. DoubleU-Net: a deep convolutional neural network for medical image segmentation//Proceedings of the 33rd IEEE International Symposium on Computer-Based Medical Systems (CBMS). Rochester, USA: IEEE: 558-564 [DOI: 10.1109/CBMS49503.2020.00111]

Jha D, Smedsrud P H, Riegler M A, Johansen D, Lange T D, Halvorsen P and Johansen H D. 2019. ResUNet++: an advanced architecture for medical image segmentation//Proceedings of 2019 IEEE International Symposium on Multimedia (ISM). San Diego, USA: IEEE: #49 [DOI: 10.1109/ISM46123.2019.00049]

Jha D, Tomar N K, Ali S, Riegler M A, Johansen H D, Johansen D, de Lange T and Halvorsen P. 2021. NanoNet: real-time polyp segmentation in video capsule endoscopy and colonoscopy//Proceedings of the 34th IEEE International Symposium on Computer-Based Medical Systems. Aveiro, Portugal: IEEE: 37-43 [DOI: 10.1109/CBMS52027.2021.00014]

Ji S Y, Xiao Z Y. 2021. Integrated context and multi-scale features in thoracic organs segmentation. Journal of Image and Graphics, 26(9): 2135-2145 (吉淑滢, 肖志勇. 2021. 融合上下文和多尺度特征的胸部多器官分割. 中国图象图形学报, 26(9): 2135-2145) [DOI:10.11834/jig.200558]

Kim T, Lee H and Kim D. 2021. UACANet: uncertainty augmented context attention for polyp segmentation//Proceedings of the 29th ACM International Conference on Multimedia. [s. l. ]: ACM: 2167-2175 [DOI: 10.1145/3474085.3475375]

Liu J W, Liu Q H, Li X O, Ling C, Liu C J. 2021. Improved colonic polyp segmentation method based on double U-shaped network. Acta Optica Sinica, 41(18): #1810001 (刘佳伟, 刘巧红, 李晓欧, 凌晨, 刘存珏. 2021. 一种改进的双U型网络的结肠息肉分割方法. 光学学报, 41(18): #1810001) [DOI:10.3788/AOS202141.1810001]

Mamonov A V, Figueiredo I N, Figueiredo P N, Tsai Y H R. 2014. Automated polyp detection in colon capsule endoscopy. IEEE Transactions on Medical Imaging, 33(7): 1488-1502 [DOI:10.1109/TMI.2014.2314959]

Milletari F, Navab N and Ahmadi S A. 2016. V-Net: fully convolutional neural networks for volumetric medical image segmentation//Proceedings of the 4th International Conference on 3D Vision (3DV). Stanford, USA: IEEE: 565-571 [DOI: 10.1109/3DV.2016.79]

Oktay O, Schlemper J, Folgoc L L, Lee M, Heinrich M, Misawa K, Mori K, McDonagh S, Hammerla N Y, Kainz B, Glocker B and Rueckert D. 2018. Attention U-Net: learning where to look for the pancreas [EB/OL]. [2021-05-20]. https://arxiv.org/pdf/1804.03999.pdf

Ronneberger O, Fischer P and Brox T. 2015. U-Net: convolutional networks for biomedical image segmentation//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention—MICCAI 2015. Munich, Germany: Springer: 234-241 [DOI: 10.1007/978-3-319-24574-4_28]

Saini R, Jha N K, Das B, Mittal S and Mohan C K. 2020. ULSAM: ultra-lightweight subspace attention module for compact convolutional neural networks//Proceedings of 2020 IEEE Winter Conference on Applications of Computer Vision. Snowmass, USA: IEEE: 1616-1625 [DOI: 10.1109/WACV45572.2020.9093341]

Siegel R L, Miller K D, Jemal A. 2019. Cancer statistics 2019. CA: A Cancer Journal for Clinicians, 69(1): 7-34 [DOI:10.3322/caac.21551]

Simonyan K and Zisserman A. 2015. Very deep convolutional networks for large-scale image recognition //Proceedings of the 3rd International Conference on Learning Representations. San Diego, USA: [s. n.]

Smedsrud P H, Thambawita V, Hicks S A, Gjestang H, Nedrejord O O, Næss E, Borgli H, Jha D, Berstad T J D, Eskeland S L, Lux M, Espeland H, Petlund A, Nguyen D T D, Garcia-Ceja E, Johansen D, Schmidt P T, Toth E, Hammer H L, de Lange T, Riegler M A, Halvorsen P. 2021. Kvasir-Capsule, a video capsule endoscopy dataset. Scientific Data, 8(1): #142 [DOI:10.6084/m9.figshare.14178905]

Tian C X, Zhao L. 2021. Epidemiological characteristics of colorectal cancer and colorectal liver metastasis. Chinese Journal of Cancer Prevention and Treatment, 28(13): 1033-1038 (田传鑫, 赵磊. 2021. 结直肠癌及结直肠癌肝转移流行病学特点. 中华肿瘤防治杂志, 28(13): 1033-1038) [DOI:10.16073/j.cnki.cjcpt.2021.13.12]

Tomar N K, Jha D, Riegler M A, Johansen H D, Johansen D, Rittscher J, Halvorsen P, Ali S. 2022. FANet: a feedback attention network for improved biomedical image segmentation. IEEE Transactions on Neural Networks and Learning Systems: #3159394 [DOI:10.1109/TNNLS.2022.3159394]

Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez A N, Kaiser Ł and Polosukhin I. 2017. Attention is all you need//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc: 5998-6008

Wang D C, Hao M J, Xia R R, Zhu J H, Li S and He X X. 2021. MSB-Net: multi-scale boundary net for polyp segmentation//Proceedings of the 10th IEEE Data Driven Control and Learning Systems Conference (DDCLS). Suzhou, China: IEEE: 88-93 [DOI: 10.1109/DDCLS52934.2021.9455514]

Xiao X, Lian S, Luo Z M and Li S Z. 2018. Weighted res-UNet for high-quality retina vessel segmentation//Proceedings of the 9th International Conference on Information Technology in Medicine and Education (ITME). Hangzhou, China: IEEE: 327-331 [DOI: 10.1109/ITME.2018.00080]

Zhang Y D, Liu H Y and Hu Q. 2021. Transfuse: fusing transformers and CNNs for medical image segmentation//Proceedings of the 24th International Conference on Medical Image Computing and Computer Assisted Intervention. Strasbourg, France: Springer: 14-24 [DOI: 10.1007/978-3-030-87193-2_2]

Zhang Z X, Liu Q J, Wang Y H. 2018. Road extraction by deep residual U-Net. IEEE Geoscience and Remote Sensing Letters, 15(5): 749-753 [DOI:10.1109/LGRS.2018.2802944]