论文引用格式:Lin J L, Li Y Q, Xu X Z and Feng Y J. 2023. Edge-distribution-guided high-resolution network for colorectal polyp segmentation. Journal of Image and Graphics, 28(12):3897-3910(引用格式:林佳俐, 李永强, 徐希舟, 冯远静. 2023. 边缘概率分布引导的结直肠息肉高分辨率分割网络. 中国图象图形学报, 28(12):3897-3910)[0 引 言医学图像分割算法是临床医学诊断中的一项重要算法,目前已经广泛应用于医学图像分析,如计算机断层扫描(computed tomography,CT)图像、内窥镜成像图等,可以提供细粒度病理信息辅助医生诊断,包括病灶定位、病理性初步判断。结直肠癌(colorectal cancer,CRC)作为全球发病率第3、致死率第2的疾病,严重威胁着人类的生命健康。2020年,全球约有193万CRC病例,死亡病例51万例,新发106.6万例;据《中国恶性肿瘤学科发展报告(2021)》统计,我国CRC新发人数高达55万人以上,占所有新发恶性肿瘤的9.9%,是除肺癌外的第2大新发癌症。医学统计发现,有接近95%的结直肠癌病例通过早期结肠息肉演变而来。因此在早期若能及时发现息肉,并进行长期医学观察,可以有效降低结直肠癌发生率。传统的检测方法依赖医生经验和手工特征提取,其主要局限性如下(Nisha等,2022):首先,由于结肠内部环境复杂、肠内黏膜反射、息肉形态颜色差异和设备质量等因素,需要依靠经验丰富的医生进行诊断;此外,传统的检测方法通常依赖于手工特征提取,容易导致误检漏检;最后,每个患者的结直肠镜扫描会得到大量图像数据,对这些数据的逐帧筛查是一项繁重的任务。因此,近年来通过计算机技术来进行辅助诊断逐渐成为一种趋势,基于深度学习的算法通过挖掘大量数据,进行疾病辅助诊断,无需人工干预。在息肉检测中,深度学习方法主要包括图像分类、目标检测和图像分割。图像分类方法只能判断图像中是否存在息肉,无法精确确定病灶位置;目标检测方法能有效确定病灶位置,但对于部分形态差异过大的息肉图像,其检测效果较差;图像分割方法可以更精细地确定病灶区域以及息肉形态,相对而言其结果更加细化。近年来, 医学图像分割算法在不断发展,Ronneberger等人(2015)提出的U-Net模型通过跳跃连接将编码器端的浅层特征传播到解码器端,有效保证了特征分辨率,在各类医学图像数据集上表现良好,并在后续衍生出了许多基于U-Net的变体算法;V-Net(Milletari等,2016)将U-Net拓展到三维,用来处理磁共振成像(magnetic resonance imaging,MRI)数据,并提出了Dice loss来解决前背景分布不平衡的问题;Zhou等人(2018)在U-Net的基础上提出了U-Net++,重新设计了跳跃连接层,引入了密集连接和深度监督,并通过模型剪枝兼顾了精度与速度;Cao等人(2023)将Swin-Transformer(Liu等,2021)中的滑动窗口思想引入U-Net,提出了Swin U-Net(shifted windows U-Net),在Synapse多器官分割CT数据集上达到先进水平;UCTransNet(Wang等,2022a)同样在U-Net结构中使用Transformer,并对跳跃连接层重新设计,使其可以进行多尺度特征交换,缓解语义鸿沟现象,以达到更好的分割效果;李金星等人(2022)使用视觉Transformer(vision Transformer,ViT)与卷积神经网络进行双路特征提取嵌入,并使用混合损失函数引导网络训练,能有效检测肺部影像中的肺炎区域。综上,现有的医学图像分割算法大多基于U-Net架构演变而来,其编解码器的设计容易导致对细节部分的检测较差;此外,为了弥补编码器下采样过程中的空间特征损失,在上采样过程中使用跳跃连接来引入编码侧的特征信息,这会带来语义鸿沟问题,对分割产生负面影响;许多算法通过重新设计跳跃连接层来改善语义鸿沟现象,尽管得到了一定的性能提升,但却在模型设计上逐渐走向复杂化和技巧化。结直肠息肉分割相比于其他的医学分割任务,具有一定的特殊性:首先,由于息肉区域的形态复杂多样和数据标注时的个人主观性,息肉边界往往存在语义模糊区域;此外,息肉自身形态大小差异过大,导致分割难度较大。Fan等人(2020)创新性地使用反向注意力模块来建立息肉区域和边界之间的联系,提出了反向注意力网络(parallel reverse attention network,Pra-Net)。并引入全局映射图来引导网络进行分割,在多个息肉图像数据集分割任务上达到了当时最优的性能,但由于全局映射图为高维低分辨率特征图,对小目标物体感知情况较差;Kim等人(2021)提出的不确定区域信息增强注意力网络(uncertainty augmented context attention net,UACANet)通过在每个预测模块中聚合图像前景、背景和不确定区域图,在多个息肉分割数据集分割任务上表现良好;Srivastava等人(2022)提出的多尺度残差融合网络(multi-scale residual fusion network,MSRFNet),使用双尺度密集融合模块接收多尺度特征以获得准确的分割图像,在息肉分割任务上同样表现优秀,但过多密集连接的使用会导致计算量过大;魏天琦和肖志勇(2022)将双层编解码器结构应用于结直肠息肉分割,并提出了子空间注意力结构,在多个数据集上表现良好;Wang等人(2022b)将视觉Transformer技术应用到息肉分割中,使用金字塔堆叠式Transformer作为编码器,并在解码器中增加局部特征增强聚合模块,提高模型对于局部细节特征的处理能力,提出了SSFormer(stepwise segmentation Transformer)架构,在息肉分割任务上取得了目前最优表现,然而金字塔式Transformer的结构极大增加了计算成本,效率较低。Chang等人(2023)提出了一种轻量化的阶段特征金字塔分割网络ESFPNet(efficient stage-wise feature pyramid network)。针对SSFormer的效率问题,通过轻量化特征金字塔结构,较好地权衡了性能与效率,在支气管镜病灶检测任务和结直肠息肉分割任务上均表现优秀。SSFormer和ESFPNet主要关注息肉主体检测,没有考虑息肉边缘的模糊性。针对U-Net结构本身存在的问题和结直肠息肉图像的数据特点,本文为了避免跳跃连接带来的语义鸿沟问题,并加强对小目标物体的感知,选择以高分辨率网络(high-resolution network, HRNet)系列(Sun等,2019;Wang等,2021)为基本框架,提出了一种基于边缘概率分布模型和堆叠残差卷积模块的结直肠息肉分割网络HRNetED(edge distribution guided high-resolution network),通过引入边缘检测任务,强化模型对边缘信息的抽取能力以引导结直肠息肉分割。本文的主要贡献包括3个方面:1)在息肉分割基础上引入息肉边缘检测任务,提出了一种基于高斯分布的边缘概率模型,简化边缘检测任务的同时加强模型对息肉边缘的感知能力;2)提出了一种堆叠卷积残差模块(stack residual convolution module,SRC),通过拆分卷积有效减少参数量,堆叠卷积层逐级增大感受野,在保证模块轻量化的同时提高局部图像感知能力;3)提出了一种基于边缘概率分布模型的结直肠息肉高分辨率分割网络HRNetED,在ETIS(ETIS larib polyp database)(Silva等,2014)、CVC-ColonDB(colonoscopy videos challenge colon database)(Tajbakhsh等,2016)、CVC-ClinicDB(colonoscopy videos challenge clinic database)(Bernal等,2015)和 CVC-300(colonoscopy videos challenge 300)(Vzquez等,2017) 4个结直肠息肉数据集上达到了目前先进水平。1 相关工作1.1 密集残差连接自He等人(2016)提出ResNet(deep residual network)以来,残差连接这一概念广泛应用于神经网络架构设计。残差连接使用直接映射方式将浅层信息添加到当前层,有效解决了模型退化问题,同时使得梯度信息可以通过残差连接较容易地传播到浅层网络,一定程度上解决了梯度消失问题。相较于ResNet,Huang等人(2017)设计的DenseNet(dense convolutional network)提出了一种更为激进的密集残差连接方案,即将所有层特征都进行密集连接,并引入特征重用以减少计算量。无论是ResNet还是DenseNet,其核心思想均为通过残差连接以增加特征重用和特征交互,解决模型退化问题。在医学图像分割领域,这一概念也得到广泛应用。Zhou等人(2018)重新设计了U-Net结构的跳跃连接层,引入密集连接和深度监督,提出了U-Net++;ResUNet++(Jha等,2019) 和ResUNet(Jha等,2020),分别在U-Net++和U-Net基础上引入密集残差连接以增加特征交互和重用。1.2 卷积感受野在图像分割任务中,卷积核的感受野大小对于分割结果具有十分明显的影响,较大的感受野能够保证卷积核感知到更大邻域信息,从而加强局部感知能力。在早期的神经网络模型中,往往会使用池化层和卷积层结合的方式来增大模型感受野,但是直接使用池化层会造成部分信息损失,需要通过跳跃连接等方法来补充信息到后级,如U-Net型网络;空洞卷积(dilated convolution)是另一种较为常见的扩张感受野的方法(Chen等,2016),它通过改变自身卷积核内部孔洞数,使卷积核可以获得任意指定尺寸的感受野;Deeplab系列(Chen等,2017)提出的空洞空间卷积池化金字塔(atrous spatial pyramid pooling,ASPP)模块通过并联多个不同扩张率的空洞卷积层来改善空洞卷积有效感受野占比较小的问题;随着计算机算力的提升,大核卷积也被重新使用到神经网络中, ConvNeXt(Liu等,2022)重新设计了ConvNet的各个层面,并首次使用7 × 7大核卷积核,在多个视觉任务中达到了目前先进水平;Ding等人(2022)提出的重参数大核卷积网络(re-parameterized large kernel network, RepLKNet)将卷积核尺寸扩大到31 × 31,在目标检测和语义分割多个任务上均达到了目前先进水平。1.3 高分辨率网络(HRNet)对于目标检测、语义分割和实例分割等位置敏感型任务,模型往往会通过引入高分辨率特征图来提高位置信息的准确性。HRNet系列模型便是在这一思路下设计产生的:HRNetv1用来进行人体姿态估计和关键点检测,HRNetv2中通过引入不同结构的解码器,使其在语义分割、实例分割等任务上也有十分出色的表现。与常规的先下采样再上采样恢复分辨率思路不同,HRNet的核心设计思想是始终维持一条高分辨率特征通路,从而避免了特征图在从低分辨率恢复到高分辨率时存在的信息损失问题。同时在卷积过程中不断扩张低分辨率支路来获取高维语义特征,使得网络宽度加大;在每一个特征提取阶段后,会进行密集的特征交换,充分融合多尺度特征的信息。除此之外,HRNet使用残差卷积作为基本卷积模块,避免模型加深带来的退化问题,最终得到了高分辨率高精度的检测结果。HRNetv1系列奠定了该系列网络的基本框架,其主体结构如图1所示。对于每个阶段,不同支路的特征会进行密集交换,用来增强特征语义信息和空间信息,并融合所有尺度的特征进行下采样扩张,得到更低分辨率的卷积支路;最高分辨率支路的最后一层特征在经过特征抽取后,作为人体姿态估计的热力图进行输出。10.11834/jig.230015.F001图1HRNetv1结构Fig.1HRNetv1 structureHRNetv1的解码器一侧仅使用到了最高分辨率支路,没有利用另外两条低分辨率支路的语义信息;HRNetv2在HRNetv1的基础上进一步改进,在解码器部分将所有支路特征进行融合,进一步提高了模型性能,其解码器结构如图2所示。10.11834/jig.230015.F002图2HRNetv2解码器结构Fig.2HRNetv2 decoder structure ((a) semantic segmentation decoder; (b) object detection decoder)HRNet系列网络在计算机视觉任务中的广泛应用表明,其以高分辨率支路为主、低分辨率支路为辅的思路可以有效提高位置型任务的精确性。2 本文算法2.1 息肉边界概率分布描述如图3所示,在结直肠镜息肉的临床数据中,息肉主体通常较为显著,但其边界往往不够清晰,存在语义模糊区域;此外,人工标注的质量存在一定差异,同样会影响息肉边界的准确性。因此,相比于直接判别边缘像素点类别,估算息肉边缘概率分布往往会更加简单且实际,对标注数据的误差容忍度也会更高。10.11834/jig.230015.F003图3结直肠息肉图像中的边界模糊情况Fig.3Boundary blurring in colorectal polyp images基于上述思想,本文使用边缘分布概率图来描述息肉边缘情况,即以边缘点为中心,其周围像素点属于边缘的概率满足给定高斯分布,具体为Pbd=fboundary(X),X∈RH×W×C (1)G(x, y)=exp-x2+y22σ2 (2)M(x, y)=max{G(x-pix, y-piy)},pi∈Pbd (3)式中,X为掩膜图像,fboundary表示轮廓提取算法,Pbd=p0,p1,⋯,pn为掩膜图像X的轮廓点集,M∈RH×W为边缘概率分布图,G(x,y)表示方差为σ2的归一化二维高斯核;对于X上任意点p(x,y),属于边缘的概率为其距离最近轮廓点pi在高斯核函数上的值。边缘概率分布示意图如图4所示,高亮区为掩膜边缘,灰色区域为边缘概率分布情况。10.11834/jig.230015.F004图4边缘概率分布图Fig.4Edge probability distribution map2.2 网络总体架构本文网络主要结构如图5所示,参考了HRNet结构,由三阶段的骨干网络和多尺度解码器组成。10.11834/jig.230015.F005图5HRNetED网络整体结构Fig.5HRNetED network structure首先,与HRNet结构类似,本文的骨干网络用于图像特征提取,始终维持一条高分辨率特征支路,并在每个阶段扩展一条低分辨率支路以提取高维语义特征信息;在每个阶段末端,将不同分辨率的特征进行充分交换融合。在经过骨干网络提取特征后,本文将得到的金字塔特征输入到多尺度解码器中,通过引入息肉边缘概率检测这一辅助任务,提高模型对于息肉边缘区域的感知能力,最后输出结直肠息肉区域的分割结果。2.3 堆叠卷积残差模块考虑到HRNet架构始终保持着高分辨率卷积支路,存在大量卷积操作,对于计算资源占用较大。本文从相关工作出发,设计了一种具有混合感受野和轻量化特点的堆叠卷积残差模块(SRC),在有效减少参数量的同时提高模型性能,结构如图6所示。10.11834/jig.230015.F006图6堆叠残差卷积模块Fig.6Stack residual convolution module首先,将卷积层、批归一化BatchNormal和ReLU(rectified linear unit)激活函数的组合视为卷积模块,将单次3 × 3卷积模块拆分成4次堆叠的3 × 3卷积模块,每个卷积模块的通道数为输入特征张量的1/4。在逐次卷积过程中,卷积层感受野会不断增大,最终得到4个不同感受野的特征张量,将其按照通道维度进行拼接,使用1 × 1逐点卷积进行通道特征映射,最后引入残差连接将原始输入叠加到输出侧。此方法通过堆叠卷积核的方式来捕获不同感受野的特征信息,使得卷积模块的局部感知能力增强,通过拆分卷积核的方式有效减少参数量,并使用逐点卷积进行多感受野特征混合;最后通过残差连接的方式将输入特征直接映射到输出端,防止深层模型性能退化,其整体计算式为x0=x, xi=δ(wc(i)(xi-1)),i=1, 2, 3, 4 (4)x'=wp([x1, x2, x3, x4])+x (5)式中,x表示输入特征张量,x'表示输出特征张量,xi为中间特征张量,wc(i)表示3 × 3卷积模块,wp为1 × 1逐点卷积操作,δ表示非线性ReLU激活函数。[⋅]表示特征按通道维度拼接。2.4 基于边缘特征引导的多尺度解码器在结直肠息肉的临床数据中,息肉主体通常较为显著,但其边界往往不够清晰。本文算法通过引入息肉边缘检测任务,强化模型对息肉边缘的感知能力,有效避免了由于息肉边界模糊导致的分割错误,解码器结构如图7所示。10.11834/jig.230015.F007图7解码器结构Fig.7Decoder structure骨干网络提取到的4个特征张量作为解码器输入,其长宽分别为原始输入图像的1/2、1/4、1/8和1/16,深度为64。为了充分利用语义特征引导解码,首先使用特征金字塔进行特征融合:对于低分辨率特征,使用SRC模块进行特征提取后,通过上采样和卷积操作提升分辨率,并将其与上一级特征在通道维度进行拼接,自下而上地将低分辨率语义特征融合到高分辨率特征图中,最终得到3个特征融合张量,其融合过程为xp(i)=wm(i)([xb(i), up(xp(i+1))]),i=0, 1, 2 (6)xp(3)=xb(3) (7)式中,xb(i)为骨干网络提取的输入特征张量,xp(i)为经过特征金字塔融合后的特征张量, wm(i)为单次SRC模块运算,up表示双线性插值上采样加3 × 3卷积操作, [⋅]表示特征按通道维度拼接。在经过特征金字塔结构后得到3个中间特征张量,将其输入至边缘增强模块,用于抽取精细化边缘特征。首先,该模块对3个输入张量分别使用MaxPool池化2倍下采样,并通过2个SRC模块提取特征后,使用双线性插值上采样加卷积的方式提高特征图分辨率,得到包含丰富信息的边缘特征张量,之后使用1 × 1卷积进行特征聚合,经过sigmoid激活后得到边缘概率分布图集合。同时,将中间特征张量和边缘特征张量使用残差连接后,经过ReLU激活函数增强边缘特征张量;最后,对于特征增强模块输出的增强边缘特征张量,使用SRC模块进行通道特征聚合后,经过sigmoid激活函数输出息肉分割的最终结果集合ym,上述过程为xbd(i)=up(wrf(i)(maxpool(xp(i)))),i=0, 1, 2 (8)ybd(i)=σ(wbd(i)(xbd(i))),i=0, 1, 2 (9)ym(i)=σ(wm(i)(δ(xp(i)+xbd(i)))),i=0, 1, 2 (10)式中,xbd(i)为边缘特征增强模块得到的边缘特征张量,wrf(i)为两次SRC模块运算,wbd(i)表示1 × 1逐点卷积操作,wm(i)为单次SRC模块运算,up表示双线性插值上采样加3 × 3卷积操作,σ表示sigmoid激活函数,δ表示非线性ReLU激活函数,maxpool表示最大池化操作。3 实验与分析3.1 实验数据集和评价指标为了评估本文方法的有效性,本文在5个公开的结肠镜息肉分割数据集Kvasir-Seg(Jha等,2020)、ETIS(ETIS larib polyp database)、CVC-ColonDB(colonos copy videos challenge colon database)、CVC-ClinicDB(colonoscopy videos challenge clinic database)和CVC-300(colonoscopy videos challenge 300)上进行了实验,每个数据集均包含若干幅由结肠镜采集得到的息肉图像和对应标注数据。CVC-ColonDB、CVC-300、CVC-ClinicDB和ETIS数据集为从结肠镜检查视频中得到的若干帧图像数据,Kvasir-Seg数据集由1 000幅息肉图像和医生标注数据组成,在图像分辨率和息肉形态上有很大差异。本文遵循与Pra-Net、UACANet等论文相同的设置:从Kvasir-Seg和CVC-ClinicDB数据集中选取1 450幅图像作为训练集,其余所有数据作为测试集,数据集、训练样本和测试样本的分配如表1所示。10.11834/jig.230015.T001表1数据集配置Table 1Data set configuration数据集图像大小/像素样本总数/幅训练集/幅测试集/幅Kvasir-Seg不确定1 000900100ETIS1 225 × 966196/196CVC-ColonDB574 × 500380/380CVC-ClinicDB384 × 28861255062CVC-300574 × 50060/60注:“/”表示该数据集不用于训练集。本文使用语义分割常用的Dice相似系数(Dice coefficient, Dice)、平均交并比(mean intersection over union, mIoU)和豪斯多夫距离(Hausdorff distance, HD)3种指标来评估本文算法的性能,其定义分别如下:1)相似系数Dice。Dice系数是一种相似度度量指标,通常用于计算两个集合的相似度。Dice系数越高,则集合相似度越高。其计算式为Dice(A, B)=2A⋂BA+B (11)式中,A和B分别表示两个元素集合。2)平均交并比mIoU。mIoU表示计算多个集合对的平均交并比,其计算式为mIoU(k)=1k∑i=1kAi⋂BiAi⋃Bi (12)式中,k表示类别数量,(Ai,Bi)为第i类元素集合对。3)豪斯多夫距离HD。豪斯多夫距离是一种描述两组点集相似程度的度量距离。设有两组点集A={a1,a2,⋯,an},B={b1,b2,⋯,bm},豪斯多夫距离的定义为h(A, B)=maxa∈A{minb∈Ba-b} (13)H(A, B)=max(h(A, B),h(B, A)) (14)式中,h(⋅)为单向豪斯多夫距离,表示一个集合到另一集合最近点的最大距离,H(⋅)为双向豪斯多夫距离。在实际指标计算中,通常使用双向豪斯多夫距离来衡量相似度,并且为了排除离群点干扰,选取95%分位最大值距离作为最终结果。本文中使用95%分位双向豪斯多夫距离作为评估指标,记为HD95。HD95越小,说明两个点集的相似度越高。3.2 损失函数对于息肉分割这一主要任务,本文使用二分类交叉熵损失函数LB对模型进行训练,令y表示真实标注数据,y^表示模型预测输出结果,其计算过程为LB=(y-1)log(1-y^)-ylogy^ (15)对于边缘检测这一辅助任务,考虑到相比于背景而言,边缘分布占比较少,正负样本差异过大。Lin等人(2017)提出的Focal loss通过引入权重因子有效解决了正负样本不平衡问题。因此本文将其作为边缘检测的损失函数LE。令y表示真实标注数据,y^为模型预测输出结果,γ为难易权重因子,本文中默认为4,其整体计算式为y^t=y^y=11-y^y=0 (16)LE=-(1-y^t)γlogy^t (17)综上,本文损失函数定义为L=λBLB+λELE (18)式中,λB和λE为超参数,在本文中默认设置为1。3.3 实验设置本文算法实现的运行环境为64位Ubuntu16.04,Pytorch1.7.1;硬件环境为CPU Intel i7-11700K@3.6 GHz,32 GB内存,GPU Nvidia GeForce RTX3090 24 GB。首先,对于数据集和标签的处理上,本文将实验数据集分辨率统一缩放至256 × 256像素,设置边缘概率图生成的二维高斯核参数σ2=25;损失函数超参数λB=1,λE=1,难易权重因子γ=4;其次,在训练阶段,设置训练批次大小为10,使用Adam优化器进行训练,Adam的相关参数β1=0.9,β2=0.999,权重衰减率为10-6,设置训练轮次200轮,使用余弦退火学习率调整策略,学习率范围为[1×10-6,2×10-4],周期为50轮,其中前10轮学习率从1×10-6线性上升到2×10-4,后40轮学习率按照余弦曲线从2×10-4衰减至1×10-6;最后,在测试阶段,设置前景预测阈值为0.5进行息肉分割。3.4 实验结果3.4.1 算法性能实验结果为了验证本文算法的有效性,将本文算法和近几年发布并开源的肠镜息肉分割算法在5个公开结肠镜息肉数据集Kvasir-Seg、ETIS、CVC-ColonDB、CVC-ClinicDB和CVC-300上进行比较,算法包括HRNetv2、Pra-Net、UACANet、MSRF-Net(multi-scale residual fusion network)、BDG-Net(boundary distribution guided network)(Qiu等,2022)、SSFormer与ESFPNet,其中HRNetv2指标为本文复现结果。Dice系数和mIoU指标的对比实验结果如表2所示。可以看出,HRNetED在CVC-ClinicDB和CVC-300数据集上的Dice系数和mIoU指标均优于现有其他算法,在CVC-ClinicDB数据集上相较于先前最优算法分别获得了1.25%和1.37%的提升;在ETIS数据集上,本文算法的Dice和mIoU分别为82.41%和71.21%,Dice系数表现优于对比最优算法;在CVC-ColonDB数据集上,本文算法的Dice和mIoU分别为80.55%和71.56%,处于较优水平;在Kvasir-Seg数据集上,本文算法表现较为一般。10.11834/jig.230015.T002表25个公开结肠镜息肉数据集上的Dice系数和mIoU对比实验结果Table 2Comparative trial results of Dice and mIoU on five public polyp datasets算法Kvasir-SegETISCVC-ColonDBCVC-ClinicDBCVC-300DicemIoUDicemIoUDicemIoUDicemIoUDicemIoUHRNetv2-w48 (2020)0.883 10.801 80.605 80.490 70.725 20.612 40.912 30.851 20.885 00.799 6Pra-Net (2020)0.898 00.840 00.628 00.567 00.709 00.64000.904 80.856 90.876 40.803 2UACANet-S (2021)0.905 00.852 00.694 00.615 00.783 00.704 00.916 00.870 00.902 00.837 0UACANet-L (2021)0.912 00.859 00.766 00.689 00.751 00.678 00.926 00.880 00.910 00.849 0MSRF-Net (2021)0.921 70.891 4////0.942 00.904 3//BDG-Net (2022)0.915 00.865 00.757 90.687 40.804 00.72500.916 00.864 00.899 00.831 0SSFormer-S (2022)0.926 10.874 30.767 00.698 00.772 00.697 00.926 80.875 90.887 00.821 0SSFormer-L (2022)0.935 70.890 50.796 00.720 00.802 00.721 00.944 70.899 50.895 00.827 0ESFPNet-L (2022)0.917 00.866 00.823 00.748 00.811 00.730 00.928 00.883 00.902 00.836 0本文0.913 60.845 80.824 10.712 10.805 50.715 60.957 20.918 00.914 20.850 7注:加粗、下划线字体分别表示各列最优、次优结果。“/”表示原论文未提供相关指标或源代码。HD95指标的对比实验结果如表3所示。可以看出, HRNetED在Kvasir-Seg、ETIS、CVC-ColonDB数据集上的HD95指标均优于现有算法,分别降低了0.315%、29.19%和2.95%,在CVC-ClinicDB和CVC-300数据集上,HD95表现排在次优处,同样具有良好的性能,可以说明本文算法对息肉轮廓形状具有良好的感知能力。10.11834/jig.230015.T003表35个公开结肠镜息肉数据集上的HD95对比实验结果Table 3Comparative trial results of HD95 on five public polyp datasets算法Kvasir-SegETISCVC-ColonDBCVC-ClinicDBCVC-300HRNetv2-w48 (2020)24.105 130.186 733.386 912.728 212.815 9Pra-Net (2020)24.941 454.120 242.071 811.142 717.214 5UACANet-S (2021)22.704 043.734 629.525 49.956 07.290 2UACANet-L (2021)20.786 031.348 933.716 68.699 511.136 8MSRF-Net (2021)/////BDG-Net (2022)18.789 329.352 928.516 39.801 510.306 4SSFormer-S (2022)37.531 7119.283 363.651 512.208 526.379 7SSFormer-L (2022)45.695 5116.205 253.809 413.671 216.351 8ESFPNet-L (2022)19.424 330.788 024.454 510.147 38.582 2本文18.730 120.785 623.733 68.888 77.609 2注:加粗、下划线字体分别表示各列最优、次优结果。“/”表示原论文未提供相关指标或源代码。为了更直观地对比本文算法与其他算法效果,图8在上述数据集中选取了部分分割结果进行可视化对比。可以看到,本文算法在不同形态的息肉图像上均有较为优秀和稳定的分割表现。同时,对于小目标、模糊目标有较为鲁棒的感知能力,在息肉轮廓形态上与标注值更贴近。10.11834/jig.230015.F008图8部分息肉分割结果对比Fig.8Comparison of partial polyp segmentation results((a) input; (b) ground truth; (c) ours; (d) ESFPNet-L; (e) BDG-Net; (f) UACANet-L; (g) Par-Net; (h) HRNetv2)3.4.2 参数设置实验结果为了探究息肉边缘概率描述中二维高斯核参数σ对模型性能的影响,本文进一步开展实验探究:分别设置σ为1、3、5和7,按照3.3节相同的实验设置步骤进行训练。此外,由式(11)和式(12)结合3.4.1节实验结果可以推知,Dice系数和mIoU指标基本呈正相关。因此在本节实验中,评估指标选择Dice系数和HD95,以反映不同参数设置对算法在主体分割和轮廓分割上的影响,最终实验结果如表4所示。可以看出,在输入图像大小为256 × 256像素的情况下,σ取值为5时模型平均表现最优。合理推测可知,在归一化高斯核函数中,σ过小会导致数值变化过大,在图像中直观表现为边缘区域狭小;而σ过大则会导致边缘概率变化缓慢,边缘分布区域过大,使得边缘检测这一辅助任务无法获取到足够意义的边缘语义信息。10.11834/jig.230015.T004表4不同参数下HRNetED性能表现Table 4HRNetED performance under different parameters参数设置Kvasir-SegETISCVC-ColonDBCVC-ClinicDBCVC-300平均DiceHD95DiceHD95DiceHD95DiceHD95DiceHD95DiceHD95σ=10.901 521.156 90.807 821.189 20.764 724.265 80.954 98.903 30.906 38.468 80.867 016.796 8σ=30.918 918.485 10.813 520.264 90.779 324.181 60.945 68.724 80.902 48.231 50.871 915.977 6σ=50.913 618.730 10.824 120.785 60.805 523.733 60.957 28.889 10.914 27.609 20.882 915.949 5σ=70.912 019.186 10.818 920.706 70.789 024.898 40.948 59.036 80.911 07.932 90.875 916.352 2注:加粗、下划线字体分别表示各列最优、次优结果。3.4.3 消融实验结果为了进一步验证本文所提模块的有效性,一共设计了5组消融实验:首先将本文网络结构中的堆叠残差卷积模块SRC替换为普通残差卷积模块;其次,去除本文多尺度解码器中的边缘检测任务;最后去除多尺度输入,仅保留最高分辨率支路的输出结果,得到消融实验的基线模型baseline,最终消融实验结果如表5所示。其中edge表示引入边缘检测辅助任务,scale表示解码器输出多尺度预测结果,src表示使用堆叠残差卷积模块,实验指标与3.4.2参数设置实验保持一致。从表5结果可以看出,本文所提的3个模块均能有效提高HRNetED在结直肠息肉分割任务上的表现。通过引入边缘检测辅助任务,能够有效提高HRNetED在各个数据集上Dice和HD95距离的表现,特别是在降低HD95方面效果显著,说明本文提出的边缘概率分布模型能增强网络对息肉边缘区域的感知能力;多尺度解码器的引入同样能有效提升各项指标,这得益于多尺度输出能够对语义级别支路同样进行有监督学习,提高了HRNetED对不同尺度息肉的检测能力;堆叠残差卷积模块SRC在减少将近50%参数量的同时带来了小幅度的性能提升,说明通过拆分卷积核并获取混合感受野特征的方法,能有效满足轻量化和提高性能的要求。10.11834/jig.230015.T005表5消融实验结果Table 5Ablation study results方法Kvasir-SegETISCVC-ColonDBCVC-ClinicDBCVC-300参数量/MDiceHD95DiceHD95DiceHD95DiceHD95DiceHD95baseline0.877 924.760 00.681 727.170 00.724 526.946 30.936 410.444 50.880 012.947 7131.00baseline + edge0.888 221.371 70.789 321.767 30.763 525.755 20.940 611.560 30.905 57.829 2131.96baseline + scale0.881 522.706 00.702 523.156 90.730 624.646 00.933 88.646 10.886 97.916 6133.30baseline + src0.891 324.651 80.760 924.204 30.735 524.356 50.938 99.646 10.906 88.766 963.92baseline + src + edge0.910 119.931 80.807 818.510 90.784 725.313 70.954 98.888 70.906 38.834 964.88HRNetED0.913 618.730 10.824 120.785 60.805 523.733 60.957 28.889 10.914 27.609 270.06注:加粗、下划线字体分别表示各列最优、次优结果。4 结 论本文针对结直肠息肉图像自身特点和息肉边缘语义模糊现象,提出了一种基于边缘概率分布模型的结直肠息肉高分辨率分割网络HRNetED。该网络使用HRNet结构作为网络主干,设计了一种混合多尺度感受野的卷积模块SRC,该模块可以在显著降低模型参数量的同时提高模型性能;在解码器侧,通过引入边缘检测任务来增强模型对息肉边缘区域的特征感知,使用边缘概率分布模型描述边缘情况,有效降低了模型训练难度。实验结果表明,HRNetED在CVC-ClinicDB和CVC-300数据集上的Dice系数和mIoU指标均优于现有其他算法,且在CVC-ClinicDB数据集上相较于先前最优算法分别获得了1.25%和1.37%的提升;在ETIS数据集上,HRNetED的Dice和mIoU分别为82.41%和71.21%,Dice系数表现优于对比最优算法;在CVC-ColonDB数据集上,本文算法的Dice和mIoU分别为80.55%和71.56%,处于较优水平;此外,HRNetED在Kvasir-Seg、ETIS、CVC-ColonDB数据集上的HD95距离相较于对比最优算法分别降低了0.315%、29.19%和2.95%,在CVC-ClinicDB和CVC-300数据集上表现排在次优处,同样具有良好的性能;在主观感受上,本文算法对于小目标、模糊目标也有较好的主体提取能力,在多个数据集中表现稳定。从实验结果可以看出,对于ETIS、CVC-ColonDB这两个难度较大的数据集来说,本文模型和对比模型均存在性能下降的问题。其主要原因是该两个数据集与训练集的数据分布存在差异;在临床医学中,结直肠息肉成像质量通常会受到结肠内部环境、息肉形态和采集设备质量等影响,这就要求模型有更强的泛化能力,才能提供更可靠的医学辅助诊断。后续工作将围绕这一问题继续展开研究,包括适合结直肠息肉数据的数据增强和模型泛化能力提升等。
使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,
确定继续浏览么?
复制成功,请在其他浏览器进行阅读