网刊加载中。。。

论文引用格式：Yu D， Peng Y J and Guo Y F. 2023. Ultrasonic image segmentation of thyroid nodules-relevant multi-scale feature based h-shape network. Journal of Image and Graphics， 28（07）：2195-2207（引用格式:于典，彭延军，郭燕飞. 2023. 面向甲状腺结节超声图像分割的多尺度特征融合“h”形网络. 中国图象图形学报， 28（07）：2195-2207）［0　引言甲状腺结节是临床上一种高发的内分泌疾病（Chi等，2018），在人群中的发病率为19%～67%（Welker和Orlov，2003），其中5%～15%为甲状腺癌。结节的早期发现和定期随访是治疗甲状腺癌、提高存活率的关键（Hu等，2020）。目前，超声技术已广泛应用于临床甲状腺结节诊断（Avola等，2021）。由放射科医生评估甲状腺超声图像中的结节区域，根据超声TI-RADS标准（the thyroid imaging reporting and data system）（De Macedo 等，2018）对结节分级是目前常用的诊断方法，级别越高，结节恶性的概率越大，因此甲状腺结节超声图像的分割对于甲状腺结节的诊断至关重要（Sharifi等，2021）。深度学习技术在各种视觉识别任务中都有不错的表现，与传统方法相比，能够明显提升任务的准确率。深度卷积神经网络（deep convolutional neural network，DCNN）（Shin等，2016）和全卷积神经网络（fully convolutional neural network，FCN）（Long等，2015）是使用深度学习技术完成图像分割任务的基础模型，基于FCN和CNN，衍生出了各种模型以实现特定的分割任务，分割精度远高于传统方法。在医学图像领域，Ronneberger等人（2015）对FCN进行改进，提出了UNet模型。在实现端到端训练的基础上，结合多尺度特征信息的组合，在解码器阶段结合了编码器相对应部分的特征图信息，进一步提升了模型的性能。Amiri等人（2020）在此基础上对UNet进行改进，深入探讨了层次对模型的影响。Badrinarayanan等人（2017）提出了一种新颖实用的深度全卷积神经网络架构，用于语义像素分割。Oktay等人（2018）将注意力机制与UNet结合，降低图像中无关区域的权重，强调对特定任务有用的显著特征。Chen等人（2018a）将空间金字塔池化模块与编码—解码器模式融为一体，使网络既能够通过前者实现多尺度编码上下文信息，又能够通过后者逐步恢复空间信息，捕获更清晰的目标边界，Chen等人（2018b）在此基础上加以完善。Gu等人（2019）提出一个上下文编码网络，通过捕获更多的高级信息为2D医学图像分割保留空间信息，提高图像分割的精确度。Khanna等人（2020）提出一种深度残差卷积神经网络，引入残差网络，克服梯度爆炸问题。Sun等人（2021）提出一种基于三维全卷积网络的新模型，将多路径架构应用于特征提取，能够在有限的资源下准确分割医学图像。深度学习在超声分割甲状腺结节领域也有应用（Chen等，2020a）。Ma等人（2017）采用多视图策略，将甲状腺结节分割问题转化为面片分类任务，提高了网络的性能。Ying等人（2018）基于UNet、FCN和CNN，提出一种级联卷积神经网络形式的甲状腺结节分割模型。Buda等人（2020）在CNN中利用图像的手动标记作为形状先验，以提高分割准确性，但受到边界识别和分割不准确的限制。Liu等人（2021）提出一个弱监督框架，使用对抗学习的方式，能够以少量的标签信息生成结节预测结果。Gong等人（2021）提出一种多任务框架，能够同时分割甲状腺和甲状腺结节，并且利用甲状腺区域的分割增强甲状腺结节分割的特征学习。王波等人（2022）提出一种基于改进UNet网络的方法，将残差结构、多尺度卷积结构和注意力模块结合起来，具有比UNet更优的分割性能。Chu等人（2021）基于UNet网络，提出一种标记引导的深度网络分割模型以实现超声甲状腺结节的高效分割，但这种方法需要预先在数据集中标记结节的长轴和短轴的4个节点信息，具有一定的局限性。Ouahabi和Taleb-Ahmed （2021）提出一种医学图像语义分割的实时架构，集成了密集连通、扩展卷积和分解滤波器，并且优化了损失函数，使算法能够在提高分割精度的同时提高分割效率，但并没有在多个数据集上进行实验，无法证明模型具有较强的泛化性能。为了提高超声甲状腺结节分割的精度，增强泛化性能并降低模型的参数量，辅助医生诊断疾病，减少误诊，本文提出一种新的分割网络，称为面向甲状腺结节超声图像分割的多尺度特征融合“h”形网络。本文工作的主要创新点在于：1）提出一种“h”形网络框架，形状类似字母h，由一个编码器和两个解码器组成。编码器用来提取特征，第1个解码器负责初步分割甲状腺结节；第2个解码器在正常学习的基础上，通过融合模块融合第1个解码器提取到的相关信息，极大提高了结节分割的精确度；2）在解码器中构建增强下采样模块，将最大池化与平均池化相结合，减少下采样中的信息损失，保留更多的特征，提高病灶区域分割准确率；3）设计了融合卷积池化金字塔模块，使用深度可分离卷积改进空洞空间池化金字塔结构，增强对不同尺度特征信息的提取，以更少的参数量有效解决结节大小不统一、位置不确定造成的模型泛化性能低的问题。1　数据介绍1.1　数据集本文使用3个数据集对模型进行验证，分别为内部数据集、DDTI（digital database thyroid image）公共数据集（Pedraza等，2015）以及TN3K（thyroid nodule 3 thousand）（Gong等，2021）公共数据集。内部数据集包含从3 622名患者采集的3 622例甲状腺结节超声图像。DDTI数据集包含甲状腺炎、囊性结节、腺瘤以及甲状腺癌等一系列甲状腺病变，经过数据清洗之后，甲状腺结节部分的数据共637幅图像和结节。TN3K包含2016年1月—2020年8月间2 421例患者的3 493幅超声图像。1.2　数据处理在数据预处理阶段，首先使用阈值法去除图像中的冗余区域，使得甲状腺以及结节的区域尽可能不受图像背景噪声的干扰。然后统一使用立方插值将图像调整为256 × 256像素。最后采取灰度归一化方法处理图像，便于对纹理等特征进行学习。将数据集划分为训练集、验证集和测试集3部分，对划分出来的训练集图像采取数据增强方法，在垂直翻转、水平翻转、180度旋转和随机剪切等方法中随机应用一项，将训练数据集扩增为原来的2倍，避免模型过拟合。2　本文方法2.1　网络结构面向甲状腺结节超声图像分割的多尺度特征融合“h”形网络详细结构如图1所示，网络形状与字母h相似，网络继承了UNet的编码器—解码器思想，但由一个编码器和两个解码器（解码器I和解码器II）组成。编码器用来提取特征，解码器I完成网络的初步学习后，将此预先学习到的特征与解码器II的特征做融合，指导解码器II的学习过程，加强了模型的特征表达，实现病灶区域分割的精细化，提升网络的分割精度。网络的解码块和编码块都包含2个卷积层，第2个卷积层采用深度可分离卷积实现参数量的降低。编码器共有4个编码块，输出通道数以2倍递增的规律从64扩展到1 024，在下采样时使用增强下采样模块，结合最大池化和平均池化两种方法的优点以减少底层特征的缺失。解码器I最终获取的特征图通道数为1，将其连续降采样为128 × 128像素，64 × 64像素，32 × 32像素不同尺度的特征图，并通过融合模块将其分别与解码器II中尺寸相同的相对应解码块做特征融合，将融合之后的结果分别输入融合卷积池化金字塔结构，共得到4个通道数为64的特征层。这4个特征层具有不同的尺寸，通过双线性插值将特征图尺寸统一拉伸为256 × 256像素，再将它们与解码器II输出通道为64的结果做concat操作，通道总数为320。通过1 × 1卷积转化为64通道，最后输出1通道特征图并得到分割结果。10.11834/jig.220078.F001图1网络结构图Fig.1Overall network structure2.2　深度可分离卷积网络中编码块和解码块的内部结构如图2所示，采用预激活的方法，将BN（batch normalization）层与ReLU（rectified linear unit）层放在卷积层之前，第2个卷积层则采用深度可分离卷积（depthwise separable convolution）。10.11834/jig.220078.F002图2编码块和解码块的内部结构Fig.2The internal structure of the encoded and decoded blocks深度可分离卷积包含逐通道卷积和逐点卷积两个过程（Kamal等，2019）。逐通道卷积在二维平面中运算，一个卷积核只负责卷积一个通道，卷积核的数量与该层输入通道数相同；逐点卷积的卷积核大小为1 × 1 × 输入通道数，卷积核的数量与该层输出通道数相同，运算会将逐通道卷积生成的特征图在深度的方向上进行加权组合，生成新的特征图。以编码器的第2个编码块为例（输入通道数为64，输出通道数为128），标准卷积操作首先使用1个3 × 3的卷积核对输入的64个通道全部进行卷积，每个卷积核的参数为3 × 3 × 64，这样得到的数据是128个输出通道的其中一个；将上述步骤重复128次，就得到全部输出所需要的参数，总参数量为（3 × 3 × 64）× 128 = 73 728。如果使用深度可分离卷积，逐通道卷积步骤中64个3 × 3的卷积核分别与输入的64个通道卷积，这个步骤需要64 × 3 × 3个参数，生成64幅特征图；逐点卷积步骤中分别使用128个1 × 1 × 64的卷积核对64幅特征图进行运算。总参数量为3 × 3 × 64 +（1 × 1 × 64）× 128 = 8 768。可以明显看出，深度可分离卷积大量减少了模型所需要的参数，并且在卷积过程中能够实现区域和通道的分离。2.3　融合模块为了加强对甲状腺结节特征的表达，本文设计了h网络框架。在深度学习中，每一次学习获取到的特征都是不完全相同的，丢失一部分信息在所难免，为了减少特征丢失，引入了两个解码器。解码器I预先学习获取结节的初步分割信息，并使用此信息指导解码器II进行精细分割。通过点积运算将解码器I与解码器II中的信息相融合，结节的初步分割特征会在上采样的过程中引导后序卷积确定权重。此方法与级联分割技术有相似之处，但不需要神经网络中的附加参数，减小了网络规模。图3展示了融合模块的融合过程。10.11834/jig.220078.F003图3融合模块Fig.3Diagram of the fusion module解码器I获取到二维初始预测信息之后，将256 × 256像素的特征图降采样为128 × 128像素、64 × 64像素、32 × 32像素，再将特征图分别与解码器II的第1、第2、第3个解码块做点积运算，完成信息的融合。点积之后的结果与解码器II的解码块进行加和操作，获得到新的解码块，融合计算为y=xdc2⋅S(xdc1)+xdc2 （1）式中，y为解码器II的生成结果，xdc1为解码器I中大小为h×w×1的输出，xdc2为解码器II中大小为h×w×c的特征图，“⋅”表示点乘操作，S是sigmoid运算。流程如图3所示。2.4　增强下采样模块增强下采样模块（enhanced down-sampling，EDS）由最大池化和平均池化结合而成，输入的特征信息分别经过最大池化和平均池化之后通过concat操作连接到一起，此时特征图尺寸减半，通道数加倍。使用归一化和激活函数对连接后的特征图进行运算，再使用卷积操作将通道数减半，最终生成尺寸为输入一半，通道数与输入相同的输出。强化下采样模块流程图如图4所示。10.11834/jig.220078.F004图4增强下采样模块Fig.4Diagram of the enhanced down-sampling module池化技术是提取图像特征的重要技术，最大池化和平均池化是深度学习中常用的池化技术，最大池化取最大值，在特征图中提取响应最强烈的部分，能保留图像的主要特征，提取图像的纹理信息，保留前景信息；平均池化取平均值，特征图中的所有信息都将进入下一层，主要保留背景信息，突出背景。最大池化和平均池化的定义分别为Kmn=max(pq∈Umn)Zpq （2）Vmn=1Umn∑(pq)∈UmnZpq （3）Κmn为最大池化的输出，Vmn为平均池化的输出，Umn为池化区域，Umn为池化区域的大小，Zpq为池化区域的元素。分析认为，两种池化技术并没有优劣之分，无法判断在一个新的数据集上哪种方法能够有更好的表现。因此，为了提高模型的泛化性能，结合平均池化和最大池化的优点，在下采样提取图像主要特征的同时，尽量减少图像信息的损失，从而获得比单一的平均池化下采样或最大池化下采样更好的结果，使算法能够在多种数据集上都有不错的表现。2.5　融合卷积池化金字塔为了更好地获取输入特征图的上下文多尺度信息，可以使用不同展开系数的多个卷积获取多尺度特征图，但也带来一些负面影响，如映射特性大小的改变。为了解决上述映射特征大小变化的问题，可以利用空间金字塔池（spatial pyramid pooling，SPP）通过拼接形成映射特征。空洞空间池化金字塔（atrous spatial pyramid pooling，ASPP）首次应用是在DeepLab v3+模型中，包含多个具有互补有效场的滤波器，可以在多个尺度的图像上捕获特征，使用多个采样速率重新采样特定的特征层以进行卷积。使用具有不同膨胀率的并行扩张卷积可以显著降低计算负载，同时丰富特征图中感受野的多样性（Yang等，2020）。但ASPP包含参数量极大，给网络训练带来很大负担。本文提出融合卷积池化金字塔（fusion convolutional pyramid pooling，FCPP），将深度可分离卷积与空洞空间池化金字塔相融合，在获取多尺度特征图的同时减少需要的参数，降低训练负担。FCPP包含5个部分。第1层使用1 × 1的普通卷积对输入特征进行运算，并在卷积层后添加BN和ReLU激活操作。第2—4层将ASPP中的普通空洞卷积替换成深度可分离空洞卷积，减少模型中的参数数据，实现收敛速度的加快。第5层先使用全局平均池化对特征图进行池化操作，将特征图尺寸减半，然后通过1 × 1卷积核实现通道数的改变并完成归一化和激活操作，最后使用双线性插值将特征图尺寸复原。在5层卷积计算都完成之后，将5个不同尺度的特征拼接起来，得到不同特征映射之间的相关性，并使用1 × 1卷积核改变通道数，完成特征的输出。FCPP模块结构如图5所示。10.11834/jig.220078.F005图5FCPP模块Fig.5Diagram of the fusion convolutional pyramid pooling module3　实验与结果3.1　实验设计实验在Pytorch框架上进行构建，通过Nvidia RTX 2080 TI训练模型。使用 Adam函数作为优化器，初始学习率为0.001，共训练200轮，每20轮学习率降为原来一半，批处理尺寸（batch size）设置为8。为了保证解码器I和解码器II的一致性，训练时batch size和学习率等参数都保持一致。按照8∶1∶1的比例将内部数据集和TN3K数据集划分为训练集、验证集和测试集3部分来训练模型，并通过数据增强将训练集数据扩增两倍。由于DDTI数据集中甲状腺结节样本过少，对其进行划分容易导致过拟合，因此使用内部数据集的权重信息直接测试DDTI数据集。划分后，内部数据集中训练集、验证集、测试集分别有5 796、362、362幅样本；DDTI共637幅样本用于测试；TN3K分别有5 586、350、350幅样本用于训练、验证和测试。二元交叉熵（binary cross entropy，BCE）损失函数比较稳定，对单个像素关注度较好，但对类不平衡问题较敏感；Dice损失函数则在目标较小的图像上效果较好，但稳定性较差。因此本文在训练解码器I和解码器II时都使用DiceBCELoss，将BCE损失函数与Dice损失函数结合，使模型能够在小结节分割上也能有不错的性能。BCE损失函数定义为LBCE(X,Y,Y^)=1p∑ij-(Rijlog(Pij)+(1-Rij)log(1-Pij)) （4）式中，X为原始输入图像，Y为对应真值，Y^为对应预测结果，p为像素总数，(i,j)为图像中的任一点，Rij为该点预测值，Pij为该点真值。Dice损失函数定义为LDice(X,Y,Y^)=1-∑ijPijRij+ε∑ij(Pij+Rij)-∑ijPijRij+ε （5）式中，ε为平滑系数，是一个极小的数，能够平滑loss和梯度，并防止输出位太小，导致编码器丢失输出位，使预测分母为零的极端现象。BCEDiceloss的计算为LBCEDice=αLBCE+(1-α)LDice （6）经过多次实验，当α = 0.4时，模型效果最好。3.2　评价指标采用Dice相似系数（Dice similarity coefficients，DSC）、豪斯多夫距离（Hausdorff distance，HD）、灵敏度（sensitivity，SEN）以及特异度（specificity，SPE）等性能指标对图像分割结果进行定量分析。DSC用于度量两个图像之间的相似度，数值越接近1则越相似；HD衡量两个点集之间的最短距离，对于边界的刻画较为敏感，数值越接近0代表边界重合度越高。SEN和SPE是临床上的常用指标，SEN能够确定像素被正确划分为结节的比例，SPE能够确定无结节区域被正确划分的比例，两个数值越接近1分割效果越好。DSC、HD、SEN和SPE的计算分别为DSC=2X⋂YX+Y （7）HD(X,Y)=maxt∈Ymaxp∈XY2-X2 （8）SEN=TPTP+FN （9）SPE=TNTN+FP （10）式中，X为模型的预测结果，Y为真实的掩膜信息；TP为真阳性，即真值和预测都为1；FN为假阴性，即真值为1预测为0；TN为真阴性，即真值和预测都为0；FP为假阳性，即真值为0但预测为1。3.3　对比实验定量分析目前，在医学分割领域关于甲状腺结节分割的工作较少，为了验证本文模型的性能，除了与MG_UNet（marker-guided U-Net）（Chu等，2021）和FcdDN（fully convolutional dense dilated Net）（Ouahabi和Taleb-Ahmed，2021）两个针对甲状腺结节分割的模型对比外，还与ATT_UNet（attention UNet）（Oktay等，2018）、CE_NET（context encoder network）（Gu等，2019）、DeepLab v3+（Wang和Liu，2021）与Segnet（segmentation network）（Chen等，2020b）分别在3个数据集上进行对比实验。不同模型在内部数据集的定量化分割结果如表1所示。可以发现，在内部数据集中，本文模型的DSC、HD、SEN以及SPE指标都是最优的，DSC比最差的模型提升了15.53%，比最好的模型提升了1.2%；HD比最差的模型下降5.876 5，比最好的模型下降0.034 1；SEN和SPE分别比最好的模型提升0.32%和1.17%，分别比最差的模型提升7.57%和9.96%。表2是7个模型的参数量和平均测试时间，根据表1可以看出，DeepLab v3+网络分割性能仅在本文模型之下，但表2中显示DeepLab v3+的参数量高达41.7 M，而本文模型的参数量为25.6 M，仅为DeepLab v3+模型的61.4%，测试所需要的时间也比DeepLab v3+少，有利于后续在医院的推广工作。10.11834/jig.220078.T001表1不同算法在内部数据集上的性能指标Table 1The values of performance indexes by different algorithms on the internal dataset方法DSCHDSENSPEMGUNet（Chu等，2021）0.778 76.812 10.870 10.920 5ATT_UNet（Oktay等，2018）0.855 41.033 10.860 10.980 5FcdDN（Ouahabi和Taleb-Ahmed，2021）0.716 83.519 20.804 00.985 6DeepLab v3+（Wang和Liu，2021）0.856 50.983 40.876 50.897 7Segnet（Chen等，2020b）0.844 10.969 70.852 80.902 1CE_Net（Gu等，2019）0.860 11.166 20.872 60.906 9本文0.872 10.935 60.879 70.997 3注：加粗字体表示各列最优结果。10.11834/jig.220078.T002表2不同算法的参数量Table 2The parameters of different algorithms方法测试时间/s参数量/MMGUNet（Chu等，2021）0.210 634.6ATT_UNet（Oktay等，2018）0.353 034.9FcdDN（Ouahabi和Taleb-Ahmed，2021）0.204 34.8DeepLab v3+（Wang和Liu，2021）0.427 541.7Segnet（Chen等，2020b）0.189 629.4CE_Net（Gu等，2019）0.369 428.9本文0.244 325.6为了进一步验证模型的泛化性能，对两个公共数据集进行测试。其中，公共数据集DDTI直接用来测试模型在内部数据集上的训练结果，量化结果如表3所示。可以看出，本文模型的DSC和SPE指标是最好的，分别比最差的模型提高了9.83%和15.25%，比表现最好的模型提高了1.02%和0.71%，虽然HD和SEN的指标不是最优，但也与最优性能相差不大。在公共数据集TN3K中，对于图像分割而言最重要的指标DSC和HD，本文模型的表现是最优的。分别比性能最优的模型提升1.27%和减少0.634 5，SPE和SEN也相差无几，实验结果如表4所示。在3个数据集上的实验结果足以说明本文模型具有优秀的分割性能和泛化能力。10.11834/jig.220078.T003表3不同算法在DDTI数据集上的性能指标Table 3The values of performance indexes by different algorithms on the DDTI dataset方法DSCHDSENSPEMGUNet（Chu等，2021）0.715 49.638 60.740 10.920 6ATT_UNet（Oktay等，2018）0.717 63.323 80.739 50.960 3FcdDN（Ouahabi和Taleb-Ahmed，2021）0.659 77.807 90.700 60.970 2DeepLab v3+（Wang和Liu，2021）0.747 84.105 30.816 00.965 7Segnet（Chen等，2020b）0.736 35.211 10.757 70.878 7CE_Net（Gu等，2019）0.736 214.507 60.797 60.824 8本文0.758 05.028 10.778 00.977 3注：加粗字体表示各列最优结果。10.11834/jig.220078.T004表4不同算法在TN3K数据集上的性能指标Table 4The values of performance indexes by different algorithms on the TN3K dataset方法DSCHDSENSPEMGUNet（Chu等，2021）0.713 817.798 80.865 90.945 8ATT_UNet（Oktay等，2018）0.756 69.335 30.845 90.978 0FcdDN（Ouahabi和Taleb-Ahmed，2021）0.694 010.458 90.798 50.954 3DeepLab v3+（Wang和Liu，2021）0.768 85.724 10.808 90.990 2Segnet（Chen等，2020b）0.746 45.204 40.771 30.992 6CE_Net（Gu等，2019）0.727 45.107 10.701 60.884 2本文0.781 54.472 60.829 00.978 1注：加粗字体表示各列最优结果。3.4　对比实验定性分析为了进一步验证本文模型的分割性能，在3个数据集中分别挑选了5幅典型的甲状腺结节超声图像的分割结果，与MG_UNet、ATT_UNet、FcdDN、DeepLab v3+、Segnet以及CE_Net模型的预测结果进行对比。在内部数据集、DDTI公共数据集和TN3K公共数据集的可视化结果分别如图6—图8所示。10.11834/jig.220078.F006图6内部数据集的超声甲状腺结节分割结果Fig.6The segmentation of ultrasound thyroid nodule in the internal dataset（（a） original images；（b） label；（c） MGUNet；（d） ATT_UNet；（e） FcdDN；（f） DeepLab v3+；（g） Segnet；（h） CE_Net；（i） ours）10.11834/jig.220078.F007图7DDTI数据集的超声甲状腺结节分割结果Fig.7The segmentation of ultrasound thyroid nodule on the DDTI dataset（（a） original images；（b） label；（c） MGUNet；（d） ATT_UNet；（e） FcdDN；（f） DeepLab v3+；（g） Segnet；（h） CE_Net；（i） ours）10.11834/jig.220078.F008图8TN3K数据集的超声甲状腺结节分割结果Fig.8The segmentation of ultrasound thyroid nodule on the TN3K dataset（（a） original images；（b） label；（c） MGUNet；（d） ATT_UNet；（e） FcdDN；（f） DeepLab v3+；（g） Segnet；（h） CE_Net；（i） ours）内部数据集具有结节大小、形态差距较大的特点，图6第1、2行的结节都是小结节，除了本文模型外，其余算法都包含了无用的区域，无法准确分割小结节的边界信息；第3、4行是较大结节，除了FcdDN网络只能分割出模糊的边界外，其余模型都能将结节的边界信息勾画出来，本文模型勾画的边界信息最为准确，变化不明显区域也能分割得很好；第5行是大结节，所有模型都能划分出大致的轮廓信息，对于细致的边界，本文模型的分割效果最好，保留了更多的细节。公共数据集DDTI中没有极小的结节，在图7展示的5幅图像中，第1行—3行是中等大小的结节，各模型分割都较准确，没有明显不足。第4、5行是边界不清晰、细节信息较多的大结节，本文模型分割效果远优越于其余模型，虽然边界略有缺失，不够圆滑，但整体的划分没有明显错误，而其他模型的分割结果都有较大的缺失。在TN3K公共数据集中，除了形态、大小的差异，数据集中还包括部分多结节的图像，如图8第2行所示，除了本文模型，只有Segnet和CE_Net能分割出两个结节的大致区域。但是Segnet在干扰信息较多的小结节图像中表现较差，如第1行，容易将图像中灰度较深的部分误认为是结节部分。综合不同算法在3个数据集的表现，各个模型在划分中等大小的结节时表现都不错，但是只有本文模型在分割小结节和大结节时都能将边缘信息完整勾画，不会将多余组织误认为成结节，也不会产生过多的信息缺失。3.5　消融实验结果在内部数据集上对面向甲状腺结节超声图像分割的多尺度特征融合“h”形网络展开消融实验，使用UNet网络作为消融实验的基准模型，结果如表5所示。可以看出，1）对提出的h网络框架进行实验， h-Net在有效降低模型参数量的基础上性能超越了UNet，网络大小仅为UNet的54.04%，DSC、SEN和SPE分别提高1.31%、1.13%和2.85%，HD下降0.112 8；2）在h-Net上，针对增强下采样模块（EDS）和融合卷积池化金字塔模块（FCPP）分别进行实验，验证模块的有效性；EDS和FCPP不同程度提升了网络的分割精度和泛化能力；3）在h-Net上，一起添加EDS和FCPP，验证网络结构的有效性和合理性，在融合两个解码器特征信息的基础上，EDS主要提升分割准确率，FCPP结合多尺度特征信息，增强模型的泛化能力，最终模型参数量只有UNet的79.5%，DSC、SEN和SPE分别提高5.08%、5.23%和11.36%，HD下降0.336 0。10.11834/jig.220078.T005表5在内部数据集上的消融实验Table 5Ablation experiments on internal dataset方法DSCHDSENSPE参数量/MUNet0.821 31.271 60.827 40.883 732.2h-Net0.834 41.158 80.838 70.912 217.4h-Net+FCPP0.837 61.147 70.856 90.953 719.3h-Net+EDS0.863 81.016 90.869 40.954 623.7h-Net+EDS+FCPP0.872 10.935 60.879 70.997 325.6注：加粗字体表示各列最优结果。此外，为了验证h-Net框架以及EDS和FCPP组件的有效性，在公开数据集DDTI和TN3K上展开消融实验，结果如表6和表7所示。可以看出，1）在DDTI中，h-Net相比基准模型UNet有全方位提高，在TN3K中，虽然h-Net的SEN与UNet相比略有下降，但分割的重要指标DSC和HD均有提升，DSC提高了2.18%，HD甚至大幅降低10.728 4；2）在h-Net上分别添加FCPP和EDS模块，两个模块在两个数据集上均不同程度提升了网络的性能，需要参数较多的EDS组件对于DSC和HD指标的提升更加明显；3）将EDS和FCPP组合到h-Net上，在两个数据集上的测试结果都是最优。消融实验充分验证了h-Net框架、EDS和FCPP组件的有效性和网络整体的合理性。10.11834/jig.220078.T006表6在DDTI数据集上的消融实验Table 6Ablation experiments on the DDTI dataset方法DSCHDSENSPEUNet0.677 85.763 40.691 80.869 3h-Net0.696 05.679 10.723 40.882 2h-Net+FCPP0.716 95.341 20.758 60.939 3h-Net+EDS0.732 95.159 00.753 80.954 6h-Net+EDS+FCPP0.758 05.028 10.778 00.977 3注：加粗字体表示各列最优结果。10.11834/jig.220078.T007表7在TN3K数据集上的消融实验Table 7Ablation experiments on the TN3K dataset方法DSCHDSENSPEUNet0.686 617.578 60.817 60.926 4h-Net0.708 46.849 90.796 90.952 3h-Net+FCPP0.723 85.860 10.812 50.966 3h-Net+EDS0.780 35.077 10.824 30.956 5h-Net+EDS+FCPP0.781 54.472 60.829 00.978 1注：加粗字体表示各列最优结果。4　结论针对目前甲状腺结节大小、形态差距较大而导致结节分割准确率不高、泛化性能不强的问题，本文提出面向甲状腺结节超声图像分割的多尺度特征融合“h”形网络，设计了一种h-Net网络框架，包括一个编码器和两个解码器（解码器I和解码器II）。通过解码器I初步学习获取的特征信息指导解码器II的分割过程，加强了甲状腺结节的特征表达，并在编码器中构造了增强下采样结构，降低模型在下采样过程中的信息损失，保留更多的细节特征。最后在解码器II中构建融合卷积池化金字塔模块，在实现网络多尺度、能够保证对不同大小的结节的分割精度的同时，压缩网络所需的参数信息，便于完善计算机医疗体系。本文在3个数据集上进行实验，并与6种不同模型进行对比，验证了模型的有效性。实验结果证明，与其他网络结构相比，本文算法鲁棒性好，分割精度高，具有更强的泛化性。但是，本文算法仍然存在不足。本文网络参数虽然基于DeepLab v3+降低了将近40%，但对于目前的医疗硬件设备条件而言，计算所需的内存依然很大，参数量需要进一步减少。此外，模型分割边界不规则的图像时依然会损失部分细节信息，使分割结果与标签有一定差距，需要进一步提高模型的精确分割能力，使研究更加贴近于实际应用。