网刊加载中。。。

0引言人体各种解剖结构的相关性、图像特征的特殊性、灰色信息的复杂性和形态的多样性对医学图像分割工作提出了巨大的挑战。基于计算机断层扫描影像的肺部解剖结构分割是计算机技术和生物医学工程的交叉领域，引起了研究人员的广泛关注。解剖结构的准确提取、模型构建和3维可视化有助于医生了解和优化治疗方案。肺部CT (computed tomography)影像解剖结构的分割是最基础、必要的环节，具有重要的理论研究和实际应用价值(van Rikxoort和van Ginneken，2013)。高质量的数据标签对于医学图像分割至关重要。由于缺乏感兴趣区域的专家注释，以及缺乏共享标签数据的基础设施和标准，基于CT影像的肺部解剖结构标签数据很少。目前，绝大多数这类数据集都是由图像医学图像计算和计算机辅助干预协会(Medical Image Computing and Computer Assisted Intervention Society, MICCAI) 提出并开放应用，同时为研究人员提供了一个评估肺部CT解剖结构分割算法的平台。MICCAI陆续组织了多项挑战赛，2009年EXACT09挑战赛(extraction of airways from CT 2009)(Lo等, 2012)提供了一个支气管分割方法的评估平台, 以及训练和测试的图像各20组, 目的是比较不同成像条件和病变情况下各种方法对分割图像的性能。该平台采用BCR(branch detected rate)、TLDR(tree length detected rate)和FPR(false postive rate)作为定量指标。2011年LOLA11(Lobe and Lung Analysis 2011)(Beichel等, 2011)分割挑战赛的目标是对比各种从肺部计算机断层扫描中自动分割肺和肺叶的算法，是第四届肺部图像分析国际研讨会的一部分。LOLA11公布了55组CT影像, 并使用Dice系数对结果进行估。2012年MICCAI挑战赛VESSEL12(vessel segmentation in the lung 2012)(Rudyanto等，2014)公开了一个肺血管分割方法的评估平台，提供了20组CT或CTA (computer tomography-angiography)图像和肺组织标注数据，能够比较各种方法在不同成像条件、病变条件下分割图像的性能。VESSELl2接受概率结果或二元分割结果，数据范围为[0，255]。对各项结果的ROC (receiver operating characteristic)曲线进行分析，以AUC (area under curve)作为定量指标。此外，Simpson等人(2019)创建了一个大型的标签医学图像数据集，该数据集被用于在西班牙格拉纳达举行的2018年医学图像计算和计算机辅助干预会议期间举行的一项挑战赛——医学分割十项全能。该数据集公开了10个标注的图像数据集，是一个大型标注的临床相关解剖结构的医学图像数据集。目前，其他标注数据集大多集中在胸腔容积和胸腔积液(Kiser等，2020)、肺结节(Pedrosa等，2019)、肺炎(Maguolo和Nanni，2021)、肝脏分割(Simpson等，2019)和鼻咽癌(Li等，2019)等。基于CT图像的支气管、肺动静脉和肺叶的标注数据集很少。在前人研究的基础上，本文提出了一个带标签的医学图像数据集，用于肺部CT解剖结构分割算法的开发和评估。该数据集由67组CT/CTA组成，每组CT/CTA都对应标注支气管、肺实质、肺叶、肺动脉和肺静脉的标签。该数据集的目标是评估最先进的肺部解剖结构分割方法在胸部CT扫描中的表现。许多肺部解剖结构分割的算法已经发表，但直接比较非常困难，不同方法通常在不同数据集上使用不同评价指标进行评价。部分方法可以根据论文复现，但往往需要设置一些参数，而这些参数需要对方法深入了解，或者需要有不公开的训练数据。该数据集提供了一组具有不同异常情况的胸部CT扫描数据，对于这些数据，已经建立了气道、肺实质、肺叶和肺动脉及静脉分割的参考标准。通过将所有方法与这个相同的参考标准进行比较，可以进行公平且有意义的评估。本文详细介绍了包含这4部分标注的图像数据集，以便研究人员有效利用这些数据。1数据集生成该数据集通过医学影像智能计算教育部重点实验室(Key Laboratory of Medical Imaging Intelligent Computing, Ministry of Education) 软件deepinsight并配合人工修正对DICOM(digital imaging and communications in medicine)原始数据进行标注，由医学影像学方向的若干研究成员负责注释校验，当标注结果出现不一致时，根据解剖结构和影像学特征等专业知识进行共同探讨、重新评判并统一标注结果。本数据集包含67组CT和CTA影像，所有影像均通过纵隔窗算法重建。24组CT扫描图像的采集和重建参数如下：切片层厚0.75~1.5 mm；电压120 kVp；切片数192~576；管电流88~215 mA。43组CTA扫描数据的采集和重建参数如下：切片层厚0.625~1.5 mm; 电压120 kVp; 切片数285~557;管电流199~585 mA。数据集的详细参数信息如表 1和表 2所示，其中部分组电流N/A表示该组电流参数存在缺失。表1 CT采集和重建参数 ID 成像方式层厚/mm 切片数量电压/kVp 电流/mA CT-01 CT 0.75 576 120 N/A CT-02 CT 1 541 120 N/A CT-03 CT 1 371 120 N/A CT-04 CT 1 466 120 N/A CT-05 CT 1 378 120 N/A CT-06 CT 1 427 120 130 CT-07 CT 1.5 216 120 211 CT-08 CT 1.5 224 120 198 CT-09 CT 1.5 352 150 N/A CT-10 CT 1.5 234 120 145 CT-11 CT 1.5 208 120 123 CT-12 CT 1.5 212 120 210 CT-13 CT 1.5 219 120 194 CT-14 CT 1.5 210 120 178 CT-15 CT 1.5 195 120 157 CT-16 CT 1.5 214 120 122 CT-17 CT 1.5 192 120 178 CT-18 CT 1.5 200 120 147 CT-19 CT 1.5 211 120 215 CT-20 CT 1.5 212 120 116 CT-21 CT 1.5 256 110 88 CT-22 CT 1.5 226 120 106 CT-23 CT 1.5 204 120 114 CT-24 CT 1.5 212 120 144 CT acquisition and reconstruction parametersTable 1表2 CTA采集和重建参数 ID 成像方式层厚/mm 切片数量电压/kVp 电流/mA CTA-01 CTA 0.625 461 120 199 CTA-02 CTA 0.625 487 120 199 CTA-03 CTA 1 557 120 N/A CTA-04 CTA 1 533 120 461 CTA-05 CTA 1 406 120 389 CTA-06 CTA 1 455 120 N/A CTA-07 CTA 1 535 120 N/A CTA-08 CTA 1 458 120 N/A CTA-09 CTA 1 442 120 N/A CTA-10 CTA 1 413 120 357 CTA-11 CTA 1 468 120 N/A CTA-12 CTA 1 439 120 N/A CTA-13 CTA 1 406 120 N/A CTA-14 CTA 1 516 120 457 CTA-15 CTA 1 462 120 N/A CTA-16 CTA 1 447 120 N/A CTA-17 CTA 1 403 120 470 CTA-18 CTA 1 543 120 585 CTA-19 CTA 1 338 120 393 CTA-20 CTA 1 403 120 446 CTA-21 CTA 1 418 120 N/A CTA-22 CTA 1 536 120 N/A CTA-23 CTA 1 506 120 N/A CTA-24 CTA 1 448 120 385 CTA-25 CTA 1 393 120 N/A CTA-26 CTA 1 446 120 437 CTA-27 CTA 1 403 120 364 CTA-28 CTA 1 489 120 419 CTA-29 CTA 1 429 120 360 CTA-30 CTA 1 506 120 408 CTA-31 CTA 1 442 120 454 CTA-32 CTA 1 433 120 407 CTA-33 CTA 1 451 120 359 CTA-34 CTA 1 493 120 433 CTA-35 CTA 1 478 120 N/A CTA-36 CTA 1 463 120 384 CTA-37 CTA 1 442 120 N/A CTA-38 CTA 1 488 120 426 CTA-39 CTA 1 443 120 494 CTA-40 CTA 1 436 120 368 CTA-41 CTA 1 449 120 N/A CTA-42 CTA 1.25 285 140 N/A CTA-43 CTA 1.5 352 150 N/A CTA acquisition and reconstruction parametersTable 21.1肺实质肺实质分割是计算机辅助肺部疾病诊断和其他解剖结构分割的基础(van Rikxoort和van Ginneken，2013)。肺部不仅包括肺实质，还包括肺血管、病理组织和气道。肺实质在CT图像中是一个巨大的低灰度连接区域。分割出完整的肺实质可以限制气管和肺血管等其他肺部结构的分割范围(Sluimer等, 2006; Mansoor等2015)，降低分割难度。本文通过人工对肺部轮廓进行分割，然后填充肺实质中血管和结节形成的孔洞，得到完整的肺组织。肺部标记的效果如图 1和图 2所示，蓝色和红色分别对应左肺和右肺。图1 示例图像和肺实质标签 Example images and labels of the lung datasetFig 1((a) lung labeled by borders; (b) lung labeled by pixel dots; (c) 3D display of left and right lung) 图2 6组CT和6组CTA肺实质3维显示示例 Examples of 3D display of lung parenchyma in 6 groups of CT and 6 groups of CTAFig 21.2支气管支气管分割是指气道腔的分割。支气管可作为解剖学先行知识，辅助肺叶、肺实质、肺动脉和肺静脉的分割。通常，低级气管分支的管腔完整，与肺实质边界清晰，分割难度较小。随着气管的分裂，小分支的管腔与肺实质边界逐渐模糊，加之影像学缺陷和病变干扰，分割难度逐渐增加。同时，模糊边界远端仍可能存在清晰的气管，造成气管分支前后断裂(Pu等，2012；Lo等，2012)。本文先对切片中的气管进行标注，再对断裂部分前后的分支进行连接，得到完整的气道。气道被标记后的效果如图 3和图 4所示，其中黄色对应支气管。图3 示例图像和支气管标签 Example images and labels of the airway datasetFig 3((a) airway labeled by borders; (b) airway labeled by pixel dots; (c) 3D display of airway) 图4 6组CT和6组CTA支气管3维显示示例 Examples of 3D display of airway in 6 groups of CT and 6 groups of CTAFig 41.3肺叶左肺和右肺均被肺裂缝分隔为多个肺叶，左肺含上、下两叶，右肺含上、中、下三叶(Doel等，2015)。所有肺叶均包含单独的肺叶气管和血管树，形成一个独立的功能单元(van Rikxoort等，2009)。当肺组织中的肺叶具有完整的肺裂隙时，较容易进行分割。但受限于肺裂隙提取的不连续性，或因病变导致裂隙不完整，难以获得肺叶之间的完整边界。本文首先根据气管的解剖结构对各叶进行标注，再根据肺裂隙调整不同的叶区，得到所有肺叶区域。被标注的肺叶效果如图 5和图 6所示，其中5种颜色对应不同肺叶区域。图5 示例图像和肺叶标签 Example images and labels of the lobe datasetFig 5((a) lobe labeled by borders; (b) lobe labeled by pixel dots; (c) 3D display of lobes) 图6 6组CT和6组CTA肺叶3维显示示例 Examples of 3D display of lobes in 6 groups of CT and 6 groups of CTAFig 61.4肺动脉和肺静脉肺血管包括肺动脉和肺静脉，是气体运输和交换的媒介(Rudyanto等，2014)。靠近肺动脉和肺静脉的边界清晰，较易分离，但随着肺血管的分化，结构逐渐复杂，部分动脉分支交织在一起，无法直接区分(Saha等，2010；Payer等，2016)。此外，由于肺血管数量众多，动脉和静脉分支的灰度和形态极不规则，也无法根据这些特性来分离动脉和静脉。本文首先对肺血管进行标记，然后根据解剖结构等其他属性和计算机算法及手动方式对肺动脉和肺静脉进行分离，最终得到不同颜色标记的肺动脉和肺静脉。动脉和静脉的标记效果如图 7和图 8所示，红色对应动脉, 蓝色对应静脉。图7 示例图像和肺动静脉标签 Example images and labels of pulmonary artery and vein datasetFig 7((a) pulmonary artery and vein labeled by borders; (b) pulmonary artery and vein labeled by pixel dots; (c) 3D display of pulmonary artery and vein) 图8 6组CT和6组CTA肺动静脉3维显示示例 Example of 3D display of artery and vein in 6 groups of CT and 6 groups of CTAFig 8为了更好地了解肺动脉和静脉各个分支的特性，本数据集保留部分源自心脏和肺实质外的血管组织。这部分组织可以帮助临床医生更好地考虑血管的局部和全局信息，包括动脉和支气管的平行结构和紧密程度、动静脉根部的解剖信息和连接信息(Payer等，2016)。2数据集应用本文数据集已用于肺部CT解剖结构分割医学图像挑战赛——在2020年举行的第四届国际图像计算与数字医学研讨会(the 4th International Symposium on Image Computing and Digital Medicine), 该挑战赛提供了一个肺血管、支气管和肺实质的评估平台，提供了15组CT和15组CTA影像与对应标签图像，其中训练数据集CT和CTA数据各10组，测试数据集CT和CTA数据各5组，通过Dice系数、过分割率(over segmentation rate，OR)、欠分割率(under segmentation rate, UR)、医学和算法行业专家对分割和3维重建效果进行了评估，目的是比较各种算法分割肺部解剖结构的性能。实验室已公开数据集，由研究者向作者提出使用申请后免费提供，促进肺部组织分割算法更深入广泛的研究。针对肺部解剖结构的分割工作，参与决赛的12支队伍(T1~T12)中有9支使用了U-Net网络或它的变体形式。其他提高分割准确率的方法包括注意力机制、多尺度特征信息融合、nnU-Net及尺度感知金字塔网络等。本文针对12支队伍提出的方法所取得的支气管、肺实质和肺血管的分割结果进行了整理，各队伍的分割算法由其所在研究机构后续进行深入研究。2.1支气管表 3和表 4展示的是各队分割支气管的Dice系数、OR和UR结果及使用的方法。表3 各队分割CT图像中支气管的Dice系数和OR, UR结果队伍方法 Dice OR UR T3 U-Net&Postprocessing 0.855 0.406 0.381 T8 nnU-Net 0.843 0.392 0.409 T5 CS2 Net-WGAN/Inception-U-Net-WGAN 0.820 0.371 0.456 T10 Attention & U-Net 0.804 0.364 0.475 T1 nnU-Net 0.798 0.495 0.319 T11 CPFNet 0.795 0.390 0.397 T2 3D U-Net 0.795 0.448 0.327 T9 Attention & U-Net 0.725 0.514 0.368 T12 Attention & U-Net 0.676 0.390 0.687 T6 Multi-scale Fusion Net 0.667 0.563 0.274 T4 Attention & U-Net 0.608 0.510 0.480 T7 Inf-Net 0.483 0.353 0.775 Dice coefficient and OR, UR results of airway segmentation in CT images of each teamTable 3表4 各队分割CTA图像中支气管的Dice系数和OR, UR结果队伍方法 Dice OR UR T3 U-Net&Postprocessing 0.726 0.394 0.438 T8 nnU-Net 0.723 0.397 0.471 T5 CS2 Net-WGAN/Inception-U-Net-WGAN 0.737 0.404 0.464 T10 Attention & U-Net 0.709 0.391 0.484 T1 nnU-Net 0.735 0.506 0.372 T11 CPFNet 0.728 0.422 0.401 T2 3D U-Net 0.721 0.439 0.390 T9 Attention & U-Net 0.328 0.624 0.340 T12 Attention & U-Net 0.446 0.434 0.425 T6 Multi-scale Fusion Net 0.488 0.584 0.173 T4 Attention & U-Net 0.534 0.560 0.376 T7 Inf-Net 0.589 0.395 0.550 Dice coefficient and OR, UR results of airway segmentation in CTA images of each teamTable 4支气管分割结果选取了一组代表性结果，将所有队伍最终排位赛2维分割结果图通过MATLAB工具进行了3维可视化。如图 9所示，第1幅图为基准值(ground truth)。图9 各队分割肺气管结果的3维可视化 3D display of pulmonary trachea segmentation results in each teamFig 9可以看到大多数CT图像分割结果的Dice系数处于0.7~0.9，而部分处于0.6以下主要是因为网络不稳定，或泛化性能过低导致部分测试集结果误差较大。而高于0.8的队伍大多是因为分割后加入了后处理过程，去除了过分割的部分，从而使Dice系数升高。大多数CTA图像分割结果的Dice系数处于0.6~0.8，只有极少数队伍成绩处于0.5以下。经过比较可知，各队分割CT影像的准确率明显高于CTA。原因之一为CTA图像在获取时就被注射了造影剂，造影剂的效果是使肺静脉的亮度变高，从而增加了图像内部各组织间的多样性和差异性，使得网络难以区分。2.2肺实质表 5和表 6展示的是各队伍分割肺实质的Dice系数、OR和UR结果及使用的方法。表5 各队分割CT图像中肺实质的Dice系数和OR, UR结果队伍方法 Dice OR UR T3 U-Net&Postprocessing 0.991 0.185 0.183 T2 U-Net 0.987 0.190 0.187 T10 Attention & U-Net 0.985 0.182 0.195 T8 nnU-Net 0.984 0.188 0.136 T1 nnU-Net 0.972 0.189 0.182 T12 Attention & U-Net 0.968 0.189 0.216 T11 CPFNet 0.925 0.191 0.397 T5 U-Net-WGAN 0.890 0.232 0.122 T7 Inf-Net 0.881 0.241 0.135 T9 U-Net 0.868 0.213 0.113 T6 Multi-scale Fusion Net 0.861 0.236 0.100 T4 Attention & U-Net 0.747 0.264 0.037 Dice coefficient and OR, UR results of lung parenchyma segmentation in CT images of each teamTable 5表6 各队分割CTA图像中肺实质的Dice系数和OR, UR结果队伍方法 Dice OR UR T3 U-Net&Postprocessing 0.983 0.133 0.138 T2 U-Net 0.984 0.134 0.134 T10 Attention & U-Net 0.985 0.129 0.148 T8 nnU-Net 0.980 0.131 0.153 T1 nnU-Net 0.981 0.132 0.150 T12 Attention & U-Net 0.931 0.141 0.174 T11 CPFNet 0.911 0.142 0.099 T5 U-Net-WGAN 0.957 0.185 0.125 T7 Inf-Net 0.874 0.195 0.153 T9 U-Net 0.925 0.332 0.165 T6 Multi-scale Fusion Net 0.891 0.182 0.090 T4 Attention & U-Net 0.774 0.224 0.040 Dice coefficient and OR, UR results of lung parenchyma segmentation in CTA images of each teamTable 6从肺实质分割结果中选取了一组代表性结果，如图 10所示，第1幅图为真值(ground truth)。图10 各队分割肺实质的3维可视化结果 3D display of lung parenchyma segmentation results in each teamFig 10各队分割肺实质的结果总体上比较令人满意，说明卷积神经网络在分割区域较大的目标时具有良好的性能。由表 5、表 6和图 10可以看出，由于没有进行后处理操作，在CT/CTA中T4、T9均存在明显的过分割现象，并存在不属于肺实质的细小区域出现。T12对于CT/CTA图像的分割存在细微欠分割现象，分割结果表面比较粗糙，后处理可能没有加入平滑处理。由于各组数据预处理操作并不相同，所以对网络模型性能本身的影响较大。值得注意的是，对于分割肺实质这种前景和背景像素量差距较大的图像，对损失函数进行一些调整，使权重尽量向前景部分倾斜, 可能会对结果的准确性带来一定程度的提升。2.3肺血管表 7和表 8展示的是各队分割肺血管的Dice系数、OR和UR结果及使用的方法。表7 各队分割CT图像中肺血管的Dice系数和OR, UR结果队伍方法 Dice OR UR T4 3D U-Net 0.797 0.285 0.489 T1 U-Net 0.786 0.281 0.500 T2 nnU-Net 0.779 0.304 0.460 T8 U-Net & Attention 0.773 0.287 0.504 T11 CPFNet & Attention 0.768 0.290 0.513 T5 Multi-scale Fusion Net 0.731 0.525 0.328 T12 U-Net-TS-WGAN 0.719 0.305 0.526 T3 nnU-Net 0.718 0.268 0.555 T9 U-Net & Attention 0.700 0.363 0.500 T6 U-Net & Attention 0.700 0.403 0.394 T7 U-Net & Attention 0.530 0.353 0.660 T10 Inf-Net & Attention 0.488 0.277 0.634 Dice coefficient and OR, UR results of pulmonary vessels segmentation in CT images of each teamTable 7表8 各队分割CTA图像中肺血管的Dice系数和OR, UR结果队伍方法 Dice OR UR T4 3D U-Net 0.794 0.521 0.266 T1 U-Net 0.816 0.491 0.289 T2 nnU-Net 0.682 0.635 0.275 T8 U-Net & Attention 0.742 0.569 0.278 T11 CPFNet & Attention 0.741 0.551 0.285 T5 Multi-scale Fusion Net 0.569 0.752 0.241 T12 U-Net-TS-WGAN 0.735 0.558 0.318 T3 nnU-Net 0.782 0.506 0.296 T9 U-Net & Attention 0.512 0.680 0.270 T6 U-Net & Attention 0.319 0.737 0.186 T7 U-Net & Attention 0.582 0.707 0.338 T10 Inf-Net & Attention 0.647 0.452 0.481 Dice coefficient and OR, UR results of pulmonary vessels segmentation in CTA images of each teamTable 8如图 11所示，选取了一组代表性肺血管分割结果，第1幅图为真值(ground truth)。图11 各队分割肺血管结果的3维可视化 3D display of pulmonary vessels segmentation results in each teamFig 11大多数算法成功地分割了测试集中全部的案例，有极少数没有成功分割，如图 11中T7分割的样例数据。性能比较好的算法在测试集上分割肺血管达到了75 % 以上的Dice系数，如第1组和第4组的算法在CT、CTA影像上都可以得到很好的效果。在CTA上的分割结果要优于CT影像的结果。但是，大多结果都存在着血管断裂、空洞、欠分割和过分割等普遍问题。3数据集处理针对不同的肺部解剖结构，如肺动脉和肺静脉、左肺和右肺等都用不同颜色的像素进行标注，便于2维或3维区分。标注数据经过重新格式化处理，保证了查阅的方便性。本文在提供标准DICOM (digital imaging and communications in medicine) 数据的同时，将所有标注图像从标准的医学数字影像和通信格式(DICOM)转换为便携式网络图形(PNG)图像，并去除DICOM中包含的敏感信息，以便肺部CT影像数据集为该领域的研究人员提供有效的标注数据。4结论本文介绍了一种用于肺部CT解剖结构分割的标注数据集。该数据集由24组CT和43组CTA组成，涵盖了支气管、肺实质、肺叶和肺动静脉4种解剖结构。该数据集包含超过2.5万幅带标记的切片图像，并以彩色像素显示标记的位置，同时提供原始数据的图像格式。数据集也有一些局限性。依据肺部解剖结构，每个肺叶可以进一步细分为2~3个肺段，本数据集没有对肺段进行标注，肺段边界的不可见性意味着很难获得客观准确的参考分割标准。其次，标注数据基本在健康图像上进行，很少在病变图像上进行标注。医学数据集最大的特点是数据的多样性，提高图像分割方法的鲁棒性是该方向的研究重点。最后，医学解剖结构图像的人工标注难免会出现错误。未来，计划增加肺段标记来扩大数据集，通过标记更多的病变图像来增加数据的多样性，使数据集有利于肺部CT解剖结构分割算法的研究。