Print

发布时间: 2021-09-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210130
2021 | Volume 26 | Number 9




    数据集论文    




  <<上一篇 




  下一篇>> 





肺部影像解剖结构分割数据集及应用
expand article info 覃文军1,2, 李小硕2, 周庆华2, 刘盼2, 杨金柱1,2
1. 东北大学医学影像智能计算教育部重点实验室, 沈阳 110169;
2. 东北大学计算机科学与工程学院, 沈阳 110169

摘要

目的 从影像中快速精准地分割出肺部解剖结构可以清晰直观地分辨各解剖结构间的关系,提供有效、客观的辅助诊断信息,大大提高医生的阅片效率并降低医生的工作量。随着影像分割算法的发展,越来越多的方法应用于分割肺部影像中感兴趣的解剖结构区域,但目前尚缺乏包含多种肺部精细解剖结构的影像数据集。本文创建了一个带标签的肺部CT/CTA(computer tomography/computer tomography angiography)影像数据集,以促进肺部解剖结构分割算法的发展。方法 该数据集共标记了67组肺部CT/CTA影像,包括CT影像24组、CTA影像43组,共计切片图像26 157幅。每组CT/CTA有4个不同的目标区域类别,标记对应支气管、肺实质、肺叶、肺动脉和肺静脉。结果 本文利用该数据集,用于肺部CT解剖结构分割医学影像挑战赛——2020年第四届国际图像计算与数字医学研讨会,该挑战赛提供了一个肺血管、支气管和肺实质的评估平台,通过Dice系数、过分割率、欠分割率、医学和算法行业专家对分割和3维重建效果进行了评估,目的是比较各种算法分割肺部解剖结构的性能。结论 本文详细描述了包括支气管、肺实质、肺叶、肺动脉和肺静脉等解剖结构标签的肺部影像数据集和应用结果,为相关研究人员利用本数据集进行更深入的研究提供参考。

关键词

肺部解剖结构; 肺部CT影像; 数据集; 图像分割; 医学影像

Pulmonary image anatomical structure segmentation dataset and applications
expand article info Tan Wenjun1,2, Li Xiaoshuo2, Zhou Qinghua2, Liu Pan2, Yang Jinzhu1,2
1. Key Laboratory of Intelligent Computing in Medical Image, Ministry of Education, Northeastern University, Shenyang 110169, China;
2. School of Computer Science and Engineering, Northeastern University, Shenyang 110169, China
Supported by: Fundamental Research Funds for the Central Universities(N182410001); National Natural Science Foundation of China (61971118)

Abstract

Objective Images-based segmentation of pulmonary anatomy has been set up the anatomical structures to formulate rapid and targeted diagnostic information. The purpose of pulmonary anatomy segmentation has been associated to a pixel in an image with an anatomical structure without the need for manual initialization. A lots of supervised deep learning image segmentation have been illustrated for segmenting regions of interest in pulmonary CT(computer tomography) images. The medical image segmentation has greatly relied on high-quality labeled medical image data, CT images-based lung anatomy labeled data has been insufficient adopted due to the lack of expert annotation of regions of interest and the lack of infrastructure and standards for sharing labeled data. Most of pulmonary CT annotation datasets have focused on thoracic cancer, pulmonary nodules, tuberculosis, pneumonia and lung segmentation. A dataset of pulmonary CT/CTA(computer tomography/computer tomography angiography) scan images with labels has facilitated the evolvement of pulmonary anatomical structure segmentation algorithms. The dataset has been evaluated the performance of state-of-the-art pulmonary anatomy structure segmentation methods for chest CT scans. It has been difficult to compare various algorithms for pulmonary anatomy structure segmentation. Different methods have been evaluated on different datasets using different evaluation measures in common. The related dataset has implemented a dataset of chest CT scans to identify varying abnormalities based on the reference standards in the context of airway, lung parenchyma, lobe and pulmonary artery. The vein segmentations have been established. The dataset has a unique calculation to compare pulmonary anatomy structure algorithms via the comparison all methods against the reference standard baseline. Method A sum of 67 sets of CT/CTA images of the pulmonary have labeled in this dataset including 24 sets of CT images and 43 sets of CTA images via a total of 26 157 slices images. Each set of CT/CTA images have labeled for airway, lung parenchyma, lobe, pulmonary artery and vein. Multi-channel images have represented a variety of regular-based clinical scanners based on a reconstructed mediastinal window algorithm. The medical image-based dataset has been annotated and verified via. Manual corrections have annotated using internal software funded by the Key Laboratory of Medical Imaging Intelligent Computing, Ministry of Education. Result Part of dataset representative segmentation tasks have been used via pulmonary CT anatomical structure segmentation (conference details: the medical image challenge competition held during the 4th International Symposium on Image Computing and Digital Medicine (ISICDM) in Shenyang, China). The representative dataset has included 10 groups of CT and CTA in the training dataset and 5 groups of test dataset. The challenge competition has also offered a platform for evaluating model performance of pulmonary blood vessels, airways and lung parenchyma. The result of segmentation and the effect of 3D reconstruction have evaluated by Dice coefficients, over-segmentation rate, under-segmentation rate and medical and algorithmic industry experts. Conclusion Four parts of labeled image datasets have been used as a pulmonary CT dataset. This dataset has labeled using different colored pixels and saved respectively for different pulmonary anatomies structure. The annotated data have been re-formatted to ensure easy access. The location of the markers in color pixels has been displayed via 25 000 labeled sliced images dataset using the image format of the raw data. All annotated images from the digital imaging and communications in medicine (DICOM) format to portable network graphics (PNG) images has been converted based on standard DICOM data. The chest CT image dataset has provided valid annotated data via DICOM-based sensitive information re-movement. First each set of CT/CTA has labeled with 4 different target region categories in the context of airway, lung parenchyma, lobe and pulmonary artery and vein to complement the anatomical structure of CT/CTA image dataset of the pulmonary. Next, a partially representative dataset has been and the have verified by the challenge competition. Lastly, clear and intuitive 3-dimensional visualized structural images have been reconstructed for the acquisition of each anatomical structure of the pulmonary segmented via CT/CTA images to assist in the diagnosis of pulmonary diseases. First, this dataset has not annotated lung segments. It has been difficult to obtain that the invisibility of lung segment boundaries based on targeted and accurate reference segmentation criteria. Second, the annotation data have been basically carried out on healthy images and rarely on lesion images. The most important feature of medical datasets has upgraded the diversity of data. The robustness of image segmentation have been implementing further. Last, manual annotation of medical anatomical structure images have inevitably resulted some errors. Supplementing lung segments markers and improving the diversity of data based on pulmonary CT anatomical structure segmentation algorithms have been implementing further via labeling more lesion images.

Key words

pulmonary anatomical structure; pulmonary computed tomography image; dataset; segmentation of images; medical imaging

0 引言

人体各种解剖结构的相关性、图像特征的特殊性、灰色信息的复杂性和形态的多样性对医学图像分割工作提出了巨大的挑战。基于计算机断层扫描影像的肺部解剖结构分割是计算机技术和生物医学工程的交叉领域,引起了研究人员的广泛关注。解剖结构的准确提取、模型构建和3维可视化有助于医生了解和优化治疗方案。肺部CT (computed tomography)影像解剖结构的分割是最基础、必要的环节,具有重要的理论研究和实际应用价值(van Rikxoort和van Ginneken,2013)。

高质量的数据标签对于医学图像分割至关重要。由于缺乏感兴趣区域的专家注释,以及缺乏共享标签数据的基础设施和标准,基于CT影像的肺部解剖结构标签数据很少。目前,绝大多数这类数据集都是由图像医学图像计算和计算机辅助干预协会(Medical Image Computing and Computer Assisted Intervention Society, MICCAI) 提出并开放应用,同时为研究人员提供了一个评估肺部CT解剖结构分割算法的平台。MICCAI陆续组织了多项挑战赛,2009年EXACT09挑战赛(extraction of airways from CT 2009)(Lo等, 2012)提供了一个支气管分割方法的评估平台, 以及训练和测试的图像各20组, 目的是比较不同成像条件和病变情况下各种方法对分割图像的性能。该平台采用BCR(branch detected rate)、TLDR(tree length detected rate)和FPR(false postive rate)作为定量指标。2011年LOLA11(Lobe and Lung Analysis 2011)(Beichel等, 2011)分割挑战赛的目标是对比各种从肺部计算机断层扫描中自动分割肺和肺叶的算法,是第四届肺部图像分析国际研讨会的一部分。LOLA11公布了55组CT影像, 并使用Dice系数对结果进行估。2012年MICCAI挑战赛VESSEL12(vessel segmentation in the lung 2012)(Rudyanto等,2014)公开了一个肺血管分割方法的评估平台,提供了20组CT或CTA (computer tomography-angiography)图像和肺组织标注数据,能够比较各种方法在不同成像条件、病变条件下分割图像的性能。VESSELl2接受概率结果或二元分割结果,数据范围为[0,255]。对各项结果的ROC (receiver operating characteristic)曲线进行分析,以AUC (area under curve)作为定量指标。此外,Simpson等人(2019)创建了一个大型的标签医学图像数据集,该数据集被用于在西班牙格拉纳达举行的2018年医学图像计算和计算机辅助干预会议期间举行的一项挑战赛——医学分割十项全能。该数据集公开了10个标注的图像数据集,是一个大型标注的临床相关解剖结构的医学图像数据集。

目前,其他标注数据集大多集中在胸腔容积和胸腔积液(Kiser等,2020)、肺结节(Pedrosa等,2019)、肺炎(Maguolo和Nanni,2021)、肝脏分割(Simpson等,2019)和鼻咽癌(Li等,2019)等。基于CT图像的支气管、肺动静脉和肺叶的标注数据集很少。在前人研究的基础上,本文提出了一个带标签的医学图像数据集,用于肺部CT解剖结构分割算法的开发和评估。该数据集由67组CT/CTA组成,每组CT/CTA都对应标注支气管、肺实质、肺叶、肺动脉和肺静脉的标签。该数据集的目标是评估最先进的肺部解剖结构分割方法在胸部CT扫描中的表现。许多肺部解剖结构分割的算法已经发表,但直接比较非常困难,不同方法通常在不同数据集上使用不同评价指标进行评价。部分方法可以根据论文复现,但往往需要设置一些参数,而这些参数需要对方法深入了解,或者需要有不公开的训练数据。该数据集提供了一组具有不同异常情况的胸部CT扫描数据,对于这些数据,已经建立了气道、肺实质、肺叶和肺动脉及静脉分割的参考标准。通过将所有方法与这个相同的参考标准进行比较,可以进行公平且有意义的评估。本文详细介绍了包含这4部分标注的图像数据集,以便研究人员有效利用这些数据。

1 数据集生成

该数据集通过医学影像智能计算教育部重点实验室(Key Laboratory of Medical Imaging Intelligent Computing, Ministry of Education) 软件deepinsight并配合人工修正对DICOM(digital imaging and communications in medicine)原始数据进行标注,由医学影像学方向的若干研究成员负责注释校验,当标注结果出现不一致时,根据解剖结构和影像学特征等专业知识进行共同探讨、重新评判并统一标注结果。本数据集包含67组CT和CTA影像,所有影像均通过纵隔窗算法重建。24组CT扫描图像的采集和重建参数如下:切片层厚0.75~1.5 mm;电压120 kVp;切片数192~576;管电流88~215 mA。43组CTA扫描数据的采集和重建参数如下:切片层厚0.625~1.5 mm; 电压120 kVp; 切片数285~557;管电流199~585 mA。数据集的详细参数信息如表 1表 2所示,其中部分组电流N/A表示该组电流参数存在缺失。

表 1 CT采集和重建参数
Table 1 CT acquisition and reconstruction parameters

下载CSV
ID 成像方式 层厚/mm 切片数量 电压/kVp 电流/mA
CT-01 CT 0.75 576 120 N/A
CT-02 CT 1 541 120 N/A
CT-03 CT 1 371 120 N/A
CT-04 CT 1 466 120 N/A
CT-05 CT 1 378 120 N/A
CT-06 CT 1 427 120 130
CT-07 CT 1.5 216 120 211
CT-08 CT 1.5 224 120 198
CT-09 CT 1.5 352 150 N/A
CT-10 CT 1.5 234 120 145
CT-11 CT 1.5 208 120 123
CT-12 CT 1.5 212 120 210
CT-13 CT 1.5 219 120 194
CT-14 CT 1.5 210 120 178
CT-15 CT 1.5 195 120 157
CT-16 CT 1.5 214 120 122
CT-17 CT 1.5 192 120 178
CT-18 CT 1.5 200 120 147
CT-19 CT 1.5 211 120 215
CT-20 CT 1.5 212 120 116
CT-21 CT 1.5 256 110 88
CT-22 CT 1.5 226 120 106
CT-23 CT 1.5 204 120 114
CT-24 CT 1.5 212 120 144

表 2 CTA采集和重建参数
Table 2 CTA acquisition and reconstruction parameters

下载CSV
ID 成像方式 层厚/mm 切片数量 电压/kVp 电流/mA
CTA-01 CTA 0.625 461 120 199
CTA-02 CTA 0.625 487 120 199
CTA-03 CTA 1 557 120 N/A
CTA-04 CTA 1 533 120 461
CTA-05 CTA 1 406 120 389
CTA-06 CTA 1 455 120 N/A
CTA-07 CTA 1 535 120 N/A
CTA-08 CTA 1 458 120 N/A
CTA-09 CTA 1 442 120 N/A
CTA-10 CTA 1 413 120 357
CTA-11 CTA 1 468 120 N/A
CTA-12 CTA 1 439 120 N/A
CTA-13 CTA 1 406 120 N/A
CTA-14 CTA 1 516 120 457
CTA-15 CTA 1 462 120 N/A
CTA-16 CTA 1 447 120 N/A
CTA-17 CTA 1 403 120 470
CTA-18 CTA 1 543 120 585
CTA-19 CTA 1 338 120 393
CTA-20 CTA 1 403 120 446
CTA-21 CTA 1 418 120 N/A
CTA-22 CTA 1 536 120 N/A
CTA-23 CTA 1 506 120 N/A
CTA-24 CTA 1 448 120 385
CTA-25 CTA 1 393 120 N/A
CTA-26 CTA 1 446 120 437
CTA-27 CTA 1 403 120 364
CTA-28 CTA 1 489 120 419
CTA-29 CTA 1 429 120 360
CTA-30 CTA 1 506 120 408
CTA-31 CTA 1 442 120 454
CTA-32 CTA 1 433 120 407
CTA-33 CTA 1 451 120 359
CTA-34 CTA 1 493 120 433
CTA-35 CTA 1 478 120 N/A
CTA-36 CTA 1 463 120 384
CTA-37 CTA 1 442 120 N/A
CTA-38 CTA 1 488 120 426
CTA-39 CTA 1 443 120 494
CTA-40 CTA 1 436 120 368
CTA-41 CTA 1 449 120 N/A
CTA-42 CTA 1.25 285 140 N/A
CTA-43 CTA 1.5 352 150 N/A

1.1 肺实质

肺实质分割是计算机辅助肺部疾病诊断和其他解剖结构分割的基础(van Rikxoort和van Ginneken,2013)。肺部不仅包括肺实质,还包括肺血管、病理组织和气道。肺实质在CT图像中是一个巨大的低灰度连接区域。分割出完整的肺实质可以限制气管和肺血管等其他肺部结构的分割范围(Sluimer等, 2006; Mansoor等2015),降低分割难度。本文通过人工对肺部轮廓进行分割,然后填充肺实质中血管和结节形成的孔洞,得到完整的肺组织。肺部标记的效果如图 1图 2所示,蓝色和红色分别对应左肺和右肺。

图 1 示例图像和肺实质标签
Fig. 1 Example images and labels of the lung dataset
((a) lung labeled by borders; (b) lung labeled by pixel dots; (c) 3D display of left and right lung)
图 2 6组CT和6组CTA肺实质3维显示示例
Fig. 2 Examples of 3D display of lung parenchyma in 6 groups of CT and 6 groups of CTA

1.2 支气管

支气管分割是指气道腔的分割。支气管可作为解剖学先行知识,辅助肺叶、肺实质、肺动脉和肺静脉的分割。通常,低级气管分支的管腔完整,与肺实质边界清晰,分割难度较小。随着气管的分裂,小分支的管腔与肺实质边界逐渐模糊,加之影像学缺陷和病变干扰,分割难度逐渐增加。同时,模糊边界远端仍可能存在清晰的气管,造成气管分支前后断裂(Pu等,2012Lo等,2012)。本文先对切片中的气管进行标注,再对断裂部分前后的分支进行连接,得到完整的气道。气道被标记后的效果如图 3图 4所示,其中黄色对应支气管。

图 3 示例图像和支气管标签
Fig. 3 Example images and labels of the airway dataset
((a) airway labeled by borders; (b) airway labeled by pixel dots; (c) 3D display of airway)
图 4 6组CT和6组CTA支气管3维显示示例
Fig. 4 Examples of 3D display of airway in 6 groups of CT and 6 groups of CTA

1.3 肺叶

左肺和右肺均被肺裂缝分隔为多个肺叶,左肺含上、下两叶,右肺含上、中、下三叶(Doel等,2015)。所有肺叶均包含单独的肺叶气管和血管树,形成一个独立的功能单元(van Rikxoort等,2009)。当肺组织中的肺叶具有完整的肺裂隙时,较容易进行分割。但受限于肺裂隙提取的不连续性,或因病变导致裂隙不完整,难以获得肺叶之间的完整边界。本文首先根据气管的解剖结构对各叶进行标注,再根据肺裂隙调整不同的叶区,得到所有肺叶区域。被标注的肺叶效果如图 5图 6所示,其中5种颜色对应不同肺叶区域。

图 5 示例图像和肺叶标签
Fig. 5 Example images and labels of the lobe dataset
((a) lobe labeled by borders; (b) lobe labeled by pixel dots; (c) 3D display of lobes)
图 6 6组CT和6组CTA肺叶3维显示示例
Fig. 6 Examples of 3D display of lobes in 6 groups of CT and 6 groups of CTA

1.4 肺动脉和肺静脉

肺血管包括肺动脉和肺静脉,是气体运输和交换的媒介(Rudyanto等,2014)。靠近肺动脉和肺静脉的边界清晰,较易分离,但随着肺血管的分化,结构逐渐复杂,部分动脉分支交织在一起,无法直接区分(Saha等,2010Payer等,2016)。此外,由于肺血管数量众多,动脉和静脉分支的灰度和形态极不规则,也无法根据这些特性来分离动脉和静脉。

本文首先对肺血管进行标记,然后根据解剖结构等其他属性和计算机算法及手动方式对肺动脉和肺静脉进行分离,最终得到不同颜色标记的肺动脉和肺静脉。动脉和静脉的标记效果如图 7图 8所示,红色对应动脉, 蓝色对应静脉。

图 7 示例图像和肺动静脉标签
Fig. 7 Example images and labels of pulmonary artery and vein dataset
((a) pulmonary artery and vein labeled by borders; (b) pulmonary artery and vein labeled by pixel dots; (c) 3D display of pulmonary artery and vein)
图 8 6组CT和6组CTA肺动静脉3维显示示例
Fig. 8 Example of 3D display of artery and vein in 6 groups of CT and 6 groups of CTA

为了更好地了解肺动脉和静脉各个分支的特性,本数据集保留部分源自心脏和肺实质外的血管组织。这部分组织可以帮助临床医生更好地考虑血管的局部和全局信息,包括动脉和支气管的平行结构和紧密程度、动静脉根部的解剖信息和连接信息(Payer等,2016)。

2 数据集应用

本文数据集已用于肺部CT解剖结构分割医学图像挑战赛——在2020年举行的第四届国际图像计算与数字医学研讨会(the 4th International Symposium on Image Computing and Digital Medicine), 该挑战赛提供了一个肺血管、支气管和肺实质的评估平台,提供了15组CT和15组CTA影像与对应标签图像,其中训练数据集CT和CTA数据各10组,测试数据集CT和CTA数据各5组,通过Dice系数、过分割率(over segmentation rate,OR)、欠分割率(under segmentation rate, UR)、医学和算法行业专家对分割和3维重建效果进行了评估,目的是比较各种算法分割肺部解剖结构的性能。实验室已公开数据集,由研究者向作者提出使用申请后免费提供,促进肺部组织分割算法更深入广泛的研究。

针对肺部解剖结构的分割工作,参与决赛的12支队伍(T1~T12)中有9支使用了U-Net网络或它的变体形式。其他提高分割准确率的方法包括注意力机制、多尺度特征信息融合、nnU-Net及尺度感知金字塔网络等。本文针对12支队伍提出的方法所取得的支气管、肺实质和肺血管的分割结果进行了整理,各队伍的分割算法由其所在研究机构后续进行深入研究。

2.1 支气管

表 3表 4展示的是各队分割支气管的Dice系数、OR和UR结果及使用的方法。

表 3 各队分割CT图像中支气管的Dice系数和OR, UR结果
Table 3 Dice coefficient and OR, UR results of airway segmentation in CT images of each team

下载CSV
队伍 方法 Dice OR UR
T3 U-Net&Postprocessing 0.855 0.406 0.381
T8 nnU-Net 0.843 0.392 0.409
T5 CS2 Net-WGAN/Inception-U-Net-WGAN 0.820 0.371 0.456
T10 Attention & U-Net 0.804 0.364 0.475
T1 nnU-Net 0.798 0.495 0.319
T11 CPFNet 0.795 0.390 0.397
T2 3D U-Net 0.795 0.448 0.327
T9 Attention & U-Net 0.725 0.514 0.368
T12 Attention & U-Net 0.676 0.390 0.687
T6 Multi-scale Fusion Net 0.667 0.563 0.274
T4 Attention & U-Net 0.608 0.510 0.480
T7 Inf-Net 0.483 0.353 0.775

表 4 各队分割CTA图像中支气管的Dice系数和OR, UR结果
Table 4 Dice coefficient and OR, UR results of airway segmentation in CTA images of each team

下载CSV
队伍 方法 Dice OR UR
T3 U-Net&Postprocessing 0.726 0.394 0.438
T8 nnU-Net 0.723 0.397 0.471
T5 CS2 Net-WGAN/Inception-U-Net-WGAN 0.737 0.404 0.464
T10 Attention & U-Net 0.709 0.391 0.484
T1 nnU-Net 0.735 0.506 0.372
T11 CPFNet 0.728 0.422 0.401
T2 3D U-Net 0.721 0.439 0.390
T9 Attention & U-Net 0.328 0.624 0.340
T12 Attention & U-Net 0.446 0.434 0.425
T6 Multi-scale Fusion Net 0.488 0.584 0.173
T4 Attention & U-Net 0.534 0.560 0.376
T7 Inf-Net 0.589 0.395 0.550

支气管分割结果选取了一组代表性结果,将所有队伍最终排位赛2维分割结果图通过MATLAB工具进行了3维可视化。如图 9所示,第1幅图为基准值(ground truth)。

图 9 各队分割肺气管结果的3维可视化
Fig. 9 3D display of pulmonary trachea segmentation results in each team

可以看到大多数CT图像分割结果的Dice系数处于0.7~0.9,而部分处于0.6以下主要是因为网络不稳定,或泛化性能过低导致部分测试集结果误差较大。而高于0.8的队伍大多是因为分割后加入了后处理过程,去除了过分割的部分,从而使Dice系数升高。

大多数CTA图像分割结果的Dice系数处于0.6~0.8,只有极少数队伍成绩处于0.5以下。经过比较可知,各队分割CT影像的准确率明显高于CTA。原因之一为CTA图像在获取时就被注射了造影剂,造影剂的效果是使肺静脉的亮度变高,从而增加了图像内部各组织间的多样性和差异性,使得网络难以区分。

2.2 肺实质

表 5表 6展示的是各队伍分割肺实质的Dice系数、OR和UR结果及使用的方法。

表 5 各队分割CT图像中肺实质的Dice系数和OR, UR结果
Table 5 Dice coefficient and OR, UR results of lung parenchyma segmentation in CT images of each team

下载CSV
队伍 方法 Dice OR UR
T3 U-Net&Postprocessing 0.991 0.185 0.183
T2 U-Net 0.987 0.190 0.187
T10 Attention & U-Net 0.985 0.182 0.195
T8 nnU-Net 0.984 0.188 0.136
T1 nnU-Net 0.972 0.189 0.182
T12 Attention & U-Net 0.968 0.189 0.216
T11 CPFNet 0.925 0.191 0.397
T5 U-Net-WGAN 0.890 0.232 0.122
T7 Inf-Net 0.881 0.241 0.135
T9 U-Net 0.868 0.213 0.113
T6 Multi-scale Fusion Net 0.861 0.236 0.100
T4 Attention & U-Net 0.747 0.264 0.037

表 6 各队分割CTA图像中肺实质的Dice系数和OR, UR结果
Table 6 Dice coefficient and OR, UR results of lung parenchyma segmentation in CTA images of each team

下载CSV
队伍 方法 Dice OR UR
T3 U-Net&Postprocessing 0.983 0.133 0.138
T2 U-Net 0.984 0.134 0.134
T10 Attention & U-Net 0.985 0.129 0.148
T8 nnU-Net 0.980 0.131 0.153
T1 nnU-Net 0.981 0.132 0.150
T12 Attention & U-Net 0.931 0.141 0.174
T11 CPFNet 0.911 0.142 0.099
T5 U-Net-WGAN 0.957 0.185 0.125
T7 Inf-Net 0.874 0.195 0.153
T9 U-Net 0.925 0.332 0.165
T6 Multi-scale Fusion Net 0.891 0.182 0.090
T4 Attention & U-Net 0.774 0.224 0.040

从肺实质分割结果中选取了一组代表性结果,如图 10所示,第1幅图为真值(ground truth)。

图 10 各队分割肺实质的3维可视化结果
Fig. 10 3D display of lung parenchyma segmentation results in each team

各队分割肺实质的结果总体上比较令人满意,说明卷积神经网络在分割区域较大的目标时具有良好的性能。由表 5表 6图 10可以看出,由于没有进行后处理操作,在CT/CTA中T4、T9均存在明显的过分割现象,并存在不属于肺实质的细小区域出现。T12对于CT/CTA图像的分割存在细微欠分割现象,分割结果表面比较粗糙,后处理可能没有加入平滑处理。由于各组数据预处理操作并不相同,所以对网络模型性能本身的影响较大。值得注意的是,对于分割肺实质这种前景和背景像素量差距较大的图像,对损失函数进行一些调整,使权重尽量向前景部分倾斜, 可能会对结果的准确性带来一定程度的提升。

2.3 肺血管

表 7表 8展示的是各队分割肺血管的Dice系数、OR和UR结果及使用的方法。

表 7 各队分割CT图像中肺血管的Dice系数和OR, UR结果
Table 7 Dice coefficient and OR, UR results of pulmonary vessels segmentation in CT images of each team

下载CSV
队伍 方法 Dice OR UR
T4 3D U-Net 0.797 0.285 0.489
T1 U-Net 0.786 0.281 0.500
T2 nnU-Net 0.779 0.304 0.460
T8 U-Net & Attention 0.773 0.287 0.504
T11 CPFNet & Attention 0.768 0.290 0.513
T5 Multi-scale Fusion Net 0.731 0.525 0.328
T12 U-Net-TS-WGAN 0.719 0.305 0.526
T3 nnU-Net 0.718 0.268 0.555
T9 U-Net & Attention 0.700 0.363 0.500
T6 U-Net & Attention 0.700 0.403 0.394
T7 U-Net & Attention 0.530 0.353 0.660
T10 Inf-Net & Attention 0.488 0.277 0.634

表 8 各队分割CTA图像中肺血管的Dice系数和OR, UR结果
Table 8 Dice coefficient and OR, UR results of pulmonary vessels segmentation in CTA images of each team

下载CSV
队伍 方法 Dice OR UR
T4 3D U-Net 0.794 0.521 0.266
T1 U-Net 0.816 0.491 0.289
T2 nnU-Net 0.682 0.635 0.275
T8 U-Net & Attention 0.742 0.569 0.278
T11 CPFNet & Attention 0.741 0.551 0.285
T5 Multi-scale Fusion Net 0.569 0.752 0.241
T12 U-Net-TS-WGAN 0.735 0.558 0.318
T3 nnU-Net 0.782 0.506 0.296
T9 U-Net & Attention 0.512 0.680 0.270
T6 U-Net & Attention 0.319 0.737 0.186
T7 U-Net & Attention 0.582 0.707 0.338
T10 Inf-Net & Attention 0.647 0.452 0.481

图 11所示,选取了一组代表性肺血管分割结果,第1幅图为真值(ground truth)。

图 11 各队分割肺血管结果的3维可视化
Fig. 11 3D display of pulmonary vessels segmentation results in each team

大多数算法成功地分割了测试集中全部的案例,有极少数没有成功分割,如图 11中T7分割的样例数据。性能比较好的算法在测试集上分割肺血管达到了75 % 以上的Dice系数,如第1组和第4组的算法在CT、CTA影像上都可以得到很好的效果。在CTA上的分割结果要优于CT影像的结果。但是,大多结果都存在着血管断裂、空洞、欠分割和过分割等普遍问题。

3 数据集处理

针对不同的肺部解剖结构,如肺动脉和肺静脉、左肺和右肺等都用不同颜色的像素进行标注,便于2维或3维区分。标注数据经过重新格式化处理,保证了查阅的方便性。本文在提供标准DICOM (digital imaging and communications in medicine) 数据的同时,将所有标注图像从标准的医学数字影像和通信格式(DICOM)转换为便携式网络图形(PNG)图像,并去除DICOM中包含的敏感信息,以便肺部CT影像数据集为该领域的研究人员提供有效的标注数据。

4 结论

本文介绍了一种用于肺部CT解剖结构分割的标注数据集。该数据集由24组CT和43组CTA组成,涵盖了支气管、肺实质、肺叶和肺动静脉4种解剖结构。该数据集包含超过2.5万幅带标记的切片图像,并以彩色像素显示标记的位置,同时提供原始数据的图像格式。数据集也有一些局限性。依据肺部解剖结构,每个肺叶可以进一步细分为2~3个肺段,本数据集没有对肺段进行标注,肺段边界的不可见性意味着很难获得客观准确的参考分割标准。其次,标注数据基本在健康图像上进行,很少在病变图像上进行标注。医学数据集最大的特点是数据的多样性,提高图像分割方法的鲁棒性是该方向的研究重点。最后,医学解剖结构图像的人工标注难免会出现错误。未来,计划增加肺段标记来扩大数据集,通过标记更多的病变图像来增加数据的多样性,使数据集有利于肺部CT解剖结构分割算法的研究。

参考文献

  • Beichel R, Kiraly A, Kuhnigk J M, McClelland J, Mori K, van Rikxoort E, Rit S, De Bruijne M, van Ginneken B, Kabus S. 2011. The Fourth International Workshop on Pulmonary Image Analysis. London: CreateSpace Independent Publishing Platform
  • Doel T, Gavaghan D J, Grau V. 2015. Review of automatic pulmonary lobe segmentation methods from CT. Computerized Medical Imaging and Graphics, 40: 13-29
  • Kiser K J, Ahmed S, Stieb S, Mohamed A S R, Elhalawani H, Park P Y S, Doyle N S, Wang B J, Barman A, Li Z, Zheng W J, Fuller C D, Giancardo L. 2020. PleThora: pleural effusion and thoracic cavity segmentations in diseased lungs for benchmarking chest CT processing pipelines. Medical Physics, 47(11): 5941-5952 [DOI:10.1002/mp.14424]
  • Li L, Qi D, Jin Y M, Zhou G Q, Tang Y Q, Chen W L, Su B A, Liu F, Tao C J, Jiang N, Li J Y, Tang L L, Xie C M, Huang S M, Ma J, Heng P A, Wee J T S, Chua M L K, Chen H, Sun Y. 2019. Deep learning for automated contouring of primary tumor volumes by MRI for nasopharyngeal Carcinoma. Radiology, 291(3): 677-686 [DOI:10.1148/radiol.2019182012]
  • Lo P, Van Ginneken B, Reinhardt J M, Yavarna T, De Jong P A, Irving B, Fetita C, Ortner M, Pinho R, Sijbers J, Feuerstein M, Fabijanska A, Bauer C, Beichel R, Mendoza C S, Wiemker R, Lee J, Reeves A P, Born S, Weinheimer O, Van Rikxoort E M, Tschirren J, Mori K, Odry B, Naidich D P, Hartmann I, Hoffman E A, Prokop M, Pedersen J H, De Bruijne M. 2012. Extraction of airways from CT (EXACT'09). IEEE Transactions on Medical Imaging, 31(11): 2093-2107 [DOI:10.1109/TMI.2012.2209674]
  • Maguolo G, Nanni L. 2021. A critic evaluation of methods for COVID-19 automatic detection from X-Ray images. Information Fusion, 76: 1-7 [DOI:10.1016/j.inffus.2021.04.008]
  • Mansoor A, Bagci U, Foster B, Xu Z Y, Papadakis G Z, Folio L R, Udupa J K, Mollura D J. 2015. Segmentation and image analysis of abnormal lungs at CT: current approaches, challenges, and future trends. Radiographics, 35(4): 1056-1076 [DOI:10.1148/rg.2015140232]
  • Payer C, Pienn M, Bálint Z, Shekhovtsov A, Talakic E, Nagy E, Olschewski A, Olschewski H, Urschler M. 2016. Automated integer programming based separation of arteries and veins from thoracic CT images. Medical Image Analysis, 34: 109-122 [DOI:10.1016/j.media.2016.05.002]
  • Pedrosa J, Aresta G, Ferreira C, Rodrigues M, Leitão P, Carvalho A S, Rebelo J, Negrão E, Ramos I, Cunha A and Campilho A. 2019. LNDb: a lung nodule database on computed tomography. https://arxiv.org/pdf/1911.08434.pdf
  • Pu J T, Gu S C, Liu S S, Zhu S C, Wilson D, Siegfried J M, Gur D. 2012. CT based computerized identification and analysis of human airways: a review. Medical Physics, 39(5): 2603-2616 [DOI:10.1118/1.4703901]
  • Rudyanto R D, Kerkstra S, Van Rikxoort E M, Fetita C, Brillet P Y, Lefevre C, Xue W Z, Zhu X J, Liang J M, Öksüz i, Vnay D, Kadipaşaoǧlu K, Estépar R S J, Ross J C, Washko G R, Prieto J C, Hoyos M H, Orkisz M, Meine H, Hüllebrand M, Stöcker C, Mir F L, Naranjo V, Villanueva E, Staring M, Xiao C Y, Stoel B C, Fabijanska A, Smistad E, Elster A C, Lindseth F, Foruzan A H, Kiros R, Popuri K, Cobzas D, Jimenez-Carretero D, Santos A, Ledesma-Carbayo M J, Helmberger M, Urschler M, Pienn M, Bosboom D G H, Campo A, Prokop M, de Jong P A, Ortiz-de-Solorzano C, Muñoz-Barrutia A, van Ginneken B. 2014. Comparing algorithms for automated vessel segmentation in computed tomography scans of the lung: the VESSEL12 study. Medical Image Analysis, 18(7): 1217-1232 [DOI:10.1016/j.media.2014.07.003]
  • Saha P K, Gao Z Y, Alford S K, Sonka M, Hoffman E A. 2010. Topomorphologic separation of fused isointensity objects via multiscale opening: separating arteries and veins in 3-D pulmonary CT. IEEE Transactions on Medical Imaging, 29(3): 840-851 [DOI:10.1109/TMI.2009.2038224]
  • Simpson A L, Antonelli M, Bakas S, Bilello M, Farahani K, Van Ginneken B, Kopp-Schneider A, Landman B A, Litjens G, Menze B, Ronneberger O, Summers R M, Bilic P, Christ P F, Do R K G, Gollub M, Golia-Pernicka J, Heckers S H, Jarnagin W R, McHugo M K, Napel S, Vorontsov E, Maier-Hein L and Cardoso J M. 2021. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. [2021-03-05]. https://arxiv.org/pdf/1902.09063.pdf
  • Sluimer I, Schilham A, Prokop M, Van Ginneken B. 2006. Computer analysis of computed tomography scans of the lung: a survey. IEEE Transactions on Medical Imaging, 25(4): 385-405 [DOI:10.1109/TMI.2005.862753]
  • van Rikxoort E M, de Hoop B, van de Vorst S, Prokop M, van Ginneken B. 2009. Automatic segmentation of pulmonary segments from volumetric chest CT scans. IEEE Transactions on Medical Imaging, 28(4): 621-630 [DOI:10.1109/TMI.2008.2008968]
  • van Rikxoort E M, van Ginneken B. 2013. Automated segmentation of pulmonary structures in thoracic computed tomography scans: a review. Physics in Medicine & Biology, 58(17): R187-R220 [DOI:10.1088/0031-9155/58/17/R187]