|
发布时间: 2021-09-16 |
数据集论文 |
|
|
收稿日期: 2021-03-05; 修回日期: 2021-05-21; 预印本日期: 2021-05-28
基金项目: 中央高校基本科研业务费专项资金资助(N182410001);国家自然科学基金项目(61971118)
作者简介:
覃文军, 1983年生, 男, 副教授, 博士生导师, 主要研究方向为人工智能、计算机辅助医疗。E-mail: tanwenjun@cse.neu.edu.cn
李小硕, 男, 硕士研究生, 主要研究方向为医学影像处理与分析。E-mail: 414908645@qq.com 周庆华, 男, 博士研究生, 主要研究方向为人工智能、计算机辅助医疗。E-mail: 475859322@qq.com 刘盼, 女, 硕士研究生, 研究方向为医学影像处理与分析。E-mail: 2974586095@qq.com 杨金柱, 男, 教授, 博士生导师, 主要研究方向为影像处理与分析、人工智能与模式识别, 数据分析。E-mail: yangjinzhu@cse.neu.edu.cn *通信作者: 覃文军 tanwenjun@cse.neu.edu.cn
中图法分类号: TP391.6
文献标识码: A
文章编号: 1006-8961(2021)09-2111-10
|
摘要
目的 从影像中快速精准地分割出肺部解剖结构可以清晰直观地分辨各解剖结构间的关系,提供有效、客观的辅助诊断信息,大大提高医生的阅片效率并降低医生的工作量。随着影像分割算法的发展,越来越多的方法应用于分割肺部影像中感兴趣的解剖结构区域,但目前尚缺乏包含多种肺部精细解剖结构的影像数据集。本文创建了一个带标签的肺部CT/CTA(computer tomography/computer tomography angiography)影像数据集,以促进肺部解剖结构分割算法的发展。方法 该数据集共标记了67组肺部CT/CTA影像,包括CT影像24组、CTA影像43组,共计切片图像26 157幅。每组CT/CTA有4个不同的目标区域类别,标记对应支气管、肺实质、肺叶、肺动脉和肺静脉。结果 本文利用该数据集,用于肺部CT解剖结构分割医学影像挑战赛——2020年第四届国际图像计算与数字医学研讨会,该挑战赛提供了一个肺血管、支气管和肺实质的评估平台,通过Dice系数、过分割率、欠分割率、医学和算法行业专家对分割和3维重建效果进行了评估,目的是比较各种算法分割肺部解剖结构的性能。结论 本文详细描述了包括支气管、肺实质、肺叶、肺动脉和肺静脉等解剖结构标签的肺部影像数据集和应用结果,为相关研究人员利用本数据集进行更深入的研究提供参考。
关键词
肺部解剖结构; 肺部CT影像; 数据集; 图像分割; 医学影像
Abstract
Objective Images-based segmentation of pulmonary anatomy has been set up the anatomical structures to formulate rapid and targeted diagnostic information. The purpose of pulmonary anatomy segmentation has been associated to a pixel in an image with an anatomical structure without the need for manual initialization. A lots of supervised deep learning image segmentation have been illustrated for segmenting regions of interest in pulmonary CT(computer tomography) images. The medical image segmentation has greatly relied on high-quality labeled medical image data, CT images-based lung anatomy labeled data has been insufficient adopted due to the lack of expert annotation of regions of interest and the lack of infrastructure and standards for sharing labeled data. Most of pulmonary CT annotation datasets have focused on thoracic cancer, pulmonary nodules, tuberculosis, pneumonia and lung segmentation. A dataset of pulmonary CT/CTA(computer tomography/computer tomography angiography) scan images with labels has facilitated the evolvement of pulmonary anatomical structure segmentation algorithms. The dataset has been evaluated the performance of state-of-the-art pulmonary anatomy structure segmentation methods for chest CT scans. It has been difficult to compare various algorithms for pulmonary anatomy structure segmentation. Different methods have been evaluated on different datasets using different evaluation measures in common. The related dataset has implemented a dataset of chest CT scans to identify varying abnormalities based on the reference standards in the context of airway, lung parenchyma, lobe and pulmonary artery. The vein segmentations have been established. The dataset has a unique calculation to compare pulmonary anatomy structure algorithms via the comparison all methods against the reference standard baseline. Method A sum of 67 sets of CT/CTA images of the pulmonary have labeled in this dataset including 24 sets of CT images and 43 sets of CTA images via a total of 26 157 slices images. Each set of CT/CTA images have labeled for airway, lung parenchyma, lobe, pulmonary artery and vein. Multi-channel images have represented a variety of regular-based clinical scanners based on a reconstructed mediastinal window algorithm. The medical image-based dataset has been annotated and verified via. Manual corrections have annotated using internal software funded by the Key Laboratory of Medical Imaging Intelligent Computing, Ministry of Education. Result Part of dataset representative segmentation tasks have been used via pulmonary CT anatomical structure segmentation (conference details: the medical image challenge competition held during the 4th International Symposium on Image Computing and Digital Medicine (ISICDM) in Shenyang, China). The representative dataset has included 10 groups of CT and CTA in the training dataset and 5 groups of test dataset. The challenge competition has also offered a platform for evaluating model performance of pulmonary blood vessels, airways and lung parenchyma. The result of segmentation and the effect of 3D reconstruction have evaluated by Dice coefficients, over-segmentation rate, under-segmentation rate and medical and algorithmic industry experts. Conclusion Four parts of labeled image datasets have been used as a pulmonary CT dataset. This dataset has labeled using different colored pixels and saved respectively for different pulmonary anatomies structure. The annotated data have been re-formatted to ensure easy access. The location of the markers in color pixels has been displayed via 25 000 labeled sliced images dataset using the image format of the raw data. All annotated images from the digital imaging and communications in medicine (DICOM) format to portable network graphics (PNG) images has been converted based on standard DICOM data. The chest CT image dataset has provided valid annotated data via DICOM-based sensitive information re-movement. First each set of CT/CTA has labeled with 4 different target region categories in the context of airway, lung parenchyma, lobe and pulmonary artery and vein to complement the anatomical structure of CT/CTA image dataset of the pulmonary. Next, a partially representative dataset has been and the have verified by the challenge competition. Lastly, clear and intuitive 3-dimensional visualized structural images have been reconstructed for the acquisition of each anatomical structure of the pulmonary segmented via CT/CTA images to assist in the diagnosis of pulmonary diseases. First, this dataset has not annotated lung segments. It has been difficult to obtain that the invisibility of lung segment boundaries based on targeted and accurate reference segmentation criteria. Second, the annotation data have been basically carried out on healthy images and rarely on lesion images. The most important feature of medical datasets has upgraded the diversity of data. The robustness of image segmentation have been implementing further. Last, manual annotation of medical anatomical structure images have inevitably resulted some errors. Supplementing lung segments markers and improving the diversity of data based on pulmonary CT anatomical structure segmentation algorithms have been implementing further via labeling more lesion images.
Key words
pulmonary anatomical structure; pulmonary computed tomography image; dataset; segmentation of images; medical imaging
0 引言
人体各种解剖结构的相关性、图像特征的特殊性、灰色信息的复杂性和形态的多样性对医学图像分割工作提出了巨大的挑战。基于计算机断层扫描影像的肺部解剖结构分割是计算机技术和生物医学工程的交叉领域,引起了研究人员的广泛关注。解剖结构的准确提取、模型构建和3维可视化有助于医生了解和优化治疗方案。肺部CT (computed tomography)影像解剖结构的分割是最基础、必要的环节,具有重要的理论研究和实际应用价值(van Rikxoort和van Ginneken,2013)。
高质量的数据标签对于医学图像分割至关重要。由于缺乏感兴趣区域的专家注释,以及缺乏共享标签数据的基础设施和标准,基于CT影像的肺部解剖结构标签数据很少。目前,绝大多数这类数据集都是由图像医学图像计算和计算机辅助干预协会(Medical Image Computing and Computer Assisted Intervention Society, MICCAI) 提出并开放应用,同时为研究人员提供了一个评估肺部CT解剖结构分割算法的平台。MICCAI陆续组织了多项挑战赛,2009年EXACT09挑战赛(extraction of airways from CT 2009)(Lo等, 2012)提供了一个支气管分割方法的评估平台, 以及训练和测试的图像各20组, 目的是比较不同成像条件和病变情况下各种方法对分割图像的性能。该平台采用BCR(branch detected rate)、TLDR(tree length detected rate)和FPR(false postive rate)作为定量指标。2011年LOLA11(Lobe and Lung Analysis 2011)(Beichel等, 2011)分割挑战赛的目标是对比各种从肺部计算机断层扫描中自动分割肺和肺叶的算法,是第四届肺部图像分析国际研讨会的一部分。LOLA11公布了55组CT影像, 并使用Dice系数对结果进行估。2012年MICCAI挑战赛VESSEL12(vessel segmentation in the lung 2012)(Rudyanto等,2014)公开了一个肺血管分割方法的评估平台,提供了20组CT或CTA (computer tomography-angiography)图像和肺组织标注数据,能够比较各种方法在不同成像条件、病变条件下分割图像的性能。VESSELl2接受概率结果或二元分割结果,数据范围为[0,255]。对各项结果的ROC (receiver operating characteristic)曲线进行分析,以AUC (area under curve)作为定量指标。此外,Simpson等人(2019)创建了一个大型的标签医学图像数据集,该数据集被用于在西班牙格拉纳达举行的2018年医学图像计算和计算机辅助干预会议期间举行的一项挑战赛——医学分割十项全能。该数据集公开了10个标注的图像数据集,是一个大型标注的临床相关解剖结构的医学图像数据集。
目前,其他标注数据集大多集中在胸腔容积和胸腔积液(Kiser等,2020)、肺结节(Pedrosa等,2019)、肺炎(Maguolo和Nanni,2021)、肝脏分割(Simpson等,2019)和鼻咽癌(Li等,2019)等。基于CT图像的支气管、肺动静脉和肺叶的标注数据集很少。在前人研究的基础上,本文提出了一个带标签的医学图像数据集,用于肺部CT解剖结构分割算法的开发和评估。该数据集由67组CT/CTA组成,每组CT/CTA都对应标注支气管、肺实质、肺叶、肺动脉和肺静脉的标签。该数据集的目标是评估最先进的肺部解剖结构分割方法在胸部CT扫描中的表现。许多肺部解剖结构分割的算法已经发表,但直接比较非常困难,不同方法通常在不同数据集上使用不同评价指标进行评价。部分方法可以根据论文复现,但往往需要设置一些参数,而这些参数需要对方法深入了解,或者需要有不公开的训练数据。该数据集提供了一组具有不同异常情况的胸部CT扫描数据,对于这些数据,已经建立了气道、肺实质、肺叶和肺动脉及静脉分割的参考标准。通过将所有方法与这个相同的参考标准进行比较,可以进行公平且有意义的评估。本文详细介绍了包含这4部分标注的图像数据集,以便研究人员有效利用这些数据。
1 数据集生成
该数据集通过医学影像智能计算教育部重点实验室(Key Laboratory of Medical Imaging Intelligent Computing, Ministry of Education) 软件deepinsight并配合人工修正对DICOM(digital imaging and communications in medicine)原始数据进行标注,由医学影像学方向的若干研究成员负责注释校验,当标注结果出现不一致时,根据解剖结构和影像学特征等专业知识进行共同探讨、重新评判并统一标注结果。本数据集包含67组CT和CTA影像,所有影像均通过纵隔窗算法重建。24组CT扫描图像的采集和重建参数如下:切片层厚0.75~1.5 mm;电压120 kVp;切片数192~576;管电流88~215 mA。43组CTA扫描数据的采集和重建参数如下:切片层厚0.625~1.5 mm; 电压120 kVp; 切片数285~557;管电流199~585 mA。数据集的详细参数信息如表 1和表 2所示,其中部分组电流N/A表示该组电流参数存在缺失。
表 1
CT采集和重建参数
Table 1
CT acquisition and reconstruction parameters
ID | 成像方式 | 层厚/mm | 切片数量 | 电压/kVp | 电流/mA |
CT-01 | CT | 0.75 | 576 | 120 | N/A |
CT-02 | CT | 1 | 541 | 120 | N/A |
CT-03 | CT | 1 | 371 | 120 | N/A |
CT-04 | CT | 1 | 466 | 120 | N/A |
CT-05 | CT | 1 | 378 | 120 | N/A |
CT-06 | CT | 1 | 427 | 120 | 130 |
CT-07 | CT | 1.5 | 216 | 120 | 211 |
CT-08 | CT | 1.5 | 224 | 120 | 198 |
CT-09 | CT | 1.5 | 352 | 150 | N/A |
CT-10 | CT | 1.5 | 234 | 120 | 145 |
CT-11 | CT | 1.5 | 208 | 120 | 123 |
CT-12 | CT | 1.5 | 212 | 120 | 210 |
CT-13 | CT | 1.5 | 219 | 120 | 194 |
CT-14 | CT | 1.5 | 210 | 120 | 178 |
CT-15 | CT | 1.5 | 195 | 120 | 157 |
CT-16 | CT | 1.5 | 214 | 120 | 122 |
CT-17 | CT | 1.5 | 192 | 120 | 178 |
CT-18 | CT | 1.5 | 200 | 120 | 147 |
CT-19 | CT | 1.5 | 211 | 120 | 215 |
CT-20 | CT | 1.5 | 212 | 120 | 116 |
CT-21 | CT | 1.5 | 256 | 110 | 88 |
CT-22 | CT | 1.5 | 226 | 120 | 106 |
CT-23 | CT | 1.5 | 204 | 120 | 114 |
CT-24 | CT | 1.5 | 212 | 120 | 144 |
表 2
CTA采集和重建参数
Table 2
CTA acquisition and reconstruction parameters
ID | 成像方式 | 层厚/mm | 切片数量 | 电压/kVp | 电流/mA |
CTA-01 | CTA | 0.625 | 461 | 120 | 199 |
CTA-02 | CTA | 0.625 | 487 | 120 | 199 |
CTA-03 | CTA | 1 | 557 | 120 | N/A |
CTA-04 | CTA | 1 | 533 | 120 | 461 |
CTA-05 | CTA | 1 | 406 | 120 | 389 |
CTA-06 | CTA | 1 | 455 | 120 | N/A |
CTA-07 | CTA | 1 | 535 | 120 | N/A |
CTA-08 | CTA | 1 | 458 | 120 | N/A |
CTA-09 | CTA | 1 | 442 | 120 | N/A |
CTA-10 | CTA | 1 | 413 | 120 | 357 |
CTA-11 | CTA | 1 | 468 | 120 | N/A |
CTA-12 | CTA | 1 | 439 | 120 | N/A |
CTA-13 | CTA | 1 | 406 | 120 | N/A |
CTA-14 | CTA | 1 | 516 | 120 | 457 |
CTA-15 | CTA | 1 | 462 | 120 | N/A |
CTA-16 | CTA | 1 | 447 | 120 | N/A |
CTA-17 | CTA | 1 | 403 | 120 | 470 |
CTA-18 | CTA | 1 | 543 | 120 | 585 |
CTA-19 | CTA | 1 | 338 | 120 | 393 |
CTA-20 | CTA | 1 | 403 | 120 | 446 |
CTA-21 | CTA | 1 | 418 | 120 | N/A |
CTA-22 | CTA | 1 | 536 | 120 | N/A |
CTA-23 | CTA | 1 | 506 | 120 | N/A |
CTA-24 | CTA | 1 | 448 | 120 | 385 |
CTA-25 | CTA | 1 | 393 | 120 | N/A |
CTA-26 | CTA | 1 | 446 | 120 | 437 |
CTA-27 | CTA | 1 | 403 | 120 | 364 |
CTA-28 | CTA | 1 | 489 | 120 | 419 |
CTA-29 | CTA | 1 | 429 | 120 | 360 |
CTA-30 | CTA | 1 | 506 | 120 | 408 |
CTA-31 | CTA | 1 | 442 | 120 | 454 |
CTA-32 | CTA | 1 | 433 | 120 | 407 |
CTA-33 | CTA | 1 | 451 | 120 | 359 |
CTA-34 | CTA | 1 | 493 | 120 | 433 |
CTA-35 | CTA | 1 | 478 | 120 | N/A |
CTA-36 | CTA | 1 | 463 | 120 | 384 |
CTA-37 | CTA | 1 | 442 | 120 | N/A |
CTA-38 | CTA | 1 | 488 | 120 | 426 |
CTA-39 | CTA | 1 | 443 | 120 | 494 |
CTA-40 | CTA | 1 | 436 | 120 | 368 |
CTA-41 | CTA | 1 | 449 | 120 | N/A |
CTA-42 | CTA | 1.25 | 285 | 140 | N/A |
CTA-43 | CTA | 1.5 | 352 | 150 | N/A |
1.1 肺实质
肺实质分割是计算机辅助肺部疾病诊断和其他解剖结构分割的基础(van Rikxoort和van Ginneken,2013)。肺部不仅包括肺实质,还包括肺血管、病理组织和气道。肺实质在CT图像中是一个巨大的低灰度连接区域。分割出完整的肺实质可以限制气管和肺血管等其他肺部结构的分割范围(Sluimer等, 2006; Mansoor等2015),降低分割难度。本文通过人工对肺部轮廓进行分割,然后填充肺实质中血管和结节形成的孔洞,得到完整的肺组织。肺部标记的效果如图 1和图 2所示,蓝色和红色分别对应左肺和右肺。
1.2 支气管
支气管分割是指气道腔的分割。支气管可作为解剖学先行知识,辅助肺叶、肺实质、肺动脉和肺静脉的分割。通常,低级气管分支的管腔完整,与肺实质边界清晰,分割难度较小。随着气管的分裂,小分支的管腔与肺实质边界逐渐模糊,加之影像学缺陷和病变干扰,分割难度逐渐增加。同时,模糊边界远端仍可能存在清晰的气管,造成气管分支前后断裂(Pu等,2012;Lo等,2012)。本文先对切片中的气管进行标注,再对断裂部分前后的分支进行连接,得到完整的气道。气道被标记后的效果如图 3和图 4所示,其中黄色对应支气管。
1.3 肺叶
左肺和右肺均被肺裂缝分隔为多个肺叶,左肺含上、下两叶,右肺含上、中、下三叶(Doel等,2015)。所有肺叶均包含单独的肺叶气管和血管树,形成一个独立的功能单元(van Rikxoort等,2009)。当肺组织中的肺叶具有完整的肺裂隙时,较容易进行分割。但受限于肺裂隙提取的不连续性,或因病变导致裂隙不完整,难以获得肺叶之间的完整边界。本文首先根据气管的解剖结构对各叶进行标注,再根据肺裂隙调整不同的叶区,得到所有肺叶区域。被标注的肺叶效果如图 5和图 6所示,其中5种颜色对应不同肺叶区域。
1.4 肺动脉和肺静脉
肺血管包括肺动脉和肺静脉,是气体运输和交换的媒介(Rudyanto等,2014)。靠近肺动脉和肺静脉的边界清晰,较易分离,但随着肺血管的分化,结构逐渐复杂,部分动脉分支交织在一起,无法直接区分(Saha等,2010;Payer等,2016)。此外,由于肺血管数量众多,动脉和静脉分支的灰度和形态极不规则,也无法根据这些特性来分离动脉和静脉。
本文首先对肺血管进行标记,然后根据解剖结构等其他属性和计算机算法及手动方式对肺动脉和肺静脉进行分离,最终得到不同颜色标记的肺动脉和肺静脉。动脉和静脉的标记效果如图 7和图 8所示,红色对应动脉, 蓝色对应静脉。
为了更好地了解肺动脉和静脉各个分支的特性,本数据集保留部分源自心脏和肺实质外的血管组织。这部分组织可以帮助临床医生更好地考虑血管的局部和全局信息,包括动脉和支气管的平行结构和紧密程度、动静脉根部的解剖信息和连接信息(Payer等,2016)。
2 数据集应用
本文数据集已用于肺部CT解剖结构分割医学图像挑战赛——在2020年举行的第四届国际图像计算与数字医学研讨会(the 4th International Symposium on Image Computing and Digital Medicine), 该挑战赛提供了一个肺血管、支气管和肺实质的评估平台,提供了15组CT和15组CTA影像与对应标签图像,其中训练数据集CT和CTA数据各10组,测试数据集CT和CTA数据各5组,通过Dice系数、过分割率(over segmentation rate,OR)、欠分割率(under segmentation rate, UR)、医学和算法行业专家对分割和3维重建效果进行了评估,目的是比较各种算法分割肺部解剖结构的性能。实验室已公开数据集,由研究者向作者提出使用申请后免费提供,促进肺部组织分割算法更深入广泛的研究。
针对肺部解剖结构的分割工作,参与决赛的12支队伍(T1~T12)中有9支使用了U-Net网络或它的变体形式。其他提高分割准确率的方法包括注意力机制、多尺度特征信息融合、nnU-Net及尺度感知金字塔网络等。本文针对12支队伍提出的方法所取得的支气管、肺实质和肺血管的分割结果进行了整理,各队伍的分割算法由其所在研究机构后续进行深入研究。
2.1 支气管
表 3和表 4展示的是各队分割支气管的Dice系数、OR和UR结果及使用的方法。
表 3
各队分割CT图像中支气管的Dice系数和OR, UR结果
Table 3
Dice coefficient and OR, UR results of airway segmentation in CT images of each team
队伍 | 方法 | Dice | OR | UR |
T3 | U-Net&Postprocessing | 0.855 | 0.406 | 0.381 |
T8 | nnU-Net | 0.843 | 0.392 | 0.409 |
T5 | CS2 Net-WGAN/Inception-U-Net-WGAN | 0.820 | 0.371 | 0.456 |
T10 | Attention & U-Net | 0.804 | 0.364 | 0.475 |
T1 | nnU-Net | 0.798 | 0.495 | 0.319 |
T11 | CPFNet | 0.795 | 0.390 | 0.397 |
T2 | 3D U-Net | 0.795 | 0.448 | 0.327 |
T9 | Attention & U-Net | 0.725 | 0.514 | 0.368 |
T12 | Attention & U-Net | 0.676 | 0.390 | 0.687 |
T6 | Multi-scale Fusion Net | 0.667 | 0.563 | 0.274 |
T4 | Attention & U-Net | 0.608 | 0.510 | 0.480 |
T7 | Inf-Net | 0.483 | 0.353 | 0.775 |
表 4
各队分割CTA图像中支气管的Dice系数和OR, UR结果
Table 4
Dice coefficient and OR, UR results of airway segmentation in CTA images of each team
队伍 | 方法 | Dice | OR | UR |
T3 | U-Net&Postprocessing | 0.726 | 0.394 | 0.438 |
T8 | nnU-Net | 0.723 | 0.397 | 0.471 |
T5 | CS2 Net-WGAN/Inception-U-Net-WGAN | 0.737 | 0.404 | 0.464 |
T10 | Attention & U-Net | 0.709 | 0.391 | 0.484 |
T1 | nnU-Net | 0.735 | 0.506 | 0.372 |
T11 | CPFNet | 0.728 | 0.422 | 0.401 |
T2 | 3D U-Net | 0.721 | 0.439 | 0.390 |
T9 | Attention & U-Net | 0.328 | 0.624 | 0.340 |
T12 | Attention & U-Net | 0.446 | 0.434 | 0.425 |
T6 | Multi-scale Fusion Net | 0.488 | 0.584 | 0.173 |
T4 | Attention & U-Net | 0.534 | 0.560 | 0.376 |
T7 | Inf-Net | 0.589 | 0.395 | 0.550 |
支气管分割结果选取了一组代表性结果,将所有队伍最终排位赛2维分割结果图通过MATLAB工具进行了3维可视化。如图 9所示,第1幅图为基准值(ground truth)。
可以看到大多数CT图像分割结果的Dice系数处于0.7~0.9,而部分处于0.6以下主要是因为网络不稳定,或泛化性能过低导致部分测试集结果误差较大。而高于0.8的队伍大多是因为分割后加入了后处理过程,去除了过分割的部分,从而使Dice系数升高。
大多数CTA图像分割结果的Dice系数处于0.6~0.8,只有极少数队伍成绩处于0.5以下。经过比较可知,各队分割CT影像的准确率明显高于CTA。原因之一为CTA图像在获取时就被注射了造影剂,造影剂的效果是使肺静脉的亮度变高,从而增加了图像内部各组织间的多样性和差异性,使得网络难以区分。
2.2 肺实质
表 5和表 6展示的是各队伍分割肺实质的Dice系数、OR和UR结果及使用的方法。
表 5
各队分割CT图像中肺实质的Dice系数和OR, UR结果
Table 5
Dice coefficient and OR, UR results of lung parenchyma segmentation in CT images of each team
队伍 | 方法 | Dice | OR | UR |
T3 | U-Net&Postprocessing | 0.991 | 0.185 | 0.183 |
T2 | U-Net | 0.987 | 0.190 | 0.187 |
T10 | Attention & U-Net | 0.985 | 0.182 | 0.195 |
T8 | nnU-Net | 0.984 | 0.188 | 0.136 |
T1 | nnU-Net | 0.972 | 0.189 | 0.182 |
T12 | Attention & U-Net | 0.968 | 0.189 | 0.216 |
T11 | CPFNet | 0.925 | 0.191 | 0.397 |
T5 | U-Net-WGAN | 0.890 | 0.232 | 0.122 |
T7 | Inf-Net | 0.881 | 0.241 | 0.135 |
T9 | U-Net | 0.868 | 0.213 | 0.113 |
T6 | Multi-scale Fusion Net | 0.861 | 0.236 | 0.100 |
T4 | Attention & U-Net | 0.747 | 0.264 | 0.037 |
表 6
各队分割CTA图像中肺实质的Dice系数和OR, UR结果
Table 6
Dice coefficient and OR, UR results of lung parenchyma segmentation in CTA images of each team
队伍 | 方法 | Dice | OR | UR |
T3 | U-Net&Postprocessing | 0.983 | 0.133 | 0.138 |
T2 | U-Net | 0.984 | 0.134 | 0.134 |
T10 | Attention & U-Net | 0.985 | 0.129 | 0.148 |
T8 | nnU-Net | 0.980 | 0.131 | 0.153 |
T1 | nnU-Net | 0.981 | 0.132 | 0.150 |
T12 | Attention & U-Net | 0.931 | 0.141 | 0.174 |
T11 | CPFNet | 0.911 | 0.142 | 0.099 |
T5 | U-Net-WGAN | 0.957 | 0.185 | 0.125 |
T7 | Inf-Net | 0.874 | 0.195 | 0.153 |
T9 | U-Net | 0.925 | 0.332 | 0.165 |
T6 | Multi-scale Fusion Net | 0.891 | 0.182 | 0.090 |
T4 | Attention & U-Net | 0.774 | 0.224 | 0.040 |
从肺实质分割结果中选取了一组代表性结果,如图 10所示,第1幅图为真值(ground truth)。
各队分割肺实质的结果总体上比较令人满意,说明卷积神经网络在分割区域较大的目标时具有良好的性能。由表 5、表 6和图 10可以看出,由于没有进行后处理操作,在CT/CTA中T4、T9均存在明显的过分割现象,并存在不属于肺实质的细小区域出现。T12对于CT/CTA图像的分割存在细微欠分割现象,分割结果表面比较粗糙,后处理可能没有加入平滑处理。由于各组数据预处理操作并不相同,所以对网络模型性能本身的影响较大。值得注意的是,对于分割肺实质这种前景和背景像素量差距较大的图像,对损失函数进行一些调整,使权重尽量向前景部分倾斜, 可能会对结果的准确性带来一定程度的提升。
2.3 肺血管
表 7和表 8展示的是各队分割肺血管的Dice系数、OR和UR结果及使用的方法。
表 7
各队分割CT图像中肺血管的Dice系数和OR, UR结果
Table 7
Dice coefficient and OR, UR results of pulmonary vessels segmentation in CT images of each team
队伍 | 方法 | Dice | OR | UR |
T4 | 3D U-Net | 0.797 | 0.285 | 0.489 |
T1 | U-Net | 0.786 | 0.281 | 0.500 |
T2 | nnU-Net | 0.779 | 0.304 | 0.460 |
T8 | U-Net & Attention | 0.773 | 0.287 | 0.504 |
T11 | CPFNet & Attention | 0.768 | 0.290 | 0.513 |
T5 | Multi-scale Fusion Net | 0.731 | 0.525 | 0.328 |
T12 | U-Net-TS-WGAN | 0.719 | 0.305 | 0.526 |
T3 | nnU-Net | 0.718 | 0.268 | 0.555 |
T9 | U-Net & Attention | 0.700 | 0.363 | 0.500 |
T6 | U-Net & Attention | 0.700 | 0.403 | 0.394 |
T7 | U-Net & Attention | 0.530 | 0.353 | 0.660 |
T10 | Inf-Net & Attention | 0.488 | 0.277 | 0.634 |
表 8
各队分割CTA图像中肺血管的Dice系数和OR, UR结果
Table 8
Dice coefficient and OR, UR results of pulmonary vessels segmentation in CTA images of each team
队伍 | 方法 | Dice | OR | UR |
T4 | 3D U-Net | 0.794 | 0.521 | 0.266 |
T1 | U-Net | 0.816 | 0.491 | 0.289 |
T2 | nnU-Net | 0.682 | 0.635 | 0.275 |
T8 | U-Net & Attention | 0.742 | 0.569 | 0.278 |
T11 | CPFNet & Attention | 0.741 | 0.551 | 0.285 |
T5 | Multi-scale Fusion Net | 0.569 | 0.752 | 0.241 |
T12 | U-Net-TS-WGAN | 0.735 | 0.558 | 0.318 |
T3 | nnU-Net | 0.782 | 0.506 | 0.296 |
T9 | U-Net & Attention | 0.512 | 0.680 | 0.270 |
T6 | U-Net & Attention | 0.319 | 0.737 | 0.186 |
T7 | U-Net & Attention | 0.582 | 0.707 | 0.338 |
T10 | Inf-Net & Attention | 0.647 | 0.452 | 0.481 |
如图 11所示,选取了一组代表性肺血管分割结果,第1幅图为真值(ground truth)。
大多数算法成功地分割了测试集中全部的案例,有极少数没有成功分割,如图 11中T7分割的样例数据。性能比较好的算法在测试集上分割肺血管达到了75 % 以上的Dice系数,如第1组和第4组的算法在CT、CTA影像上都可以得到很好的效果。在CTA上的分割结果要优于CT影像的结果。但是,大多结果都存在着血管断裂、空洞、欠分割和过分割等普遍问题。
3 数据集处理
针对不同的肺部解剖结构,如肺动脉和肺静脉、左肺和右肺等都用不同颜色的像素进行标注,便于2维或3维区分。标注数据经过重新格式化处理,保证了查阅的方便性。本文在提供标准DICOM (digital imaging and communications in medicine) 数据的同时,将所有标注图像从标准的医学数字影像和通信格式(DICOM)转换为便携式网络图形(PNG)图像,并去除DICOM中包含的敏感信息,以便肺部CT影像数据集为该领域的研究人员提供有效的标注数据。
4 结论
本文介绍了一种用于肺部CT解剖结构分割的标注数据集。该数据集由24组CT和43组CTA组成,涵盖了支气管、肺实质、肺叶和肺动静脉4种解剖结构。该数据集包含超过2.5万幅带标记的切片图像,并以彩色像素显示标记的位置,同时提供原始数据的图像格式。数据集也有一些局限性。依据肺部解剖结构,每个肺叶可以进一步细分为2~3个肺段,本数据集没有对肺段进行标注,肺段边界的不可见性意味着很难获得客观准确的参考分割标准。其次,标注数据基本在健康图像上进行,很少在病变图像上进行标注。医学数据集最大的特点是数据的多样性,提高图像分割方法的鲁棒性是该方向的研究重点。最后,医学解剖结构图像的人工标注难免会出现错误。未来,计划增加肺段标记来扩大数据集,通过标记更多的病变图像来增加数据的多样性,使数据集有利于肺部CT解剖结构分割算法的研究。
参考文献
-
Beichel R, Kiraly A, Kuhnigk J M, McClelland J, Mori K, van Rikxoort E, Rit S, De Bruijne M, van Ginneken B, Kabus S. 2011. The Fourth International Workshop on Pulmonary Image Analysis. London: CreateSpace Independent Publishing Platform
-
Doel T, Gavaghan D J, Grau V. 2015. Review of automatic pulmonary lobe segmentation methods from CT. Computerized Medical Imaging and Graphics, 40: 13-29
-
Kiser K J, Ahmed S, Stieb S, Mohamed A S R, Elhalawani H, Park P Y S, Doyle N S, Wang B J, Barman A, Li Z, Zheng W J, Fuller C D, Giancardo L. 2020. PleThora: pleural effusion and thoracic cavity segmentations in diseased lungs for benchmarking chest CT processing pipelines. Medical Physics, 47(11): 5941-5952 [DOI:10.1002/mp.14424]
-
Li L, Qi D, Jin Y M, Zhou G Q, Tang Y Q, Chen W L, Su B A, Liu F, Tao C J, Jiang N, Li J Y, Tang L L, Xie C M, Huang S M, Ma J, Heng P A, Wee J T S, Chua M L K, Chen H, Sun Y. 2019. Deep learning for automated contouring of primary tumor volumes by MRI for nasopharyngeal Carcinoma. Radiology, 291(3): 677-686 [DOI:10.1148/radiol.2019182012]
-
Lo P, Van Ginneken B, Reinhardt J M, Yavarna T, De Jong P A, Irving B, Fetita C, Ortner M, Pinho R, Sijbers J, Feuerstein M, Fabijanska A, Bauer C, Beichel R, Mendoza C S, Wiemker R, Lee J, Reeves A P, Born S, Weinheimer O, Van Rikxoort E M, Tschirren J, Mori K, Odry B, Naidich D P, Hartmann I, Hoffman E A, Prokop M, Pedersen J H, De Bruijne M. 2012. Extraction of airways from CT (EXACT'09). IEEE Transactions on Medical Imaging, 31(11): 2093-2107 [DOI:10.1109/TMI.2012.2209674]
-
Maguolo G, Nanni L. 2021. A critic evaluation of methods for COVID-19 automatic detection from X-Ray images. Information Fusion, 76: 1-7 [DOI:10.1016/j.inffus.2021.04.008]
-
Mansoor A, Bagci U, Foster B, Xu Z Y, Papadakis G Z, Folio L R, Udupa J K, Mollura D J. 2015. Segmentation and image analysis of abnormal lungs at CT: current approaches, challenges, and future trends. Radiographics, 35(4): 1056-1076 [DOI:10.1148/rg.2015140232]
-
Payer C, Pienn M, Bálint Z, Shekhovtsov A, Talakic E, Nagy E, Olschewski A, Olschewski H, Urschler M. 2016. Automated integer programming based separation of arteries and veins from thoracic CT images. Medical Image Analysis, 34: 109-122 [DOI:10.1016/j.media.2016.05.002]
-
Pedrosa J, Aresta G, Ferreira C, Rodrigues M, Leitão P, Carvalho A S, Rebelo J, Negrão E, Ramos I, Cunha A and Campilho A. 2019. LNDb: a lung nodule database on computed tomography. https://arxiv.org/pdf/1911.08434.pdf
-
Pu J T, Gu S C, Liu S S, Zhu S C, Wilson D, Siegfried J M, Gur D. 2012. CT based computerized identification and analysis of human airways: a review. Medical Physics, 39(5): 2603-2616 [DOI:10.1118/1.4703901]
-
Rudyanto R D, Kerkstra S, Van Rikxoort E M, Fetita C, Brillet P Y, Lefevre C, Xue W Z, Zhu X J, Liang J M, Öksüz i, Vnay D, Kadipaşaoǧlu K, Estépar R S J, Ross J C, Washko G R, Prieto J C, Hoyos M H, Orkisz M, Meine H, Hüllebrand M, Stöcker C, Mir F L, Naranjo V, Villanueva E, Staring M, Xiao C Y, Stoel B C, Fabijanska A, Smistad E, Elster A C, Lindseth F, Foruzan A H, Kiros R, Popuri K, Cobzas D, Jimenez-Carretero D, Santos A, Ledesma-Carbayo M J, Helmberger M, Urschler M, Pienn M, Bosboom D G H, Campo A, Prokop M, de Jong P A, Ortiz-de-Solorzano C, Muñoz-Barrutia A, van Ginneken B. 2014. Comparing algorithms for automated vessel segmentation in computed tomography scans of the lung: the VESSEL12 study. Medical Image Analysis, 18(7): 1217-1232 [DOI:10.1016/j.media.2014.07.003]
-
Saha P K, Gao Z Y, Alford S K, Sonka M, Hoffman E A. 2010. Topomorphologic separation of fused isointensity objects via multiscale opening: separating arteries and veins in 3-D pulmonary CT. IEEE Transactions on Medical Imaging, 29(3): 840-851 [DOI:10.1109/TMI.2009.2038224]
-
Simpson A L, Antonelli M, Bakas S, Bilello M, Farahani K, Van Ginneken B, Kopp-Schneider A, Landman B A, Litjens G, Menze B, Ronneberger O, Summers R M, Bilic P, Christ P F, Do R K G, Gollub M, Golia-Pernicka J, Heckers S H, Jarnagin W R, McHugo M K, Napel S, Vorontsov E, Maier-Hein L and Cardoso J M. 2021. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. [2021-03-05]. https://arxiv.org/pdf/1902.09063.pdf
-
Sluimer I, Schilham A, Prokop M, Van Ginneken B. 2006. Computer analysis of computed tomography scans of the lung: a survey. IEEE Transactions on Medical Imaging, 25(4): 385-405 [DOI:10.1109/TMI.2005.862753]
-
van Rikxoort E M, de Hoop B, van de Vorst S, Prokop M, van Ginneken B. 2009. Automatic segmentation of pulmonary segments from volumetric chest CT scans. IEEE Transactions on Medical Imaging, 28(4): 621-630 [DOI:10.1109/TMI.2008.2008968]
-
van Rikxoort E M, van Ginneken B. 2013. Automated segmentation of pulmonary structures in thoracic computed tomography scans: a review. Physics in Medicine & Biology, 58(17): R187-R220 [DOI:10.1088/0031-9155/58/17/R187]