网刊加载中。。。

0引言深度学习在医学影像分析领域中已经取得了巨大的成功(Litjens等，2017；Shen等，2017)。在主流的医学3D数据的数据模态和视觉任务上，如计算机断层成像(computed tomography，CT)、磁共振成像(magnetic resonance imaging，MRI)上的分类、分割和检测等任务，深度学习已经成为一种最主要的研究方式。深度学习的成功部分取决于大量来自于工业界和学术界贡献的医学数据集，这使得很多基于深度学习的数据驱动方法变成了可能。另外，在深度学习的帮助下，3D计算机视觉也得到了长足的发展，产生了许多全新的处理3D数据的新方法，如体素(voxel)(Wu等，2015)、点云(point cloud)(Qi Charles等，2017)、3D网格(mesh)(Hanocka等，2019)等。在医学3D数据的分析上，医学影像社区逐渐发展出了一系列3D计算机视觉方法。特别将这类研究称为“医学3D计算机视觉”或“医学3D视觉”。本文尝试对于医学3D视觉的研究进行较为全面地总结和分析。如图 1所示，具体从如下几个方面进行讨论：图1 医学3D计算机视觉系统 Medical 3D computer vision systemFig 11) 任务。介绍医学3D视觉具体处理哪些任务，主要介绍分类、分割、检测、配准和成像重建等医学影像分析上最常见的几大任务。2) 数据。介绍医学3D数据中主要的数据模态；同时，针对上述计算机视觉任务，介绍一些比较重要的数据集。3) 表征。介绍和分析医学3D数据的表征学习(representation learning)方法，主要介绍和讨论2D网络、3D网络及混合网络的特点。同时，针对医学影像普遍存在的小数据问题介绍一些预训练方法和思路。最后，针对医学3D数据中不同于标准自然图像的特殊问题，介绍现存的研究挑战、问题和方向。1医学3D视觉任务在人工智能的任务层次中，包含感知(perception)、推理(reasoning)和因果(causality)。在当前的发展阶段，计算机视觉的主要成果集中在感知层面，即分类(Deng等，2009)、分割(Zhou等，2017)和检测(Lin等，2014)等。在医学3D视觉中，分类、分割和检测等任务都被赋予了一定特殊含义。此外，医学影像配准和成像重建也是医学3D视觉中的常见任务。1.1分类在医学影像学诊断中，从良恶性风险诊断，到各种征象的判断，分类通常是临床医生日常进行的高频任务。以肺癌诊断为例，医生通常需要判断相关病灶的风险，此外还需要根据病灶大小、病灶征象(毛刺、磨玻璃等)和病灶位置(是否位于肺门旁)等综合决定病人的治疗方案(随访、手术或放化疗等)。因此，在医学影像的任务中，分类任务往往是多标签分类，即尝试对于同一个实体打上不同语义层面的标签。这些标签可以根据放射医生的手工标注(Armato III等, 2011)，如良恶性风险、征象；这些标签也可以基于一些更加深入的医学检查，如病理分析(Zhao等，2018)和基因检测(Zhao等，2019)等。1.2分割医学影像的分割是指对医学影像中的每个体素/像素赋予语义，通常分为器官分割(区分肝脏、气管和冠脉等)和异常分割(区分肝癌、肺结节和冠脉钙化等)。这些像素(或体素)级别的模型输出可以作为后续算法模型的重要构成；且一些场景下，分割结果本身就直接有用，如术前规划的可视化、放化疗的危及器官(organs at risk)分割(Tang等，2019)等。值得一提的是，由于医学影像中前景往往没有过多重叠，因此大部分医学影像分割采用的是语义分割(semantic segmentation)而非实例分割(instance segmentation)。1.3检测医学影像检测指的是从较大的视觉范围内定位出单个或多个感兴趣区域(region of interest, ROI)。检测任务是放射科医生日常阅片的核心内容之一，如肺结节检测(Setio等，2017)。在实际的医学筛查和诊断中，只有检测往往不够，还需要伴随后续的分类、分割等任务才可能完成临床实践中的医学诊断报告。另外，针对小目标分割，先检测后分割(类似实例分割)也是一种行之有效的简单策略(Tang等，2019)。1.4配准医学影像的配准是医学影像成像和展示中的常见问题，主要指的是将两个结构、纹理等相似的医学影像中各个像素相匹配。配准在很多医学场景是很实用的核心问题，例如针对随访的病人，如何将多次检查自动匹配以节约临床医生的时间，并便于后续的量化测量(体积、密度的变化)。医学影像配准的研究方法中，一个代表性的方法是VoxelMorph (Balakrishnan等，2018)，其将配准问题归约成利用深度神经网络预测两幅(2D或3D)图像之间形变的问题，并借鉴了空间形变网络(Jaderberg等，2015)的思路将之变成一个端到端可微分、无监督的学习框架。1.5成像重建如何在不降低成像质量的前提下减少病人检查的剂量和负担，如计算机断层成像的辐射量、磁共振所需的检查时间，一直是医学成像中的核心研究问题。由于深度学习等人工智能技术的兴起，数据驱动的方法可以利用数据先验，形成快速、准确的医学影像重建。这类医学影像成像的研究可以视为计算摄影学在医学影像领域的延伸，如fastMRI (Knoll等，2020)结合人工智能技术，使用更少的成像时间获得更高质量的MRI成像，探索MRI成像中压缩感知(compressed sensing)以外的计算方法。更多研究可以参考Wang等人(2018)的相关成果。2医学3D数据模态及数据库在医学诊断影像中，CT和MRI可以说是医学3D成像中两种最常见的影像模态。CT是利用X射线多次扫描(如螺旋扫描)后利用计算机重建算法构成立体成像，常见部位包括胸部CT，腹部CT和脑部CT等。使用显影剂可以拍摄增强CT，对于一些医学诊断更加有利。目前一些部位可以使用低剂量(low-dose)CT来获得足够好的成像，可以大幅降低病人的辐射暴露风险，因此肺癌早期筛查的推荐方式是低剂量CT (The National Lung Screening Trial Research Team，2011)。MRI通过射频脉冲激发人体内氢质子采集k-space原始数据，并通过计算方法复原出人眼可以理解的3D图像。直观地说，MRI不使用放射线，因此对人体的损伤较小，但通常需要较长的成像时间。MRI常用于软组织成像，如脑部、膝部等。另外，基于磁共振成像可以开发多种功能性磁共振成像(functional MRI)用来观测脑部活动。基于CT和MRI，都可以配合正电子放射断层成像(positron emission tomography，PET)(Petersen等，2010)，开发出PET-CT和PET-MRI等技术，以观测全身代谢，是用来肿瘤诊断(如肿瘤转移)的一种常用成像手段。上述成像方法形成的原始医学3D数据是基于体素的，符合卷积的归纳偏置先验，因此常常使用卷积神经网络(convolutional neural network, CNN)来分析。除了上述基于体素的医学3D数据外，Yang等人(2020b)通过半手工整理出了血栓解剖结构3D形状的3D网格(mesh)，借此研究基于体素、网格和点云的深度学习方法在医学影像中的性能。表 1整理了部分重要的医学3D数据库，包含了从CT、MRI到图形学格式的分类、分割、检测、配准和成像重建问题。表1 部分医学3D数据库一览数据库数据模态主要任务数据量数据库描述 LIDC-IDRI(the lung image database consortium image collection)(Armato III等，2011) CT 分类分割检测 1 018套标注数据大规模肺结节数据集，包含4位医生对胸部CT的疑似病灶标注，每套CT包含1~23个结节标注，包括病灶检测、病灶3D分割、良恶性判断、征象(如毛刺、钙化等)。 BraTS (Menze等，2015) MRI 分割 274套标注数据110套测试数据 BraTS 2012-2019挑战赛，系列脑组织脑肿瘤分割数据集，其中使用较广泛的是BraTS 2015数据集。每个病例包含FLAIR，T1，T2和T1C这4个模态，以及对应的脑组织和脑部病灶(包括肿瘤)分割。江宗康等人(2020)提供了BraTS数据集及MRI脑肿瘤图像分割的研究综述。 LUNA16 (Setio等，2017) CT 检测 888套标注数据大规模肺结节检测数据集，是LIDC-IDRI的子集，挑选了病灶较为显著、符合结节标准的胸部CT和病灶标注。 VoxelMorph (Balakrishnan等，2018) MRI 配准合计7 829套数据大规模多中心数据集，由作者搜集8个公开数据集整理而成，其用于学习配准的配对数据由该数据集添加形变生成。 DeepLesion (Yan等，2018) CT 检测弱分割分类 32 120套标注数据(关键帧) 大规模通用病灶检测数据集，包含全身各种部位CT中带有标注的关键帧及其上下30 mm的相邻帧。除了病灶检测标注外，提供了病灶的RECIST(response evaluation criteria in solid tumors)标注(即病灶的长径短径)，可以用来生成弱标注的病灶分割。每张关键帧包含1~3个标注。后续数据集增添了部分分类标签。 LiTS (the liver tumor segmentation benchmark)(Bilic等，2019) CT 分割 131套标注数据70套测试数据 LiTS 2017挑战赛，肝脏肝癌分割数据集，包含标注了肝脏和肝癌区域3D分割的腹部CT。另有部分临床信息。 MSD(medical segmentation decathlon) (Simpson等，2019) MRI CT 分割合计1 746套标注数据888套测试数据大规模医学3D数据分割数据集，包含多种模态(MRI和CT)、各种部位、各种数据规模的10个医学3D数据分割数据集。该数据集也是一个持续进行的挑战赛，要求参赛者使用一套不需要人工调整参数的算法来完成多套数据的建模。 KiTS (Heller等，2019) CT 分割 210套标注数据90套测试数据 KiTS 2019挑战赛，肾脏肾癌分割数据集，包含标注了肾脏和肾癌区域3D分割的腹部增强CT。另有部分临床信息。 fastMRI (Knoll等，2020) MRI 成像重建 1 594套配对数据大规模膝部MRI成像重构数据集，将低质量的MRI图像(降采样k-space)重构成高质量的MRI(全采样k-space)。除了已经重建好的配对MRI数据(DICOM格式)外，该数据集还包含了原始的k-space数据。该数据也是一个持续进行的挑战赛，后续还增加了大规模的脑部MRI数据。 IntrA (Yang等，2020b) 3D网格(mesh) 分类分割 1 909套标注数据颅内动脉瘤数据集，整理了由医生手动分割的血管及动脉瘤的分割，每个分割经过手工清洗后转换成了3D网格(计算机图形学的基本格式)，因此该数据集可以使用基于点云、网格和体素的深度学习方法来处理。 RibFrac (RibFrac Team，2020) CT 检测分割分类 500套标注数据120套测试数据 RibFrac 2020挑战赛，肋骨骨折检测、分割和检测数据集，包含标注了肋骨骨折病灶像素级3D分割的胸部CT，并经由专家给出骨折类型。可以用来开发3D检测、实例分割和分类算法。挑战赛评估检测和分类性能。 An overview of 3D medical image datasets (partial)Table 13医学3D数据表征学习基于深度学习的方法学习医学3D数据的表征(representation), 具体讨论基于2D卷积神经网络、3D卷积神经网络和混合网络的方法，并分析各自的优缺点(表 2)。考虑到医学数据中普遍存在的小数据问题，介绍在医学3D数据的表征学习中引入预训练以提高学习效率，包含了基于时空数据/3D数据的直接预训练、基于医学3D的无监督预训练和部分2D到3D迁移学习方法。表2 标准卷积神经网络在处理医学3D数据上的比较网络类型优点缺点 2D网络直接利用大规模2D数据作为预训练。 2D表征，难以学习复杂的3D上下文信息。 3D网络 3D表征，可以学习复杂的3D上下文信息。缺少直接可用的大规模医学3D数据作为预训练。混合网络(2D网络+3D网络) 兼有2D表征和3D表征。1)2D网络部分仍然是2D表征；2) 3D网络部分仍无合理的预训练；3)解决方案类似于模型集成；其多阶段/多分支的网络通常比较冗余。 Comparison of standard convolutional neural networks for 3D medical image analysisTable 23.12D网络尽管医学3D数据是3D空间中的图像，直接使用2D网络逐帧处理也是一种行之有效的方法。好处是可以直接使用在大规模2D数据集(如ImageNet (Deng等，2009))上训练出的2D卷积神经网络。为了模仿自然图像上的RGB输入，可以将单幅灰度图像直接重复，也可以将3D医学影像以多平面或连续帧的2D图像拼接作为2D输入，后者有时也称为2.5D方法。早期的深度学习研究(Prasoon等，2013)使用多平面的表示方法，即医学3D数据以某个中心点展开横断位(axial)、冠状位(coronal)和矢状位(sagittal)3个平面输入2D卷积神经网络中。尽管这种方法在实践中有一定的效果，但是本质上并不完全符合卷积网络的归纳偏置，因为作为通道的3个平面在空间上并非对齐的。后续的大部分研究(Han，2017)采用连续帧的2D表示，即以一个中间帧并取上下连续帧作为2D输入的通道。基于2D神经网络的方法虽然可以直接使用大规模的2D图像数据集作为预训练，但从本质上来说难以学习到复杂的3D上下文信息，尤其无法处理一些长范围的3D上下文信息(如血管等)。3.23D网络除了将3D上下文信息作为通道输入的2D神经网络的方法，有很多研究直接使用3D卷积神经网络来处理医学3D数据(Çiçek等，2016)。相较2D网络方法，3D网络具有捕捉大范围3D空间上下文信息的优势，感受野随着卷积和池化在3D空间中增长，这对于区分小器官、小病灶和血管等需要长范围3D上下文信息的对象来说是至关重要的。然而，由于直接使用纯3D神经网络，这些方法往往缺少像2D网络那样的预训练模型。由于数据稀缺、数据孤岛、标注困难和病种罕见等问题，3D图像的天生匮乏，并且从经济上、实操上都难以建立大规模的医学3D数据集。因此，很多研究重点放在了如何高效进行深度学习，包括深监督(Dou等，2017)和紧凑的网络设计(Zhou等，2018)等。但值得注意的是，这些方法往往并非专门针对3D网络设计，即并未直击3D网络方法的痛点。3.3混合网络为了解决2D网络和3D网络独立使用时无法调和的缺陷，部分研究将2D网络和3D网络混合使用，这类方法称为混合网络方法，通常包含一个预训练的2D卷积神经网络来处理医学3D数据连续帧的2D输入，还包括一个随机初始化的3D网络用来直接处理医学3D数据的体素输入。其中，2D网络部分和3D网络部分可以分别优化也可以联合优化，可以级联也可以并联。级联方法也称为多阶段方法，通常包含多个2D网络(甚至3D网络)，之后紧接一个3D融合网络(Xia等，2018)。并联方法也可称为多分支方法，通常包含多个2D网络和3D网络进行相同的目标任务(或提取特征)，之后再进行融合(Zheng等，2019)。尽管在实践中，混合网络方法是有效的，但是这种简单的“2D+3D”的方法更像是一种简单的集成学习，并没有真正解决2D网络和3D网络各自的痛点。另外，在真实的工程环境中，往往也不允许使用这样的大规模混合网络来部署。3.4预训练方法在计算机视觉中，针对目标任务数据量小的情况，往往会使用从大规模数据上预训练后迁移学习的方式提高小数据目标任务上的性能。然而，正如上文所述，能够直接使用2D图像数据集预训练的2D网络方法并不能很好地学习3D上下文信息，而可以学习3D上下文信息的3D网络缺少大规模的通用预训练。前期研究讨论了针对3D网络的预训练，如使用视频序列(Hara等，2018)和集合多个医学3D数据的预训练(Chen等，2019)。考虑到视频数据的易得性和多样性，使用视频序列进行预训练对于3D网络的学习很有帮助。然而，其迁移到医学3D数据的任务上时性能往往并不如人意，这主要来源于两方面的差异：1)自然图像和医学影像的差异；2)时空的视频序列和3D空间的医学影像的差异。尽管医学3D数据中也存在较明显的各向异性，但并不显式存在视频序列中特殊的轴向(时间)。因此，Med3D (Chen等，2019)探索了集合多个医学影像数据集的预训练方式。即使集合了多个数据集，其关联的样本也仅有1 000多例，这和自然图像、视频序列动辄百万的数据集上的预训练是难以比较的，因此其预训练效果作用也比较有限。除了上述的监督学习方式，Models Genesis (Zhou等，2019)探索了在医学3D数据上进行无监督学习的表征学习方式。通过一种类似于去噪自动编码器的学习方式，在多个数据集上验证了其无监督学习表征的有效性。然而，这种方法并不能显式地使用已有的大规模2D图像通用数据集。并且，监督学习的预训练往往比无监督学习的预训练更加有效。另外，一些研究探索如何将2D卷积神经网络学习到的知识(权重)，转换成能够学习3D表征的神经网络。I3D(inflated 3D) (Carreira和Zisserman，2017)提供了一种将2D卷积神经网络的权重直接转换成3D卷积神经网络权重的方法。其基本思路是利用卷积的线性，将2D的卷积核“扩充”成3D的卷积核(沿轴重复并等比例缩小数值)。除此之外，其他研究通过提出全新的卷积算子，包括ACS(axial-coronal-sagittal)卷积(Yang等，2019)和AlignShift (Yang等，2020a)来让2D到3D的迁移学习成为可能，其核心是通过不同卷积通道聚集3D卷积的感受野范围内部分位置的特征。表 3按照时间顺序总结了上述各种适用于医学3D数据的预训练方法。表3 医学3D数据的深度学习预训练方法比较方法简述/名称卷积算子预训练源数据规模数据多样性是否监督预训练是否特定轴向不进行预训练 2D卷积 — — — — 是不进行预训练 3D卷积 — — — — 否 2D数据预训练直接迁移 2D卷积 2D图像非常大非常大是是 2D数据预训练扩展权重/ I3D (Carreira和Zisserman，2017) 3D卷积 2D图像非常大非常大是是视频数据预训练直接迁移/ 3D CNNs (Hara等，2018) 3D卷积视频序列较大较大是是医学数据预训练直接迁移/ Med3D (Chen等，2019) 3D卷积医学3D数据中等中等是否 3D数据无监督直接迁移/ Models Genesis (Zhou等，2019) 3D卷积医学3D数据较大中等否否 2D数据预训练修改算子/ ACS卷积(Yang等，2019) 特殊算子 2D图像(亦视频序列或医学3D数据) 非常大非常大是(亦无监督训练) 否 2D数据预训练添加算子/ AlignShift (Yang等，2020a) 特殊算子 2D图像(亦视频序列或医学3D数据) 非常大非常大是(亦无监督训练) 是 Comparison of pretraining in deep learning for 3D medical image analysisTable 3 此处主要讨论提及的原始方法在处理医学3D数据时的情形，不讨论其各自变种，“—”表示不适合进行分类。4结语4.1总结在基于深度学习的人工智能和计算机视觉技术的快速发展下，医学3D计算机视觉，主要指医学3D数据的分析和理解，得到了长足的发展，以至于深度学习已经成为医学3D计算机视觉中最核心的研究方式之一。本文重点介绍了医学3D计算机视觉系统的3个层面：任务、数据和表征。在任务层面，介绍了医学3D数据中的分类、分割、检测、配准和成像重建等任务。在数据层面，主要介绍了CT、MRI、PET等一系列医学3D数据模态，并整理一些重要的研究数据集。在表征层面，介绍了基于2D网络、3D网络和混合网络的表征学习方法各自的优缺点。同时，考虑到医学3D数据分析中广泛存在的小数据问题，介绍了在医学3D数据表征学习中可能的预训练方法。4.2未来挑战与研究机会尽管目前医学3D计算机视觉已经获得了长足发展，甚至在某些领域已经达到了基本可用的程度，但仍然有很多的研究问题尚未充分解决。1) 各向异性。由于成像设备的限制，医学3D数据中往往存在比较明显的各向异性。具体而言，医学3D数据中横断面的间距和其他两个方向(冠状面和矢状面)的间距往往有较大的差别，这使得这些医学影像各个平面的分析存在一定区别。其中，横断面之前的间距通常称为层厚(thickness)，根据层厚可以将医学3D数据分为薄层图像和厚层图像。在实际的医学3D数据分析中，薄层和厚层因其自身差异，会导致同一套模型难以在不同层厚的图像上泛化，这在实际部署中会严重影响模型的适用范围。目前已有一些研究(Yang等，2020a)考虑如何弥合模型在不同层厚的数据上的性能，但各向异性的问题属于医学3D数据中的基本问题，这个方向值得更多探索。2) 数据孤岛。开展实际医学人工智能相关的研究时，往往会面临数据孤岛问题。事实上，医学数据非常丰富，但研究者能够访问到的数据相比自然图像非常稀缺。重要原因是高质量的医学影像往往停留在一些高水平机构(如三甲医院)中，而这些机构的数据考虑到数据隐私等问题，彼此是孤立的，从而导致数据孤岛问题进一步加剧了医学影像分析中小数据的问题。对此，一个解决方法是联邦学习(Bonawitz等，2019)：让数据停留在各个中心，仅依靠通信来传输各个中心的数据上学习到的模型来学习全局的模型。然而，目前联邦学习在真实使用中仍有非常多的挑战，包括如何设计高效的联邦学习系统和算法，如何处理恶意的联邦学习参与者，如何考虑数据缺失和对齐问题，如何解决不同中心的域差异(domain gap)等。3) 长尾/不平衡问题。由于医学疾病本身的长尾效应，医学影像的标注往往存在极端的类别不平衡现象(Yan等，2019)。在实践中，直接在极端不平衡的数据上进行学习，会导致模型的表征学习或长尾数据的分类学习存在较大的偏差。随着医学3D计算机视觉的发展和广泛部署，该问题会变得越来越重要。4) 自动机器学习。在医学3D计算机视觉的算法任务中，尽管依靠自动端到端学习的深度学习方法，但仍有很大一部分工作是需要研究者和工程师人为指定的，如网络架构选择、优化策略、预处理和数据增强等。事实上，很多工程设计完全可以让机器自行决定。如Isensee等人(2018)提出了一套自动机器学习架构，完全根据交叉验证来自行决定在模型上使用的工程参数。该方法取得了令人瞩目的表现，但存在计算过大、人为设计过多等问题，仍有较大的发展空间。