网刊加载中。。。

0引言语义分割是场景解析的关键任务，根据数据的特点，可分为图像语义分割与3维点云语义分割。其中基于深度卷积神经网络(convolutional neural network, CNN)的图像语义分割方法已经取得突破性进展(青晨等，2020)。3维点云语义分割在自动驾驶、机器人感知以及增强现实等许多领域有着广泛的应用，是计算机视觉和遥感领域的重要研究课题。深度学习的发展一直受到高质量数据集和基准的驱动。使研究人员可以专注于提高算法的性能。相比于2维图像，3维点云数据不易受光照强度、物体遮挡等影响，可以为网络提供丰富的几何信息以及法向量、强度、局部稠密度和局部曲率等特征，为3维语义分割算法带来了相比于2维语义分割特有的优势。3维点云语义分割根据算法的性质大致可分为两类，包括基于2D的传统方法和基于原始3D点云的方法。其中基于2D图像方法的基本思路是将点云投影到2D平面，并应用主流的2D语义分割网络实现分割。基于3D点云的方法一般是直接在3D空间提取特征信息。目前主流的方法是直接将点云作为网络的输入，可以有效改善体素化带来的计算量过多的问题，同时也避免多视图造成的信息丢失等问题。在点云的语义分割方法中，PointNet(Qi等，2017a)是具有里程碑意义的深度网络模型。该方法采用池化策略解决了输入点的排列不变性问题。但是由度量空间引起的局部结构问题，在PointNet网络中无法很好地得到解决。为了解决这个问题，PointNet++(Qi等，2017b)介绍了一种层次神经网络，该网络递归地将PointNet应用于输入点集的嵌套分区。利用度量空间距离，使网络能够随着上下文比例的增加学习局部特征。目前点云语义分割的主流算法, 如PointConv(point convolution)(Wu等，2019)，KPConv(kernel point convolution)(Thomas等，2019)，RS-CNN(relation-shape CNN)(Liu等，2019)，DGCNN(dynamic graph CNN)(Wang等，2019b)多是基于PointNet和PointNet++的改进策略。上述算法具有共同的数据处理局限，均是将点云切成小点云块，然后从每个小点云块中采样固定数量的点作为网络的输入。通常，这些切块方法将增加数据预处理的时间，并且切割边界的几何特征容易被破坏。针对上述问题，开始出现直接处理大规模点云的研究工作。如Rethage等人(2018)结合了体素来处理大规模点云，但是将点云体素化，会导致计算量剧增。Biasutti等人(2019)提出了一种LiDAR点云语义分割的端到端架构(LiDAR U-Net, LU-Net)。LU-Net通过传感器的拓扑结构，将这些特征投影到2D多通道距离图像中，最终可以使用简单的U-Net分割网络执行分割。Landrieu和Simonovsky(2018)将输入点云分为几何上简单的形状，称为超点。在此预处理的基础上，通过将具有丰富属性的超边链接到附近的超点来构造超点图。但是将点云转换为图增加了数据预处理的时间。Zhong等人(2019)提出了一种多尺度轻量级完全卷积网络(visual information assisted segmentation network，VIASeg)，它通过使用高级语义信息进行特征去噪来提高性能。RangeNet++(Milioto等，2019)可以在传感器帧速率下准确执行LiDAR点云的完整语义分割。Kong等人(2019)提出一个灵活的两阶段3D点云语义分割框架，结合传统分割聚类算法和深度学习的优势，可以直接在3D空间获得特征。Hu等人(2020)提出了一个新颖的局部特征聚合模块，用于增加每个点的感受野，使特征能够更好地保留下来，但是忽略了对于语义特征的提取。直接将整个大场景点云作为语义分割的输入是热门研究方向。但是直接对大场景点云进行处理有诸多困难需要解决。1)通过传感器采集的点云数据在3维空间中分布不均匀，直接对大场景进行处理可能会造成低密度区域的点特征在采样过程中被破坏甚至被舍弃；2)不同大场景点云数据集的空间大小和点数不确定，因此需要网络具有灵活的输入机制，可以满足不同类型数据集的需求；3)大场景的几何结构比小规模点云的几何结构更为复杂。网络每次训练的类别和实例数量的增加将大大提高语义分割难度，同时，计算量的增加，对现有的GPU(graphics processing unit)内存是一个很大的挑战。本文针对上述问题，提出了一种基于残差网络的大场景点云语义分割方法，具体贡献为：1) 提出一种特征聚合模块。即使将整个大规模点云作为输入，也可以有效地聚合低密度区域中点云的局部特征，同时克服了现有方法普遍存在的额外数据预处理问题。2) 提出一种改进的残差模块。该模块对每个特征聚合模块进行残差训练，从而可以增加网络层数，实现对于大场景点云复杂几何结构的获取，并有效提高网络对于高级语义特征的提取能力。3) 本文方法在大型室内数据集S3DIS(Stanford Large-scale 3D Indoor Spaces Dataset)(Armeni等，2016)和室外数据集Semantic3D(Hackel等，2017)取得了更优的分割性能，同时仅需在一块GeForce GTX 1080上即可完成训练。1相关研究工作3维点云语义分割方法可大致分为3类：基于点卷积的方法，基于递归神经网络(recurrent neural network, RNN)的方法，以及基于图的方法。1.1基于点卷积的方法基于点卷积的方法借鉴了图像卷积神经网络的概念。针对点云不规则、无序的特点，Li等人(2018)提出从输入点学习${\mathit{X}}$-变换，对输入特征进行加权和置换，然后对变换后的特征应用卷积。${\mathit{X}}$-变换可将这些点排列成一个潜在的规范顺序。KPConv(Thomas等，2019)使用任意数量的内核点，使之比固定网格卷积具有更大的灵活性。由于内核点位置在空间上是连续的，并且可以通过网络获取，因此，KPConv可以扩展到可变形卷积，从而使内核点适应局部几何形状。基于几何关系的点云分析卷积网络RS-CNN(relation-shape convolutional neural network)(Liu等，2019)则将规则的网格CNN扩展到不规则的配置以进行点云分析。RS-CNN的核心是从几何关系中推理学习3D形状，比如点云之间的几何拓扑约束。该策略可以编码点的几何关系，推理出点云空间布局，从而实现置换不变性以及刚体变换鲁棒性。Wu等人(2019)将动态滤波器扩展到一个新的卷积运算PointConv，这是一种密度重新加权的卷积，能够完全近似任何一组3D点上的3D连续卷积。Wang(2019)针对稀疏激光点云的实时语义分割问题，提出了一种基于八叉树森林的3维稀疏卷积神经网络。采用八叉树森林表述方法，通过减小八叉树的深度，提高数据访问的效率，设计了最小非平凡—不重叠卷积核，使得3维卷积能够直接在八叉树结构上进行稀疏计算，并进行了模型结构设计，给出了所提模型在CPU环境下的基于八叉树搜索的实现算法。1.2基于RNN的方法在循环神经网络(recurrent neural network，RNN)模型架构方面，Engelmann等人(2017)提出了两种将空间上下文纳入语义3D点云分割的机制，并将这两种机制整合到PointNet网络中。Liu等人(2017)融合了3D卷积神经网络，深层Q网络残差RNN，可以对大规模3D点云进行有效的语义解析。此外，它将对象定位、检测、检索和分类集成到一个框架中。Huang等人(2018)在网络中融入了基于切片池化层的局部依赖模块。切片池化层将无序点的特征投影到特征向量的有序序列上，再应用端到端学习算法RNN实现点云的语义分割。Ye等人(2018)构建了一个高效的金字塔池化模型来提取3D点云的局部信息，再通过一个双向的RNN实现邻近点之间的特征传递。RNN通过不同方向扫描3D空间，融合特征信息，有效提升了3D语义分割的精度。1.3基于图的方法在图模型架构方面，Wang等人(2019a)提出了一个新颖的神经网络模块EdgeConv，其能保持排列不变性，又能捕捉局部几何结构。EdgeConv构造了一个局部图并学习了边的嵌入，因此该网络能够在欧氏空间和语义空间中对点进行分组。EdgeConv易于实现，并且可以很方便地集成到现有深度学习网络中。汤怡君(2019)采用Landrieu和Simonovsky(2018)提出的超点图，并对基于超点图的点云语义分割算法进行了改进。该改进着眼于提升原算法中超点图构建部分特征集合的表述能力。Wang等人(2019a)提出了一种新颖的图注意力卷积(graph attention convolution，GAC)，其内核可以动态地变换成特定的形状以适应物体的结构。具体而言，通过建立每个点与周围点的图结构，将适当的注意力权重分配给不同的邻近点。GAC可以根据其动态学习的特征有选择地关注它们中最相关的部分，捕获点云的结构化特征以进行细粒度分割。Grid-GCN(Xu等，2020)引入网格查询来实现有效的数据结构和计算，在降低时间复杂度的同时，为点组提供了整个点云的完整覆盖，提高了空间覆盖率。Grid-GCN还提出了一种图形卷积模块实现网格上下文聚合，以将上下文特征和覆盖范围信息纳入计算中。2本文方法2.1网络框架图 1是本文提出的点云语义分割残差网络(point residual network, PointRES)模型整体框架。网络使用编码器—解码器体系结构。PointRES输入为原始点云，然后使用5个编码和5个解码层来学习每个点的特征。编码器和解码器之间使用跳跃连接，跳跃连接用于在编码器和解码器的中间层之间传递特征，这些特征被串联到上采样点的特征中。在此基础上使用3个全连接层来预测每个点的语义标签。图1 基于多特征融合与残差优化的点云语义分割方法PointRES框架图 The framework of point cloud semantic segmentation method based on multi-feature fusion and residual optimizationFig 1网络编码器部分由5个编码层组成，每个编码层都有一个随机采样模块。该设计方式使得在逐渐采样减小点云规模的同时，可以不断增加每个点的特征维度，每层输出的特征维度分别为[16, 64, 128, 256, 512]。同时，编码器中包含特征提取模块(feature extraction module，FEM)和特征聚合模块(feature aggregation module, FAM)。两个模块与跨层连接组合在一起，构成针对大场景点云语义分割的残差模块(residual module，RM)。网络解码器部分由5个解码层组成, 每个解码层都包含一个上采样模块，同时使用最近邻插值算法来获得最终的点特征，然后进行一个共享的多层感知机操作。2.2特征提取模块特征提取模块如图 2所示。首先，在点云的采样过程中，将下采样得到的点作为中心点$ {\boldsymbol{X}}_{C}$，通过多层感知机(multilayer perceptron, MLP)得到中心点特征$ {\boldsymbol{F}}_{C}$。然后网络通过${\mathit{k}}$近邻算法(k-nearest neighbor, KNN)找到中心点的${\mathit{k}}$个邻近点，获取每个中心点的邻域点集坐标$ {\boldsymbol{X}}^{k}_{C}$，并通过邻域点下标属性得到每个中心点对应的邻点特征集$ {\boldsymbol{F}}^{k}_{C}$。对于得到的邻点特征集，PointRES对空间位置信息进行编码。编码内容包括中心点3维坐标、邻点三维坐标、中心点与邻点之间的相对坐标$ {\boldsymbol{X}}_{C}- {\boldsymbol{X}}^{k}_{C}$、中心点与邻点之间的欧氏距离$|| {\boldsymbol{X}}_{C}- {\boldsymbol{X}}^{k}_{C}||$。本文采用3层全连接结构的多层感知机调整4个空间位置信息的权重，进而实现对几何特征$ {\boldsymbol{F}}_{G}$的提取。本文算法对中心点特征与邻点特征进行卷积操作得到点之间的语义特征$ {\boldsymbol{F}}_{S}$，使网络能更深入提取局部邻域特征信息以及中心点和邻点之间的上下文关系。特征提取模块的作用是提取两个方面的特征，包括点的3维坐标信息编码后的几何特征、中心点和邻点之间的语义特征。最后与邻点特征加权求和，构成邻域特征集$ {\boldsymbol{F}}_{\text{CSG}}$。图2 特征提取模块结构图 The framework of feature extraction moduleFig 22.3特征聚合模块由于直接处理大场景点云的计算量远高于切块成小点云然后输入网络中训练，为了合理利用有限的计算资源，选择了注意力机制对邻域点特征进行聚合和优化。注意力机制在众多输入特征中学习更为关键的特征，降低对不重要特征的关注度，甚至过滤掉无关特征的干扰，防止大点云带来的信息过载。总的来说，通过注意力机制可以优化特征的聚合，提高语义分割的精度。对于从特征提取模块得到的邻域特征集合，特征聚合模块先进行全连接操作，把特征表示整合到一起。然后通过softmax函数得到注意力分数，利用注意力分数，选择分数高的重要特征，最后将这些特征加权求和后聚合到一起。注意力机制在网络训练开始时倾向于选择突出的关键点特征。在对点云进行大幅下采样之后，注意力池化层倾向于保留点特征中的主要部分。为了适应大场景点云语义分割的实际情况，本文在不同的编码层堆叠了不同数量的特征聚合模块。该操作不仅减少了冗余层的出现，而且在保证精度的情况下，最大限度降低了计算时间。同时网络通过堆叠多个特征聚合模块增加了每个点的感受野，使得即便下采样过程中随机地丢弃了某些点的特征，输入点云的几何特征也能够很好地保留下来。模型开始训练时，算法是针对整个大点云进行下采样，所以点数较多。如果堆叠的模块过多，不仅导致计算量的增加，也会造成网络的过拟合。随着下采样的比例增大，点云逐渐变得稀疏，一些重要的特征被大概率丢掉，此时需要堆叠相对较多的特征聚合模块，用来增加每个点的感受野。同时，此时点数相对较少，计算代价也相对较低。所以本文针对不同的编码层，堆叠了不同数量的特征聚合模块。2.4残差模块对于传统的深度学习网络，网络层数越深，准确率反而可能降低，梯度消失的可能性也逐渐变大。残差网络的出现解决了这一难题。受传统深度学习网络启发，将残差块引入大场景点云的语义分割。在每个特征聚合模块之间，引入了跨层连接，构造残差模块。跨层连接的输入是下采样点的特征。引入残差后的映射对输出的变化更敏感，对权重的调整作用更大，所以网络分割效果更好。Hu等人(2020)指出，当残差模块中只有一个特征聚合单元时，由于感受野有限，会导致分割性能显著下降；当每个残差模块中包含3个特征聚合单元也不能提高预期的准确性，这是因为增加的感受野和大量的训练参数会导致网络趋于过拟合。为了解决这个问题，本文在每个特征聚合单元都添加了一个跨层连接，并在每个编码层添加了不同数量的特征聚合单元，进而可以在增加网络深度的同时，提取更丰富的特征。同时，网络深度增加可能会造成的网络退化问题也可被解决。3实验为了确定网络在不同类型数据集上的有效性，本文网络在两个大型数据集上进行了实验。这些数据集包括RGB-D传感器收集的室内真实3D扫描场景S3DIS和雷达扫描仪获取的密集点云Semantic3D。同时将本文方法与最新的深度学习网络进行对比。3.1数据S3DIS数据集是由RGB-D传感器收集的点云数据集。RGB-D传感器的测量范围有限，采集的点云的密度通常较低。S3DIS由3个建筑物内的5个大型室内区域组成，每个区域大约覆盖1 900、450、1 700、870和1 100 m$^{2}$(总共6 020 m$^{2}$)。其总共包含12个语义元素，即结构元素(天花板、地板、墙壁、横梁、圆柱、窗户和门)以及常见的家具(桌子、椅子、沙发、书柜和木板)。示例图像如图 3(a)所示。由于人造室内空间通常会显示重复出现的物体，而外观特征却会有很大不同，因此带来了许多具有挑战性的场景。图3 示例图像 Sample images((a) sample images of S3DIS; (b) sample images of Semantic3D)Fig 3Semantic3D是通过地面激光扫描仪获取的密集点云，具有更高的点密度和精度，但是只有有限的视角是可行的，这对分割任务是一个挑战。这个数据集总共包含约40亿个3D点，并且包含各种不同的自然场景和人造场景，可以有效防止分类器过拟合。数据分为8个类别，其中包括：1)人造地形：主要是路面；2)自然地形：多为草丛；3)高植被：树木和大灌木丛；4)低植被：小于2 m的花朵或小灌木丛；5)建筑物：教堂、市政厅、车站、物业单位等；6)其余硬景观：花园的墙壁、喷泉、河岸等；7)扫描伪像：在扫描仪的记录程中由动态移动的对象引起的伪像；8)汽车和卡车。示例如图 3(b)所示。3.2评估标准本文在两个数据集上对分割结果进行了全面评估，包括以下4个指标：交并比(intersection over union，IoU)、平均交并比(mean intersection over union，mIoU)、全局准确率(overall accuracy，OA)和平均准确率(mean accuracy，mAcc)。IoU是模型对某一类别预测结果和真实值的交集与并集的比值，其用于测量真实值和预测值之间的相关度，相关度越高，该值越高。mIoU是模型对每一类别预测的结果和真实值的交集与并集的比值, 然后求和再平均的结果。OA是数据集中分割正确的样本数与总样本数之比。mAcc是数据集中每个类别的分割准确率求和再平均的结果。3.3实验结果分析3.3.1S3DIS数据集表 1给出了本文算法PointRES与现有模型的对比结果。KPConv在平均交并比上取得了最优精度，这是由于KPConv可在每个卷积位置生成不同的偏移量，这意味着它可以针对输入点云的不同区域调整其内核的形状，提高了网络适应场景对象的几何形状的能力。但是本文PointRES算法在全局准确率和平均准确率上取得了最优精度。SPG是最先尝试将大场景点云作为输入的语义分割算法之一，其将点云转化为超点图，因此需要消耗过多的训练时间。对比SPG，本文网络在总体准确率上提高了1.7%，在平均准确率上提高了8.7%，在平均交并比上提高了3.8%。本文算法在天花板、地板和木板上取得了最优精度，可以发现这些类别结构相对简单且覆盖范围较大，表明本文模型对于该类型物体的语义分割具有优势。尽管本文算法在剩余类别的平均交并比略低于其他算法，但是上述大多数算法倾向于使用复杂的预处理操作来处理点云块。例如目前主流算法PointNet、PointConv、KPConv和RS-CNN等都是将点云裁剪成固定尺寸的小点云块，然后从每个点云块中采样一定数量的点，作为训练网络的输入。尽管SPG同样是将整个大场景点云作为输入，但是其会先将输入点云分为几何上简单的形状，称为超点，然后构造超点图，这样的处理模式增加了数据预处理的时间。本文网络将整个场景作为单个输入，并预测每个点的语义标签。表1 本文算法与其他算法在S3DIS数据集上的实验结果对比 PointNet(Qi等，2017a) 3P-RNN(Ye等，2018) RSNet(Huang等，2018) SPG(Landrieu和Simonovsky，2018) ShellNet(Zhang等，2019) PointWeb(Zhao等，2019) KPConv(Thomas等，2019) RandLA-Net(Hu等，2020) PointRES(本文) ceiling 88.0 92.9 92.5 89.9 90.2 93.5 93.6 92.7 93.7 floor 88.7 93.8 92.8 95.1 93.6 94.2 92.4 95.6 96.4 wall 69.3 73.1 79.2 76.4 79.9 80.8 83.1 79.2 79.0 beam 42.4 42.5 61.7 62.8 0.4 52.4 63.9 61.7 57.2 column 23.1 25.9 47.0 47.1 44.1 41.3 54.3 47.0 46.0 window 47.5 47.6 63.1 55.3 64.9 64.9 66.1 63.1 62.9 door 51.6 59.2 67.7 68.4 52.9 68.1 76.6 67.7 69.2 table 54.1 60.4 68.9 73.5 71.6 71.4 57.8 68.9 68.9 chair 42.0 66.7 74.2 69.2 84.7 67.1 64.0 74.2 79.3 sofa 9.6 24.8 55.3 63.2 53.8 50.3 69.3 55.3 58.3 bookcase 38.2 57.0 63.4 45.9 64.6 62.7 74.9 63.4 62.5 board 29.4 36.7 63.0 8.7 48.6 62.2 61.3 63.0 66.0 clutter 35.2 51.6 58.7 52.9 59.4 58.5 60.3 58.7 59.5 OA 78.6 86.9 - 85.5 87.1 87.3 - 87.1 87.2 mAcc 66.2 - 66.5 73.0 - 76.2 79.1 81.5 81.7 mIoU 47.6 56.3 56.5 62.1 66.8 66.7 70.6 68.5 69.2 The experimental results of different algorithms on S3DIS dataset /%Table 1 加粗字体为每列最优结果。S3DIS数据集的分割可视化结果如图 4所示，可以观察到本文算法在大多数类别的预测结果与真实标签几乎相同，特别是对于天花板、地板、墙壁以及椅子的分割。这主要是由于本文的特征提取模块能很好地捕捉物体的基本几何特征，且残差模块能帮助网络提取更深层次的语义特征。这些物体空间结构简单，点分布均匀且密度较大，为网络提供了丰富且具有辨别力的几何信息。可以观察到，KPConv无法从墙壁旁识别柱子以及其他的平面小物体。本文算法对于墙壁旁的柱子分割效果优于KPConv，但也出现了误分割。PointRES可以识别出柱子的一部分，但同样会将柱子的另一部分分割成墙壁。这主要是由于柱子表现出与墙壁类似的竖直平面形状，导致网络不能很好地区分这两个物体，从而产生误分割现象。RandLA-Net也出现类似的误分割现象，同时还将门的一部分分割成墙壁，将其他类别分割成桌子。图4 不同方法在S3DIS数据集上的语义分割结果 Segmentation results of different methods on the S3DIS datasetFig 4((a) original map; (b) label; (c) results of KPConv; (d) results of RandLA-Net; (e) results of PointRES) 3.3.2Semantic3D数据集如表 2所示，在Semantic3D数据集中，PointRES模型的各项综合指标均优于对比模型，在平均交并比和总体准确率上分别取得了74.0%，93.5%的分割精度。SEGCloud(semantic segmentation of 3D point clouds) 通过三线性插值将体素级3D全卷积和点级条件随机场连接起来，从而在原始的3D点空间中进行分割。本文使用最近邻插值算法来获得最终的点特征。相比于SEGCloud，本文算法的平均交并比提高了12.7%，总体准确率提高了5.4%。RF-MSSF(semantic classification of 3D point clouds with multiscale spherical neighborhoods)提出了一种新的3维点云多尺度邻域定义。这个定义基于球形邻域和比例下采样，可以计算具有一致几何意义的特征。本文使用更适用于大场景语义分割的随机采样作为下采样策略。相比于RF-MSSF，本文算法的平均交并比提高了11.3%，总体准确率提高了3.2%。GACNet通过注意力机制给不同的相邻点分配特定的边缘权重，但是没有考虑到对于不同的感受野，特征之间的相关性。本文通过注意力机制对邻域特征集分配不同的注意力分数，并通过特征聚合模块增加每个点的感受野。相比于GACNet，本文算法的平均交并比提高了3.2%，总体准确率提高了1.6%。同时，可以观察到本文算法在多个类别上也取得了更好的精度，其中包括人造地形、硬景观和扫描伪影。本文算法在低植被的分割中精度低于GACNet，这主要是由于低植被与自然地形和高植被的区分是有难度的。当处理的点数过多时，分割难度会有更大提升，而GACNet针对小点云块进行图卷积，解决了边缘区域分割时特征污染问题。这将是未来研究大场景点云的算法需主要突破的难题。表2 本文算法与其他算法在Semantic3D数据集上的实验结果对比 SnapNet(Boulch等，2017) SEGCloud(Tchapmi等，2017) RF-MSSF(Thomas等，2018) ShellNet(Zhang等，2019) GACNet(Wang等，2019a) PointRES man-made terrain 82.0 83.9 87.6 96.3 86.4 96.4 natural terrain 77.3 66.0 80.3 90.4 77.7 90.3 high vegetation 79.7 86.0 81.8 83.9 88.5 85.7 low vegetation 22.9 40.5 36.4 41.0 60.6 44.8 buildings 91.1 91.1 92.2 94.2 94.2 93.7 hard scape 18.4 30.9 24.1 34.7 37.3 45.5 scanning artefacts 37.3 27.5 42.6 43.9 43.5 58.8 cars 64.4 64.3 56.6 70.2 77.8 76.4 mIoU 59.1 61.3 62.7 69.3 70.8 74.0 OA 88.6 88.1 90.3 93.2 91.9 93.5 The experimental results of different algorithms on the Semantic3D dataset /%Table 2 加粗字体为每行最优结果。图 5为Semantic3D数据集的可视化结果，由于Semantic3D数据集的测试集没有提供真实的数据标签，所以本文没有在图中展示出来。如图 5所示，即使将整个大场景作为输入，网络也能很完整地得到每个点的语义标签。图 5(a)为Semantic3D场景中的细节图。可以观察到，本文算法对于整个场景的分割没有明显误差。红色方框内为分割错误的地方。可以观察到对于边界部分的处理仍存在一些误分割现象，网络将建筑物的顶部边缘分割成高植被。植被属于低植被或高植被的分割标准为高度是否高于2 m，网络很难准确区分这个界限，从而也造成了少量的误分割。图5 Semantic3D数据集的分割可视化结果 Segmentation visualization on the Semantic3D dataset((a) original maps; (b) prediction maps)Fig 54结论本文提出了一种新的语义分割框架，其将残差网络引入大规模点云的语义分割中，从而加深了网络深度并提取深层的特征。同时本文设计了一个新的多特征提取模块来弥补随机采样的不足，并通过注意力机制汇总学习到的特征，以使网络更好地适应点云的几何形状。与多个最新的语义分割算法相比，本文算法在两个数据集的多个评估指标上取得了显著提升，但是在数据集中形状相似的类别上表现并不突出。因此设计一种新的、高效的下采样策略，使之更好地覆盖原始点云并且与局部特征提取模块互补，将是未来的主要研究方向。另一方面，本文的分割结果虽然减少了分割边界现象，但是该现象仍然存在，这是目前语义分割的瓶颈，也是未来工作的突破点。