网刊加载中。。。

0引言随着遥感卫星技术的发展，高分辨率遥感图像已成为数字图像处理重要的数据来源。同时，遥感图像道路提取在城市规划、交通管理、车辆导航和地图更新等领域中发挥了重要作用，已经成为近年来的研究热点(吴亮和胡云安，2010)。然而，由于遥感图像受光照、噪声和遮挡等因素的影响，导致不同道路特征之间存在差异；同时遥感图像背景中存在大量相似的非道路目标，对遥感图像道路提取造成干扰，因此如何从高分辨率的遥感图像中实现精确的道路提取仍是研究领域的一项挑战(张永宏等，2018)。近年来，相关领域提出大量用于实现遥感图像道路提取的方法，根据使用特征和方法大致分为4种，即基于分类的方法、基于知识的方法、基于数学形态学的方法和基于活动轮廓模型的方法(Wang等，2016)。基于分类的方法通常使用几何、光学和纹理等方面的特征，采用人工神经网络和支持向量机等方法实现道路像素的分类。Kirthika和Mookambiga(2011)将BP(back propagation)神经网络用于道路提取，先使用光谱信息进行道路检测，再根据每个像素的不同纹理参数生成预分类道路地图。Simler(2011)提出使用多类的支持向量机实现道路和建筑物的检测，适用于多光谱数据。基于分类的方法由于道路和其他光谱相似的物体(如建筑、田野、水域和停车场等)的错误分类，分类精度远不能令人满意。基于知识的方法在利用光谱和纹理特征的基础上，通过结合道路的空间结构信息提高道路提取效果。王建华等人(2016)在使用光谱信息道路提取的基础上加入空间纹理信息，并建立知识模型实现道路部分提取。基于数学形态学的方法通过提取道路的几何形状和结构特征提高道路提取效果(安如等，2003)。Ma等人(2012)利用边缘检测算子对增强后的图像进行分割。随后使用霍夫变换和形态学算子对直线和曲线路段进行调整。基于活动轮廓模型的方法使用一条连续曲线表示目标轮廓，并定义能量函数，使图像分割过程转变为寻找能量函数的最小值。当能量达到最小值时，就可以获得物体的轮廓。Anil和Natarajan(2010)先通过中值滤波器去除图像噪声，然后在道路上人为设置初始种子点，用蛇模型实现道路提取。上述算法需要人为设计提取的特征，选择光谱、纹理和几何等特征实现道路特征提取，使得模型的表达能力有限，同时无法对高分辨率图像中的丰富信息进行充分利用。随着深度学习方法在计算机视觉和图像处理领域的应用，多种模型在图像分割领域实现了较好的分割效果(Ronneberger等，2015；He等，2016)。深度学习方法也逐步应用于遥感图像道路提取(Munteanu等，2019)。Mnih和Hinton(2010)首次将深度学习技术应用于道路提取领域，提出一种使用受限玻尔兹曼机从高分辨率航空影像中检测道路区域的方法。Saito等人(2016)提出一种基于卷积神经网络实现多种道路和建筑的分割系统，使用分类网络为从图像中提取的各个区块指定道路、建筑物或背景等标签。Zhang等人(2018)提出将残差块和U-Net网络中的解码器进行结合来加快网络收敛，端对端地实现了图像道路分割。Xu等人(2018)先对遥感数据进行数字滤波预处理，再集成两个结合深度残差的U-Net网络结果实现道路的语义分割。Buslaev等人(2018)通过使用在ImageNet数据集上预训练的Resnet-34网络改进U-Net网络的编码器部分，提高遥感道路的分割效果。Yang等人(2019)提出一种结合残差学习和密集连接块的U-Net网络实现道路提取，通过密集残差块提高网络对多层特征的利用，有效提高了道路分割精度。这些方法没有考虑道路整体具有的几何拓扑结构，缺乏对上下文信息的充分利用，同时在下采样过程中的图像分辨率不断下降，丢失的空间信息难以恢复，使得提取的道路边缘部分不清晰。受注意力机制(Oktay等，2018)和上下文信息编码网络(Gu等，2019)的启发，本文提出一种结合上下文信息和注意力机制的U-Net类型网络来提高遥感图像道路提取效果，使用迁移学习方法，将在ImageNet数据集上经过预训练的Resnet-34网络(He等，2016)作为网络的编码器模块来实现特征提取，通过添加上下文信息提取模块提高对图像上下文信息的利用来有效提取道路的几何结构特征，通过在网络的解码器部分添加注意力机制加强道路区域的特征信息，同时抑制非道路区域的特征信息，提升道路边缘的分割效果。1相关技术1.1U-Net网络U-Net网络(Ronneberger等，2015)最初用于医学图像的语义分割任务。与其他现有的语义分割模型相比，U-Net网络是一个小型模型，具有较少的训练参数，主要针对少量训练样本情况。这些特征使U-Net成为解决各种语义分割任务时的常用模型。U-Net网络结构由获取语义信息的编码器和具有编码器对称结构的解码器组成，它们分别实现图像的下采样和上采样过程，网络结构如图 1所示。编码器使用卷积网络的典型结构，交替使用多层卷积和池化操作，逐步降低特征图的分辨率，同时使得每层特征图的通道数翻倍，从而获取图像的全局信息。解码器中的每步均与编码器相对应，包括对特征图进行上采样，然后进行多次卷积。因此，解码器逐步提高了输出特征图的分辨率，同时使得特征图的通道数减半。为了定位上采样的特征，解码器通过跳跃连接将它们与来自编码器的同分辨率特征图拼接起来。该模型没有全连接层，在最终层将通道数映射为所需的语义类别。网络最终输出一个与输入图像尺寸相同的逐像素分类的标签图，每个像素的值显示了该像素所属的语义类别。图1 U-Net网络结构 U-Net network structureFig 11.2密集空洞卷积模块在语义分割任务中，卷积网络可以有效获取图像特征，但是池化层在降低图像分辨率的同时会导致图像中语义信息的丢失，使得小物体信息无法在解码过程中重建。为了克服这一局限性，采用空洞卷积(Yu和Koltun，2016)来改进卷积网络。空洞卷积通过在每个空间维度在两个连续的滤波器值之间插入$r$-1个零值，从而实现输入的上采样滤波。空洞卷积实际卷积核大小为 1 $K=k+(k-1)(r-1)$ 式中，$r$为空洞卷积的膨胀系数，$k$为初始的卷积核大小，通过改变膨胀系数$r$可以自适应地修改卷积的感受野。通过空洞卷积可以在不增加计算量的情况下使感受野呈指数增长，获取图像的多尺度局部特征和保留大部分像素的空间位置信息。空洞卷积的结构如图 2所示，3×3大小的卷积核在膨胀系数为1和2时，感受野大小分别为3和5。图2 空洞卷积示意图 Schematic diagram of hole convolutionFig 2((a)$r $= 1;(b)$r $= 2) Inception和Resnet是两种经典的深度学习模型。Inception系列网络采用不同大小的感受野同时对图像进行处理，将不同感受野下的特征图进行叠加，在减少参数量的同时，提高网络对多尺度目标的适应性。相反，Resnet网络使用短路连接机制避免梯度的爆炸和消失，同时加快网络的收敛速度，使卷积神经网络的深度进一步增加，网络结构如图 3所示，其中，${\mathit{\boldsymbol{x}}}$为残差网络的输入，$F $(${\mathit{\boldsymbol{x}}}$)表示残差模块学习到的网络残差，$H $(${\mathit{\boldsymbol{x}}}$)表示输入经过残差网络后的映射输出。图3 残差神经网络结构图 Residual neural network structure diagramFig 3Inception-ResNet(Szegedy等，2016)结合Resnet和Inception两种方法，在加深网络的同时，加快网络的收敛速度，提高了网络的分割效果。密集空洞卷积模块将空洞卷积的思想与Inception-Resnet结构相结合，实现了高级语义特征图进行编码，既可以结合残差连接避免梯度的爆炸和消失，也可以采用不同感受野的卷积核实现不同尺寸目标的特征获取。结合空洞卷积思想，在不增大计算量的条件下有效提高各个支路的感受野。2改进的U-Net网络的结构改进的U-Net网络主要由特征编码模块、上下文信息提取模块和结合注意力机制的特征解码模块组成。网络整体示意图如图 4所示。图4 网络整体示意图 Overall schematic diagram of the networkFig 4((a)pre-trained encoder module; (b)decoder module) 2.1特征编码模块迁移学习是一种可以在多数情况下，尤其是在训练数据有限的情况下直接提高网络性能的方法(Oquab等，2014)。在语义分割领域，编码器通过ImageNet(Deng等，2009)预训练的权重进行初始化，有效提高了模型的分割效果(Iglovikov和Shvets，2018)。本文使用具有与编码器类似结构的网络作为网络的特征编码模块，同时使用预训练的网络参数初始化网络。在传统U-Net架构中，每个编码器块包含两个卷积层和一个最大池化层。本文使用预先训练的Resnet-34网络作为编码器，预训练编码器网络模块结构如图 4所示。编码器从初始块开始，进行卷积核大小为7×7且步长为2的卷积。预训练编码器网络模块之后为步长为2的最大池化。网络的后面部分由重复的残差块组成。在每个残差块中，第1个卷积操作以步长为2的卷积核实现采样，其余卷积操作使用步幅为1的卷积操作。在各个残差块中加入短路连接来加快网络的收敛。2.2上下文信息提取模块在遥感图像中，道路通常是彼此相连的。道路具有的几何特征与道路形状有直接关系，因此通过添加密集空洞卷积模块实现对道路整体几何结构的特征提取。上下文信息提取模块采用不同大小感受野的卷积支路实现不同尺度下的道路上下文信息提取，对高级语义特征图进行编码，结构如图 5所示，既可以采用不同感受野的卷积核实现不同尺寸目标的特征获取，也可以结合残差连接来避免梯度的爆炸和消失。结合空洞卷积的思想，在不增大计算量的条件下有效提高了各个支路的感受野。从上到下的每个支路分别具有3、7、9、19大小的感受野，可以实现不同尺寸下的道路特征提取。图5 上下文信息提取模块示意图 Schematic diagram of context information extraction moduleFig 52.3注意力机制模块在遥感图像处理过程中，通过跳跃连接从编码过程传递的特征图不仅包含了目标的位置、边缘等细节特征，同时也存在着大量背景特征信息，这些特征会对分割任务造成干扰。采用注意力机制自适应地将局部特征与全局特征相结合，对特征信息进行筛选，抑制非目标区域的特征，使得网络在特征提取过程中更关注道路区域特征，提升道路边缘的分割效果。注意力机制源于对人类视觉的研究。由于信息处理的瓶颈，会选择性地关注所有信息的一部分，同时忽略其他可见的信息。在网络模型中，注意力机制能够对跳跃连接传递的特征信息进行加权，对目标区域的特征信息进行强化，减弱无用信息的干扰，从而提高特征的利用效率，进而提高模型对于细节的分割性能。Oktay等人(2018)在U-Net网络中引入注意力机制，有效提高了网络的预测性能。注意力机制提取模块将上采样的上一层特征图和来自下采样过程的特征图作为输入信号。网络结构如图 6所示，其中$H$和$W$分别表示输入特征图的高度和宽度，$F_{\rm {in1}}$、$F_{\rm {in2}}$和$F_{\rm {out}}$分别表示门控信号、输入特征图和输出特征图的通道数。先对两幅特征图进行特征降维，然后直接相加，再经过线性修正和sigmoid函数层，最终得到像素的权重图。最后对跳跃连接的特征图进行加权，即通过结合上采样层上一层的特征图和下采样层同层的特征图进行一个像素权重图的构建，然后将这个权重图对跳跃连接传递的特征图进行处理，得到进行权重加权的特征图。图6 注意力机制模块 Attention mechanism moduleFig 62.4特征解码模块解码器模块由与编码器模块对应的解码器块组成，解码器模块结构如图 7所示。图7 解码器模块 Decoder moduleFig 7先将从编码器模块传递的经注意力模块进行权重调整的特征图与上采样的特征图进行通道叠加，然后经过各解码器模块，每个解码器模块均包括1×1卷积运算，该运算将通道数减半，然后进行批量归一化和转置卷积以对特征图实现上采样，最终通过最后的卷积层生成只有道路和非道路两种标签的图像。解码器整体结构如图 4(b)所示。2.5损失函数本文模型是一个端到端的深度学习网络。需要判断预测出来的每个像素是道路还是背景，这是一个逐像素的分类问题。最常见的损失函数是交叉熵损失函数。遥感图像中道路占图像整体面积的5 %，交叉熵损失并不是针对此类任务的最佳选择。针对此类问题，在医学图像分割中通常使用Dice系数损失函数作为损失函数。本文使用Dice系数损失函数和交叉熵损失共同作为损失函数。在二分类情况下，交叉熵损失函数的计算为 2 ${L_{{\rm{cross }}}} = \frac{1}{N}\sum\limits_i - \left[ {y{{\log }_2}{y^\prime } + (1 - y)\log \left({1 - {y^\prime }} \right)} \right]$ 式中，$y$表示真实的像素标签值，$y′$表示预测的标签像素值，$N$表示像素点的数量。Dice系数是一种集合相似度度量函数，通常用于计算两个样本的相似度，取值范围在[0, 1]。Dice系数损失函数的计算为 3 ${L_{{\rm{dice }}}} = 1 - \frac{{2|\mathit{\boldsymbol{X}} \cap X|}}{{|\mathit{\boldsymbol{X}}| + |\mathit{\boldsymbol{Y}}|}}$ 式中，${\mathit{\boldsymbol{X}}}$和${\mathit{\boldsymbol{Y}}}$分别表示生成的预测图和真实标签。$|{\mathit{\boldsymbol{X}}}∩{\mathit{\boldsymbol{Y}}}|$是标签和预测之间的交集，$|{\mathit{\boldsymbol{X}}}|$和$|{\mathit{\boldsymbol{Y}}}|$分别表示标签和预测的元素的个数。最终的损失函数为交叉熵函数和Dice系数损失函数的总和，即 4 $L_{\text {loss }}=L_{\text {cross }}+L_{\text {dice }}$ 2.6评价指标为了评价模型道路分割的性能，采用遥感图像道路分割中常用的两种语义分割评估指标：召回率(recall)和交并比(intersection over union，IoU)。召回率是分割正确的标签像素点在真实标签中所占的比例，交并比是预测区域和实际区域交集与预测区域和实际区域的并集的比值。两个指标的计算为 5 $R = \frac{{TP}}{{TP + FN}}$ 6 $IOU = \frac{{TP}}{{TP + TN + FP}}$ 式中，$R$为召回率，$IOU$为交并比，$TP$代表目标正确分类的像素点数量，$TN$表示背景正确分类的像素点数量，$FP$表示背景分类为道路的像素点的总数量，$FN$表示道路分割为背景的像素点数量。召回率和交并比的数值在[0, 1]区间内，数值越靠近1，表示道路分割的性能越好。3实验结果与分析3.1实验数据实验数据集使用Deep Global卫星道路提取数据集(Demir等，2018)。该数据集用于公路和街道主干网络的自动提取，包含6 226对1 024 × 1 024像素的RGB卫星遥感图像和标签，每幅图像的像素分辨率为50 cm。图像由Digital Globe的卫星收集，为泰国、印度和印度尼西亚3个国家的城市、乡村等多种场景。该数据集道路场景复杂，同时道路在卫星图像中呈现狭窄和横跨整幅图像的趋势。在实验中，将6 226幅图像分成5 500幅训练集数据和726幅测试集数据。原始图像和手动分割标签如图 8所示。图8 数据集图像和标签 Dataset images and labelFig 8((a)original image; (b)ground truth) 3.2参数设置实验环境为Ubuntu系统环境，采用目前流行的深度学习框架pytorch。训练和测试过程在两块8 GB显存的NVIDIA Tesla P4显卡上实现。在训练过程中，采用最小批次为4的梯度下降法进行训练。初始学习率设为0.000 02，动量为0.9，衰减系数为0.000 1。最大批次设置为200。连续3轮训练损失函数不下降，则将学习率减半，连续6轮训练损失函数不下降，则认为训练已达最优，终止训练过程。3.3实验结果分析为了验证道路分割模型的可行性，分别采用基于U-Net模型(Ronneberger等，2015)、CE-Net(context encoder network)模型(Gu等，2019)和本文改进模型实现高分辨率遥感图像道路分割任务。其中，对比网络的参数设置与原方法相同。表 1给出了不同模型用于道路分割的性能对比。可以看出：1)本文模型和CE-Net模型的召回率远高于U-Net模型，与CE-Net相比，本文模型的召回率提升了4.38 %，更符合真实标签，对图像中的道路具有更好的识别率; 2)本文模型和CE-Net模型的交并比远大于U-Net模型，与CE-Net相比，本文模型的交并比提高了0.38 %; 3)结合召回率和交并比可以看出，本文模型区别非道路区域的能力更强，体现出模型在道路分割中的性能优越性。表1 不同模型的训练结果对比模型召回率交并比 U-Net 0.427 6 0.394 4 CE-Net 0.803 4 0.687 7 本文 0.847 2 0.691 5 Comparison of training results among different modelsTable 1 加粗字体为各列最优结果。与其他基于U-Net的深度学习方法不同，本文方法使用注意力机制对编码器传递的底层特征进行加权，因此能够获得更加清晰的道路边缘信息。而其余方法对低维位置信息的恢复效果差，导致图像细节不清晰。基于不同网络模型的道路分割结果如图 9所示。可以看出，基于U-Net模型分割出的道路图像由一系列离散段落组成，道路边缘不清晰，且图像整体结构缺失较多；基于CE-Net模型的分割结果显著提高，但存在分段道路不连通现象；本文改进模型通过加入上下文信息模块，可以对整体道路实现分割，且可分割出连续的道路网络。添加注意力机制对低维特征进行加权，有效恢复了缺失的位置信息，道路的边缘更加清晰。图9 各个模型训练的结果对比 Comparison of the results of each model trainingFig 9((a)original images; (b)U-Net; (c)CE-Net; (d)ours; (e)ground truths) 4结论在遥感图像道路提取过程中，由于缺乏对图像上下文信息的充分利用，存在道路结构不完整问题。同时在下采样过程中图像分辨率下降，使得道路边缘分割结果不清晰。针对以上问题，本文提出一种结合上下文提取模块和注意力机制的遥感道路提取模型。通过添加上下文特征提取模块，提高了上下文信息的利用效率，一定程度上克服了道路结构不完整、不连通问题。同时结合注意力机制的解码器调整跳跃连接的特征权重，提升了道路边缘区域的分割效果。将本文方法应用于Deep Global道路数据集，与U-Net和CE-Net模型进行对比实验，发现该网络在遥感图像道路提取上达到良好效果，训练精度明显上升，验证了本文模型的有效性。但是，本文仅实现了遥感图像道路的分割，如何对遥感图像中的不同地物实现分割将是进一步的研究课题。此外，本文方法主要针对遥感道路提取，是否可以应用于医学等其他领域的图像分割任务，也是下一步的研究内容。