0引言道路作为一种基础性设施,在数字城市建设、公共交通运输和无人汽车驾驶等领域扮演着重要角色(Zhang等,2018)。随着遥感数据空间分辨率的不断提高,从高分辨率影像中提取道路成为研究热点(Wei等,2017)。然而,基于人工的道路矢量化方法不仅提取周期长(Máttyus等,2015),而且容易受到人的主观因素影响(Wang等,2015)。因此,亟需一种快速、自动化的遥感影像道路信息提取方法(Guo等,2020)。学者们在利用遥感影像进行道路提取方面做了大量研究,形成了诸多提取精度不一的方法。这些传统方法根据提取任务不同可分为两类。第1类是依赖专家知识、道路几何特征和形状特征,通过模板匹配(template matching)(Zhang等,2011)、知识驱动(knowledge-driven)(Treash和Amaratunga,2000)等算法提取道路骨架(Sujatha和Selvathi,2015)。这类方法存在计算复杂度较高、自动化程度较低等缺点(韩洁等,2017)。第2类是利用面向对象(object-oriented)的思想,通过图分割(graph-based segmentation)(Alshehhi等,2017)、支持向量机(support vector machine, SVM)(Song和Civco,2004)等方法来检测遥感影像中所有的道路区域,从而获取道路信息。这类方法由于受到建筑物阴影遮挡、道路灰度变化不均匀等问题,导致存在大量道路断裂现象,道路信息提取效果不佳(戴激光等,2020)。引起广泛关注的人工智能(artificial intelligence,AI)、深度学习(deep learning,DL)道路提取方法逐渐成为一种快速、自动化的解决方案(Shao等,2021)。通过构建深度卷积神经网络(deep convolutional neural network,DCNN)的DL方法(Simonyan和Zisserman,2015;Shelhamer等,2017;Zhang等,2020)自主地对遥感影像进行编码,克服了传统方法(如模板匹配、知识驱动和面向对象等方法)中手动选取道路特征信息的缺点。由多个卷积层、激活函数和池化层互相关联组成的DCNN模型(Lecun等,2015),根据输入的遥感影像数据学习相关特征,具有局部感知和参数共享的优点(Krizhevsky等,2017),广泛应用于各种地物信息提取研究领域。尽管DL具有极强的局部信息提取能力(Cheng等,2017),但在遥感影像道路提取领域中仍然存在提取精度低、模型训练困难和由于样本数目不平衡导致模型训练不稳定等问题。为解决上述问题,研究人员提出了不同的DCNN网络模型。Zhou等人(2018)采用D-LinkNet网络从卫星图像中提取道路,显著提升了道路提取模型的精度;Zhang等人(2018)利用残差学习单元(residual learning unit,RLU)(He等,2016)解决了端到端DCNN网络出现的模型训练困难问题,降低了模型训练的复杂度。Lian和Huang(2020)使用一种加权的交叉熵损失函数训练模型,减轻了道路提取任务中样本不平衡的问题,提升了模型分类的准确性。U-Net网络(Ronneberger等,2015)作为流行的端到端DCNN模型,利用蕴含丰富信息的浅层特征,在生物医学图像分割领域表现出较好性能。然而,由于遥感影像中道路区域存在树木遮挡以及较为复杂的背景噪声(Zhou等,2018),直接利用U-Net网络进行道路提取仍然是一项具有挑战性的任务且存在以下问题:1)U-Net网络在编码部分使用连续的卷积提取道路特征,尽管具有较强的局部信息提取能力,但是较深的卷积神经网络容易阻碍模型训练,造成性能退化等问题(Gao等,2019)。2)U-Net网络使用4次最大池化(max-pooling)进行下采样来聚合卷积提取的特征,有效减小了模型的计算量(Guo等,2020),增大了特征的感受野(receptive filed, RF),但在面临具有较大RF的特征时,标准的卷积仅能提取局部特征,未能考虑更大范围的道路信息。3)U-Net网络使用跳跃连接(skip-connection)操作,尽管加强了对浅层特征的利用程度,但这种直接复制的方式忽视了蕴含的道路信息在空间和通道维度上的分布情况,限制了模型的分割能力。针对存在的问题,本文提出一种基于RLU并结合扩张卷积单元(dilated convolutional unit,DCU)(Yu和Koltun,2016)和卷积注意力模块(convolutional block attention module,CBAM)(Woo等,2018)的聚合网络模型A & D-UNet(attention and DCU-UNet)进行道路提取。该模型在编码部分使用RLU来提高模型的训练速度,降低深层网络引起的模型退化问题;DCU在不损失特征空间分辨率以及不增加模型参数的情况下,接受更大范围的RF,进一步整合道路特征的细节信息;CBAM沿着浅层特征的通道维度和空间维度,在抑制背景信息的同时,增强道路信息的关注程度。与现有的道路提取方法相比,集成了CBAM和DCU的A & D-UNet聚合网络模型,不仅学习到了浅层特征中道路的位置和边缘信息,而且整合了特征中更大范围邻域信息,提高了模型分类的精度,在遥感影像道路提取任务中取得了较好效果。1方法1.1A & D-UNet网络模型A & D-UNet聚合网络模型的结构如图 1所示,由编码器、中心处理器和解码器3个主要部分组成。编码器接收输入的遥感影像数据,利用RLU学习道路特征,并采用最大池化(max-pooling)下采样的方式减小特征维度。经过连续的卷积和池化操作,编码器共提取4个含有道路边缘、位置和空间信息的浅层特征(图 1)。中心处理器采用3个连续的扩张卷积,整合道路特征的邻域信息。解码器一方面通过CBAM加强对浅层特征中道路信息的关注程度,另一方面利用转置卷积上采样的处理方式,恢复提取道路的细节,最后输出与输入遥感影像具有相同空间分辨率的提取结果。该模型充分利用残差学习、扩张卷积和注意力机制的优点,分别简化模型的训练过程、获取更多的道路信息以及提高浅层特征的利用程度。RLU作为主干特征提取网络的组成单元,避免了DCNN引起的模型训练困难和性能退化等问题,提升了A & D-UNet网络的学习能力。DCU充分利用该模型第4次下采样后的道路特征,通过连续但不同的扩张卷积考虑其中的上下文信息,有效整合了特征的领域信息。CBAM以加权赋值的形式,提高对浅层特征中道路空间信息的关注程度,减少背景噪声信息的干扰,有效提高了道路提取模型的精度。 图1 A & D-UNet网络模型结构 The structure of A & D-UNet network modelFig 11.1.1残差学习单元经典U-Net网络在编码部分使用两次连续的3×3卷积和线性整流激活函数(rectified linear unit,ReLU)提取目标特征,结构如图 2(a)所示。然而,随着卷积层数的增加,经典U-Net网络容易出现阻碍模型训练的现象。为解决此类问题,本文模型采用图 2(b)所示的残差学习单元(RLU),通过恒等映射(identity mapping, IM)机制和批量归一化(batch normalization, BN)(Ioffe和Szegedy,2015)操作,不仅降低了模型训练的复杂度,同时提高了模型训练的速度。 图2 经典卷积与残差学习单元区别 Difference between classical convolution and residual learning unitFig 2((a)classical U-Net convolutional structure; (b) RLU structure) 1.1.2扩张卷积单元如图 3所示,标准的卷积仅能感受3 × 3范围的局部信息(图中蓝色区域)。但本文模型采用图 3(b)所示的扩张卷积,在不增加网络模型参数的基础上,通过增加扩张率的方式扩大了卷积核之间的间隔,从而可以感受7 × 7更大范围的特征信息,有效整合了道路的领域信息。 图3 标准卷积和扩张卷积示意图 Schematic of standard convolution and dilated convolutionFig 3((a) standard convolution; (b) dilated convolution) 为充分利用第4次下采样后的道路特征信息,本文提出的A & D-UNet网络中心部分使用扩张卷积单元(DCU)。如图 4所示,DCU在通过串联方式提取特征的基础上,以并联相加的操作进行特征融合,完成道路信息的整合。此外,使用3个连续扩张率(1、2、3)的扩张卷积,避免了特征提取过程中出现的特征遗漏现象。 图4 DCU结构 The structure of DCUFig 41.1.3卷积注意力模块卷积神经网络虽然具有很强的局部信息提取能力,但对整体特征分布情况的获取能力相对较弱。计算机视觉领域的注意力机制通过自主学习的形式获取每个特征的重要信息,忽略其他无关的特征信息,重点关注道路整体特征的分布情况,提高了模型的预测能力。本文采用图 5所示的卷积注意力模块(CBAM)结构进一步处理浅层特征中的道路信息。CBAM依次在通道维度和空间维度通过分配权重的形式突出道路特征信息,在抑制背景信息的同时,增强了模型分类预测的效果。CBAM有两个主要步骤,首先在通道维度上对浅层特征分别进行全局最大池化(global max-pooling, GMP)和全局平均池化(global average pooling, GAP),创建两个1维的特征矢量,并通过全连接层对特征矢量分配权重,完成通道域上的道路特征信息加强;其次在空间维度上对通道域提取的特征再次进行GMP和GAP压缩,生成2维的特征图,然后利用卷积分配特征权重,实现空间域的道路特征信息加强。通过上述步骤的处理,提升了A & D-UNet网络模型对浅层特征中道路信息的关注程度。CBAM结构的参数、内部操作和特征维度变化如表 1所示。 图5 CBAM结构 The structure of CBAMFig 5表1 CBAM参数设置 单元 参数及操作方式 特征维度 输入 — [$N$, C, H, W] 通道注意力 GAP [$N$, C, 1, 1] 通道注意力 FC+ReLU [$N$, C/16] 通道注意力 FC+ReLU [$N$, C] 通道注意力 GMP [$N$, C, 1, 1] 通道注意力 FC+ReLU [$N$, C/16] 通道注意力 FC+ReLU [$N$, C] 空间注意力 GAP [$N$, 1, H, W] 空间注意力 GMP [$N$, 1, H, W] 空间注意力 7×7Conv+BN+ReLU [$N$, 1, H, W] 输出 — [$N$, C, H, W] The parameters of CBAMTable 1 $N$表示输入到结构中的特征个数,C、H、W分别为每个特征的通道数、长、宽, “—”表示不进行任何计算。1.2损失函数基于U-Net的道路提取模型一般采用二进制交叉熵(binary cross entropy, BCE)损失函数进行训练。具体为1$L_{\mathrm{B}}=-\sum\limits_{i=1}^N\left(T_i \log \left(P_i\right)+\left(1-T_i\right) \log \left(1-P_i\right)\right)$ 式中,$P_i$为预测值,$T_i$为标签值,$P_i \in[0, 1]$,$N$为一个样本中像元个数的总数,$i$为其中任意像元$L_{\mathrm{B}}$为BCE函数计算的损失值。BCE先通过计算预测结果与道路标签之间的损失大小,再应用反向传播的方式更新网络模型的参数。然而,遥感影像中道路与背景区域(非道路区域)的样本数量往往是不均衡的。BCE在这种情况下会使模型陷入局部极小值(Milletari等,2016),并且存在训练不稳定的缺点。Dice损失函数通过比较预测结果和标签之间的相似程度,可以很好地解决正负样本不平衡问题(Lin等,2020)。Dice损失函数具体计算为2$L_{\mathrm{D}}=1-\frac{2 \times \sum\limits_{i=1}^N P_i \times T_i}{\sum\limits_{i=1}^N P_i+\sum\limits_{i=1}^N T_i}$ 式中,$L_{\mathrm{D}}$为Dice损失函数计算的损失值。由式(1)和式(2)可知,在样本数量极度不平衡情况下,BCE损失函数倾向于学习背景区域,而Dice损失函数只关注道路区域是否正确分类。本文结合BCE与Dice两者之间的优点,以相加的形式得到复合损失函数,提高网络在道路样本较少时的预测能力。具体为3$L=L_{\mathrm{B}}+L_{\mathrm{D}}$ 式中,$L$为复合损失函数计算的损失值。2数据及结果2.1数据美国马萨诸塞州道路数据集(Massachusetts road dataset, MRDS)由Mnih(2013)创立,因覆盖范围广(刘航和汪西莉,2020)、影像数据量大以及数据标注准确,得到广泛使用(Alshehhi等,2017)。该数据集共有1 171幅遥感影像,其中含有1 108幅训练影像、14幅验证影像、49幅测试影像。所有影像尺寸均为1 500 × 1 500像素,由红、绿、蓝3波段组成,空间分辨率为1.2 m。图 6展示了该数据集的遥感影像和对应的道路标签,标签中道路区域像素值为1,背景区域为0。 图6 MRDS示例 Example of MRDSFig 6((a)road image; (b)label) 考虑到计算机显存大小的限制以及该数据集中遥感影像存在大量空白区域,筛选满足要求的数据:1)将每幅遥感影像和对应的标签裁剪为256×256像素大小;2)计算裁剪之后标签数据的像素个数之和,保留结果大于5 000的影像。通过上述数据处理步骤后,共得到2 230幅训练影像和161幅测试影像。遥感影像在输入模型前,需要进行数据归一化处理,以达到既能加快模型训练速度,又可以提升模型学习能力的目的。本文采用最值归一化,使影像数据的像素值标准化至[0, 1]范围。具体为4$x=\frac{x^*}{255}$ 式中,$x$代表归一化后的像素值,$x^*$表示原始影像的像素值。2.2参数设置A & D-UNet聚合网络模型基于Windows操作平台和Pytorch深度学习框架设计,由Adam (Kingma和Ba,2017)优化函数和复合损失函数训练。训练的硬件配置是NVIDIA GeForce RTX 2060,设置超参数学习率(learning rate)为0.000 1,数据批大小(batch size)为2。图 7显示了模型在130个epoch内的损失值大小和预测准确率的变化情况。可以看出,损失值在逐渐减小,准确率在逐渐上升,表明模型训练正常。 图7 模型训练过程中损失值和准确率 Loss value and accuracy during model trainingFig 72.3道路提取结果根据已有的研究成果(Alshehhi等,2017;Lin等,2020)和MRDS的特点,将测试集分为道路线性特征明显(obvious road-line characteristics,ORLC)、道路标签数据不完整(incomplete road label data,IRLD)和道路存在树木遮挡(road blocked by trees,RBBT)3种情况,每种情况各挑选若干代表性的影像组成ORLC测试集、IRLD测试集和RBBT测试集,以检测A & D-UNet模型在不同情况下的道路提取效果。2.3.1ORLC测试集图 8展示了在ORLC测试集的道路提取结果。通过道路影像与真实标签对比可知,该测试集的道路大部分呈现单一线性分布的特点,树木遮挡较少,道路区域较明显。在这种情况下,A & D-UNet聚合网络模型能够有效地考虑道路的几何特征和线性特征(图中红色椭圆圈),尤其在小面积的弧形道路区域(图中绿色椭圆圈),表现出较好的道路提取效果。本文方法充分考虑了道路的连通性,较为完整地提取了道路信息。 图8 ORLC测试集的道路提取结果 Road extraction results of the ORLC test setFig 8((a)original images; (b)labels; (c)extraction results of proposed model) 2.3.2IRLD测试集图 9是A & D-UNet模型基于IRLD数据集的道路提取结果。由图中道路影像与真实标签对比可知(图中红色椭圆圈),部分道路存在遗漏标记和标记不正确的情况。然而,A & D-UNet模型通过大量的道路影像训练数据集,学习了道路的相关特征,有效避免了标签错误现象(图 9(c))。 图9 IRLD测试集的道路提取结果 Road extraction results of the IRLD test setFig 9((a)original images; (b)labels; (c)extraction results of proposed model) 2.3.3RBBT测试集RBBT测试集的道路提取结果如图 10所示,红色椭圆圈表示该区域的道路存在树木遮挡情况。对比真实标签数据和道路提取结果可知,本文A & D-UNet模型能够有效提取树木遮挡区域的道路,表现出较强的道路提取能力。主要原因是由于A & D-UNet模型通过DCU考虑了更大范围的道路特征信息,并利用CBAM进一步关注浅层特征中的道路信息,提高了模型分类预测的准确率。 图10 RBBT测试集的道路提取结果 Road extraction results of the RBBT test setFig 10((a)original images; (b)labels; (c)extraction results of proposed model) 对比分析3种不同情况的道路提取结果可以发现,A & D-UNet模型在道路线性关系明显的情况下,提取的道路最接近道路标签影像。在道路标签不完整、不正确的情况下,能较完整地提取道路区域。在树木遮挡情况下,能取得较好的提取结果。总体而言,本文A & D-UNet模型在不同情况下均能取得满意的道路信息提取结果。2.4模型评估采用总体精度(overall accuracy,OA)、精确率(precision,P)、召回率(recall,R)、F1分数(F1-score,F1)和交并比(intersection over union, IOU)共5种评价指标,综合评价网络模型的道路提取效果。对于图像分割而言,预测结果和实际标签可组成$TP$(预测为真,标签为真)、$TN$(预测为假,标签为假)、$FP$(预测为真,标签为假)、$FN$(预测为假,标签为真)4种情况,不同评价指标具体计算为5$O A=\frac{T P+F N}{F P+T N+T P+F N}$ 6$P=\frac{T P}{T P+F P}$ 7$R=\frac{T P}{T P+F N}$ 8$F 1=\frac{2 \times P \times R}{P+R}$ 9$I O U=\frac{T P}{F N+T P+F P}$ OA反映了模型预测结果的准确程度,但由于图像中含有大量背景区域,一般采用F1分数和IOU进行综合评价。F1分数越高,代表模型分类预测的结果较好。IOU是道路预测区域和真实道路区域的重合程度,重合程度越高,模型性能越好。将ORLC、IRLD和RBBT 3种测试集的提取结果与真实标签分别进行OA、P、R、F1和IOU指标评估,定量分析模型道路提取的效果,结果如表 2所示。可以看出,ORLC测试集的OA、F1分数和IOU分别为96.47%、83.45%和84.18%,一方面说明A & D-UNet模型能较好地区分背景区域,另一方面也表明在道路线性特征明显、遮挡较少的区域,能够高精度地提取道路信息。IRLD测试集的5个评价指标均低于其他两种,主要是由于该测试集下的道路预测结果中的道路区域与真实标签不一致。尽管如此,IRLD测试集的OA、F1分数和IOU分别为95.22%、77.13%和79.13%,说明本文方法能够有效提取大部分道路区域。RBBT测试集的评价指标高于IRLD测试集,但小于ORLC测试集。其中OA高达95.88%,表明模型能有效提取被树木遮挡的道路区域。表2 不同测试集的评估结果 测试集 OA P R F1 IOU ORLC 96.47 84.97 82.33 83.45 84.18 IRLD 95.22 77.00 77.69 77.13 79.13 RBBT 95.88 81.00 79.10 79.88 81.28 Evaluation results of different test sets /%Table 2 加粗字体表示各列最优结果。2.5模型对比分析为全面检验A & D-UNet聚合模型的性能,与其他模型进行对比。基于相同的损失函数和学习率,A & D-UNet与经典的U-Net、LinkNet和D-LinkNet等3种网络模型使用相同的道路数据集进行训练学习,并使用OA、P、R、F1和IOU等5种评价指标进行定量评估。图 11中的image1、image2和image3分别展示了4种模型在ORLC、IRLD和RBBT这3种情况下的道路提取结果。如image1所示,4种模型提取的道路结果干净整洁,表明U-Net、LinkNet、D-LinkNet和本文模型在遮挡较少、线性关系明显的区域都能有效提取道路。但仔细观察发现,U-Net网络在线性关系不明显区域,将建筑物错误预测为道路(image1红色椭圆),而其他3种模型能够较好地区分建筑物。对比image2的真实标签和道路提取结果可知,本文模型相比于其他3种模型,在真实标签不完整的情况下,能有效避免该情况(图中绿色椭圆)。另外,从image2的红色椭圆可以发现,加入了RLU的LinkNet、D-LinkNet和A & D-UNet提取的道路都比较完整,而U-Net网络存在部分遗漏提取的现象。image3的道路提取结果展示了不同模型在道路遮挡区域的提取效果。由image3中红色椭圆可知,加入RLU的LinkNet模型比U-Net模型能提取到更多的道路信息,但也存在道路信息弯曲、遗漏提取的情况。而D-LinkNet和A & D-UNet提取的道路更加笔直,主要原因是扩张卷积单元进一步整合了道路特征的邻域信息。相比于D-LinkNet模型,A & D-UNet模型通过CBAM充分利用了浅层特征的道路信息,使提取结果更加完整。总之,在道路线性关系明显、标签不完整和道路遮挡等不同情况下,相比于U-Net、LinkNet和D-LinkNet 3种模型,A & D-UNet模型提取的道路最为完整、准确。 图11 不同模型道路提取结果 Road extraction results of different modelsFig 11((a)original images; (b)labels; (c)U-Net; (d)LinkNet; (e)D-LinkNet; (f)A & D-UNet) 采用评价指标定量评估4种模型在3种情况下的道路提取性能,评价结果如表 3所示。可以看出,U-Net、LinkNet、D-LinkNet和A & D-UNet的OA均在91%以上,表明4种模型都能够有效区分道路与背景区域。在道路遮挡区域,A & D-UNet的F1分数和IOU为78.51%和79.38%,是4种模型中最高的。A & D-UNet模型中有部分指标(image2中的OA和P,image3的P)不如D-LinkNet模型,可能的原因是A & D-UNet模型识别了标签中未标注的道路区域,而这些区域模型认定为正确的(实际上在标签中不存在,认为是错误的),将事实上正确的信息作为错误的信息代入式(5)和式(6)计算,降低了OA和P。尽管如此,A & D-UNet模型的F1分数和IOU为80.58%和80.59%,表明A & D-UNet模型依然具有较好的预测性能。此外,本文方法的F1分数和IOU在4种模型中表现最优,表明本文模型在道路提取领域具有较好的预测能力。表3 不同影像的评价结果 模型 image1 image2 image3 OA P R F1 IOU OA P R F1 IOU OA P R F1 IOU U-Net 97.43 82.01 86.94 84.4 85.13 91.72 72.29 63.24 67.46 70.92 91.24 74.4 43.14 54.61 64.16 Linknet 97.17 82.01 82.81 82.41 83.52 92.18 73.6 66.14 69.67 72.43 92.38 72.09 61.38 66.31 70.68 D-Linknet 97.55 84.57 84.85 84.71 85.42 94.54 79.51 80.52 80.01 80.28 94.61 79.82 74.85 77.26 78.51 本文 97.98 87.14 87.67 87.4 87.72 94.43 76.54 85.06 80.58 80.59 94.7 77.83 79.2 78.51 79.38 Evaluation results of different images /%Table 3 加粗字体表示各列最优结果。对4种模型在所有测试集上的道路提取结果进行综合评估,评价结果如表 4所示。可以看出,相比于经典U-Net模型,加入RLU的LinkNet模型通过IM和BN机制有效提升了模型的预测性能。融合了扩张卷积的D-LinkNet模型在不损失特征信息的基础上,接收更大范围的RF,提高了道路提取的精度。A & D-UNet模型由于集成了DCU和CBAM,在测试集上的F1分数和IOU比LinkNet分别提高了5.12%和3.93%。通过对所有测试结果的定量分析表明,集成了DCU和CBAM的A & D-UNet模型在测试集上的OA(95.27%)、P(76.21%)、R(80.73%)、F1分数(77.96%)和IOU(79.89%)均高于U-Net、LinkNet和D-LinkNet模型,表现出较好的道路提取性能。另外,相比其他模型,尽管A & D-UNet模型的训练时间较长(6.9 h),但在所有测试集上的平均评价结果均为最优,表明A & D-UNet模型是4种模型中最优的道路提取模型。表4 不同模型的评价结果 模型 OA/% P/% R/% F1/% IOU/% 训练时间/h U-Net 94.28 78.85 67.49 71.56 75.81 4.7 LinkNet 94.06 74.61 71.81 72.84 75.96 3.1 D-LinkNet 94.86 78.96 74.07 76.01 78.46 3.5 本文 95.27 80.73 76.21 77.96 79.89 6.9 Evaluation results of different modelsTable 4 加粗字体表示各列最优结果。通过不同模型之间的对比分析,本文提出的A & D-UNet道路提取模型具有较好的提取能力。相比于经典的U-Net网络,A & D-UNet使用RLU作为编码器的组成单元,在一定程度上减轻了卷积层数过多而引起的模型退化问题,加快了模型的训练速度。引入的CBAM使模型进一步关注浅层特征中的道路信息,提升了模型分类预测的准确率。通过设置连续且不同扩张率的扩张卷积,克服了标准卷积感受区域较小的缺点,从而考虑了更大的范围的感受野,进一步整合了道路特征的邻域信息。2.6损失函数对比本文采用评价指标综合评估BCE和复合损失函数的道路提取效果。如表 5所示,两种损失函数训练的模型在测试集上的OA都在95%以上,表明均能有效提取道路信息。但是使用BCE与Dice相结合的复合损失函数训练的模型,在测试集上的F1分数和IOU比仅用BCE训练的模型,分别提高了0.26%和0.18%,说明引入的Dice损失函数能够处理正负样本数目不平衡的现象,从而提升了模型预测分类的准确度。表5 不同损失函数的评价结果 损失函数 OA P R F1 IOU BCE 95.24 80.74 75.77 77.70 79.71 BCE+Dice 95.27 80.73 76.21 77.96 79.89 Evaluation results of different loss functions /%Table 5 加粗字体表示各列最优结果。2.7Deep Globe数据集验证实验为进一步验证A & D-UNet模型的泛化能力,选用Deep Globe道路数据集(Demir等,2018)进行训练及测试验证。应用与2.1节相同的数据预处理方式对Deep Globe道路数据集进行裁剪、处理和筛选,共得到4 770幅、尺寸为256×256像素的图像,并按7 ∶3的比例随机选取图像,分别组成训练集和测试集。图 12为经典U-Net、LinkNet、D-LinkNet和A & D-UNet网络模型在Deep Globe数据集上的提取结果。可以看出,基于端到端的4种DCNN网络模型在几何线性特征明显的道路区域(图中绿色椭圆)具有较好的识别效果,能正确提取大部分道路区域。经典U-Net、LinkNet和D-LinkNet在狭窄城市道路、无清晰边界泥泞道路、面积较大主干道路以及建筑物阴影遮挡道路等情况下(图中红色椭圆),存在部分道路信息遗漏提取的现象。然而,A & D-UNet模型通过CBAM和DCU,可以提取较为完整的道路信息,具有较好的识别性能。在标签未标记的部分道路区域(图中黄色椭圆),4种DCNN模型都能够对道路信息进行有效提取,但A & D-UNet模型提取结果具有更好的视觉效果。 图12 不同模型在Deep Globe数据集的提取结果 Extraction results of different models in deep globe road datasetFig 12((a)original images; (b)labels; (c)U-Net; (d)LinkNet; (e)D-LinkNet; (f)A & D-UNet) 基于Deep Globe道路数据集的道路提取结果评价指标及测试集的评估结果如表 6所示。可以看出,4种网络模型的OA、F1和IOU分别超过92%、69%和73%,表明基于端到端的DCNN模型具有较好的分类预测性能。同时,A & D-UNet模型在测试集上取得了最高的F1分数(77.06%)和IOU(78.44%),表现出良好的泛化性能。相比于经典U-Net模型,本文构建的道路提取模型虽然训练时间耗时相对较长,但F1和IOU分别提高了7.12%和5.51%,说明CBAM和DCU能显著提高模型的预测精度。表6 不同模型在Deep Globe数据集上的道路提取评价结果 模型 OA/% P/% R/% F1/% IOU/% 训练时间/h U-Net 92.56 74.45 68.45 69.94 73.33 7.1 LinkNet 92.65 73.54 69.79 71.01 73.93 4.6 D-LinkNet 92.54 72.25 71.28 71.18 73.94 5.3 本文 94.01 77.03 78.38 77.06 78.44 10.3 Evaluation results of different models of road extraction in Deep Globe datasetTable 6 加粗字体表示各列最优结果。3结论针对遥感影像道路提取方法存在的自动化程度低、精度不高以及由于样本数量不平衡导致的模型训练不稳定等问题,本文提出一种基于RLU,带有DCU和CBAM的A & D-UNet聚合网络模型,并使用BCE和Dice进行道路信息提取实验,与经典U-Net、LinkNet和D-LinkNet网络模型对比分析,得出以下两点结论:1)A & D-UNet模型是一个道路信息提取精度较高的聚合网络模型。在测试集上的F1分数和IOU评价指标分别为77.96%和79.89%,说明该方法能够有效提取道路信息。与经典U-Net网络相比,该模型使用RLU减轻了深层卷积网络引起的性能退化等问题,采用DCU整合道路特征的细节信息,利用CBAM加强了浅层信息的利用程度,提高了模型对复杂场景中道路的提取精度。2)采用BCE和Dice相结合的复合损失函数训练模型,有效减轻了遥感影像中样本数量不平衡导致的模型不稳定问题,提升了模型分类预测的能力。对于其他样本数量不平衡的地物分类任务,具有一定的借鉴意义和适用性。本文构建的A & D-UNet模型相对其他3种模型训练时间较长。如何在保持模型预测精度和效果的基础上减少模型的训练时间,优化模型计算性能,是下一步的一个重点研究方向。
使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,
确定继续浏览么?
复制成功,请在其他浏览器进行阅读