Print

发布时间: 2020-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190276
2020 | Volume 25 | Number 3




    遥感图像处理    




  <<上一篇 




  下一篇>> 





结合双视觉全卷积网络的遥感影像地物提取
expand article info 李道纪, 郭海涛, 张保明, 赵传, 卢俊, 余东行
中国人民解放军战略支援部队信息工程大学, 郑州 450000

摘要

目的 遥感影像地物提取是遥感领域的研究热点。由于背景和地物类型复杂多样,单纯利用传统方法很难对地物类别进行准确区分和判断,因而常常造成误提取和漏提取。目前基于卷积神经网络CNN(convolutional neural network)的方法进行地物提取的效果普遍优于传统方法,但需要大量的时间进行训练,甚至可能出现收敛慢或网络不收敛的情况。为此,基于多视觉信息特征的互补原理,提出了一种双视觉全卷积网络结构。方法 该网络利用VGG(visual geometry group)16和AlexNet分别提取局部和全局视觉特征,并经过融合网络对两种特征进行处理,以充分利用其包含的互补信息。同时,将局部特征提取网络作为主网络,减少计算复杂度,将全局特征提取网络作为辅助网络,提高预测置信度,加快收敛,减少训练时间。结果 选取公开的建筑物数据集和道路数据集进行实验,并与二分类性能优异的U-Net网络和轻量型Mnih网络进行对比。实验结果表明,本文提出的双视觉全卷积网络的平均收敛时间仅为U-Net网络的15.46%;提取精度与U-Net相当,远高于Mnih;在95%的置信水平上,该网络的置信区间明显优于U-Net。结论 本文提出的双视觉全卷积网络,融合了影像中地物的局部细节特征和全局特征,能保持较高的提取精度和置信度,且更易训练和收敛,为后续遥感影像地物提取与神经网络的设计提供了参考方向。

关键词

遥感; 地物提取; 全卷积网络; 双视觉; 局部信息; 全局信息

Double vision full convolution network for object extraction in remote sensing imagery
expand article info Li Daoji, Guo Haitao, Zhang Baoming, Zhao Chuan, Lu Jun, Yu Donghang
PLA Strategic Support Force Information Engineering University, Zhengzhou 450000, China
Supported by: National Natural Science Foundation of China(417601507)

Abstract

Objective Object extraction is a fundamental task in remote sensing. The accurate extraction of ground objects, such as buildings and roads, is beneficial to change detection, updating geographic databases, land use analysis, and disaster relief. Relevant methods for object extraction, such as for roads or buildings, have been observed over the past years. Some of these methods are based on the geometric features of objects, such as lines and line intersections. The most traditional approaches can obtain satisfactory results in rural areas and suburbs with high identification and positional accuracy, but low accuracy in complex urban areas. With the rise of deep learning and computer vision technology, a growing number of researchers have attempted to solve the related problems through deep learning method, which is proven to greatly improve the precision of object extraction. However, due to memory capacity limitations, most of these deep learning methods are patch-based. This operation cannot fully utilize the contextual information. At the edge region of the patch, the prediction confidence is much lower than that of the central region due to the lack of relevant information. Therefore, additional epochs are needed for feature extraction and training. In addition, objects often appear at extremely different scales in remote sensing images; thus, determining the right size of the vision area or the sliding window is difficult. Using larger patches to predict small labels is also an effective solution. In this manner, the confidence of the predicted label map is greatly increased and the network is easier to train and converge. Method This study proposes a novel architecture of the network called double-vision full convolution network (DVFCN). This architecture mainly includes three parts:encoder part of local vision (ELV), encoder part of global vision (EGV), and fusion decoding part (FD). The ELV is used to extract the detailed features of buildings and EGV is used to give the confidence over a larger vision. The FD is applied to restore the feature maps to the original patch size. Visual geometry group(VGG)16 and AlexNet are applied as the backbone of the encoder network in ELV and EGV, respectively. To combine the information of the two pathways, the feature maps are concatenated and fed into the FD. After the last level of FD, a smooth layer and a sigmoid activation layer are used to improve the feature processing ability and project the multichannel feature maps into the desired segmentation. Finally, skip connections are also applied to the DVFCN structure so that low-level finer details can be compensated to high-level semantic features. Training the model started on an NVIDIA 1080ti GPU with 11 GB onboard memory. The minimization of this loss is solved by an Adam optimizer with mini-batches of size 16, start learning rate of 0.001, and L2 weight decay of 0.000 5. The learning rate drops by 0.5 per 10 epochs. Result To verify the effectiveness of DVFCN, we conducted the experiments on two public datasets:European building datasets and Massachusetts road datasets. In addition, two variants of the DVFCN were tested, and U-Net and Mnih were also operated for comparison. To comprehensively evaluate the classification performance of the model, we plotted the receiver operating characteristic (ROC) curves and precision-recall curves. The area under the ROC curve (AUC) and F1 score were regarded as evaluation metrics. The experimental results show that DVFCN and U-Net can achieve almost the same superior classification performance. However, the total training time of DVFCN was only 15.4% of that of U-Net. The AUC of U-Net on building datasets and road datasets were 0.965 3 and 0.983 7, which were only 0.002 1 and 0.005 5 higher than DVFCN, respectively. The extraction effect on road and built-up was better than that of Mnih. In addition, the confidence rates of the two networks were also calculated. The experimental results show that the confidence of interval DVFCN is better than that of U-Net under 95% confidence. The importance of ELV and EGV is also studied. Result shows that the ELV is more important than EGV because it can provide more detailed local information. EGV performs poorly by itself because it can only provide global information. However, the global information is important for the convergence of DVFCN. Conclusion The DVFCN is proposed for object extraction from remote sensing imagery. The proposed network can achieve nearly the same extraction performance as U-Net, but the training time is much reduced and the confidence is higher. In addition, DVFCN provides a new full convolution network architecture that combines the local and global information from different visions. The proposed model can be further improved, and a more effective method of combining local and global context information will be developed in the future. Thus, studying the utilization of global information through a global approach is important.

Key words

remote sensing; object extraction; fully convolutional networks; double vision; local information; global information

0 引言

遥感影像地物提取是遥感领域的一项基础而重要的任务,如何对遥感图像中的地物进行准确识别和判绘,对于变化检测、地理数据更新、灾害评估和战场环境分析都具有极其重要的意义与应用价值(Cheng和Han,2016)。然而,由于现实场景包含的地物类型复杂多样,从遥感影像中提取特定地物很容易受到背景因素的干扰(游永发等,2019)。因此,如何快速准确地从遥感影像提取特定地物,仍然是一个难点。

在遥感影像中,水域及植被具有较易区分的光谱特性,因此相对容易提取。而对于道路及建筑物等典型地物,形态复杂多样,很难找到统一适用的提取方法。目前,依据对该类地物进行提取的手段的不同,大致可以分为基于几何特性和基于光谱特性这两种提取方法。

基于几何特性的提取方法,大多可以分为4个步骤:对提取的目标地物进行预先建模、特征值提取、阈值设定及地物识别。通过边缘及角点检测得到几何特征点,进而确定地物的轮廓范围。李青等人(2017)利用尺度不变特征变换SIFT(scale invariant feature transform)算法提取候选边缘点,然后根据格式塔序列连续性原则确定边缘点,从而拟合建筑物边缘实现建筑物提取。刘小丹和刘岩(2012)将Hough变换与路径形态学相结合,Hough变换被用于确定主要道路的方向和长度以建立相应的邻接图,进而对道路区域进行提取。

基于光谱特性的提取方法,主要利用不同类型地物光谱特性之间的差异来实现地物提取,例如,植被通常在近红外光谱波段有较强的反射特性,因而可以根据该波段光谱值进行植被区域提取。Qiao等人(2012)提出一种基于光谱匹配的水域及裸地的提取方法,并在美国地球资源卫星Landsat 7影像中进行测试,验证了该方法的有效性和通用性。

除了以上传统的提取手段,一些基于机器学习的分类方法也相继被应用到地物提取当中。Song和Civco(2004)利用支持向量机SVM(support vector machine)对图像辐射信息进行分类,并结合形状特征的区域生长实现道路提取。然而这种方法对样本的要求很高,如果样本不具代表性或者特征不明显,则会导致学习失败,造成误分类。此外,对高维特征进行分类经常会导致更多的不确定性,甚至有时候会带来Hughes现象。

随着深度学习和计算机视觉技术的兴起,越来越多的研究学者尝试通过深度学习来解决相关地物提取问题(Alshehhi等,2017Panboonyuen等,2017Yuan,2018Huang等,2016)。大量研究表明,深度学习方法可以大大提高地物提取的精度。Wang等人(2015)提出一种神经动态跟踪框架,基于深度神经网络DNN(deep neural network)和有限状态机FSM(finite state machine)进行道路网的提取。结果表明,该方法比传统方法具有更高的精度和效率。范荣双等人(2019)采用主成分变换的方法提取遥感影像特征,结合自适应池化模型和卷积网络,提高了遥感影像建筑物提取的完整度和清晰度。Ronneberger等人(2015)提出一种优秀的二分类神经网络框架U-Net,在结构上的最大特点是加入跳跃连接(skip connection)。这种连接方式将低级语义信息与高级语义信息相融合,以实现低级语义特征中的细节信息和高级语义特征中的类别抽象信息平衡互补,进而得到更准确的类别分割结果。此后,大量神经网络架构采用类似U-Net中的跳跃连接结构,并在实践中得到了很好的分类结果(Rakhlin等,2018Li等,2018Ghosh等,2018伍广明等,2018)。此外,Zhang等人(2018)在U-Net的基础上,利用残差单元代替卷积单元,在减少参数量的同时,达到了更优的分类效果。

然而,由于内存条件的限制,多数深度学习网络并不是将整个影像作为输入,而是对影像进行分割裁剪等预处理。每个影像块的边缘区域像素由于可利用的信息较少,预测的置信度相较于中心区域会有所降低。因此,网络往往需要更多的训练批次来对边缘区域进行学习,收敛到最优模型的训练时间也相应增加。如果在网络训练过程中加入全局性的信息,便可以提高网络预测的整体置信度,加快网络收敛速率,使得网络更易训练。为此,Saito和Aoki(2015)提出一种利用较大的块(patch)作为输入来预测较小尺寸标签的卷积神经网络CNN(convolutional neural network),该网络不必预测每个影像块中所有的像素标签,从而提高标签预测的置信度。Mnih和Hinton(2010)也利用相似的方法进行地物提取网络设计。Marcu和Leordeanu(2016)提出一种双流深度神经网络,该网络包括两条独立路径,一条用于图像局部细节特征提取,另一条用于全局特征提取,两条路径提取到的高级语义特征经过同一条全连接网络进行融合预测,最终得到中心16×16像素区域的标签。然而,这种方法由于预测标签的区域过小,导致网络在计算损失值和反向传播的过程中容易发生震荡,同时全连接网络结构也很容易发生过拟合,训练效果并不理想。实验中利用了百万级数量的样本才使得网络收敛至最优,这对于多数科研人员来说,训练该网络所消耗的时间和开销是难以接受的。

受双流深度神经网络的启发,本文提出一种新型的双视觉全卷积网络DVFCN(double-vision full convolution network)。两种网络的主要区别为:1)DVFCN网络利用卷积网络将原双流神经网络的全连接层进行了替换,增大了预测图尺寸,使得网络更加容易训练,降低过拟合;2)DVFCN网络在局部细节网络通路中加入了类似于U-Net的skip-connection结构,增强了对局部细节的特征提取;3)针对局部及全局特征融合的方式,双流神经网络利用特征展开全连接的方式进行融合,而DVFCN网络利用叠加(concatenate)操作进行融合。

1 相关理论

1.1 卷积神经网络

卷积神经网络设计的目的是提取图像深度特征信息进行处理(Marcu和Leordeanu,2016)。卷积层CONV(conv layer)是卷积神经网络的核心部分,具有局部连接和权值共享的特点,操作过程如下

$ x^{l}_{j}=f(\sum\limits _{i∈ \boldsymbol{M}_{j}}x^{l-1}_{i}*w^{l}_{ij}+b^{l}_{j}) $ (1)

式中,$x^{l}_{j}$为网络中第$l$层第$j$个特征值。$ \boldsymbol{M}_{j}$表示与第$l$层第$j$个特征图相连接的第$l-1$层中特征图的集合。通常默认两层间采用全连接,所以,$ \boldsymbol{M}_{j}$包含第$l-1$层的所有特征图。$w^{l}_{ij}$表示第$l$层第$j$个特征图对应第$l-1$层第$i$个特征图输入的卷积核参数,$b^{l}_{j}$表示第$l$层第$j$个特征的偏置,*表示卷积操作,$f(·)$表示激活函数。

卷积神经网络能够自动学习图像的深层特征,具有一定的鲁棒性。因此,常在卷积神经网络的最后接入全连接层(full connected layer)进行图像分类、场景识别等。对于地物提取或者语义分割等逐像素分类问题,传统的卷积神经网络需要将周围的像素作为一个输入用于网络的训练和预测。然而,这种方式存在存储开销大、计算效率低、图像尺寸限制感受野大小、全连接层占据大量训练参数等缺陷,易在训练过程中产生过拟合。

1.2 全卷积网络

为了弥补卷积神经网络在语义分割等分类问题中的缺陷,Long等人(2015)提出了一种新型的全卷积网络FCN(fully convolutional network),通过端到端(end-to-end)的方式进行训练,利用卷积层和上采样层代替全连接层进行深度特征处理(Long等,2014)。这种网络可以接受任意尺寸的输入影像,极大地减少参数数量,避免重复存储和计算,效率更高。此外,利用卷积层代替全连接层,可以更好地保留像素彼此之间的空间信息,极大程度地恢复每个像素对应的类别和位置关系。

图 1为卷积神经网络与全卷积网络之间的区别和各自的应用领域。卷积神经网络只需要对图像所属类别进行区分,而全卷积网络则用于对每一个像素的类别进行区分,例如前景和背景。

图 1 卷积神经网络与全卷积网络区别及应用领域
Fig. 1 Differences and application fields of CNN and FCN
((a) CNN used for object recognition; (b) FCN used for classification by pixel)

1.3 基础网络层

为了减小特征图尺寸,在连续的卷积层之间常常会周期性地加入池化层(pooling layer),进而降低网络中的计算复杂度和内存消耗。常用的池化操作有最大池化(max pooling)和平均池化(mean pooling),前者取感受野内的最大值,后者选取感受野内的均值。本文选用最大池化层,以此来控制过拟合。

与池化层对应的是上采样层(upsampling layer)。上采样层的作用与池化层相反,是为了将特征图尺寸逐步扩大到所需要的标签尺寸。目前常用的上采样层有反池化层,双线性上采样层和反卷积层等。双线性上采样层由于具有操作简单、易实现、效果优异的特点,经常作为语义分割网络上采样层的首选。因此,本文选用双线性上采样层对特征图的尺寸进行恢复。

激活层(activiation layers)的作用是在计算的过程中或者输出端将前面卷积层的输出结果经过激活函数映射到一定的数域,以此达到非线性拟合或者概率计算的目的。常用的非线性激活层有多种,本文用到的激活层有ReLU和sigmoid。其中,ReLU激活层用在卷积层之后,加快收敛速度,而sigmoid激活层用在输出端,拟合概率分布。ReLU和sigmoid对应的激活函数分别为

$ {\rm {ReLU}}:y=\left\{ \begin{align} &x \qquad x>0 \\ &0 \qquad 其他 \\ \end{align} \right. $ (2)

$ {\rm sigmoid}: y= \frac{{1}}{{1+{\rm e}^{-x}}} $ (3)

DVFCN网络在输出端额外增加了平滑层(smooth layers),平滑层中包括了多层卷积层,各卷积层的输出维度逐渐降低,最终接到激活层,输出概率。相比直接输出到激活层,这种方式可以大大提高数据处理能力,防止有价值的信息丢失,提高预测精度。

1.4 AlexNet和VGG16

DVFCN网络中包含两种基础网络骨架,AlexNet和VGG16。其中,AlexNet包含5个卷积层,VGG(visual geometry group)16包含5个block,共13个卷积层(不计全连接层),具体结构如表 1所示。

表 1 AlexNet和VGG16结构(无全连接层)
Table 1 Architecture of AlexNet and VGG16

下载CSV
网络 结构
AlexNet (conv 96, /4)×1, pool3, /2
(conv 256, /2)×1, pool3, /2
(conv 384, /1)×1,
(conv 384, /1)×1,
(conv 256, /1)×1, pool3, /2
VGG16 (conv 64, /1)×2, pool3, /2
(conv 128, /1)×2, pool3, /2
(conv 256, /1)×3, pool3, /2
(conv 512, /1)×3, pool3, /2
(conv 512, /1)×3, pool3, /2

2 方法

2.1 DVFCN网络结构

本文DVFCN网络结构主要包括3部分:局部视觉编码网络ELV(encoder part of local vision)、全局视觉编码网络EGV(encoder part of global vision)和融合解码网络FD(fusion decoding)。其中,选用AlexNet作为EGV网络骨架,进行全局特征提取,选用VGG16作为ELV骨架,进行局部深层特征提取。为了使得两个编码网络输出的特征图尺寸一致,在AlexNet之后额外加入一层卷积层。网络整体架构如图 2所示。

图 2 DVFCN网络结构
Fig. 2 Architecture of the proposed DVFCN

ELV网络的输入为中心区域块,输入图像尺寸为64×64像素。而EGV网络的输入图像尺寸为256×256像素,通过更大的视觉区域获取全局性的信息。实际上,仅仅依靠ELV,很难从整体上对地物类别进行确定。如图 3所示,如果仅依靠图 3(a)中的局部影像信息,则很难判定该区域属于道路还是建筑物,但是通过叠加图 3(b)影像区域信息从整体上进行分析,便可以很直观地判定为道路。因此通过更加全局的信息来提高地物类别判定的置信度是合理的。

图 3 更大的视野区域可以给出更可靠的信息
Fig. 3 The larger vision can give a higher confidence
((a) local information; (b) global information)

为了将两个网络的特征图进行深度融合,使用特征图叠加(concatenate)操作,并一同输入到FD网络中进行解码,通过双线性上采样操作,将特征图恢复到ELV的输入尺寸64×64像素。在输出端,为了提高特征图的处理能力,加入平滑层(本文平滑层包含4层卷积层,卷积核尺寸均为3×3像素,输出的维度参数分别为32,32,16,8),目的是逐渐将高维语义信息整合处理,得到低维信息,最终通过sigmoid激活层输出概率值。

此外,为了提高特征处理能力,方便高级语义信息和低级语义信息进行互传,在网络中加入了与U-Net相同的跳跃连接结构。

2.2 数据增强预处理及超参数选择

为了防止训练中网络出现过拟合,在实验之前,对建筑物及道路数据集进行旋转、加噪和$γ$变换等数据增强操作,以此提高网络的泛化能力。

所选用的损失函数为常用的二分类交叉熵损失函数,具体为

$ L=- \frac{{1}}{{w^{2}}} \sum\limits^{w^{2}}_{i=1}[ \tilde{p}_{i}\ln \hat{p}_{i}+(1- \tilde{p}_{i})\ln(1- \hat{p}_{i})] $ (4)

式中,$w$为中心区域图像尺寸,$ \tilde p_{i}$$ \hat p_{i}$分别代表第$i$个像素的真实标签和预测标签概率值。

在训练过程中,选择Adam优化器,初始学习率设为0.001,每20个批次(epoch)降低50%。同时加入L2正则化,正则化超参数$γ$= 0.000 5,批大小(batch size)选择16。网络权重参数通过Xavier算法进行初始化(Glorot和Bengio,2010)。

3 实验结果与分析

为了验证DVFCN网络提取地物的能力,本文选取了两类数据集,分别是欧洲地区建筑物数据集(Marcu和Leordeanu,2016)和美国马萨诸塞州道路数据集(Mnih,2013)。同时,选取二分类性能优异的U-Net网络和轻量型Mnih网络与DVFCN网络进行对比。欧洲地区建筑物数据集包含城镇和农村等不同类别的居民区,覆盖区域达348.5 km2,共254幅图像,图像分辨率为0.89 m,大小为1 550×1 600像素,分为训练集、验证集和测试集,分别包含144、10和100幅图像。马萨诸塞州道路数据集覆盖了从城市、郊区到农村共500 km2区域,共1 171幅图像,图像分辨率为1.2 m,大小为1 500×1 500像素,分为训练集、验证集和测试集,分别包含1 108、14和49幅图像。实验前,两种数据集中的训练集通过数据增强,得到10万幅训练图像块(patch)。

3.1 典型地物提取实验对比

分别移除DVFCN网络的平滑层和跳跃连接结构,得到两种网络模型:DVFCN_nosmooth和DVFCN_noskip,并进行对比实验,探究平滑层及跳跃连接对网络的影响。此外,为了比较DVFCN的精度和训练效率,将U-Net和Mnih网络与其进行对比。实验编程框架基于Keras,显卡为NVIDIA 1080ti,显存为11 GB。

在得到每种模型的概率图后,通过绘制ROC (receiver operating characteristic)曲线和P-R(precision-recall)曲线对结果进行评估。ROC曲线反映了分类器对正例的覆盖能力和对负例的覆盖能力之间的权衡;P-R曲线反映了分类器对类别不均衡样本的分类能力。相应地,选取两个评价指标,分别为ROC曲线下的面积AUC(area under curve)和P-R曲线得到的F1分数。AUC和F1分数越大,说明网络对地物进行提取的性能越好。F1的计算式为

$ F_{1}=2· \frac{{p·r}}{{p+r}} $ (5)

式中,$p$为精度,$r$为召回率。

图 4为5种模型在建筑物和道路测试数据集上的ROC和P-R曲线。从中可以看出,在建筑物提取上,DVFCN与U-Net的结果没有较大差别,ROC和P-R曲线近乎重合;在道路提取上,DVFCN稍逊于U-Net。总体上,Mnih方法得到的结果与DVFCN和U-Net均有较大差距。对比DVFCN、DVFCN_nosmooth和DVFCN_noskip这3条曲线可知,平滑层对DVFCN网络的影响大于跳跃连接结构,说明在FD解码网络中,将高维特征信息逐步进行降维极其必要,有利于对高维信息进行冗余剔除处理,同时避免丢失有效特征信息。

图 4 5种模型在建筑物和道路数据集上的ROC和P-R曲线
Fig. 4 ROC curves and P-R curves of five models on building and road datasets
((a) ROC curves on the building datasets; (b) ROC curves on the road datasets; (c) P-R curves on the building datasets; (d) P-R curves on the road datasets)

表 2为5种模型在两种数据集上得到的AUC、F1分数、训练收敛批次、每批次训练时间、训练总时间以及单幅图像测试时间(以道路图像测试时间为例,尺寸为1 500×1 500像素,预测步长为8像素)。从表中可以对各模型的提取效果进行定量分析。在建筑物提取中,DVFCN的提取效果与U-Net接近,AUC指标仅仅相差0.002 1,F1分数相差0.005 3。在道路提取中,U-Net的AUC和F1分数分别高出DVFCN网络0.005 5和0.021 4。Mnih在两个数据集上的提取结果相对较差。值得一提的是,U-Net网络的输入图像及预测标签的尺寸均为256×256像素,已经达到了DVFCN全局的视野范围,因此,其提取效果优于DVFCN。经过比较,DVFCN的总体训练时间仅为U-Net网络的15.4%,DVFCN网络在保证高提取精度的情况下,大大缩短了训练时间,提高了网络收敛的效率。

表 2 5种网络模型训练情况
Table 2 Training results of the five models

下载CSV
模型 建筑物数据集 道路数据集 平均收敛批次 训练时间/(s/批次) 训练总时间/s 平均测试时间/(s/幅)
F1分数 AUC F1分数 AUC
DVFCN 0.737 9 0.963 2 0.749 2 0.978 2 10 458 4 580 140
DVFCN_no_smooth 0.704 3 0.952 6 0.715 8 0.973 9 35 435 15 225 140
DVFCN_no_skip 0.721 2 0.960 6 0.723 1 0.974 6 11 417 4 587 137
Mnih 0.646 2 0.926 1 0.646 2 0.960 7 33 167 5 511 55
U-Net 0.743 2 0.965 3 0.770 6 0.983 7 15 1 975 29 625 145
注:加粗字体为每列最优值。

为了更直观地对比不同网络的提取结果,图 5列出了输入图像示例、图像标签以及DVFCN、Mnih和U-Net网络预测的概率图。从中可以发现,前两幅示例图像中的建筑物尺寸和光谱特征有很大差异。第1幅图像中,建筑物较为紧凑,尺度相对较小,背景对建筑物检测有很大干扰;第2幅图像中,建筑物排列相对分散,尺度较大,并且光谱特征明显,可以较易从背景中区分。因此,对第2幅图像,3种方法均能提取出较清晰的建筑物轮廓;而对第1幅图像,3种方法得到的提取结果均存在模糊现象,Mnih方法几乎失效。

图 5 建筑物及道路数据集上的部分测试集预测图
Fig. 5 Example results for test set of building datasets and road datasets
((a) input images; (b) ground truths; (c) DVFCN; (d) Mnih; (e) U-Net)

不同于建筑物,道路在遥感影像中为线状地物,没有清晰的边界点,并且道路宽度较窄,提取难度较大,如图 5第3、4幅图像所示。从对应的概率图中可以看出,Mnih有很多误检,虚警较高。U-Net和DVFCN在线状地物提取上有较明显优势,在某些细节复杂的区域,U-Net仍然保持较高精度。

总之,U-Net虽然具有更高的地物提取精度,但需要花费大量时间进行训练。相比之下,DVFCN网络利用较小尺寸的预测块,减少了计算复杂度,同时加入了全局信息,使得可利用的信息量增多,加快网络的收敛。这种设计同时兼顾了提取精度和训练效率,更具实用性。

3.2 网络预测置信度对比

为了比较DVFCN和U-Net两种网络的置信度,对预测结果的置信水平进行定量评价。

置信度是指以测量值为中心,在一定范围内,真值出现在该区间内的几率。为了对两种网络的置信水平进行比较,将置信度统一设定为95%,即在该置信区间内,结果的可靠程度为95%,并计算该置信度下的置信区间,之后对置信区间进行评价,置信区间较优的,视为相同情况下置信度较高,预测结果更可靠。

在进行置信度估计时,首先需要给出服从正态分布的变量。显然,网络输出得到的概率值并不服从正态分布。因此,考虑将概率图中每个像素的熵值$E$作为随机变量,并假设该熵值服从正态分布。同时,定义可靠性指标为$R$,容易证明$R$也服从正态分布。

实际上,熵值$E$代表一种不确定性,不确定性越高,网络预测得到的结果越不可靠。例如,对于二分类问题而言,$A$像素的预测结果概率为[0.7, 0.3],$B$像素预测概率为[0.9, 0.1],那么对$B$像素而言,其熵值较低,可靠性$R$较高。当预测概率为[0.5, 0.5]时,其熵值最大,此时可靠性最低,因为这个预测没有给出任何有价值的信息。因此,除了网络的预测精度需要评价以外,预测结果的可靠性度量也极具参考价值。

设随机选取像素样本数为$n$,则每一个像素$i$的熵值为

$ E_{i}=p_{i}\lg p_{i}+(1-p_{i})\lg(1-p_{i}) $ (6)

可靠性$R$

$ R_{i}=1-E_{i} $ (7)

则由假设$R_{i}\sim N(μ, σ^{2})$,可推得

$ \bar X= \frac{{\sum\limits^n_{i=1}R_{i}}}{{n}}\sim N \left({μ, \frac{{σ^{2}}}{{n}}} \right) $ (8)

多个样本的可靠性均值$\bar X$依然服从正态分布,因此对DVFCN网络和U-Net网络预测结果进行随机取值,并计算可靠性均值$\bar X$,标准差$σ$,得置信区间$\boldsymbol{\varTheta }$

$ \boldsymbol{\varTheta }=\left({ \bar X -Z \frac{{σ}}{{\sqrt{n}}}}, \bar X +Z \frac{{σ}}{{ \sqrt{n}}} \right) $ (9)

当置信度为95%时,$Z $= 1.96。为了使得结果更加准确,进行100次随机抽样,并计算置信区间$ \boldsymbol{\varTheta }$,结果如图 6所示。

图 6 95%置信水平下DVFCN和U-Net预测结果置信区间
Fig. 6 Confidence intervals of DVFCN and U-Net prediction results with 95% confidence
((a) reliability $R$ and confidence interval $\boldsymbol{\varTheta }$ on building datasets; (b) reliability $R$ and confidence interval $\boldsymbol{\varTheta }$ on road datasets)

图 6可以看出,DVFCN的置信区间$ \boldsymbol{\varTheta }$明显高于U-Net,即在相同置信度的条件下,DVFCN的预测置信区间更优。直观地说,在相同置信区间的情况下,DVFCN的置信度更高,更具可靠性。对于建筑物和道路提取,二者可靠性区间平均相差分别为0.015和0.000 7。实验表明,DVFCN网络利用大视野域进行局部视野域的预测,可以增大预测置信度,同时降低不确定性,提高预测结果的可靠程度,进而使得网络尽快收敛。

3.3 消融实验

为了探究ELV及EGV两条网络路径在训练中各自学习到的信息,对ELV及EGV两条网络的输入端图像进行人为干扰,措施如下:将输入图像通道(R,G,B)的像素值均置为3通道像素均值,即利用3通道的均值代替各个通道的像素值,以此来可视化ELV和EGV两条网络通路各自学习到的特征信息。实验中,用DVFCN ELV single代表仅在ELV通路的输入端给出正确的图像,EGV通路的输入端图像被干扰,即全局图像被破坏,DVFCN EGV single则相反。

图 7为ROC曲线对比图、DVFCN ELV single和DVFCN EGV single的概率预测图。从图 7可知,在EGV通路被干扰的情况下,依靠ELV通路可以得到与DVFCN几乎相同的概率预测图,而且AUC值与DVFCN仅相差0.003 2。然而,当对ELV通路加入干扰时,依靠EGV网络通路却只能捕捉到部分地物在全局层面的大致位置信息,而在细节层面则丢失了更多有价值的线索,整体预测图像较为模糊。由此可见,ELV在DVFCN网络中主要提取细节特征,对整体的精度至关重要,占据主导作用;而EGV主要提取目标地物在全局层面的位置信息,提高置信度,起到辅助作用。

图 7 ELV与EGV单独作用的效果对比
Fig. 7 Comparisons between single ELV and single EGV
((a) ROC curves of three models; (b) single ELV; (c) single EGV)

4 结论

本文提出了一种用于地物提取的新型双视觉全卷积网络DVFCN,该网络独特之处在于使用了不同的视野域,在不同的视野范围条件下同时利用卷积神经网络提取特征,进而对得到的深层特征进行融合处理。实验表明,ELV网络提取得到的特征对于DVFCN网络的预测结果极为重要,该部分深层特征中包含了大量的细节信息,并在FD网络解码的过程中协助进行地物提取。而EGV在整体的网络架构中重要性不及ELV,该网络在训练的过程中学习到更加全面的全局特征信息和位置信息,尽管作用有限,但也能进一步辅助提高网络的预测精度和置信度。

此外,由于主网络结构为ELV,因此网络整体的结构及特征图尺寸较小,减少了计算量和计算过程中的内存占用,保证了训练的高效性。EGV通过大的视野域,提高边缘预测置信度,进一步加快了网络的收敛,缩短了训练时间。因此,DVFCN网络提供了一种全局信息与局部信息融合的新模式,并兼顾了训练效率与精度。然而,实验中对EGV网络的利用有限,原因是没有找到最佳的全局信息利用途径。后续将在EGV路径的信息提取及利用上进行更多探索,使得DVFCN的提取精度进一步提升。

参考文献

  • Alshehhi R, Marpu P R, Woon W L, Mura M D. 2017. Simultaneous extraction of roads and buildings in remote sensing imagery with convolutional neural networks. ISPRS Journal of Photogrammetry and Remote Sensing, 130: 139-149 [DOI:10.1016/j.isprsjprs.2017.05.002]
  • Cheng G, Han J W. 2016. A survey on object detection in optical remote sensing images. ISPRS Journal of Photogrammetry and Remote Sensing, 117: 11-28 [DOI:10.1016/j.isprsjprs.2016.03.014]
  • Fan R S, Chen Y, Xu Q H, Wang J X. 2019. A high-resolution remote sensing image building extraction method based on deep learning. Acta Geodaetica et Cartographica Sinica, 48(1): 34-41 (范荣双, 陈洋, 徐启恒, 王竞雪. 2019. 基于深度学习的高分辨率遥感影像建筑物提取方法. 测绘学报, 48(1): 34-41) [DOI:10.11947/j.AGCS.2019.20170638]
  • Ghosh A, Ehrlich M, Shah S, Davis L and Chellappa R. 2018. Stacked U-nets for ground material segmentation in remote sensing imagery//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Salt Lake: IEEE: 252-2524[DOI:10.1109/CVPRW.2018.00047]
  • Glorot X and Bengio Y. 2010. Understanding the difficulty of training deep feedforward neural networks//Proceedings of AISTATS. Sardinia, Italy: [s.n.]: 249-256
  • Huang Z M, Cheng G L, Wang H Z, Li H C, Shi L M and Pan C H. 2016. Building extraction from multi-source remote sensing images via deep deconvolution neural networks//International Geoscience and Remote Sensing Symposium. Beijing, China: IEEE: 1835-1838[DOI:10.1109/IGARSS.2016.7729471]
  • Li Q, Li Y, Wang Y, Zhao Q H. 2017. Building extraction from high resolution remote sensing image by using Gestalt. Journal of Image and Graphics, 22(8): 1162-1174 (李青, 李玉, 王玉, 赵泉华. 2017. 利用格式塔的高分辨率遥感影像建筑物提取. 中国图象图形学报, 22(8): 1162-1174) [DOI:10.11834/jig.160588]
  • Li R R, Liu W J, Yang L, Sun S H, Hu W, Zhang F, Li W. 2018. DeepUNet:a deep fully convolutional network for pixel-level sea-land segmentation. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 11(11): 3954-3962 [DOI:10.1109/JSTARS.2018.2833382]
  • Liu X D, Liu Y. 2012. Urban road extraction based on Hough transform and path morphology. Computer Engineering, 38(6): 265-268 (刘小丹, 刘岩. 2012. 基于Hough变换和路径形态学的城区道路提取. 计算机工程, 38(6): 265-268) [DOI:10.3969/j.issn.1000-3428.2012.06.088]
  • Long J, Shelhamer E and Darrell T. 2015. Fully convolutional networks for semantic segmentation//Proceedings of 2015 IEEE Conference on Computer Uision and Pattern Recognition: 3431-3440[DOI:10.1109/TPAMI.2016.2572683]
  • Marcu A and Leordeanu M. 2016. Dual local-global contextual pathways for recognition in aerial imagery[EB/OL].[2019-10-06]. https://arxiv.org/pdf/1605.05462.pdf
  • Mnih V. 2013. Machine Learning for Aerial Image Labeling. Toronto, Canada: University of Toronto
  • Mnih V and Hinton G E. 2010. Learning to detect roads in high-resolution aerial images//Proceedings of the 11th European Conference on Computer Vision. Heraklion, Crete, Greece: Springer: 210-223[DOI:10.1007/978-3-642-15567-3_16]
  • Panboonyuen T, Jitkajornwanich K, Lawawirojwong S, Srestasathiern P, Vateekul P. 2017. Road segmentation of remotely-sensed images using deep convolutional neural networks with landscape metrics and conditional random fields. Remote Sensing, 9(7): 680 [DOI:10.3390/rs9070680]
  • Qiao C, Luo J C, Shen Z F, Zhu Z W, Ming D P. 2012. Adaptive thematic object extraction from remote sensing image based on spectral matching. International Journal of Applied Earth Observation and Geoinformation, 19: 248-251 [DOI:10.1016/j.jag.2012.05.012]
  • Rakhlin A, Davydow A and Nikolenko S. 2018. Land cover classification from satellite imagery with U-Net and Lovász-Softmax loss//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Salt Lake: IEEE: 257-2574[DOI:10.1109/CVPRW.2018.00048]
  • Ronneberger O, Fischer P and Brox T. 2015. U-Net: convolutional networks for biomedical image segmentation//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer: 234-241[DOI:10.1007/978-3-319-24574-4_28]
  • Saito S and Aoki Y. 2015. Building and road detection from large aerial imagery//Proceedings of SPIE 9405, Image Processing: Machine Vision Applications Ⅷ. San Francisco, California, the United States: SPIE: 94050K[DOI:10.1117/12.2083273]
  • Song M J, Civco D. 2004. Road extraction using SVM and image segmentation. Photogrammetric Engineering and Remote Sensing, 70(12): 1365-1371 [DOI:10.14358/PERS.70.12.1365]
  • Wang J, Song J W, Chen M Q, Yang Z. 2015. Road network extraction:a neural-dynamic framework based on deep learning and a finite state machine. International Journal of Remote Sensing, 36(12): 3144-3169 [DOI:10.1080/01431161.2015.1054049]
  • Wu G M, Chen Q, Ryosuke S, Guo Z L, Shao X W, Xu Y W. 2018. High precision building detection from aerial imagery using a U-Net like convolutional architecture. Acta Geodaetica et Cartographica Sinica, 47(6): 864-872 (伍广明, 陈奇, Ryosuke S, 郭直灵, 邵肖伟, 许永伟. 2018. 基于U型卷积神经网络的航空影像建筑物检测. 测绘学报, 47(6): 864-872) [DOI:10.11947/j.AGCS.2018.20170651]
  • You Y F, Wang S Y, Wang B, Ma Y X, Shen M, Liu W H, Xiao L. 2019. Study on hierarchical building extraction from high resolution remote sensing imagery. Journal of Remote Sensing, 23(1): 125-136 (游永发, 王思远, 王斌, 马元旭, 申明, 刘卫华, 肖琳. 2019. 高分辨率遥感影像建筑物分级提取. 遥感学报, 23(1): 125-136) [DOI:10.11834/jrs.20197500]
  • Yuan J Y. 2018. Learning building extraction in aerial scenes with convolutional networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(11): 2793-2798 [DOI:10.1109/TPAMI.2017.2750680]
  • Zhang Z X, Liu Q J, Wang Y H. 2018. Road extraction by deep residual U-Net. IEEE Geoscience and Remote Sensing Letters, 15(5): 749-753 [DOI:10.1109/LGRS.2018.2802944]