Print

发布时间: 2020-01-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190157
2020 | Volume 25 | Number 1




    遥感图像处理    




  <<上一篇 




  下一篇>> 





全卷积神经网络下的多光谱遥感影像分割
expand article info 姚建华1, 吴加敏1, 杨勇1, 施祖贤2,3
1. 宁夏回族自治区遥感测绘勘查院, 银川 750021;
2. 北京科技大学计算机与通信工程学院, 北京 100083;
3. 材料领域知识工程北京市重点实验室, 北京 100083

摘要

目的 传统的遥感影像分割方法需要大量人工参与特征选取以及参数选择,同时浅层的机器学习算法无法取得高精度的分割结果。因此,利用卷积神经网络能够自动学习特征的特性,借鉴处理自然图像语义分割的优秀网络结构,针对遥感数据集的特点提出新的基于全卷积神经网络的遥感影像分割方法。方法 针对遥感影像中目标排列紧凑、尺寸变化大的特点,提出基于金字塔池化和DUC(dense upsampling convolution)结构的全卷积神经网络。该网络结构使用改进的DenseNet作为基础网络提取影像特征,使用空间金字塔池化结构获取上下文信息,使用DUC结构进行上采样以恢复细节信息。在数据处理阶段,结合遥感知识将波段融合生成多源数据,生成植被指数和归一化水指数,增加特征。针对遥感影像尺寸较大、采用普通预测方法会出现拼接痕迹的问题,提出基于集成学习的滑动步长预测方法,对每个像素预测14次,每次预测像素都位于不同图像块的不同位置,对多次预测得到的结果进行投票。在预测结束后,使用全连接条件随机场(CRFs)对预测结果进行后处理,细化地物边界,优化分割结果。结果 结合遥感知识将波段融合生成多源数据可使分割精度提高3.19%;采用基于集成学习的滑动步长预测方法可使分割精度较不使用该方法时提高1.44%;使用全连接CRFs对预测结果进行后处理可使分割精度提高1.03%。结论 针对宁夏特殊地形的遥感影像语义分割问题,提出基于全卷积神经网络的新的网络结构,在此基础上采用集成学习的滑动步长预测方法,使用全连接条件随机场进行影像后处理可优化分割结果,提高遥感影像语义分割精度。

关键词

遥感影像; 语义分割; 全卷积神经网络; DUC结构; 空间金字塔池化; 上下文信息; 多尺度特征

Segmentation in multi-spectral remote sensing images using the fully convolutional neural network
expand article info Yao Jianhua1, Wu Jiamin1, Yang Yong1, Shi Zuxian2,3
1. Ningxia Insitute of Remote Sensing, Survey and Mapping, Yinchuan 750021, China;
2. School of Computer and Communication Engineering, University of Science and Technology Beijing, Beijing 100083, China;
3. Beijing Key Laboratory of Knowledge Engineering for Materials Science, Beijing 100083, China

Abstract

Objective The traditional remote sensing image segmentation method requires the selection of manyartificial participation featuresandparameters. The shallow machine learning algorithm cannot achieve high-precision segmentation accuracy. The convolutional neural network can automatically learn the characteristics of features and draws on its excellent network structure for performing natural image semantic segmentation. A novel method based on the fully convolutional neural network for remote sensing image segmentation is proposed based on the characteristics of the remote sensing dataset. It studies the fusion between multi-spectral image data bands, increases the learnable features, and improves segmentation accuracy. On the basis of the characteristics of the remote sensing image size, the prediction results of integrated learning and the conditional random field processing model are investigated to mitigate the phenomenon of misclassification, restore the boundary of features, and further improve segmentation accuracy. This study realizes the extraction of features on multi-spectral remote sensing images, which can be applied to subsequent change detection tasks, thus promoting the analysis of changes in surface cover types by automation. Method Aiming at the characteristics of compact targets and the large size range of remote sensing images, a fully convolutional neural network based on pyramid pooling and the dense upsamplingconvolution (DUC) structure is proposed. The proposed network can automatically interpret remote sensing images. The network structure uses improved DenseNet as the underlying network to extract image features, the spatial pyramid pooling structure to obtain context information, and the DUC structure to upsampleand recover detailed information. In the data processing stage, in combination with remote sensing knowledge, the bands are combined to generate multi-source data, and vegetation and normalized water indexes are generated to increase the characteristics. A sliding step prediction method based on integrated learning is proposed to address the problem of remote sensing images being large and the appearance of splicing trace by an ordinary prediction method. Each pixel is predicted 1 to 4 times, and each predicted pixel is located in different image blocks. Different locations vote on the results of multiple predictions. After prediction, the prediction results are post-processed using fully connected conditional random fields (CRFs) to refine the boundary of the features and optimize the segmentation results. Result To verify the validity of the proposed network model and post-processing method, the U-Net model, the fully convolutional neural network FCN-8s model, and the Hdc-DUC model are compared through experiments using a self-built dataset. The accuracy of using the multi-source data from the training model is higher than that obtained by using the original data. The multi-source data training model improves the mIoU evaluation standard by 3.19%, which confirms the validity of the multi-source data generated by band fusion combined with geo-remote sensing knowledge. In terms of effectiveness, when the sliding step prediction method based on integrated learning is used, the segmentation accuracy is improved by 1.44%, and the effect of the characteristics of the remote sensing image on the prediction phase of the model is verified. Although fully connected CRFs may smoothen small-sized features, the use of CRFs to post-process the prediction results effectively improves the segmentation accuracy by 1.03%. The main reason is the image resolution of the self-built dataset. The rate is low, the dataset is relatively fuzzy, the features are highly complicated, and the labeling is inaccurate. The distribution of data is difficult to learn through the fully convolutional neural network, and the accuracy of the prediction results is low. Therefore, fully connected CRFs can improve the segmentation results to a large extent. Experimental results verify the effectiveness of the proposed network model and post-processing method. Conclusion This study mainly investigates the semantic segmentation of remote sensing images. The research belongs to computer vision and pattern recognition. The purpose is to let a computer identify the category of each pixel in the remote sensing image, namely, remote sensing image interpretation. Remote sensing image interpretation is a basic problem in remote sensing.It is an important means to obtain remote sensing image information, and the ground object information obtained from it can provide an important reference for various tasks, such as change detection and disaster relief. Improving the segmentation accuracy of remote sensing images has always been a popular topic. This study proposes a new network structure based on fully convolutional neural network for the characteristics of remote sensing images. On this basis, a sliding step prediction method based on integrated learning is proposed and used. Fully connected conditions are adopted for the post-processing of images to optimize the segmentation results and achieve a high-precision semantic segmentation of remote sensing images.

Key words

remote sensing image; semantic segmentation; fully convolutional neural network; dense upsampling convolution(DUC) structure; spatial pyramid pooling; contextual information; multi-scale features

0 引言

遥感影像已广泛应用在国土、农业、测量、水利等领域。从本质上说,遥感影像的解译便是计算机视觉领域内的图像语义分割(肖朝霞和陈胜,2018)。最初的遥感影像语义分割是由人工目视来完成的,根据解译人员所见即所得实现解译过程,该方法劳动强度大,受主观性影响比较大,对工作人员要求高,并且更新困难(杜斌和张炜,2016)。因而实现遥感影像自动解译,即对遥感影像实现高精度的语义分割,有利于节省大量人力物力;将提取的地物信息结合遥感知识转化为矢量文件,利用机器学习等算法做横向纵向对比,可以实现变化监测,发现违章用地和火灾等自然灾害;在大量解译的数据中挖掘有价值的信息以便科学规划用地,提高工作效率和社会经济效益等,因而需要研究实现高效高准确遥感影像自动解译的方法。

传统遥感影像解译方法根据分类单元的差别,可以分为基于像元和基于对象的解译。

基于像元的遥感影像解译方法又可以分为监督分类和非监督分类。监督分类是指用已经被确认类别的像元去判断其他未知像元的类别的过程,比较常用的监督分类方法有马氏距离法(Zhao等,2015)、最短距离法(冯登超等,2012)等;非监督分类是指不必获取先验知识,根据影像中不同地物光谱信息进行特征提取,然后采用统计分析对特征分类和确认像元类别,比较常用的非监督分类方法是聚类法(Jian等,2007)。基于像元的方法很少考虑到相邻像元之间的空间结构关系,浪费了丰富的纹理和空间信息,此种方法解译速度也非常慢,解译结果经常出现椒盐图像,不适用于高分辨多光谱的遥感影像解译(Blaschke等,2014)。

Kettig和Landgrebe(1976)是面向对象进行遥感影像解译方法的先驱和开拓者,他们根据高分辨率多光谱影像的特点提出了此种方法,改进基于像元方法对影像解译过程中的不足。但是这种方法不能充分学习同类对象中特征的结构信息和规律,因而最后得到的分类精度也不乐观(刘大伟等,2016)。而且该方法依赖分割方法和分割参数的选择,分割参数最优值是不确定的,每种最优值只能满足某一特定的应用分割,很难通用(Lobo等,1996)。

在计算机视觉领域,对高分辨率多光谱遥感影像中的像素分类,即实现遥感影像的解译,从本质上说属于图像语义分割的问题。目前经过大量研究,在自然图像,如PASCAL VOC 2012数据集(Everingham等,2005)方面语义分割得到很大的进展,效果显著。Long等人(2014)首次提出解决图像语义分割有效的网络结构—全卷积神经网络(FCN),该网络基于卷积神经网络,直接实现像素级别端到端的输入和输出。但图像语义分割是对细节敏感、抽象度比较低的任务,全卷积中的池化层导致分辨率下降,从而引起细节信息(局部信息)的丢失,Yu和Koltun(2015)提出去掉池化层,采用空洞卷积实现图像分辨率不变但能增加感受野的目的,提高了语义分割的准确率。Badrinarayanan等人(2017)提出了SegNet网络,它是一种编码器解码器的对称结构,编码器模块实现对图像特征的提取,解码器模块将提取的特征用于实现每个像素的分类,进而实现图像的语义分割。随后,Chen等人(2014)提出了DeepLab语义分割模型,并在此基础上改进,继而提出了DeepLab V2(Chen等,2017a),DeepLab V3(Chen等,2017b),DeepLab V3+(Chen等,2018)等模型,DeepLab系列模型的共同点在于全部使用空洞卷积,并在空间维度上实现金字塔形的空洞池化,提取上下文信息,不同点在于DeepLab V1和DeepLab V2将卷积神经网络的输出作为全连接条件随机场(CRFs)的输入,达到考虑全局的信息和改善局部信息的目的,而在DeepLab V3和DeepLab V3+中不再采用此结构,而是使用ResNet,Xception(Chollet,2017)和编码器解码器结构考虑全局信息,进而达到目前为止在PASCAL VOC 2012数据集上最高的准确率。越来越多的语义分割模型被学者提出,并且在自然图像上表现都非常好,但这些网络模型并不适合处理高分辨多光谱的遥感图像,主要原因有以下3个方面:1)自然图像数据集(包括但不限于PASCAL VOC 2012数据集)里的每幅图像包含的目标很少,但在遥感影像中每幅影像中包含的目标很多,并且同类目标排列很密集,同类的目标尺寸变化范围很大、颜色纹理的差异也较大,并且大多数的目标都很小。2)目前的语义分割模型大多基于FCN结构改善的,FCN结构中存在池化层,尽管池化层可以增加感受野,但池化层会降低分辨率,分辨率对于解决小目标是很重要的,因为现在的语义分割模型在处理小目标即小尺寸物体时效果不太理想。3)自然图像仅有RGB 3个通道,目前模型的输入都是3通道的图像,但高分辨多光谱的遥感影像包括更多的通道,这些通道包含更多的地物特征。总体来说,遥感影像的语义分割问题和自然图像的语义分割问题存在着一定区别,在自然图像表现理想的网络结构并不一定适用于遥感影像的语义分割。本文参考并借鉴处理自然图像语义分割的思想和网络模型,搭建出适合目标小且排列密集的遥感影像的语义分割网络结构。

1 相关技术

1.1 卷积神经网络

典型的卷积神经网络由3种不同类型的层组成:卷积层、池化层(下采样层)和全连接层。一个卷积神经网络模型中通常包括多组卷积层和池化层,这两种层结构通常都是交替组合的,池化层后通常会有全连接层和输出层。在进行特征提取的时候,输入图像和多个卷积核进行卷积操作,然后输出多个特征图,其中不同的卷积核提取到的特征不一样。卷积核的尺寸一般设置为正方形,如果输入图像为RGB图像,则第1层卷积核的深度也为3。接着还要对特征图上的元素进行加偏置和通过激活函数等一系列处理。

1.2 全卷积神经网络

FCN是基于CNN模型得到的。CNN的特点在于堆叠多层网络就可以自动学习影像中的特征,并且,CNN的局部连接、权值共享和下采样的特性,可以使网络学习的特征具有平移、尺寸和旋转不变性,此特性使CNN网络非常适合图像识别这种对细节信息不敏感、抽象度比较高的任务,但对于对细节敏感、抽象度比较低的任务,CNN网络中的下采样操作会降低影像分辨率,丢失细节信息,不利于此种任务的效果,并且CNN网络的输出结果通常为一维向量,表明待分类影像属于某一类别的概率值,CNN网络中通常有全连接层,全连接层要求输入向量长度是固定的,因而导致CNN网络的输入也是固定尺寸的影像。

Long等人(2014)考虑到CNN网络上述特点,提出了全卷积神经网络(FCN),该方法首次将深度卷积网络应用于图像语义分割任务中,实现了输入一幅图像到输出一幅图像的“端到端”系统。图像语义分割引伸到遥感影像领域即是遥感影像的解译,FCN结构不仅能确定遥感影像中每个像素的类别,还能定位每个像素所在的位置,如图 1所示。

图 1 CNN与FCN结构对比
((a)CNN structure;(b) FCN structure)
Fig. 1 Compare of CNN and FCN structure

2 数据与模型

2.1 数据描述

2.1.1 研究区域概述

宁夏地处黄土高原与内蒙古高原的过渡地带,地形南北狭长,地势南高北低;自然植被有森林、灌丛、草甸、草原、沼泽等类型;耕地盐渍化、沙化等问题突出。

遥感影像的应用与其观测精度、时空尺度密切关联。一方面,随着卫星技术的发展,影像获取成本持续下降,影像的时间分辨率、空间分辨率、频段分辨率越来越高;另一方面,能够处理的问题也从局部目标识别、土地利用分类扩充到精细目标识别、状态判断、关联分析、趋势分析等应用领域。

2.1.2 数据介绍

本研究的高分辨率多光谱的遥感影像数据主要以国产的高分二号(GF-2)卫星作为数据来源。高分二号卫星共搭载两台相机,其中一台是分辨率为1 m的全色相机,光谱范围在0.45~0.90 μm; 另一台是分辨率为4 m的多光谱相机,光谱范围在0.45~0.89 μm,共包含4个波段。由高分二号卫星参数可以看出,本文所用遥感影像分辨率为1 m,共4个波段,分别为红光、绿光、蓝光和近红外波段的光谱信息。共4期影像,影像时相分别为2015年9月、2016年8月、2017年4月和2017年8月,影像大小均为13.6 GB。本研究只选择时相为2015年9月的影像作为研究数据。

2.1.3 分类介绍

按照地理国情普查数据中地表覆盖分类级别, 一级地类有10类,分别为:园地、耕地、林地、草地、房屋建筑(区)、道路、构筑物、人工堆掘地、荒漠和水域。本研究在影像中提取5类地物,分别为绿地、房屋建筑、道路、其他和水域,即将影像中的像素分为5类。

2.2 多源数据生成

高分辨遥感影像的颜色信息、几何结构和空间布局比较清晰,但因其光谱信息有限,对于光谱相似的地物很难区分,比如地面与建筑物。基于上面的问题,本文考虑充分利用数据有多波段的特点,引入额外的光谱信息,辅助区分地类,提高精度。本文将遥感影像数据中的不同波段的探测结果进行线性或者非线性组合可以得到植被指数和水指数。将近红外波段与可见光波段互相融合可以得到下述3个指数:

1)${\rm{NDVI}}$(归一化植被指数)。它是能够反映植被分布密度和生长状况的定量信息,由Rouse等人(1974)提出,计算为

$ N D V I=\frac{N I R-R}{N I R+R} $ (1)

式中,$NIR$为多光谱遥感影像中的近红外波段,$R$为遥感影像中的红光波段。两个波段组合后得到的像素值在-1到1之间,当$NDVI$值为负数时,红光波段大于近红外波段,说明对可见光高反射,地表覆盖可能为云、水、雪等;当$NDVI$值为0时,红光波段等于近红外波段,说明对可见光和近红外反射能力一样,地表覆盖可能为岩石或裸土等;当$NDVI$值为正数时,红光波段小于近红外波段,说明对近红外高反射,地表覆盖可能为植被,并且植被覆盖的程度越高,此值越大,如图 2所示,高亮处均为植被。

图 2 原始遥感影像与${\rm{NDVI}}$数据
Fig. 2 Original remote sensing imagery and ${\rm{NDVI}}$ data ((a)remote sensing imagery; (b) ${\rm{NDVI}}$)

2)${\rm{EVI}}$(增强型植被指数)。它是由改善归一化植被指数得到的。Liu和Huete(1995)研究前人工作时,发现在成像时大气和土壤的出现可能会互相影响,两者的噪声成反比关系,因而他们提出通过参数构建同时校正大气和土壤的影响的解决办法,并且也解决了使用红光波段与近红外波段的比值引起的植被指数容易饱和以及${\rm{NDVI}}$植被指数与植被实际覆盖程度不能构成线性关系的问题。${\rm{EVI}}$计算为

$ E V I=\frac{N I R-R}{N I R+C 1 \times R-C 2 \times B+L} $ (2)

式中,$B$为遥感影像中的蓝光波段,$L$=1,为土壤调节参数,参数$C$1和$C$2分别为6.0和7.5。增强型植被指数如图 3所示,高亮处均为植被。

图 3 原始遥感影像与${\rm{EVI}}$数据
Fig. 3 Original remote sensing imagery and ${\rm{EVI}}$ data ((a)remote sensing imagery; (b) ${\rm{EVI}}$)

3)${\rm{NDWI}}$(归一化水指数)。它主要用来提取遥感影像数据中的水体,由McFeeters(1996)提出,文献中表明水体的反射能力从可见光到中红外波段逐渐减弱,在近红外波段范围内反射能力最弱,几乎全部吸收无反射。综上所述,可以用可见光波段与近红外波段的反差去突出影像中的水体信息,但由上面的植被指数可以知道植被在近红外波段范围内反射最强,所以归一化水指数采用可见光绿光波段与近红外波段的比值最大程度地抑制植被的信息,突出水体信息。${\rm{NDWI}}$计算为

$ N D W I=\frac{G-N I R}{G+N I R} $ (3)

式中,$G$为遥感影像中的绿光波段,归一化水指数如图 4所示,高亮处为水体。

图 4 原始遥感影像${\rm{NDWI}}$数据
Fig. 4 Original remote sensing imagery and ${\rm{NDWI}}$ data ((a)remote sensing imagery; (b) ${\rm{NDWI}}$)

2.3 精度评价指标

为了衡量模型的分割效果,需要经过严格的评估。并且,评估需使用标准、公认的方法以保证公平性。语义分割任务中常用如下3个评判指标来对实验结果进行评估:像素准确率${\rm{(PA)}}$${\rm{F1}}$分数(${{\rm{F}}_{\rm{1}}}$)、平均交并比(${\rm{mIoU}}$),每个指标计算为

$ P A=\frac{\sum\limits_{i=0}^{n_{c l}} n_{i i}}{\sum\limits_{i=0}^{n_{c l}} \sum\limits_{j=0}^{n_{c l}} n_{i j}} $ (4)

$ F_{1}=2 \times \frac{p \times r}{p+r} $ (5)

$ m I o U=\frac{1}{n_{c l}} \sum\limits_{i=0}^{n_{c l}} \frac{n_{i i}}{\sum\limits_{j=0}^{n_{c l}} n_{i j}+\sum\limits_{j=0}^{n_{c l}} n_{j i}-n_{i i}} $ (6)

式中,${n_{c l}}$为待分割样本总类别数,${n_{i i}}$为预测结果中属于第$i$类但被预测为第$j$类的像素数量,当$i$=$j$时即表示预测正确,$n_{i i}$即为第$i$类样本被正确预测的像素数量,$p$为像素准确率,$r$为像素召回率。

2.4 模型设计

本研究提出使用经过改善的DenseNet网络作为提取特征的基础网络,使用空间金字塔池化结构融合上下文信息,上采样操作分别采用改善的反卷积结构和DUC结构。

2.4.1 基础网络

目前在公开图像语义分割数据集取得分割精度较高的网络模型都是采用迁移学习方法,使用在图像识别数据集效果较好的网络作为基础网络提取图像特征,然后再进行后续操作。本文选择DenseNet121在ImageNet图像识别数据集训练得到的模型作为预训练模型(Huang等,2017),但由于ImageNet数据集中的图像为自然3通道图像,而本文的数据经过波段融合变为7通道数据,故不加载DenseNet预训练模型的第1层卷积的参数,并舍去原始模型的全连接层和分类层,将原始模型的第4阶段Dense Block里面的普通卷积改为空洞卷积,图像语义分割不仅需要高层的语义信息实现像素分类,还需要底层的空间位置信息还原像素位置,而下采样过程会损失空间位置信息,Chen等人(2014)提出空洞卷积,基本思想是以保持参数和特征图分辨率不变的基础上增大网络感受野。

2.4.2 金字塔模型

卷积神经网络是多层级的网络结构,底层网络(越靠近输入层越为底层)因为感受野较小的原因,学习到的是细节信息和局部特征,而高层网络感受野很大,学习到的是局部特征组和而成的更加抽象的语义信息特征。语义信息特征对目标的大小、位置和方向不敏感,但是对于图像语义分割这种对位置和细节信息比较敏感、抽象度比较低的任务来说,高层网络的感受野过大,学到的语义信息特征过强,损失了目标的细节边缘和空间信息,所以直接对高层网络得到的特征进行上采样输出而实现语义分割的目的,往往导致无法恢复边缘细节,造成边缘细节粗糙。

为了避免这种细节无法恢复的现象,满足图像语义分割需要的类别标签和像素所在原图位置的对齐要求,需要将底层特征和高层特征互相融合,底层特征语义信息较少,但空间位置比较准确,高层特征语义信息丰富,但没有细节信息,即没有空间位置信息,融合多层级特征有助于底层特征与高层特征的互补,恢复边缘信息,提高分割精度,使分割结果更平滑。本文将自然图像语义分割常用的两种金字塔结构用于本文的数据集,以验证何种结构更适合本文的数据。一种结构为空洞卷积金字塔池化(Chen等,2014),空洞卷积是在传统的卷积的基础上引入采样频率,可以理解为略过特征图上一些信息,使卷积核中一些参数恒为零,以达到感受野变大的目的。空洞卷积中的采样频率决定了感受野的大小,因而不同的采样频率可以获得不同尺度的特征信息,这就是基于空洞卷积的金字塔池化结构获得多尺度特征的原理。基于空洞卷积的金字塔池化结构接收卷积神经网络提取的特征输入,使用4个采样频率的空洞卷积并行提取特征,4个采样频率依次为6,12,18,24,获得4个尺度的特征。另一种结构为空间金字塔池化(Zhao等,2017),将基础网络提取到的特征输入到空间金字塔池化结构,空间金字塔池化结构对输入的特征进行4路不同尺度的平均池化,4路池化的尺寸分别为1×1,2×2,3×3,6×6,将每路池化后得到的特征图先使用1×1的卷积核进行降维,保持全局特征的权重,然后再使用双线性插值操作上采样到与输入空间金字塔池化结构时相同大小的分辨率,最后将4路池化和原始特征合并到一起,以进行后续操作。由于两种结构在理论上都可以融合多尺度特征,汇聚上下文信息,在普通自然图像数据集效果也难分伯仲,因此本文选择用实验论证何种结构更适合本文的遥感影像数据集。最终结果如表 1,因此本文使用空间金字塔池化获取多尺度信息。图 5为不同金字塔预测结果图。图 5(a)蓝色矩形框表明的是颜色特征(深色)和水域特征很接近,但非水域的区域,可以发现基于金字塔池化结构得到的结果比基于金字塔空洞卷积结构得到的效果要好,基于金字塔池化结构的网络模型学习能力更强,可以更好地融合上下文信息,学习到每类地物的独有的特征,避免出现颜色相近被分成同一类的问题。

表 1 基于空洞卷积金字塔池化和空间金字塔池化实验对比
Table 1 Comparison of atrous convolution pyramid pooling and spatial pyramid pooling  

下载CSV
/%
池化方式 ${\rm{PA}} $ $ {{\rm{F}}_{\rm{1}}}$ ${\rm{mIoU}} $
空洞卷积金字塔池化 74.08 70.03 47.52
空间金字塔池化 75.38 71.84 49.32
图 5 空洞卷积金字塔与空间金字塔预测对比图
Fig. 5 Compare of atrous convolution pyramid and spatial pyramid((a) atrous convolution pyramid; (b) spatial pyramid)

2.4.3 上采样操作

使用卷积神经网络完成图像语义分割任务时,需要构造端到端的系统,即输入一幅图像也输出一幅和原始输入图像分辨率一致的预测图像,但无论何种网络结构都需要对输入图像进行一定的下采样达到增大感受野实现获取高层语义信息特征进行分类的目的,因此所有的图像语义分割的模型都需要进行上采样,将特征图恢复到原始输入图像尺寸的大小。

通常上采样操作使用双线性插值和反卷积方法。双线性插值方法插入的新像素值仅由邻域4个像素值就可得到,故该方法计算量小且易于实现,但该方法没有参数可以让卷积神经网络学习,不能针对不同的数据分布调整权重,故会丢失细节。综上所述,本文考虑到反卷积参数方法虽然可学习,但缺点在于进行卷积操作前会对特征图插入大量的零,而双线性插值缺点是不可学习,故本文将两种上采样方法结合起来,将双线性插值得到的像素值作为反卷积层的初始化参数,该层参数也可学习,根据训练过程,调整权重的大小,这样在理论上可弥补丢失的细节。

Wang等人(2018)发现使用DUC(dense upsampling convolution)结构代替双线性插值和反卷积实现上采样操作,可避免上述两种结构的缺点。DUC结构示意图如图 6所示,DUC结构的输入为提取特征网络的输出,假设提取特征网络的输出的特征图大小为$h×w×c$,此特征图经过DUC结构输出的尺寸为$h×w×(r×r×l)$,其中$r$为特征提取网络的下采样因子,$l$为图像语义分割任务的类别数目,然后将此特征图的尺寸重塑为$(h×r)×(w×r)×l$,即输入网络中的原始图像分辨率大小,再通过像素级的预测在第3维度求最大值就可得到最终预测图像。DUC结构的核心思想是将预测图像划分为$r×r$个相同的子块,每个子块的尺寸都与输入到DUC结构的特征图尺寸相同,将这些子块经过$r×r$次堆叠就可得到模型最终的预测图像。这种结构可以在输入特征图和输出预测图像自由使用卷积操作,并且不需要像反卷积结构那样引入额外的参数,加大模型的训练难度,也不像双线性插值那样参数不可学习,因而此结构可以捕捉细节信息,对于恢复目标的边缘以及识别小尺寸目标作用很大。在多个图像语义分割数据集均获得比较理想的结果,证明了此结构的有效性。

图 6 DUC结构示意图
Fig. 6 DUC structure diagram((a)sub-pixel diagram in DUC structure; (b)DUC architecture used in this paper)

通过以上分析,本文提出将双线性插值的参数作为反卷积结构的初始化的新上采样方法,也考虑到DUC结构在自然图像数据集上的优秀的分割效果,更加考虑到本文数据集为遥感影像,遥感影像的特点就是各目标尺寸差距很大,存在很多小尺寸目标,故通过实验分析论证上述两种结构对本文遥感影像数据的适应性,最终结果如表 2图 7所示。图 7(a)黄色矩形框是应该发现但网络模型没有发现的小尺寸房屋,基于改善的反卷积结构得到的结果比基于DUC结构得到的效果要差,基于DUC结构的网络模型可以发现更多小尺寸地物,对细节信息恢复较好,地物边缘非常准确。因此本文使用DUC结构进行上采样操作。

表 2 基于DUC结构和改善的反卷积实验对比
Table 2 Comparison of DUC structure and improved deconvolution  

下载CSV
/%
解码器结构 ${\rm{PA}} $ $ {{\rm{F}}_{\rm{1}}}$ ${\rm{mIoU}} $
改善的反卷积 75.34 73.45 49.15
DUC结构 76.14 73.23 50.96
图 7 经过改善的反卷积结构与DUC结构预测图对比
Fig. 7 Comparison of improved deconvolution structure and DUC structure((a)improved deconvolution structure; (b)DUC structure)

2.5 后处理方法

2.5.1 基于集成学习的滑动步长预测方法

遥感影像尺寸通常比较大,本文所用的银川市三区遥感影像数据的尺寸为71 607×47 504像素,在模型预测阶段,如果将此影像直接输入到模型中,会出现内存和显存溢出的问题,所以通常会将待分类的尺寸较大的影像裁剪为固定尺寸的多个图像块分别进行预测,得到每个图像块的结果后再拼接成待分类影像的大小。但是由于模型中的卷积操作会对图像边界进行补0操作,因而此种预测方式会使得每幅小图像边界像素的预测精度低于中心像素的精度。将多幅小图像得到的结果拼接成原始影像尺寸后会出现明显的拼接痕迹,本文根据遥感影像的此种特点,并结合集成学习的理论,提出滑动步长预测方法,避免上述现象出现。

集成学习本身并不是一种机器学习算法,其本质是用多个分类器分解特征空间,通过构建并结合多个基模型来完成学习任务。具体操作是将多个基模型的预测结果进行一定策略的组合得到最终的结果。对于分类任务,组合的策略可以是简单投票,将每个基模型的预测结果相加,再经过激活函数,得到最终预测类别;也可以进行加权投票,每个基模型有对应的权重,将其预测结果与其对应的权重相乘得到该基模型的预测,将所有基模型的预测结果相加,再经过激活函数,得到最终预测类别。

本文根据遥感影像的特点并借鉴集成学习的思想,将预测过程改为滑动步长预测,避免上述问题的出现,解决方案依旧是将分辨率较大的影像裁剪成多个固定尺寸的图像块,但在裁剪过程中,会用一个步长参数控制每次裁剪的区域,当此步长小于需要裁剪的固定尺寸时,原始影像中的大量像元会被预测多次,对多次预测得到的结果进行投票,得到此像元最终的类别,裁剪示意图如图 8所示。

图 8 滑动步长预测示意图
Fig. 8 Sliding step prediction diagram

图 9所示为基于滑动步长预测方法与原始预测方法的对比图,图 9(c)与9(d)相比,滑动步长预测方法改善了道路两边错分的像元。从图 9(d)中湖的顶部可以看出原始预测方法出现了明显的拼接痕迹,并且湖的右边出现大面积预测错误的现象,从图 9(c)可以看出湖的顶部更加自然,湖的右边大面积错分的像元也大大减少了,因而滑动步长预测方法避免了拼接痕迹的出现,并改善了大面积错分的现象。由以上对比可以发现基于本文滑动步长的预测方法可以明显改善原始预测方法的错误分类。但滑动步长的预测方法耗时更长,对于一幅2 000×2 000像素的遥感影像进行前向传播并使用滑动步长预测方法,得到预测结果平均需要93.18 s,但使用原始预测方法仅需要20.47 s。

图 9 基于滑动步长预测与原始预测对比
Fig. 9 Comparison between sliding step prediction and original prediction
((a)original images; (b) label; (c) sliding step prediction; (d) original prediction)

2.5.2 基于概率图的影像后处理

在模型的网络结构中, 无论使用何种方式的上采样操作都会造成细节信息一定程度的损失,产生地物边界模糊的现象。在自然图像语义分割任务中,一般采用概率图中的全连接CRFs解决边界模糊问题,本文也采用此方法解决预测结果中地物边界模糊问题。概率图模型是一类用图形模式来表达变量之间概率相关关系的模型的总称,是概率论与图论知识的结合,利用图作为工具,直观、灵活地表示变量之间的联合概率分布(Krähenbühl和Koltan,2011)。条件随机场经常结合单个像素的一元势能和相邻像素间的二元势能,这样有利于将在空间层面相邻的像素分配相同标签,因而经常用于平滑边缘有噪声的分割结果,但该结构存在无法对空间距离较大的像素进行建模的问题,从而导致分割结果中的物体边缘被过度平滑。一般由模型得到的分割结果中的地物边缘比较模糊和粗糙,需要进一步恢复细节信息,而不是平滑,故普通的条件随机场达不到此要求。因此,Krähenbühl和Koltun(2011)在条件随机场的基础上提出了全连接条件随机场,普通条件随机场只是将每个像素与其相近的像素相连接,而全连接条件随机场是将每个像素都与影像中其他的像素相连接,这样全连接条件随机场可以对每个像素与其他所有像素关系进行建模,并使用像素之间的像素值和实际空间距离来衡量像素之间的相似性,从而给相似性较大的像素分配相同的类别,全连接条件随机场对所有像素进行建模,因而能最大程度地在边界处分割,防止地物边缘被过度平滑。

在使用全连接条件随机场处理模型的预测结果时,其一元势能是每个像素的类别分配概率的分布图,原始影像提供二元势能中的颜色信息和位置信息,全连接条件随机场的能量项越小其预测的结果越准,本文使用平均场近似的方法迭代能量项,使其达到最小值,从而得到最终的预测结果。全连接条件随机场处理模型的预测结果的过程如图 10所示。

图 10 全连接CRFs处理预测结果示意图
Fig. 10 Schematic diagram of fully connected CRFs processing prediction results

图 11为使用全连接CRFs对模型预测结果进行后处理的结果,其中全连接CRFs的参数是Chen等人(2017a)由网格搜索得到的,迭代次数设为10。由图 11(a)-(d)得知全连接CRFs可以细化预测结果中的地物边缘,纠正了水中绿地被错分为房屋的像元,在一定程度上改善错误现象,提高整体分割精度。然而如图 11(e)-(h)中绿色矩形框所示,使用全连接CRFs处理预测结果时,平滑程度过大,将正确分类的道路过度平滑,对结果进行了负优化,主要原因在于全连接CRFs会平滑一些分类正确但尺度较小的目标,并且本文数据集分辨率较低,比较模糊,而且遥感影像的像素成栅格状排列,全连接CRFs对遥感影像进行后处理时可能会过分挖掘每个像素之间的互相关联以及影像的细节信息,故出现将结果变差的现象,而且也可以看出本文数据集的标注也有错误,在一定程度上影响了模型的训练。

图 11 全连接CRFs处理分割结果
Fig. 11 Segmentation results of fully connected CRFs
((a)original images; (b) label; (c) sliding step prediction; (d) prediction after CRFs)

3 实验

3.1 环境与参数设置

本研究在训练网络时的实验环境如表 3所示。采用的优化函数是Pytorch框架提供的SGD函数,初始学习率为0.001,每迭代40次学习率减小10倍,动量超参数和权重衰减分别为0.99和0.000 5,训练集为17幅2 000×2 000像素影像及其对应标注经过随机裁剪生成的17 000幅小尺寸图像(7波段的影像对应裁剪生成的小图像大小固定为256×256×7),即每幅2 000×2 000像素影像经过随机裁剪和数据增强生成1 000幅小尺寸图像,训练集、验证集和测试集划分比例为7 :1 :2。设置mini-batch的大小为16(即以16幅图像为一组对网络进行训练),同时使用在ImageNet数据集上预训练过的DenseNet模型对基础网络初始化(不加载DenseNet预训练模型第1层卷积参数),以加快网络收敛和提高网络的泛化能力。

表 3 实验环境介绍
Table 3 Introduction to the experimental environment

下载CSV
实验环境 环境配置
操作系统 Ubuntu 16.04.3 LTS
处理器 E5-2683 v3 @ 2.00 GHz
内存 128 GB
CUDA 8.0
CUDNN 7.5
显卡 NVIDIA GTX 1080Ti×4
深度学习框架 Pytorch 0.2

3.2 实验结果

为了验证本文网络模型以及后处理方法的有效性,本研究基于自建数据集与遥感影像比赛参赛者经常使用的U-Net模型、全卷积神经网络FCN-8s模型以及Wang等人(2018)提出的Hdcduc模型进行了对比实验。

Ronneberger等人(2015)提出了语义分割网络U-Net,是FCN的改进和延伸,融合了编码—解码对称结构和跳跃结构的特点,模型结构更加巧妙和优雅,编码器部分使用池化层逐渐减少特征分辨率,解码器部分使用上采样逐渐恢复特征图尺寸。编码器和解码器之间通常存在快捷连接,即跳跃连接,融合不同网络层次的特征,能帮助解码器更好地恢复目标的细节,U-Net在多个比赛中获得了良好的成绩,证明了它的有效性。Wang等人(2018)提出的Hdc-duc模型将ResNet作为特征提取网络,并将ResNet网络中的部分卷积替换为空洞卷积,空洞卷积的采样频率设计为锯齿状,避免空洞卷积带来的网格效应,被称为hybrid dilated convolution。然后将提取到的特征输入到DUC结构,DUC的参数可学习,有利于恢复细节信息,此模型在多个自然图像语义分割数据集获得极高的分割精度,证明了此模型的有效性。FCN-8s模型、U-Net模型和Hdc-duc模型的输入数据、损失函数、训练以及后处理方法皆和本文模型一致,其中没有注明使用原始数据的模型,皆使用多源数据进行训练,即图像有7个波段:红光、绿光、蓝光、近红外、${\rm{NDVI}}$${\rm{EVI}}$${\rm{NDWI}}$。得到的结果如表 4所示。

表 4 自建数据集模型效果对比
Table 4 Comparison of models on self-built dataset

下载CSV
模型 PA/% F1/% mIoU
U-Net+滑动步长+CRFs 77.25 70.60 0.470 2
FCN8s+滑动步长+CRFs 75.09 71.88 0.493 9
Hdc-duc+滑动步长+CRFs 77.08 75.18 0.513 4
原始数据+本文模型 74.22 71.49 0.478 5
本文模型 76.77 74.40 0.510 4
本文模型+滑动步长 77.85 75.97 0.524 8
本文模型+滑动步长+CRFs 78.49 76.23 0.535 1

表 4可以看出本文方法在自建数据集上各个指标都高于其他的深度学习方法。使用多源数据训练模型得到的精度要高于使用原始数据得到的精度,多源数据训练模型在mIoU评价标准上提高了3.19%,验证了本文结合地理遥感知识所做的波段融合生成多源数据的有效性。使用基于集成学习的滑动步长预测方法提高了1.44%分割精度,验证了本文针对遥感影像的特点对模型预测阶段的改动的效果。虽然全连接CRFs可能会平滑尺寸较小的地物,但使用CRFs对预测结果进行后处理,还是有效地提高了1.03%分割精度,主要原因在于本文自建数据集的影像分辨率较低,比较模糊,而且地物比较复杂,标注不太准确,全卷积神经网络很难学到数据的分布,预测结果精度不高,故全连接CRFs可以较大程度地改善分割结果。上述结果和分析,充分验证了本文网络模型和后处理方法的有效性。

4 结论

针对宁夏特殊地形遥感影像的语义分割问题,提出基于全卷积神经网络的新的网络结构,并基于集成学习的滑动步长预测方法,使用全连接条件随机场进行影像后处理,优化分割结果,实现高精度的遥感影像语义分割。综合识别结果来看,目前该方法仍有进一步优化的空间,其识别效果主要受两个因素制约:1)本文仅仅将基础网络最后的输出送入到金字塔池化模型,以获取上下文信息,可以考虑将基础网络中不同层次的特征合并送入金字塔池化模型,或者考虑将基础网络某层的特征与金字塔池化模块的输出合并,进行下一步操作,这两种方式都可以获得更多空间细节信息,有助于增加多尺度特征;2)连接条件随机场在细化分割结果时,容易将分割正确但尺寸较小的目标平滑掉,后续可以考虑采用其他方法进行影像后处理,比如考虑目标的先验知识或采用不同模型投票方式的集成学习方法等。

参考文献

  • Badrinarayanan V, Kendall A, Cipolla R. 2017. SegNet:a deep convolutional encoder-decoder architecture for image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(12): 2481-2495 [DOI:10.1109/TPAMI.2016.2644615]
  • Blaschke T, Hay G J, Kelly M, Lang S, Hofmann P, Addink E, Feitosa R Q, Meer F, Werff H, Coillie F, Tiede D. 2014. Geographic object-based image analysis-towards a new paradigm. ISPRS Journal of Photogrammetry and Remote Sensing, 87: 180-191 [DOI:10.1016/j.isprsjprs.2013.09.014]
  • Chen L C, Papandreou G, Kokkinos I. 2017a. DeepLab:semantic image segmentation with deep convolutional nets, atrousconvolution, and fully connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(4): 834-848 [DOI:10.1109/TPAMI.2017.2699184]
  • Chen L C, Papandreou G and Kokkinos I.2014.Semantic image segmentation with deep convolutional nets and fully connected CRFs[EB/OL].[2019-01-04].https://arxiv.org/pdf/1412.7062.pdf
  • Chen L C, Zhu Y K, Papandreou G, Schroff F and Adam H. 2018. Encoder-decoder with atrous separable convolution for semantic image segmentation//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 801-818[DOI: 10.1007/978-3-030-01234-2_49]
  • Chen L C, Papandreou G and Schroff F and Adam H. 2017b. Rethinking atrous convolution for semantic image segmentation[EB/OL].[2019-01-04].https://arxiv.org/pdf/1706.05587.pdf
  • Chollet F. 2017. Xception: deep learning with depthwise separable convolutions[EB/OL].[2019-01-04]. https://arxiv.org/pdf/1610.02357.pdf
  • Du B, Zhang W. 2016. Research on object-oriented high resolutionremotesensing image classification technology. Western Resources, (5): 135-138
  • 杜斌, 张炜. 2016. 基于面向对象的高分辨率遥感影像分类技术研究. 西部资源, (5): 135-138
  • Everingham M, Zisserman A, Williams C K I, Gool L V, Allan M, Bishop C M, Chapelle O, Dalal N, Deselaers T, Dorkó G, Stefan Duffner, Eichhorn J, Farquhar J D R, Fritz M, Garcia C, Griffiths T, Jurie F, Keysers D, Koskela M, Laaksonen J, Larlus D, Leibe B, Meng H Y, Ney H, Schiele B, Schmid C, Seemann E, Shawe-Taylor J, Storkey A, Szedmak S, Triggs B, Ulusoy I, Viitaniemi V and Zhang J G. 2005. The 2005 PASCAL Visual Object Classes Challenge//Machine Learning Challenges Workshop. Berlin, Heidelberg: Springer, 117-176[DOI: 10.1007/11736790_8]
  • Feng D C, Chen G, Xiao K L, Du W Y, Wu X Y. 2012. Remote sensing image classification based on minimum distance method. Journal of North China Institute of Aerospace Engineering, 22(3): 1-2, 5 (冯登超, 陈刚, 肖楷乐, 杜文雅, 吴新颖. 2012. 基于最小距离法的遥感图像分类. 北华航天工业学院学报, 22(3): 1-2, 5) [DOI:10.3969/j.issn.1673-7938.2012.03.001]
  • Huang G, Liu Z, Maaten L and Weinberger K Q. 2017. Densely connected convolutional networks[EB/OL].[2019-01-04]. https://arxiv.org/pdf/1608.06993.pdf
  • Jian Z, Cui Z, Liu A. 2007. A k-means remoter sensing image classification methed based on AdaBoost. Journal of Beijing Electronic Science & Technology Institute, 4: 27-32
  • Liu H Q, Huete A. 1995. A feedback based modification of the NDVI to minimize canopy background and atmospheric noise. IEEE Transactions on Geoscience and Remote Sensing, 33(2): 457-465 [DOI:10.1109/TGRS.1995.8746027]
  • Krähenbühl P and Koltun V.2011. Efficient inference in fully connected crfs with gaussian edge potentials[EB/OL].[2019-01-04]. https://arxiv.org/pdf/1210.5644.pdf
  • Kettig R L, Landgrebe D A. 1976. Classification of multispectral image data by extraction and classification of homogeneous objects. IEEE Transactions on Geoscience Electronics, 14(1): 19-26 [DOI:10.1109/TGE.1976.294460]
  • Liu D W, Han L, Han X Y. 2016. High spatial resolution remote sensing image classification based on deep learning. Acta Optica Sinica, 36(4): #0428001
  • 刘大伟, 韩玲, 韩晓勇. 2016. 基于深度学习的高分辨率遥感影像分类研究. 光学学报, 36(4): #0428001
  • Long J, Shelhamer E, Darrell T. 2014. Fully convolutional networks for semantic segmentation. IEEE Transactions on Pattern Analysis & Machine Intelligence, 39(4): 640-651
  • Lobo A, Chic O, Casterad A. 1996. Classification of Mediterranean crops with multisensor data:per-pixel versus per-object statistics and image segmentation. International Journal of Remote Sensing, 17(12): 2385-2400 [DOI:10.1080/01431169608948779]
  • McFeeters S K. 1996. The use of the normalized difference water index (NDWI) in the delineation of open water features. International Journal of Remote Sensing, 17(7): 1425-1432 [DOI:10.1080/01431169608948714]
  • Rouse J W Jr, Haas R H, Schell J A and Deering D W. 1974. Monitoring vegetation systems in the Great Plains with ERTS. Washington: NASA
  • Xiao Z X, Chen S. 2018. Review of image semantic segmentation. Software Guide, 17(8): 6-8, 12
  • 肖朝霞, 陈胜. 2018. 图像语义分割问题研究综述. 软件导刊, 17(8): 6-8, 12
  • Ronneberger O, Fischer P and Brox T. 2015. U-Net: Convolutional networks for biomedical image segmentation//Proceedings of 2015 International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer: 234-241[DOI: 10.1007/978-3-319-24574-4_28]
  • Wang P, Chen P, Yuan Y, Liu D, Huang Z, Hou X and Cottrell G. 2018. Understanding convolution for semantic segmentation//Proceedings of 2018 IEEE Winter Conference on Applications of Computer Vision. Lake Tahoe, NV, USA: IEEE: 1451-1460[DOI: 10.1109/WACV.2018.00163]
  • Yu F and Koltun V. 2015. Multi-scale context aggregation by dilated convolutions.[EB/OL].[2016-04-30].https://arxiv.org/pdf/1511.07122
  • Zhao H, Shi J, Qi X, Wang X and Jia J. 2017. Pyramid scene parsing network//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE: 2881-2890[DOI: 10.1109/CVPR.2017.660]
  • Zhao X, Li Y, Zhao Q. 2015. Mahalanobis distance based on fuzzy clustering algorithm for image segmentation. Digital Signal Processing, 43: 8-16 [DOI:10.1016/j.dsp.2015.04.009]