Print

发布时间: 2021-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190601
2021 | Volume 26 | Number 3




    遥感图像处理    




  <<上一篇 




  下一篇>> 





高分辨率遥感影像的边缘损失增强地物分割
expand article info 陈琴1, 朱磊1,2, 吕燧栋1, 吴谨1
1. 武汉科技大学信息科学与工程学院, 武汉 430081;
2. 中冶南方连铸技术工程有限责任公司, 武汉 430223

摘要

目的 针对高分辨率遥感影像语义分割中普遍存在的分割精度不高、目标边界模糊等问题,提出一种综合利用边界信息和网络多尺度特征的边缘损失增强语义分割方法。方法 对单幅高分辨率遥感影像,首先通过对VGG-16(visual geometry group 16-layer net)网络引入侧边输出结构,提取到图像丰富的特征细节;然后使用深度监督的短连接结构将从深层到浅层的侧边输出组合起来,实现多层次和多尺度特征融合;最后添加边缘损失增强结构,用以获得较为清晰的目标边界,提高分割结果的准确性和完整性。结果 为了验证所提方法的有效性,选取中国北方种植大棚遥感影像和Google Earth上的光伏板组件遥感影像进行人工标注,并制作实验数据集。在这两个数据集上,将所提方法与几种常用的语义分割方法进行对比实验。实验结果表明,所提方法的精度在召回率为00.9之间时均在0.8以上,在2个数据集上的平均绝对误差分别为0.079 1和0.036 2。同时,通过消融实验分析了各个功能模块对最终结果的贡献。结论 与当前先进方法相比,本文提出的边缘损失增强地物分割方法能够更加精确地从遥感影像的复杂背景中提取目标区域,使分割时提取到的目标拥有更加清晰的边缘。

关键词

高分辨率遥感影像; 卷积神经网络; 语义分割; 多特征融合; 边缘损失增强网络; 平均绝对误差

Segmentation of high-resolution remote sensing image by collaborating with edge loss enhancement
expand article info Chen Qin1, Zhu Lei1,2, Lyu Suidong1, Wu Jin1
1. School of Information Science and Engineering, Wuhan University of Science and Technology, Wuhan 430081, China;
2. WISDRI Continuous Casting Technology Engineering Company Ltd., Wuhan 430223, China
Supported by: National Natural Science Foundation of China (61502358, 61502357)

Abstract

Objective Semantic analysis of remote sensing (RS) images has always been an important research topic in computer vision community. It has been widely used in related fields such as military surveillance, mapping navigation, and urban planning. Researchers can easily obtain various informative features for the following decision making by exploring and analyzing the semantic information of RS images. However, the richer, finer visual information in high-resolution RS images also puts forward higher requirements for image segmentation techniques. Traditional segmentation methods usually employ low-level visual features such as grayscale, color, spatial texture, and geometric shape to divide an image into several disjoint regions. Generally, such features are called hand-crafted ones, which are empirically defined and may be less semantically meaningful. Compared with traditional segmentation methods, semantic segmentation approaches based on deep convolutional neural networks (CNNs) are capable of learning hierarchical visual features for representing images in different semantic levels. Typical CNN-based semantic segmentation approaches mainly focus on mitigating semantic ambiguity via providing rich information. However, RS images have higher background complexity than images of nature scene. For example, they usually contain many types of geometric objects and cover massive redundant background areas. Simply employing a certain type of feature or even CNN-based ones may not be sufficient in such case. Taking single-category object extraction task in RS images for example, on the one hand, negative objects may have similar visual presentations with the expected target. These redundant, noisy semantic information may confuse the network and finally decrease the segmentation performance. On the other hand, the CNN-based feature is good at encoding the context information rather than the fine details of an image, making the CNN-based models have difficulty obtaining the precise prediction of object boundaries. Therefore, aiming at these problems in high-resolution RS image segmentation, this paper proposes an edge loss enhanced network for semantic segmentation that comprehensively utilizes the boundary information and hierarchical deep features. Method The backbone of the proposed model is a fully convolutional network that is abbreviated from a visual geometry group 16-layer net (VGG-16) structure by removing all fully connected layers and its fifth pooling layer. A side output structure is introduced for each convolutional layer of our backbone network to extract all possible rich, informative features from the input image. The side output structure starts with a (1×1, 1) convolutional layer (a specific convolutional layer is denoted as (n×n, c) where n and c are the size and number of kernels, respectively), followed by an element-wise summation layer for accumulating features in each scale. Then, a (1×1, 1) convolutional layer is used to concentrate hybrid features. The side output structure makes full use of the features of each convolutional layer of our backbone and helps the network capture the fine details of the image. The side-output features are further gradually aggregated from the deep layers to shallow layers by a deep-supervised short connection structure to enhance the connections between features crossing scales. To this end, each side output feature is first encoded by a residual convolution unit then introduced to another one of a nearby shallow stage with necessary upsampling. The short connection structure enables a multilevel, multiscale fusion during feature encoding and is proven effective in the experiment. Finally, for each fused side output feature, a (3×3, 128) convolutional layer is first used to unify its number of feature channels then send it to two paralleled branches, namely, an edge loss enhancement branch and an ordinary segmentation branch. In each edge loss enhancement branch, a Laplace operator coupled with a residual convolution unit is adopted to obtain the target boundary. The detected boundary is supervised by the ground truth that is generated by directly computing the gradient of existing semantic annotation of training samples. It does not require additional manual work for edge labeling. Experimental results show that the edge loss enhancement branch helps refine the target boundary as well as maintain the integrity of the target region. Result First, two datasets with human annotations that include the RS images of the planted greenhouses in the north of China and the photovoltaic panels collected by Google Earth are organized to evaluate the effectiveness of the proposed method. Then, visual and numerical comparisons are conducted between the proposed method and several popular semantic segmentation methods. In addition, an ablation study is included to illustrate the contribution of essential components in the proposed architecture. The experimental results show that our method outperforms other competing approaches on both datasets in the comparisons of precision-recall curves and mean absolute error (MAE). The precision achieved by our method is constantly above 0.8 when recall rate in the range of 0 to 0.9. The MAE achieved by our method is 0.079 1/0.036 2 which is the best of all evaluation results. In addition, the ablation study clearly illustrates the effectiveness of each individual functional block. First, the baseline of the proposed architecture obtains a poor result with MAE of 0.204 4 on the northern greenhouse dataset. Then, the residual convolutional units help reduce MAE by 31%, and the value further drops to 0.084 8 when the short connection structure is added to fuse the multiscale features of the network. Finally, the edge loss enhancement structure helps successfully lower MAE to 0.079 1, which is decreased by 61% compared with the baseline model. The results indicate that all components are necessary to obtain a good feature segmentation result. Conclusion In summary, compared with the competing methods, the proposed method is capable of extracting the target region more accurately from the complex background of RS images with a clearer target boundary.

Key words

high resolution remote sensing imagery; convolutional neural network (CNN); semantic segmentation; multi-feature fusion; edge loss reinforced network; mean absolute error(MAE)

0 引言

随着遥感技术的发展,遥感影像的数量呈爆炸式增长,空间分辨率也显著提高。高分辨率遥感影像处理技术在土地覆盖监测、导航、城市规划以及军事等领域占有重要地位(Cheng和Han,2016)。通过对遥感影像中语义信息的分析与解译,能够快速获得大量有效的地物信息。同时,高分辨率遥感影像中更加丰富和精细的视觉信息也对影像分割技术提出了更高的要求。

传统影像分割根据输入影像的灰度、颜色、空间纹理和几何形状等特征,将影像分割成若干个互不相交的区域(李欣等,2019)。然而,使用此类特征存在两个问题:1)种类繁多,需要依靠人工经验来选择;2)手工定义特征通常缺乏表达高层语义的能力。上述问题导致传统方法难以取得令人满意的解析结果。与传统影像分割方法相比,基于深度卷积网络模型的语义分割方法能够自动学习特征,提取到传统手工定义特征难以获取的语义信息。针对遥感信息数据量巨大的特点,卷积神经网络优异的网络模型和训练方式,可以自适应并高效地从遥感影像中提取人们感兴趣的目标,大幅降低人工成本。

随着深度学习技术的发展,深度学习在图像分类、图像分割和目标检测等领域得到了广泛应用,并取得了不错的成果。基于深度学习的语义分割是指利用网络自动学习到的多尺度特征对图像进行像素级分类,具体来说就是为图像中的每个像素点预测其对应的语义标签。Long等人(2015)首次提出了全卷积神经网络(fully convolutional networks,FCN),成功地将端到端卷积神经网络应用于图像语义分割领域。FCN丢弃了以往卷积神经网络常用的全连接层,使用全卷积神经网络的结构进行密集预测,使模型能够适应任意尺寸图像的输入。同时FCN利用反卷积层对预测图进行上采样,提高预测图的分辨率,使其能够输出更加精细的结果。但是FCN没有充分考虑像素与像素之间的相关性,对图像中的细节信息不够敏感,输出的预测图较为粗糙。Badrinarayanan等人(2017)在FCN的语义分割任务基础上,搭建编码器—解码器对称结构,提出了SegNet模型。该网络与FCN最大的不同在于解码器中的上采样方法,SegNet通过利用编码器中下采样时的池化位置信息对预测图进行上采样,使图像在分割时能够保持细节的完整性,从而得到更加精确的输出特征。Ronneberger等人(2015)提出U-Net模型,该网络具有一个内部对称的编码—解码结构,通过将编码器的每层结果拼接到译码器中来优化分割结果,显著提高了语义分割的准确性。

不同于日常生活中常见的自然图像,遥感影像具有更高的复杂性,通常包括丰富的地物信息和海量的冗余背景区域。以单类典型地物提取为例,同一幅遥感影像中,常常存在与目标的纹理、颜色等视觉特征相似的干扰物,这些多余且嘈杂的语义信息会混淆网络的判断,影响最终的预测结果。本文使用边缘信息帮助网络更好地区分目标,边缘信息有效地表明了不同区域之间的语义差别。传统的基于高阶条件随机场(high-order conditional random field,HCRF)的语义分割方法(Ladický等,2009)利用原始影像的低层视觉特征优化分割结果的边缘,也有一些基于超像素的卷积神经网络(convolutional neural networks,CNN)模型(Arnab等,2016Mostajabi等,2015)用于语义分割,通过局部边缘优化提升分割性能,但由于没有充分利用遥感影像的细节信息,最终的分割结果缺乏精确的边界信息和结构信息。Xie和Tu(2015)提出的整体嵌套边缘检测(holistically-nested edge detection,HED)网络,使利用边缘信息提高高级任务性能的能力成为可能。Liu等人(2017)受HED网络的启发,提出了丰富卷积特征边缘检测(richer convolution feature for edge detection,RCF)网络,充分利用语义和精细的细节特征进行边缘检测,有效提取到高质量边缘。Chen等人(2016)提出一种使用域变换的边缘保留过滤方法,提高语义分割中的对象定位精度。Marmanis等人(2018)提出将语义分割网络与边缘检测网络级联,使模型中的对象边界明确,达到改善语义分割整体精度的目的。综上所述,边缘信息的确能够帮助网络精准定位到目标,提高网络的分割效果。

本文提出一种新的边缘损失增强地物分割网络,并保留了RCF结构中丰富特征的优点,利用边缘损失增强结构来获取边界特征,进一步减少语义歧义。在自定义的种植大棚数据集上,将所提方法与几种深度学习框架进行比较,实验结果表明,该网络可以检测到更完整清晰的目标,得到更好的结果。本文创新点如下:1)提出一种分割与边缘结合的网络框架,充分利用主干网络密集的侧面输出特征,共同学习目标的区域语义和边缘信息,将目标区域从复杂背景中完整精确地分割出来。2)利用挤压和激励网络块(squeeze and excitation,SE)(Hu等,2018)构造残差卷积单元(residual convolutional unit,RCU)(Lin等,2017a)以构造解码框架来联合回归边缘和分割结果;添加短连接(short connection,SC)(Hou等,2017)结构连接网络的不同阶段,实现多尺度特征的跨层融合;利用边缘损失增强结构学习目标边界信息,提高遥感影像地物分割的准确性。3)提出了中国北方种植大棚数据集和光伏数据集,这两个数据集中包含了大量经过像素级别的人工标记和图像剪裁的遥感影像,并按一定比例划分为训练集、验证集和测试集。

1 丰富卷积特征边缘检测结构

基于HED结构提出的丰富卷积特征边缘检测RCF并不局限于从VGG-16(visual geometry group 16-layer net)(Simonyan和Zisserman,2014)的每个阶段的最后一个卷积层提取特征,而是将所有卷积层的输出都进行可视化。深层的侧边输出包含high-level的语义信息,用于更好地定位目标;浅层的侧边输出包含丰富的细节边缘信息,从而使定位更加准确。该网络充分利用VGG-16的每一个卷积层的特征,帮助网络过滤干扰信息,捕捉到正确目标的特征。

该结构的主干在HED的基础上,对每个卷积层都引入侧边输出,并与对应的卷积层连接起来,每个侧边输出添加一个(1×1, 21)卷积层,将网络每个阶段中所有新增卷积层的输出进行元素相加操作,随后经过一个(1×1, 1)卷积得到复合特征,将复合特征上采样到原图大小,与人工标记计算损失。网络第3阶段侧面输出的细节如图 1(其中,$ \oplus $表示逐像素和逐通道加法)所示,其他阶段与此类似。

图 1 RCF第3阶段侧面输出细节图
Fig. 1 The detailed side-output structure of RCF in its third stage

该网络将每个阶段最后的输出拼接到一起,经过一个1×1卷积进行特征融合,再与人工标记计算损失。

在设计损失函数时,该网络对有争议的边缘点不计入损失函数的计算中。对每幅图像的人工标记图平均以生成边缘概率图,范围在0~1之间。其中,0表示此像素处未被标记,1表示此像素点为目标边缘。RCF将边缘概率高于η的像素视为正样本,低于0的视为负样本,忽略边缘概率介于二者之间的像素。单个像素点损失函数的定义为

$ L_{E}=\left\{\begin{array}{ll} \alpha \cdot \log \left(1-P\left(X_{i}\right)\right) & y_{i}=0 \\ 0 & 0<y_{i} \leqslant \eta \\ \beta \cdot \log P\left(X_{i}\right) & y_{i}>\eta \end{array}\right. $ (1)

式中,$ {X_i}$${y_i} $分别表示像素$ i$处的网络输出值和人工标记值,$P $(·)表示标准的sigmoid函数,$ \alpha $$\beta $计算为

$ \begin{aligned} \alpha =\lambda \cdot \frac{\left|\boldsymbol{Y}^{+}\right|}{\left|\boldsymbol{Y}^{+}\right|+\left|\boldsymbol{Y}^{-}\right|} \\ \beta =\frac{\left|\boldsymbol{Y}^{-}\right|}{\left|\boldsymbol{Y}^{+}\right|+\left|\boldsymbol{Y}^{-}\right|} \end{aligned} $ (2)

式中,$\left| {{\mathit{\boldsymbol{Y}}^ + }} \right| $$\left| {{\mathit{\boldsymbol{Y}}^ - }} \right| $分别表示正样本集和负样本集,超参数$ \lambda $用于平衡正样本和负样本。

2 边缘损失增强地物分割网络

虽然RCF框架中丰富的侧边输出特征有效提升了边缘检测的精度,然而以简单替换损失类型的方式将其直接应用于遥感影像地物分割并不能取得满意结果。

本文提出的网络模型如图 2所示,该结构由特征提取与融合和边缘损失增强两个模块构成。特征提取与融合模块首先利用网络每一个卷积层的输出同时提取深层的语义信息和浅层的细节信息,然后采用SC结构逐渐融合从深层到浅层的特征。边缘损失增强模块在网络的每个阶段建立与分割支路并行的边缘检测支路,其结果也进行由深到浅的特征融合。

图 2 边缘损失增强地物分割网络结构图
Fig. 2 The architecture of the proposed edge loss reinforced ground segmentation network

2.1 特征提取与融合

2.1.1 丰富特征提取

网络选择VGG-16作为主干部分,去除所有的全连接层和第5池化层,构建全卷积网络。为了提取网络每一层卷积的丰富特征信息,本文对每个卷积层横向引入侧边输出,结构与图 1前3列卷积层相同,每个阶段具体滤波器的细节参数如表 1所示,其中网络层分别表示VGG-16的每个阶段,“1”、“2”和“3”表示每个阶段侧面输出上依次连接的3个卷积层,$(k \times k, n) $表示卷积层的尺寸和通道数分别为$k $$n $

表 1 侧面输出结构细节参数
Table 1 Detailed kernel setup of the side-output structure

下载CSV
网络层 1 2 3
Conv1 3×3, 64 3×3, 128 3×3, 128
Conv2 3×3, 128 3×3, 128 3×3, 128
Conv3 3×3, 256 3×3, 128 3×3, 128
Conv4 3×3, 512 3×3, 128 3×3, 128
Conv5 3×3, 512 3×3, 128 3×3, 128

图 2所示,经过侧边输出结构提取的丰富特征信息将经过一个残差卷积单元,其结构如图 3所示。该残差卷积单元由原始残差网络中的卷积单元演变而来,由两个分支组成,其中一个是不做任何运算的输入值,另一个由两个卷积滤波器组和一个SE模块组成。最后将两个分支的结果进行逐元素求和。SE模块通过网络的损失去学习特征权重,使有效的特征权重大,无效或效果小的特征权重小,以此训练模型达到更好的结果。

图 3 残差卷积单元结构图
Fig. 3 The architecture of residual convolutional unit

2.1.2 基于SC结构的特征融合

在常用的网络结构中,SC结构由于具有融合多层次和多尺度特征的特点,广泛应用在显著性检测、目标检测和语义分割等领域。网络第1部分的特征提取模块通过更深的侧边输出找到分割目标的位置,但是也使较浅的侧边输出侧重低级特征而缺乏全局信息。因此,本文利用SC结构适当组合不同的侧边输出,使网络可以学习到多尺度信息。侧边输出之间的连接如图 2所示。例如,网络第5阶段中,经过残差卷积单元的侧边输出首先经过简单的双线性插值进行上采样,然后与第4阶段侧边输出的特征图连接得到一个复合特征,再将其引入到一个(3×3, 28)卷积层中,将得到的结果输入到第4阶段的残差卷积单元中。重复上述操作,即可构建用于融合深层全局信息和浅层细节信息的SC结构,使网络能够较好地提取最具视觉区分度的目标。

2.2 边缘损失增强结构

遥感影像受云层遮盖造成的地面阴影、周边地物的复杂性影响,目标的边界细节不够完整,致使边缘预测往往不够准确。另外,网络每个阶段之间使用池化层降低图像分辨率,较低分辨率的特征图具有较差的空间精度,提取的目标边界模糊不完整。因此,本文添加边缘损失增强结构作为地物语义分割的辅助手段。网络在每个阶段的侧面输出后都拓展了一条边缘检测支路,与地物分割支路并行,用以保留更详细的边缘信息。边缘检测支路与地物分割支路结构基本相同,在残差卷积单元后添加拉普拉斯算子来获取网络输出的边界,与边缘地面真值计算损失来监督目标边界的生成。

拉普拉斯算子是$n $维欧几里得空间中的一个二阶微分算子,定义为梯度的散度$ \left(\mathit{\nabla}^{2} f\right)$。因为可以使用二阶导数检测边缘,所以使用拉普拉斯算子来获取目标的有效边界。2维拉普拉斯计算为

$ \nabla^{2} f=\frac{\partial^{2} f}{\partial x^{2}}+\frac{\partial^{2} f}{\partial y^{2}} $ (3)

式中,$f $是拉普拉斯算子的输入值,$x$$ y$$xy$平面上的标准笛卡尔坐标。由于拉普拉斯算子是定义在图像像素上的二阶离散微分,而任意阶微分都是线性操作,因此,拉普拉斯算子可以设计为模型中的一个独立卷积层。具体为

$ \nabla^{2} \widetilde{\boldsymbol{f}}=\operatorname{ReLU}(\operatorname{Conv}(\boldsymbol{f}, { Klaplace })) $ (4)

式中,${\rm{Conv}} $表示卷积操作,$Klaplace$表示离散拉普拉斯算子,$ \nabla^{2} \widetilde{\boldsymbol{f}}$表示提取的边缘特征图。计算时,将拉普拉斯算子赋值给卷积核参数,并禁止其在反向传播时更新参数,卷积操作后使用整流线性单元(rectified linear units, ReLU)激活函数ReLU(Glorot等,2011),帮助深层网络收敛,最后使用边缘损失函数来监督目标边界的生成。值得注意的是,本文的边缘地面真值不需要额外的手动标记工作,而是分割人工标记时经过简单的梯度运算获得的。

2.3 联合分割和边缘损失函数

本文将输入训练数据集用$\boldsymbol{S}=\left\{\boldsymbol{X}_{n}, \boldsymbol{Y}_{n}, \boldsymbol{Y} \boldsymbol{E}_{n}\right\}_{n=0}^{N} $表示,其中,$ \boldsymbol{X}_{n}=\left\{x_{i}^{n}, i=1, \cdots, T\right\}$表示输入像素点数为$T $的图像,$ \boldsymbol{Y}_{n}=\left\{y_{i}^{n}, i=1, \cdots, \right. T\}$$\boldsymbol{Y} \boldsymbol{E}_{n}=\left\{y e_{i}^{n}, i=1, \cdots, T\right\} $表示对应$\boldsymbol{X}_{n} $的语义人工标记和边缘地面真值,$N$表示训练数据集的图像总数。由于本文进行的实验属于单类地物提取任务,所以$y_{i}^{n} \in\{1, 0\}, y e_{i}^{n} \in\{1, 0\} $。网络的损失设计为两个部分,即地物分割损失和边缘检测损失。边缘损失函数定义为带权重的二分类交叉熵损失函数,表达式如式(1)所示。地物分割损失使用对所有像素求和的交叉熵损失函数,可以表示为

$ L_{C}=-\sum\limits_{i=1}^{T}\left(y_{i} \log P_{i}+\left(1-y_{i}\right) \log \left(1-P_{i}\right)\right) $ (5)

式中,$ P_{i}$表示图像像素点对应的输出。

分割损失分为单个侧边输出损失和联合损失,单个侧边输出损失由网络每个阶段的输出分别和人工标记计算而得,共5项。将5个卷积组的输出进行特征融合,得到一个复合特征,再与人工标记计算得到联合损失。因此,地物分割损失函数可以表示为

$ L_{S}=\sum\limits_{i=1}^{T}\left(\sum\limits_{k=1}^{K} L_{C}\left(y_{i}^{k} ; P_{i}\right)+L_{C}\left(y_{i}^{\text {fuse }} ; P_{i}\right)\right) $ (6)

式中,$ y_{i}^{k}$表示网络第$k $阶段的侧边输出值,$ y_{i}^{\text {fuse }}$表示网络所有阶段输出融合后的复合特征值,$ K$表示主干网络阶段数,值为5。

因此,本文最后的损失函数为

$ L = {L_S} + {L_E} $ (7)

3 实验与结果分析

为了评估提出网络结构的有效性,进行以下实验,并对实验结果进行定量和定性比较。

3.1 数据集和评估标准

3.1.1 中国北方地区种植大棚数据集

本文采用的数据集之一是由中国北方地区种植大棚(塑料蔬菜大棚、温室大棚和玻璃大棚)的大幅遥感影像裁剪而得的数据集合。图 4为中国资源三号卫星的01a星拍摄的内蒙古自治区农业种植大棚的原始遥感卫星图,空间分辨率为2 m/像素,分辨率为29 847×38 484像素。

图 4 内蒙古自治区北方大棚的卫星图
Fig. 4 A satellite image of the northern greenhouse in Inner Mongolia Autonomous Region

为得到足够的训练与验证数据,采用如下流程制作数据集合:1)邀请专业人员对资源三号卫星拍摄的原始遥感卫星图进行像素级的人工标记;2)在数据中选择一幅卫星图作为验证数据,其余作为训练数据;3)按照512×512像素大小对影像进行裁剪,裁剪方式为采用10%的重合比例的滑窗操作;4)清除目标像素点占全图比例不足30%的负样本数据和影像矫正过程中产生的无效区域数据。按照上述步骤,制作出包括17 170幅训练样本、3 497幅验证样本和1 000幅测试样本的北方数据集合,样本集中部分数据如图 5所示。

图 5 中国北方大棚数据集样本
Fig. 5 Samples of the northern greenhouse dataset
((a) remote sensing images; (b) ground truth)

3.1.2 光伏板组件数据集

为了进一步体现本文方法的优势,引入另一个数据集用于评价提出模型的性能。该数据集影像采集自Google Earth的公开数据,用于在遥感影像中提取光伏板组件。对该遥感影像同样采用3.1.1节的方法制作光伏数据集,该数据集包括1 546幅训练样本和264幅测试样本。样本集中部分数据如图 6所示。

图 6 光伏数据集样本
Fig. 6 Samples of the photovoltaic panel dataset
((a) remote sensing images; (b) ground truth)

3.1.3 实验定量评价标准

为了衡量分割系统的作用及贡献,其性能需要经过严格评估,并且评估须使用标准、公认的方法以保证公平性。图像分割的常用评价标准包括像素精度(pixel accuracy,PA)、平均像素精度(mean pixel accuracy,MPA)、平均交并比(mean intersection over union,MIoU)和频权交并比(frequency weighted intersection over union,FWIoU)等。由于本文进行的实验属于单类地物提取任务,因此,本文采用精度和召回率(precision and recall)曲线以及平均绝对误差(mean absolute error,MAE)这两个指标用于评价网络分割性能。

通过比较8 bit图像中所有可能的阈值(0~255)下分割结果与人工标注的二值映射图的一致性,从而得到测试图像在每一种阈值下的精度和召回率。

精度表示预测为正例的样本中真正的正例所占的比例,具体为

$ {P = \frac{{TP}}{{TP + FP}}} $ (8)

召回率表示总样本数据正例中被预测为正例的比例,具体为

$ {R = \frac{{TP}}{{TP + FN}}} $ (9)

式中,$TP $表示数据测试结果中预测为正且实际为正;$FP $表示预测为正但实际为负;$FN $表示预测为负但实际为正;$TN $表示预测为负且实际为负。

MAE能够评估预测图和人工标记之间绝对误差的平均值,可以更好地反映预测值误差的实际情况,具体为

$ MAE = \frac{1}{T}\sum\limits_{i = 1}^T | {P_i} - {y_i}| $ (10)

式中,$ P_{i}$是该像素点处网络输出的分割结果。

3.2 训练参数设置

网络的VGG-16骨架参数使用在ImageNet(Deng等,2009)数据集上预训练结果进行初始化,其余模型参数进行随机初始化。

本文所有训练图像的大小均为512×512像素,batch size设为2,其中训练FCN模型时,batch size设为1。网络采用Adam优化器训练,学习率初始值设为0.000 1。

3.3 实验结果与分析

对提出的网络结构与FCN(Long等,2015)、U-Net(Ronneberger等,2015)、SegNet(Badrinarayanan等,2017)、Deeplabv3+(Chen等,2018)、PoolNet(Liu等,2019)和DANet(dual attention network for scene segmentation)(Fu等,2019)等图像分割方法进行定性定量评估,其中FCN、U-Net、SegNet和Deeplabv3+均为经典的语义分割方法。PoolNet在特征金字塔网络(Lin等,2017b)的基础上加入了全局引导模块(global guidance module, GGM)和特征聚合模块(feature aggregation module, FAM)来扩充池化的影响力,GGM为不同特征层提供潜在分割对象的位置信息,FAM将GGM捕获的粗糙语义特征和网络各阶段的细节特征进行更好的融合,这两个模块能够逐步重新定义高级语义特征,从而使网络准确定位具有锐化细节的分割目标。DANet基于注意力机制(Vaswani等,2017)来捕获上下文依赖,并提出了包含位置注意力模块和通道注意力模块的双重注意力网络模型,位置注意力模块选择性地通过所有位置的加权求和聚集每个位置的特征,通道注意力模块选择性地强调某个维度的特征图,最后将两种注意力模型的输出进行求和,得到最后的特征表达,该网络能够自适应地聚合上下文信息,从而提高语义分割的特征表示。

实验过程中,使用可用的源代码实现这些模型,并将这6个模型在北方大棚数据集和光伏数据集上重新训练,以进行比较。

3.3.1 定性评价

图 7是边缘损失增强网络与其他网络的定量比较。可以看出,本文网络的分割结果更接近人工标记的结果。由于网络在回归分割结果的同时利用边缘信息对特征进行了监督,使得本文结果不仅可以突出目标区域,而且可以产生清晰的边缘。例如,对第3个样本,由于复杂场景的影响,其他方法无法准确定位和分割重要对象,但本文网络依旧能分割出目标。

图 7 边缘损失增强网络和其他网络的定性比较
Fig. 7 Visual comparisons between the edge loss reinforced network and other networks((a) remote sensing images; (b) ground truth; (c) ours; (d) FCN; (e) U-Net; (f) SegNet; (g) PoolNet; (h) DANet; (i) Deeplabv3+)

3.3.2 定量评价

表 2是不同分割方法在北方大棚数据集和光伏数据集上的MAE。可以看出,本文网络取得了最佳效果。

表 2 不同分割方法在两个数据集上的MAE
Table 2 MAE of different segmentation methods on two datasets

下载CSV
网络结构 北方大棚数据集 光伏数据集
FCN 0.137 9 0.072 1
U-Net 0.164 2 0.057 8
SegNet 0.136 3 0.058 8
Deeplabv3+ 0.089 4 0.081 9
PoolNet 0.089 5 0.041 9
DANet 0.082 5 0.072 6
本文 0.079 1 0.036 2
注:加粗字体为每列最优结果。

图 8是不同算法在北方大棚数据集和光伏数据集上的PR曲线。可以看出,通过结合边缘信息,本文的分割结果产生了较为清晰的边缘信息和更加精确的定位,在大多数阈值下均优于其他方法。

图 8 不同算法在两个数据集上的PR曲线
Fig. 8 PR curves for all evaluated methods on two datasets
((a) northern greenhouse dataset; (b) photovoltaic panel dataset)

3.4 消融实验与分析

为了研究网络结构中不同组件的效果,在提出的数据集合上进行消融实验。表 3是不同组件组合在两个数据集上的MAE。可以看出,本文模型包含所有组件(即RCU,基于SC的特征融合(feature fusion based on short connection, FFSC),边缘损失增强模块(edge loss enhancement module, EL)),达到了最佳性能,表明要获得最佳的地物分割结果,所有组件都是必需的。

表 3 不同组件组合在两个数据集上的MAE
Table 3 MAE of different component combinations on two datasets

下载CSV
网络结构 北方大棚数据集 光伏数据集
基本网络 0.204 4 0.075 6
基本网络+RCU 0.140 2 0.052 6
基本网络+RCU+FFSC 0.084 8 0.040 2
基本网络+RCU+FFSC+EL 0.079 1 0.036 2
注:加粗字体为每列最优结果。

对于北方大棚数据集,首先使用RCF网络作为基本模型,此时MAE为0.204 4。然后网络将RCU添加到基本模型中,得到了MAE的下降。在此基础上,利用SC结构融合网络的多尺度特征,MAE与基本模型相比下降了59%。最后在模型中添加了边缘损失增强结构并获得了最佳效果,MAE在基本模型的基础上下降了61%。

4 结论

由于复杂的视觉特征和干扰物与目标高度的相似性,遥感影像的语义分割一直是极具挑战性的任务。本文提出了一个新的端到端语义分割网络,通过引入多个加权的边缘损失增强结构,网络可以更好地保留空间边界信息,对分割支路和边缘支路进行网络各阶段之间的特征融合,利用RCU结构联合回归分割和边缘结果。为了验证提出的边缘损失增强地物分割算法的有效性,本文提出并制作了中国北方大棚遥感影像数据集和光伏数据集,为相关地物分割方法的研究提供验证基础。这两个数据集集合分别由中国北方地区的多幅大棚遥感影像和Google Earth上的光伏板组件遥感影像经过逐像素级别的人工标记、图像裁剪而得,并进行了训练集、验证集和测试集的划分。实验结果表明,在中国北方大棚数据集上,边缘损失增强地物分割网络的MAE达到了0.079 1,遥感影像地物分割性能显著提高,所提方法取得了更好的分割结果。

从实验结果看,边缘对语义分割效果的提升是有限的。随着网络层数逐渐变深,较低分辨率的特征图的细节信息越来越少,对深层特征进行边缘检测往往无法获得目标清晰完整的边界。在今后的工作中,将考虑仅选取浅层网络添加边缘损失增强结构,用浅层丰富的细节边界信息去约束网络各阶段的地物分割,以取得更好的分割精度。

参考文献

  • Arnab A, Jayasumana S, Zheng S and Torr P H S. 2016. Higher order conditional random fields in deep neural networks//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer: 524-540[DOI: 10.1007/978-3-319-46475-6_33]
  • Badrinarayanan V, Kendall A, Cipolla R. 2017. SegNet: a deep convolutional encoder-decoder architecture for image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(12): 2481-2495 [DOI:10.1109/TPAMI.2016.2644615]
  • Chen L C, Barron J T, Papandreou G, Murphy K and Yuille A L. 2016. Semantic image segmentation with task-specific edge detection using CNNs and a discriminatively trained domain transform//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 4545-4554[DOI: 10.1109/CVPR.2016.492]
  • Chen L C, Zhu U K, Papandreou G, Schroff F and Adam H. 2018. Encoder-decoder with atrous separable convolution for semantic image segmentation//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 833-851[DOI: 10.1007/978-3-030-01234-2_49]
  • Cheng G, Han J W. 2016. A survey on object detection in optical remote sensing images. ISPRS Journal of Photogrammetry and Remote Sensing, 117: 11-28 [DOI:10.1016/j.isprsjprs.2016.03.014]
  • Deng J, Dong W, Socher R, Li L J, Li K and Li F F. 2009. ImageNet: a large-scale hierarchical image database//Proceedings of 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Miami, USA: IEEE: 248-255[DOI: 10.1109/CVPR.2009.5206848]
  • Fu J, Liu J, Tian H J, Li Y, Bao Y J, Fang Z W and Lu H Q. 2019. Dual attention network for scene segmentation//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 3146-3154[DOI: 10.1109/CVPR.2019.00326]
  • Glorot X, Bordes A and Bengio Y. 2011. Deep sparse rectifier neural networks//Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Fort Lauderdale, USA: 315-323
  • Hou Q B, Cheng M M, Hu X W, Tu Z W and Torr P H S. 2017. Deeply supervised salient object detection with short connections//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 5300-5309[DOI: 10.1109/CVPR.2017.563]
  • Hu J, Shen L and Sun G. 2018. Squeeze-and-excitation networks//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 7132-7141[DOI: 10.1109/CVPR.2018.00745]
  • Ladický L, Russell C, Kohli P and Torr P H S. 2009. Associative hierarchical CRFs for object class image segmentation//Proceedings of 2009 IEEE International Conference on Computer Vision. Kyoto, Japan: IEEE: 739-746[DOI: 10.1109/ICCV.2009.5459248]
  • Li X, Tang W L, Yang B. 2019. Semantic segmentation of high-resolution remote sensing image based on deep residual network. Journal of Applied Sciences, 37(2): 282-290 (李欣, 唐文莉, 杨博. 2019. 利用深度残差网络的高分遥感影像语义分割. 应用科学学报, 37(2): 282-290) [DOI:10.3969/j.issn.0255-8297.2019.02.013]
  • Lin G S, Milan A, Shen C H and Reid I. 2017a. RefineNet: multi-path refinement networks for high-resolution semantic segmentation//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 5168-5177[DOI: 10.1109/CVPR.2017.549]
  • Lin T Y, Dollár P, Girshick R B, He K M, Hariharan B and Belongie S J. 2017b. Feature pyramid networks for object detection//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 936-944[DOI: 10.1109/CVPR.2017.106]
  • Liu J J, Hou Q B, Cheng M M, Feng J S and Jiang J M. 2019. A simple pooling-based design for real-time salient object detection//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 3912-3921[DOI: 10.1109/CVPR.2019.00404]
  • Liu Y, Cheng M M, Hu X W, Wang K and Bai X. 2017. Richer convolutional features for edge detection//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 5872-5881[DOI: 10.1109/CVPR.2017.622]
  • Long J, Shelhamer E and Darrell T. 2015. Fully convolutional networks for semantic segmentation//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 3431-3440[DOI: 10.1109/CVPR.2015.7298965]
  • Marmanis D, Schindler K, Wegner J D, Galliani S, Datcu M, Stilla U. 2018. Classification with an edge: improving semantic image segmentation with boundary detection. ISPRS Journal of Photogrammetry and Remote Sensing, 135: 158-172 [DOI:10.1016/j.isprsjprs.2017.11.009]
  • Mostajabi M, Yadollahpour P and Shakhnarovich G. 2015. Feedforward semantic segmentation with zoom-out features//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 3376-3385[DOI: 10.1109/CVPR.2015.7298959]
  • Ronneberger O, Fischer P and Brox T. 2015. U-Net: convolutional networks for biomedical image segmentation//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer: 234-241[DOI: 10.1007/978-3-319-24574-4_28]
  • Simonyan K and Zisserman A. 2014. Very deep convolutional networks for large-scale image recognition[EB/OL].[2019-11-10]. https://arxiv.org/pdf/1409.1556v1.pdf
  • Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez A N, Kaiser L and Polosukhin I. 2017. Attention is all you need//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: ACM: 6000-6010
  • Xie S N and Tu Z W. 2015. Holistically-nested edge detection//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 1395-1403[DOI: 10.1109/ICCV.2015.164]