Print

发布时间: 2022-08-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210054
2022 | Volume 27 | Number 8




    遥感图像处理    




  <<上一篇 




  下一篇>> 





多源特征自适应融合网络的高分遥感影像语义分割
expand article info 张文凯1,2, 刘文杰1,2,3,4, 孙显1,2, 许光銮1,2, 付琨1,2
1. 中国科学院空天信息创新研究院, 北京 100190;
2. 中国科学院网络信息体系重点实验室,北京 100190;
3. 中国科学院大学,北京 100190;
4. 中国科学院大学电子电气与通信工程学院,北京 100190

摘要

目的 在高分辨率遥感影像语义分割任务中,仅利用可见光图像很难区分光谱特征相似的区域(如草坪和树、道路和建筑物),高程信息的引入可以显著改善分类结果。然而,可见光图像与高程数据的特征分布差异较大,简单的级联或相加的融合方式不能有效处理两种模态融合时的噪声,使得融合效果不佳。因此如何有效地融合多模态特征成为遥感语义分割的关键问题。针对这一问题,本文提出了一个多源特征自适应融合模型。方法 通过像素的目标类别以及上下文信息动态融合模态特征,减弱融合噪声影响,有效利用多模态数据的互补信息。该模型主要包含3个部分:双编码器负责提取光谱和高程模态的特征;模态自适应融合模块协同处理多模态特征,依据像素的目标类别以及上下文信息动态地利用高程信息强化光谱特征,使得网络可以针对特定的对象类别或者特定的空间位置来选择特定模态网络的特征信息;全局上下文聚合模块,从空间和通道角度进行全局上下文建模以获得更丰富的特征表示。结果 对实验结果进行定性、定量相结合的评价。定性结果中,本文算法获取的分割结果更加精细化。定量结果中,在ISPRS(International Society for Photogrammetry and Remote Sensing)Vaihingen和GID(Gaofen Image Dataset)数据集上对本文模型进行评估,分别达到了90.77%、82.1%的总体精度。与DeepLab V3+、PSPNet(pyramid scene parsing network)等算法相比,本文算法明显更优。结论 实验结果表明,本文提出的多源特征自适应融合网络可以有效地进行模态特征融合,更加高效地建模全局上下文关系,可以广泛应用于遥感领域。

关键词

语义分割; 遥感影像; 多模态; 模态自适应融合; 全局上下文聚合

Multi-source features adaptation fusion network for semantic segmentation in high-resolution remote sensing images
expand article info Zhang Wenkai1,2, Liu Wenjie1,2,3,4, Sun Xian1,2, Xu Guangluan1,2, Fu Kun1,2
1. Aerospace Information Research Institute, Chinese Academy of Sciences, Beijing 100190, China;
2. The Key Laboratory of Network Information System Technology (NIST), Chinese Academy of Sciences, Beijing 100190, China;
3. University of Chinese Academy of Sciences, Beijing 100190, China;
4. School of Electronic, Electrical and Communication Engineering, University of Chinese Academy of Sciences, Beijing 100190, China
Supported by: National Natural Science Foundation of China (61725105)

Abstract

Objective In the semantic segmentation of high-resolution remote sensing images, it is difficult to distinguish regions with similar spectral features (such as lawn and trees, roads and buildings) only using visible images for their single-angles. Most of the existing neural network-based methods focus on spectral and contextual feature extraction through a single encoder-decoder network, while geometric features are often not fully mined. The introduction of elevation information can improve the classification results significantly. However, the feature distribution of visible image and elevation data is quite different. Multiple modal flow features cascading simply fails to utilize the complementary information of multimodal data in the early, intermediate and latter stages of the network structure. The simple fusion methods by cascading or adding cannot deal with the noise generated by multimodal fusion clearly, which makes the result poor. In addition, high-resolution remote sensing images usually cover a large area, and the target objects have problems of diverse sizes and uneven distribution. Current researches has involved to model long-range relationships to extract contextual features. Method We proposed a multi-source features adaptation fusion network in our researchanalysis. In order to dynamically recalibrate the scene contexted feature maps, we utilize the modal adaptive fusion block to model the correlations explicitly between the two modal feature maps. To release the influence of fusion noise and utilize the complementary information of multi-modal data effectively, modal features are fused by the target categories and context information of pixels in motion. Meanwhile, the global context aggregation module is facilitated to improve the feature demonstration ability of the full convolutional neural network through modeling the remote relationship between pixels. Our model consists of three aspects as mentioned below: 1)the double encoder is responsible for extracting the features of spectrum modality and elevation modality; 2)the modality adaptation fusion block is coordinated to the multi-modal features to enhance the spectral features based on the dynamic elevation information; 3) the global context aggregation module is used to model the global context from the perspective of space and channel. Result Our efficiency unimodal segmentation architecture (EUSA) is evaluated on the International Society for Photogrammetry and Remote Sensing(ISPRS) Vaihingen and Gaofen Image Dataset(GID) validation set, and the overall accuracy is 90.64% and 82.1%, respectively. Specifically, EUSA optimizes the overall accuracy value and mean intersection over union value by 1.55% and 3.05% respectively in comparison with the value of baseline via introducing a small amount of parameters and computation on ISPRS Vaihingen test set. This proposed modal adaptive block increases the overall accuracy value and mean intersection over union value of 1.32% and 2.33% each on ISPRS Vaihingen test set. Our MSFAFNet has its priorities in terms of the ISPRS Vaihingen test set evaluation, which achieves 90.77% in overall accuracy. Conclusion Our experimental results show that the efficient single-mode segmentation framework EUSA can model the long-range contextual relationships between pixels. To improve the segmentation results of regions in the shadow or with similar textures, we proposed MSFAFNet to extract more effectivefeatures of elevation information.

Key words

semantic segmentation; remote sensing images; multi-modal data; modality adaptation fusion; global context aggregation

0 引言

随着高分辨率对地观测系统重大专项的推进,高分辨率遥感影像语义分割在战场环境构建、环境监测以及国土规划、城市规划等方面扮演着重要的角色,一直是遥感领域中一个长期研究的课题。与遥感场景中的目标检测和分类不同,遥感影像语义分割旨在将语义标签分配给图像中的每个像素。传统的基于手工特征的分割算法由于其有限的特征表达能力,导致模型训练泛化能力不强。

近年来,深度卷积神经网络(LeCun等,1989)在语义分割等计算机视觉任务中展示了卓越的特征学习能力,并且在自然场景的分割任务中也取得了许多重大突破。Long等人(2015)提出的全卷积神经网络(fully convolutional network,FCN)可以在可变大小的图像上以端到端的方式训练深层网络进行语义分割,在语义分割领域具有开创性的意义。受FCN的启发,提出了各种结构和方法以进一步增强语义分割性能,典型的网络如SegNet(Badrinarayanan等,2017)、PSPNet(pyramid scene parsing network)(Zhao等,2017)和DeepLab(Chen等,2018)等。其中,SegNet设计了编码器—解码器结构,通过编码器提取特征并下采样特征图尺寸,再利用解码器恢复低分辨率的特征映射,来获取更精细的分割结果。PSPNet通过金字塔池化模块引入更多的上下文信息,从而对尺度较大或较小的目标具有更好的识别效果。DeepLab V3+采用空洞卷积,在不增加参数数量的前提下增大感受野,更好地提取图像特征。

与此同时,自然场景中语义分割任务取得的巨大突破也极大地鼓舞了语义分割在遥感领域的研究。然而,与自然场景可见光图像不同,遥感影像具有复杂的光谱特性,并且目标多样、分布不均衡,这给遥感影像语义分割带来了一定挑战。目前遥感场景语义分割主要存在两大挑战:1)遥感地物形态多样、尺度差异大,解译困难;2)光谱特征相近但属于不同类别的物体难以区分(如草坪和树、道路和屋顶)。

针对挑战1),许多研究表明,上下文语义建模能够为语义分割任务提供重要的线索,可以很好地解决遥感场景中目标种类繁多、尺度差异大等问题。其中一个重要的方向就是在预先训练的神经网络的顶部应用新的层,集成更多的上下文信息以扩大其有效感受野,达到精细化分割物体。捕获上下文依赖主要有3种途径:1)基于多尺度信息的上下文建模。PSPNet采用金字塔池化模块将特征图划分成不同的尺度区域,通过平均每个区域的像素作为该区域中每个像素的局部上下文信息。DeepLab V3+网络中引入了一个空洞空间金字塔池(atrous spatial pyramid pooling,ASPP)以在多个尺度上捕获有用的上下文信息。基于多尺度信息的上下文建模是基于卷积和池化(非全局池化)等局部操作的,直接重复卷积层在计算上效率低下且难以优化,因而这种模型往往很难捕捉到实体之间的长距离空间关系。2)基于图形模型的上下文建模。为了获得更好的语义分割效果,有很多基于图形模型的方法被采用。例如,在DeepLab V3+中的工作使用条件随机场(conditional random field,CRF)作为后处理,以生成更平滑的预测图。Zheng等人(2015)Liu等人(2015)进一步使CRF模块可微,并将其集成为网络内的联合训练部分。然而,这些方法对外观的变化很敏感,并且由于需要迭代推理过程而代价高昂。3)基于自注意力机制的上下文建模。DANet(dual attention network)(Fu等,2019)和CCNet(criss-cross network)(Huang等,2019)利用非局部块思想通过模拟像素级的成对关系来聚集远程空间信息。但是过高的计算成本和大量的GPU内存占用阻碍了它在许多实际应用中的使用。为了在有效建模上下文信息的同时有较低的算法复杂度,相比于上述方法,本文设计了一个轻量化的全局上下文聚合模块。该模块从空间和通道两个维度,通过建模图像中像素点之间的远程关系来捕获关系增强的特征表示,进一步提升高分辨率遥感影像语义分割效果。

针对挑战2),由于单一模态数据的特征表达能力有限,当面对光谱特征相似的地物时(如草坪和树、道路和屋顶),仅利用可见光图像很难进行区分。一个直接方法是显式地将几何相关数据(如数字表面模型(digital surface model,DSM))作为附加输入进行多源数据融合(Qin和Fang,2014Marcos等,2018Cao等,2019)。按照特征融合的先后顺序,这些方法可以分为早期融合、中期融合和后期融合。一种直观的早期融合技术是将来自多个模式的数据按通道方向进行叠加,并将其作为4个或6个通道数据输入到网络。Marcos等人(2018)简单地结合了近红外、红绿(infrared、red、green,IRRG)光谱和数字表面模型(DSM)作为网络的输入,这种图像级融合方法由于没有充分利用异构信息之间的关系,会在训练中引入冗余特征。中期融合的方法,又称为分层融合,结合了来自不同层次的多模态特定编码器的特征映射(通常在每个下采样阶段),并使用单个解码器对融合后的特征进行上采样。Marmanis等人(2016)设计并行分支网络来提取IRRG图像和DSM数据特征,并在中间层进行模态特征交互,但这种庞大的结构带来了大量的参数,对硬件的要求较高,并且在训练和推理阶段会耗费大量时间。后期融合的方法通常设计相同的网络流,首先在特定的模式下单独训练,然后使用级联或元素级求和将特征映射融合到网络的末端,典型的代表有V-FuseNet(Audebert等,2018),使用两个卷积神经网络(convolutional neural networks,CNNs)分别对光谱数据和DSM数据进行处理,并采用元素相加的方式进行融合。这种级联或者相加的融合方式并不能使网络适应不断变化的场景上下文。总之,由于可见光和高程数据的特征分布在不同场景中差异较大,简单地在网络结构的早期、中期和后期对多个模态流特征进行级联,未能有效利用多模态数据的互补信息。为了更好地解决这一问题,本文提出了一个多源特征自适应融合网络,如图 1所示,它利用两个主干网络分别提取了IRRG光谱图像特征和DSM高程信息特征。为了根据输入的场景上下文动态地重新校准特征映射,本文利用模态自适应融合块显式地建模两个模态特征映射之间的相关性,将高程信息应用到光谱通道中,进一步强化目标的类间相似性;同时避免了引入大量冗余特征,减少噪声的影响。

图 1 多源特征自适应融合网络的整体框架
Fig. 1 The pipeline of the proposed MSFAFNet

综上所述,本文的主要贡献概述如下:

1) 提出了一个多源特征自适应融合网络模型(multi-source features adaptation fusion network,MSFAFNet),同时利用光谱信息和DSM信息来提高高分辨率遥感图像的分割性能。

2) 提出了一种模态自适应融合模块(modality adaptation fusion block,MAB),该模块依据像素的目标类别以及上下文信息动态地进行特征融合,从而有效地将DSM特征融合到光谱特征中。

3) 提出了一个高效的全局上下文聚合模块(global context aggregation module, GCAM),从空间和通道角度对全局上下文进行建模。

4) 在公开的ISPRS(International Society for Photogrammetry and Remote Sensing) Vaihingen数据集和高分卫星GID(Gaofen Image Dataset)数据集上与当前算法进行对比,实验结果表明,本文提出的MSFAFNet在不进行任何后处理操作的情况下可以获得良好的结果。

1 研究方法

1.1 多源特征自适应融合网络

基于多源特征自适应融合的遥感影像语义分割网络整体框架如图 1所示,它基于两个高效的单模态语义分割框架(efficient unimodal segmentation architecture,EUSA),主要包含负责IRRG光谱特征提取的下分支、负责DSM高程特征提取的上分支、模态自适应融合块、全局上下文聚合模块以及分类器5个部分。网络采用双输入模式,本文以IRRG光谱图像和归一化DSM图像作为输入,分别通过不同参数的ResNet101(He等,2016)网络来提取可见光图像的光谱特征和深度图像的几何特征。与DANet(Fu等,2019)和CCNet(Huang等,2019)工作类似,本文网络首先在ImageNet数据集上进行预训练,然后通过去除主干网络第3阶段和第4阶段的最后两个下采样操作,使用空洞卷积(Chen等,2018)来保持输出特征为原始输入图像1/8的空间分辨率。

然后经过模态自适应融合块显式地建模两个模态特征映射之间的相关性,以便根据输入的场景上下文动态地重新校准特征映射。这一过程将DSM图像所包含的高程信息与IRRG图像所提取的光谱特征依据像素的目标类别以及上下文信息动态地进行模态特征融合。通过合理地将高程信息应用到光谱通道中,进一步增大了地物目标类间相似性;同时避免了引入大量冗余特征,减少噪声的影响。

最后综合考虑分割精度与内存资源消耗,本文引入了轻量化的全局上下文聚合模块,在空间和通道维度对融合后的特征信息进行全局上下文建模,最后通过上采样操作得到最终的分割结果。

1.2 模态自适应融合块

在高分辨率遥感图像中存在许多相似视觉特征的地物类别,例如草坪和树林、屋顶和道路等。仅使用多光谱数据的基线网络FCN在分辨相似的地物时往往会出现区域误判,研究发现误判的主要原因是单一模态数据特征表达能力有限。为解决此问题,需要对IRRG图像特征和DSM数据特征进行很好地融合。

为了自适应地重新校准和融合来自特定模态网络的特征,本文提出了一种新的结构单元——模态自适应融合块。模态自适应融合块是在IRRG图像特征和DSM数据特征融合前,显式地建模两个模态特征映射之间的相关性,以便根据输入的场景上下文动态地重新校准特征映射。网络通过学习来利用两种模态的互补特征,通过合理地将高程信息应用到光谱通道中,进一步增大了地物目标类间相似性;同时避免了引入大量冗余特征,减少噪声的影响。本文利用卷积操作来构建模态自适应融合块,使得网络可以针对特定的对象类别或者空间位置来选择特定模态网络的特征信息。

模态自适应融合块如图 2所示。本文假设$ \mathit{\boldsymbol{T}} = \left\{ {\left({{\mathit{\boldsymbol{A}}_n}, {\mathit{\boldsymbol{B}}_n}, {\mathit{\boldsymbol{D}}_n}} \right)\mid n = 1, \cdots, N} \right\}$表示多模态语义分割训练集,其中,${\mathit{\boldsymbol{A}}_n} = \left\{ {{\mathit{\boldsymbol{a}}_r}\mid r = 1, \cdots, p} \right\} $代表模态${\rm{IRRG}}, {\mathit{\boldsymbol{B}}_n} = \left\{ {{b_r}\mid r = 1, \cdots, p} \right\} $代表模态${\rm{DSM}}, {\mathit{\boldsymbol{D}}_n} = \left\{ {{\mathit{\boldsymbol{d}}_r}\mid r = 1, \cdots, p} \right\} $表示真值,这里${{\mathit{\boldsymbol{d}}_r}} $取值为$\left\{ {1, \cdots, C} \right\} $表示数据集的语义类别。假设${\mathit{\boldsymbol{X}}^a} \in {{\bf{R}}^{C \times H \times W}} $, $\boldsymbol{X}^{b} \in \mathbf{R}^{C \times H \times W} $分别代表模态IRRG和模态DSM的输入,其中, $ C$表示特征通道数,$ H \times W$代表输入图像大小。

图 2 模态自适应融合块
Fig. 2 Modality adaptation fusion block

本文设计的模态自适应融合块可以利用下面步骤实现:

1) $\boldsymbol{X}^{a}, \boldsymbol{X}^{b} $经过简单连接得到$ \boldsymbol{X}^{a b}$

2) 将$\boldsymbol{X}^{a b} $连续通过两个3×3的卷积层,具体为

$ \begin{gathered} \boldsymbol{s}=F\left(\boldsymbol{X}^{a b} ; \boldsymbol{W}\right)=\sigma\left(g\left(\boldsymbol{X}^{a b} ; \boldsymbol{W}\right)\right)= \\ \sigma\left(\boldsymbol{W}_{2} \delta\left(\boldsymbol{W}_{1} \boldsymbol{X}^{a b}\right)\right) \end{gathered} $ (1)

式中,$ F(\cdot)$表示对级联后的特征$ \boldsymbol{X}^{a b}$进行重新校准,旨在适应融合前的特征映射, $g() $表示对特征的嵌入学习。其中第1个卷积层权重为$ \boldsymbol{W}_{1}$,非线性函数$\delta(\cdot) $采用的是ReLU函数;第2个卷积层权重为$\boldsymbol{W}_{2} $,这里$\sigma(\cdot) $采用Sigmoid函数,目的是将激活的动态范围缩放到[0,1]区间。

3) 利用上述得到的$\boldsymbol{S} $$\boldsymbol{X}^{a} $进行加权,即

$ \boldsymbol{X}_{f}^{a}=F_{s}\left(\boldsymbol{X}^{a} ; \boldsymbol{s}\right)=\boldsymbol{s} \otimes \boldsymbol{X}^{a} $ (2)

式中,$F_{s} $表示$\boldsymbol{S} $$ \boldsymbol{X}^{a}$进行加权的函数,$ \otimes$表示对$ \boldsymbol{X}^{a}$$\boldsymbol{S} $进行哈达玛乘积。最后经过一个权重为$ \boldsymbol{W}_{3}$的3×3的卷积层和一个batch normalization层,得到最终的融合结果,即

$ \boldsymbol{X}_{f}=G\left(\boldsymbol{X}_{f}^{a} ; \boldsymbol{W}\right)=\boldsymbol{W}_{3} \boldsymbol{X}_{f}^{a} $ (3)

式中,$G $表示融合操作函数,$ \boldsymbol{X}_{f} \in \mathbf{R}^{C \times H \times W}$表示模态IRRG与DSM最终融合后的特征表示。

1.3 全局上下文聚合模块

本文提出了一个新的全局上下文建模框架,称为全局上下文聚合模块,如图 3所示。它结合了非局部块(Wang等,2018)和压缩激励块(squeeze-and-excita-tion, SE)(Hu等,2020)的优点,具体包括了3个部分:上下文建模、特征变换以及最终的融合模块。整体流程表示为

图 3 全局上下文聚合模块
Fig. 3 Global context aggregation module

$ \boldsymbol{y}_{i}=F\left(\boldsymbol{x}_{i}, t\left(\sum\limits_{j=1}^{N} \boldsymbol{w}_{j} \boldsymbol{x}_{j}\right)\right) $ (4)

式中,$\sum\limits_{j=1}^{N} \boldsymbol{w}_{j} \boldsymbol{x}_{j}$代表上下文模型,该算法通过权重对每个位置的特征进行加权,进而获得全局上下文特征。$t(\cdot) $表示用于捕获信道相关性的特征转换。$F(\cdot) $则为全局上下文特征聚合到每个位置的融合函数。

全局上下文聚合模块可以抽象为3个部分:1)利用非局部块的思想建模全局上下文信息。在SE(Hu等,2020)的工作中利用全局平均池化的方式来对全局上下文信息进行建模,这种方式对于像素点之间的远程依赖性建模不足。本文的全局上下文聚合模块利用非局部块的思想,通过将全局上下文信息添加到所有位置来捕获远程依赖。2)利用轻量化的瓶颈变换模块来进行特征变换。非局部块中的变换模块是一个1×1卷积层,通常高层特征的通道数数目庞大,这使得变换模块具有大量的参数。为了获得轻量化特性,本文利用SE(Hu等,2020)中的瓶颈变换模块来代替1×1卷积。首先通过一个1×1卷积将通道数降为$\mathit{C}/\mathit{r}$,然后采用了layer normalization,极大地简化了两层瓶颈转换结构的优化,最后再通过一个1×1卷积将通道数升为$ C$。最终该模块将参数数目从$ C \times C$显著减少到$2 \times C \times C / r $,其中$ r$是瓶颈比率,$\mathit{C}/\mathit{r}$表示瓶颈的隐藏维数。Sigmoid函数的主要目的是计算每个通道之间的重要程度。3)利用融合模块(按元素相乘)重新校准通道特征。

2 实验与分析

2.1 数据集介绍

2.1.1 ISPRS Vaihingen数据集

为了分析MSFAFNet及其在包含多光谱信息和DSM信息的高分辨率遥感影像中的性能,本文在公开的ISPRS Vaihingen数据集上进行实验。该数据集包含33幅IRRG正射影像和相应的DSM数据,影像和DSM数据分辨率均为9 cm,其中每幅影像均包含6个类别,即不透明表面、建筑物、低植被、树、汽车和杂波/背景。图 4展示了ISPRS Vaihingen数据集样例,从左至右分别是正射影像、DSM图和真值标签。

图 4 ISPRS Vaihingen数据集样例
Fig. 4 ISPRS Vaihingen sample dataset
((a)true orthophoto; (b) DSM; (c) ground truth)

实验时选择其中的16幅影像用于训练,剩余的17幅影像用于测试。为了消除地形或地面的影响,本文对DSM进行归一化处理。针对GPU有限的资源,对所有训练图像和标签随机裁剪为512×512像素,并对所有的裁剪切片进行旋转、翻转和尺度变换等数据增强操作。

2.1.2 GID数据集

GID数据集是由高分2号卫星数据(GF-2)构建的大规模地表覆盖数据集,有效空间分辨率为1 m,且每幅图像尺寸为7 200×6 800像素,由于其覆盖范围大、分布广、空间分辨率高,比现有的地表覆盖数据集具有更大的优势。在GID的大规模分类集中,共标注了6个主要类别:建筑物、农田、森林、草地、水域以及背景区域,分别用6种不同颜色标记:红色、绿色、青色、黄色、蓝色和黑色。图 5展示了GID图像的实例及其相应的标签。

图 5 GID图像的实例及其相应的标签
Fig. 5 Examples of GF-2 images and their corresponding ground truth
((a)true orthophoto; (b) ground truth)

实验时选择GID数据集中的11幅影像用于训练,另外选择8幅影像用于测试。针对GPU有限的资源,对所有训练图像和标签随机裁剪为512×512像素,并对所有的裁剪切片进行旋转、翻转和尺度变换等数据增强操作。

2.2 评价指标

为了评估本文网络的性能,使用计算前景对象类的$ F_{1}$分数,即

$ F_{1}=1 \times \beta^{2} \times \frac{p c \times r c}{\beta^{2} \times p c+r c} $ (5)

式中,$\beta $通常设置为1。$p c $表示准确率,$ r c$则表示召回率。交并比(intersection over union, IoU)和整体精度(overall accuracy, OA)分别定义为

$ I O U=\frac{T P}{T P+F P+F N} $ (6)

$ O A=\frac{T P+T N}{T P+F P+F N} $ (7)

式中,$T P, T N, F P $$F N $分别代表真正类(true positive)、真负类(true negative)、假正类(false positive)以及假负类(false negative)。值得注意的是,为了与不同模型进行全面比较,本文计算了所有类别(包括背景)的总体精度。在验证集上,本文使用带有侵蚀边界的地面真实情况进行评估。

2.3 实验细节

本文使用在ImageNet上预训练的ResNet-101作为主干网络,并采用了poly学习率策略——训练过程中每进行一次迭代,学习率就乘以$1 - {\left({\frac{i}{{{\rm{ma}}{{\rm{x}}_ - }i}}} \right)^P}, i $为迭代次数,$ {{\rm{ma}}{{\rm{x}}_ - }i}$为最大迭代次数,设为80 k;其中$ p$为power,设为0.9。初始学习率设为0.01,动量和重量衰减系数分别设置为0.9和0.000 5。利用InPlace-ABNSync来代替标准的BatchNorm,以便在多个GPU上同步BatchNorm的平均值和标准偏差。为了对训练数据进行增强,本文在所有影像上应用随机水平翻转、随机缩放(0.5~2.0)和随机裁剪,并将所有数据的输入尺寸裁剪为512×512像素。本文在2块NVIDIA TITAN RTX GPU进行80 k迭代,批量大小为16。

2.4 ISPRS Vaihingen数据集实验结果

为了验证模型的有效性,本文进行了3组实验: 全局上下文聚合模块的消融实验、融合方式实验以及与其他方法的对比实验,并分别评估了相应的模型。首先在单模态IRRG验证集上,对本文提出的全局上下文聚合模块进行了消融实验,并验证了本文模块的轻量化效果。接着在多模态验证集上,对本文提出的多模态自适应融合方式的有效性进行验证。最后基于ISPRS Vaihingen测试数据集,利用$F_{1} $分数、OA、mIoU(mean IoU)等指标与其他方法进行了比较。

2.4.1 全局上下文聚合模块的消融实验分析

为了验证本文提出的全局上下文聚合模块的有效性,本文与PPM (pyramid pooling module)、ASPP、NLB(non-local block)和SE上下文聚合方法进行了比较,输入相同的采用单模IRRG的光谱图像,评估标准为OA值、mIoU、参数和计算量开销。其中参数和计算开销是针对增加的语义聚合模块进行计算的,在推断阶段,处理的特征尺寸为[1×2 048×64×64]。为公平起见,以上所有实验都是在相同的训练/测试环境下进行的,所有框架的主干网络采用ResNet101。基准实验Baseline不采用任何语义聚合策略,SE为压缩激励块,NLB_2为非局部块(下采样2),NLB为非局部块,ASPP为DeepLab V3+中的空洞空间金字塔池化模块,PPM为PSPNet中的金字塔池化模块。

表 1可知,提出的高效单模态语义分割框架EUSA(在Baseline的基础上增加了全局上下文聚合模块)在引入少量参数和计算量的前提下,$\mathrm{OA} $值和mIoU值相较于Baseline分别提高了1.55%和3.05%。此外,提出的全局上下文聚合模块相比于SE、非局部块、ASPP以及PPM而言,OA值分别提升了0.26%,0.2%,0.18%和0.22%;mIoU值分别提升了0.95%,0.65%,0.67%以及0.3%;并且参数量和计算量大大减少,表明了本文提出的全局上下文聚合模块的有效性。

表 1 全局上下文聚合模块与压缩激励块、非局部块、空洞空间金字塔池化块和金字塔池化块的比较
Table 1 Comparison with SE, NLB, ASPP and PPM

下载CSV
方法 输入 OA/% mIoU/% 计算量/G 参数量/M
Baseline IRRG 89.09 79.06
+ SE IRRG 90.38 81.16 4.308 5.245
+ NLB_2 IRRG 90.34 81.32 17.188 12.589
+ NLB IRRG 90.44 81.46 68.753 12.589
+ ASPP IRRG 90.46 81.44 62.277 15.204
+ PPM IRRG 90.42 81.81 77.394 23.069
+GCAM IRRG 90.64 82.11 4.308 5.247
注: 加粗字体表示各列最优结果, “—”表示该项为基准, “+”表示在基本方法上添加相应模块的对比实验。

2.4.2 融合方式实验分析

遥感场景中可见光图像和高程数据的特征分布差异较大,直接相加或者级联的多模态特征融合方式未能有效利用多模态数据的互补信息,相反会引入额外的冗余信息甚至噪声信息,不利于遥感影像的分割结果。为了根据输入的场景上下文动态地重新校准特征映射,本文设计了一个新的模态自适应融合模块。此外,进一步对不同模态的融合方式进行了对比实验,实验结果如表 2所示。其中Baseline仍为FCN,输入为单模IRRG图像;Add表示输入为IRRG和DSM图像,按元素相加的方式进行特征融合;Concat表示输入为IRRG和DSM图像,采用级联的方式进行特征融合;MAB则表示利用本文提出的模态自适应融合方式。正如表 2所示,本文提出的模态自适应块相比于Baseline在OA值和mIoU值分别提升了1.32%,2.33%。在同一主干网络ResNet101中,MAB与按元素相加的融合方式相比,OA值和mIoU值分别提升了0.24%和1.73%;MAB与在通道维度级联的方式相比,OA值和mIoU上分别提升了0.15%和2.28%。实验结果表明了本文提出的模态自适应块的有效性。

表 2 不同融合方式的对比
Table 2 Comparison of different fusion methods

下载CSV
方法 输入 OA/% mIoU/%
Baseline IRRG 89.09 79.06
Add IRRG+DSM 90.17 79.66
Concat IRRG+DSM 90.26 79.11
MAB (本文) IRRG+DSM 90.41 81.39
注: 加粗字体表示各列最优结果。

2.4.3 与其他方法的对比实验分析

图 6中,本文给出了ISPRS Vaihingen测试集语义分割结果示意图,可以看到用红色方块标记的颜色相似区域的分割结果比基准baseline得到的结果有明显的改善。

图 6 ISPRS Vaihingen测试集语义分割结果示意图
Fig. 6 Schematic of semantic segmentation results of ISPRS Vaihingen dataset
((a)IRRG images; (b)label images; (c)baseline; (d)MSFAFNet)

本文提出的MSFAFNet模型在ISPRS Vaihingen测试集上的定量性能分析如表 3所示。分别与IS-PRS Vaihingen挑战的其他最佳发布方法进行了比较,并将$ F_{1}$分数、全局精度以及平均交并比评价结果列在表 3中。值得注意的是,大多数方法都和本文一样采用ResNet101作为主干网络,正如表 3所示,本文的MSFAFNet模型比所有的比较方法获得了更好的性能,总体准确率为90.77%,$ F_{1}$平均得分为90.27%,mIoU为82.47%,其中每一类的$ F_{1}$得分几乎都是最高的。

表 3 多源特征自适应融合网络与其他方法的比较
Table 3 Comparison of MSFAFNet with state-of-the-art methods 

下载CSV
/%
方法 输入 不透明表面 建筑物 低植被 汽车 mean F1 OA mIoU
FCN IRRG 88.67 92.83 76.32 86.67 74.21 83.74 86.51 72.69
RoteEqNet IRRG+DSM 89.5 94.8 77.5 86.5 72.6 84.18 87.5
S-RA-FCN IRRG 91.47 94.97 80.63 88.57 87.05 88.54 89.23 79.76
DANet IRRG 91.63 95.02 83.25 88.87 87.16 89.19 89.85 80.53
V-FuseNet IRRG+DSM 91 94.4 84.5 89.9 86.3 89.42 90
DeepLabV3+ IRRG 92.65 95.09 84.29 89.52 86.47 89.57 90.56 81.47
PSPNet IRRG 92.69 95.57 84.32 89.32 88.24 90.03 90.66 82.09
EUSA IRRG 92.71 95.35 84.24 89.62 88.31 90.04 90.64 82.11
MSFAFNet IRRG+DSM 92.72 95.51 84.51 89.74 88.87 90.27 90.77 82.47
注: 加粗字体表示各列最优结果, “—”表示未考虑该指标。

2.5 GID数据集实验结果

本文在单模态可见光影像GID数据集上进行实验,以进一步评估高效单模态语义分割框架EUSA的有效性。根据经验,在GID数据集上采用与ISPRS Vaihingen数据集相同的训练和测试参数设置。与当前最优方法的比较如表 4所示,EUSA的总体准确率为82.11%,平均IoU为69.27%,尤其在建筑物、农田、草地以及水域达到了最优的效果。

表 4 高效单模语义分割框架与其他方法的比较
Table 4 Comparison of EUSA with state-of-the-art methods 

下载CSV
/%
方法 建筑物 农田 森林 草地 水域 背景 mean F1 OA mIoU
FCN 73.9 72.6 85.8 42.2 86.1 73.5 72.4 75.5 58.5
S-RA-FCN 71.2 79.7 87.3 61.4 88.9 75.4 77.3 78.5 63.9
DANet 77.4 74.9 86.9 66.0 86.6 77.2 78.2 78.9 64.7
PSPNet 80.6 79.9 90.3 62.5 88.8 78.4 80.0 81.3 67.7
DeepLabV3 81.6 81.0 89.1 62.4 89.6 78.9 80.5 81.9 68.2
EUSA 83.2 81.5 88.2 67.3 89.9 78.3 81.4 82.1 69.3
注: 加粗字体表示各列最优结果。

图 7中,本文给出了GID数据集语义分割结果示意图,可以看到用白色方块标记的颜色相似区域的分割结果比基准Baseline得到的结果有明显的改善。

图 7 GID数据集语义分割结果示意图
Fig. 7 Schematic of semantic segmentation results of GID dataset
((a) IRRG images; (b) label images; (c) baseline; (d) MSFAFNet)

3 结论

针对传统神经网络模型对遥感影像的几何特征没有进行充分挖掘以及像素点之间上下文关系建模不足等问题,本文提出了一个端到端的多源特征自适应融合网络MSFAFNet,在ResNet101的基础上引入高程支路对DSM数据的高程信息进行提取,并利用模态自适应融合块依据像素的目标类别以及上下文信息动态地进行模态特征融合以获取更具判别性的特征映射。通过引入多种模态遥感数据,利用多种模态间特征的互补特性来提取遥感场景中含有歧义的地物要素。本文在ISPRS Vaihingen数据集上进行了测试,结果表明MSFAFNet分割性能要优于其他经典的模型,实现了建筑物、道路等大物体以及汽车等小目标较为准确的分割。

此外,通过全局上下文聚合模块高效地对全局上下文进行了建模,在减少参数运算的同时,提高了分割准确率。在高分卫星GID数据集上对全局上下文聚合模块进行了测试,结果表明高效单模语义分割框架EUSA可以很好地建模像素之间的远程关系,在建筑物、农田、草地以及水域等类别上达到了最优的效果,且具有很好的泛化作用。

本文提出的MSFAFNet在提升分割性能的同时增加了大量的网络参数和计算复杂度。因而利用更加轻量级网络作为主干网络以及对多模态数据地物要素分类网络的其他结构进行相应的轻量化设计很有必要,后续工作将单个任务解耦为语义分割和高程估计两个任务,通过设计一个高程信息蒸馏的轻量级网络,从可见光影像中联合学习2D语义和3D几何特征,利用蒸馏的高程特征来进一步辅助语义分割结果。

致谢 衷心感谢德国摄影测量、遥感和地理信息学会(DGPF)提供Vaihingen数据集(http://www.ifp.uni-stuttgart.de/dgpf/DKEPAllg.html.),中国武汉大学提供的高分影像数据集(GID)。

参考文献

  • Audebert N, Le Saux B, Lefèvre S. 2018. Beyond RGB: very high resolution urban remote sensing with multimodal deep networks. ISPRS Journal of Photogrammetry and Remote Sensing, 140: 20-32 [DOI:10.1016/j.isprsjprs.2017.11.011]
  • Badrinarayanan V, Kendall A, Cipolla R. 2017. SegNet: a deep convolutional encoder-decoder architecture for image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(12): 2481-2495 [DOI:10.1109/TPAMI.2016.2644615]
  • Cao Z Y, Fu K, Lu X D, Diao W H, Sun H, Yan M L, Yu H F, Sun X. 2019. End-to-end DSM fusion networks for semantic segmentation in high-resolution aerial images. IEEE Geoscience and Remote Sensing Letters, 16(11): 1766-1770 [DOI:10.1109/LGRS.2019.2907009]
  • Chen L C, Zhu Y K, Papandreou G, Schroff F, Adam H. 2018. Encoder-decoder with atrous separable convolution for semantic image segmentation//Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany: Springer: 833-851 [DOI: 10.1007/978-3-030-01234-2_49]
  • Fu J, Liu J, Tian H J, Li Y, Bao Y J, Fang Z W, Lu H Q. 2019. Dual attention network for scene segmentation//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 3141-3149 [DOI: 10.1109/CVPR.2019.00326]
  • He K M, Zhang X Y, Ren S Q, Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 770-778 [DOI: 10.1109/CVPR.2016.90]
  • Hu J, Shen L, Albanie S, Sun G, Wu E H. 2020. Squeeze-and-excitation networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42(8): 2011-2023 [DOI:10.1109/TPA-MI.2019.2913372]
  • Huang Z L, Wang X G, Huang L C, Huang C, Wei Y C, Liu W Y. 2019. CCNet: criss-cross attention for semantic segmentation//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea (South): IEEE: 603-612 [DOI: 10.1109/ICCV.2019.00069]
  • LeCun Y, Boser B, Denker J S, Henderson D, Howard R E, Hubbard W, Jackel L D. 1989. Backpropagation applied to handwritten zip code recognition. Neural Computation, 1(4): 541-551 [DOI:10.1162/neco.1989.1.4.541]
  • Liu Z W, Li X X, Luo P, Loy C C, Tang X O. 2015. Semantic image segmentation via deep parsing network//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 1377-1385 [DOI: 10.1109/ICCV.2015.162]
  • Long J, Shelhamer E, Darrell T. 2015. Fully convolutional networks for semantic segmentation//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 3431-3440 [DOI: 10.1109/CVPR.2015.7298965]
  • Marcos D, Volpi M, Kellenberger B, Tuia D. 2018. Land cover mapping at very high resolution with rotation equivariant CNNs: towards small yet accurate models. ISPRS Journal of Photogrammetry and Remote Sensing, 145: 96-107 [DOI:10.1016/j.isprsjprs.2018.01.021]
  • Marmanis D, Wegner J D, Galliani S, Schindler K, Datcu M, Stilla U. 2016. Semantic segmentation of aerial images with an ensemble of CNSS. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, III-3: 473-480 [DOI:10.5194/isprs-annals-III-3-473-2016]
  • Qin R J, Fang W. 2014. A hierarchical building detection method for very high resolution remotely sensed images combined with DSM using graph cut optimization. Photogrammetric Engineering and Remote Sensing, 80(9): 873-883 [DOI:10.14358/PERS.80.9.000]
  • Wang X L, Girshick R, Gupta A, He K M. 2018. Non-local neural networks//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 7794-7803 [DOI: 10.1109/CVPR.2018.00813]
  • Zhao H S, Shi J P, Qi X J, Wang X G, Jia J Y. 2017. Pyramid scene parsing network//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 6230-6239 [DOI: 10.1109/CVPR.2017.660]
  • Zheng S, Jayasumana S, Romera-Paredes B, Vineet V, Su Z Z, Du D L, Huang C, Torr P H S. 2015. Conditional random fields as recurrent neural networks//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 1529-1537 [DOI: 10.1109/ICCV.2015.179]