发布时间: 2022-08-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210056
2022 | Volume 27 | Number 8

遥感图像处理

结合上下文编码与特征融合的SAR图像分割

范艺华^1,2, 董张玉^1,2,3, 杨学志^2,3,4

1. 合肥工业大学计算机与信息学院，合肥 230031;

2. 工业安全与应急技术安徽省重点实验室，合肥 230031;

3. 智能互联系统安徽省实验室，合肥 230031;

4. 合肥工业大学软件学院，合肥 230031

收稿日期: 2021-02-04; 修回日期: 2021-04-19; 预印本日期: 2021-04-26

基金项目: 安徽省重点研发计划资助(202004a07020030)

作者简介: 范艺华，1997年生，女，硕士研究生，主要研究方向为基于深度学习的遥感图像处理。E-mail: fanyihua_1@163.com
董张玉，通信作者，男，副教授，主要研究方向为数字信号处理和遥感图像处理。E-mail: dzyhfut@hfut.edu.cn
杨学志，男，教授，主要研究方向为图像处理。E-mail: xzyang@hfut.edu.cn
*通信作者: 董张玉 dzyhfut@hfut.edu.cn

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2022)08-2527-10

摘要

目的图像分割的中心任务是寻找更强大的特征表示，而合成孔径雷达(synthetic aperture radar，SAR)图像中斑点噪声阻碍特征提取。为加强对SAR图像特征的提取以及对特征充分利用，提出一种改进的全卷积分割网络。方法该网络遵循编码器—解码器结构，主要包括上下文编码模块和特征融合模块两部分。上下文编码模块(contextual encoder module，CEM)通过捕获局部上下文和通道上下文信息增强对图像的特征提取；特征融合模块(feature fusion module，FFM)提取高层特征中的全局上下文信息，将其嵌入低层特征，然后将增强的低层特征并入解码网络，提升特征图分辨率恢复的准确性。结果在两幅真实SAR图像上，采用5种基于全卷积神经网络的分割算法作为对比，并对CEM与CEM-FFM分别进行实验。结果显示，该网络分割结果的总体精度(overall accuracy，OA)、平均精度(average accuracy，AA)与Kappa系数比5种先进算法均有显著提升。其中，网络在OA上表现最好，CEM在两幅SAR图像上OA分别为91.082%和90.903%，较对比算法中性能最优者分别提高了0.948%和0.941%，证实了CEM的有效性。而CEM-FFM在CEM基础上又将结果分别提高了2.149%和2.390%，验证了FFM的有效性。结论本文提出的分割网络较其他方法对图像具有更强大的特征提取能力，且能更好地将低层特征中的空间信息与高层特征中的语义信息融合为一体，使得网络对特征的表征能力更强、图像分割结果更准确。

关键词

图像分割; 全卷积神经网络(FCN); 特征融合; 上下文信息; 合成孔径雷达(SAR)

The integrated contextual encoding and feature fusion SAR images segmentation method

Fan Yihua^1,2, Dong Zhangyu^1,2,3, Yang Xuezhi^2,3,4

1. College of Computer and Information, Hefei University of Technology, Hefei 230031, China;

2. Anhui Province Key Laboratory of Industry Safety and Emergency Technology, Hefei 230031, China;

3. Anhui Province Laboratory of Intelligent Interconnection System, Hefei 230031, China;

4. College of Software, Hefei University of Technology, Hefei 230031, China

Supported by: Key R&D Program of Anhui Province (202004a07020030)

Abstract

Objective Pixel-wise segmentation for synthetic aperture radar (SAR) images has been challenging due to the constraints of labeled SAR data, as well as the coherent speckle contextual information. Current semantic segmentation is challenged like existing algorithms as mentioned below: First, the ability to capture contextual information is insufficient. Some algorithms ignore contextual information or just focus on local spatial contextual information derived of a few pixels, and lack global spatial contextual information. Second, in order to improve the network performance, researchers are committed to developing the spatial dimension and ignoring the relationship between channels. Third, a neural network based high-level features extracted from the late layers are rich in semantic information and have blurred spatial details. A network based low-level features extraction contains more noise pixel-level information from the early layers. They are isolated from each other, so it is difficult to make full use of them. The most common ways are not efficient based on concatenate them or per-pixel addition. Method To solve these problems, a segmentation algorithm is proposed based on fully convolutional neural network (CNN). The whole network is based on the structure of encoder-decoder network. Our research facilitates a contextual encoding module and a feature fusion module for feature extraction and feature fusion. The different rates and channel attention mechanism based contextual encoding module consists of a residual connection, a standard convolution, two dilated convolutions. Among them, the residual connection is designed to neglect network degradation issues. Standard convolution is obtained by local features with 3 × 3 convolution kernel. After convolution, batch normalization and nonlinear activation function ReLU are connected to resist over-fitting. Dilated convolutions with 2 × 2 and 3 × 3 dilated rates extend the perception field and capture multi-scale features and local contextual features further. The channel attention mechanism learns the importance of each feature channel, enhances useful features in terms of this importance, inhibits features, and completes the modeling of the dependency between channels to obtain the context information of channels. First, the feature fusion module based global context features extraction is promoted, the in the high-level features. Specifically, the global average pooling suppresses each feature to a real number, which has a global perception field to some extent. Then, these numbers are embedding into the low-level features. The enhanced low-level features are transmitted to the decoding network, which can improve the effectiveness of up sampling. This module can greatly enhance its semantic representation with no the spatial information of low-level features loss, and improve the effectiveness of their integration. Our research carries out four contextual encoding modules and two feature fusion modules are stacked in the whole network. Result We demonstrated seven experimental schemes. In the first scheme, contextual encoder module (CEM) is used as the encoder block only; In the second scheme, we combined the CEM and the feature fusion module (FFM); the rest of them are five related methods like SegNet, U-Net, pyramid scene parsing network (PSPNet), FCN-DK3 and context-aware encoder network(CAEN). Our two real SAR images experiments contain a wealth of information scene experiment are Radarsat-2 Flevoland (RS2-Flevoland) and Radarsat-2 San-Francisco-Bay (RS2-SF-Bay). The option of overall accuracy (OA), average accuracy (AA) and Kappa coefficient is as the evaluation criteria. The OA of the CEM algorithm on the two real SAR images is 91.082% and 90.903% respectively in comparison to the five advanced algorithms mentioned above. The CEM-FFM algorithm increased 2.149% and 2.390% compare to CEM algorithm. Conclusion Our illustration designs a CNN based semantic segmentation algorithm. It is composed of two aspects of contextual encoding module and feature fusion module. The experiments have their priorities of the proposed method with other related algorithms. Our proposed segmentation network has stronger feature extraction ability, and integrates low-level features and high-level features greatly, which improves the feature representation ability of the stable network and more accurate results of image segmentation.

Key words

image segmentation; fully convolutional network (FCN); feature fusion; contextual information; synthetic aperture radar (SAR)

0 引言

合成孔径雷达(synthetic aperture radar，SAR)具有全天时、全天候的特点，在对地观测、土地利用和灾害监测等领域具有独特优势(Moreira等，2013)。因此，SAR图像解译越来越受到重视，包括图像分类、图像分割和目标检测等。而SAR图像分割是后续解译任务的重要步骤，目的是为每个像素点分配语义标签(Ma等，2011)。图像特征的提取是图像分割的关键。最初使用基于阈值、边缘检测的算法进行图像分割，但这些方法大多只获得了图像的灰度特征。之后，提出了许多基于图像纹理分析的方法，包括灰度共生矩阵(gray-level co-occurrence matrix，GLCM)、Gabor小波、树结构小波和差直方图等(Soh和Tsatsoulis，1999)。此外，相继提出了一些基于图模型的算法，以学习相邻像素之间的空间上下文信息。如马尔科夫随机场(Markov random filed，MRF)(Song等，2017)和条件随机场(conditional random fields，CRF)(Wang等，2017)。上述这些传统方法采用人工特征提取的方法获得图像特征，而SAR图像由于斑点噪声等因素干扰，常常难以获取满足鲁棒性与判别性的特征。

近年来，深度学习成为计算机视觉的焦点，在图像分割领域得到了广泛应用。其中，卷积神经网络(convolutional neural networks，CNN)因具有强大的特征提取能力受到广泛关注。Zhou等人(2016)研究了深度CNN在极化SAR图像监督分类中的适用性及潜力。Zhang等人(2017)提出了可利用极化SAR图像中相位信息的网络。但CNN只接受固定的输入尺寸，且一次只能预测每个区域的单类标签，即基于像素块的分类。Long等人(2015)认为全连接层可看做是一种内核为整个输入区域大小的特殊卷积，提出全卷积神经网络(fully convolutional networks，FCN)，将全连接层替换为卷积层，可以接受任意尺寸的图像作为输入且完成了像素级的预测。

全卷积神经网络提出的编解码结构是很多分割算法的基本结构。基于此相继提出了SegNet(Badrinarayanan等，2017)和U-Net(Ronneberger等，2015)，它们都是端到端的网络架构，但是捕获上下文信息的能力不足，限制了分割精度。为了获取更加丰富的上下文信息，Yu和Koltun(2016)使用空洞卷积进行多尺度聚合，融合多尺度的上下文信息。Zhao等人(2017)提出金字塔场景解析网络(pyramid scene parsing network，PSPNet)，使用金字塔池化操作整合上下文。然而，这些算法仅考虑从少数周围像素收集的局部空间上下文信息，缺少全局空间上下文信息。Hu等人(2018)认为卷积神经网络的核心构建模块是卷积核，通常看做是在局部感受野上，将空间上的信息和通道上的信息进行聚合的信息聚合体，因此除了空间信息，通道信息同样不可忽视。然而，神经网络前期的低层特征富含空间信息而缺乏语义信息，而后期的高级特征富含语义信息而缺乏空间信息，但二者相互隔离难以充分利用(Zhang等，2019)。现有的编解码网络解决方法多为简单地将低层特征与高层特征逐像素相加或连接起来，但这样的方式收效甚微。

针对以上SAR图像分割的问题，本文提出一种改进的全卷积分割网络。该网络在编码阶段提取图像的局部上下文、通道上下文和全局上下文信息，并使用新的特征融合方式，提高低层特征的语义表示，且不丢失其空间细节，极大提升了高层和低层特征融合的有效性。

1 网络结构

1.1 整体网络结构

整体网络遵循编解码结构，即U型结构，受空洞卷积、残差网络(He等，2016)和注意力机制的启发，网络由上下文编码模块与特征融合模块组成，如图 1所示。输入为SAR图像，输出为同尺寸的分类图。在编码阶段，堆叠了4个上下文编码模块获取图像特征，如多尺度特征、局部上下文信息、通道信息、空间特征和语义信息等。之后，将高层特征与低层特征分别连接特征融合模块的两个输入端，获得全局上下文信息，并将高层特征中的语义信息嵌入低层特征中，使得低层特征在不损失空间特征的情况下富含语义信息。最后，将增强的低层特征连接入解码阶段，使解码器更高效且准确。

图 1 整体网络结构示意图

Fig. 1 Schematic diagram of the overall network

1.2 上下文编码模块

SAR图像中的斑点噪声阻碍空间上下文特征的提取。另外，卷积核作为CNN的核心，使网络能够通过在每一层的局部感受野内融合空间和通道信息来构造特征。但现有算法在提高空间信息编码能力的同时，忽略了通道上下文关系。针对这些问题，本文提出上下文编码模块，以增强提取特征中上下文信息的聚合。该模块具体设计如图 2所示。

图 2 上下文编码模块示意图

Fig. 2 Detail structure of context encoder module

上下文编码模块由1个残差连接、1个标准卷积、2个不同空洞率的空洞卷积和通道注意力机制组成。残差的核心思想是连接卷积层的输入和输出，以避免出现网络退化问题。具体定义为

$ \begin{gathered} y_{a}=h\left(\boldsymbol{x}_{a}\right)+F\left(\boldsymbol{x}_{a}, W_{a}\right) \\ \boldsymbol{x}_{a+1}=f\left(y_{a}\right) \end{gathered} $

(1)

式中，$\boldsymbol{x}_{a} $与$ \boldsymbol{x}_{a+1}$是第$a $个单元的输入与输出，$ \boldsymbol{x}_{0}$为输入图像。$W_{a} $为第$a $层的滤波器参数，$F(\cdot) $是残差函数，$ h\left(\boldsymbol{x}_{a}\right)=\boldsymbol{x}_{a}$是恒等映射。$f\left(y_{a}\right) $为激活函数，例如$ \text { ReLU }$，可实现单侧抑制，防止梯度爆炸，定义为

$ \mathit{ReLU}(x) = \left\{ {\begin{array}{*{20}{l}} x&{x \ge 0}\\ 0&{x < 0} \end{array}} \right. $

(2)

式中，$ x$为输入神经元。

为了获取局部特征，首先使用一个卷积核大小为3×3的标准卷积，后接批量归一化和激活函数$ \text { ReLU }$，以防止出现过拟合。同时，要挖掘周围的上下文信息，需要进一步扩大感受野，为此，连续使用空洞率分别为2和3的空洞卷积。图 3是标准卷积与空洞卷积的比较图。图 3(b)是一个空洞卷积示例，它可以保持与标准卷积一致的分辨率，并在不增加额外参数的情况下扩大感受野。其感受野具体计算为

图 3 标准卷积与空洞卷积比较图

Fig. 3 Comparison of standard convolution and dilated convolution

((a) 3×3 standard convolution; (b) 3×3 dilated convolution (rate = 2))

$ \begin{gathered} k^{\prime}=k+(k-1) \times(d-1) \\ S_{i}=\prod\limits_{i=1}^{i} s t_{i} \\ R^{F_{i+1}}=R^{F_{i}}+\left(k^{\prime}-1\right) \times S_{i} \end{gathered} $

(3)

式中，$ k$为空洞卷积的卷积核大小，$d $是空洞率，$ k^{\prime}$是其等效卷积核大小，$ i$为层数，$st $表示步长，$ R^{F_{i+1}}$表示当前层的感受野，$ R^{F_{i}}$表示上一层的感受野。从式(3)可以看出，不同的空洞率会获取不同大小的感受野，即得到了多尺度信息。

为获得通道上下文信息，本文采用通道注意力机制来建模通道之间的依赖关系。具体地说，通过获取每个特征通道的重要程度，并依据这个重要程度增强有用的特征，抑制对当前任务用处不大的特征(翟鹏博等，2020)。

首先，将最后一个空洞卷积得到的特征图$ \boldsymbol{u}$经过全局平均池化(global average pooling，GAP)(Lin等，2014)处理，其中$\boldsymbol{u} \in \mathbf{R}^{W \times H \times C}$。全局平均池化后的结果$ z_{c}$具体计算为

$ z_{c}=\frac{1}{W \times H} \sum\limits_{i=1}^{W} \sum\limits_{j=1}^{H} u_{c}(i, j) $

(4)

式中，$W $与$ H$分别为特征图的宽和高，$ u_{c}(i, j)$表示第$ c$维通道的像素点，$z \in \bf{R}^{1 \times 1 \times C} $。

为了减少计算量，全局平均池化操作获取的特征通过全连接(fully connected，FC)层以缩小维度至原来的1/16。之后由另一个全连接层扩展到原始维度。计算过程为

$ s=\sigma\left(W_{2} \delta\left(W_{1} z\right)\right) $

(5)

式中，$ \sigma$与$ \delta$分别为sigmoid和ReLU，$ W_{1}$是降维层参数，$W_{2} $是升维层参数。

最后，将特征图$\boldsymbol{u} $与$\boldsymbol{s} $相乘，即实现了对通道的加权。

1.3 特征融合模块

神经网络中，低级特征与高级特征在空间分布和物理意义上都存在差异(Ding等，2019)，所富含的信息类型也不同。为了更好地利用这些特征，提出了一个新的特征融合方式，在不牺牲低层特征空间细节信息的前提下，弥合了高层特征和低层特征间的差距。该模块设计如图 4所示。

图 4 特征融合模块示意图

Fig. 4 Detail structure of feature fusion module

首先，使用全局平均池化将每幅特征图压缩为一个实数，这个实数在某种程度上具有全局的感受野。由式(4)可知，输出的维度与输入特征图的维度一致，它表示在特征通道上响应的全局分布，即完成了对高层特征全局上下文信息的提取。接着，通过1×1的卷积以修改维度，达到与低级特征一致。假设高层特征为$ \boldsymbol{u}_{\mathrm{h}} \in \mathbf{R}^{W_{\mathrm{h}} \times H_{\mathrm{h}} \times C_{\mathrm{h}}}$，经全局平均池化后是$\boldsymbol{U}_{\mathrm{g}} \in \mathbf{R}^{1 \times 1 \times C_{\mathrm{h}}}$，低层特征为$\boldsymbol{U}_{1} \in \mathbf{R}^{W_{1} \times H_{1} \times C_{1}} $，然后使用1×1的卷积将$ \boldsymbol{U}_{\mathrm{g}}$的维度修改为$ C_{1}$，即$\mathit{\boldsymbol{U}}_{\rm{g}}^\prime \in {{\bf{R}}^{1 \times 1 \times {C_1}}} $。同时，对低层特征进行3×3的卷积保持其空间特征。然后，将其与$\boldsymbol{U}_{\mathrm{g}}^{\prime} $相乘，完成向低层特征嵌入全局上下文信息，丰富了低层特征的语义信息。最后，将增强的低层特征送入解码网络，提高解码器准确率。

1.4 解码网络

特征解码网络用于恢复高级语义特征，生成与输入数据尺寸相同的密集标签图。网络选择双线性插值法进行上采样操作，以恢复特征的分辨率。与编码网络的下采样数量一致，进行了3次上采样操作，在后两次上采样之前，将经过特征融合模块的增强的特征图与前端解码过的特征图级联起来。通过引入上述的跳过连接，补救连续下采样操作造成的空间信息丢失和上采样过程中的语义信息丢失。上采样之后，使用3个卷积核为3×3的卷积依次将特征图的维度减少至原来的1/4，以提高计算效率。每个卷积层后连接批量归一化和非线性激活函数ReLU。整个分割网络每个模块的输出大小与维度如表 1所示。

表 1 网络的输出参数
Table 1 Output parameters of the network

下载CSV

过程	输出尺寸/像素	输出维度
输入	128×128	1
上下文编码1+下采样	64×64	32
上下文编码2+下采样	32×32	64
上下文编码3+下采样	16×16	128
上下文编码4	16×16	256
特征融合模块1	32×32	64
特征融合模块2	64×64	32
上采样+卷积	32×32	64
级联1	32×32	128
上采样+卷积	64×64	32
级联2	64×64	64
上采样+卷积	128×128	16
softmax	128×128	类别数

2 实验结果与分析

实验环境如下：CUDA版本为8.0，CUDNN版本为6.0.21，处理器是Intel(R) Xeon(R) CPU E5- 2620 v4 @ 2.10 GHz，显卡是Quadro M2000。采用的框架为Keras2.0.8，以Tensorflow1.4为后端。优化函数采用随机梯度下降算法(stochastic gradient descent，SGD)，设置初始学习率为0.01，动量为0.9，训练进行100个回合。

2.1 实验设置

为避免单一地物对实验结果的影响，实验采用两幅包含了植被、水体以及不同类型建筑物等丰富场景信息的真实SAR图像进行验证，分别是RS2-Flevoland(Radarsat-2 Flevoland)和RS2-SF-Bay(Radarsat-2 San-Francisco-Bay)(许开炜等，2019)，分辨率均为12 m×8 m(距离向×方位向)。图像RS2-Flevoland的尺寸是1 000×1 400像素，包括5类地物，分别为森林、农作物1、农作物2、城市和水体。原始图像与标签图如图 5(a)(b)所示。数据集制作过程如下：首先使用滑动窗口在整幅图上切割128×128像素的子图像，滑动窗口步长为50。然后在子图像中为每类地物选取5幅图像，其中4幅作为训练数据，1幅作为验证数据。接着使用数据增强对图像进行扩充，例如旋转、对称和加噪等。图像RS2-SF-Bay的尺寸为1 010×1 160像素，同样包括5类地物，分别为水体、植被、建筑物1、建筑物2和建筑物3。原始图与标签图如图 6(a)(b)所示。数据集制作与图像RS2-Flevoland一致。

图 5 编码网络的可视化结果

Fig. 5 Visualization of the coding network

((a) input patch; (b) CEM_1; (c) CEM_2; (d) CEM_3; (e) CEM_4)

图 6 特征融合对比图

Fig. 6 Comparison of different feature fusion algorithms

((a) element-wise add; (b) ordinary concatenation; (c) FFM)

2.2 评价标准

使用总体精度(overall accuracy，$ \mathrm{OA}$)、平均精度(average accuracy，AA)和Kappa系数作为评价指标。

$\mathrm{OA} $表示预测正确的像素个数占总像素个数的比例，具体计算为

$ f_{\mathrm{OA}}=\frac{1}{N} \sum\limits_{i=1}^{K} p_{i i} $

(6)

式中，$ K$和$N $分别表示地物类别数与总像素个数。$p_{i i} $表示混淆矩阵中坐标$(i, i) $处的元素。

$ \text { AA }$的计算包括两步。首先计算每类预测正确的与真实情况下属于该类像素之间的比值，之后再取每一类的精度的平均值。具体计算为

$ {f_{{\rm{AA}}}} = \frac{1}{K}\sum\limits_{i = 1}^K {\frac{{{p_{ii}}}}{{\sum\limits_{j = 1}^K {{p_{ij}}} }}} $

(7)

式中，$\sum\limits_{j = 1}^K {{p_{ij}}} $表示第$i $行元素的总和。

$ \text { Карра }$系数具体计算为

$ f_{\text {Kappa }}=\frac{p_{0}-p_{e}}{1-p_{e}} $

(8)

式中，$p_{0}=f_{\mathrm{OA}}, p_{e}$具体计算为

$ {p_e} = \sum\limits_{i = 1}^K {\frac{{\sum\limits_{j = 1}^K {{p_{ij}}} \cdot \sum\limits_{j = 1}^K {{p_{ji}}} }}{{N \times N}}} $

(9)

式中，$\sum\limits_{j = 1}^K {{p_{ji}}} $表示第$i $列元素的总和。

2.3 特征可视化与分析

为解释所提网络的内部机制，本文将特征图可视化。考虑到清晰度与简单性，选择一幅128×128像素的图像块作为输入，如图 5(a)如示。本节分别展示CEM与FFM的可视化结果。

2.3.1 CEM编码可视化

为展示编码网络提取图像特征的过程，选取每个CEM输出特征图中的某一维度并缩放至同一尺寸，以便于查看，如图 5(b)—(e)所示。从图 5(b)—(e)可以看出，浅层编码器专注于提取详细的结构信息，随着网络的加深，编码器越来越关注于更抽象的语义轮廓特征。图 5(a)中的斑点噪声造成图 5(b)中存在许多独立的小区域，同一地物类别之间非匀质，如红框内所示，其亮度与黑框内地物极为相似，像素级分类时易错分其类别。经过后续的编码，获取红色区域周围更广泛的信息以及不同类别间的相互作用，即上下文信息，从而提供更高的置信度来引导中心像素的分类。如图 5(e)中红框内所示，该区域更加同质化。充分表明了上下文信息的重要性以及CEM捕获上下文信息的能力。

2.3.2 FFM融合可视化

传统应用于编解码网络的融合方式是将编码与解码阶段尺寸一致的特征图逐像素相加或级联。为提高融合效果，FFM先增强编码阶段的低层特征，再进行级联。图 6(a)—(c)分别为逐像素相加、低层特征以及增强的低层特征中某一维度的特征效果图。逐像素相加会导致错误像素点增多，如图 6(a)红圈内所示。级联使参与上采样的特征图维度增加，有助于将上下文信息传播至更高分辨率的层。对比图 6(b)(c)，后者比前者类间区别度更高、类内相似度更高，是增强的低层特征中全局上下文信息引导的结果。

2.4 分割结果与分析

为了证明所提算法的有效性，对CEM与CEM-FFM分别进行实验，并与几种相关方法进行比较，分别为SegNet、U-Net、PSPNet、FCN-DK3(Mullissa等，2018)和CAEN(context-aware encoder network)(Liang等，2020)。

2.4.1 RS2-Flevoland的实验结果

表 2列出了对比方法和所提方法的各类别的准确度、OA、AA和Kappa系数。可以看出，CAEN在对比方法中效果最优。在不加入FFM的情况下，所提网络在OA和Kappa系数上都得到了比CAEN高约1%的准确度，但在AA指标上，弱了约0.6%。加入FFM之后，3个评价指标皆达到最优结果，均比CAEN结果提高了3%以上，获得了最佳的分割性能。从类别来看，CEM-FFM在农作物2这一类别上提升效果最为显著，相较FCN-DK3和CAEN高出10%以上。所有算法对水体的分割准确率都在99%左右，这得益于水体与其他类别的类间差距最大，根本原因在于SAR特殊的成像方式，水体的后向散射系数相对较低，因此在图像上表现为黑色，更容易区别于其他类别。

表 2 不同方法在RS2-Flevoland图像上的分割性能
Table 2 Segmentation performance of different methods on RS2-Flevoland image

下载CSV

方法	准确度/%					OA/%	AA/%	Kappa×100
方法	森林	农作物1	农作物2	城市	水体	OA/%	AA/%	Kappa×100
SegNet	92.300	94.603	26.909	69.495	98.139	83.963	76.289	78.147
U-Net	90.344	94.845	31.672	87.948	99.935	85.812	80.949	80.878
PSPNet	93.045	94.238	50.993	87.099	99.86	88.749	85.047	84.779
FCN-DK3	90.989	93.139	64.040	89.565	99.908	89.505	87.528	85.960
CAEN	93.645	91.966	63.726	91.545	99.997	90.134	88.176	86.775
CEM	94.426	97.457	56.491	89.884	99.156	91.082	87.483	87.929
CEM+FFM	94.509	96.711	75.436	89.525	99.998	93.231	91.236	90.883
注：加粗字体表示各列最优结果。

图 7显示了各类方法的分割效果图。可以直观地看出，SegNet和U-Net对农作物2的区域分割较为粗糙，PSPNet、FCN-DK3和CEM有所改善，但精确度仍有所不足，而CEM-FFM的分割性能达到最优。并且，在5类地物中，CEM-FFM相较于其他方法，分割图在区域内更加平滑。可以看出，改进的方法的分割图与标签图最为相似，有效减少了错误分类的像素数量。

图 7 不同方法在RS2-Flevoland图像上的分割图

Fig. 7 Segmentation maps of different methods on RS2-Flevoland image

((a) original image; (b) ground truth; (c) SegNet; (d) U-Net; (e) PSPNet; (f) FCN-DK3; (g) CAEN; (h) CEM; (i) CEM + FFM)

2.4.2 RS2-SF-Bay的实验结果

不同方法在RS2-SF-Bay图像上的分割性能如表 3所示。CAEN在对比方法中效果仍是最优。在不加入FFM的情况下，CEM在OA、AA和Kappa系数这3个指标方面均高出CAEN约1%。加入FFM后，这3项数据又比CEM提升约3%。另外，在水体这一类别上，CEM的表现比SegNet、U-Net和PSPNet略逊一筹，CEM-FFM超过SegNet和U-Net，但低于U-Net。

表 3 不同方法在RS2-SF-Bay图像上的分割性能
Table 3 Segmentation performance of different methods on RS2-SF-Bay image

下载CSV

方法	准确度/%					OA/%	AA/%	Kappa×100
方法	建筑物1	建筑物2	水体	植被	建筑物3	OA/%	AA/%	Kappa×100
SegNet	94.101	84.272	91.130	89.901	41.908	82.857	80.262	78.100
U-Net	86.066	72.141	96.681	90.155	64.599	83.056	81.928	78.520
PSPNet	90.627	71.156	92.134	97.237	70.173	86.064	84.465	82.249
FCN-DK3	93.363	74.173	82.009	94.868	80.112	86.501	85.019	82.876
CAEN	92.295	91.389	85.356	95.627	79.212	89.962	88.776	87.210
CEM	97.362	88.455	86.089	96.911	79.429	90.903	89.649	88.407
CEM+FFM	95.952	93.478	93.675	97.667	80.460	93.293	92.247	91.458
注：加粗字体表示各列最优结果。

分割效果图如图 8所示。其中，建筑物3的类内相似度较低，易出现分类结果不一且有斑驳，如图 8(c)所示。由图 8(c)—(i)可知，随着算法对特征提取能力的增强，建筑物3这一类别的分类结果越来越同质化。另外，SegNet、U-Net、PSPNet和FCN-DK3模型的分割结果中存在许多错误分类的像素，尤其是建筑物2区域内，大量像素错误分类为建筑物1和建筑物3，而所提网络极大改善了这种情况。

图 8 不同方法在RS2-SF-Bay图像上的分割图

Fig. 8 Segmentation maps of different methods on RS2-SF-Bay image

((a) original image; (b) ground truth; (c) SegNet; (d) U-Net; (e) PSPNet; (f) FCN-DK3; (g) CAEN; (h) CEM; (i) CEM + FFM)

3 结论

本文设计了一种基于全卷积神经网络的语义分割网络，提出了上下文编码模块和特征融合模块，并将两个模块并入编解码结构。具体结论如下：1)上下文编码模块具有强大的特征提取能力。该模块从空间与通道两个维度上提取上下文特征，实验表明，CEM取得了显著改进的分割结果。2)特征融合模块进一步增强了网络的特征表征能力。低层与高层特征的融合使得已提取的特征最大限度地被网络使用，且CEM-FFM达到了最优分割效果。

然而，特征的编码和融合仍有改进的空间，且本文方法是基于像素级的分割，如何将像素级与区域级结合融入网络结构是接下来的研究重点。

参考文献

Badrinarayanan V, Kendall A, Cipolla R. 2017. SegNet: a deep convolutional encoder-decoder architecture for image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(12): 2481-2495 [DOI:10.1109/TPAMI.2016.2644615]

Ding L, Tang H, Bruzzone L. 2019. Improving semantic segmentation of aerial images using patch-based attention [EB/OL]. [2021-01-16]. https://arxiv.org/pdf/1911.08877.pdf

He K M, Zhang X Y, Ren S Q, Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 770-778 [DOI: 10.1109/CVPR.2016.90]

Hu J, Shen L, Sun G. 2018. Squeeze-and-excitation networks//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 7132-7141 [DOI: 10.1109/CVPR.2018.00745]

Liang W K, Wu Y, Li M, Cao Y C. 2020. High-resolution SAR image classification using context-aware encoder network and hybrid conditional random field model. IEEE Transactions on Geoscience and Remote Sensing, 58(8): 5317-5335 [DOI:10.1109/TGRS.2019.2963699]

Lin M, Chen Q, Yan S C. 2014. Network in network [EB/OL]. [2021-01-16]. https://arxiv.org/pdf/1312.4400.pdf

Long J, Shelhamer E, Darrell T. 2015. Fully convolutional networks for semantic segmentation//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 3431-3440 [DOI: 10.1109/CVPR.2015.7298965]

Ma M, Liang J H, Guo M, Fan Y, Yin Y L. 2011. SAR image segmentation based on artificial bee colony algorithm. Applied Soft Computing, 11(8): 5205-5214 [DOI:10.1016/j.asoc.2011.05.039]

Moreira A, Prats-Iraola P, Younis M, Krieger G, Hajnsek I, Papathanassiou K P. 2013. A tutorial on synthetic aperture radar. IEEE Geoscience and Remote Sensing Magazine, 1(1): 6-43 [DOI:10.1109/MGRS.2013.2248301]

Mullissa A G, Persello C, Tolpekin V. 2018. Fully convolutional networks for multi-temporal SAR image classification//IGARSS 2018-2018 IEEE International Geoscience and Remote Sensing Symposium. Valencia, Spain: IEEE: 6635-6638 [DOI: 10.1109/IGARSS.2018.8518780]

Ronneberger O, Fischer P, Brox T. 2015. U-Net: convolutional networks for biomedical image segmentation//Proceedings of the 18th International Conference on Medical Image Computing and Computer Assisted Intervention. Munich, Germany: Springer: 234-241 [10. 1007/978-3-319-24574-4_28]

Soh L K, Tsatsoulis C. 1999. Texture analysis of SAR sea ice imagery using gray level co-occurrence matrices. IEEE Transactions on Geoscience and Remote Sensing, 37(2): 780-795 [DOI:10.1109/36.752194]

Song W Y, Li M, Zhang P, Wu Y, Jia L, An L. 2017. Unsupervised PolSAR image classification and segmentation using Dirichlet process mixture model and Markov random fields with similarity measure. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 10(8): 3556-3568 [DOI:10.1109/JSTARS.2017.2684301]

Wang F, Wu Y, Li M, Zhang P, Zhang Q J. 2017. Adaptive hybrid conditional random field model for SAR image segmentation. IEEE Transactions on Geoscience and Remote Sensing, 55(1): 537-550 [DOI:10.1109/TGRS.2016.2611060]

Xu K W, Yang X Z, Ai J Q, Zhang A J. 2019. Research on SAR image classification based on point feature similarity and convolutional neural network. Geography and Geo-information Science, 35(3): 28-36 (许开炜, 杨学志, 艾加秋, 张安骏. 2019. 点特征相似与卷积神经网络相结合的SAR图像分类算法研究. 地理与地理信息科学, 35(3): 28-36) [DOI:10.3969/j.issn.1672-0504.2019.03.005]

Yu F, Koltun V. 2016. Multi-scale context aggregation by dilated convolutions [EB/OL]. [2021-01-16]. https://arxiv.org/pdf/1511.07122.pdf

Zhai P B, Yang H, Song T T, Yu K, Ma L X, Huang X S. 2020. Two-path semantic segmentation algorithm combining attention mechanism. Journal of Image and Graphics, 25(8): 1627-1636 (翟鹏博, 杨浩, 宋婷婷, 余亢, 马龙祥, 黄向生. 2020. 结合注意力机制的双路径语义分割. 中国图象图形学报, 25(8): 1627-1636) [DOI:10.11834/jig.190533]

Zhang N, Li J, Li Y R, Du Y. 2019. Global attention pyramid network for semantic segmentation//Proceedings of 2019 Chinese Control Conference (CCC). Guangzhou, China: IEEE: 8728-8732 [DOI: 10.23919/ChiCC.2019.8865946]

Zhang Z M, Wang H P, Xu F, Jin Y Q. 2017. Complex-valued convolutional neural network and its application in polarimetric SAR image classification. IEEE Transactions on Geoscience and Remote Sensing, 55(12): 7177-7188 [DOI:10.1109/TGRS.2017.2743222]

Zhao H S, Shi J P, Qi X J, Wang X G, Jia J Y. 2017. Pyramid scene parsing network//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Hawaii, USA: IEEE: 6230-6239 [DOI: 10.1109/CVPR.2017.660]

Zhou Y, Wang H P, Xu F, Jin Y Q. 2016. Polarimetric SAR image classification using deep convolutional neural networks. IEEE Geoscience and Remote Sensing Letters, 13(12): 1935-1939 [DOI:10.1109/LGRS.2016.2618840]