|
发布时间: 2022-08-16 |
遥感图像处理 |
|
|
收稿日期: 2021-02-04; 修回日期: 2021-04-19; 预印本日期: 2021-04-26
基金项目: 安徽省重点研发计划资助(202004a07020030)
作者简介:
范艺华,1997年生,女,硕士研究生,主要研究方向为基于深度学习的遥感图像处理。E-mail: fanyihua_1@163.com
董张玉,通信作者,男,副教授,主要研究方向为数字信号处理和遥感图像处理。E-mail: dzyhfut@hfut.edu.cn 杨学志,男,教授,主要研究方向为图像处理。E-mail: xzyang@hfut.edu.cn *通信作者: 董张玉 dzyhfut@hfut.edu.cn
中图法分类号: TP391
文献标识码: A
文章编号: 1006-8961(2022)08-2527-10
|
摘要
目的 图像分割的中心任务是寻找更强大的特征表示,而合成孔径雷达(synthetic aperture radar,SAR)图像中斑点噪声阻碍特征提取。为加强对SAR图像特征的提取以及对特征充分利用,提出一种改进的全卷积分割网络。方法 该网络遵循编码器—解码器结构,主要包括上下文编码模块和特征融合模块两部分。上下文编码模块(contextual encoder module,CEM)通过捕获局部上下文和通道上下文信息增强对图像的特征提取;特征融合模块(feature fusion module,FFM)提取高层特征中的全局上下文信息,将其嵌入低层特征,然后将增强的低层特征并入解码网络,提升特征图分辨率恢复的准确性。结果 在两幅真实SAR图像上,采用5种基于全卷积神经网络的分割算法作为对比,并对CEM与CEM-FFM分别进行实验。结果显示,该网络分割结果的总体精度(overall accuracy,OA)、平均精度(average accuracy,AA)与Kappa系数比5种先进算法均有显著提升。其中,网络在OA上表现最好,CEM在两幅SAR图像上OA分别为91.082%和90.903%,较对比算法中性能最优者分别提高了0.948%和0.941%,证实了CEM的有效性。而CEM-FFM在CEM基础上又将结果分别提高了2.149%和2.390%,验证了FFM的有效性。结论 本文提出的分割网络较其他方法对图像具有更强大的特征提取能力,且能更好地将低层特征中的空间信息与高层特征中的语义信息融合为一体,使得网络对特征的表征能力更强、图像分割结果更准确。
关键词
图像分割; 全卷积神经网络(FCN); 特征融合; 上下文信息; 合成孔径雷达(SAR)
Abstract
Objective Pixel-wise segmentation for synthetic aperture radar (SAR) images has been challenging due to the constraints of labeled SAR data, as well as the coherent speckle contextual information. Current semantic segmentation is challenged like existing algorithms as mentioned below: First, the ability to capture contextual information is insufficient. Some algorithms ignore contextual information or just focus on local spatial contextual information derived of a few pixels, and lack global spatial contextual information. Second, in order to improve the network performance, researchers are committed to developing the spatial dimension and ignoring the relationship between channels. Third, a neural network based high-level features extracted from the late layers are rich in semantic information and have blurred spatial details. A network based low-level features extraction contains more noise pixel-level information from the early layers. They are isolated from each other, so it is difficult to make full use of them. The most common ways are not efficient based on concatenate them or per-pixel addition. Method To solve these problems, a segmentation algorithm is proposed based on fully convolutional neural network (CNN). The whole network is based on the structure of encoder-decoder network. Our research facilitates a contextual encoding module and a feature fusion module for feature extraction and feature fusion. The different rates and channel attention mechanism based contextual encoding module consists of a residual connection, a standard convolution, two dilated convolutions. Among them, the residual connection is designed to neglect network degradation issues. Standard convolution is obtained by local features with 3 × 3 convolution kernel. After convolution, batch normalization and nonlinear activation function ReLU are connected to resist over-fitting. Dilated convolutions with 2 × 2 and 3 × 3 dilated rates extend the perception field and capture multi-scale features and local contextual features further. The channel attention mechanism learns the importance of each feature channel, enhances useful features in terms of this importance, inhibits features, and completes the modeling of the dependency between channels to obtain the context information of channels. First, the feature fusion module based global context features extraction is promoted, the in the high-level features. Specifically, the global average pooling suppresses each feature to a real number, which has a global perception field to some extent. Then, these numbers are embedding into the low-level features. The enhanced low-level features are transmitted to the decoding network, which can improve the effectiveness of up sampling. This module can greatly enhance its semantic representation with no the spatial information of low-level features loss, and improve the effectiveness of their integration. Our research carries out four contextual encoding modules and two feature fusion modules are stacked in the whole network. Result We demonstrated seven experimental schemes. In the first scheme, contextual encoder module (CEM) is used as the encoder block only; In the second scheme, we combined the CEM and the feature fusion module (FFM); the rest of them are five related methods like SegNet, U-Net, pyramid scene parsing network (PSPNet), FCN-DK3 and context-aware encoder network(CAEN). Our two real SAR images experiments contain a wealth of information scene experiment are Radarsat-2 Flevoland (RS2-Flevoland) and Radarsat-2 San-Francisco-Bay (RS2-SF-Bay). The option of overall accuracy (OA), average accuracy (AA) and Kappa coefficient is as the evaluation criteria. The OA of the CEM algorithm on the two real SAR images is 91.082% and 90.903% respectively in comparison to the five advanced algorithms mentioned above. The CEM-FFM algorithm increased 2.149% and 2.390% compare to CEM algorithm. Conclusion Our illustration designs a CNN based semantic segmentation algorithm. It is composed of two aspects of contextual encoding module and feature fusion module. The experiments have their priorities of the proposed method with other related algorithms. Our proposed segmentation network has stronger feature extraction ability, and integrates low-level features and high-level features greatly, which improves the feature representation ability of the stable network and more accurate results of image segmentation.
Key words
image segmentation; fully convolutional network (FCN); feature fusion; contextual information; synthetic aperture radar (SAR)
0 引言
合成孔径雷达(synthetic aperture radar,SAR)具有全天时、全天候的特点,在对地观测、土地利用和灾害监测等领域具有独特优势(Moreira等,2013)。因此,SAR图像解译越来越受到重视,包括图像分类、图像分割和目标检测等。而SAR图像分割是后续解译任务的重要步骤,目的是为每个像素点分配语义标签(Ma等,2011)。图像特征的提取是图像分割的关键。最初使用基于阈值、边缘检测的算法进行图像分割,但这些方法大多只获得了图像的灰度特征。之后,提出了许多基于图像纹理分析的方法,包括灰度共生矩阵(gray-level co-occurrence matrix,GLCM)、Gabor小波、树结构小波和差直方图等(Soh和Tsatsoulis,1999)。此外,相继提出了一些基于图模型的算法,以学习相邻像素之间的空间上下文信息。如马尔科夫随机场(Markov random filed,MRF)(Song等,2017)和条件随机场(conditional random fields,CRF)(Wang等,2017)。上述这些传统方法采用人工特征提取的方法获得图像特征,而SAR图像由于斑点噪声等因素干扰,常常难以获取满足鲁棒性与判别性的特征。
近年来,深度学习成为计算机视觉的焦点,在图像分割领域得到了广泛应用。其中,卷积神经网络(convolutional neural networks,CNN)因具有强大的特征提取能力受到广泛关注。Zhou等人(2016)研究了深度CNN在极化SAR图像监督分类中的适用性及潜力。Zhang等人(2017)提出了可利用极化SAR图像中相位信息的网络。但CNN只接受固定的输入尺寸,且一次只能预测每个区域的单类标签,即基于像素块的分类。Long等人(2015)认为全连接层可看做是一种内核为整个输入区域大小的特殊卷积,提出全卷积神经网络(fully convolutional networks,FCN),将全连接层替换为卷积层,可以接受任意尺寸的图像作为输入且完成了像素级的预测。
全卷积神经网络提出的编解码结构是很多分割算法的基本结构。基于此相继提出了SegNet(Badrinarayanan等,2017)和U-Net(Ronneberger等,2015),它们都是端到端的网络架构,但是捕获上下文信息的能力不足,限制了分割精度。为了获取更加丰富的上下文信息,Yu和Koltun(2016)使用空洞卷积进行多尺度聚合,融合多尺度的上下文信息。Zhao等人(2017)提出金字塔场景解析网络(pyramid scene parsing network,PSPNet),使用金字塔池化操作整合上下文。然而,这些算法仅考虑从少数周围像素收集的局部空间上下文信息,缺少全局空间上下文信息。Hu等人(2018)认为卷积神经网络的核心构建模块是卷积核,通常看做是在局部感受野上,将空间上的信息和通道上的信息进行聚合的信息聚合体,因此除了空间信息,通道信息同样不可忽视。然而,神经网络前期的低层特征富含空间信息而缺乏语义信息,而后期的高级特征富含语义信息而缺乏空间信息,但二者相互隔离难以充分利用(Zhang等,2019)。现有的编解码网络解决方法多为简单地将低层特征与高层特征逐像素相加或连接起来,但这样的方式收效甚微。
针对以上SAR图像分割的问题,本文提出一种改进的全卷积分割网络。该网络在编码阶段提取图像的局部上下文、通道上下文和全局上下文信息,并使用新的特征融合方式,提高低层特征的语义表示,且不丢失其空间细节,极大提升了高层和低层特征融合的有效性。
1 网络结构
1.1 整体网络结构
1.2 上下文编码模块
SAR图像中的斑点噪声阻碍空间上下文特征的提取。另外,卷积核作为CNN的核心,使网络能够通过在每一层的局部感受野内融合空间和通道信息来构造特征。但现有算法在提高空间信息编码能力的同时,忽略了通道上下文关系。针对这些问题,本文提出上下文编码模块,以增强提取特征中上下文信息的聚合。该模块具体设计如图 2所示。
上下文编码模块由1个残差连接、1个标准卷积、2个不同空洞率的空洞卷积和通道注意力机制组成。残差的核心思想是连接卷积层的输入和输出,以避免出现网络退化问题。具体定义为
$ \begin{gathered} y_{a}=h\left(\boldsymbol{x}_{a}\right)+F\left(\boldsymbol{x}_{a}, W_{a}\right) \\ \boldsymbol{x}_{a+1}=f\left(y_{a}\right) \end{gathered} $ | (1) |
式中,
$ \mathit{ReLU}(x) = \left\{ {\begin{array}{*{20}{l}} x&{x \ge 0}\\ 0&{x < 0} \end{array}} \right. $ | (2) |
式中,
为了获取局部特征,首先使用一个卷积核大小为3×3的标准卷积,后接批量归一化和激活函数
$ \begin{gathered} k^{\prime}=k+(k-1) \times(d-1) \\ S_{i}=\prod\limits_{i=1}^{i} s t_{i} \\ R^{F_{i+1}}=R^{F_{i}}+\left(k^{\prime}-1\right) \times S_{i} \end{gathered} $ | (3) |
式中,
为获得通道上下文信息,本文采用通道注意力机制来建模通道之间的依赖关系。具体地说,通过获取每个特征通道的重要程度,并依据这个重要程度增强有用的特征,抑制对当前任务用处不大的特征(翟鹏博等,2020)。
首先,将最后一个空洞卷积得到的特征图
$ z_{c}=\frac{1}{W \times H} \sum\limits_{i=1}^{W} \sum\limits_{j=1}^{H} u_{c}(i, j) $ | (4) |
式中,
为了减少计算量,全局平均池化操作获取的特征通过全连接(fully connected,FC)层以缩小维度至原来的1/16。之后由另一个全连接层扩展到原始维度。计算过程为
$ s=\sigma\left(W_{2} \delta\left(W_{1} z\right)\right) $ | (5) |
式中,
最后,将特征图
1.3 特征融合模块
神经网络中,低级特征与高级特征在空间分布和物理意义上都存在差异(Ding等,2019),所富含的信息类型也不同。为了更好地利用这些特征,提出了一个新的特征融合方式,在不牺牲低层特征空间细节信息的前提下,弥合了高层特征和低层特征间的差距。该模块设计如图 4所示。
首先,使用全局平均池化将每幅特征图压缩为一个实数,这个实数在某种程度上具有全局的感受野。由式(4)可知,输出的维度与输入特征图的维度一致,它表示在特征通道上响应的全局分布,即完成了对高层特征全局上下文信息的提取。接着,通过1×1的卷积以修改维度,达到与低级特征一致。假设高层特征为
1.4 解码网络
特征解码网络用于恢复高级语义特征,生成与输入数据尺寸相同的密集标签图。网络选择双线性插值法进行上采样操作,以恢复特征的分辨率。与编码网络的下采样数量一致,进行了3次上采样操作,在后两次上采样之前,将经过特征融合模块的增强的特征图与前端解码过的特征图级联起来。通过引入上述的跳过连接,补救连续下采样操作造成的空间信息丢失和上采样过程中的语义信息丢失。上采样之后,使用3个卷积核为3×3的卷积依次将特征图的维度减少至原来的1/4,以提高计算效率。每个卷积层后连接批量归一化和非线性激活函数ReLU。整个分割网络每个模块的输出大小与维度如表 1所示。
表 1
网络的输出参数
Table 1
Output parameters of the network
过程 | 输出尺寸/像素 | 输出维度 |
输入 | 128×128 | 1 |
上下文编码1+下采样 | 64×64 | 32 |
上下文编码2+下采样 | 32×32 | 64 |
上下文编码3+下采样 | 16×16 | 128 |
上下文编码4 | 16×16 | 256 |
特征融合模块1 | 32×32 | 64 |
特征融合模块2 | 64×64 | 32 |
上采样+卷积 | 32×32 | 64 |
级联1 | 32×32 | 128 |
上采样+卷积 | 64×64 | 32 |
级联2 | 64×64 | 64 |
上采样+卷积 | 128×128 | 16 |
softmax | 128×128 | 类别数 |
2 实验结果与分析
实验环境如下:CUDA版本为8.0,CUDNN版本为6.0.21,处理器是Intel(R) Xeon(R) CPU E5- 2620 v4 @ 2.10 GHz,显卡是Quadro M2000。采用的框架为Keras2.0.8,以Tensorflow1.4为后端。优化函数采用随机梯度下降算法(stochastic gradient descent,SGD),设置初始学习率为0.01,动量为0.9,训练进行100个回合。
2.1 实验设置
为避免单一地物对实验结果的影响,实验采用两幅包含了植被、水体以及不同类型建筑物等丰富场景信息的真实SAR图像进行验证,分别是RS2-Flevoland(Radarsat-2 Flevoland)和RS2-SF-Bay(Radarsat-2 San-Francisco-Bay)(许开炜等,2019),分辨率均为12 m×8 m(距离向×方位向)。图像RS2-Flevoland的尺寸是1 000×1 400像素,包括5类地物,分别为森林、农作物1、农作物2、城市和水体。原始图像与标签图如图 5(a)(b)所示。数据集制作过程如下:首先使用滑动窗口在整幅图上切割128×128像素的子图像,滑动窗口步长为50。然后在子图像中为每类地物选取5幅图像,其中4幅作为训练数据,1幅作为验证数据。接着使用数据增强对图像进行扩充,例如旋转、对称和加噪等。图像RS2-SF-Bay的尺寸为1 010×1 160像素,同样包括5类地物,分别为水体、植被、建筑物1、建筑物2和建筑物3。原始图与标签图如图 6(a)(b)所示。数据集制作与图像RS2-Flevoland一致。
2.2 评价标准
使用总体精度(overall accuracy,
$ f_{\mathrm{OA}}=\frac{1}{N} \sum\limits_{i=1}^{K} p_{i i} $ | (6) |
式中,
$ {f_{{\rm{AA}}}} = \frac{1}{K}\sum\limits_{i = 1}^K {\frac{{{p_{ii}}}}{{\sum\limits_{j = 1}^K {{p_{ij}}} }}} $ | (7) |
式中,
$ f_{\text {Kappa }}=\frac{p_{0}-p_{e}}{1-p_{e}} $ | (8) |
式中,
$ {p_e} = \sum\limits_{i = 1}^K {\frac{{\sum\limits_{j = 1}^K {{p_{ij}}} \cdot \sum\limits_{j = 1}^K {{p_{ji}}} }}{{N \times N}}} $ | (9) |
式中,
2.3 特征可视化与分析
为解释所提网络的内部机制,本文将特征图可视化。考虑到清晰度与简单性,选择一幅128×128像素的图像块作为输入,如图 5(a)如示。本节分别展示CEM与FFM的可视化结果。
2.3.1 CEM编码可视化
为展示编码网络提取图像特征的过程,选取每个CEM输出特征图中的某一维度并缩放至同一尺寸,以便于查看,如图 5(b)—(e)所示。从图 5(b)—(e)可以看出,浅层编码器专注于提取详细的结构信息,随着网络的加深,编码器越来越关注于更抽象的语义轮廓特征。图 5(a)中的斑点噪声造成图 5(b)中存在许多独立的小区域,同一地物类别之间非匀质,如红框内所示,其亮度与黑框内地物极为相似,像素级分类时易错分其类别。经过后续的编码,获取红色区域周围更广泛的信息以及不同类别间的相互作用,即上下文信息,从而提供更高的置信度来引导中心像素的分类。如图 5(e)中红框内所示,该区域更加同质化。充分表明了上下文信息的重要性以及CEM捕获上下文信息的能力。
2.3.2 FFM融合可视化
2.4 分割结果与分析
为了证明所提算法的有效性,对CEM与CEM-FFM分别进行实验,并与几种相关方法进行比较,分别为SegNet、U-Net、PSPNet、FCN-DK3(Mullissa等,2018)和CAEN(context-aware encoder network)(Liang等,2020)。
2.4.1 RS2-Flevoland的实验结果
表 2列出了对比方法和所提方法的各类别的准确度、OA、AA和Kappa系数。可以看出,CAEN在对比方法中效果最优。在不加入FFM的情况下,所提网络在OA和Kappa系数上都得到了比CAEN高约1%的准确度,但在AA指标上,弱了约0.6%。加入FFM之后,3个评价指标皆达到最优结果,均比CAEN结果提高了3%以上,获得了最佳的分割性能。从类别来看,CEM-FFM在农作物2这一类别上提升效果最为显著,相较FCN-DK3和CAEN高出10%以上。所有算法对水体的分割准确率都在99%左右,这得益于水体与其他类别的类间差距最大,根本原因在于SAR特殊的成像方式,水体的后向散射系数相对较低,因此在图像上表现为黑色,更容易区别于其他类别。
表 2
不同方法在RS2-Flevoland图像上的分割性能
Table 2
Segmentation performance of different methods on RS2-Flevoland image
方法 | 准确度/% | OA/% | AA/% | Kappa×100 | ||||
森林 | 农作物1 | 农作物2 | 城市 | 水体 | ||||
SegNet | 92.300 | 94.603 | 26.909 | 69.495 | 98.139 | 83.963 | 76.289 | 78.147 |
U-Net | 90.344 | 94.845 | 31.672 | 87.948 | 99.935 | 85.812 | 80.949 | 80.878 |
PSPNet | 93.045 | 94.238 | 50.993 | 87.099 | 99.86 | 88.749 | 85.047 | 84.779 |
FCN-DK3 | 90.989 | 93.139 | 64.040 | 89.565 | 99.908 | 89.505 | 87.528 | 85.960 |
CAEN | 93.645 | 91.966 | 63.726 | 91.545 | 99.997 | 90.134 | 88.176 | 86.775 |
CEM | 94.426 | 97.457 | 56.491 | 89.884 | 99.156 | 91.082 | 87.483 | 87.929 |
CEM+FFM | 94.509 | 96.711 | 75.436 | 89.525 | 99.998 | 93.231 | 91.236 | 90.883 |
注:加粗字体表示各列最优结果。 |
图 7显示了各类方法的分割效果图。可以直观地看出,SegNet和U-Net对农作物2的区域分割较为粗糙,PSPNet、FCN-DK3和CEM有所改善,但精确度仍有所不足,而CEM-FFM的分割性能达到最优。并且,在5类地物中,CEM-FFM相较于其他方法,分割图在区域内更加平滑。可以看出,改进的方法的分割图与标签图最为相似,有效减少了错误分类的像素数量。
2.4.2 RS2-SF-Bay的实验结果
不同方法在RS2-SF-Bay图像上的分割性能如表 3所示。CAEN在对比方法中效果仍是最优。在不加入FFM的情况下,CEM在OA、AA和Kappa系数这3个指标方面均高出CAEN约1%。加入FFM后,这3项数据又比CEM提升约3%。另外,在水体这一类别上,CEM的表现比SegNet、U-Net和PSPNet略逊一筹,CEM-FFM超过SegNet和U-Net,但低于U-Net。
表 3
不同方法在RS2-SF-Bay图像上的分割性能
Table 3
Segmentation performance of different methods on RS2-SF-Bay image
方法 | 准确度/% | OA/% | AA/% | Kappa×100 | ||||
建筑物1 | 建筑物2 | 水体 | 植被 | 建筑物3 | ||||
SegNet | 94.101 | 84.272 | 91.130 | 89.901 | 41.908 | 82.857 | 80.262 | 78.100 |
U-Net | 86.066 | 72.141 | 96.681 | 90.155 | 64.599 | 83.056 | 81.928 | 78.520 |
PSPNet | 90.627 | 71.156 | 92.134 | 97.237 | 70.173 | 86.064 | 84.465 | 82.249 |
FCN-DK3 | 93.363 | 74.173 | 82.009 | 94.868 | 80.112 | 86.501 | 85.019 | 82.876 |
CAEN | 92.295 | 91.389 | 85.356 | 95.627 | 79.212 | 89.962 | 88.776 | 87.210 |
CEM | 97.362 | 88.455 | 86.089 | 96.911 | 79.429 | 90.903 | 89.649 | 88.407 |
CEM+FFM | 95.952 | 93.478 | 93.675 | 97.667 | 80.460 | 93.293 | 92.247 | 91.458 |
注:加粗字体表示各列最优结果。 |
分割效果图如图 8所示。其中,建筑物3的类内相似度较低,易出现分类结果不一且有斑驳,如图 8(c)所示。由图 8(c)—(i)可知,随着算法对特征提取能力的增强,建筑物3这一类别的分类结果越来越同质化。另外,SegNet、U-Net、PSPNet和FCN-DK3模型的分割结果中存在许多错误分类的像素,尤其是建筑物2区域内,大量像素错误分类为建筑物1和建筑物3,而所提网络极大改善了这种情况。
3 结论
本文设计了一种基于全卷积神经网络的语义分割网络,提出了上下文编码模块和特征融合模块,并将两个模块并入编解码结构。具体结论如下:1)上下文编码模块具有强大的特征提取能力。该模块从空间与通道两个维度上提取上下文特征,实验表明,CEM取得了显著改进的分割结果。2)特征融合模块进一步增强了网络的特征表征能力。低层与高层特征的融合使得已提取的特征最大限度地被网络使用,且CEM-FFM达到了最优分割效果。
然而,特征的编码和融合仍有改进的空间,且本文方法是基于像素级的分割,如何将像素级与区域级结合融入网络结构是接下来的研究重点。
参考文献
-
Badrinarayanan V, Kendall A, Cipolla R. 2017. SegNet: a deep convolutional encoder-decoder architecture for image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(12): 2481-2495 [DOI:10.1109/TPAMI.2016.2644615]
-
Ding L, Tang H, Bruzzone L. 2019. Improving semantic segmentation of aerial images using patch-based attention [EB/OL]. [2021-01-16]. https://arxiv.org/pdf/1911.08877.pdf
-
He K M, Zhang X Y, Ren S Q, Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 770-778 [DOI: 10.1109/CVPR.2016.90]
-
Hu J, Shen L, Sun G. 2018. Squeeze-and-excitation networks//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 7132-7141 [DOI: 10.1109/CVPR.2018.00745]
-
Liang W K, Wu Y, Li M, Cao Y C. 2020. High-resolution SAR image classification using context-aware encoder network and hybrid conditional random field model. IEEE Transactions on Geoscience and Remote Sensing, 58(8): 5317-5335 [DOI:10.1109/TGRS.2019.2963699]
-
Lin M, Chen Q, Yan S C. 2014. Network in network [EB/OL]. [2021-01-16]. https://arxiv.org/pdf/1312.4400.pdf
-
Long J, Shelhamer E, Darrell T. 2015. Fully convolutional networks for semantic segmentation//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 3431-3440 [DOI: 10.1109/CVPR.2015.7298965]
-
Ma M, Liang J H, Guo M, Fan Y, Yin Y L. 2011. SAR image segmentation based on artificial bee colony algorithm. Applied Soft Computing, 11(8): 5205-5214 [DOI:10.1016/j.asoc.2011.05.039]
-
Moreira A, Prats-Iraola P, Younis M, Krieger G, Hajnsek I, Papathanassiou K P. 2013. A tutorial on synthetic aperture radar. IEEE Geoscience and Remote Sensing Magazine, 1(1): 6-43 [DOI:10.1109/MGRS.2013.2248301]
-
Mullissa A G, Persello C, Tolpekin V. 2018. Fully convolutional networks for multi-temporal SAR image classification//IGARSS 2018-2018 IEEE International Geoscience and Remote Sensing Symposium. Valencia, Spain: IEEE: 6635-6638 [DOI: 10.1109/IGARSS.2018.8518780]
-
Ronneberger O, Fischer P, Brox T. 2015. U-Net: convolutional networks for biomedical image segmentation//Proceedings of the 18th International Conference on Medical Image Computing and Computer Assisted Intervention. Munich, Germany: Springer: 234-241 [10. 1007/978-3-319-24574-4_28]
-
Soh L K, Tsatsoulis C. 1999. Texture analysis of SAR sea ice imagery using gray level co-occurrence matrices. IEEE Transactions on Geoscience and Remote Sensing, 37(2): 780-795 [DOI:10.1109/36.752194]
-
Song W Y, Li M, Zhang P, Wu Y, Jia L, An L. 2017. Unsupervised PolSAR image classification and segmentation using Dirichlet process mixture model and Markov random fields with similarity measure. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 10(8): 3556-3568 [DOI:10.1109/JSTARS.2017.2684301]
-
Wang F, Wu Y, Li M, Zhang P, Zhang Q J. 2017. Adaptive hybrid conditional random field model for SAR image segmentation. IEEE Transactions on Geoscience and Remote Sensing, 55(1): 537-550 [DOI:10.1109/TGRS.2016.2611060]
-
Xu K W, Yang X Z, Ai J Q, Zhang A J. 2019. Research on SAR image classification based on point feature similarity and convolutional neural network. Geography and Geo-information Science, 35(3): 28-36 (许开炜, 杨学志, 艾加秋, 张安骏. 2019. 点特征相似与卷积神经网络相结合的SAR图像分类算法研究. 地理与地理信息科学, 35(3): 28-36) [DOI:10.3969/j.issn.1672-0504.2019.03.005]
-
Yu F, Koltun V. 2016. Multi-scale context aggregation by dilated convolutions [EB/OL]. [2021-01-16]. https://arxiv.org/pdf/1511.07122.pdf
-
Zhai P B, Yang H, Song T T, Yu K, Ma L X, Huang X S. 2020. Two-path semantic segmentation algorithm combining attention mechanism. Journal of Image and Graphics, 25(8): 1627-1636 (翟鹏博, 杨浩, 宋婷婷, 余亢, 马龙祥, 黄向生. 2020. 结合注意力机制的双路径语义分割. 中国图象图形学报, 25(8): 1627-1636) [DOI:10.11834/jig.190533]
-
Zhang N, Li J, Li Y R, Du Y. 2019. Global attention pyramid network for semantic segmentation//Proceedings of 2019 Chinese Control Conference (CCC). Guangzhou, China: IEEE: 8728-8732 [DOI: 10.23919/ChiCC.2019.8865946]
-
Zhang Z M, Wang H P, Xu F, Jin Y Q. 2017. Complex-valued convolutional neural network and its application in polarimetric SAR image classification. IEEE Transactions on Geoscience and Remote Sensing, 55(12): 7177-7188 [DOI:10.1109/TGRS.2017.2743222]
-
Zhao H S, Shi J P, Qi X J, Wang X G, Jia J Y. 2017. Pyramid scene parsing network//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Hawaii, USA: IEEE: 6230-6239 [DOI: 10.1109/CVPR.2017.660]
-
Zhou Y, Wang H P, Xu F, Jin Y Q. 2016. Polarimetric SAR image classification using deep convolutional neural networks. IEEE Geoscience and Remote Sensing Letters, 13(12): 1935-1939 [DOI:10.1109/LGRS.2016.2618840]