发布时间: 2019-02-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180349
2019 | Volume 24 | Number 2

遥感图像处理

SAR变体目标识别的卷积神经网络法

冯秋晨, 彭冬亮, 谷雨

杭州电子科技大学通信信息传输与融合技术国防重点学科实验室, 杭州 310018

收稿日期: 2018-07-12; 修回日期: 2018-08-26

基金项目: 国家自然科学基金项目（61673146）

第一作者简介: 冯秋晨, 1993年生, 女, 硕士研究生, 主要研究方向为基于深度学习的SAR图像识别。E-mail:610434106@qq.com;
彭冬亮, 男, 教授, 主要研究方向为多源信息融合。E-mail:dlpeng@hdu.edu.cn.

中图法分类号: TP753

文献标识码: A

文章编号: 1006-8961(2019)02-0258-11

摘要

目的深度学习已经大量应用于合成孔径宽达（SAR）图像目标识别领域，但大多数工作是基于MSTAR数据集的标准操作条件展开研究。当将深度学习应用于同类含变体目标时，例如T72子类，由于目标间差异小，所以仍存在着较大的挑战。本文从极大限度地保留SAR图像输入特征出发，设计一种适用于SAR变体目标识别的深度卷积神经网络结构。方法设计网络主要由多尺度空间特征提取模块和DenseNet中的稠密块、转移层构成。多尺度特征提取模块置于网络底层，通过使用尺寸分别为1×1、3×3、5×5、7×7、9×9的卷积核，提取丰富空间特征的同时保留输入图像信息。为使输入图像信息更加有效地向后传递，基于DenseNet中的稠密块和转移层进行后续网络层设计。在对训练样本进行样本扩充基础上，分析了输入图像分辨率及目标存在平移和不同噪声水平等情况对模型识别精度的影响，与用于SAR图像目标识别的深度模型识别精度在标准操作条件下进行了对比分析。结果实验结果表明，对T72 8类变体目标进行分类，设计的模型能够取得95.48%的识别精度，在存在目标平移和不同噪声水平情况下，平均识别精度分别达到了94.61%和86.36%。对10类目标（包括不含变体和含变体情况）在进行数据增强的情况下进行模型训练与测试，分别达到了99.38%和98.81%的识别精度，略优于其他对比模型结构识别精度。结论提出的模型可以充分利用输入图像以及各卷积层输出的特征，学习目标图像的细节差异，不仅适用于SAR图像变体目标的识别任务，同时在标准操作条件下的识别任务也取得了较高的识别结果。

关键词

SAR目标识别; 变体目标; 深度学习; 多尺度特征; DenseNet

SAR target recognition with variants based on convolutional neural network

Feng Qiuchen, Peng Dongliang, Gu Yu

Fundamental Science on Communication Information Transmission and Fusion Technology Laboratory, Hangzhou Dianzi University, Hangzhou 310018, China

Supported by: National Natural Science Foundation of China (61673146)

Abstract

Objective Deep learning has been widely used in the field of synthetic aperture radar (SAR) target recognition and most studies have been conducted for target recognition under the standard operating conditions (SOCs) of MSTAR datasets. Many challenges exist due to the small differences among the targets when applied to target recognition with variants, such as T72 subclasses. To preserve the input features of SAR images, a deep convolutional neural network (CNN) architecture for SAR target recognition with variants is designed in this study. Method The proposed network is composed of one multiscale feature extraction module and several dense blocks and transition layers proposed in DenseNet. The multiscale feature extraction module, which is placed at the bottom of the network, uses multiple convolution kernels with sizes of 1×1, 3×3, 5×5, 7×7, and 9×9 to extract rich spatial features. The convolution kernels with a size of 1×1 are adopted to preserve the detailed information from the input image, and convolution kernels with large sizes are used in multiscale feature extraction module to suppress the influence of speckle noise on extracted features because speckle noise is a main factor that affects recognition performance. To transfer the information from the input image effectively and utilize the feature learned from all layers, dense blocks and transition layers are adopted in designing the latter layers of the network. A full convolution layer is used behind three dense blocks and transition layers to transform the learned features to vectors, and a SoftMax layer is adopted to perform classification. Finally, training datasets are augmented by displacing and adding speckle noise to the original images, and the proposed model is implemented using TensorFlow and is trained by using these samples. The influences of input image resolution, target translation, and different noise levels on the recognition accuracy of the proposed network are determined after augmenting the training datasets, and performance comparisons with other deep learning models under SOCs. Result Experimental results demonstrate that the input image resolution has a considerable influence on the recognition accuracy for eight types of T72 targets, and the accuracy improves considerably with the increase of input resolution. However, the input resolution has minimal effect on the recognition accuracy for SOC due to the large differences among the targets in SOC. The image resolution as the input of the proposed model is set to 88×88×1 because the target and shadow information during data enhancement should be preserved. To verify the performance of the proposed multiscale feature extraction module, tests are performed using different multiscale feature extraction strategies, and the proposed model obtains a classification accuracy of approximately 95.48% in the classification of eight subclasses of T72 target with variants. Aside from the recognition of test samples under SOC, the classification accuracies of the proposed model are investigated in terms of target translation and different noise levels. The proposed model can achieve a recognition accuracy higher than 90%, especially when the target is displaced 16 pixels away from the center of the original image. The proposed model still exhibits a good performance when the noise intensity is set to 0.5 or 1 but causes a remarkable decline in recognition accuracy when the noise intensity is greater than 1. The average classification accuracy can reach 94.61% and 86.36% in the case of object translation and different noise levels. Recognition accuracies of 99.38% (SOC1-10), 99.50% (SOC1-14), and 98.81% (SOC2) are achieved by using augmented training datasets in training the models for 10-class target recognition under SOC (without variants and with variants). Our model achieves comparable recognition performance with other deep models. Conclusion Our model utilizes the input information and features of each convolutional layer and captures the detailed difference among the targets from the images. Our model not only can be applied to target recognition task with variants but also achieve satisfactory recognition results under SOC.

Key words

SAR target recognition; target variants; deep learning; multi-scale feature; DenseNet

0 引言

合成孔径雷达(SAR)能够全天时、全天候工作，具有多波段、多极化等工作方式，其在导弹末制导和环境监控等方面具有广泛的应用^[1]。SAR自动目标识别(ATR)是SAR图像解译的一个重点研究方向，通常情况下一个端到端的SAR ATR处理流程包括目标检测、鉴别和识别3个环节^[2]。

特征提取和分类器设计是影响SAR图像目标识别精度的两个关键因素。在传统的机器学习算法中，常用的特征提取方法包括基于数学变换特征^[3-4]、计算机视觉特征^[5]和电磁特征^[6]等；目前用于SAR ATR的主流分类器包括模板匹配^[7]、支持向量机^[8]、Boosting^[9]和稀疏表示^[10]等。但在传统机器学习方法应用于SAR目标识别时，需要大量的专业知识，而且不能自动地提取表征SAR目标的特征，因此大量学者将能主动提取目标特征的深度学习方法引入到SAR图像识别问题的研究中^[11]。

深度学习是一种利用大量数据、自动学习有利于分类特征的表示学习方法，目前已成功地应用于语音识别、图像识别、自然语言处理等诸多领域^[12]。深度卷积神经网络(CNN)是一种监督深度学习模型，LeCun等人^[13]首先将其成功应用于手写数字识别，而后随着AlexNet在ImageNet数据集取得了远超经典算法的分类结果^[14]，吸引了学者们广泛地投入到深度学习的研究中，并提出了多种行之有效的深度CNN模型，如GoogLeNet^[15]、VGGNet^[16]、Highway^[17]、ResNet^[18]等。研究学者开始将CNN模型应用于SAR图像目标识别，但需解决两方面的问题：1)训练样本缺乏，深度卷积神经网络的参数较多，需要大量的训练数据训练模型参数，才能保证模型的泛化能力；2)深度模型的优化设计，相比于可见光图像，SAR图像具有较强的相干斑噪声，只有合理地设计模型结构，才能取得较高的识别精度。

目前对SAR ATR的研究主要是基于MSTAR(moving and stationary target acquisition and recognition)数据集展开的，分类场景主要包括标准操作条件(SOC)和扩展操作条件(EOC)两种。针对MSTAR数据集中训练样本不足的问题，通常采用数据增强的方法获得足够的训练样本。文献[19]根据SAR成像机理，采用弹性形变和仿射变换两种手段来生成虚拟样本，基于训练得到的模型提取深度特征，采用SVM进行分类，对MSTAR数据集中的10类目标进行分类，取得了99.5%的分类结果。但是该方法需要对输入图像进行方向归一化，因而限制了其应用范围。文献[20]针对训练集中目标某角度图像缺失，以及测试集中出现的目标平移和噪声水平不同的问题，通过对训练样本分别进行平移、加噪和角度合成操作得到增强后的训练样本集。文献[21]采用随机裁剪的方法从原始数据中提取尺寸为88×88像素的图像，对每一类目标图像增强后得到2 700个新样本作为新的训练集。

除通过数据增强手段提高训练模型的泛化能力外，对深度模型的优化设计也是影响SAR图像识别精度的一个重要因素。目前应用于SAR图像目标识别的CNN模型大多是在AlexNet等模型基础上改进得到的。为解决由于有限的SAR数据集引起的模型训练过拟合问题，文献[21]通过减少模型参数数量的方法，设计了一种不包含全连接层的卷积网络结构(A-ConvNets)，在对数据进行增强的情况下对10类不含变体目标取得了99.13%的识别精度。文献[22]参考了VGGNet和ResNet的结构进行模型优化设计，在不进行数据增强的条件下，对10类含变体目标数据进行分类测试，达到了98.75%的测试精度。文献[23]提出了一种适用于小规模数据集的卷积Highway单元网络(CHU-Net)，为提高有限样本条件下的识别精度，融合了两个具有不同卷积核宽度的CHU-Net的输出结果，对10类不含变体目标的识别精度达到99.09%。文献[24]研究了连接、求和两种特征融合方法对识别精度的影响。对以上两种方法的分类结果进行决策性融合，对10类不含变体目标进行测试取得了99.42%的识别精度。文献[25]认为较宽的卷积核更有利于降低SAR图像中相干斑噪声的影响，提出采用多个宽度较大的卷积核提取目标的多尺度空间特征，对10类目标(不含变体目标和含变体目标两种)分别达到了98.39%和97.69%的识别精度。文献[26]针对测试集中目标位置和旋转角不确定的问题，提出了一种对平移和旋转角不敏感的深度卷积神经网络模型，在对T72 8类变体目标进行方向归一化的条件下，能够达到94.8%的识别精度。

上述研究大多是基于SOC场景的，而对难分的同类变体目标的研究较少，其中变体主要是指同类目标间军事配置不同^[27]，目标间差异较小。当基于SOC场景时，即使是存在变体目标的情况下，由于其只包括T72和BMP2两种变体，类别间目标外观差异较大，故即使在不进行数据增强的情况下，通过合理设计深度模型仍能取得95%以上的平均识别精度。而在同类变体目标的场景下，如T72 8类变体目标，设计的模型不仅要考虑SAR图像相干斑噪声的影响，而且要能学到目标间细微的差距，因而对深度模型的设计提出了挑战。

本文对MSTAR数据集中的同类变体目标分类问题展开研究，首先采用多尺度特征提取模块，在使用宽度较大的卷积核减少SAR图像相干斑对模型影响的同时，通过较小的卷积核学习目标间的细微差距；然后结合DenseNet^[28]模型的设计思路，在高层特征中保留各级底层特征(包括原始图像信息)，设计了一种适用于SAR变体目标的CNN结构；对MSTAR数据集进行分类实验时，首先介绍了数据增强方法，然后验证了多尺度特征提取模块的特征提取能力，同时讨论了输入图像分辨率对模型识别精度的影响。最后，分析了设计的模型在目标存在平移和不同噪声水平的情况下的泛化能力，通过与已知模型的分类性能进行对比分析，验证了提出模型的有效性。

1 DenseNet模型

在训练CNN模型时，随着层数的增加，部分输入信息在经过众多卷积与池化等操作到达网络后端时会近乎消失。为了充分利用输入图像的原始信息，最大化网络之间的信息流动，文献[28]提出了一种名为DenseNet的新型网络，其包括稠密块和转换层两种基本结构，其中稠密块中每个卷积层都接收它之前的所有层的输出作为输入，并将该层的输出传递给之后的卷积层，如图 1所示。这种网络的连接模式可以表示为

图 1 稠密块结构示意图

Fig. 1 Schematic diagram of Dense Block

$ {x_l} = {H_l}([{x_0}, {x_1}, \ldots , {x_{l-1}}]) $

(1)

式中，$x_{l}$表示第$l$层的输出，$[x_{0}, x_{1}, …, x_{l－1}]$表示将第$0, 1, …, l－1$层的特征图在通道维度上连接。$H_{l}(·)$是第$l$层的激励函数，可以是卷积、池化、批量归一化(BN)等操作的组合。图 1中$k$代表卷积层宽度(growth rate)，即稠密块内每个卷积层输出的特征图的通道个数。由于稠密块内每层卷积层的输出的特征图尺寸应保持一致，故在两个稠密块之间采用转换层，通常由BN-ReLU-Conv-Pooling 4部分组成，实现降低特征图尺寸的目的, 同时减少了特征图通道个数。

由于DenseNet网络充分利用每个卷积层的输出信息，故可以设置较少的输出通道数，从而极大地减少了需训练参数的数量。经过稠密块层之后的特征通道数$C_{\rm{o}}$的计算公式为

$ {C_{\rm{o}}} = {N_H} \times k + {C_{\rm{i}}} $

(2)

式中，$C_{\rm{i}}$为稠密块输入的特征通道数，$N_{H}$为稠密块内的$H_{l}$(·)操作的次数。图 1中的$C_{\rm{i}}$=5，$N_{H}$=3，$k$=4。

2 用于SAR变体目标识别的CNN模型

图 2为MSTAR数据集中型号为T72的8个子类型的可见光图像和SAR图像。各子类型间仅军事配置有些微差别，如机关枪位置、油箱，以及天线是否展开等，其相比于目标间差异较大的10类目标分类任务(SOC场景)，对深度模型的设计和参数训练都提出了挑战。设计的CNN模型结构需能够从输入图像中捕获这些细微差别，才能够提高目标的识别精度。本文为实现SAR图像变体目标的识别任务，结合多尺度特征提取策略和DenseNet模型的设计理念，提出了一种适合于SAR变体目标的CNN模型。设计的模型结构具体细节如下：

图 2 T72 8类变体目标的SAR图像及对应可见光图像

Fig. 2 SAR images and their corresponding visible images for eight types of T72 targets

2.1 多尺度空间特征提取

深度CNN模型中底层卷积层提取的主要为空间特征，后面卷积层主要提取语义特征。考虑到T72不同类别目标间的空间特征差异比较小，为充分利用输入图像的原始信息，结合文献[25]和DenseNet的设计思路，提出的改进多尺度特征提取模块示意图如图 3所示。

图 3 多尺度特征提取模块示意图

Fig. 3 Schematic diagram of multi-scale feature extraction module

文献[25]采用宽度较大的卷积核降低模型对SAR图像中相干斑噪声的影响，在多尺度特征提取时，选用了宽度为5、7、9、11的卷积核，但为了增强模型对T72变体目标之间细微差距的学习能力，在保留了宽度为5、7、9的卷积核的同时，增加了宽度为3的卷积核。最后，为保留原始图像的输入信息，考虑稠密块的设计方法，将通过1×1卷积核得到的特征图与采用其他宽度的卷积核得到的特征图用连接的方式进行融合，作为后面卷积层的输入。

2.2 模型结构描述

当提取多尺度空间特征后，为将原始图像信息传递到后面的特征图，采用DenseNet模型中的稠密块和转换层进行多尺度特征提取后的特征提取与分类器设计，设计的结合多尺度特征提取策略和DenseNet模型的SAR图像变体目标识别CNN结构如表 1所示，表 1中所有卷积层皆进行补零操作(padding)，保证卷积前后特征图的尺度相同。

表 1 用于SAR图像识别的深度卷积神经网络结构
Table 1 Architecture of deep convolution neural network for SAR image recognition

下载CSV

输入	输出	滤波器(尺寸/步长)	通道数目	输出图像尺寸
	Input		1	$W×W$
Input	conv1	1×1/1	8	$W$×$W$
conv1	conv2	3×3/1	8	$W$×$W$
conv1	conv3	5×5/1	8	$W$×$W$
conv1	conv4	7×7/1	8	$W$×$W$
conv1	conv5	9×9/1	8	$W$×$W$
conv15	concat1		40	$W$×$W$
concat1	Pool1	3×3/2	40	$\left\lfloor {\frac{{W - 1}}{2}} \right\rfloor \times \left\lfloor {\frac{{W - 1}}{2}} \right\rfloor$
Pool1	D-Block1	3×3/1	70	$\left\lfloor {\frac{{W - 1}}{2}} \right\rfloor \times \left\lfloor {\frac{{W - 1}}{2}} \right\rfloor $
D-Block1	T-layer1	conv: 1×1/1Pool: 2×2/2	35	$\left\lfloor {\frac{{W - 1}}{4}} \right\rfloor \times \left\lfloor {\frac{{W - 1}}{4}} \right\rfloor $
T-layer1	D-Block2	3×3/1	95	$\left\lfloor {\frac{{W - 1}}{4}} \right\rfloor \times \left\lfloor {\frac{{W - 1}}{4}} \right\rfloor $
D-Block2	T-layer2	conv: 1×1/1Pool: 2×2/2	47	$\left\lfloor {\frac{{W - 1}}{8}} \right\rfloor \times \left\lfloor {\frac{{W - 1}}{8}} \right\rfloor $
T-layer2	D-Block3	3×3/1	167	$\left\lfloor {\frac{{W - 1}}{8}} \right\rfloor \times \left\lfloor {\frac{{W - 1}}{8}} \right\rfloor $
D-Block3	T-layer3	conv: 1×1/1Pool: 2×2/2	83	$\left\lfloor {\frac{{W - 1}}{16}} \right\rfloor \times \left\lfloor {\frac{{W - 1}}{16}} \right\rfloor $
T-layer3	conv6	$\left\lfloor {\frac{{W - 1}}{16}} \right\rfloor \times \left\lfloor {\frac{{W - 1}}{16}} \right\rfloor $	96	1×1
conv6	Dropout
Dropout	Softmax		$N$
注：$\left\lfloor {\; \; } \right\rfloor $表示向下取整。

从表 1可以看出，该网络采用多尺度特征提取模块提取特征后，通过池化层减小特征图的尺寸。而后依次添加3个稠密块层(对应表 1中D-Block)和3个转换层(对应表 1中T-layer)。最后通过全连接和Softmax层估计目标属于某一类别的概率。Dropout置于最后1个卷积层与Softmax层之间，以增加模型的泛化能力。由于conv6层采用与T-layer 3层输出相同尺寸的卷积核宽度，因此该网络适用于不同的输入图像分辨率。Softmax层的输出通道数为$N$，可根据具体分类任务设定。Dropout层添加在Softmax层之前，通过某一概率丢弃上层的神经元，在训练阶段提高模型泛化能力。

卷积核参数和每层输出通道数目如表 1所示，其中每层稠密块对应的卷积层宽度分别为6、12、24，每个稠密块包含5个卷积层。由于目标类别较少，且采用了稠密块结构，因而可以使用较少的卷积层输出通道数，实现较高的识别精度。

2.3 模型训练采用的超参数

权重参数初始化和超参数的设置是深度模型训练的重要因素。如表 2所示，卷积层初始化参数通过标准正态分布得到，由TensorFlow中提供的函数(Xavier_initializer)实现。

表 2 用于网络训练的超参数
Table 2 Hyperparameters for network training

下载CSV

卷积层初始化		大小	优化器	迭代次数	Dropout率	学习率
权重	偏置	大小	优化器	迭代次数	Dropout率	学习率
Xavier_initializer	0.05	128	Adam($β_{1}=0.9$; $β_{2}=0.999$)	200	0.5	0.001

模型采用Adam优化器进行优化求解，Adam算法通过计算梯度的一阶矩估计和二阶矩估计为不同的参数提供独立的自适应性学习率，其参数$w$更新为

$ {w_t} = {w_{t - 1}} - \alpha \cdot{m_t}^\prime /(\sqrt {{v_t}^\prime } + \varphi ) $

(3)

$ {m_t}^\prime = {\beta _1}\cdot{m_{t - 1}} + (1 - {\beta _1})\cdot{\nabla _w}L({w_{t - 1}}) $

(4)

$ {v_t}^\prime = {\beta _2}\cdot{v_{t - 1}} + (1 - {\beta _2})\cdot{({\nabla _w}L({w_{t - 1}}))^2} $

(5)

式中，$t$表示当前迭代次数，$α$为学习率，$β_{1}$和$β_{2}$分别为一阶矩和二阶矩的指数衰减率，$φ$为一个很小的常数。

训练过程中，在遍历完训练样本集1次之后，将其随机打乱，更新训练集和验证集，模型训练流程图如图 4所示。

图 4 模型训练流程图

Fig. 4 The flowchart of model training

3 实验结果分析

为验证提出深度模型的有效性，采用MSTAR数据集来测试提出深度结构的性能。基于Tensorflow进行深度模型的实现、学习和测试。实验中采用的PC机配置如下：英特尔i7-6850K CPU和两块显存为11 GB的ROG STRIX-GTX1080TI GPU，支持CUDA 8.0加速，内存为32 GB。

3.1 实验数据及增强方法

MSTAR数据集中包含T72等10类目标，SOC场景下一般采用17°俯视角得到的数据作为训练集，15°俯视角得到的数据作为测试集。实验中采用的T72 8类变体目标的训练样本及测试样本数目如表 3所示。对10类目标进行分类时，即SOC场景下采用的样本数如表 4所示，当测试集和训练集目标型号完全对应时，记做SOC1，其中不包括SN9566、SNC21、SN812和SNS7的场景记为SOC1-10，全部包括的记为SOC1-14；测试集选择包括所有型号在内的14类目标，训练集不包括SN9566、SNC21、SN812和SNS7时，记做SOC2。如表 3所示，考虑到SAR图像训练样本数量有限，基于文献[25]提出的数据增强方法，采用随机裁剪和加噪声^[20]的方式进行数据增强。经过增强的训练集主要由两部分构成：一是以原图像中心点为中心，通过随机裁剪得到切片图像；二是增强后的数据。从原始图像中随机裁剪与上述分辨率相同的切片图像，再以一定概率添加不同强度的相干斑噪声。图 5为随机裁剪和加噪增强的具体步骤，其中图像型号为T72-A04，编号为HB19377。$a$代表噪声强度，计算公式为

表 3 T72 8类目标数据集描述
Table 3 Dataset description of eight T72 targets

下载CSV

	A04	A05	A07	A10	A32	A62	A63	A64
训练样本数	299	299	299	296	298	299	299	299
测试样本数	274	274	274	271	274	274	274	274

表 4 SOC场景下数据集描述
Table 4 Dataset description under SOC

下载CSV

	2S1	BRDM2	D7	T62	ZIL131	ZSU234	BTR60	BMP2			BTR70	T72
	2S1	BRDM2	D7	T62	ZIL131	ZSU234	BTR60	SN9563	SN9566	SNC21	SNC71d	SN132	SN812	SNS7
训练样本数	299	298	299	299	299	299	256	233	232	196	233	232	231	228
测试样本数	274	274	274	273	274	274	195	195	196	196	196	196	195	191

图 5 数据增强示意图

Fig. 5 Diagram of data augmentation

$ a = 0.5 \times floor\left( {n/5} \right) $

(6)

式中，$n$表示当前图像增强次数，$n=1, 2, …, 15$；$floor( \;)$表示取整函数。重复上述过程15次，增强后的训练集扩大为原来的16倍。

3.2 输入图像分辨率对识别精度的影响

将深度CNN模型应用于SAR ATR时，通常选用的输入图像分辨率包括64、88、96、128等^[19-22]。由于MSTAR数据集中的图像是经过对比度自动增强得到的图像，而对比度增强过程利用了目标和背景的信息，故获得的目标图像会受到周围背景的影响，适当引入部分背景图像会有利于目标识别任务。

为研究输入图像分辨率对识别精度的影响，采用表 1所示的CNN结构，设定输入图像分辨率分别为64、88、96、128。表 5是模型在不进行数据增强时，在T72 8类变体目标和SOC1-10两种场景下的实验结果，除最大迭代次数为100，其他超参数设置同表 2。精度选取模型100次迭代中的最优结果。图 6为128×128像素的T72 8类目标的图像，红色方框区域大小为64×64像素。

表 5 不同输入图像分辨率下的识别精度
Table 5 Recognition accuracy under different resolution of input images

下载CSV

/%
	输入图像分辨率/像素
	64×64	88×88	96×96	128×128
T72	72.96	81.18	82.28	95.66
SOC1-10	98.06	97.98	97.86	97.03

图 6 T72 8类目标(整幅图尺寸为128×128像素，红色方框区域尺寸为64×64像素)

Fig. 6 Eight types of T72 targets(size of entire images: 128×128 pixels, size of red boxs: 64×64 pixels)

从表 5中可知，对于SOC1-10，分辨率的改变不会对识别精度产生较大的影响。而针对T72 8类变体目标，由于目标间的差异较小，只关注目标区域并不能高效地识别。所以在这种情况，需同时利用目标和周围背景信息。从图 6可以看出，64×64像素的切片包括了目标和部分阴影，88×88像素和96×96像素的区域包括了目标的阴影部分，识别精度相对于输入图像分辨率大小为64×64像素的分类结果，有了约10%的提升，而当扩大到128×128像素时，相比于输入图像分辨率为96×96像素的分类结果，精度又提高了近12%，说明图像背景部分对此目标的分类有重要意义。尽管在不增强训练集的情况下，输入图像分辨率为128×128像素时能取得95.66%的识别精度，但为使本文所提出的模型具有更强的适应性，同时考虑数据增强时随机裁剪的需要，以下实验都选用了88×88像素的输入图像分辨率。

3.3 同类变体目标条件下的模型分类性能分析

基于3.1节的设计分析，首先通过实验验证多尺度体征提取策略对提高模型识别精度的有效性。采用表 3的数据进行增强后，进行模型参数训练，对测试集进行分类的实验结果如表 6所示。其中feature $m$表示图 3中经宽度为$m$的卷积层提取到的特征图；多尺度特征提取策略1为文献[25]使用的多尺度特征提取方法；多尺度特征提取策略2为本文提出的改进多尺度特征提取方法。当模型第1层采用后者时，T72 8类目标的分类混淆矩阵如表 7所示。单一测试图像经过多尺度特征提取模块得到的特征图如图 7所示，第1~5行分别为多尺度策略2中宽度为1、3、5、7、9的卷积核提取出的特征。

表 6 不同多尺度特征提取策略下模型分类结果
Table 6 Recognition results under different multi-scale feature extraction strategy

下载CSV

模型第1层设计策略	精度(最后, 最佳) /%
concat(feature 1, feature 3)	88.26, 94.66
concat(feature 1, feature 5)	91.09, 95.39
concat(feature 1, feature 7)	90.82, 94.88
concat(feature 1, feature 9)	90.41, 93.56
多尺度策略1	92.69, 95.25
多尺度策略2	93.47, 95.48

表 7 T72 8类目标的分类混淆矩阵
Table 7 Classification confusion matrix for eight T72 classes

下载CSV

	A04	A05	A07	A10	A32	A62	A63	A64	正确率/%
A04	252	0	2	1	4	0	3	2	91.97
A05	0	271	0	0	0	0	0	3	98.91
A07	1	3	265	0	0	0	1	4	96.72
A10	0	3	0	267	0	0	0	1	98.52
A32	14	0	4	0	253	0	3	0	92.34
A62	5	1	1	0	1	261	4	1	95.26
A63	3	0	1	0	0	1	269	0	98.17
A64	3	6	7	0	0	4	2	252	91.97
平均精度/%									95.48
总体精度/%									95.48

图 7 多尺度特征提取模块所得特征图

Fig. 7 Feature maps extracted by multi-scale feature extraction module

从表 6可以看出，将1×1卷积与单一尺度卷积特征进行连接时，模型的识别精度波动较大。在相干斑噪声和目标间差异较小的双重影响下，在卷积核宽度为5时可达到95.39%的识别精度。随着卷积核尺寸的增大，最佳识别精度逐渐下降。当采用多尺度策略时，识别精度与采用单一尺度(卷积核宽度为5)的最佳分类结果持平且略有提升。采用本文提出的多尺度特征提取策略取得了最佳的分类结果，且从最后与最佳识别精度可以看出，训练的过程较为稳定。从图 7可以看出，宽度为1的卷积核提取到的特征图含有更多目标和背景细节信息，当宽度变大时，提取到的特征图丢失了目标部分细节，但对背景的噪声起到一定抑制作用，因此采用本文提出的多尺度特征提取策略，可获得更加丰富的特征，有利于识别目标类别。

对比本文模型与文献[26]模型的目标识别精度，结果如表 8所示。由于MSTAR数据集提供的30°和45°的T72数据只包括A64一种类别，考虑到使训练过程中各类别的样本数量大致相同，本文没有使用30°和45°的T72数据。文献[26]分别在对训练集方向归一化和平移0、±4、±8、±12的情况下，对测试集采用与训练集相同的操作进行分类实验。本文采用上述训练得到的CNN模型，用原始和平移情况下测试集测试其分类性能，其中平移操作是指：以图像2维中心点为坐标原点，从水平和竖直方向分别平移±4、±8、±12、±16个像素提取目标切片图像。从表 8可以看出，本文模型在没有对目标进行方向归一化的条件下，提高了对T72变体目标的识别精度，达到了95.48%的识别精度，具有较强的平移不变性。

表 8 T72 8类目标的不同模型识别精度比较
Table 8 Comparison of different models' recognition accuracy for eight types of T72 targets

下载CSV

方法	训练集俯视角	测试集俯视角	训练集处理	测试集处理	精度/%
文献[26]	17°+30°	15°+45°	方向归一化	方向归一化	94.8
文献[26]	17°+30°	15°+45°	平移	平移(平均)	87.0
本文模型	17°	15°	平移、加噪增强	无	95.48
本文模型	17°	15°	平移、加噪增强	平移(平均)	94.61

3.4 平移与噪声对识别精度的影响

在实际应用中，用于识别的SAR切片图像首先需要检测和鉴别，不能保证目标部分正好位于切片图像的中心。为研究本文所提模型对目标平移和不同强度噪声下的分类性能，对测试集进行不同程度的平移与加噪，测试已训练好的T72 8类变体目标识别模型的分类性能，其中平移操作与3.3节采用的平移方法相同。实验结果如图 8、图 9所示。

图 8 目标平移对模型识别精度的影响

Fig. 8 The influence of target translation on recognition accuracy of the proposed model

图 9 噪声对模型分类识别精度的影响

Fig. 9 The influence of noise on recognition occuracy of the proposed model

从图 8、图 9可知，在目标平移了16个像素时，仍能达到90%以上的识别精度。在噪声强度$a$为0.5、1 dB时，仍有较好的表现；当噪声强度$a$大于1 dB后，将引起识别精度大幅下滑，不同噪声情况下的平均识别精度为86.36%($a$分别为0、0.5、1、1.5、2 dB)。

3.5 SOC条件下的识别结果

为验证本文提出模型在不同场景下的分类能力，在SOC1和SOC2两种操作条件下进行了实验结果分析，具体如表 9所示。本文提出模型选用的图像输入分辨率大小为88×88像素，不采用数据增强手段时，训练迭代100次；采用数据增强时，训练迭代200次，取最佳结果。从表 9可知，本文设计模型在SOC条件下取得了略优于目前已知模型的识别精度，由此说明本文设计的模型结构不仅适用于T72变体目标分类任务，同时也适用于其他分类场景。

表 9 与目前已知模型的识别性能对比分析
Table 9 Comparison of recognition performance with state-of-the-art models

下载CSV

/%
方法	数据增强手段	精度(SOC1)		精度(SOC2)
方法	数据增强手段	SOC1-10	SOC1-14	精度(SOC2)
文献[21]	随机裁剪、加噪	99.13
文献[22]	无		98.75
文献[23]	无	99.09
文献[24]	无			99.42
文献[25]	平移、加噪	98.39		97.69
本文模型	无	97.78	98.44	97.07
本文模型	平移、加噪	99.38	99.50	98.81

4 结论

针对SAR图像变体目标识别任务展开研究，通过多尺度特征提取模块，减少模型对SAR图像中相干斑噪声的影响，学习目标图像之间的细节差异，并且运用DenseNet模型的理念，使得最后1层用于分类的高级特征充分保留了之前各层(包括输入层)的特征。实验结果验证了提出的CNN模型提高了对SAR变体目标的识别精度，同时也适用于SOC情况下的识别任务。此外，实验研究表明对于SOC情况，输入图像分辨率为64×64像素时就可达到较高的识别精度，增加图像分辨率无法提高模型识别精度；而对含变体目标，随着输入图像分辨率的增加，识别精度逐渐变高。

参考文献

[1] Wu L B. SAR Image processing and target recognition[M]. Peking: Aviation industry press, 2013. [ 吴良斌. SAR图像处理与目标识别[M]. 北京: 航空工业出版社, 2013.]

[2] El-Darymli K, Gill E W, Mcguire P, et al. Automatic target recognition in synthetic aperture radar imagery:a state-of-the-art review[J]. IEEE Access, 2016, 4: 6014–6058. [DOI:10.1109/ACCESS.2016.2611492]

[3] Liu Z J, Zhuang L K, Cao Y F, et al. Target recognition of SAR images using principal component analysis and sparse representation[J]. Systems Engineering and Electronics, 2013, 35(2): 282–286. [刘中杰, 庄丽葵, 曹云峰, 等. 基于主元分析和稀疏表示的SAR图像目标识别[J]. 系统工程与电子技术, 2013, 35(2): 282–286. ] [DOI:10.3969/j.issn.1001-506X.2013.02.08]

[4] Huan R H, Yang R L. Synthetic Aperture Radar Images Target Recognition Based on Wavelet Domain NMF Feature Extraction[J]. Journal of electronics and information technology, 2009, 31(3): 588–591. [宦若虹, 杨汝良. 基于小波域NMF特征提取的SAR图像目标识别方法[J]. 电子与信息学报, 2009, 31(3): 588–591. ] [DOI:10.3724/SP.J.1146.2007.01889]

[5] He Z G, Lu J, Kuang G Y. A survey on feature extraction and selection of SAR images[J]. Signal Processing, 2008, 24(5): 813–823. [贺志国, 陆军, 匡纲要. SAR图像特征提取与选择研究[J]. 信号处理, 2008, 24(5): 813–823. ] [DOI:10.3969/j.issn.1003-0530.2008.05.024]

[6] Lou J, Jin T, Song Q, et al. Feature extraction of scattering centers in high-resolution SAR image[J]. Journal of Electronics & Information Technology, 2011, 33(7): 1661–1666. [娄军, 金添, 宋千, 等. 高分辨率SAR图像散射中心特征提取[J]. 电子与信息学报, 2011, 33(7): 1661–1666. ] [DOI:10.3724/SP.J.1146.2010.00960]

[7] Ross T D, Worrell S W, Velten V J, et al. Standard SAR ATR evaluation experiments using the MSTAR public release data set[C]//Proceedings of 3370, Algorithms for Synthetic Aperture Radar Imagery V. Orlando, FL, USA: SPIE, 1998, 3370: 566-573.[DOI: 10.1117/12.321859]

[8] Zhao Q, Principe J C. Support vector machines for SAR automatic target recognition[J]. IEEE Transactions on Aerospace and Electronic Systems, 2001, 37(2): 643–654. [DOI:10.1109/7.937475]

[9] Sun Y J, Liu Z P, Todorovic S, et al. Adaptive boosting for SAR automatic target recognition[J]. IEEE Transactions on Aerospace and Electronic Systems, 2007, 43(1): 112–125. [DOI:10.1109/TAES.2007.357120]

[10] Dong G G, Kuang G Y, Wang N, et al. SAR target recognition via joint sparse representation of monogenic signal[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2015, 8(7): 3316–3328. [DOI:10.1109/JSTARS.2015.2436694]

[11] Fan X Y. Reserch of SAR target recognition methods based on deep learning[D]. Chengdu: Universicty of electronic science and technology of China, 2016. [樊旭云.基于深度学习的SAR目标识别方法研究[D].成都: 电子科技大学, 2016.] http://cdmd.cnki.com.cn/Article/CDMD-10614-1016176931.htm

[12] Yu K, Jia L, Chen Y Q, et al. Deep Learning:Yesterday, today, and tomorrow[J]. Journal of computer research and development, 2013, 50(9): 1799–1804. [余凯, 贾磊, 陈雨强, 等. 深度学习的昨天、今天和明天[J]. 计算机研究与发展, 2013, 50(9): 1799–1804. ]

[13] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278–2324. [DOI:10.1109/5.726791]

[14] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada: Curran Associates Inc., 2012: 1097-1105. https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

[15] Szegedy C, Liu W, Jia Y Q, et al. Going deeper with convolutions[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 1-9.[DOI: 10.1109/CVPR.2015.7298594]

[16] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL].[2018-07-01]. https://arxiv.org/pdf/1409.1556.pdf

[17] Srivastava R K, Greff K, Schmidhuber J. Highway networks[EB/OL].[2018-07-01]. https://arxiv.org/pdf/1505.00387.pdf

[18] He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 770-778.[DOI: 10.1109/CVPR.2016.90]

[19] Wagner S A. SAR ATR by a combination of convolutional neural network and support vector machines[J]. IEEE Transactions on Aerospace and Electronic Systems, 2016, 52(6): 2861–2872. [DOI:10.1109/TAES.2016.160061]

[20] Ding J, Chen B, Liu H W, et al. Convolutional neural network with data augmentation for SAR target recognition[J]. IEEE Geoscience and Remote Sensing Letters, 2016, 13(3): 364–368. [DOI:10.1109/LGRS.2015.2513754]

[21] Chen S Z, Wang H P, Xu F, et al. Target classification using the deep convolutional networks for SAR images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(8): 4806–4817. [DOI:10.1109/TGRS.2016.2551720]

[22] Furukawa H. Deep learning for target classification from SAR imagery: data augmentation and translation invariance[EB/OL].[2018-07-01]. https://arxiv.org/pdf/1708.07920.pdf

[23] Lin Z, Ji K F, Kang M, et al. Deep convolutional highway unit network for SAR target classification with limited labeled training data[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(7): 1091–1095. [DOI:10.1109/LGRS.2017.2698213]

[24] Chen S Q, Zhan R H, Hu J M, et al. Feature fusion based on convolutional neural network for SAR ATR[C]//Proceedings of ITM Web of Conferences. 2017: 12, 05001.[DOI: 10.1051/itmconf/20171205001]

[25] Gu Y, Xu Y. Architecture design of deep convolution neural network for SAR target recognition[J]. Journal of Image and Graphics, 2018, 23(6): 928–936. [谷雨, 徐英. 面向SAR目标识别的深度卷积神经网络结构设计[J]. 中国图象图形学报, 2018, 23(6): 928–936. ] [DOI:10.11834/jig.170473]

[26] Du K N, Deng Y K, Wang R, et al. SAR ATR based on displacement and rotation-insensitive CNN[J]. Remote Sensing Letters, 2016, 7(9): 895–904. [DOI:10.1080/2150704X.2016.1196837]

[27] Cheng G, Zhao W, Pan J F. Research on MSTAR SAR Target Recognition Based on Wavelet Analysis and Support Vector Machine[J]. Journal of Image and Graphics, 2009, 14(2): 317–322. [成功, 赵巍, 潘锦峰. 基于小波分解和支持向量机的MSTAR SAR目标分类识别研究[J]. 中国图象图形学报, 2009, 14(2): 317–322. ] [DOI:10.11834/jig.20090219]

[28] Huang G, Liu Z, Maaten L V, et al. Densely connected convolutional networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, Hawaii, USA: IEEE, 2017: 2261-2269.[DOI: 10.1109/CVPR.2017.243]