Print

发布时间: 2018-06-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170473
2018 | Volume 23 | Number 6




    遥感图像处理    




  <<上一篇 




  下一篇>> 





面向SAR目标识别的深度卷积神经网络结构设计
expand article info 谷雨1, 徐英2
1. 杭州电子科技大学通信信息传输与融合技术国防重点学科实验室, 杭州 310018;
2. 杭州电子科技大学生命信息与仪器工程学院, 杭州 310018

摘要

目的 针对用于SAR(synthetic aperture radar)目标识别的深度卷积神经网络模型结构的优化设计难题,在分析卷积核宽度对分类性能影响基础上,设计了一种适用于SAR目标识别的深度卷积神经网络结构。方法 首先基于二维随机卷积特征和具有单个隐层的神经网络模型-超限学习机分析了卷积核宽度对SAR图像目标分类性能的影响;然后,基于上述分析结果,在实现空间特征提取的卷积层中采用多个具有不同宽度的卷积核提取目标的多尺度局部特征,设计了一种适用于SAR图像目标识别的深度模型结构;最后,在对MSTAR(moving and stationary target acquisition and recognition)数据集中的训练样本进行样本扩充基础上,设定了深度模型训练的超参数,进行了深度模型参数训练与分类性能验证。结果 实验结果表明,对于具有较强相干斑噪声的SAR图像而言,采用宽度更大的卷积核能够提取目标的局部特征,提出的模型因能从输入图像提取目标的多尺度局部特征,对于10类目标的分类结果(包含非变形目标和变形目标两种情况)接近或优于已知文献的最优分类结果,目标总体分类精度分别达到了98.39%和97.69%,验证了提出模型结构的有效性。结论 对于SAR图像目标识别,由于与可见光图像具有不同的成像机理,应采用更大的卷积核来提取目标的空间特征用于分类,通过对深度模型进行优化设计能够提高SAR图像目标识别的精度。

关键词

SAR目标识别; 深度卷积神经网络; 结构设计; 随机权重; 超限学习机

Architecture design of deep convolutional neural network for SAR target recognition
expand article info Gu Yu1, Xu Ying2
1. Fundamental Science on Communication Information Transmission and Fusion Technology Laboratory, Hangzhou Dianzi University, Hangzhou 310018, China;
2. College of Life Information Science & Instrument Engineering, Hangzhou Dianzi University, Hangzhou 310018, China
Supported by: National Natural Science Foundation of China (61375011, 61771177)

Abstract

Objective To solve issues in the optimization design of deep convolutional neural network (DCNN) model architecture for synthetic aperture radar (SAR) target recognition, a DCNN model architecture for SAR target recognition is presented based on the analysis of the influence of convolution kernel size on classification performance. Method First, two-dimensional random convolution features and extreme learning machines (ELMs), which are a single-hidden-layer neural network, are used to analyze the influence of convolution kernel size on SAR target recognition performance. Experimental results show that recognition performance increases as the kernel size increases although convolution kernels generate randomly and the convolution kernel with size 3×3 is unsuitable for SAR image recognition. Second, a DCNN architecture for SAR target recognition, in which the pixel resolution of input image is set to 88×88, is presented based on directed acyclic graph architecture. Multiple convolution kernels with different sizes, which are set as 5×5, 7×7, 9×9, and 11×11, are first adopted in the spatial-feature-extraction convolutional layer of DCNN to extract multi-scale local features from input images, and convolution kernels with large size, including 7×7, 5×5, and 6×6, are then used in the last convolutional layers to extract semantic features. A fully connected layer is used as the classifier to recognize various types of targets and softmax loss function is used to train the parameters of the convolutional layers. The dropout strategy, which can improve regularization performance, is used between the fully connected layer and the output layer. Rectified linear units following behind each convolutional layer are used as activation functions, and pooling operations with width 3 and stride 2 are used to perform downsampling behind each activation function layer. Finally, MSTAR database, where the training samples are randomly augmented through sampling and adding speckle noises, is used to train the parameters of the proposed model architecture after setting proper training hyperparameters, and the recognition performances are tested in standard operating conditions, where target configurations with non-deformable and deformable conditions are considered. Result The MatConvNet toolbox is used to implement the proposed DCNN model architecture. In this task, 90% of the augmented training samples are used to train the parameters of each convolutional layer, and other training samples are used to verify the trained parameters. The dropout rate is set as 0.1. The training procedure stops after 28 epochs, and the trained parameters are used to test recognition performance. The experimental results demonstrate that superior performance can be achieved for SAR image recognition because large-size kernels are used to extract spatial features from input image to overcome the influence of high-level speckle noise. This result is different from that of natural scene classification scenario using visible images, where small kernel sizes, such as 3×3, 3×1, and 1×3, are used to achieve high recognition performance. The classification results based on the proposed architecture for 10 classes (including non-deformable and deformable target configurations) are compared with two DCNN models. The experimental results show that it can achieve comparable or better results than that of state-of-the-art deep model architectures, where the overall recognition performances reach 98.39% and 97.69%, respectively, for the two scenarios. The deep model using 3×3 convolutional layers can only achieve 93.16% recognition rate, which confirms our analysis on the influence of convolution kernel size on SAR image recognition performance. The recognition performance using the proposed DCNN model architecture is also better than that using random convolution features and ELM. This finding demonstrates that the DCNN model architecture can achieve satisfactory performance when deep architecture is carefully designed and more training samples are used to train these parameters. Conclusion A large convolution kernel size should be used to extract spatial features for SAR target recognition due to different imaging mechanisms compared with visible images, and better performance can be achieved through the optimization design of deep model architecture with augmented training samples.

Key words

SAR target recognition; deep convolution neural network; architecture design; random weight; extreme learning machines

0 引言

SAR(synthetic aperture radar)图像自动目标识别是SAR图像解译的一个重点研究方向,通过使用数据处理方法对目标进行分类与识别,其在国民经济和国防建设中有着广泛的应用,如海洋监测系统、舰船目标识别、矿藏探测等[1]

影响SAR目标识别的主要因素包括以下几个方面:1)相干斑噪声。由于自然景物的散射系数小,散射表现为各向同性、均匀散射,因此SAR图像背景具有很强的噪声,主要是相干斑噪声。2)目标方位角。由于方位角的差异,目标的后向散射系数不同,同类目标在SAR图像中的强度会有一定差异。3)平台俯视角。散射强度与目标方位角、成像俯视角等参数有很大关系,不同俯视角下目标成像特性不同。4)变形目标情况。同一大类中不同型号目标的军事配置不同,如同类坦克上有无机关枪、油箱,以及天线是否展开等。

特征提取和分类器设计是影响SAR图像目标识别精度的两个关键因素[1]。特征提取可分为广义和狭义特征提取两类[2]。广义的特征提取是指一种变换,即利用各种数学变换方法改善特征空间中原始特征的分布而不改变内部的结构和参数,达到压缩特征维数、去除冗余特征、减少计算量的目的。常见的广义特征提取方法包括主成分分析、独立分量分析、非负矩阵分解、小波变换等。狭义的特征提取算法提取的特征一般具有较明显的物理含义,主要包括计算机视觉特征和电磁特征[3-4],通过图像处理方法提出的计算机视觉特征包括纹理、姿态角、形状、峰值、分形维数、主导边界等,后者包括散射中心、HRR (high range resolution)剖面等。目前主要的SAR图像目标识别算法包括基于模板匹配的方法、基于支持向量机的方法[5]、基于Boosting的方法[6]、基于稀疏表示的方法[7-9]等。

深度学习的概念起源于人工神经网络研究,相比于浅学习表示能力更强,但由于深度的增加引起的深度模型参数学习困难是限制深度学习发展的主要因素。自Hinton等人提出用于深度信任网络训练的有效算法以来[10],深度学习模型、结构、算法等都有了长足进展。深度学习根据学习形式可分为非监督学习、半监督学习、监督学习三类。无监督学习算法使用无标签的数据集进行训练,可提取蕴含在数据内部有效的结构特征。卷积神经网络(CNN)是一类典型的监督学习模型,在基于图像的目标检测与识别应用等方面取得了优异的效果。目前,用于目标识别的经典CNN模型包括LeNet[11]、AlexNet[12]、GoogleNet[13]、VGGNet[14]和ResNet[15]等。文献[11]首先将卷积神经网络用于手写字体识别,提出了经典的LeNet模型。由于输入图像的分辨率较低(28×28),模型结构相对比较简单,但包含了深度卷积神经网络结构设计的核心要素,例如卷积层,池化层,全连接层和损失层等,这为后续深度模型结构的发展提供了一定的设计依据。AlexNet[12]是成功应用于大型图像数据库目标分类的深度模型结构,其第一层的卷积核尺寸为11×11,大于LeNet模型的5×5,这更有利于捕捉图像的局部特征,从而提高高分辨率图像的分类精度。后续的深度模型结构发展倾向于采用更小的卷积核和更深的模型深度,实验结果表明,这对图像噪声较少的可见光图像而言,确实有利于提高目标的分类精度。GoogleNet[13]提出了Inception模型,对于上一层的输出,分别采用1×1,3×3,5×5的卷积核来捕捉不同尺度的目标局部特征。VGGNet[14]仅使用较小的卷积核(3×3)进行特征提取,对基于可见光图像的自然景物分类任务取得了较高的精度。

目前基于卷积神经网络的深度模型已经开始应用于SAR图像目标识别[16-17],通过学习得到的特征进行分类能够取得较高的识别精度,但是基于深度卷积神经网络的SAR目标识别方法需解决以下问题:

1) 较少的训练样本。典型SAR图像数据库中每个类别目标样本数量较少(< 300),但只有在有足够多训练样本的前提下,基于深度学习的方法才能发挥其优势,即从大量数据中学习到有利于目标分类识别的卷积特征。由于构建完备的典型SAR目标图像数据库比较困难,目前通常采用数据增强手段,通过对样本进行平移、翻转和加噪声等操作生成若干虚拟样本;

2) 深度模型的优化设计。深度学习理论目前正在快速发展,不同的模型设计理念对识别结果影响较大。基于深度学习的识别方法通常具有较多的模型参数,如何设置模型的初始值和模型训练的超参数等都是值得研究的问题;

3) 较长的训练时间。由于需要大数据去训练模型参数,且模型参数通常较多,故需要较长的时间训练,才能得到满意的分类结果。

本文针对将深度卷积神经网络用于SAR目标识别的深度模型结构设计问题展开研究,首先基于随机权重提取的卷积特征和具有单隐层的神经网络模型—超限学习机研究深度模型中空间特征提取卷积层卷积核宽度对SAR目标分类性能的影响;然后,在深度模型结构设计时,采用多个卷积核宽度来提取目标的多尺度2维卷积特征,设计了一种适用于SAR目标识别的深度模型结构;最后,基于MSTAR (moving and stationary target acquisition and recognition)数据库进行模型参数的学习和分类性能的验证,并与已知的深度模型结构进行了对比分析,验证了提出模型的有效性。

1 基于随机卷积特征和超限学习机的卷积核宽度对分类性能的影响分析

采用深度卷积神经网络设计SAR目标识别模型时,需要解决训练样本构建、目标函数选择、深度模型结构设计、优化算法与超参数选择等4个方面[18]。深度模型结构设计包括微观结构和宏观结构两个方面[19]。微观结构是指滤波核的尺寸和输出通道数等。宏观结构包括网络深度、卷积层间连接关系等。不同的卷积核宽度能够提取不同尺度的局部特征,对于可见光图像而言,通常第1层卷积层会采用较大的卷积核来提取目标的2维空间特征,后面的卷积层设计尚未有统一的指导性原则,目前倾向于采用较小的卷积核,比如3×3,1×3,3×1等。对于SAR图像而言,由于具有较强的相干斑噪声,且图像分辨率低,因此对用于SAR图像识别的深度模型结构进行优化设计十分必要。

文献[20]研究表明,设计合适的网络结构,即使采用随机生成的权重也能够取得满意的分类结果,因此可以用随机生成的权重来测试设计的模型结构的分类性能。本文基于随机权重提取的二维卷积特征,利用超限学习机[21] (ELM)作为分类器,分析卷积核宽度对于SAR图像分类性能的影响,进而设计了适用于SAR图像分类的深度模型结构。

1.1 超限学习机

ELM是具有单个隐层的前馈神经网络,通过对输入层与隐层间的权重进行随机化处理,使得该算法在目标分类、特征学习等方面具有良好的泛化能力[21]。因不需要在线更新权重,故训练速度非常快。ELM算法具有泛化能力好,可调参数少和计算速度快等优点,其分类模型为

$ {f_L}\left( \mathit{\boldsymbol{x}} \right) = \sum\limits_{i = 1}^L {{\beta _i}{h_i}\left( \mathit{\boldsymbol{x}} \right)} = h\left( \mathit{\boldsymbol{x}} \right)\beta $ (1)

式中, ${h_i}\left(\mathit{\boldsymbol{x}} \right) = G({\mathit{\boldsymbol{a}}_i}, {b_i}, \mathit{\boldsymbol{x}})$ 为隐层输出响应值, $G()$ 为采用的激活函数, $\mathit{\boldsymbol{x}} \in {{\bf{R}}^d}$ 为输入特征向量, ${\mathit{\boldsymbol{a}}_i} \in {{\bf{R}}^d}$ 为输入层和隐层间的随机连接权重, ${b_i} \in {\bf{R}}$ 为偏移值, $L$ 为隐层节点个数, $\mathit{\boldsymbol{\beta }}$ 为输出权重向量。设训练样本数目为 $M$ ,目标类别数目为 $B$ ,ELM优化的目标函数为

$ \mathop {\min }\limits_{\beta \in {{\bf{R}}^{L \times M}}} \lambda \left\| {\mathit{\boldsymbol{H\beta }} - \mathit{\boldsymbol{T}}} \right\|_p^{{\delta _1}} + \left\| \mathit{\boldsymbol{\beta }} \right\|_q^{{\delta _2}} $ (2)

式中, ${\delta _1} > 0$ , ${\delta _2} > 0$ , $p$ , $q=0$ , 1, 2, …, +∞, $\lambda $ 为正则化参数, $\lambda $ 为隐层节点输出的随机矩阵, $\mathit{\boldsymbol{T}}$ 为目标类别向量,计算公式为

$ \mathit{\boldsymbol{T}} = \left[ {\begin{array}{*{20}{c}} {\mathit{\boldsymbol{t}}_1^{\rm{T}}}\\ \vdots \\ {\mathit{\boldsymbol{t}}_M^{\rm{T}}} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} {{t_{11}}}& \cdots &{{t_{1B}}}\\ \vdots &{}& \vdots \\ {{t_{M1}}}& \vdots &{{t_{MB}}} \end{array}} \right] $ (3)

${\delta _1} = 2$ , ${\delta _2} = 2$ , ${\delta _2} = 2$ , $q = 2$ 时,式(2)具有闭环解,即

$ \beta = {\mathit{\boldsymbol{H}}^{\rm{T}}}{\left( {\frac{\mathit{\boldsymbol{I}}}{\lambda } + \mathit{\boldsymbol{H}}{\mathit{\boldsymbol{H}}^{\rm{T}}}} \right)^{ - 1}}\mathit{\boldsymbol{T}},\;\;M \le L $ (4)

$ \beta = {\left( {\frac{\mathit{\boldsymbol{I}}}{\lambda } + {\mathit{\boldsymbol{H}}^{\rm{T}}}\mathit{\boldsymbol{H}}} \right)^{ - 1}}{\mathit{\boldsymbol{H}}^{\rm{T}}}\mathit{\boldsymbol{T}},\;\;M > L $ (5)

式中, $\mathit{\boldsymbol{I}}$ 为单位矩阵。

1.2 卷积核宽度对分类性能的影响分析

实验研究表明,对于2维图像的分类问题,通过卷积操作提取目标的局部特征,能够显著地提高目标的分类性能。文献[22]提出了基于随机卷积特征的超限学习机算法,将卷积神经网络中的卷积和池化操作作为特征提取模块,基于随机生成的卷积核进行二维局部特征的提取,然后基于岭回归算法训练得到分类器。故可用利用该算法进行卷积核宽度对分类性能的影响分析。

采用MSTAR数据库进行分类实验,首先对输入的SAR图像进行预处理,采用3×3的均值滤波器对输入图像进行去噪,提取图像中心点周围64×64的目标切片,然后将其缩放至32×32,并除以255.0使得图像的灰度等级位于区间[0 1]。采用文献[22]算法进行分类器时,算法参数如表 1所示。采用文献[16]中的配置,对10类混合目标(带变形目标情况)进行分类实验,实验结果如图 1所示。从图 1中可以看出,当采用较大的卷积核时,分类精度均优于3×3卷积核的分类精度,这主要是SAR图像具有较强的相干斑噪声,而卷积特征容易受到输入噪声的影响。因此在进行深度模型结构设计时,尤其是用于空间特征提取的卷积层,应采用较大的卷积核宽度来提取目标特征。

表 1 基于随机卷积特征的超限学习机算法参数
Table 1 Parameters of ELM using random convolution features

下载CSV
数据库 输入图像 正则化参数 卷积核数量 池化尺寸
MSTAR 32×32 1E-2 48 3×3/2
图 1 卷积核宽度对SAR目标识别精度的影响
Fig. 1 Influence of kernel width on SAR target recognition performance

2 适用于SAR目标识别的深度卷积神经网络结构

MSTAR数据库中,典型目标图像的分辨率为128×128像素。由于用于模型训练的每类目标训练样本的数量较少(< 300),故需要通过数据增强的手段产生若干虚拟样本,一方面能够满足模型训练的需求,另一方面也能够提高模型的泛化能力。本文采用文献[17]的数据增强方法,设定输入模型的图像分辨率为88×88×1。基于上述实验分析的结果,参考文献[13]的深度模型表达方式,设计的用于SAR图像识别的深度卷积神经网络模型结构如表 2所示。由于深度模型中前面卷积层提取的是目标空间特征,后面卷积层提取的是目标语义特征,故在前面卷积层采用多个具有不同宽度的卷积核来提取不同尺度下的目标空间特征,但并没有使用3×3的卷积核,主要考虑SAR图像具有较强的相干斑噪声,同时深度卷积模型本身对输入的噪声比较敏感[23],采用较小的卷积核受到的影响更大,而采用较大的卷积核,通过从SAR图像更大的局部区域进行特征提取和选择,有利于减少输入噪声的影响。

表 2 用于SAR图像识别的深度卷积神经网络结构
Table 2 Architecture of deep convolution neural network for SAR image recognition

下载CSV
输入层 输出层 滤波器(size/stride) Padding (是,否) 激活函数 池化(size/stride) 特征图像数目 输出图像尺寸
/ input / / / / 1 88×88×1
input conv1 1×1/1 Relu / 8 88×88×8
conv1 conv2 5×5/1 Relu 3×3/2 8 43×43×8
conv1 conv3 7×7/1 Relu 3×3/2 8 43×43×8
conv1 conv4 9×9/1 Relu 3×3/2 8 43×43×8
conv1 conv5 11×11/1 Relu 3×3/2 8 43×43×8
conv2~5 concat1 / / / / 32 43×43×32
concat1 conv6 7×7/1 Relu 3×3/2 64 18×18×64
conv6 conv7 5×5/1 Relu 3×3/2 80 6×6×80
conv7 conv8 6×6/1 Relu / 96 1×1×96
conv8 output 1×1/1 / / 10 1×1×10
注:“/”表示无结果。

模型中采用了全连接层conv8,通道数设定为96,由于SAR图像的目标类别数较少(≤10),同时前面的卷积层已经提取了目标的有效特征,故采用了较少的通道数。由于Dropout[24]是提高深度模型泛化能力的有效手段之一,故在卷积层conv8和输出层output间加入Dropout操作防止过拟合情况,Dropout Rate设定为0.1。虽然BN (Batch Normalization)[25]也是一种提高模型泛化能力的手段,但是考虑到SAR图像的相干斑噪声影响,故在模型中没有使用BN层。用于模型参数训练的损失函数设置为softmaxloss函数。

3 实验结果分析

为验证提出的深度模型的有效性,采用MSTAR数据库来测试提出的深度结构的性能。MSTAR数据库中的SAR图像是通过HH极化、0.3×0.3 m分辨率、X波段的SAR传感器采集到的。包括混合目标在内总计10类目标,采用的训练样本数和测试样本数分别如表 3所示,其中训练样本的平台俯视角为17°,测试样本的平台俯视角为15°。以图像平面2维中心点为坐标原点,提取尺寸大小为88×88像素的目标区域图像,同时除以255.0,使图像灰度等级位于区间[0 1]。采用如文献[17]的数据增强方法生成虚拟样本,由于SAR成像过程中受目标方位角影响较大,故仅对原始图像进行随机采样和增加相干斑噪声操作,没有采用文献[16]的角度插值方法生成虚拟样本。进行目标识别前,为降低相干斑噪声影响,采用均值滤波算法对输入SAR图像进行滤波。

表 3 MSTAR数据库目标描述
Table 3 Target description of MSTAR database

下载CSV
目标类型 2S1 BRDM2 D7 T62 ZIL131 ZSU234 BTR60 BMP2 BTR70 T72
SN9563 SN9566 SNC21 SNC71d SN132 SN812 SNS7
训练样本数 299 298 299 299 299 299 256 233 / / 233 232 / /
测试样本数 274 274 274 273 274 274 195 195 196 196 196 196 195 191
注:“/”表示无数据结果。

基于表 3中的训练样本进行数据增强时,先对每个样本进行随机采样,然后随机添加一定水平的噪声,每个样本均产生15个虚拟训练样本,故用于深度模型训练的样本总数为2 747×16=43 952。随机选择其中的90%用于模型训练,10%用于模型验证。

表 2设计的深度模型结构进行训练,训练中使用的超参数设定如表 4所示。采用MatConvNet进行深度模型的参数学习和模型识别精度的测试,MatConvNet深度学习工具箱运行在Matlab环境,实现了CNN模型的参数学习,并且支持CUDA加速。采用的PC机硬件配置如下:CPU为Intel(R) Core(TM) i5-3230M @2.6 GHz,内存为12 GB,显卡为NVIDIA NVS5400M,2 GB独立显存。采用的Matlab版本为Matlab 2017a。参数训练时,每运行一个epoch约耗费1 h,测试时总计耗费143.05 s,平均每个样本的测试时间为44.66 ms。经过训练后学习得到的conv5层的卷积核参数如图 2所示。

表 4 用于网络训练的超参数
Table 4 Hyperparameters for network training

下载CSV
学习速率 批处理大小 权重衰减系数 迭代次数 参数初始化方法 目标函数
0.01 128 0.001 28 Xavier Improved SoftMaxLoss
图 2 conv5层的卷积核参数
Fig. 2 Parameters of convolution kernels for layer conv5

表 5表 6为设计的模型对10类目标(非变形情况和变形情况)的识别结果。比较表 5表 6的分类结果可以看出,当BMP2和T72存在变形目标情况时,分类精度略有下降。对BMP2,BTR70和T72这3类变形目标分类时,总体分类精度也达到了97.14%,优于目前主要分类器的识别精度。

表 5 10类目标的分类混淆矩阵(无变形目标情况)
Table 5 Classification confusion matrix for ten classes (non-deformable target configuration)

下载CSV
类别 2S1 BRDM2 D7 T62 ZIL131 ZSU234 BTR60 BMP2 BTR70 T72 No. 正确率/%
2S1 273 0 0 1 0 0 0 0 0 0 274 99.64
BRDM2 1 269 0 0 4 0 0 0 0 0 274 98.18
D7 0 0 270 0 4 0 0 0 0 0 274 98.54
T62 0 0 0 273 0 0 0 0 0 0 273 100
ZIL131 0 0 0 1 273 0 0 0 0 0 274 99.64
ZSU234 0 0 1 7 1 265 0 0 0 0 274 96.72
BTR60 5 5 0 5 0 0 180 0 0 0 195 92.31
BMP2 0 0 0 0 0 0 0 192 0 3 195 98.46
BTR70 0 0 0 0 0 0 0 0 196 0 196 100
T72 0 0 0 0 0 0 0 1 0 195 196 99.49
平均精度/% 98.30
总体精度/% 98.39

表 6 10类目标的分类混淆矩阵(有变形目标情况)
Table 6 Classification confusion matrix for ten classes (deformable target configuration)

下载CSV
类别 2S1 BRDM2 D7 T62 ZIL131 ZSU234 BTR60 BMP2 BTR70 T72 No. 正确率/%
2S1 273 0 0 1 0 0 0 0 0 0 274 99.64
BRDM2 1 269 0 0 4 0 0 0 0 0 274 98.18
D7 0 0 270 0 4 0 0 0 0 0 274 98.54
T62 0 0 0 273 0 0 0 0 0 0 273 100
ZIL131 0 0 0 1 273 0 0 0 0 0 274 99.64
ZSU234 0 0 1 7 1 265 0 0 0 0 274 96.72
BTR60 5 5 0 5 0 0 180 0 0 0 195 92.31
BMP2 0 0 0 0 0 0 0 573 3 11 587 97.61
BTR70 0 0 0 0 0 0 0 0 196 0 196 100
T72 0 0 0 0 0 0 0 25 0 557 582 95.70
平均精度/% 97.83
总体精度/% 97.69

表 7为本文提出的深度结构与文献[16-17]提出的模型结构性能对比。从表 7中可以看出,本文算法的平均分类精度优于文献[16]算法的性能,本文算法的分类精度达到97.69%,训练得到的模型参数按照文献[17]的测试样本集进行测试,分类精度为98.39%,略低于文献[17]算法的分类精度99.13%。比较文献[16]、文献[17]和本文设计的深度神经网络结构可以看出,文献[16]仅采用了3×3的卷积核,而文献[17]采用了更大宽度的卷积核,卷积核宽度包括3×3、5×5和6×6等,这也进一步验证了表 2的结构,即对于SAR图像目标识别而言,由于具有较强的相干斑噪声,且目标分辨率较低,应采用较大的卷积核提取目标的局部特征进行分类。

表 7 与基于深度卷积神经网络的SAR目标识别算法性能比较
Table 7 Performance comparison with SAR target recognition algorithm based on deep convolution neural network

下载CSV
CNN结构 输入图像分辨率/像素 卷积核宽度 全连接 数据增强 总体分类精度/%
有变形目标情况 无变形目标情况
文献[16] 128×128×1 3×3 平移,加噪,旋转 93.16 /
文献[17] 88×88×1 5×5,6×6,3×3 随机采样 / 99.13
本文 88×88×1 1×1,5×5,7×7 9×9,11×11,6×6 随机采样,加噪 97.69 98.39

4 结论

本文针对用于SAR图像目标识别的深度模型结构展开研究,通过随机卷积特征和超限学习机算法分析了卷积核宽度对SAR图像目标分类性能的影响。基于分析结果设计了一种用于SAR目标识别的深度卷积神经网络结构,采用具有不同宽度的卷积核提出SAR图像多尺度特征。基于MSTAR数据库验证了提出模型的有效性,实验结果表明,对于10类目标的分类结果(包含变形目标和非变形目标两种情况)优于或接近目前文献已报道的最优结果。接下来的研究方向是采用生成对抗网络模型结构来生成高质量的虚拟样本,进一步提高训练模型的泛化能力。

参考文献

  • [1] El-Darymli K, Gill E W, Mcguire P, et al. Automatic target recognition in synthetic aperture radar imagery:a state-of-the-art review[J]. IEEE Access, 2016, 4: 6014–6058. [DOI:10.1109/ACCESS.2016.2611492]
  • [2] He Z G, Lu J, Kuang G Y. A survey on feature extraction and selection of SAR images[J]. Signal Processing, 2008, 24(5): 813–823. [贺志国, 陆军, 匡纲要. SAR图像特征提取与选择研究[J]. 信号处理, 2008, 24(5): 813–823. ] [DOI:10.3969/j.issn.1003-0530.2008.05.024]
  • [3] Amoon M, Rezai-Rad G A. Automatic target recognition of synthetic aperture radar (SAR) images based on optimal selection of Zernike moments features[J]. IET Computer Vision, 2013, 8(2): 77–85. [DOI:10.1049/iet-cvi.2013.0027]
  • [4] Du P J, Samat A, Gamba P, et al. Polarimetric SAR image classification by Boosted Multiple-Kernel Extreme Learning Machines with polarimetric and spatial features[J]. International Journal of Remote Sensing, 2014, 35(23): 7978–7990. [DOI:10.1080/2150704X.2014.978952]
  • [5] Zhao Q, Principe J C. Support vector machines for SAR automatic target recognition[J]. IEEE Transactions on Aerospace and Electronic Systems, 2001, 37(2): 643–654. [DOI:10.1109/7.937475]
  • [6] Sun Y J, Liu Z P, Todorovic S, et al. Adaptive boosting for SAR automatic target recognition[J]. IEEE Transactions on Aerospace and Electronic Systems, 2007, 43(1): 112–125. [DOI:10.1109/TAES.2007.357120]
  • [7] Song S L, Xu B, Yang J. SAR target recognition via supervised discriminative dictionary learning and sparse representation of the SAR-HOG feature[J]. Remote Sensing, 2016, 8(8): 683. [DOI:10.3390/rs8080683]
  • [8] Zhang H C, Nasrabadi N M, Zhang Y N, et al. Multi-view automatic target recognition using joint sparse representation[J]. IEEE Transactions on Aerospace and Electronic Systems, 2012, 48(3): 2481–2497. [DOI:10.1109/TAES.2012.6237604]
  • [9] Dong G G, Kuang G Y, Wang N, et al. SAR target recognition via joint sparse representation of monogenic signal[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2015, 8(7): 3316–3328. [DOI:10.1109/JSTARS.2015.2436694]
  • [10] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504–507. [DOI:10.1126/science.1127647]
  • [11] Lecun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278–2324. [DOI:10.1109/5.726791]
  • [12] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of 2012 Advances in Neural Information Processing Systems. Doha, Qatar: Curran Associates Inc, 2012: 1097-1105.
  • [13] Szegedy C, Liu W, Jia Y Q, et al. Going Deeper with Convolutions[C]//Proceedings of 2015 IEEE Conference On Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015: 1-9. [DOI:10.1109/CVPR.2015.7298594]
  • [14] Simonyan K, Zisserman A. Very deep convolutional networks for large-Scale image recognition[C]//Proceedings of 2005 International Conference on Learning Representations. San Diego, CA: Computer Science, 2015: 1-14.
  • [15] He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016: 770-778. [DOI:10.1109/CVPR.2016.90]
  • [16] Ding J, Chen B, Liu H W, et al. Convolutional neural network with data augmentation for SAR target recognition[J]. IEEE Geoscience and Remote Sensing Letters, 2016, 13(3): 364–368. [DOI:10.1109/LGRS.2015.2513754]
  • [17] Chen S Z, Wang H P, Xu F, et al. Target classification using the deep convolutional networks for SAR images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(8): 4806–4817. [DOI:10.1109/TGRS.2016.2551720]
  • [18] Goodfellow I, Bengio Y, Courville A. Deep Learning[M]. Massachusetts, USA: MIT Press, 2016.
  • [19] Iandola F N, Han S, Moskewicz M W, et al. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and < 0. 5MB model size[J/OL]. 2016-11-04, arXiv: 1602. 07360[cs. CV].
  • [20] Saxe A M, Koh P W, Chen Z H, et al. On random weights and unsupervised feature learning[C]//Proceedings of the 28th International Conference on International Conference on Machine Learning. Bellevue, Washington, USA: Omni Press, 2011: 1089-1096.
  • [21] Huang G, Huang G B, Song S J, et al. Trends in extreme learning machines:a review[J]. Neural Networks, 2015, 61: 32–48. [DOI:10.1016/j.neunet.2014.10.001]
  • [22] Huang G B, Bai Z, Kasun L L C, et al. Local receptive fields based extreme learning machine[J]. IEEE Computational Intelligence Magazine, 2015, 10(2): 18–29. [DOI:10.1109/MCI.2015.2405316]
  • [23] Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2014: 2672-2680.
  • [24] Srivastava N, Hinton G, Krizhevsky A, et al. Dropout:a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929–1958.
  • [25] Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille, France: PMLR, 2015: 448-456. https://www.researchgate.net/publication/286794765_Dropout_A_Simple_Way_to_Prevent_Neural_Networks_from_Overfitting