Print

发布时间: 2021-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190612
2021 | Volume 26 | Number 3




    遥感图像处理    




  <<上一篇 




  下一篇>> 





增强小目标特征的航空遥感目标检测
expand article info 赵文清1,2, 孔子旭1, 周震东1, 赵振兵3
1. 华北电力大学控制与计算机工程学院, 保定 071003;
2. 复杂能源系统智能计算教育部工程研究中心, 保定 071003;
3. 华北电力大学电气与电子工程学院, 保定 071003

摘要

目的 航空遥感图像中多为尺寸小、方向错乱和背景复杂的目标。传统的目标检测算法由于模型的特征提取网络对输入图像进行多次下采样,分辨率大幅降低,容易造成目标特征信息丢失,而且不同尺度的特征图未能有效融合,检测目标之间存在的相似特征不能有效关联,不仅时间复杂度高,而且提取的特征信息不足,导致目标漏检率和误检率偏高。为了提升算法对航空遥感图像目标的检测准确率,本文提出一种基于并行高分辨率结构结合长短期记忆网络(long short-term memory,LSTM)的目标检测算法。方法 首先,构建并行高分辨率网络结构,由高分辨率子网络作为第1阶段,分辨率从高到低逐步增加子网络,将多个子网并行连接,构建子网时对不同分辨率的特征图反复融合,以增强目标特征表达;其次,对各个子网提取的特征图进行双线性插值上采样,并拼接通道特征;最后,使用双向LSTM整合通道特征信息,完成多尺度检测。结果 将本文提出的检测算法在COCO(common objects in context)2017数据集、KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago)车辆检测和UCAS-AOD(University of Chinese Academy of Sciences-Aerial Object Detection)航空遥感数据集上进行实验验证,平均检测准确率(mean average precision,mAP)分别为41.6%、69.4%和69.3%。在COCO 2017、KITTI和VCAS-AOD数据集上,本文算法与SSD513算法相比,平均检测准确率分别提升10.46%、7.3%、8.8%。结论 本文方法有效提高了航空遥感图像中目标的平均检测准确率。

关键词

航空遥感图像; 机器视觉; 小目标检测; 并行高分辨率网络; 长短期记忆网络; COCO数据集; UCAS-AOD数据集

Target detection algorithm of aerial remote sensing based on feature enhancement technology
expand article info Zhao Wenqing1,2, Kong Zixu1, Zhou Zhendong1, Zhao Zhenbing3
1. School of Control and Computer Engineering, North China Electric Power University, Baoding 071003, China;
2. Engineering Research Center of Intelligent Computing for Complex Energy Systems, Ministry of Education, Baoding 071003, China;
3. Department of Electrical and Electronic Engineering, North China Electric Poner University, Baoding 071003, China
Supported by: National Natural Science Foundation of China (61871182)

Abstract

Objective Saliency in the detection of aerial remote sensing image can have many military and life applications. On the one hand, the spatial resolution of remote sensing image is becoming higher with the improvement of technology. On the other hand, it can be applied in urban traffic planning, military target tracking, ground object classification, and other aspects. Most of the advanced target detection algorithms (such as Fast region with convolutional neural network (R-CNN), Mask R-CNN, and single shot multibox detector (SSD)) are tested on the general data set. However, the classifier based on the training of the general data set does not have a good detection effect on the aerial remote sensing image primarily due to the particularity of the aerial remote sensing image. An aerial remote sensing image is taken from a height of several hundred meters or even up to 10 000 m due to scale diversity. Thus, the sizes of similar objects in the remote sensing image differ. Taking the ship in the port as an example, the super large ship is nearly 400 meters long, and the small ship is tens of meters long. Aerial remote sensing images are shot from a high-altitude perspective, and the objects presented are all top views, which are quite different from the data set (horizontal perspective) generally used due to the particularity of perspective, which will lead to the poor effect of the trained target detection algorithm in practical application of remote sensing images. In the small target problem, most of the targets in the aerial remote sensing image are small (tens of pixels or even several pixels), the amount of information of these targets in the image is very small, and the mainstream target detection algorithm is not ideal for the detection effect of small targets in these remote sensing images mainly because the detection method based on convolutional neural network uses the pooling layer, resulting in a lower original amount of information. For example, the target image of 24×24 pixels is transformed into 1×1 pixel after four pooling layers, and the dimension is very low to be classified. The background complexity is high because the aerial remote sensing image is taken from a high altitude, its field of vision is relatively large (usually covers several square kilometers), and the image contains tens of thousands of backgrounds, resulting in the integration of the background and the small target, which has a strong interference on detection. Generally, the recognition rate of a small target in the remote sensing image is low, the scale is diverse, the direction is disordered, and the background is complex. On the one hand, edge information is lost when a small target is pooled. On the other hand, the semantic information of the feature map is not strong enough to detect the corresponding target. In this paper, a parallel high-resolution network structure combined with long short-term memory (LSTM) is proposed to replace the basic detection network visual geometry group 16-layer net (VGG16) of SSD and improve the detection accuracy of the algorithm for aerial targets. Method This paper introduces high-resolution network (HRNet) network and LSTM network in the SSD model. The largest feature of the HR-Net parallel network is that the input image can always maintain a high-resolution output. This parallel network structure and traditional top-down extraction feature are then up sampled and restored. The feature size is different. The parallel structure effectively reduces the number of down sampling and the loss of feature information of the target edge to be detected. The LSTM network is a variant of the circulatory neural network. The R-CNN cannot be deeply trained due to the disappearance of the gradient. The LSTM network combines short-term memory with long-term memory through subtle door control, which solves the gradient disappearance to a certain extent. To address the problem of gradient explosion, first, the method of parallel high-resolution feature map in HRNet is used to build the residual module. The first stage is the high-resolution subnetwork, which gradually increases the high-resolution subnetwork to the low-resolution subnetwork, and the multistage subnetwork is connected in parallel. Second, repeated feature fusion is carried out to obtain rich feature information. Finally, the feature map of each subnet is sampled and fused, the channel information is integrated with bidirectional LSTM, and context information is effectively used to form a multiscale detection. Result By applying the improved network to SSD algorithm, this paper compares it with the SSD method on common objects in context (COCO) 2017 dataset, Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago (KITTI), and University of Chinese Academy of Sciences-Aerial Object Detection (UCAS-AOD) of aviation target dataset. In the COCO2017 dataset, the model mean average precision is 41.6%, which is 10.4% higher than that of SSD513 + ResNet101. In the KITTI and UCAS-AOD datasets, the mean average precision (mAP) of this model is 69.4% and 69.3%, respectively. On COCO2017 dataset, KITTI dataset and UCAS-AOD dataset, the average detection accuracy of this algorithm increased by 10.4%, 7.3% and 8.8% compared with SSD513. Conclusion Results show that this method can reduce the miss detection rate of a small target and improve the average detection accuracy of the entire target.

Key words

aerial remote sensing image; machine vision; small target detection; parallel high resolution network; long short-term memory (LSTM); COCO dataset; UCAS-AOD dataset

0 引言

航空遥感图像的目标检测技术广泛应用于城市交通构划、军事目标跟踪和地物目标分类等领域。遥感图像的空间像素分辨率越来越高,目标检测模型的计算量与日俱增。

目前流行的目标检测算法,如Ren等人(2016)提出的Faster R-CNN(faster regions with convolutional neural network)、He等人(2017)提出的Mask R-CNN、Liu等人(2016)提出的SSD(single shot multibox detector)目标检测算法,都是在ImageNet、PASCAL VOC (pattern analysis, statistical modelling and comptational learning visual object classes)等通用的数据集做预训练和验证实验。但是,基于常规数据集训练的分类器在航空遥感图像上的检测效果差,主要原因是航空遥感图像有其特殊性。刘峰等人(2017)认为航空遥感图像有其特殊性,具有尺度多样性特征。该类图像通常是从几百米甚至上万米的高空进行拍摄,造成同类目标尺寸多样。李宇等人(2018)认为视角具有特殊性,航空遥感图像多以高空俯视的视角进行拍摄,呈现的目标为俯视图,与通用数据集中的水平2维图像差异很大,导致已经预训练好的目标检测算法模型,实际应用在遥感图像目标检测时效果较差。另外,航空遥感图像中多为小目标,边缘特征难以提取,且图像中背景信息复杂,加剧了检测干扰,大多采用Lin等人(2020)提出的focal loss损失函数缓解目标与背景相差大的措施。姚群力等人(2018)认为随着卷积神经网络的发展,小目标识别率将逐渐提升,但是,当前多数目标检测算法对遥感图像中的小目标识别率低:一是由于模型的特征提取网络对输入图像进行多次下采样,易损失目标特征信息;二是因为不同尺度的特征图未能有效融合,且特征图中目标之间存在的相似特征不能有效关联。因此,航空遥感目标检测算法仍需完善。

目前主流的目标检测算法主要分为两大类。第1类是双阶段检测方法,代表性算法有Ren等人(2016)提出的Faster R-CNN、He等人(2015)提出的SPP-Net (spatial pyramid pooling network)。双阶段检测算法大体流程一致,首先产生候选区域,然后提取特征,再进行区域分类和位置回归。王文豪等人(2019)认为该类算法由于检测框与小目标的不匹配以及感受野与小目标的不匹配等问题,造成边缘特征信息的丢失,效果较差。第2类是单阶段检测方法,代表性的算法有SSD、Redmon等人(2016)提出的YOLO(you only look once)、He等人(2017)提出的Retina-Net。该类算法不需要计算候选框区域,直接对输入图像回归,检测目标的类别概率和位置坐标。例如,SSD算法采用多尺度目标预测模型,负责检测小目标的只有底层的特征图conv4_3,为38 × 38像素,特征图分辨率过低,且未有效融合深层特征语义信息,检测效果差。

龙敏和佟越洋(2018)在实验中将特征图融合后效果显著。因此,为提升小目标检测准确率,增大特征图分辨率的同时需有效利用上下文信息。Sun等人(2019)提出的HRNet (high-resolution network) 网络能提取高分辨率的特征图,本文基于HRNet并行网络的思想,对网路进行剪枝,引入长短期记忆网络(long short-term memory,LSTM)结构融合前后序列特征,有效利用航空遥感图像中目标之间的结构特征,增强小目标特征信息,对网络中的参数进行优化并完成训练。

1 SSD目标检测模型

图 1所示,SSD模型以VGG16(visual geometry group 16-layer net)为基础检测网络。该模型通过预训练,提取不同尺度分辨率特征图,形成多尺度目标检测。首先,对原始图像进行规范化处理,将图像处理为300 × 300 × 3(长度×宽度×通道数,长和宽的单位为像素)大小,作为特征提取网络的输入。其次,VGG16对该特征图多次使用卷积、池化运算提取图像特征,并将卷积层Conv4_3提取的特征图负责检测小目标,其尺寸为38 × 38 × 512。最后,提取卷积层Conv6(全连接层FC6变换为卷积层Conv6)、Conv8_2、Conv9_2、Conv10_2和Conv11_2的特征图,尺寸分别为19×19×1 024、10×10×512、5×5×256、3×3×256和1×1×256,在不同尺度分辨率特征图上生成大量的检测框,形成多尺度目标检测模型,完成目标检测。

图 1 SSD目标检测模型
Fig. 1 SSD target detection model

2 结合LSTM的目标检测模型

针对SSD目标检测模型提取小目标特征信息不足的问题,对HRNet并行网络结构进行剪枝,融合LSTM形成多尺度检测特征网络,如图 2所示,具体步骤如下:

图 2 HRNet与LSTM相结合的目标检测算法模型
Fig. 2 HRNet combined with LSTM target detection model

1) 采用步长为2,尺寸为3 × 3大小的卷积核对原始图像进行两次卷积运算,得到的特征图尺寸为原始图像尺寸的1/4,且通道数由3通道增加到64通道。

2) 构建高分辨率子网分支,如图中第1行连续卷积所示,每一个长方体表示一个bottleneck结构(残差网络中的bottleneck结构,由数个1×1和3×3卷积核组成),特征图每经过3次bottleneck卷积计算,向下构建新的子网分支,保持特征图分辨率减半,通道数翻倍,依次构建3个分辨率从高到低的子网分支,形成并行结构。且构建新的子网分支时,将不同分辨率的特征进行融合,以增强各个分支中特征图的目标特征信息。

3) 将第2和第3子网分支最后得到的特征图上采样,与第1子网分支的特征图通道数拼接,再进行两次卷积运算,形成多尺度特征融合。

4) 对得到的3个不同尺度的特征图使用LSTM,整合通道方向的特征信息,丰富目标特征,并完成目标检测。

2.1 基于HRNet的并行网络结构设计

HRNet在并行连接不同子网的过程中,通过重复融合不同分辨率特征图,生成可靠的高分辨率表示。该方法将特征图分辨率从高到低串联起来,每个子网形成一个阶段;同时相邻子网之间存在一个下采样层,将分辨率减半。假设$L_{sr}$是第$s$阶段的子网,$r$是分辨率指标(分辨率为1/($2^{r}$-1) 倍初始子网络分辨率),$s$为4个阶段从高到低的网络,可以表示为

$ L_{11} \rightarrow L_{21} \rightarrow L_{31} \rightarrow L_{41} $ (1)

HRNet以高分辨率子网为一个阶段,每递进一个阶段,向下创建一个子网,4个子网的结构如图 3所示。

图 3 HRNet并行结构
Fig. 3 HRNet parallel structure

从式(1)和图 3可以看出,该网络首先生成一个4阶段的高分辨率网络,每递进一个阶段,增加一个低分辨率子网,依次生成多分辨率子网的并行连接结构。一个包含4个并行子网的网络,生成一个并行子网,其特征图的尺寸就会减半,通道数增加1倍。例如,$L_{11}$阶段得到特征图尺寸为512×512×64(长度×宽度×通道数,长、宽单位为像素),则$L_{22}$$L_{33}$$L_{44}$阶段得到的特征图尺寸分别为256 × 256 × 128、128 × 128 × 256和64 × 64 × 512,也对应$L_{41}$$L_{42}$$L_{43}$$L_{44}$阶段特征图尺寸。而对每一个子网$L_{sr}$,都由若干个残差模块(bottleneck)串行构成,例如$L_{31}$$L_{32}$$L_{33}$使用3个残差模块构成的3个分支并行网络结构,如图 4所示。

图 4 $L_{31}$$L_{32}$$L_{33}$并行结构
Fig. 4 $L_{31}$$L_{32}$ and $L_{33}$ parallel structure

图 4左侧为图像不断地经过bottleneck提取特征,右侧两列为特征融合模块,保留了原HRNet特征融合方式,高分辨率特征图通过尺寸3×3的卷积核下采样与低分辨率特征图融合,低分辨率特征图通过双线性插值的方法上采样于高分辨率特征图融合。最右侧一列为Sun等人(2019)提出的HRNet中的交换单元,作用为将高分辨率特征图过渡到低分辨率特征图,不影响网络整体的特征提取。每个子网重复接受来自其他并行子网的特征信息。

图 5为每个分支中采用的bottleneck结构,输入特征图的通道数为256。首先,采用1 × 1的卷积核对特征图进行降维卷积,并进行ReLU激活函数运算,降维后通道数为64;然后,使用3 × 3的卷积核卷积提取特征并进行ReLU激活函数操作,维度保持不变;最后,采用1 × 1的卷积核对其进行升维卷积,通道数变为256。输出的特征向量与输入特征向量进行跳跃连接,并进行ReLU激活函数操作,得到最终输出,具体为

$ \boldsymbol{y}=\boldsymbol{F}\left(\boldsymbol{x}, \left\{W_{i}\right\}\right)+\boldsymbol{x} $ (2)

图 5 bottleneck结构
Fig. 5 Structure of bottleneck

式中,$\boldsymbol{x}$为特征向量输入,${{W_i}}$为第$i$层的权重,$\mathit{\boldsymbol{F}}\left({\mathit{\boldsymbol{x}}, \left\{ {{W_i}} \right\}} \right)$为第$i$层的特征向量输出,$\boldsymbol{y}$为跳跃连接后的特征向量输出。

传统的特征提取网络,如VGGNet16、ResNet网络等,在提取图像特征时对输入图像进行多次下采样,网络层数越多,特征图分辨率越低,特征损失越严重。图 6为一幅长宽为640 × 424像素的图像经过2倍、4倍和8倍下采样得到的可视化特征图。可以看出,通过对特征图不断进行下采样,目标特征信息逐渐模糊,边缘特征损失尤为严重。对分辨率低的小目标,边缘细节特征信息非常重要。而航空遥感图像中小目标尺寸大多都是几十甚至是几像素,边缘特征信息成为能否检测出小目标的关键。高分辨率特征图能够极大限度减少小目标边缘特征信息的丢失,从而有效提升检测准确率。HRNet结构复杂、参数量大、训练检测速度慢,本文对其进行剪枝和改进,将4个子网分支剪为3个,且每个分支中的每个阶段的4个botttleneck结构降为3个,参数量与计算量大幅降低,提升了训练与检测速度。

图 6 不同倍数下采样特征图可视化
Fig. 6 Feature map visualization under different down-sampling ratios((a) original image; (b) two times down-sampling; (c) four times down-sampling; (d) eight times down-sampling)

2.2 多尺度融合和LSTM结构

本文设计的特征提取网络有3个分支,输出3种不同尺寸的特征图,特征融合过程如图 7所示,首先对低分辨率特征图采用双线性插值方法上采样,与高分辨率特征图进行通道数拼接,再对特征图使用步长为2、尺寸为3 × 3的卷积核进行卷积运算,特征图分辨率依次下降至1/2、1/4,形成多尺度特征融合。

图 7 多尺度特征融合模块
Fig. 7 Multiscale feature fusion module

以SSD513目标检测模型为例,输入的原始图像尺寸为513×513×3,使用64个步长为2、尺寸为3×3卷积核的卷积运算两次,图像尺寸降为128×128×64大小,然后,将得到的图像输入特征提取网络,设第1个分支中特征图通道数为$C$,每经过3次bottleneck提取特征,向下产生一个新的子网分支,通过卷积运算使特征图分辨率减半,通道数翻倍,因此3个分支特征图通道数分别为$C$、2$C$、4$C$,长宽尺寸为128×128、64×64、32×32。将第2、3子网分支提取的特征图分别2倍、4倍采样至第1子网分支特征图尺寸,进行通道数拼接,通道数为$C$ + 2$C$ + 4$C$ = 7$C$,得到的特征图尺寸为128 × 128 × 7$C$;最后,对该特征图使用步长为2、尺寸为3 × 3的卷积核下采样,得到64 × 64 × 7$C$和32 × 32 × 7$C$的特征图。SSD512目标检测模型中最大的特征图长宽尺寸为78 × 78,与其相比,本文模型可以提取更高分辨率的特征图和更丰富的目标特征信息。

由于遥感图像的目标之间关联性较强,而LSTM可以利用上下文信息,根据前后序列目标的特征信息来增强当前目标特征,因此对特征图使用LSTM可以更好地完成目标检测。LSTM的内部结构如图 8所示,${\mathit{\boldsymbol{X}}_t}$为输入,$\mathit{\boldsymbol{A}}$为模型处理部分。

图 8 LSTM内部结构
Fig. 8 Internal structure of LSTM

LSTM具有可选择记忆模式、缓解梯度消失和梯度爆炸问题的特征。LSTM的关键在于弧角矩形框的状态和穿过弧角矩形框的水平线,门结构可以对信息实现添加和删除,门通过一个神经层($σ$)和一个逐点相乘的层实现。神经层($σ$)层输出的每个元素数值都是实数并界于0~1之间,表示对应信息通过的权重。图 8中3个弧角矩形框从左到右分别是遗忘门、输入门、输出门,首先遗忘门会读取${\mathit{\boldsymbol{h}}_{t - 1}}$(上一个弧角矩形框的输出)和${\mathit{\boldsymbol{X}}_t}$(当前弧角矩形框的输入),输出一个0~1之间的实数。然后经过输入门,一个tanh层生成一个向量进行更新。最后,输出门使用$σ$函数确定输出部分,然后用tanh处理状态,并在$σ$后的输出与其相乘,得到最终的输出${\mathit{\boldsymbol{h}}_{t}}$

由此可知,LSTM结构通过遗忘门、输入门、输出门有效利用了前后序列的特征信息。由于遥感图像中小目标分辨率低,自身的特征信息有限,待检测目标与目标之间通常存在结构形状相似或者语义联系。本文剪枝后的HRNet共得到3种尺度的特征图,其通道方向的特征信息可能是冗余或无序的,航空遥感图像中的目标(如飞机、汽车)像素小,结构相似。为了解决上述问题,本文设计了LSTM模块,如图 9所示。

图 9 本文设计的LSTM模块
Fig. 9 LSTM module in this paper

以SSD512目标检测模型为例,将经过多尺度特征融合得到3组分辨率的特征图(尺寸分别为128×128×7$C$、64×64×7$C$、32×32×7$C$)作为图 9的输入,用变量$w$$h$分别表示特征图的长和宽,则LSTM模块的输入为$w$×$h$×7$C$

LSTM模块的具体参数设置如下:隐藏神经元(hidden nodes)个数为128个,双向结构,层数(layers)为2层。经过该LSTM模块计算,输出为$w$×$h$×256($w$×$h$×128×layers),即输出3种尺度特征图,分别为128×128×256、64×64×256和32×32×256。本文设计的LSTM模块可以利用图像中目标前后序列特征,使得结构相似的目标能够相互增强特征表达,得到的特征图$w$×$h$×256比特征图$w$×$h$×7$C$具有更丰富的特征,进一步提高了目标的检测准确率。

3 实验结果

3.1 实验环境

搭建开发平台,CPU选用intel(R) Core(TM) i7-8700,GPU选用NVIDIA GeForce TX1080Ti,显存大小为11 GB,操作系统为Ubuntu 16.04LTS,深度学习框架为pytorch v1.0.0。

3.2 实验数据集

实验使用的数据集为COCO(common objects in context)2017数据集、KITTI(karlsruhe Institute of Technology and Toyota Technological Institute at Chicago)车辆检测数据集和UCAS-AOD(University of Chinese Acadency of Science-Aerial Object Detection)航空遥感图像数据集。COCO2017数据集数据量庞大,有80多个类别,目标繁多且小目标较多,单幅图像目标多,评价指标多样,较为适合对本文模型进行验证。KITTI车辆检测数据集包含各种交通场景图以及标注信息文件,目标类别只有汽车,且单幅图像目标数量多、分辨率低、结构相似且背景较为复杂,适合对小目标检测的准确率和LSTM模块的有效性进行验证。UCAS-AOD数据集是一个航空遥感图像数据集,包含汽车和飞机两类目标,含有背景负样本,图像中目标分辨率低,种类少,适合对LSTM模块的有效性进行验证。

3.3 实验结果及对比

3.3.1 COCO2017数据集实验结果及对比

实验参数设置如下:学习率为0.000 1,衰减率为0.95,激活函数为ReLU,权重值的初始化服从均值为0、标准差为0.1的高斯分布,学习率初始化为0.01,训练迭代次数60 000次。

为验证通道数$C$的合适取值及LSTM的有效性,分别取$C$的值为16、32和48在是否使用LSTM结构的情况下做对比实验,实验结果如表 1所示。其中,HR表示剪枝过的HRNet网络,HR+LSTM表示使用LSTM结构,W16、W32和W48分别表示通道数$C$取值16、32和48。

表 1 本文方法使用LSTM结构和不同通道数在COCO2017数据集上的实验结果
Table 1 Results of using LSTM structure and different channel numbers on COCO2017 dataset for proposed method  

下载CSV
/%
方法 网络 AP AP0.5 AP0.75 APS APM APL
SSD513 Residual-101 31.2 50.4 33.3 10.2 34.5 49.8
SSD513 HR W16 38.1 58.6 43.9 20.6 42.7 53.1
SSD513 HR W32 39.9 60.8 44.8 23.0 43.3 53.4
SSD513 HR W48 40.5 62.1 45.2 23.6 43.7 53.7
SSD513 HR+LSTM W16 40.3 61.3 43.8 23.1 43.7 52.3
SSD513 HR+LSTM W32 41.2 62.6 45.5 24.4 43.7 53.8
SSD513 HR+LSTM W48 41.6 63.1 45.8 25.8 43.9 54.3
注:加粗字体表示各列最优结果。

表 1可知,SSD513目标检测算法的mAP(mean average precision)为31.2%,本文模型HR + LSTM W48的效果最好,大幅提升了检测准确率。其中,不使用LSTM结构、$C$取值48时,mAP高于$C$取值16和32;引入LSTM后,$C$取值为16、32和48时,整体mAP较不使用LSTM分别提升2.2%、1.3%和1.1%,其中小目标数据AP(average precision)提升效果显著。由此可见,引入LSTM结构能够有效利用上下文特征信息,提高目标检测准确率。

为验证本文模型的有效性,将HR + LSTM W48模型与其他主流算法在COCO2017数据集上进行对比,实验结果如表 2所示。由表 2数据可知,YOLO v2、SSD、Fu等人(2017)提出的DSSD(deconvolutional single shot detector)和Grid R-CNN目标检测模型的mAP只有21.6%、31.2%、33.2%和41.5%,而本文模型的实验结果,较上述目标检测算法的mAP分别提升20%、10.4%、8.4%和0.1%,提升效果显著。其中,HRNet v2p(Sun等,2019)模型是基于HRNet提出的多尺度目标检测模型。由实验可知,SSD513 + HRNet v2 W48模型的mAP为41.0%,本文提出的基于HRNet与LSTM相结合的检测模型的mAP为41.6%,较之提升0.6%。在小目标数据APS中,本文模型的mAP达63.1%,提升效果显著,可见本文模型对于小目标的识别效果较好。本文模型的检测准确率低于Faster R-CNN结合HRNet,其原因主要为本文对HRNet进行了剪枝,模型的深度和参数降低,在一定程度上弱化了目标特征信息。

表 2 本文方法与其他方法在COCO2017数据集上的准确率比较
Table 2 Comparison of mAP among this method and other methods on COCO2017 dataset  

下载CSV
/%
方法 网络 AP AP0.5 AP0.75 APS APM APL
YOLO v2(Redmon等,2016) DarkNet-19 21.6 44 19.2 5.0 22.4 35.5
SSD513(Liu等,2016) Residual-101 31.2 50.4 33.3 10.2 34.5 49.8
Grid R-CNN w FPN(Lu等,2019) Resnet101 41.5 60.9 44.5 23.3 44.9 53.1
Faster R-CNN+++(He等,2016) Residual-101 34.9 55.7 37.4 15.6 38.7 50.9
DSSD513(Fu等,2017) Residual-101 33.2 53.3 35.2 13.0 35.4 51.1
Faster R-CNN(Ren等,2016) HRNet v2 W48 41.8 62.8 45.6 25.0 44.7 54.6
SSD513(Liu等,2016) HRNet v2 W48 41.0 62.7 45.7 24.3 44.3 54.2
SSD513(本文) HR+LSTM W48 41.6 63.1 45.8 25.8 43.9 54.3
注:加粗字体表示各列最优结果。

3.3.2 KITTI数据集的实验结果及对比

实验参数设置如下:学习率为0.000 1,衰减率为0.85,训练迭代次数30 000次,其他参数设置与在COCO2017数据集上的参数一样。

实验选取KITTI车辆检测数据集,与吴天舒等人(2018)提出的基于SSD的轻量化模型中使用的数据集保持一致,该数据集的图像中只有车辆目标正样本和背景负样本。将HR + LSTM W48模型与其他主流算法在该数据集上进行对比,由前述实验可知,提出模型在$C$取值48时检测效果最佳,因此实验取$C$为48,实验结果如表 3所示,其中,LightSSD(吴天舒等,2018)模型是一种轻量化SSD检测网络,DeconvSSD(赵文清等,2019)为反卷积和特征融合结合的SSD检测网络,均使用VGG16作为基础特征提取网络。由表 3可知,本文模型的mAP较SSD、LightSSD和DeconvSSD(赵文清等,2019)目标检测模型的mAP分别提升7.3%、1.3%和0.5%,提升效果显著。使用HR W48检测模型较SSD513 + HRNet v2 W48模型的mAP仅下降0.1%,可见本文针对HRNet的剪枝不仅减少了模型参数,加快了训练检测速度,而且对mAP影响小。

表 3 本文方法与其他方法在KITTI车辆检测数据集上的准确率比较
Table 3 Comparison of mAP among this method and other methods on KITTI vehicle detection dataset

下载CSV
方法 网络 mAP/%
SSD513 Residual-101 62.1
SSD513 HRNet v2 W48 69.1
LightSSD VGG16 68.1
DeconvSSD VGG16 68.9
SSD513(本文) HR W48 69.0
SSD513(本文) HR+LSTM W48 69.4
注:加粗字体为最优实验结果。

3.3.3 UCAS-AOD数据集的实验结果及对比

实验参数设置如下:学习率为0.000 1,衰减率为0.9,训练迭代次数40 000次,其他参数设置与在COCO2017数据集上的参数一样。

UCAS-AOD数据集的目标种类和数量远低于COCO2017数据集,且目标之间的关联性较强,适合验证本文的剪枝操作和LSTM结构的有效性。将HR + LSTM W48模型与其他算法在UCAS-AOD数据集上进行对比,$C$取值依然为48,实验结果如表 4所示,其中,SVD-SSD为梁华等人(2018)提出的一种小目标检测网络框架。

表 4 本文方法与其他方法在UCAS-AOD数据集上的准确率比较
Table 4 Comparison of mAP among this method and other methods on UCAS-AOD data set

下载CSV
方法 网络 mAP/%
SSD513 ResNet101 60.5
SVD-SSD VGG16 65.4
SSD513 HRNet v2 W48 68.8
SSD513 HR W48 68.9
SSD513 HR+LSTM W48 69.3
注:加粗字体为本文方法的实验结果。

表 4可以看出,使用HR W48模型的mAP为68.9%,较SSD513 + HRNet v2 W48模型提升了0.1%,表明在数据量较少的数据集上,对HRNet进行剪枝减少参数可以有效降低模型复杂度,防止模型过拟合。引入LSTM结构后,检测准确率为69.3%,较SSD513、SVD-SSD和SSD513 + HRNet v2检测模型的mAP提升显著。

图 10显示了本文模型和其他模型在COCO2017和UCAS-AOD数据集上的检测效果图。与SSD513 + Residual101模型的检测结果(图 10(a)左图)相比,本文模型可以检测出风筝和人等小目标(图 10(b)左图),效果提升明显。在图 10的另一幅航空遥感类图像中,只有一类目标,且目标排列紧密,结构相似。采用SSD513 + Residual101模型检测出7架飞机,平均置信度为0.87,图像上部分较小的飞机由于机翼特征模糊,检测框未能准确标出目标位置,导致准确率低;采用本文的HR + LSTM方法检测出9架飞机,平均置信度为0.96,尤其对于目标尺寸小的飞机,能够根据附近目标的特征来增强当前目标特征,进行更准确的定位。表明本文提出的并行高分辨率结合LSTM方法,能够有效提升算法对航空遥感图像中目标的检测准确率。

图 10 本文方法与SSD目标检测方法的检测效果可视化对比
Fig. 10 Visual comparison of the detection effect between the method in this paper and SSD target detection method
((a) SSD513 + Residual101 model; (b) ours)

另外,实验结果表明,使用LSTM结构的特征提取网络在不同数据集上的mAP提升效果有增幅但不明显。这是由于在航空遥感图像中,并不是所有图像中的目标都具备有效的前后序列特征,所以本文方法对图像中出现一排特征相似目标的情况,提升较为显著。整体结果显示,利用本文提出的基于HRNet与LSTM相结合的目标检测算法对该类航空遥感图像目标检测效果较好。

4 结论

本文主要针对航空遥感图像中目标尺寸小、目标种类单一和结构特征相似的特点,提出了一种基于并行高分辨率的航空遥感目标检测算法。该算法通过对HRNet进行剪枝,构建并行高分辨率网络结构,进行多尺度特征融合,并使用双向LSTM结构整合通道特征信息,完成多尺度目标检测。经过实验对比,本文方法相对于其他主流算法具有较高的平均检测准确率,在COCO2017数据集、KITTI车辆检测数据集和UCAS-AOD航空遥感数据集上的检测准确率分别达到了41.6%、69.4%和69.3%,表明了本文算法的有效性。

但是,本文算法也有不足,主要表现在:1)本文模型不适合较大的数据集。通过剪枝,在数据量较大的COCO2017数据集上,本文算法可能会造成模型欠拟合; 2)对检测目标关联度低的图像,本文算法不能有效利用目标的关联特征。

在未来的研究工作中,可以采取传统的图像处理算法对图像进行预处理,丰富目标特征信息,然后再进行特征提取,以期取得更好的实验结果。

参考文献

  • Fu C Y, Liu W, Ranga A, Tyagi A and Berg A C. 2017. DSSD: Deconvolutional single shot detector[EB/OL].[2019-04-09]. https://arxiv.org/org/pdf/1701.06659.pdf
  • He K M, Gkioxari G, Dollar P, Girshick R. 2017. Mask R-CNN. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42(2): 386-397 [DOI:10.1109/TPAMI.2018.2844175]
  • He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 770-778.
  • He K M, Zhang X Y, Ren S Q, Sun J. 2015. Spatial pyramid pooling in deep convolutional networks for visual recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(9): 1904-1916 [DOI:10.1109/TPAMI.2015.2389824]
  • Li Y, Liu X Y, Zhang H Q, Li X J, Sun X Y. 2018. Optical remote sensing image retrieval based on convolutional neural networks. Optics and Precision Engineering, 26(1): 200-207 (李宇, 刘雪莹, 张洪群, 李湘眷, 孙晓瑶. 2018. 基于卷积神经网络的光学遥感图像检索. 光学精密工程, 26(1): 200-207) [DOI:10.3788/OPE.20182601.0200]
  • Liang H, Song Y L, Qian F, Song C. 2018. Detection of small target in aerial photography based on deep learning. Chinese Journal of Liquid Crystals and Displays, 33(9): 793-800 (梁华, 宋玉龙, 钱锋, 宋策. 2018. 基于深度学习的航空对地小目标检测. 液晶与显示, 33(9): 793-800) [DOI:10.3788/YJYXS20183309.0793]
  • Lin T Y, Goyal P, Girshick R, He K M, Dollár P. 2020. Focal loss for dense object detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42(2): 318-327 [DOI:10.1109/TPAMI.2018.2858826]
  • Liu F, Shen T S, Ma X X, Zhang J. 2017. Ship recognition based on multi-band deep neural network. Optics and Precision Engineering, 25(11): 2939-2946 (刘峰, 沈同圣, 马新星, 张健. 2017. 基于多波段深度神经网络的舰船目标识别. 光学 精密工程, 25(11): 2939-2946) [DOI:10.3788/OPE.20172511.2939]
  • Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C Y and Berg A C. 2016. SSD: single shot multibox detector//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer: 21-37[DOI: 10.1007/978-3-319-46448-0_2]
  • Long M, Tong Y Y. 2018. Research on face liveness detection algorithm using convolutional neural network. Journal of Frontiers of Computer Science and Technology, 12(10): 1658-1670 (龙敏, 佟越洋. 2018. 应用卷积神经网络的人脸活体检测算法研究. 计算机科学与探索, 12(10): 1658-1670) [DOI:10.3778/j.issn.1673-9418.1801009]
  • Lu X, Li B Y, Yue Y X, Li Q Q and Yan J J. 2019. Grid R-CNN//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Long Beach, USA: IEEE: 7363-7372
  • Redmon J, Divvala S, Girshick R and Farhadi A. 2016. You only look once: unified, real-time object detection//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 779-788[DOI: 10.1109/CVPR.2016.91]
  • Ren S Q, He K M, Girshick R, Sun J. 2016. Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(6): 1137-1149 [DOI:10.1109/TPAMI.2016.2577031]
  • Sun K, Xiao B, Liu D and Wang J D. 2019. Deep high-resolution representation learning for human pose estimation//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 5686-5696[DOI: 10.1109/CVPR.2019.00584]
  • Wang W H, Gao L, Wu S B, Zhao Y N. 2019. Review of pedestrian detection. Motorcycle Technology, (1): 29-32 (王文豪, 高利, 吴绍斌, 赵亚男. 2019. 行人检测综述. 摩托车技术, (1): 29-32) [DOI:10.3969/j.issn.1001-7666.2019.01.003]
  • Wu T S, Zhang Z J, Liu Y P, Pei W H, Chen H Y. 2018. A lightweight small object detection algorithm based on improved SSD. Infrared and Laser Engineering, 47(7): 37-43 (吴天舒, 张志佳, 刘云鹏, 裴文慧, 陈红叶. 2018. 基于改进SSD的轻量化小目标检测算法. 外与激光工程, 47(7): 37-43) [DOI:10.3788/IRLA201847.0703005]
  • Yao Q L, Hu X, Lei H. 2018. Application of deep convolutional neural network in object detection. Computer Engineering and Applications, 54(17): 1-9 (姚群力, 胡显, 雷宏. 2018. 深度卷积神经网络在目标检测中的研究进展. 计算机工程与应用, 54(17): 1-9) [DOI:10.3778/j.issn.1002-8331.1806-0377]
  • Zhao W Q, Zhou Z D, Zhai Y J. 2019. SSD small target detection algorithm based on deconvolution and feature fusion. CAAI Transactions on Intelligent Systems, 15(2): 310-316 (赵文清, 周震东, 翟永杰. 2019. 基于反卷积和特征融合的SSD小目标检测算法. 智能系统学报, 15(2): 310-316) [DOI:10.11992/tis.201905035]