发布时间: 2019-11-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190021
2019 | Volume 24 | Number 11

图像分析和识别

多尺度特征图融合的目标检测

姜文涛¹, 张驰², 张晟翀³, 刘万军¹

1. 辽宁工程技术大学软件学院, 葫芦岛 125105;

2. 辽宁工程技术大学研究生院, 葫芦岛 125105;

3. 光电信息控制和安全技术重点实验室, 天津 300308

收稿日期: 2019-01-30; 修回日期: 2019-05-12; 预印本日期: 2019-05-19

基金项目: 国家自然科学基金项目（61172144）；辽宁省自然科学基金项目（20170540426）；辽宁省教育厅项目（LJ2017QL034）；辽宁省教育厅一般项目（LJYL049）

第一作者简介: 姜文涛, 1986年生, 男, 副教授, 主要研究方向为图像与视觉信息计算、模式识别与人工智能。E-mail:lntuwulue@sina.com;
张晟翀, 男, 高级工程师, 主要研究方向为图像处理与模式识别、视频目标跟踪。E-mail:zsc417@126.com;
刘万军, 男, 教授, 主要研究方向为软件工程理论、图像与视觉信息计算、模式识别与人工智能。E-mail:lunwanjun@lutn.edu.cn.

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2019)11-1918-14

摘要

目的自然场景图像中，特征提取的质量好坏是决定目标检测性能高低的关键因素。大多数检测算法都是利用卷积神经网络（CNN）强大的学习能力来获得目标的先验知识，并根据这些知识进行目标检测。卷积神经网络的低层次特征缺乏特征的代表性，而高层次的特征则对小尺度目标的监测能力弱。方法利用原始SSD（single shot multiBox detector）网络提取特征图，通过1×1卷积层将提取的特征图统一为256维；通过反卷积操作增加自顶向下特征图的空间分辨率；通过对应元素相加的操作，将两个方向的特征图进行融合。将融合后的特征图采用3×3的卷积核进行卷积操作，减小特征图融合后的混叠效应。根据以上步骤构建具有较强语义信息的特征图，同时保留原有特征图的细节信息；对预测框进行聚合，利用非极大抑制（NMS）实现最终的检测效果。结果在PASCAL VOC 2007和PASCAL VOC 2012数据集上进行实验测试，该模型的mAP（mean average precision）为78.9%和76.7%，相对于经典的SSD算法，分别提高了1.4%和0.9%；此外，本文方法在检测小尺度目标时相较于经典SSD模型mAP提升了8.3%。结论提出了一种多尺度特征图融合的目标检测算法，以自顶向下的方式扩展了语义信息，构造了高强度语义特征图用于实现精确目标检测。

关键词

计算机视觉; 深度学习; 卷积神经网络; 目标检测; 多尺度特征图

Multiscale feature map fusion algorithm for target detection

Jiang Wentao¹, Zhang Chi², Zhang Shengchong³, Liu Wanjun¹

1. College of Software, Liaoning Technical University, Huludao 125105, China;

2. Graduate School, Liaoning Technical University, Huludao 125105, China;

3. Science and Technology on Electro-Optical Information Security Control Laboratory, Tianjin 300308, China

Supported by: National Natural Science Foundation of China (61172144)

Abstract

Objective The development and progress of science and technology have made it possible to obtain numerous images from imaging equipment, the Internet, or image databases and have increased people's requirements for image processing. Consequently, image-processing technology has been deeply, widely, and rapidly developed. Target detection is an important research content in the field of computer vision. Rapid and accurate positioning and recognition of specific targets in uncontrolled natural scenes are vital functional bases of many artificial intelligence application scenes. However, several major difficulties presently exist in the field of target detection. First, many small objects are widely distributed in visual scenes. The existence of these small objects challenges the agility and reliability of detection algorithms. Second, detection accuracy and speed are linked, and many technical bottle necks must be overcome to consider the performance of these two factors. Finally, large-scale model parameters are an important reason restricting the loading of deep network chips. The compression of model size while ensuring detection accuracy is a meaningful and urgent problem. Targets with simple background, sufficient illumination, and no occlusion are relatively easy to detect, whereas targets with mixed background and target, occlusion near the target, excessively weak illumination intensity, or diverse target posture are difficult to detect. In natural scene images, the quality of feature extraction is the key factor to determine the performance of target detection. Decades of research have resulted in a more robust detection algorithm. Deep learning technology in the field of computer vision has also achieved great breakthroughs in recent years. Target detection framework based on deep learning has become the mainstream, and two main branches of target detection algorithms based on candidate regions and regression have been derived. Most of the current detection algorithms use the powerful learning ability of convolutional neural networks (CNNs) to obtain the prior knowledge of the target and perform target detection according to such knowledge. The low-level features of convolutional neural networks are characterized by high resolution ratio, low abstract semantics, limited position information, and lack of representation of features. High-level features are characterized by high identification, low resolution ratio, and a weak ability to detect small-scale targets. Therefore, in this study, the semantic information of context is transmitted by combining high- and low-level feature graphs to make the semantic information complete and evenly distributed. Method While balancing detection speed and accuracy, the multiscale feature graph fusion target detection algorithm in this study takes a single-shot multibox detector (SSD) network structure as the basic network and adds a feature fusion module to obtain feature graphs with rich semantic information and uniform distribution. The speech information of feature graphs on different levels is transmitted from top to bottom by feature fusion structure to reduce the semantic difference among feature graphs at different levels. The original SSD network is first used to extract a feature graph, which is then unified into 256 channels through a 1×1 convolution layer. The spatial resolution of the top-down feature maps is subsequently increased by deconvolution. Hence, the feature graph coming from two directions has the same spatial resolution. Feature graphs in both directions are then fused to obtain feature graphs with complete semantic information and uniform distribution by adding corresponding elements. The fused feature graph is convolved with a 3×3 convolution kernel to reduce the aliasing effect of the fused feature graph. A feature graph with strong semantic information is constructed according to the abovementioned steps, and the details of the original feature graph are retained. Lastly, the predicted bounding boxes are aggregated and non maximum suppression is used to achieve the final detection results. Result Key problems in the practical application of target detection algorithms and difficult problems in related target detection are analyzed according to the research progress and task requirements of visual target detection-related technology. Current solutions are also given. The target detection algorithm based on multiscale feature graph fusion in this study can achieve good results when dealing with weak targets, multiple targets, messy background, occlusion, and other detection difficulties. Experimental tests are performed on PASCAL VOC 2007 and 2012 data sets. The mean average precision values of the proposed model are 78.9% and 76.7%, which are 1.4 and 0.9 percentage points higher than those of the classical SSD algorithm, respectively. In addition, the method in this paper improves by 8.3% mAP compared with the classical SSD model when detecting small-scale targets. Compared with the classical SSD model, the method proposed in this study significantly improves the detection effect when detecting small-scale targets. Conclusion The multiscale feature graph fusion target detection algorithm proposed in this study uses convolutional neural network to extract convolutional features instead of the traditional manual feature extraction process, thereby expanding semantic information in a top-down manner and constructing a high-strength semantic feature graph. The model can be used to detect new scene images with strong visual task. In combination with the idea of deep learning convolutional neural network, the convolution feature is used to replace the traditional manual feature, thus avoiding the problem of feature selection in the traditional detection problem. The deep convolution feature has improved expressive ability. The target detection model of multiscale feature map fusion is finally obtained through repeated iteration training on the basis of the SSD network. The detection model has good detection effect for small-scale target detection tasks. While realizing end-to-end training of detection algorithm, the model also improves its robustness to various complex scenes and the accuracy of target detection. Therefore, accurate target detection is achieved. This study provides a general and concise way to solve the problem of small-scale target detection.

Key words

computer vision; deep learning; convolutional neural network(CNN); target detection; multiscale characteristic map

0 引言

卷积神经网络(CNN)在计算机视觉领域已经展现了卓越的性能，在图像分类^[1-3]、语义分割^[4-6]、目标检测^[7-10]领域得到了广泛的应用。数据驱动卷积神经网络获得的特征相比于传统手工制作的特征，质量有着明显的提升。因此，基于卷积神经网络的视觉识别研究更侧重于网络结构，而非特征工程。因此，如何设计更好的网络结构已经成为当前目标检测领域的一个关键问题。

国内外学者针对不同应用设计了大量有效的目标检测网络，基于卷积神经网络的目标检测模型可以分为两类：第一类是以R-CNN(regions with CNN features)^[7]为代表的两阶段目标检测模型，将object proposal机制^[11]和卷积神经网络分类器相结合；Faster R-CNN^[12]将提案生成模块和Fast R-CNN^[8]分类器集成为一个卷积神经网络。此类网络模型检测精度高、占用内存大、速度较慢，不适合实时应用, 从而促使研究者们构造一种快速的单阶段目标检测模型，如YOLO(you only look once)^[9]和SSD(single shot multiBox detector)^[10]。此类网络将图像划分为多个网格，并同时预测目标的位置和类别信息。但是由于此类网络产生质量较低的预测框，从而导致小尺度目标或部分遮挡目标定位失败，影响检测效果。本文基于以上问题进行研究。

在目标检测领域，多尺度目标检测一直都是一项艰巨的任务。卷积神经网络出现之前，图像金字塔是此类问题的主要解决方案。可变形部件模型DPM (deformable part model)^[13]利用多尺度图像生成多尺度特征，然后滤波器滑动到特征金字塔的顶部。尽管图像金字塔在目标检测的效果上表现很好，但计算时间较长，占用内存空间较高。本文采用SSD风格的特征金字塔结构。在SSD网络中，多尺度特征图分别由不同的下采样层生成。SSD网络已经证明了其在目标检测过程中特征图表述信息的有效性。然而，原始SSD网络并没有充分利用各特征图间的关联信息，这对于小尺度目标的检测至关重要。因此，本文在遵循SSD类型特征金字塔的同时，建立特征融合模块来增强特征金字塔的语义信息表示能力，提高目标检测的性能。

在目标检测的过程中，背景信息直接影响检测效果。目前大量的目标检测网络利用的是上下文信息的关联性。但是由于网络结构较为复杂，速度较慢，无法进行端到端训练。为了解决这些问题，一些结构较为简单的网络例如FPN(feature pyramid networks)^[14]，通过最邻近上采样和横向连接，融合来自高低两个方向的特征图，构造一组语义信息差异较小的多尺度特征图。本文的网络模型采用不同的组件，通过传递上下文语义信息，有效地结合了来自两个不同信息流的特征图，使其语义信息更加完整，分布更加均匀。在支持端到端训练的同时，提升目标检测准确率，极大地改善了SSD网络的不足。

1 相关工作

传统的目标检测一般使用手工特征，然后使用一个分类器进行目标检测。相比于传统检测算法，R-CNN将object proposal机制和卷积神经网络分类器相结合，在检测性能上有了大幅度的提升。Faster R-CNN将提案生成模块和Fast R-CNN分类器集成为一个卷积神经网络。目前为止，两阶段的目标检测网络的检测准确率仍占据着测试的榜首。但是由于此类网络占用内存较大，计算时间较长，因此，研究者们构造了一种快速的单阶段目标检测模型，如YOLO和SSD。此类网络可以同时预测目标的位置和类别信息。与YOLO不同，SSD使用网络内部的多个特征图来检测指定范围内的目标。这使得SSD网络模型在检测不同形状和尺度目标时相比于YOLO网络模型鲁棒性更强。

大量的研究表明，卷积神经网络中的多层结构可以改善目标检测的效果。SSD在不同层次的特征图上分布不同比例和尺度的默认框，使每层特征图进行相应大小目标的检测。与SSD类似，MS(multi-scale)-CNN^[15]也使用多个特征图进行预测，并且新引入了反卷积层来提高特征图的空间分辨率。FPN利用卷积神经网络的特征金字塔形, 通过最邻近上采样和横向连接实现了对卷积神经网络结构的扩充，从而建立语义信息更加丰富的特征图。

全局上下文在计算机视觉领域中起着至关重要的作用，目前大量的目标检测网络试图采用这种强大的语义特性来解决特定的问题。DPM集成了全局的和细节局部信息，来有效地表述可形变目标。FPN通过将不同层次的特征图进行融合，构建语义信息更加丰富的特征图。以上这些目标检测算法都表明，上下文全局信息对检测结果起着至关重要的作用。因此，本文在前人的基础上，提出了利用自顶向下的特征组合方式来有效地分散语义。本文提出的目标检测网络遵循SSD风格的金字塔，因此它继承了SSD的优点，同时又具有更高精确度。

2 多尺度特征图融合网络

目前，基于卷积神经网络的目标检测模型在解决多类目标检测问题上已经取得了显著的效果，但在多尺度目标检测问题中仍存在一些不足。如Faster R-CNN将整张图片直接输入到单个卷积神经网络中进行特征提取，在节省了计算时间的同时又支持端到端训练。然而，object proposals机制在很大程度上依赖于特征图上感受野的大小，由于卷积核的大小是固定的，但自然场景中目标的尺度是多样的，这将会导致特征提取过程中的不整合，进而影响检测效果。可以使用一个数学表达式来阐述

$ {f_n} = {C_n}\left( {{f_{n - 1}}} \right) = {C_n}\left( {{C_{n - 1}}\left( { \cdots {C_1}\left( \mathit{\boldsymbol{I}} \right)} \right)} \right) $

(1)

$ O = P\left( {{f_n}} \right) $

(2)

式中, $\mathit{\boldsymbol{I}}$为输入图像；$C_n$为第$n$个卷积模块，由卷积层、池化层等组成；$f_n$为第$n$层特征图；$P$是特征图对应的预测层，输出目标类别的置信度得分和预测框的位置信息。

目前，为了解决式(2)对弱小目标检测效果不佳的问题，SSD和MS-CNN网络运用多尺度特征金字塔，通过低分辨率的特征图来检测大目标，高分辨率特征图检测小目标。这两种方法可以表示为

$ \mathit{\boldsymbol{D}} = \left\{ {{P_{n - k}}\left( {{f_{n - k}}} \right), \cdots ,{P_n}\left( {{f_n}} \right)} \right\} $

(3)

式中, $0 < k < n$，$\mathit{\boldsymbol{D}}$表示对所有特征图进行综合后生成最终的检测结果。通过式(3)可知，SSD网络模型中特征图的信息完整程度是决定其检测性能的关键因素。文献[16]表明，SSD目标检测网络对小目标检测的效果并不理想，而在相对大的目标检测上可以和两阶段的目标检测网络相媲美。主要是由于低层特征图包含的语义信息较弱，严重缺少上下文语义信息；随着特征图层次的降低，语义信息强度也会随之下降；最低层次的特征图包含最弱的、局部的特征信息。文献[17]表明，特征图实际感受野的范围相对理论感受野范围要小。因此，${f_{n-k}}$特征图仅包含局部的特征信息，严重缺乏全局的、上下文语义信息。在式(3)中，直接使用${f_{n-k}}$层特征图进行目标检测，对小尺度目标检测漏检率较高。针对这一问题本文提出一种新方法

$ \mathit{\boldsymbol{D}} = \left\{ {{P_{n - k}}\left( {{{f'}_{n - k}}} \right), \cdots ,{P_n}\left( {{{f'}_n}} \right)} \right\} $

(4)

式中

$ \begin{array}{*{20}{c}} {{{f'}_n} = {f_n}}\\ {{{f'}_{n - 1}} = {f_n} + {f_{n - 1}}}\\ \vdots \\ {{{f'}_{n - k}} = {f_n} + {f_{n - 1}} + \cdots + {f_{n - k}}} \end{array} $

式中，${f_{n-k}}$表示为原始特征提取网络中提取的原始特征图，其中，$0 < k < n$。在$k$趋近于$n$的特征图中，其分辨率较高，语义抽象程度较低, 目标的位置信息较为模糊，缺乏特征的代表性。在$k$趋近于0的特征图中，其空间分辨率较低, 识别性较高, 位置信息明显、缺乏目标的细节信息，检测小尺度目标能力弱。式(4)中，“+”表示特征融合操作，通过反卷积操作使两个用于融合的特征图具有相同的空间分辨率。通过特征融合，将低层特征图中的信息逐渐传递到高层，经过多次融合形成${f'_{n- k}}$所表示的用于最后目标检测的特征图。在$k$从0逐渐趋于$n$的过程中，${f'_{n- k}}$特征图中的特征信息不断被丰富和完善，覆盖多种不同尺度的目标。与之比较的SSD目标检测网络中，每层特征图仅仅进行特定尺度目标的检测，检测的目标尺度范围有限，使预测框的定位和分类错误率较高，导致多尺度目标检测的失败。因此，本文提出了一种新的目标检测算法，在权衡检测速度和检测精度的同时，将不同层次的上下文信息进行有效地融合，实现精确检测的目的。

3 本文方法

特征金字塔是一系列尺度大小不同并按序排列的特征图的集合，卷积神经网络本身就是由多级特征图组成，并且随着网络结构的深入，特征图的尺度逐渐减小，构成金字塔结构。目标检测需要在图像中将物体分类并定位，自然场景中物体的尺度和形变是多样的，特征金字塔中不同层特征图提取的特征具有不同尺度，因此更加适用于目标检测任务。

在卷积神经网络中，高层次特征图通常具有更加抽象的信息，对目标的位置信息表示更强。而低层次特征图具有更高的空间分辨率，对细节、纹理信息表述得更加清晰。在SSD网络中，分别利用conv4_3~conv11_2这6种尺度的特征图单独做目标分类和定位，没有充分利用特征图间的关联性，导致检测小尺度目标效果较差。

DSSD(deconvolutional single shot detector)^[18]网络将ResNet^[1]代替VGG-16^[19]作为网络结构的基础结构，并在其后增加了一系列的卷积层和反卷积层，通过跳跃连接将低层特征图和高层特征图相融合，提高特征图对目标的表述能力，增强算法的鲁棒性。低层特征图通过一系列尺度不同的反卷积层和前端编码部分的特征图进行融合，形成反卷积结构，通过预测结构输出最终的预测结果。

本文深入分析了当前目标检测网络模型的优缺点，考虑到SSD网络模型中用于预测的特征图没有被充分利用，在权衡检测速度和准确率的同时，为了进一步增强特征图的语义信息，相较于SSD和DSSD算法，提出一种多尺度特征图融合算法，丰富特征图语义信息的同时，使语义分布更加均衡。充分利用特征金字塔结构的多级特征图，构建多尺度检测结构。图 1展示了本文目标检测算法的框架结构。此算法框架首先以完全卷积的方式处理任意的单尺度图像；然后，特征融合结构将特征提取网络的原始特征图和反卷积后的特征图进行融合操作，由简单到复杂，逐层传递语义信息，特征融合结构输出的特征图作为预测层的输入；最后，对预测框进行聚合，利用非极大抑制(NMS)实现最终的检测效果。

图 1 算法框架结构图

Fig. 1 Algorithm framework

3.1 网络结构

本文在权衡算法检测准确度和实时性的基础上，采用SSD网络作为特征提取网络，在原始SSD网络的基础上引出conv4_3、conv7、conv8_2、conv9_2、conv10_2和conv11_2这6个不同卷积层用来提取特征。SSD网络已经证明了其在特征表述上的有效性，低层特征图充分包含纹理、边缘等细节信息，高层特征图包含宏观的全局信息。

低层卷积conv4_3输出的特征图空间分辨率较高、纹理和轮廓信息明确，该层的特征图可以提取到更加细微的信息。高层卷积conv11_2输出的特征图空间分辨率较低，更加充分地获取全局信息。随着选取特征图的逐渐深入，充分获得上下文语义信息。本文选择多个不同层次的卷积层进行特征提取，通过结合多层特征图，提升目标检测性能。

特征融合结构如图 2所示，F代表融合，其输入来自两个部分，一部分是原始SSD网络引出的特征图，另一部分是特征融合结构组合后的特征图。经过特征融合后的特征图的空间分辨率较小，因此采用反卷积操作增大其空间分辨率。原始SSD网络引出的特征图维度具有差异性，采用1×1卷积层统一特征图的维度，使两个方向的特征图具有相同的维度特性。最终，用于检测的特征图均为256维度。特征图细节信息见表 1。利用3×3卷积层来减小特征图融合后的混叠效应。

图 2 特征融合结构图

Fig. 2 Feature fusion structure

表 1 不同方法的特征图细节信息
Table 1 Feature map details of different methods

下载CSV

文献[10]		本文		尺度
特征图	维度	特征图	维度	尺度
conv4_3	512	conv4F	256	38×38
conv7	1 024	conv7F	256	19×19
conv8_2	512	conv8F	256	10×10
conv9_2	256	conv9F	256	5×5
conv10_2	256	conv10F	256	3×3
conv11_2	256	conv11_2	256	1×1

空间分辨率较高的低层特征图均是SSD基础网络的特征层，与高层特征图中信息分布情况差距较大，直接与高层特征图融合会造成特征图之间信息差异较大，难以学习。因此在特征图进行融合前，本文分别在不同方向的特征图前加BN层(batch normalization layer)^[20]，做归一化处理操作, 不仅加快了模型收敛速度，而且在一定程度上缓解了深层网络的梯度弥散，使得网络的训练更加容易和稳定。特征图在融合之前先进行激活操作，本文使用具有单侧抑制且稀疏激活的ReLU(rectified linear unit)激活函数^[21]。通过对应元素相加操作，将来自不同方向的特征图进行融合，融合后的特征图被直接传递到下一个反卷积层。通过迭代以上过程，每个特征图的信息量不断被丰富，因此，层次较低的特征图将具有更多样的信息源。通过添加3×3卷积层可以减小特征融合后的混叠效应，消除各级特征图间特征分布差异，融合特征图各级信息。此外，本文将反卷积层和双线性插值方法进行了实验对比，实验表明采用反卷积操作的检测效果更佳。

在目标检测过程中，特征空间的分布是影响检测结果的关键因素之一。文献[22]表明，目标尺度的差异会导致特征空间分布的不同。从SSD网络模型中提取多个不同尺度特征图，与之匹配多个不同尺度的分类器，获得了较好的目标检测效果。采用多个分类器已经成为当前目标检测网络中的主流设计方案。从这个角度分析，本文的特征融合模块有效地缓解了不同层次特征图之间的语义差异。在特征图存在尺度差异的情况下，各个层次特征图间的语义程度相近，因此采用统一的分类器进行目标的预测。此外，不同层次特征图间相近的语义表示和统一分类器可以解决训练数据中目标尺度的不平衡问题。例如，一个偏态分布的特定类别，在PASCAL VOC 2007数据集中，存在着大量的大型牛和少量的小型牛数据。本文方法中，使用统一分类器共享各种尺度目标的数据，最终表示大型牛和小型牛的特征是相近的，这种使用大型牛数据训练的分类器同样适合检测小型牛。因此，本文算法在解决此类问题时鲁棒性更强。

3.2 目标位置预测

在原始SSD网络结构中，特征图上默认框和其对应的预测框之间都存在着一个偏移量，其定义为

$ \begin{array}{*{20}{c}} {x = \left( {{t_s} \times {w_a}} \right) + {x_a}}\\ {y = \left( {{t_y} \times {h_a}} \right) + {y_a}} \end{array} $

(5)

式中，$x$和$y$分别表示预测框的横纵坐标，$x_a$和$y_a$分别表示默认框的横纵坐标，$t_x$和$t_y$分别表示预测框相对于默认框的横纵偏移量，$w_a$和$h_a$分别为默认框的高和宽。对$t_x$和$t_y$没有任何限制，因此对预测框的中心坐标没有任何约束。在训练的早期阶段，可能会出现距离默认框检测较远的目标，其效率较低，初始化后，模型需要较长时间来确定目标的位置。

本文采用每一个默认框仅负责一个固定区域目标的方式，将$t_x$和$t_y$分别限定在$-0.5$到$0.5$的有限区间内，如图 3所示。$H(t_x)$和$H(t_y)$分别表示默认框中心到网格中心的横纵坐标的距离。图 4显示了预测框的位置，$C_x$和$C_y$分别表示网格中心的横纵坐标。

$ \begin{array}{*{20}{c}} {H\left( {{t_x}} \right) = \left\{ {\begin{array}{*{20}{c}} {0.5}&{{t_x} > 0.5}\\ {{t_x}}&{ - 0.5 \le {t_x} \le 0.5}\\ { - 0.5}&{{t_x} < - 0.5} \end{array}} \right.}\\ {H\left( {{t_y}} \right) = \left\{ {\begin{array}{*{20}{c}} {0.5}&{{t_y} > 0.5}\\ {{t_y}}&{ - 0.5 \le {t_y} \le 0.5}\\ { - 0.5}&{{t_y} < 0.5} \end{array}} \right.} \end{array} $

(6)

$ \left\{ \begin{array}{l} x * = H\left( {{t_x}} \right) + {C_x}\\ y * = H\left( {{t_y}} \right) + {C_y} \end{array} \right. $

(7)

图 3 函数图像

Fig. 3 Function graph

图 4 预测框的位置

Fig. 4 The position of the bound boxes

3.3 默认框选择

在卷积神经网络中，不同层次的特征图有着不同尺度大小的感受野，其对应检测图像上的不同尺度大小的区域，为了将默认框与每一层特征图的感受野准确对应，本文采用多尺度的方法得到多个不同尺度的特征图，假设采用$m$层特征图进行目标的预测和分类，每层特征图的大小为$s$，则第$k$个特征图中默认框的尺寸计算为

$ \begin{array}{*{20}{c}} {{s_k} = {s_{\min }} + \frac{{{s_{\max }} - {s_{\min }}}}{{m - 1}}\left( {k - 1} \right)}\\ {k \in \left[ {1,m} \right]} \end{array} $

(8)

式中, $s_k$代表特征图上默认框的面积，最小的$s_\text{min}$取$0.2×s$；最大的$s_\text{max}$取$0.9×s$。中间层由式(8)计算得出。同时，在同一特征图上使用纵横比例不同的默认框，以增强默认框对物体形状的鲁棒性。默认框的纵横比例采用$r_n=\{1，2，3\}$，则默认框的宽$w_k$和高$h_k$分别为

$ \left\{ {\begin{array}{*{20}{l}} {{w_k} = \sqrt {{s_n} \cdot {r_n}} }\\ {{h_k} = \sqrt {{s_k}/{r_n}} } \end{array}} \right. $

(9)

对于纵横比$r_n=1$的默认框，即$w_k=h_k$的情况，默认框的宽$w_k$和高$h_k$分别由式(10)表示。

$ {w_k} = {h_k} = \sqrt {{s_k}{s_{k + 1}}} $

(10)

3.4 损失函数

模型在进行训练的同时对目标的位置和种类进行回归，训练过程中目标损失函数由位置损失函数和置信度损失函数两部分组成，其表达式为

$ L\left( {x,c,l,g} \right) = \frac{1}{N}\left( {{L_{{\rm{conf}}}}\left( {x,c} \right) + \alpha {L_{{\rm{loc}}}}\left( {x,l,g} \right)} \right) $

(11)

式中，$N$是预测框与默认框匹配的数量；$l$为预测框，$g$表示默认框，$c$表示多类别目标的置信度，$L_\text{loc}$表示位置损失函数，$L_\text{conf}$表示置信度损失函数，$α$通过交叉验证设置为$1$，位置损失是预测框$l$和默认框$g$之间的$smooth_{L1}$损失, 即

$ {L_{{\rm{loc}}}}\left( {x,l,g} \right) = \sum\limits_{i \in \mathit{\boldsymbol{Pos}}}^N {\sum\limits_{m \in \{ cx,cy,w,h\} } {x_{ij}^ksmoot{h_{L1}}\left( {l_i^m - \hat g_j^m} \right)} } $

(12)

置信度损失是多类别置信度$c$的$softmax$损失, 即

$ {L_{{\rm{conf}}}}\left( {x,c} \right) = - \sum\limits_{i \in \mathit{\boldsymbol{Pos}}}^N {x_{ij}^p} \ln \left( {\hat c_i^p} \right) - \sum\limits_{i \in \mathit{\boldsymbol{Neg}}} {\ln } \left( {c_i^0} \right) $

(13)

其中

$ \hat c_i^p = \frac{{\exp \left( {c_i^p} \right)}}{{\sum\limits_p {\exp \left( {c_i^p} \right)} }} $

(14)

若默认框$i$与类别$p$的默认框$j$相匹配，则$x^p_{ij}$为$1$，反之则为$0$。

由于本文损失函数由位置损失函数和置信度损失函数两部分组成，在训练的过程中，可以通过改变损失函数的参数同时提升预测框的位置和类别置信度，根据训练结果进行多次优化，不断提升网络模型目标检测的准确率，训练出目标检测效果较好的网络模型。

4 实验与分析

首先，采用PASCAL VOC 2007和PASCAL VOC 2012数据集^[23]作为实验数据，输入图像都固定为300×300像素大小。然后，训练了5种不同的网络模型，进行了大量的结构分析实验，判定网络模型中各个模块对网络模型性能的影响。使用不同尺度的目标对本文的网络模型进行了评估。最后，分别在PASCAL VOC 2007和PASCAL VOC 2012测试数据集上对比了当前较为流行的目标检测网络，展现了本文网络模型在目标检测方面的良好性能。

4.1 网络模型结构分析

本文对比了元素和、元素积和元素取最大3种不同的元素组合方式，结果见表 2，在使用3×3的卷积层的情况下，实验表明：采用元素相加的方式检测效果最好，达到了78.9%mAP(mean average precision)，而元素取最大和元素积分别为78.5%mAP和78.1%mAP。这种结果可以用信息流来解释，文献[1]表明，在大量具有挑战性的视觉任务中，元素和是集成和保存信息的有效方式；使网络能够利用来自两个分支的互补信息，并且不丢失任何信息，梯度平均分配给所有输入，导致训练更加有效。在某种程度上，元素取最大只是从梯度较大的输入端进行有效的正规化，从而产生了不稳定的效果。元素积会导致输入元素的梯度极其不稳定，使网络难以收敛，其效果最差。

表 2 3×3卷积层对融合模块效果的影响
Table 2 3×3 convolution layer on the effects of the integration module

下载CSV

/%
	元素组合方式
	相加	取最大	相乘
有3×3卷积层	78.9	78.5	78.1
无3×3卷积层	77.8	77.3	-
注：“-”代表无结果。

在去除3×3卷积层的情况下，相比于使用3×3卷积层，任何一种元素组合方式，网络模型的检测性能都会下降；元素和、元素积的mAP分别达到了77.8%和77.3%，在元素积的情况下，甚至其训练也是不稳定的。添加3×3卷积层既提高了网络的性能，同时又能使训练更加稳定。由于引入了3×3的卷积层使网络模型的深度更深，增加了模型的容量。此外，3×3的卷积层类似一个缓冲区，将各层次特征图的语义信息分布得更均匀。因此，本文以下的所有实验都采用元素相加的操作，并且添加3×3的卷积层。

4.2 不同结构网络模型对比

通过研究使用不同模块对目标检测网络模型性能的影响，在合并的PASCAL VOC 2007和PASCAL VOC 2012训练数据集上分别训练了5种不同的目标检测网络模型，利用PASCAL VOC 2007测试数据集分别对5个目标检测网络模型进行测试，实验结果见表 3。模型1采用纵横比为{2，3}的边界框、反卷积操作和统一的分类器；模型2采用纵横比为{1.6，2，3}的边界框、反卷积操作和统一的分类器；模型3采用纵横比为{2，3}的边界框、双线性插值法和统一的分类器；模型4采用纵横比为{2，3}的边界框、反卷积操作和多个分类器；模型5去除了特征融合模块。

表 3 不同结构网络模型的对比实验
Table 3 Comparative experiments of different structure network models

下载CSV

/%
	模型1	模型2	模型3	模型4	模型5
mAP	78.9	80.0	78.4	80.0	77.1

在模型5中，去除了特征融合模块，mAP达到了77.1%，由于缺少反卷积层通过向下传递高层特征图的语义信息，减小了各层次特征图间的语义差异。因此，网络的检测性能显著下降，这说明特征融合模块在目标检测网络模型中起着关键的作用。模型3采用纵横比为{2，3}的边界框、双线性插值法和统一的分类器，mAP达到了78.4%，相比于模型1采用纵横比为{2，3}的边界框、反卷积操作和统一的分类器，mAP下降了0.5%。因此，采用反卷积层增大特征图的空间分辨率更加适合信息的传播，检测效果更好。文献[18]在PASCAL VOC 2007和PASCAL VOC 2012的训练数据集上增加了纵横比为1.6的边界框。然而，通过模型2的实验结果可以看出，其检测效果并没有特别明显的改善。因此，本文使用纵横比为{2, 3}类型的边界框，这样的优点在于较少类型的边界框可以减少参数，节省计算时间。本文网络模型不同于SSD网络模型采用多个分类器，模型5充分证明了特征组合模型有效地传递了上下文的语义信息，经过特征融合模块处理后的特征图都具有相似程度的语义信息。另外，模型4相较于模型1在检测精度上有些许提升，但本文在权衡检测精度和速度的同时，依然采用统一的分类器。

4.3 针对不同尺度目标的检测

为了探究不同尺度目标对网络模型检测性能的影响，本文选择了3种不同尺度的目标来评估SSD和本文网络模型的性能。在测试数据集中，按照目标真实框面积在整张图片上的占有比值，可以将测试图片分为：小(0~25%)、中(25%~75%)、大(75%~1) 3种尺度。在训练集的每个类别中，大中小比例分别为1 :2 :1。当对任意一个尺度数据进行测试时，忽略其他大小的真实框，实验结果见表 4。在检测小尺度目标的情况下，本文网络模型相对于SSD模型，mAP提高了9.3%；20个类别中，有18个类别检测效果更好。尽管像牛、马、人、鸟这样的非刚性目标，其形变后检测难度较大，检测性能同样比SSD网络更出色，其主要原因是由于上下文信息的有效传播，减少了不同层次特征图间的语义差异。

表 4 不同方法多尺度目标的实验结果
Table 4 Multi-scale target experimental results of different methods

下载CSV

/%
图像	小尺度		中尺度		大尺度
图像	文献[10]	本文	文献[10]	本文	文献[10]	本文
aero	45.8	57.1	78.7	78.5	89.4	90.1
bike	64.5	69.3	81.3	82.9	87.9	89.1
bird	34.9	51.2	75.7	77.8	80.3	85.2
boat	23.0	34.7	65.2	68.7	79.6	75.9
bottle	8.7	22.1	44.6	54.3	61.8	63.0
bus	45.2	54.4	88.3	87.9	86.5	91.8
car	48.4	55.3	86.3	86.3	87.6	89.2
cat	65.3	66.1	87.0	87.4	90.5	88.2
chair	21.5	24.7	65.6	63.1	49.8	47.5
cow	46.6	75.3	83.0	83.3	81.7	81.2
table	30.8	31.4	75.1	77.3	82.4	80.1
dog	52.9	59.5	82.4	82.3	81.5	80.6
horse	61.2	73.8	88.0	88.7	85.8	87.6
mbike	46.7	53.8	85.3	87.6	87.3	89.7
person	29.2	37.1	80.7	79.8	84.2	83.3
plant	8.5	24.6	46.4	49.2	53.5	52.1
sheep	44.1	52.2	74.9	74.1	77.7	76.2
sofa	61.6	60.3	78.6	79.2	53.2	46.4
train	62.4	68.7	86.3	87.4	87.8	89.5
tv	29.2	44.5	77.1	78.2	76.9	78.8
mAP	41.5	50.8	76.5	77.7	78.3	78.2

4.4 PASCAL VOC 2007数据集的实验

本文合并了PASCAL VOC 2007与PASCAL VOC 2012的训练集作为训练样本。在训练过程中，batch size设置为16，weight_decay设置为0.000 1，momentum设置为0.9，初试学习率设置为0.001；在迭代到80 K(千)和100 K时，分别将学习率减为原来的1/10；迭代到120 K时，训练结束。

训练结束后，测试采用PASCAL VOC 2007的测试数据集，实验结果见表 5。本文的网络模型与文献[10]相比mAP提高了1.4%，与文献[12]和文献[18]相比，mAP分别提高了2.5%和0.3%。与文献[10]、文献[12]和文献[18]相比，本文的网络模型在bike、boat、bottle、car、chair、mbike、plant、sheep、train共9个类别上获得了最好的检测结果，AP(average precision)值分别为85.9%、71.9%、57.3%、87.5%、63.1%、86.8%、55.3%、78.9%、88.1%。

表 5 PASCAL VOC 2007测试结果
Table 5 Results of PASCAL VOC 2007 test

下载CSV

/%
图像	文献[10]	文献[12]	文献[18]	本文
aero	79.5	79.8	81.9	80.6
bike	83.9	80.7	84.9	85.9
bird	76.0	76.2	80.5	78.0
boat	69.6	68.3	68.4	71.9
bottle	50.5	55.9	53.9	57.3
bus	87.0	85.1	85.6	86.9
car	85.7	85.3	86.2	87.5
cat	88.1	89.8	88.9	88.4
chair	60.3	56.7	61.1	63.1
cow	81.5	87.8	83.5	83.6
table	77.0	69.4	78.7	76.8
dog	86.1	88.3	86.7	84.9
horse	87.5	88.9	88.7	87.9
mbike	83.9	80.9	86.7	86.8
person	79.4	78.4	79.7	78.7
plant	52.3	41.7	51.7	55.3
sheep	77.9	78.6	78.0	78.9
sofa	79.5	79.8	80.9	79.3
train	87.6	85.3	87.2	88.1
tv	76.8	72.0	79.4	78.0
mAP	77.5	76.4	78.6	78.9

本文对PASCAL VOC 2007数据集中bottle和chair两个类别的数据进行了分析。在PASCAL VOC 2007数据集中，bottle和chair的图片分别为502幅和1 117幅。其中，bottle有244幅图像，505个标注用来进行训练，被标注的bottle目标尺度普遍较小。chair有445幅图像，共包含了798个目标用来训练，其尺度普遍较大且存在不同程度的遮挡，主要是由于chair上会有人的存在或者其他目标等。在表 5中，本文方法相比于文献[10]、文献[12]和文献[18]在bottle和chair两类目标的检测准确率上有着较大幅度的提升。主要是由于本文方法运用了特征融合模块将特征图低层的细节信息传递到高层，使增强后的特征图信息更加完整、均衡，有助于目标的分类和定位。

表 6中显示了在PASCAL VOC 2007测试集上进行测试时，本文网络模型、文献[10]和文献[18]的检测速度。由于本文网络模型在文献[10]的基础上添加了特征融合模块，因此检测速度不及文献[10]。相较于文献[18]模型，本文网络层数较少，因此检测速度上存在明显的优势。

表 6 PASCAL VOC 2007的实验结果
Table 6 Results of PASCAL VOC 2007

下载CSV

方法	mAP/%	帧/s
文献[10]	77.5	62
文献[18]	78.6	9.5
本文	78.9	29

4.5 PASCAL VOC 2012数据集的实验

将PASCAL VOC 2007测试样本、PASCAL VOC 2007训练样本、PASCAL VOC 2012训练样本合并为训练数据集。本实验除了迭代次数外，其他设置完全和PASCAL VOC 2007一致。由于训练数据的增加，将训练迭代次数增加到140 K。初试学习率设置为0.001，分别在80 K、100 K和120 K迭代时降为原来的1/10。迭代到140 K时，训练结束。

表 7显示了不同算法在PASCAL VOC 2012测试集中的检测效果。

表 7 PASCAL VOC 2012测试结果
Table 7 Results of PASCAL VOC 2012 test

下载CSV

/%
图像	文献[10]	文献[12]	文献[18]	本文
aero	88.1	86.5	87.3	88.2
bike	82.9	81.6	83.3	83.5
bird	74.4	77.2	75.4	74.8
boat	61.9	58.0	64.6	63.4
bottle	47.6	51.0	46.8	51.2
bus	82.7	78.6	82.7	83.4
car	78.8	76.6	76.5	79.1
cat	91.5	93.2	92.9	92.1
chair	58.1	48.6	59.4	59.5
cow	80.0	80.4	78.3	81.9
table	64.1	59.0	64.3	65.9
dog	89.4	92.1	91.5	90.3
horse	85.7	85.3	86.6	86.2
mbike	85.5	84.8	86.6	85.7
person	82.6	80.7	82.1	82.7
plant	50.2	48.1	53.3	53.5
sheep	79.8	77.3	79.6	81.1
sofa	73.6	66.5	75.7	72.3
train	86.6	84.7	85.2	86.7
tv	72.1	65.6	73.9	73.4
mAP	75.8	73.8	76.3	76.7

从表 7可以看出，本文算法在检测准确率上优于其他3种算法。本文网络模型的mAP达到了76.7%，相比于文献[10]、文献[12]和文献[18]，分别提高了0.9%、2.9%、0.4%。本文网络模型与文献[12]相比, 所有类别目标的AP值都有提升，与文献[12]和文献[18]相比，有12个类别的目标都获得了最高的检测准确率。

图 5展示了不同层次特征图融合后的效果。输入图片如图 5(a)所示，图 5(b)是conv4F层输出的特征图，图 5(c)是conv7F层输出的特征图，图 5(d)是conv8F层输出的特征图，图 5(e)是conv9F层输出的特征图，图 5(f)是conv10F层输出的特征图。随着特征图的不断融合，由conv10F层到conv4F层，特征图中的语义信息逐渐被丰富和完整。在conv10F层和conv9F层输出的特征图中，包含的语义信息更加抽象，特征图中的黑色激活部分为图 5(a)中目标位置的映射，由此可以准确地确定目标的位置信息，图片中其他信息则被判定为背景。在conv8F层输出的特征图中已经可以看到目标的轮廓信息。随着特征图的融合，特征图所包含的语义信息不断被完善，低层次特征图的语义信息更加具体，conv4F层和conv7F层中所包含的细节、纹理信息逐渐完整，由此可以准确地确定目标的类别信息。

图 5 特征图融合后的效果图

Fig. 5 Effect of feature map fusion((a) original image; (b) conv4F layer; (c) conv7F layer; (d) conv8F layer; (e) conv9F layer; (f) conv10F layer)

本文使用PASCAL VOC 2007和PASCAL VOC 2012数据集进行训练和测试，在实验的4个算法中随机选取了6幅图像的检测结果如图 6所示。

图 6 不同算法检测结果

Fig. 6 Detection results of different algorithms((a) reference [10]; (b) reference [12]; (c) reference [18]; (d) ours)

图 6是目标发生部分遮挡、目标尺度较小以及目标发生形变的检测效果。在目标发生部分遮挡的情况下，其特征信息不够完整，文献[10]、文献[12]以及文献[18]的算法同时发生了漏检现象。本文在目标发生部分遮挡的情况下，利用特征融合结构，将来自不同层次的特征信息进行融合，丰富了目标的特征信息，有效地解决了目标部分遮挡的问题。在检测小尺度目标时，文献[10]、文献[12]以及文献[18]的算法的检测效果并不理想。本文算法运用统一的分类器共享各种尺度目标的数据，最终表示大尺度目标和小尺度目标的特征是相近的，这种使用大尺度数据训练的分类器同样适合检测小尺度目标。因此，本文算法在解决此类问题上鲁棒性更强。在目标发生形变及背景信息较为复杂时，其特征信息发生变化，受背景信息影响较大，本文算法利用低层次细节信息较好地保证了目标特征信息的准确性，达到精确检测的效果。

本文算法检测不佳的结果如图 7所示，存在着预测框重叠的现象。由于图片中目标距离较小，且存在着不同程度的遮挡和重合。本文算法在检测的最后阶段，对默认框进行聚合，采用非极大值抑制(NMS)算法来实现最终的检测结果。本文IOU(intersection over union)=0.5，所有满足IOU＞0.5的预测框都会被选中，因此会出现预测框重叠现象。对于以上问题，会在以后的研究中进一步讨论。

图 7 检测效果不佳的图片结果

Fig. 7 Results with poor detection effect

5 结论

本文首先对目标检测的现状进行了深入的分析，指出两阶段检测网络没有利用固有的多尺度特征，而单阶段网络忽略了全局上下文信息，在此基础上提出了一种多尺度特征图融合网络，经过一系列的实验测试，本文所提出的网络模型在小尺度目标检测方面有着明显的提高。

在PASCAL VOC 2007和PASCAL VOC 2012数据集上进行实验，mAP为78.9%和76.7%。由于本文方法采用特征融合结构，以自顶向下的方式扩展了语义强度，从简单到复杂，构造了语义信息更加完整的特征图，相较于文献[10]和文献[18]在检测准确率及检测速度上有着明显的优势。

提出的多尺度特征融合算法虽然比之前的算法在检测精度和检测速度方面获得比较好的提升，但对于背景与目标混为一体、目标遮挡较为严重等问题依然存在着提升空间。接下来的研究将会围绕特征融合的其他方式展开，寻找更有效的结合上下文特征的方法，使其获得更高的准确率。

参考文献

[1] He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas, NV, USA: IEEE, 2016: 770-778.[DOI: 10.1109/CVPR.2016.90]

[2] Xu G, Yue J G, Dong Y C, et al. Cement plant detection on satellite images using deep convolution network[J]. Journal of Image and Graphics, 2019, 24(4): 550–561. [徐刚, 岳继光, 董延超, 等. 深度卷积网络卫星图像水泥厂目标检测[J]. 中国图象图形学报, 2019, 24(4): 550–561. ] [DOI:10.11834/jig.180424]

[3] Bai C, Huang L, Chen J N, et al. Optimization of deep convolutional neural network for large scale image classification[J]. Journal of Software, 2018, 29(4): 1029–1038. [白琮, 黄玲, 陈佳楠, 等. 面向大规模图像分类的深度卷积神经网络优化[J]. 软件学报, 2018, 29(4): 1029–1038. ] [DOI:10.13328/j.cnki.jos.005404]

[4] Noh H, Hong S, Han B. Learning deconvolution network for semantic segmentation[C]//Proceedings of 2015 IEEE International Conference on Computer Vision.Santiago, Chile: IEEE, 2015: 1520-1528.[DOI: 10.1109/ICCV.2015.178]

[5] Li L H, Qian B, Lian J, et al. Study on traffic scene semantic segmentation method based on convolutional neural network[J]. Journal on Communications, 2018, 39(4): 123–130. [李琳辉, 钱波, 连静, 等. 基于卷积神经网络的交通场景语义分割方法研究[J]. 通信学报, 2018, 39(4): 123–130. ] [DOI:10.11959/j.issn.1000-436x.2018053]

[6] Yu F, Koltun V. Multi-scale context aggregation by dilated convolutions[EB/OL].2016-04-30[2019-01-02].https://arxiv.org/pdf/1511.07122.pdf.

[7] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus, OH, USA: IEEE, 2014: 580-587.[DOI: 10.1109/CVPR.2014.81]

[8] Girshick R. Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision.Santiago, Chile: IEEE, 2015: 1440-1448.[DOI: 10.1109/ICCV.2015.169]

[9] Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas, NV, USA: IEEE, 2016: 779-788.[DOI: 10.1109/CVPR.2016.91]

[10] Liu W, Anguelov D, Erhan D, et al. SSD: single shot multiBox detector[C]//Proceedings of the 14th European Conference on Computer Vision.Amsterdam, The Netherlands: Springer, 2016: 21-37.[DOI: 10.1007/978-3-319-46448-0_2]

[11] Uijlings J R R, Van De Sande K E A, Gevers T, et al. Selective search for object recognition[J]. International Journal of Computer Vision, 2013, 104(2): 154–171. [DOI:10.1007/s11263-013-0620-5]

[12] Ren S Q, He K M, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems.Montreal, Canada: ACM, 2015: 91-99.

[13] Felzenszwalb P, McAllester D, Ramanan D. A discriminatively trained, multiscale, deformable part model[C]//Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition.Anchorage, AK, USA: IEEE, 2008: 1-8.[DOI: 10.1109/CVPR.2008.4587597]

[14] Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[EB/OL].2017-04-19[2019-01-02].https://arxiv.or-g/pdf/1612.03144.pdf.

[15] Cai Z W, Fan Q F, Feris R S, et al. A unified multi-scale deep convolutional neural network for fast object detection[EB/OL]. 2016-07-25[2019-01-02]. https://arxiv.org/pdf/1607.07155.pdf.

[16] Huang J, Rathod V, Sun C, et al. Speed/accuracy trade-offs for modern convolutional object detectors[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition.Honolulu, HI, USA: IEEE, 2017: 3296-3297.[DOI: 10.1109/CVPR.2017.351]

[17] Zhou B L, Khosla A, Lapedriza A, et al. Object detectors e-merge in deep scene CNNs[EB/OL].2015-04-15[2019-01-02].https://arxiv.org/pdf/1412.6856.pdf.

[18] Fu C Y, Liu W, Ranga A, et al. DSSD: deconvolutional single shot detector[EB/OL].2017-01-23[2019-01-02].https://arxiv.org/pdf/1701.06659.pdf.

[19] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL].2015-04-10[2019-01-02].https://arxiv.org/pdf/1409.1556.pdf.

[20] Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift[EB/OL].2015-03-02[2019-01-02].https://arxiv.org/pdf/1502.03167,2015.pdf.

[21] Nair V, Hinton G E. Rectified linear units improve restricted Boltzmann machines[C]//Proceedings of the 27th International Conference on International Conference on Machine Learning. Haifa, Israel: ACM, 2010: 807-814.

[22] Li J N, Liang X D, Shen S M, et al. Scale-aware fast R-CNN for pedestrian detection[J]. IEEE Transactions on Multimedia, 2018, 20(4): 985–996.

[23] Everingham M, Van Gool L, Williams C K I, et al. The Pascal visual object classes (VOC) challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303–338. [DOI:10.1007/s11263-009-0275-4]