Print

发布时间: 2018-12-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180299
2018 | Volume 23 | Number 12




    图像分析和识别    




  <<上一篇 




  下一篇>> 





复杂热红外监控场景下行人检测
expand article info 许茗1, 于晓升2, 陈东岳1, 吴成东2, 贾同1, 茹敬雨1
1. 东北大学信息科学与工程学院, 沈阳 110819;
2. 东北大学机器人科学与工程学院, 沈阳 110819

摘要

目的 复杂热红外监控场景中的行人检测问题是计算机视觉领域的重要研究内容之一,是公共安全、灾难救援以及智慧城市等实际应用中的重要基础任务。现今的热红外行人检测算法大多依据图像中人体目标的灰度值高于场景环境这一假设,导致当环境温度升高热红外图像发生灰度值反转时行人检测率较低。为提高行人检测系统在不同场景中的鲁棒性以及行人目标检测率,提出一种面向热红外监控场景的基于频域显著性检测的全卷积网络行人目标检测算法。方法 该算法首先对热红外图像进行基于频域的显著性检测,生成对行人目标全覆盖的显著图;然后结合热红外原图像生成感兴趣区域图作为输入,以行人目标概率图为输出,搭建全卷积网络;最后,对热红外行人检测系统进行端对端训练,获取网络输出的行人目标概率图,进而实现行人目标检测。结果 论文使用俄亥俄州立大学建立的红外视频数据集OTCBVS中的OSU热红外行人数据库对算法进行验证,与目前5种较为成熟的算法进行对比。实验结果表明,本文算法可以在各种场景中准确检测出行人目标,以MR-FP(丢失率—假阳率)为对比依据,本文算法7%的平均丢失率低于其他算法,具有更高的检测率,对热红外图像中的灰度值反转问题具有更好的鲁棒性。结论 本文提出一种面向热红外监控场景的基于频域显著性检测的全卷积网络行人目标检测算法,在实现检测算法端对端训练的同时,提高了其对各种复杂场景的鲁棒性以及行人目标检测率,提升热红外监控系统中行人目标检测性能。

关键词

计算机视觉; 热红外监控; 行人目标检测; 显著性检测; 全卷积网络

Pedestrian detection in complex thermal infrared surveillance scene
expand article info Xu Ming1, Yu Xiaosheng2, Chen Dongyue1, Wu Chengdong2, Jia Tong1, Ru Jingyu1
1. College of Information Science and Engineering, Northeastern University, Shenyang 110819, China;
2. Faculty of Robot Science and Engineering, Northeastern University, Shenyang 110819, China
Supported by: National Natural Science Foundation of China (U1713216, 61701101, U1613214)

Abstract

Objective Pedestrian detection in complex thermal infrared surveillance is an important research topic in the field of computer vision. Pedestrian detection is a crucial task to be conducted in several practical applications, such as public security management, disaster relief, and intelligent surveillance. Existing thermal infrared-based pedestrian detection algorithms are generally composed of two steps. In the first step, several regions of interest (ROI) in thermal infrared imageries that are suspected to be containing human targets are generated. Subsequently, the second step verifies whether the ROI is a human target. The verification can be conducted by processing with a classifier after the extraction of features from the ROIs, and the classification task can be combined with the feature extraction task by adopting a deep learning method. However, most of the existing thermal infrared-based pedestrian detection algorithms remarkably rely on the assumption that the gray value of the human target in the image is higher than the environment in their first step, which renders the algorithms ineffective in dealing with high ambient temperature. The gray value inversion occurs with the increase of ambient temperature, that is, the environmental gray value in the thermal infrared imagery becomes higher than the human target gray value, which reduces the accuracy of the pedestrian detection algorithm. On this basis, a fully convolutional network pedestrian detection algorithm based on frequency domain saliency detection is proposed, which aims to improve the robustness of pedestrian detection systems for thermal infrared surveillance scenes and to achieve better accuracy in pedestrian detection. Method In the algorithm, a frequency domain-based saliency detection is first employed to generate the saliency map that can cover all pedestrian targets in the original thermal infrared imagery. The difference of the saliency detection-based method from existing methods is that its detection is related to the saliency of human targets rather than the effect of their gray value. Therefore, the generation of the following ROI map in the saliency detection-based method is not limited to the assumption that the gray value of the human target is high, which avoids the inaccuracies in detection caused by the failure of the assumption when ambient temperature is high. In addition, one full-size saliency map is generated in this algorithm rather than several sub-regions. Then, a fully convolutional network is constructed, where the ROI map generated by the saliency map and thermal infrared original imagery is defined as the network input, and the pedestrian target probability map is defined as the network output. The constructed fully convolutional network consists of two parts. The first part mainly refers to AlexNet and VGG network structures, which can be regarded as feature extraction module. The second part is the probability generation module that consists of three deconvolution layers with two size kernels. A sigmoid activation function is used in the last layer to generate the probability map of pedestrian targets, and the remaining layers use the ReLU activation function. The proposed thermal infrared pedestrian detection algorithm is trained to obtain the pedestrian probability map and achieve the detection of pedestrian target. Result The Ohio State University (OSU) thermal infrared pedestrian database in the infrared video dataset of OTCBVS, which has also been established by OSU, is employed to verify the algorithm, and a comparison between the proposed algorithm and five existing mature algorithms is conducted. A total of 10 sequences are captured from single viewpoint surveillance in the database that covers several weathers, such as sunny, cloudy, and rainy days, which enables the conduct of a comprehensive test on the efficiency of pedestrian detection algorithms. Apart from the methods that are not based on convolutional neural network, the performance of region-based convolutional neural network is plotted. The results show that the proposed algorithm can accurately detect pedestrian targets in various environmental conditions. Furthermore, the several sample results of different pedestrian detections are shown. Taking the miss rate-false positive indicator as a basis for comparison, the proposed algorithm achieves an average miss rate of 7% and performs better than the existing thermal infrared-based pedestrian detection methods and basic deep learning-based object detection methods. The proposed algorithm achieves a high detection rate and shows better robustness in dealing with gray value inversion in thermal infrared imageries. In the detection process, the proposed algorithm can remove the non-pedestrian targets and detect the most pedestrians in thermal imageries, especially when the environment scene is complex, such as the existence of other heat sources (street lights) or at day time. Conclusion A fully convolutional network pedestrian detection algorithm based on frequency domain saliency detection for thermal infrared surveillance scenes is proposed in this study. In the first step, a saliency detection method, which is robust to gray value inversion when the ambient temperature is high, such as in hot summer or at day time, is employed to generate a full-size ROI map. Subsequently, a fully convolutional network is used to output the probability map of pedestrian targets. The proposed algorithm can be trained and avoids the generation of many sub-regions, which renders it efficient without the requirement of redundant computing and storage space. Experiments are conducted, and the results show that the proposed method achieves an improvement in the robustness of pedestrian detection systems in various complex scenes and obtains a high pedestrian detection rate. The experimental results also verify the capability of the proposed method to enhance the detection of pedestrian targets in thermal infrared surveillance systems.

Key words

computer vision; thermal infrared surveillance; pedestrian detection; saliency detection; fully convolutional network (FCN)

0 引言

人体目标或者行人目标是计算机视觉领域目标检测任务中一类特殊的目标对象。在公共安全、智能视频监控、灾难救援等相关的计算机视觉应用中, 人体目标检测都是重要的基础环节。准确地检测识别人体目标对后续任务的顺利进行起着至关重要的作用[1-2]

在传统的基于可见光的视频监控行人检测任务中, 环境中复杂随机的颜色、日间不均匀的光照以及在夜间不充足的光照等均会对行人目标检测造成极大影响[3-4]。而对于热红外图像, 其主要反映的是场景中物体的红外辐射强度(温度较高的物体红外辐射相对较强), 这使得在监控场景中基于热红外的行人检测系统对复杂颜色、光照不均及光照不足等不良因素具有较强的鲁棒性。因此, 基于热红外图像的人体目标检测研究受到越来越广泛的关注。

监控场景下的热红外图像与可见光图像相比具有独特的性质或问题:1)大多数监控用热红外图像的分辨率较低, 无法提供更丰富的细节信息; 2)监控场景中存在的其他热源如路灯、汽车等会在图像中形成额外明亮区域, 对行人检测造成干扰; 3)在夜间, 人体目标的热红外辐射强度一般要较自然环境更强, 因此在热红外灰度图中人体目标灰度值较高, 但是当遇到较炎热的天气等情况, 人体目标的热红外辐射强度较自然环境低, 其在热红外灰度图中的灰度值反而较环境更低, 产生灰度值反转的问题。热红外图像的以上特性或问题, 是所有热红外行人检测研究者共同面对的困难与挑战。

现有的基于热红外图像的行人检测算法一般包含两个步骤。第1步是在热红外图像中生成若干疑似包含人体目标的感兴趣区域(ROI), 为了之后方便操作, 感兴趣区域多为矩形包围框所涵盖的矩形区块; 第2步是通过对ROI提取特征并使用分类器, 或是采用较流行的深度学习方法将提取特征与目标分类任务合并统一来验证ROI是否为人体目标。实验结果显示尽管一些算法和模型在检测精度上表现较好, 但在对不同场景和环境, 尤其是上文提到的灰度值反转的情况, 其适应性与鲁棒性方面仍有提升空间。由于一般的ROI生成算法通常依据人体目标较环境亮度更高这一先验假设, 当发生灰度值反转问题时无法生成有效的ROI, 进而导致检测率下降。在系统结构方面, 由于传统检测算法不可避免地要生成截取出若干互有交叠的ROI, 导致系统缺乏整体性的同时增加冗余计算空间。

针对上述问题, 本文提出一种基于频域显著性检测与全卷积网络的热红外图像行人检测算法。引入基于相位谱的显著性检测机制生成热红外图像行人目标感兴趣区域图, 并搭建训练全卷积网络生成人体目标概率图, 不仅提高了对各种环境的鲁棒性, 而且能够实现算法端对端的训练。

1 相关工作

近年来, 针对热红外图像中行人检测问题研究学者提出了诸多算法框架与解决方案。Li等人[5]首先采用水平垂直双向投影的方法生成感兴趣区域, 然后对各区域进行小波分解, 将高频子块的小波熵作为感兴趣区域的特征, 最后训练分类器进行行人目标验证。Qi等人[6]提出了一种基于稀疏表示的热红外行人检测方法。Wang等人[7]首先建立一个混合高斯背景模型来生成行人候选区域, 然后采用SVM分类器对候选区域进行验证。在文献[8]中, 首先通过背景差法生成感兴趣区域, 然后提取各个区域的轮廓特征进而验证其是否为行人目标。Ostovar等人[9]依据像素灰度值在热红外图像的水平方向与垂直方向建立直方图从而生成感兴趣区域, 然后通过形状特征验证各个区域。Lakshmi等人[10]首先依据热红外图像中人体头部总是较背景灰度值更高的先验假设进行人体头部检测, 然后通过垂直方向的边界拓展以及适当的纵向区域生长生成人体感兴趣区域, 最后提取区域的曲波特征并采用SVM分类器验证感兴趣区域。在Zhao等人[11]的工作中, 首先生成热红外图像对应的轮廓图用以生成行人感兴趣区域, 然后提取感兴趣区域的形状直方图特征, 最后采用改进稀疏表达分类器对区块进行验证。Budzan等人[12]通过阈值分割提取感兴趣区域, 然后采用人体头部检测与HOG特征来检测行人。Cai等人[13]首先基于灰度值生成热红外图像的显著图, 然后对截取的感兴趣子块提取局部强度差异直方图(HLID)特征, 最后采用SVM分类器进行验证。另一方面, 随着深度学习的快速发展, 针对目标检测任务的深度学习网络框架亦逐渐成熟。但是, 基于深度神经网络的面向热红外监控场景的行人目标检测研究却少之又少。相似于基于热红外图像的行人检测算法的两步骤, Girshick等人[14-15]首先采用已有选择搜索算法进行候选区块提取, 然后通过卷积神经网络对各个区块进行特征提取, 最后进行类别判定与定位。

2 热红外行人目标检测算法

本文提出的热红外监控场景下行人检测算法流程如图 1所示, 主要包含以下步骤:

图 1 热红外监控场景下行人检测算法流程
Fig. 1 Process of pedestrian detection in thermal infrared surveillance

1) 对原始热红外图像进行显著性检测, 本文采用的是基于图像频域相位谱的显著性检测算法(PFT);

2) 将显著图作为掩膜, 由原始热红外图像生成ROI图;

3) 构建全卷积网络, 将感兴趣区域图作为网络输入, 网络输出为行人目标概率图;

4) 由行人目标概率图生成热红外图像中行人目标的标记框, 完成热红外图像中行人目标检测。

2.1 感兴趣区域图生成

显著性区域是指图像中能够吸引注意力的候选区域。Hou等人[16]通过分析大量图像的频谱与相角, 提出一种频域残差的显著性检测算法。而后, Guo等人[17]指出, 图像傅里叶变换中的相角对于确定显著性区域起着决定性作用, 并证明仅通过图像的相角即可生成图像显著图。在热红外图像中, 即使在发生灰度值反转问题时, 行人目标与环境的灰度值仍保持有较高的对比度, 这使得行人目标成为热红外图像中的注意力焦点。因此本文采用显著性检测的方法生成覆盖行人目标的显著图以及感兴趣区域图。

对于一幅给定的监控场景下的热红外图像$I\left( {x, y} \right)$

$ f\left( {u, v} \right) = F\left( {I\left( {x, y} \right)} \right) $ (1)

$ p\left( {u, v} \right) = P\left( {f\left( {u, v} \right)} \right) $ (2)

$ {M_s}\left( {x, y} \right) = {U_d} * {\left\| {{F^{-1}}({e^{j\cdot p(u, v)}})} \right\|^2} $ (3)

式中, $F\left( \cdot \right)、{F^{-1}}\left( \cdot \right)$分别表示傅里叶变换与傅里叶逆变换; $p\left( {u, v} \right)$表示傅里叶变换后$\left( {u, v} \right)$坐标处的相角; 为了显著区域更均匀地覆盖行人目标, 采用直径$d$为5的圆形平均滤波器${U_d}$对显著图作平滑处理。${M_s}\left( {x, y} \right)$即为热红外图像${I\left( {x, y} \right)}$的显著图。

基于频域的显著性检测结果的空间尺度通常与输入图像的大小密切相关, 考虑到热红外监控图像中人体目标大小相对稳定, 应选择一个合适的缩放系数$r$对原始监控图像进行尺度缩放。一般来说$r$越小, 尺度调整后的图像越小, 原始显著性分布图也相应变小, 缩放到原图大小后显著ROI区域的尺度则相应变大。因此较小的$r$值能够获取目标更加完整的区域但可能会引入背景干扰, 较大的$r$值则会使得显著ROI区域过小无法完整覆盖人体区域($r$的取值详见3.1节)。最后以显著图为掩膜与原始热红外图像结合生成感兴趣区域图。

2.2 全卷积网络模型

深度卷积神经网络在计算机视觉各个子领域中均表现出优良性能, 促使更多样的卷积网络结构的开发设计。其中的全卷积网络结构模型得益于其图形式的网络输出, 在图像语义分割[18-19]以及图像风格转换[20-21]等方面被广泛应用。

本文构建的全卷积网络模型主要分成两个部分, 如图 2所示。第1部分主要参考AlexNet网络结构[22]与VGG网络结构[23], 5层卷积层(AlexNet中为5层, VGG中为7层)与3层池化层相间排列, 可视为特征提取模块; 第2部分为概率生成模块, 由3层步长为2以及1层步长为1的反卷积层(卷积核均为3×3)构成。网络的最后一层采用sigmoid函数生成概率图, 其余各层均采用ReLU非线性函数作为激活函数。

图 2 全卷积网络结构
Fig. 2 Fully convolutional network architecture

在训练阶段, 与传统方法中训练针对若干ROI子块的分类器不同, 本文将整幅感兴趣区域图作为网络输入, 以行人区域${\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_\mathit{p}}$概率为1的真值图$M_p^{{\rm{gt}}}\left( {x, y} \right)$作为标签, 以二值交叉熵代价函数$L$作为损失函数, 对卷积网络进行训练, 即

$ M_p^{{\rm{gt}}}\left( {x, y} \right) = \left\{ \begin{array}{l} 1\;\;\left( {x, y} \right) \in {\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_\mathit{p}}\\ 0\;\;\; {其他} \end{array} \right. $ (4)

$ \begin{array}{l} L =-\frac{1}{N}\sum\limits_{x, y} {{\mathit{\boldsymbol{M}}_p}} {\rm{ln}}(\mathit{\boldsymbol{M}}_p^{{\rm{gt}}}) + \\ (1-{\mathit{\boldsymbol{M}}_p}){\rm{ln}}(1-\mathit{\boldsymbol{M}}_p^{{\rm{gt}}}) \end{array} $ (5)

式中, $\mathit{\boldsymbol{M}}_p^{{\rm{gt}}}$为概率真值图, ${\mathit{\boldsymbol{M}}_p}$为全卷积网络输出的行人目标概率图, $N$为概率图像素个数。

3 实验与分析

本文采用OSU热红外行人数据库对所提出行人检测算法进行检验。OSU热红外行人数据库是OTCBVS基准数据库的一部分[24], 其中包含了10个固定监控视角下的热红外图像序列, 总计284幅热红外图像, 图像捕捉环境具有多样性, 包括晴天、多云以及雨天。

3.1 感兴趣区域图测试

在显著性区域检测算法中, 输入图像的尺寸对显著性区域影响较大, 如2.1节所述, 图像缩放系数$r$的选择要兼顾显著性区域面积以及区域对行人目标的覆盖率两方面因素。本文通过随机采样从数据库中抽取10幅图像, 计算不同缩放系数下显著性区域面积、显著性区域对行人目标的覆盖率, 其结果如图 3所示。

图 3 不同缩放系数下显著性区域对行人目标的覆盖率和显著性区域面积
Fig. 3 Coverage rates and areas of saliency regions depended on various scale rates((a)coverage rates of saliency regions depended on various scale rates; (b)areas of saliency regions depended on various scale rates)

随着缩放系数的增加, 即输入图像的尺寸增加, 显著图中显著性区域对行人目标的覆盖率。(图 3(a))与显著性区域的面积(图 3(b))均逐渐下降。为保证显著性区域对行人目标的全覆盖, 同时减少显著性区域面积, 本文设定图像缩放系数$r$为0.2。

不同缩放系数下感兴趣区域如图 4所示。可以看出, 更小的缩放系数(0.1)下感兴趣区域图也更复杂, 较大的缩放系数(0.7)无法保证行人目标区域的完整性, 甚至丢失部分目标区域, 而上文中确定的图像缩放系数(0.2)在确保显著性区域完全覆盖行人目标的同时能够最小化显著性区域面积, 从而实现保证算法准确率。

图 4 不同缩放系数下感兴趣区域图
Fig. 4 ROI maps depended on various scale rates
((a)original images; (b)0.1 scale rate; (c)0.2 scale rate; (d)0.7 scale rate)

为验证本文所采用的感兴趣区域图生成方法对灰度值反转问题的有效性, 采用不同方法所得到的感兴趣区域图对比如图 5所示。在以往算法系统中, 第一步操作多为截取感兴趣区块而非生成感兴趣区域图。为能够与本文算法相比较, 将不同算法生成的感兴趣区块显示于原图, 视做感兴趣区域图。

图 5 各种算法生成的感兴趣区域图比较
Fig. 5 ROI maps of different algorithms
((a)original images; (b)ROI maps in reference [9]; (c)ROI maps in reference [11]; (d) ours)

图 5(b)为文献[9]中Ostovar算法所采用的基于热红外图像像素灰度值, 通过向垂直方向和水平方向投影的感兴趣区域图生成方法。从结果图分析, 在行人目标灰度值高于背景的一般情况下, 该算法基本能够正常工作(如图 5(b)第1组所示), 但是当行人目标灰度值低于背景即发生灰度值反转情况时, 该算法无法正常工作(如图 5(b)第2组所示)。图 5(c)为Zhao算法[11]所得感兴趣区域图, 算法首先生成轮廓图, 再采用最小外接矩形包围轮廓图的各个连通区域, 将最小外接矩形作为感兴趣区块。从结果图可以看出, 该算法在一般情况下同样能够正常工作, 相较于前一种算法, Zhao算法同样对灰度值反转情况有所应对, 但对一些轮廓较弱的行人目标存在丢失的情况(如图 5(c)中, 两幅图中左上角行人目标区域未被视为感兴趣区域, 第一组左下角与第2组中央部分对感兴趣区域均未能完整覆盖行人目标)。图 5(d)为本文算法所得感兴趣区域图, 可以看出其对全部行人目标均有完整覆盖, 对灰度反转情况具有较强的鲁棒性。

3.2 热红外场景行人检测性能测试

OSU热红外行人数据库中总计284帧热红外图像, 图像分辨率为360×240像素。从中随机抽取60%组成训练样本集, 并通过水平翻转在不影响行人目标的情况下扩大训练集的样本容量, 以提高训练效果。其余热红外图像组成测试样本集以测试行人目标检测算法性能。

本文将所提出算法与多种现有算法进行对比实验, 除了传统的未采用深度学习方法的热红外行人检测算法(文献[5-6, 10-11]), 基于深度学习的R-CNN目标检测算法[14]同样作为对照算法。本文采用行人目标检测性能评价中常用的丢失率(miss rate)与假阳率(false positive)曲线作为各个算法性能对照依据。其中, 假阳率反映非行人目标被错判定为行人目标的情况, 一般来说, 假阳率越低代表对目标的检测越准, 但是会导致目标漏检情况即丢失率的增加。各种算法的性能曲线如图 6所示。

图 6 各热红外行人检测算法对比
Fig. 6 Evaluation of thermal pedestrian detection algorithms

几种热红外行人目标检测的结果如图 7所示。其中图 7(b)为文献[5]算法的结果, 图 7(c)为文献[11]算法的结果, 图 7(d)为本文提出的算法结果。

图 7 各热红外行人检测算法结果图
Fig. 7 Some examples of the comparison results((a)original images; (b)detection results in reference [5]; (c) detection results in reference [11]; (d) ours)

对比图的第1、2组为行人目标灰度值高于周围环境的一般情况, 算法结果对比相差不大。当行人目标头部与身体的灰度值相差很大时(第1组), 文献[5]算法与文献[11]算法由于过滤掉较小连通区域或者感兴趣区块无法覆盖整个行人目标, 导致最终检测失败或不完全。而本文算法的感兴趣区域图能够保证对行人目标的全覆盖, 因此能够正确检测出灰度差较大的行人目标。图 7第2组中的误检多由热红外图像中其他干扰性热源, 如路灯、车辆余温所引起。而在第3、4组中, 由于环境温度升高而产生灰度值反转问题, 导致部分行人目标灰度值较低。在对比算法中, 一些独立存在的行人目标由于其边缘保持完整, 因此较容易检出, 但当行人目标与环境相接时, 行人目标轮廓边缘无法保持完整, 导致感兴趣区块提取失败进而行人目标无法被检出。灰度值较高的独立目标更容易被误检为行人目标, 如路灯、树干、车辆的向阳面等。而在本文算法中, 感兴趣区域图可以完全包含所有疑似区域, 再借助全卷积网络对行人目标的描述与概率生成, 不仅可以有效移除不包含行人目标的区域, 同时能够检测出最完全的行人目标, 特别是针对复杂环境背景情况(发生灰度值反转)以及存在其他热源(汽车, 路灯)在环境中时。

4 结论

本文提出一种新的针对复杂红外监控场景对行人目标检测算法。首先采用显著性检测算法生成感兴趣区域图, 利用基于频域的显著性检测原理, 有效提高了对复杂环境(如晴天时热红外图像发生灰度值反转的情况)的鲁棒性。然后利用全卷积网络由感兴趣区域图直接生成行人目标概率图, 避免了传统算法中候选区域子块的截取以及再处理, 加强了算法流程的整体性, 减少冗余计算量。实验表明相比于其他算法, 本文算法具有更好的性能、对复杂恶劣环境更具鲁棒性。但是, 本文算法仍然具有改进空间。由于更侧重于行人目标的检测率, 使得基于概率图的轮廓线不能保证完整地包围行人目标。在接下来的研究工作中, 将进一步提高概率图精细程度, 在保证行人目标检测率的同时, 能够绘制出行人目标轮廓图, 为更深一层的热红外行人姿态识别、行人目标重识别做铺垫。

参考文献

  • [1] Ma Y L, Wu X K, Yu G Z, et al. Pedestrian detection and tracking from low-resolution unmanned aerial vehicle thermal imagery[J]. Sensors, 2016, 16(4): #446. [DOI:10.3390/s16040446]
  • [2] Lee J H, Choi J S, Jeon E S, et al. Robust pedestrian detection by combining visible and thermal infrared cameras[J]. Sensors, 2015, 15(5): 10580–10615. [DOI:10.3390/s150510580]
  • [3] Zhang L, Wu B, Nevatia R. Pedestrian detection in infrared images based on local shape features[C]//Proceeding of 2007 IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis, MN, USA: IEEE, 2007: 1-8.[DOI: 10.1109/CVPR.2007.383452]
  • [4] Biswas S K, Milanfar P. Linear support tensor machine with LSK channels:pedestrian detection in thermal infrared images[J]. IEEE Transactions on Image Processing, 2017, 26(9): 4229–4242. [DOI:10.1109/TIP.2017.2705426]
  • [5] Li J F, Gong W G, Li W H, et al. Robust pedestrian detection in thermal infrared imagery using the wavelet transform[J]. Infrared Physics & Technology, 2010, 53(4): 267–273. [DOI:10.1016/j.infrared.2010.03.005]
  • [6] Qi B, John V, Liu Z, et al. Pedestrian detection from thermal images:a sparse representation based approach[J]. Infrared Physics & Technology, 2016, 76: 157–167. [DOI:10.1016/j.infrared.2016.02.004]
  • [7] Wang J T, Chen D B, Chen H Y, et al. On pedestrian detection and tracking in infrared videos[J]. Pattern Recognition Letters, 2012, 33(6): 775–785. [DOI:10.1016/j.patrec.2011.12.011]
  • [8] Lin C F, Chen C S, Hwang W J, et al. Novel outline features for pedestrian detection system with thermal images[J]. Pattern Recognition, 2015, 48(11): 3440–3450. [DOI:10.1016/j.patcog.2015.04.024]
  • [9] Ostovar A, Hellström T, Ringdahl O. Human detection based on infrared images in forestry environments[C]//Proceeding of the 13th International Conference on Image Analysis and Recognition. Póvoa de Varzim, Portugal: Springer, 2016.[DOI: 10.1007/978-3-319-41501-7_20]
  • [10] Lakshmi A, Faheema A G J, Deodhare D. Pedestrian detection in thermal images:an automated scale based region extraction with curvelet space validation[J]. Infrared Physics & Technology, 2016, 76: 421–438. [DOI:10.1016/j.infrared.2016.03.012]
  • [11] Zhao X Y, He Z X, Zhang S Y, et al. Robust pedestrian detection in thermal infrared imagery using a shape distribution histogram feature and modified sparse representation classification[J]. Pattern Recognition, 2015, 48(6): 1947–1960. [DOI:10.1016/j.patcog.2014.12.013]
  • [12] Budzan S. Human detection in low resolution thermal images based on combined HOG classifier[C]//Proceeding of the International Conference on Computer Vision and Graphics. Warsaw, Poland: Springer, 2016: 304-315.[DOI: 10.1007/978-3-319-46418-3_27]
  • [13] Cai Y F, Liu Z, Wang H, et al. Saliency-based pedestrian detection in far infrared images[J]. IEEE Access, 2017, 5: 5013–5019. [DOI:10.1109/ACCESS.2017.2695721]
  • [14] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[J]. arXiv preprint arXiv: 1311.2524, 2013: 580-587.
  • [15] Girshick R. Fast R-CNN[C]//Proceeding of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 1440-1448.[DOI: 0.1109/ICCV.2015.169]
  • [16] Hou X D, Zhang L Q. Saliency detection: a spectral residual approach[C]//Proceeding of 2007 IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis, MN, USA: IEEE, 2007: 1-8.[DOI: 10.1109/CVPR.2007.383267]
  • [17] Guo C L, Ma Q, Zhang L M. Spatio-temporal saliency detection using phase spectrum of quaternion fourier transform[C]//Proceeding of 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, AK, USA: IEEE, 2008: 1-8.[DOI: 10.1109/CVPR.2008.4587715]
  • [18] Johnson J, Karpathy A, Li F F. DenseCap: fully convolutional localization networks for dense captioning[C]//Proceeding of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 4565-4574.[DOI: 10.1109/CVPR.2016.494]
  • [19] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//Proceeding of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 3431-3440.[DOI: 10.1109/CVPR.2015.7298965]
  • [20] Gatys L A, Ecker A S, Bethge M. Image style transfer using convolutional neural networks[C]//Proceeding of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 2414-2423.[DOI: 10.1109/CVPR.2016.265]
  • [21] Johnson J, Alahi A, Li F F. Perceptual losses for real-time style transfer and super-resolution[C]//Proceeding of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016: 694-711.[DOI: 10.1007/978-3-319-46475-6_43]
  • [22] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada: Curran Associates Inc., 2012: 1097-1105.
  • [23] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv: 1409.1556, 2014.
  • [24] Davis J W, Keck M A. A two-stage template approach to person detection in thermal imagery[C]//Proceeding of the 7th IEEE Workshops on Applications of Computer Vision. Breckenridge, CO, USA: IEEE, 2005: 364-369.[DOI: 10.1109/ACVMOT.2005.14]