发布时间: 2017-02-25
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.20170204
2017 | Volumn 22 | Number 2

图像分析和识别

改进星型级联可形变部件模型的行人检测

韦皓瀚¹, 曹国¹, 金挺², 王必胜¹, 尚岩峰³

1. 南京理工大学计算机科学与工程学院, 南京 210094;

2. 苏州吴江区公安局, 苏州 215200;

3. 公安部第三研究所, 上海 201204

收稿日期: 2016-05-04; 修回日期: 2016-11-10

基金项目: 国家自然科学基金项目(61371168)；江苏省科技支撑项目(BE2014646)；苏州市科技支撑项目(SS201413)

第一作者简介: 韦皓瀚(1992-),男,现为南京理工大学计算机科学与工程学院软件工程专业硕士研究生,主要研究方向为图像处理与计算机视觉。E-mail:761173927@qq.com

中图法分类号: TP391.4

文献标识码: A

文章编号: 1006-8961(2017)02-0170-09

摘要

目的行人检测是计算机视觉和模式识别领域的研究热点与难点，由于经典的可形变部件模型(DPM)检测速度太慢，引入PCA降维的星型级联检测可形变部件模型(casDPM)相比较于DPM模型检测速度虽然有了很大提升，但在应用于行人检测时，出现检测精度较低、平均对数漏检率较高的情况，为了更加准确地对行人进行检测，提出了一种改进casDPM模型的行人检测方法。方法首先利用对象度量方法获取目标候选区域，结合目标得分信息得到casDPM模型低分检测区域的置信度，在设定的阈值上保留检测窗口；然后针对casDPM模型原有非极大值抑制(Nms)算法只利用单一的面积信息，造成误检数较高的情况，提出了利用检测窗口的得分信息进行改进；最后将两种方法结合起来，提出了融合的cas-WNms-BING模型。结果采用本文方法在INRIA数据集上进行检测，实验结果表明该方法对于行人形变、背景特征复杂及遮挡现象具有较强的鲁棒性，相比casDPM模型，本文提出的方法平均精度(AP)可以提高1.74%，平均对数漏检率可以降低4.45%。结论提出一种改进星型级联可形变部件模型，取得一定的研究成果，在复杂的背景下，能够有效地进行行人检测，主观视觉感受和客观实验评价指标都表明该方法可以有效提升模型行人检测效果。但是，星型级联可形变部件模型训练及检测效率仍有待提高，需进一步对模型存在的一些局限性进行深入研究。

关键词

星型级联检测可形变部件模型; 行人检测; 非极大值抑制; 目标区域

Improved pedestrian detection based on modified star-cascade DPM model

Wei Haohan¹, Cao Guo¹, Jin Ting², Wang Bisheng¹, Shang Yanfeng³

1. Department of Image Engineering, Nanjing University of Science and Technology, Nanjing 210094, China;

2. Suzhou Wu Jiang district Public security bureau, Suzhou 215200, China;

3. The Third Research Institute of The Ministry of Public Security, Shanghai 201204, China

Supported by: National Natural Science Foundation of China(61371168);Science and Technology Support Project of Jiangsu Province(BE2014646);Suzhou Science and Technology Support Project(SS201413)

Abstract

Objective Pedestrian detection is a crucial research topic in computer vision and pattern recognition. Detection flows include preprocessing, feature extraction, training classification, and detection. Various human detection algorithms, which can be categorized as template matching and machine learning, have been developed in the past decades. Machine learning-based algorithms are the primary pedestrian detection method. The speed of machine learning, however, is problematic. Given the low detection speed of the classic DPM model, the current study focuses on star-casCade DPM (casDPM), which integrates PCA technology. The detection speed of casDPM is significantly higher than that of the classic DPM model. However, casDPM has a lower detection precision and higher log-average miss rate (LAMR)in pedestrian detection. Therefore, we proposed an improved pedestrian-detection approach based on the casDPM model to accurately detect pedestrians. Method Objectness proposals can be classified into grouping or window scoring methods. To produce a small set of candidate object windows, we utilized a binarized normed gradient method that trains a generic objectness measure. The set of generated features is called BING. Non-maximum suppression (NMS)is an important post-processing step. The common NMS is based on a greedy strategy that only utilizes area information and disregards the detection score generated by the model. Therefore, the following strategies are employed to address these problems:first, to obtain the confidence of regions with a low detection score in the casDPM model, object score is combined with candidate object area information, which is determined by the objectness measure. Windows with a confidence level above a given threshold are retained, which helps reduce negative windows. The score of detection windows is used to modify the original NMS algorithm, which only utilizes single area information in the casDPM model to reduce the high false-positive rate. We proposed a confluent cas-WNms-BING model that integrates the two methods to fully utilize the detection of window scores and candidate object proposed by objectness measure. Resuls We conducted tests to evaluate the performance of the proposed algorithm. Experiments on the INRIA dataset were conducted, and results were compared with those of the casDPM model. Results indicated that the average precision of the proposed model increased by 1.74%, the LAMR decreased by 4.45%, and speed increased by more than five-fold. These results indicated that the proposed algorithm is effective and has practical applications. Conclusion Results showed that the proposed algorithm is applicable in actual pedestrian detection. The algorithm is robust against human deformation, complex background features, and occlusion. The algorithm also decreases LAMR and improves detection precision.

Key words

star-cascade DPM model; pedestrian detection; non-maximum suppression; object area

0 引言

行人检测在智能监控、辅助驾驶系统、机器人视觉等领域有着广泛的应用前景和市场价值。行人检测算法主要分为两类：基于模板匹配的方法和基于统计学习的方法。由于基于模板匹配^[1]方法在检测时很难获得待匹配图像中的目标轮廓，并且需要利用样本来描述类别的形状，具有比较显著的缺点。目前，基于统计学习的方法已经成为主流的行人检测方法，该方法使用大量样本来训练行人检测分类器，其中提取样本的特征主要包括纹理、颜色、梯度直方图 (HOG)^[2]等，分类器主要包括支持向量机 (SVM)、随机森林^[3]、深度学习^[4]等。2008年芝加哥大学Felzenswalb教授提出了基于统计学习经典的可形变部件模型 (DPM)^[5]目标检测算法，该方法具有很好的行人检测效果。

经典的形变部件模型DPM目标检测算法采用改进后的HOG特征、SVM分类器和Sliding Windows检测思想，采用多组件(component)、基于图结构的部件模型策略，是目前目标检测领域非常成功的算法。由于该模型目标特征维数较高，单幅图像检测时间过长，不适合做实时检测。2010年Felzenszwalb教授在DPM^[6]基础上，提出了一种star-cascade DPM^[7]模型来加速检测，在较低的精度损失下，极大提高了模型的检测效率，不过存在较高的误检数(FP)。在检测后处理过程中，主要采用非极大值抑制(Nms) 算法对相同检测目标的区域进行剔除。目前行人检测中Nms算法主要是：均值漂移非极大值抑制(Ms-Nms)和贪心非极大值抑制算法。Dala等人^[2]提出了Ms-Nms算法，这种算法需要将检测窗口信息在3维空间表示(x,y,scale)，并将检测分数转换，还需调整其他相关联参数，计算复杂，目前较少使用。陈金辉等人^[8]提出了改进的Nms方法，用ACF (aggregate channel features)^[9]检测子在INRIA数据集上取得了比较理想的效果，但该方法难以迁移到其他检测算法中，适用性比较有限。对于objectness^[10]方法，文献[11]中采用经典的DPM模型，通过二值范数梯度(BING)^[12]及EdgeBoxes^[13]模型得到目标区域，构建每一个目标区域的特征金字塔，使用DPM模型来进行窗口确认，但实际检测速度较慢，难以运用到实际中。快速特征金字塔^[14]以近似的方法计算图像特征金字塔，采用决策树为弱分类器训练模型，训练和检测阶段时间花费较少，不过在实际检测中会有较多的误检数。Gadeski等人^[15]采用GPU来加速模型的训练和检测速度，随着GPU的性能越来越强大，模型的训练和检测速度将会进一步提升。Gkioxari等人^[16]采用postlets及DPM模型来寻找目标的关键点，相当于采用了k个DPM模型进行检测，取得了较好的检测效果，同样时间花费较大。由于在实际检测中时间开销与检测精度是两个重要的指标，采用casDPM模型大大提高了检测速度。本文在不影响检测精度、效率的情况下，基于objectness方法对低得分区域进行级联验证，在一定阈值下予以剔除；同时基于模型得分后验知识，对Nms方法进行了改进。实验表明，在满足实时性的要求下，降低了FP，具有较好的行人检测效果。

1 模型介绍

1.1 casDPM模型

casDPM^[7]模型采用滑动窗口检测策略，通过构建图像的特征金子塔在各个尺度进行目标检测。该模型(M)有一个根部件v₀、n个子部件v₁,…,v_n和子部件模型的偏离损失d_i(δ_i)，模型及检测流程如图 1所示。

图 1 casDPM模型及检测流程

Fig. 1 casDPM model and detection flow

每个扫描窗口检测特征图中不同位置的部件，并且每个部件有两种类型的滤波器，包括根滤波器和部件滤波器，低分辨率的根滤波器覆盖一个目标的位置，高分辨率的部件滤波器覆盖目标部件的位置，v₀,…,v_n是组件的根模型和部件模型的可视化效果，每个单元内是SVM分类模型系数对梯度方向加权叠加，梯度方向越亮的方向表示行人具有此方向梯度的可能性越大，v₀根模型比较粗糙，大致呈现了一个直立的行人，v₁,…,v_n部件模型为矩形框内的部分，共有8个部件，分辨率是根模型的两倍，这样才能获得更好的效果。d_i(δ_i)表示部件v_i的偏离损失，越亮的区域表示偏离损失代价越大，部件模型的理想位置的偏离损失为0。包含一个全局阈值T和一系列2n个顺序的中间阈值((t₁,t′₁),…,(t_n,t′_n))，Ω表示每个部件在图像中的空间位置，ω∈Ω可以指定一个位置和尺度，m_i(ω)表示部件v_i在ω处的得分，初始化D为空集，ω区域在模型检测后的得分为s，根位置及部件位置检测得分为

$\begin{align} & s\left( \omega ,{{\delta }_{1}},\ldots ,{{\delta }_{n}} \right)={{m}_{0}}\left( \omega \right)+ \\ & ~~\underset{i=1}{\overset{n}{\mathop \sum }}\,{{m}_{i}}\left( {{a}_{i}}\left( \omega \right)\oplus {{\delta }_{i}} \right)-{{d}_{i}}\left( {{\delta }_{i}} \right)~~ \\ \end{align}$

(1)

式中，a_i(ω)指定部件v_i理想位置函数，d_i(δ_i)为δ_i的二次函数，⊕符号表示二进制操作，若得分s大于给定的阈值T，则该区域为行人，加入集合D中。

特征选取方面，casDPM模型对经典DPM^[5-6]模型31维特征向量进行了PCA降维，将HOG特征投影到低维空间，选取主成分为(k)，以极少量的开销将特征金字塔中的每个31维特征向量投影到前k主成分维数中；同时检测时基于cascade级联思想，快速过滤没有目标的平滑窗口，casDPM^[7]模型在修剪评估的得分来加速检测主要体现在两方面：假设修剪和形变修剪，详细步骤见文献[7]。

1.2 BING二值规范化梯度

一般的目标，当归一化到某一个小的尺度时都具有定义完好的封闭轮廓和中心，在封闭的轮廓中，图像梯度变化很小，目标的梯度比较明显，所以它是一个很好的特征。范数梯度(NG)特征是紧凑且密集的objectness^[10]特征，首先无论对象窗口如何改变尺度、位置及纵横比，它对应的NG特征基本不会改变，也就是NG特征对尺度及纵横比不敏感，这一特性在对象检测中是很有用的，其次NG特征使得计算和核实更加有效率，能够很好地应用在实时检测中。文献[12]采用预先定义的窗口大小(w₀,h₀)，将图像缩放成36种不同尺寸，其中w₀,h₀∈{10,20,40,80,160,320}，使用8×8大小的检测框扫描这些36种不同尺寸的窗口，然后求出8×8块中每个点的梯度，就是计算各点L2范数梯度，采用-1,0,1方式计算水平方向梯度(gx)或垂直方向梯度(gy)，用gx+gy近似替代梯度的L2范数，可以明显地看到物体与背景的梯度模式差别，将从这些窗口提取的NG特征，通过cascade SVM训练，可以学习一个线性模型w∈R⁶⁴，对于待检测的图像，仍采用8×8大小的窗口滑动提取NG特征，然后求出窗口的得分，即

${{s}_{l}}=\left\langle w,{{g}_{l}} \right\rangle ~~~~~~$

(2)

$l=\left( i,x,y \right)$

(3)

式中，l是尺度为i窗口坐标为(x,y)的位置，g_l是其对应的NG特征，s_l代表过滤器得分。

为了提升式(2) 的计算效率，将该操作转化为位运算，采用“Gram-Schmidt”正交化将w投影到不同的正交向量中，取包含前n个正交向量作为输出来降低计算量，同时将g_l特征转化成二进制模型，例如十进制数121D，转化为二进制为01111001B，并进行低位截断，即采用01111000B近似替代121D。运用非极大值抑制算法，为每个尺度提供一些建议窗口，不同尺度图像中的物体可能性是不一样的，模型对于不同尺度的图像学习一个权值，重新计算窗口的得分

${{o}_{l}}={{v}_{i}}\cdot {{s}_{l}}+{{t}_{i}}$

(4)

式中，v_i、t_i为模型的学习参数，o_l是窗口的最终得分。

2 基于casDPM模型的改进

2.1 名词含义

正检数(TP)：图片中的行人被正确检测出来的个数；误检数(FP)：图片中的背景被误检为行人个数；漏检数(MP)：图片中的行人未被检测到的个数。

2.2 基于BING目标区域的改进

在VOC2007数据集的2 501幅图片中选择是行人的标注窗口作为正样本，随机裁剪的区域作为负样本，采用NG特征，通过上述cascade SVM训练得到模型ω，首先对于每一幅测试图像运用模型ω得到目标可能区域A₁，部分筛选区域如图 2(c)所示；其次将每一幅训练图像通过casDPM模型得到目标区域A₂，窗口得分越高，行人的可能性就越大。充分利用得分信息与筛选后的区域，通过模型ω筛选的窗口(B_i)对casDPM模型检测得分小于某一得分阈值的窗口(B_j)进行筛选，记为casDPM-BING模型，求解重叠面积overlap=(B_i∩B_j)/(B_i∪B_j)(记为条件准则O)，当overlap0.5，认为检测窗口为目标窗口，反之，则为误检窗口。

图 2 模型、检测效果及标注图片

Fig. 2 Model,test result and ground truth ((a) image to be detected； (b) model ω∈R^8×8 ； (c)part candidate window of BING model； (d)ground truth window)

目标P和背景F的NG特征存在很大的区分性，图像空间呈现很大的不同，通过适当的尺度和纵横比，将P和F重置为8×8固定的大小，基于NG特征，学习了一个简单的64维线性模型，后续用学习到的模型ω在输入图像中筛选得到目标窗口，训练得到的模型ω及测试效果如图 2。图 2(b)为学习到的模型ω∈R^8×8，模型在输入图像图 2(a)上检测的部分候选区域如图 2(c)所示，其中红色区域为大致可以包含行人的窗口，绿色区域为非行人目标窗口，对比图 2(d)可以看出，行人区域可以通过学习到的模型大致提取出来。在casDPM模型检测窗口中，得分较低的检测窗口是误检窗口的可能性比较大，而对于BING模型来说，模型筛选后的区域是目标的可能性比较大，两者相辅相成，基于这两种特性，通过结合BING的目标筛选方法及casDPM模型，在一定程度上可以减少误检窗口的数量，提高模型的行人检测效果。

2.3 基于得分信息的Nms改进

在目标检测中Nms^[8]算法应用十分广泛，主要目的是为了消除多余的框，找到最佳的物体检测位置，如图 3所示。

图 3 Nms算法

Fig. 3 Non-maximum suppression algorithm ((a) before Nms; (b) after Nms)

Nms算法本质是搜索局部极大值，抑制非极大值元素。采用的是基于贪心策略的非极大值抑制算法，算法主要分为4个步骤：1) 按照检测分数从高到低排序初始检测窗口；2) 将第1个检测窗口作为当前抑制的窗口；3) 将得分低于该抑制窗口的检测窗口作为被抑制窗口，运用上述条件准则O，得到重叠面积，剔除重合面积高于设定阈值的窗口；4) 若只剩最后一个初始检测窗口则结束，否则按照得分信息排序，取下一个未被抑制的窗口作为当前抑制窗口，执行步骤3) 。但Nms算法在实际检测过程中仍存在较高的FP。结合检测窗口的得分信息，对Nms算法进行改进，记为W-Nms算法，在casDPM模型中检测框的得分越高，行人的几率也越大。设检测窗口B_i面积为area_i，得分为s_i，检测窗口B_j面积为area_j，得分为s_j，并且s_i大于s_j，在一定重合面积(ov)下，设ov=(|area_i∩area_j|)/ min (|area_i,area_j|)，在ov>0.50条件下，当检测窗口B_i和B_j的得分都为负时，得分阈值为0.3，即s_i与s_j之差大于0.3；当检测窗口B_i的得分大于0时，无论检测窗口B_j的得分为多少，完全抑制检测窗口B_j，即

$\begin{array}{l} Suppress\left( {{B_j}} \right)where\{ (({s_i} - {s_j} > 0.3\\ s.t.{s_i},{s_j} < ;0)\left\| {{s_i} > } \right.0)\& \& ov > 0.50\} \end{array}$

(5)

2.4 提出的cas-WNms-BING模型

上述两种方法：基于BING目标区域的改进和基于得分信息的Nms改进，可以剔除不同情况下的误检窗口，将这两种改进方法融合在一起，记为cas-WNms-BING模型，首先输入图片通过casDPM模型，得到检测窗口区域A，此时窗口的FP比较高，通过W-Nms算法抑制一部分误检窗口，将得分低于-0.5的检测窗口记为检测区域B(即该检测区域为行人的可能性较低)，其次输入图片通过BING模型，得到proposals目标区域，该模型中大约每幅图片可以筛选出约1 000个目标区域，接着将检测区域B与proposals区域通过上述条件准则O进行判断，将误检窗口记为flag=0，行人窗口记为flag=1，实验表明，该方法可以进一步降低FP，提高模型精度，融合流程如图 4所示。

图 4 融合流程图

Fig. 4 Confluent flow chart

3 实验

3.1 改进的casDPM-BING模型

在判断模型检测得到的窗口是否为真实行人窗口时，使用正确率度量准则：若真实行人窗口与检测得到的窗口交的面积与并的面积比值大于0.5，即检测结果正确，否则检测错误。并且，每个行人窗口最多只对应一个检测窗口，其余则为误检窗口。

casDPM模型在阈值(thresh)为-1.1时，误检比(FP/TP)为2.45，FP比较高，MP为38；当阈值为-0.9时，误检比为1.22，FP下降明显，MP为45；发现在MP只升高7个的情况下，FP减少了685个，AP也增加了0.07%，选取多个阈值进行验证，最终选取阈值thresh=-0.9进行实验。采用2.2节的数据集训练BING模型，训练得到的BING模型在每幅测试图像上可以得到约1 000个目标区域，通过上述方法结合BING模型和casDPM模型，得到改进的casDPM-BING模型。本文在INRIA测试集上进行检测，288幅图片包含589个行人，casDPM模型在INRIA数据集中检测出现较多的误检窗口，改进的casDPM-BING模型，可以在一定程度上减少误检窗口，误检对比如图 5所示。

图 5 模型部分误检对比

Fig. 5 Comparison of model part false positive

图 5中黄色表示casDPM模型检测效果，蓝色表示casDPM-BING模型检测效果，由图 5可以看出，MP在45~49的情况下，召回率(recall)约为92%，casDPM-BING模型效果明显好于casDPM模型。

筛选对比情况如图 6所示，由图 6(a)(b)可以发现，通过BING模型筛选的检测窗口可以在一定程度上减少casDPM模型的FP，实验表明平均FP降低了60个，AP提升了0.14%。

图 6 筛选情况对比结果

Fig. 6 Comparison of filter condition ((a) detection window； (b) selection window)

3.2 W-Nms算法

传统的Nms算法可以抑制大部分重合的目标区域，但如图 7(a)中的一些绿色误检窗口是Nms算法抑制不了的。

图 7 Nms及W-Nms算法对比

Fig. 7 Comparison Nms with W-Nms ((a)Nms; (b)W-Nms)

图 7(a)中的行人周围误检窗口被很好地抑制，实验表明W-Nms算法在一定程度上可以很好地降低FP。FP对比如图 8所示，由图 8可以看出，MP在45~49的情况下，召回率(recall)约为~92%，W-Nms算法效果明显好于原Nms算法，实验表明平均FP降低了200个，AP提升了1.57%。

图 8 算法部分误检效果

Fig. 8 Comparison of algorithm part false positive

3.3 cas-WNms-BING模型

由上述可知，改进的casDPM-BING模型及W-Nms算法都可以在一定程度上提升casDPM模型检测效果。图 9中，casDPM模型图像检测效果如图 9(a)(c)，行人被很好地检测出来，同时存在一些误检窗口。casDPM-BING模型可以剔除图 9(a)中一些相对孤立的casDPM模型剔除不了的误检窗口，如图 9(b)，但图 9(c)中的一些重合度较大的误检框是该模型剔除不了的。同样，W-Nms算法可以抑制图 9(c)中一些重合度较大的低分检测窗口，如图 9(d)，但图 9(a)中相对孤立的检测窗口是W-Nms算法抑制不了的。

图 9 不同算法的对比图

Fig. 9 Comparison of different algorithms ((a) and (c) casDPM detection figure; (b) casDPM-BING detection figure; (d) W-Nms algorithm detection figure)

融合改进的casDPM-BING模型及W-Nms算法，记为cas-WNms-BING模型，实验表明，融合的模型可以剔除掉casDPM-BING模型和W-Nms算法不能剔除的误检窗口，将4种方法进行实验比较，实验结果如图 10所示。

图 10 融合模型部分误检对比

Fig. 10 Comparison of confluent model part false positive

由图 10可以看出，在TP为540~544的情况下，相比于casDPM模型casDPM-BING模型平均可以减少60个FP；W-Nms算法平均可以减少200个FP；cas-WNms-BING模型平均可以减少250个FP。实验表明，融合的cas-WNms-BING模型在TP不变的情况下，极大的减少了窗口FP，提高了模型检测精度。

3.4 整体效果对比及性能分析

算法运行环境，内存：8 GB，CPU：Intel(R)core(TM)i7-6700k@ 4.00 GHz，4线程；实验采用的评价指标为检测时间、平均精度(AP)、平均对数漏检率(LAMR)，整体实验效果对比如表 1所示。召回率(recall)、精度(precision)、AP对比如图 11；每幅图像误检为正样本的数量、漏检率、LAMR对比如图 12。

表 1 相关方法性能比较
Table 1 Comparison of correlation method performance

下载CSV

方法	平均精度AP/%	平均对数漏检率LAMR	检测时间/s	优劣势
casDPM	86.64	21.14	97.4	速度最快、精度较低
casDPM-BING	86.78	21.10	97.7
W-Nms	88.21	16.93	98.6
cas-WNms-BING	88.38	16.69	98.1	速度均衡、精度最高
DPM	85.1	24.86	556	速度慢、精度低
注：DPM阈值与本实验设置一致，阈值为-0.9。

图 11 recall和precision对比

Fig. 11 Comparison of recall and precision

图 12 每幅图片误检数和误检率

Fig. 12 Comparison offalse positive per image and miss rate

由表 1可知，在本实验设置的环境下，传统的DPM检测模型时间花费是其他模型的5.6倍左右，在INRIA数据集上检测288幅图片花费了556 s，检测速度非常慢，casDPM模型在检测精度提升的同时，时间花费也大幅降低，cas-WNms-BING相比于casDPM模型检测时间多了不到1 s的情况下，进一步降低了FP，同时提升了AP，降低了LAMR，很好的满足了改进算法的要求。

图 11可以发现，casDPM模型在引入BING模型后，模型AP有0.14%的提升；采用W-Nms算法后，模型AP有1.57%的提升，融合BING模型与W-Nms方法后，模型AP有1.74%的提升，实验表明，融合模型可以在一定程度上提升模型检测精度。

图 12可以发现，casDPM模型在引入BING模型后，模型的LAMR有0.04%的降低；采用W-Nms算法后，模型的LAMR有4.21%的降低，融合BING模型与W-Nms方法后，模型的LAMR有4.45%的降低，实验表明，融合的模型可以在一定程度上降低模型的漏检率。

4 结论

针对经典的casDPM模型FP较多，检测精度较低的问题，首先引入BING模型，结合objectness目标区域，提出了改进的casDPM-BING模型；其次利用得分信息对传统Nms算法进行改进，提出了W-Nms算法，实验表明这两种方法均可以降低FP，提高检测精度，在引入BING模型后，AP可以提高0.14%，LAMR可以降低0.04%，在采用W-Nms算法后，AP可以提高1.57%，LAMR可以降低4.21%；最后将两种改进方法融合在一起，提出了融合的cas-WNms-BING模型，该方法对于行人姿态形变、复杂的背景特征及行人被遮挡情况具有较强的鲁棒性，实验表明，该模型可以更有效的降低FP，提升模型的检测效果，相比较原casDPM模型，AP提高了1.74%，LAMR降低了4.45%。

但本文方法在实际检测过程中仍然存在一定数量的误检数，造成检测偏差。未来的工作包括融合多维特征来训练分类器，同时结合深度学习和其他objectness方法，进一步提高算法的检测效果。

参考文献

[1] Zhou C H, Wang S J, Ding X Q. Pedestrian detection based on partial feature and model matching[J]. Journal of Image and Graphics , 2010, 15 (5) : 824–829. [ 周晨卉, 王生进, 丁晓青. 基于局部特征级联分类器和模板匹配的行人检测[J]. 中国图象图形学报 , 2010, 15 (5) : 824–829. DOI:10.11834/jig.20100518 ]

[2] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA: IEEE, 2005, 1: 886-893. DOI: 10.1109/CVPR.2005.177

[3] Marin J, Vazquez D, Lopez A M, et al. Random forests of local experts for pedestrian detection[C]//Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney, Australia: IEEE, 2013: 2592-2599. DOI: 10.1109/ICCV.2013.322

[4] Ouyang W L, Wang X G. Joint deep learning for pedestrian detection[C]//Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney, Australia: IEEE, 2013: 2056-2063. DOI: 10.1109/ICCV.2013.257

[5] Felzenszwalb P F, Mcallester D, Ramanan D. A discriminatively trained, multiscale, deformable part model[C]//Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, Alaska, USA: IEEE, 2008: 1-8. DOI: 10.1109/CVPR.2008.4587597

[6] Felzenszwalb P F, Girshick R B, Mcallester D, et al. Object detection with discriminatively trained part-based models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2010, 32 (9) : 1627–1645. DOI:10.1109/TPAMI.2009.167

[7] Felzenszwalb P F, Girshick R B, Mcallester D. Cascade object detection with deformable part models[C]//Proceedings of 2010 IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE, 2010: 2241-2248. DOI: 10.1109/CVPR.2010.5539906

[8] Chen J H, Ye X N. Improvement of non-maximum suppression in pedestrian detection[J]. Journal of East China University of Science and Technology: Natural Science Edition , 2015, 41 (3) : 371–378. [ 陈金辉, 叶西宁. 行人检测中非极大值抑制算法的改进[J]. 华东理工大学学报: 自然科学版 , 2015, 41 (3) : 371–378. DOI:10.3969/j.issn.1006-3080.2015.03.015 ]

[9] Dollar P,Belongie S, Perona P. The fastest pedestrian detector in the west[C]//Proceedings of British Machine Vision Conference, BMVC 2010. Aberystwyth, UK: BMVA. 2010: 68.1-68.11. DOI: 10.5244/C.24.68

[10] Benenson R, Omran M, Hosang J, et al. Ten Years of pedestrian detection, what have we learned[C]//Proceedings of Computer Vision-ECCV 2014 Workshops. Switzerland: Springer, 2014: 613-627. DOI: 10.1007/978-3-319-16181-5_47

[11] Wu X T, Kim K, Wang G Y, et al. Fast human detection using deformable part model at the selected candidate detection positions[M]. Switzerland: Springer, 2015 : 502-512.

[12] Cheng MM, Zhang Z M, Lin W Y, et al. BING: binarized normed gradients for objectness estimation at 300fps[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, Ohio, USA: IEEE, 2014: 3286-3293. DOI: 10.1109/CVPR.2014.414

[13] Zitnick C L, Dollár P. Edge boxes: locating object proposals from edges[C]//Proceedings of the 13th European Conference on Computer Vision-ECCV 2014. Switzerland: Springer, 2014: 391-405. DOI: 10.1007/978-3-319-10602-1_26

[14] Dollár P, Appel R, Belongie S, et al. Fast feature pyramids for object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2014, 36 (8) : 1532–1545. DOI:10.1109/TPAMI.2014.2300479

[15] Gadeski E, Fard H O, Borgne H L. GPU deformable part model for object recognition[J]. Journal of Real-Time Image Processing , 2014 : 1–13. DOI:10.1007/s11554-014-0447-5

[16] Gkioxari G, Hariharan B, Girshick R, et al. Using k-poselets for detecting people and localizing their keypoints[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, Ohio, USA: IEEE, 2014: 3582-3589. DOI: 10.1109/CVPR.2014.458

摘要

关键词