发布时间: 2021-02-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200060
2021 | Volume 26 | Number 2

图像分析和识别

融合密度和精细分数的行人检测

甄烨, 王子磊, 吴枫

中国科学技术大学类脑智能技术及应用国家工程实验室, 合肥 230027

收稿日期: 2020-02-24; 修回日期: 2020-05-13; 预印本日期: 2020-05-20

基金项目: 国家自然科学基金项目(61673362)

作者简介: 甄烨, 1994年生, 女, 硕士研究生, 主要研究方向为计算机视觉。E-mail:yezhen@mail.ustc.edu.cn;
王子磊, 通信作者, 男, 副教授, 博士生导师, 主要研究方向为计算机视觉和模式识别。E-mail:zlwang@ustc.edu.cn;
吴枫, 男, 教授, 博士生导师, 主要研究方向为视频编码和计算机视觉。E-mail:fengwu@ustc.edu.cn

中图法分类号: TP391.41

文献标识码: A

摘要

目的行人检测是指使用矩形框和置信度找出图像或者视频中的所有行人。传统的图像行人检测方法对于姿态各异或者相互遮挡的行人无能为力。深度神经网络（deep neural networks，DNN）在目标检测领域表现出色，然而依然难以解决行人检测中一些问题。本文提出一种融合密度和精细分数的行人检测方法DC-CSP（density map and classifier modules with center and scale prediction）。方法首先，在CSP（center and scale prediction）网络的基础上添加密度图模块（density map module，DMM）和分类器模块（classifier module，CM），得到DC-CSP网络；然后，针对置信度不精确问题，利用不同模块对分数预测结果的互补性质，设计阶段分数融合（stage score fusion，SSF）规则对检测分数进行更新，使得行人置信度上升、背景置信度下降；最后，基于NMS（non-maximum suppression），利用估计的行人密度图，设计改进的自适应NMS（improved adaptive NMS，IAN）后处理方法，能够进一步改善检测结果，对相互遮挡行人提高交并比（intersection over union，IOU）阈值从而减少漏检，对单个行人降低IOU阈值从而减少错检。结果在公开数据集Citypersons和Caltech上进行定量和定性分析。定量分析中，与其他方法相比，本文方法在Citypersons数据集的Reasonable、Heavy、Partial以及Bare子集上，对数平均漏检率分别下降了0.8%、1.3%、1.0%和0.8%，在Caltech数据集的Reasonable和All子集上分别下降了0.3%和0.7%；在定性分析中，可视化结果表明，本文方法在一定程度上解决了各种不同场景下存在的相互遮挡行人漏检、单个行人错检以及置信度不精确等一系列问题。此外，消融实验证明了所设计模块及其对应规则的有效性。结论本文方法使用联合多个模块的卷积神经网络（convolutional neural network，CNN），针对密度特征、分类特征分别设计IAN方法和SSF规则，在一定程度上解决了相互遮挡行人漏检、单个行人错检以及置信度不精确的问题，在多个数据集上证明了方法的有效性和鲁棒性。

关键词

城市场景; 行人检测; 卷积神经网络(CNN); 密度图; 分数融合; 自适应后处理

Pedestrian detection method based on density and score refinement

Zhen Ye, Wang Zilei, Wu Feng

National Engineering Laboratory of Brain-Inspired Intelligence Technology and Application, University of Science and Technology of China, Hefei 230027, China

Supported by: National Natural Science Foundation of China (61673362)

Abstract

Objective Pedestrian detection involves locating all pedestrians in images or videos by using rectangular boxes with confidence scores. Traditional pedestrian detection methods cannot handle situations with different postures and mutual occlusion. In recent years, deep neural networks have performed well in object detection, but they are still unable to solve some challenging issues in pedestrian detection. In this study, we propose a method called DC-CSP(density map and classifier modules with center and scale prediction) to enhance pedestrian detection by combining pedestrian density and score refinement. Under an anchor-free architecture, our method first refines the classification to obtain more accurate confidence scores and then uses different IoU (intersection over union) thresholds to handle varying pedestrian densities with the objective of reducing the omission of occluded pedestrians and the false detection of a single pedestrian. Method First, our DC-CSP network is primarily composed of a center and scale prediction(CSP) subnetwork, a density map module (DMM), and a classifier module (CM). The CSP subnetwork includes a feature extraction module and a detection head module. The feature extraction module uses ResNet-50 as its backbone, in which output feature maps are down-sampled by 4, 8, 16, and 16 with respect to the input image. The shallower features provide more precise localization information, and the deeper features contain more semantic information with larger receptive fields. Thus, we fuse the multi-scale feature maps from all the stages into a single one with a deconvolution layer. Upon the concatenation of feature maps, the detection head module first uses a 3×3 convolutional layer to reduce channel dimension to 256 and then two sibling 1×1 convolutional layers to produce the center heat map and scale map. On the basis of the CSP subnetwork, we design a density estimation module that first utilizes the concatenated feature maps to generate the features of 128 channels via a 1×1 convolutional layer, and then concatenates them with the center heat map and scale map to predict a pedestrian density map with a convolutional kernel of 5×5. The density estimation module integrates diverse features and applies a large kernel to consider surrounding information, generating accurate density maps. Moreover, a CM is designed to use the bounding boxes transformed from the center heat map and the scale map as input. This module utilizes the concatenated feature maps to produce 256-channel features via a 3×3 convolutional layer and then classifies the produced features by using a convolutional layer with a 1×1 kernel. The majority of the confidence scores of the background are below a certain threshold; thus, we can obtain a threshold for easily distinguishing pedestrians from the background. Second, the detection scores in CSP are relatively low and the CM can better discriminate between pedestrians and the background. Therefore, to increase the confidence scores of pedestrians and simultaneously decrease that of the background in the final decision, we design a stage score fusion (SSF) rule to update the detection scores by utilizing the complementarity of the detection head module and CM. In particular, when the classifier judges a sample as a pedestrian, the SSF rule will slightly boost the detection scores. By contrast, when the classifier judges a sample as the background, the SSF rule will slightly decrease. In other cases, a comprehensive judgment will be made by averaging the scores from both modules. Third, an improved adaptive non-maximum suppression (NMS), called the improved adaptive NMS(IAN) post-processing method, based on the estimated pedestrian density map is also proposed to improve the detection results further. In particular, a high IoU threshold will be used for mutually occluded pedestrians to reduce missed detection, and a low IoU threshold will be used for a single pedestrian to reduce false detection. In contrast with adaptive NMS, our IAN method fully considers various scenes. In addition, IAN is based on NMS rather than on soft NMS, and thus, it involves lower computational cost. Result To verify the effectiveness of the proposed modules, we conduct a series of ablation experiments in which C-CSP, D-CSP, and DC-CSP respectively represent the addition of the CM, DMM, and both modules to the CSP subnetwork. We conduct quantitative and qualitative analyses on two widely used public datasets, i.e., Citypersons and Caltech, for each setting. The experimental results of C-CSP verify the rationality of the SSF rule and demonstrate that the confidence scores of pedestrians can be increased while that of the background can be decreased. Simultaneously, the experimental results of D-CSP demonstrate the effectiveness of the IAN method, which can considerably reduce missed detection and false detection. For the quantitative analyses of DC-CSP, its log-average miss rate decreases by 0.8%, 1.3%, 1.0%, and 0.8% in the Reasonable, Heavy, Partial, and Bare subsets of Citypersons, respectively, and decreases by 0.3% and 0.7% in the Reasonable and Allsubsets of Caltech, respectively, compared with those of other methods. For the qualitative analyses of DC-CSP, the visualization results show that our method can work well in various scenes, such as pedestrians occluded by other objects, smaller pedestrians, vertical structures, and false reflection. Pedestrians in different scenes can be detected more accurately, and the confidence scores are more convincing. Furthermore, our method can avoid numerous false detections in situations with a complex background. Conclusion In this study, we propose a deep convolutional neural network with multiple novel modules for pedestrian detection. In particular, the IAN method and the SSF rule are designed to utilize density and classification features, respectively. Our DC-CSP method can considerably alleviate issues in pedestrian detection, such as missed detection, false detection, and inaccurate confidence scores. Its effectiveness and robustness are verified on multiple benchmark datasets.

Key words

urban scenes; pedestrian detection; convolutional neural network (CNN); density map; score fusion; adaptive post-processing

0 引言

行人检测是指使用矩形框和置信度找出图像或者视频中的所有行人，可以与行人跟踪、行人重识别等技术结合应用于汽车无人驾驶、人体行为分析、客流统计和智能交通等系统，具有广泛的用途。

传统行人检测方法主要采用人工低层特征，并使用分类器区分行人和背景，如HOG(histogram of oriented gradient)-SVM(support vector machine)(Dalal和Triggs，2005)、HOG-AdaBoost(Wang和Lien，2007)、ICF(integral channel feature)-AdaBoost(Dollár等，2009)、DPM(deformable parts model)-latent SVM(Felzenszwalb等，2010)。然而，对外观、视角和姿态差异较大的行人，这些方法的检测能力往往不足。

基于卷积神经网络(convolutional neural network，CNN)的方法在众多计算机视觉任务中取得了重大突破。针对行人检测，基于anchor的CNN方法(Zhang等，2016；Brazil等，2017)成功克服了传统方法的缺点。修改的Faster-RCNN(region-CNN)(Zhang等，2016)重新设置了anchor的大小、比率以及训练方法使之适用于行人，HyperLearner(Mao等，2017)利用multi-task将语义分割与行人检测相结合，ALFNet(asymptotic localization fitting network)(Liu等，2018)提出使用多段渐进定位的思想，即使用阈值挑选第1阶段训练的位置精确的proposals作为第2阶段的输入，之后使用更高的阈值进行训练从而产生更精确的定位。最近，基于anchor-free的CNN方法也开始应用于行人检测中，如：CSP(center and scale prediction)(Liu等，2019a)直接预测热力图和目标尺寸图来实现目标检测，进一步提升了检测性能。基于CNN的模型展示了比传统方法更好的结果，能够实现一般场景下的行人检测。

然而，在实际应用中，图像中的行人经常会出现相互遮挡的情况，导致常规CNN方法也遭遇了较大挑战。针对这一问题，Repulsion loss(Wang等，2018)提出了吸引和排斥概念并设计了合理的损失函数，Adaptive NMS(non-maximum suppression)(Liu等，2019b)构造了自适应NMS后处理机制。尽管如此，行人检测的性能仍不够理想，主要问题如图 1所示，其中红、绿色框分别代表行人标签和检测框，顶部数值为检测框置信度。具体为：1)由于行人互相遮挡导致部分特征重合，当两个或者几个行人距离很近时，会错误检测为一个行人，产生漏检，如图 1(a)所示；2)对于单个行人，由于不合理的NMS后处理机制会使得一个行人身上出现两个检测框，产生错检，如图 1(b)所示；3)行人的置信度不足够高，背景的置信度不足够低，如图 1(c)(d)所示。

图 1 行人检测存在的问题

Fig. 1 The problems of pedestrian detection((a) the missing detection of mutually occluded pedestrians; (b) the false detection of a single pedestrian; (c) the confidence scores of pedestrians are not high enough; (d) the confidence scores of background are not low enough)

针对以上问题，本文以前期工作(Liu等，2019a)为基础，提出了一种融合密度和精细分数的行人检测方法DC-CSP(density map and classifier modules with center and scale prediction)，在行人检测的基础上，首先细化检测框分数，解决置信度不精确的问题；然后针对不同的行人密度采用不同的交并比(intersection over union, IOU)阈值，同时减少相互遮挡行人的漏检和单个行人的错检。

本文的主要工作内容如下：1)采用密度图模块对图像中的行人进行密度估计，然后利用估计的密度图提出一种新型的自适应NMS方法，相比于Adaptive NMS，该方法增加了针对单个行人的处理方法，通过降低IOU阈值来减少错检，产生对相互遮挡行人不会删除周围其他行人检测框、对单个行人不会对其重复检测的效果；2)设计分类器模块对检测分数进行细化，利用新分数和原检测分数之间的互补特性，提出了一种分数融合规则，能够提高行人分数并降低背景分数，实现置信度的细化；3)在数据集Citypersons和Caltech上实验评估了提出的DC-CSP行人检测方法，并进行了定量和定性分析，其性能均优于目前最好的算法。此外，消融实验证明了所设计模块和规则的有效性。

1 相关方法

1.1 CSP网络

基于anchor-free框架的CSP(Liu等，2019a)网络结构如图 2所示，主要思想是提取输入图像的中心点热力图和目标尺寸预测图，然后将两者映射为原图上的目标检测框，中心点热力图的点对应检测框的中心位置，尺寸预测图的数值对应检测框的大小，中心点热力图置信度对应检测框得分。

图 2 CSP网络结构

Fig. 2 The network structure of CSP

CSP主要包括特征提取模块(feature extraction module)和检测头模块(detection head module)两个模块。特征提取模块以ResNet50为主干骨架，利用低层特征图的定位信息和高层特征图的语义信息，通过拼接融合并进行L2归一化，得到有利于检测的丰富特征。检测头模块利用以上特征图，将特征图解译成检测结果，具体为一个卷积层接上两个并联的1×1卷积层，产生目标中心点热力图和目标尺度预测图，最终形成行人检测框。

1.2 Adaptive NMS

针对不同密集程度下的行人，可以自适应地进行NMS后处理，为此Adaptive NMS(Liu等，2019b)提出利用密度图进行NMS处理。具体地，将anchor分类回归的特征图与之前的特征图在通道维度上进行拼接，然后通过卷积生成行人密度图，从而可以判断图像中行人的密集程度。传统NMS中IOU阈值为固定值(通常是0.5)，对于两个或几个相互遮挡的行人，如果IOU阈值较低则容易将其他行人框过滤掉，从而产生漏检进而降低行人检测的性能。针对该问题，Adaptive NMS采用非固定阈值进行处理，具体为

$ {N_M} = \max \left({{N_t}, {d_M}} \right) $

(1)

$ s_i^* = \left\{ {\begin{array}{*{20}{c}} {{s_i}\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;iou\left({M, {b_i}} \right) < {N_M}}\\ {{s_i}f\left({iou\left({M, {b_i}} \right)} \right)\;\;\;\;\;iou\left({M, {b_i}} \right) \ge {N_M}} \end{array}} \right. $

(2)

式中，${N_M}$为非固定阈值，${{N_t}}$为传统固定阈值0.5，${{d_M}}$为密度图中检测框中心点数值，$s_i^*$为更新后的检测框分数，${{s_i}}$为检测框分数，$M$为当前分数最高的检测框，${{b_i}}$为其他检测框，${f\left({iou\left({M, {b_i}} \right)} \right)}$为线性加权函数，其数值随着${iou\left({M, {b_i}} \right)}$的增大而减小。式(1)表示Adaptive NMS对不同场景采取不同阈值，当行人相互遮挡时，即${{d_M}}$>${{N_t}}$，IOU阈值取较大值${{d_M}}$，从而减少漏检；其他情况下，即${{d_M}}$≤${{N_t}}$时，IOU阈值采用传统固定阈值${{N_t}}$。式(2)表示Adaptive NMS以soft-NMS为基础。

该方法仅考虑了相互遮挡行人场景，忽视了单个行人由于IOU阈值过高而造成的错检；此外，行人的置信度不够高、背景的置信度不够低的问题也没有得到解决。

2 本文算法

2.1 算法概述

针对相互遮挡行人、单个行人存在的漏检错检、行人的置信度不够高和背景的置信度不足够低等问题，分别采用改进的自适应NMS(improved adaptive NMS，IAN)和阶段分数融合(stage score fusion，SSF)来解决。算法整体流程如图 3所示，具体步骤如下：

图 3 算法整体流程

Fig. 3 Overall process of the algorithm

1) 在CSP网络上添加密度图模块(density map module，DMM)和分类器模块(classifier module，CM)，得到DC-CSP网络；

2) 设计分类器模块对检测分数进行二次分类，利用检测头模块和分类器模块分数互补的性质，提出SSF规则将检测分数进行更新，使得行人分数提高、背景分数降低；

3) 利用估计的行人密度图，设计IAN方法进一步改善检测结果，对相互遮挡行人提高IOU阈值从而减少漏检，对单个行人降低IOU阈值从而减少错检。

2.2 DC-CSP网络

DC-CSP的网络结构如图 4所示，主要包括特征提取、检测头、密度图和分类器这4个模块。特征提取模块提取各层特征并进行融合得到用于检测的特征图；检测头模块基于特征图生成中心点热力图和目标尺寸预测图，从而能够获得行人检测框；为了利用多种特征包含的信息，密度图模块将特征图、热力图和尺寸图作为输入生成行人密度图；分类器模块将初步分类回归产生的较精确的行人检测框作为proposal进行二次分类。

图 4 DC-CSP网络结构

Fig. 4 The network structure of DC-CSP

密度图模块的目的是估计行人密度，本文首次将密度图模块应用在anchor-free框架上。将特征图通过一个1×1、通道为128的卷积层生成新的特征图，然后将其与目标中心点热力图、目标尺度预测图在通道维度上拼接，最后通过一个5×5、通道为1的卷积层生成行人密度图。这里使用当前行人框与其他行人框IOU的最大值作为当前行人中心点密度的真值，同时将Smooth-L1作为损失函数。密度图模块融合了多种不同的特征，并使用较大的卷积核学习周边信息，从而能够生成精确的行人密度图。具体结果为相互遮挡行人对应的位置数值较高、单个行人对应的位置数值较低。

分类器模块的目的是获得区分行人和背景的阈值，也是首次应用在anchor-free框架上。利用中心点热力图和目标尺度预测图解译为行人检测框，作为此模块的输入，将特征图通过一个3×3、通道为256的卷积层生成新的特征图，之后连接一个1×1、通道为1的卷积层进行分类。这里将行人、背景标签分别设置为1和0，同时使用focal loss作为损失函数。分类器模块将初步分类回归产生的较精确的行人检测框作为输入，并选择合适位置的特征图进行二次分类，但由于proposals数量较少，并且大多数为行人和背景难例，使得针对行人和背景难例更加具有确定性，而在其他背景下可能会导致一些错检，不过总体上置信度在某一阈值之下。具体结果为行人分数很高、背景分数在某一阈值之下。

此外，multi-task训练使得上述模块之间具有相互促进作用，在获得精确行人密度图的同时，能够提高分类器的准确率。

2.3 SSF分数融合规则

针对行人置信度不够高、背景置信度不够低的问题，DC-CSP网络设计了分类器模块，该模块对行人检测框进行二次分类，针对行人和背景难例会更加轻松地学习到其特征，使得行人预测分数很高(在1左右)，背景预测分数在一个阈值${{T_L}}$以下。

由于检测头模块对行人、背景的区分能力不强，检测分数具有保守性，而分类器模块虽然错检较多，但却可以使用阈值加以区分。利用上述两模块对分数的预测结果的互补性质可知：当分类器以某一高阈值判定为行人时，可以适当提高检测分数；当分类器以某一低阈值判定为背景时，可以适当降低检测分数；其他情况下，可以综合判定。考虑此规律，针对检测分数和分类器分数，设计了SSF分数融合规则，具体为

$ s_1^* = \left\{ {\begin{array}{*{20}{l}} {\sqrt {{s_1}} \;\;\;\;\;{s_2} > {T_H}}\\ {s_1^2\;\;\;\;\;\;{s_2} < {T_L}}\\ {\frac{{{s_1} + {s_2}}}{2}\;\;\;\;\;\;\;\;12} \end{array}} \right. $

(3)

式中，$s_1$表示检测分数(0≤ $s_1$ ≤1)，$s_2$表示分类器分数(0≤ $s_2$ ≤1)，$s_1^*$表示融合后的分数，${T_H}$代表分类器判定为行人的阈值，${T_L}$代表分类器判定为背景的阈值。

由于分类器可以使用阈值来区分行人和背景，这里以它的分数作为判定依据。可以看出，当分类器判定为行人时，即${{s_2} > {T_H}}$，最终分数相比检测分数会提高；当分类器判定为背景时，即${{s_2} < {T_L}}$，最终分数相比检测分数会降低；其他情况为两者的均值。SSF分数融合规则对分数进行更新，能够提高行人分数并且降低背景分数，一定程度上解决置信度不精确的问题。

2.4 IAN后处理方法

对密度差异较大的行人检测问题，固定IOU阈值的传统NMS方法对相互遮挡行人由于IOU阈值过低造成漏检和单个行人由于IOU阈值过高造成错检两个问题难以较好地处理。Adaptive NMS(Liu等，2019b)对相互遮挡行人的问题提高其IOU阈值来减少漏检，但是忽视了单个行人可能存在的错检问题。为此，本文提出IAN方法，期望同时解决因固定阈值导致的漏检和错检问题，具体为

$ \begin{array}{l} {N_{\rm{M}}} = \\ \left\{ {\begin{array}{*{20}{l}} {{d_{\rm{M}}}\;\;\;\;\;\;{d_{\rm{M}}} > {N_{t1}}, 判定当前区域处为相互遮挡行人}\\ {{N_{\rm{L}}}\;\;\;\;\;{d_{\rm{M}}} > {N_{t2}}, 判定当前区域处为单个行人}\\ {{N_{t1}}\;\;\;\;\;\;\;\;其他} \end{array}} \right. \end{array} $

(4)

$ s_i^* = \left\{ {\begin{array}{*{20}{l}} {{s_i}\;\;\;\;iou\left({M, bi} \right) < {N_{\rm{M}}}}\\ {0\;\;\;\;iou\left({M, bi} \right) \ge {N_{\rm{M}}}} \end{array}} \right. $

(5)

式中，${d_{\rm{M}}}$为密度图中检测框中心点数值，${{N_{t1}}}$、${{N_{t2}}}$分别为高低密度阈值，${{N_{\rm{L}}}}$为低阈值超参数，${{N_{\rm{M}}}}$为IOU阈值，${{s_i}}$为检测框分数，$s_i^*$为更新后的检测框分数，$M$为当前分数最高的检测框，${bi}$为其他检测框。式(4)表示IAN对不同场景采用不同阈值，当${{d_{\rm{M}}}}$较高时为相互遮挡行人，即${{d_{\rm{M}}} > {N_{t1}}}$时，IOU阈值为较高值${d_{\rm{M}}}$，对相互遮挡行人不会删除其他行人框从而减少漏检；当${d_{\rm{M}}}$较低时为单个行人，即${d_{\rm{M}}}$ < ${N_{t2}}$时，IOU阈值为较低值${N_{\rm{L}}}$，对单个行人会删除多余的检测框从而减少错检；其他情况为一般场景，IOU阈值为${N_{t1}}$。式(5)表示IAN以NMS为基础。

与Adaptive NMS不同的是，IAN更加全面地考虑了不同场景，对相互遮挡行人的场景提高IOU阈值，对单个行人的场景降低IOU阈值，其他一般场景采用传统固定阈值，不仅解决了相互遮挡行人漏检的问题，而且解决了单个行人错检的问题。此外，IAN以NMS为基础，在指标相差不大的情况下大大减少了计算量，缩短后处理时间。

2.5 整体算法伪代码

首先，训练DC-CSP网络得到检测头模块结果；然后，利用SSF分数融合规则对检测分数进行更新；最后，通过IAN后处理方法减少漏检和错检，得到最终行人检测结果。算法伪代码如下：

begin

S₁← DC-CSP; F←{}

when S₂ judges by SSF rule

S_new←S₁

while B≠ empty do

m← argmax S_new; M←b_m

F←F∪M; B←B-M

when IAN method deals with d_m

N_M←N

for b_i in B do

if iou(M, b_i) ≥ N_M then

B←B-b_i; S_new←S_new-S_new_i

end

return F, S_new

end

其中，B= {b₁, …, b_N}表示初始检测框，S₁= {s₁₁, …, s_1N}表示检测分数，S₂ = {s₂₁, …, s_{2 N}}表示分类器分数，D= {d₁, …, d_N}表示行人密度图，N是上文提出的NMS阈值超参数，F、S_new是最终的检测框和分数。

3 实验设置

3.1 评价指标

本文采用对数平均漏检率(log-average missing rate)为行人检测评价指标。

首先，计算召回率(recall, R)、漏检率(missing rate，MR)以及平均每一帧的错检个数(false positive per image，FPPI)，召回率和漏检率分别为

$ R = \frac{{TP}}{{TP + FN}} $

(6)

$ MR = 1 - R = \frac{{FN}}{{TP + FN}} $

(7)

式中，$TP$为正样本被正确判定为正样本的数量，$FN$为正样本被错误判定为负样本的数量。

然后，设置不同的置信度阈值，得到一系列FPPI和MR，在FPPI为[10^-2, 10⁰]的范围内取9个点，计算MR的对数平均值，即可得到对数平均漏检率$MR$^-2。该数值越低，代表行人检测效果越好。

3.2 数据集

本文使用Citypersons和Caltech两个数据集进行实验。Citypersons是Zhang等人(2017)构造的一个数据集，是从城市街景数据集Cityscapes中挑选的一个子集，涵盖3个国家、18个城市和3个季节，共5 000幅图像，其中训练集(train)2 975幅，验证集(val)500幅，测试集(test)1 575幅，含有行人35 016个，平均每幅图像7个人。相比于其他行人检测数据集如KITTI(A project of Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago)，Citypersons数据集更具有多样性和遮挡性。Caltech是规模较大的行人数据集，采用车载摄像头拍摄，约10 h，视频分辨率为640×480像素，标注250 000帧，350 000个矩形框，含有2 300个行人，从中抽取42 782幅图像作为训练集(train)，4 024幅图像为测试集(test)。

对Citypersons数据集，在Reasonable(occlusion≤35%)、Partial(10% < occlusion≤35%)、Bare(occlusion≤10%)和Heavy(occlusion>35%)子集上进行比较性实验以及模型分析实验。对Caltech数据集，在Reasonable、Heavy和All子集上分别进行相关实验。

3.3 实现细节

实验采用深度学习框架keras2.0.6，网络模型的训练和测试均采用keras完成。首先，以ImageNet预训练的ResNet50模型作为初始化，利用Adam算法训练优化CSP网络。对Citypersons数据集，将图像裁剪为640×1 280像素，初始学习率为0.000 2。完成150个训练周期；对Caltech数据集，将图像裁剪为336×448像素，初始学习率为0.000 1，完成120个训练周期，测试选择$MR$^-2最低的模型记为M1。然后，将CSP网络的所有层固定，以M1模型作为初始化，利用Adam算法训练优化DC-CSP网络中的密度图模块和分类器模块，初始化学习率为0.000 2，完成30个训练周期。最后，融合SSF规则和IAN方法进行后处理。

在[0, 1]内选择合适的步长进行区间划分，计算各个子区间两端点处的指标以找出最优子区间，并在最优子区间内重复上述步骤。当区间长度小于某一阈值时，停止搜索，获得本文算法中的各种超参数。对Citypersons数据集，${N_{t1}}$、${N_{t2}}$、${N_{\rm{L}}}$、${T_H}$、${T_L}$分别设置为0.5、0.1、0.26、0.8、0.5。对Caltech数据集，${N_{t1}}$、${N_{t2}}$、${N_{\rm{L}}}$、${T_H}$、${T_L}$分别设置为0.5、0.005、0.2、0.36、0.117。

4 实验结果及分析

为了验证模块及其对应方法的有效性，首先进行消融实验，即对CSP添加分类器模块并联合SSF分数融合规则(C-CSP)、CSP添加密度图模块并联合IAN后处理方法(D-CSP)以及DC-CSP方法分别在Citypersons和Caltech数据集上进行定量和定性分析，然后将本文方法与其他行人检测方法进行对比，验证本文方法的效果。

4.1 SSF分数融合规则

4.1.1 C-CSP定量分析

为了验证SSF分数融合规则的有效性，对采用不同模块的实验结果(对数平均漏检率)进行对比。表 1和表 2是以CSP为基准，C-CSP的检测结果、分类器结果和使用SSF分数融合规则后的最终结果。

表 1 C-CSP在Citypersons数据集上的实验结果
Table 1 Experimental results of C-CSP on Citypersons dataset

下载CSV

方法	Reasonable	Heavy	Partial	Bare
CSP	11.02	49.50	10.40	7.30
C-CSP检测头模块	11.03	49.71	10.31	7.32
C-CSP分类器模块	11.42	49.24	10.95	6.91
C-CSP+SSF	10.55	48.82	10.03	6.89
注：加粗字体表示各列最优结果。

表 2 C-CSP在Caltech数据集上的实验结果
Table 2 Experimental results of C-CSP on Caltech dataset

下载CSV

方法	Reasonable	Heavy	All
CSP	4.02	41.27	55.87
C-CSP检测头模块	3.89	40.89	55.57
C-CSP分类器模块	4.61	44.05	59.23
C-CSP+SSF	3.79	40.62	56.62
注：加粗字体表示各列最优结果。

可以看出，整体上C-CSP的性能略优于CSP，证明了分类器模块设计的合理性。在Citypersons数据集上，因为分类器仅对行人和背景难例进行了学习，并不是针对所有场景，所以相比于保守的检测结果，错检很多从而导致$MR$^-2较高。SSF分数融合规则利用互补性质更新检测分数，性能在所有子集上均有较大提升，尤其是Heavy子集，因为对于严重遮挡行人，相比于一个分类器，两个不同的分类器会进行综合判定从而增强了区分能力。在Caltech上仅有All子集例外，这可能是该数据集中尺寸较小的行人数量多，并且图像分辨率小使得分类器更加难以学习到行人的特征，导致准确率较低从而降低了指标。

4.1.2 C-CSP定性分析

图 5为CSP以及C-CSP的各个模块和使用SSF规则融合在行人和背景的情况下的分数效果图，图中A、B、C、D、E分别为原始图像、CSP分数、C-CSP的检测头模块、分类器模块和经过SSF规则融合的分数。可以看出，本文所提规则可以合理有效地更新检测分数。对于行人，相比于保守的检测分数，分类器体现了更强大的分类功能，对不同场景下的行人均具有很强的确定性；对于背景，检测分数不足够低，而分类器将分数在某一阈值之下判定为背景，SSF规则以此性质作为判定依据，使得行人分数提高并且背景分数降低。将CSP分数与经过SSF规则融合的分数进行对比，可以看到，对于行人，针对被其他行人遮挡(图 5(a)第2行)、光照强度太低、模糊(图 5(a)第3行)以及与背景结构相似导致不易分辨(图 5(a)第4行)等情景；对于背景，针对背景某一部分误认为行人头部(图 5(b)第1行)、广告牌上的虚假行人(图 5(b)第2行)、路灯上的装饰和树枝等外观类似行人的垂直结构(图 5(b)第3、4行)等情景，相比于CSP，C-CSP在各种场景(尤其是复杂场景)下表现良好。这是因为初步分类回归已经产生了较精确的行人检测框，其中大多数为行人和背景难例，设计分类器对其进行二次分类，更加有利于区别复杂场景下的行人和背景。

图 5 CSP和C-CSP的分数对比

Fig. 5 Comparison of scores between CSP and C-CSP((a)pedestrian; (b)background)

4.2 IAN后处理方法

4.2.1 D-CSP定量分析

为了验证IAN方法的有效性，采用不同的后处理方法进行实验对比。表 3和表 4是以CSP联合NMS为基准，D-CSP联合NMS、soft-NMS、Adaptive NMS和IAN方法的实验结果(对数平均漏检率)。可以看出，D-CSP性能与CSP相当，在Reasonable子集上表现略优，这是由于multi-task相互促进的作用，说明了密度图模块的有效性。无论在Citypersons还是Caltech数据集上，相比于其他后处理方法，IAN方法在所有子集(尤其是Reasonable子集)上均有一定提升，这是因为针对一般场景下的行人会更容易学习到密度值从而减少漏检和错检。对比Adaptive NMS，提升不太明显，可能是由于数据集中单个行人场景相对较少，在Caltech数据集上的实验结果印证了此观点的正确性。

表 3 D-CSP在Citypersons数据集上的对数平均漏检率
Table 3 Experimental results of D-CSP on Citypersons dataset

下载CSV

/%
方法	Reasonable	Heavy	Partial	Bare
CSP	11.02	49.50	10.40	7.30
D-CSP+NMS	10.95	49.82	10.66	7.37
D-CSP+soft-NMS	10.93	49.8	10.64	7.30
D-CSP+Adaptive NMS	10.68	49.39	10.47	7.12
D-CSP+IAN(本文)	10.57	49.32	10.34	7.10
注：加粗字体表示各列最优结果。

表 4 D-CSP在Caltech数据集上的对数平均漏检率
Table 4 Experimental results of D-CSP on Caltech dataset

下载CSV

/%
方法	Reasonable	Heavy	All
CSP	4.02	41.27	55.87
D-CSP+NMS	3.91	40.67	54.62
D-CSP+soft-NMS	4.34	40.83	54.99
D-CSP+Adaptive NMS	3.91	40.67	54.62
D-CSP+IAN(本文)	3.83	40.58	54.59
注：加粗字体表示各列最优结果。

4.2.2 D-CSP定性分析

图 6为原始图像及其行人密度图，其中红色框代表行人标签。可以看出，在密度图中，相互遮挡行人对应的位置数值较高，并且随着遮挡程度的增加而增加(第1、2行右半部分及第3行左半部分)，单个行人对应的位置数值较低(第1、2行左半部分)。这是因为相互遮挡行人的标签框与其他标签框之间有重合，并且IOU随着重合程度的增加而增加，而单个行人的标签框与其他标签框无重合，IOU为零。

图 6 原始图像和对应的行人密度图

Fig. 6 Original images and corresponding pedestrian density maps ((a) original images; (b) pedestrian density maps)

图 7为CSP以及D-CSP经过不同后处理方法获得的效果图，图中M、N、O、P、Q分别为标签、CSP检测结果、D-CSP经过NMS、Adaptive NMS、IAN等方法的检测结果。可以看出，本文方法可以同时解决相互遮挡行人的漏检以及单个行人的错检问题。对于相互遮挡行人，相比于NMS，IAN方法可以减少漏检；对于单个行人，相比于NMS和Adaptive NMS，IAN方法又可以减少错检。

图 7 CSP和D-CSP的结果对比

Fig. 7 Comparison of results between CSP and D-CSP((a)occlusion; (b)single)

将CSP与D-CSP经过IAN方法的检测结果进行对比，可以看到，对于相互遮挡行人，针对光照强度太低导致模糊(图 7(a)第2行)的情景；对于单个行人，针对含有摩托车等垂直结构(图 7(b)左第2行)、光照强度太低(图 7(b)右第1行)以及被其他物体遮挡(图 7(b)右第2行)的情景，相比于CSP，D-CSP在各种场景下表现良好。这是因为融合了中心点以及尺寸等特征的密度图模块更加有利于判断各种场景下行人是否存在。此外，较大尺寸的卷积核能够精确地学习周边信息，从而区别出相互遮挡行人和单个行人，进而采用不同阈值处理。

4.3 DC-CSP方法

4.3.1 DC-CSP定量分析

为了验证本文方法的有效性，对采用不同模块及其对应方法的结果(对数平均漏检率)进行实验对比。表 5和表 6是以CSP为基准，DC-CSP的检测结果、分类器结果以及使用IAN方法、SSF规则和联合两者的结果。

表 5 DC-CSP在Citypersons数据集上的实验结果
Table 5 Experimental results of DC-CSP on Citypersons dataset

下载CSV

方法	Reasonable	Heavy	Partial	Bare
CSP	11.02	49.50	10.40	7.30
DC-CSP检测头模块	10.74	48.08	9.67	7.15
DC-CSP分类器模块	12.07	48.44	10.83	7.07
DC-CSP+IAN	10.66	48.02	9.59	7.09
DC-CSP+SSF	10.32	48.02	9.38	6.61
DC-CSP+IAN+SSF	10.24	48.02	9.33	6.46
注：加粗字体表示各列最优结果。

表 6 DC-CSP在Caltech数据集上的实验结果
Table 6 Experimental results of DC-CSP on Caltech dataset

下载CSV

方法	Reasonable	Heavy	All
CSP	4.02	41.27	55.87
DC-CSP检测头模块	3.95	43.52	55.60
DC-CSP分类器模块	4.38	42.20	59.85
DC-CSP+IAN	3.89	41.34	55.39
DC-CSP+SSF	3.70	43.19	56.33
DC-CSP+IAN+SSF	3.68	41.48	55.20
注：加粗字体表示各列最优结果。

可以看出，DC-CSP的性能优于CSP很多，说明multi-task使得模块之间很大程度上相互促进学习从而提升性能；将DC-CSP的实验结果，DC-CSP方法单独使用IAN方法或者SSF规则均可以提升性能，但是IAN方法提升相对不明显，可能是因为相比于分类器模块，密度图模块的训练难度更大；对比DC-CSP的实验结果，DC-CSP联合使用IAN方法和SSF规则的实验结果提升幅度更大。DC-CSP方法在Citypersons数据集的4个子集上的结果比CSP方法均提升1%左右，说明multi-task训练以及IAN、SSF可以使性能得到大幅度提升，但在Caltech数据集的Heavy子集上没有提升，可能是由于尺寸较小并且严重遮挡行人含有大量噪声，使得多任务训练更加困难，对其特征提取能力下降。

4.3.2 DC-CSP定性分析

图 8为DC-CSP经过不同模块以及对应方法的效果图，图中R、S、T、U、V分别表示使用检测模块、分类器模块、IAN方法、SSF规则、IAN联合SSF的实验结果。

图 8 DC-CSP的结果对比

Fig. 8 Comparison of results of DC-CSP((a)pedestrian by SSF rule; (b)background by SSF rule; (c)occlusion by IAN method; (d)single by IAN method)

从分别使用检测模块、分类器模块和SSF规则的实验结果可知，SSF规则能更新原始检测分数，使得行人分数提高和背景分数降低；对比添加检测模块与IAN方法的结果可知，IAN方法能针对不同类型的行人使用不同的IOU阈值，减少相互遮挡行人的漏检和单个行人的错检；对比添加检测模块与IAN方法联合SSF的结果可知，联合两者使用可以同时实现上述两个功能。此外，将添加检测模块与使用SSF规则进行对比，发现对部分错检的背景框，SSF规则可以降低其分数并进行过滤，在一定程度上更好地协助了IAN方法的应用。

可以看出，使用CSP与DC-CSP添加检测模块的检测结果相差不大。与CSP相比，使用SSF规则在被其他物体遮挡(图 8(a)第1行)、尺寸较小导致模糊(图 8(a)第2行)等情景对行人进行检测；在玻璃上的虚假行人倒影(图 8(b)第1行)、电线杆等类似行人外观的垂直结构(图 8(b)第2行)等情景对背景进行检测；使用IAN方法在仅能看到头部的严重相互遮挡(图 8(c)第1行)、光照强度很低(图 8(c)第2行)等情景对相互遮挡行人进行检测；在被其他物体严重遮挡(图 8(d)第1行)、行人与背景融为一体导致模糊不清(图 8(d)第2行)等情景对单个行人进行检测，DC-CSP在各种场景(尤其是复杂场景)下表现良好。这是因为multi-task促进模块之间相互学习，使得IAN和SSF更加有利于发挥各自的功能。

4.4 与其他方法的性能比较

不同方法在Citypersons和Caltech数据集的实验结果(对数平均漏检率)如表 7和表 8所示。通过定量对比可以看出，相比于其他方法，使用本文方法的效果有明显提高。ALFNet(Liu等，2018)方法使用两阶段渐进定位，但仅能够实现一般场景下的行人检测，没有考虑相互遮挡行人的漏检和单个行人的错检问题。Repulsion Loss(Wang等，2018)

表 7 不同方法在Citypersons数据集上的对数平均漏检率
Table 7 Experimental results of different methods on Citypersons dataset

下载CSV

/%
模型	Backbone	Reasonable	Heavy	Partial	Bare
Adapted Faster-RCNN(Zhang等，2017)	VGG16	15.4	-	-	-
TLL(Song等，2018)	ResNet50	15.5	53.6	17.2	10.0
TLL+MRF(Song等，2018)	ResNet50	14.4	52.0	15.9	9.2
Repulsion Loss(Wang等，2018)	ResNet50	13.2	56.9	16.8	7.6
OR-CNN(Zhang等，2018)	VGG16	12.8	55.7	15.3	6.7
ALFNet(Liu等，2018)	ResNet50	12.0	51.9	11.4	8.4
CSP(Liu等，2019a)	ResNet50	11.0	49.3	10.4	7.0
DC-CSP(本文)	ResNet50	10.2	48.0	9.4	6.5
注：加粗字体表示各列最优结果, “-”表示Adapted Faster-RCNN在Heavy、Partial以及Bare子集上未进行实验，故无数据。

表 8 不同方法在Caltech数据集上的对数平均漏检率
Table 8 Experimental results of different methods on Caltech dataset

下载CSV

/%
方法	Reasonable	Heavy	All
Faster-RCNN(Ren等，2015)	8.7	53.1	62.6
RPN+BF(Zhang等，2016)	7.3	54.6	59.9
ALFNet(Liu等，2018)	6.1	51.0	59.1
HyperLearner(Mao等，2017)	5.5	48.7	61.5
Repulsion Loss(Wang等，2018)	5.0	47.9	59.0
CSP(Liu等，2019a)	4.5	45.8	56.9
OR-CNN+city(Zhang等，2018)	4.1	45.0	58.8
RepLoss+city(Wang等，2018)	4.0	41.8	58.6
CSP+city(Liu等，2019a)	4.0	41.3	55.9
DC-CSP+city(本文)	3.7	41.5	55.2
注：加粗字体表示各列最优结果, “+city”表示使用Citypersons数据集预训练模型作为初始化。

以及OR-CNN(Zhang等，2018)均设计合理的损失函数来吸引或者排斥检测框，但都没有从根本上抑制相互遮挡行人框的删除，并且anchor学习难度大，造成性能提升很少。CSP(Liu等，2018)首次使用anchor-free思想进行行人检测，但存在置信度不精确的问题。本文方法基于anchor-free框架，添加密度图模块和分类器模块，提出SSF分数融合规则以解决置信度不精确的问题，并且设计IAN方法有效避免漏检和错检。在公开的行人数据集Citypersons上测试，本文方法在4个子集上均有1%左右的提升，表明本文方法可以有效处理各种不同场景。在Caltech数据集的实验中，为了获得更好的结果，使用Citypersons数据集预训练模型作为初始化进行训练，但仅在Reasonable和All子集上略有提升，这可能是该数据集分辨率不高并且大多数行人的尺寸较小所致。在Heavy子集上没有提升，原因是图像清晰度不高导致严重遮挡行人含有大量噪声，使得多任务训练更加困难，对其特征提取能力下降。

5 结论

本文提出了一种融合密度与精细分数的行人检测方法，将密度图模块和分类器模块与CSP网络相结合，并设计了一系列规则进行后处理。与以往的方法不同，本文方法不是直接将检测结果作为输出，而是使用设计合理的分类器模块对其进行二次分类，利用不同模块分数的互补性质，设计SSF分数融合规则来更新分数。此外，对相互遮挡行人和单个行人场景，使用估计的行人密度图设计IAN方法来减少漏检和错检。本文方法在一定程度上解决了行人检测存在的问题，在Citypersons和Caltech数据集上的定量和定性实验结果均表明设计的模块及其对应规则的有效性。相较于其他的行人检测方法，本文方法在各种不同的场景下均具有更好的性能。后期研究将着重优化网络结构，使$MR$^-2得到进一步下降。

参考文献

Brazil G, Yin X and Liu X M. 2017. Illuminating pedestrians via simultaneous detection and segmentation//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 4960-4969[DOI:10.1109/ICCV.2017.530]

Dalal N and Triggs B. 2005. Histograms of oriented gradients for human detection//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, USA: IEEE: 886-893[DOI:10.1109/CVPR.2005.177]

Dollár P, Tu Z W, Perona P and Belongie S. 2009. Integral channel features//Proceedings of the British Machine Vision Conference. London, UK: BMVA Press: #91[DOI:10.5244/c.23.91]

Felzenszwalb P F, Girshick R B, McAllester D, Ramanan D. 2010. Object detection with discriminatively trained part-based models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(9): 1627-1645 [DOI:10.1109/TPAMI.2009.167]

Liu S T, Huang D and Wang Y H. 2019b. Adaptive NMS: refining pedestrian detection in a crowd//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 6452-6461[DOI:10.1109/CVPR.2019.00662]

Liu W, Liao S C, Hu W D, Liang X Z and Chen X. 2018. Learning efficient single-stage pedestrian detectors by asymptotic localization fitting//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 634-659[DOI:10.1007/978-3-030-01264-9_38]

Liu W, Liao S C, Ren W Q, Hu W D and Yu Y N. 2019a. High-level semantic feature detection: a new perspective for pedestrian detection//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 5182-5191[DOI:10.1109/CVPR.2019.00533]

Mao J Y, Xiao T T, Jiang Y N and Cao Z M. 2017. What can help pedestrian detection?//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 6034-6043[DOI:10.1109/CVPR.2017.639]

Ren S Q, He K M, Girshick R and Sun J. 2015. Faster R-CNN: Towards real-time object detection with region proposal networks//Advances in neural information processing systems. Montreal, Canada: IEEE: 91-99

Song T, Sun L Y, Xie D, Sun H M and Pu S L. 2018. Small-scale pedestrian detection based on topological line localization and temporal feature aggregation//Proceedings of the European Conference on Computer Vision (ECCV). Munich, Germany: Springer: 554-569

Wang C C R and Lien J J J. 2007. AdaBoost learning for human detection based on histograms of oriented gradients//Proceedings of Asian Conference on Computer Vision. Berlin, Germany: Springer: 885-895

Wang X L, Xiao T T, Jiang Y N, Shao S, Sun J and Shen C H. 2018. Repulsion loss: detecting pedestrians in a crowd//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 7774-7783[DOI:10.1109/CVPR.2018.00811]

Zhang L L, Lin L, Liang X D and He K M. 2016. Is faster R-CNN doing well for pedestrian detection?//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer: 443-457[DOI:10.1007/978-3-319-46475-6_28]

Zhang S F, Wen L Y, Bian X, Lei Z and Li S Z. 2018. Occlusion-aware R-CNN: detecting pedestrians in a crowd//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 657-674[DOI:10.1007/978-3-030-01219-9_39]

Zhang S, Benenson R and Schiele B. 2017. Citypersons: a diverse dataset for pedestrian detection//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Hawaii, USA: IEEE: 3213-3221