发布时间: 2020-09-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190632
2020 | Volume 25 | Number 9

图像理解和计算机视觉

第一人称视角下的社会力优化多行人跟踪

杨廷召¹, 刘骊^1,2, 付晓东^1,2, 刘利军^1,2, 黄青松^1,2

1. 昆明理工大学信息工程与自动化学院, 昆明 650500;

2. 云南省计算机技术应用重点实验室, 昆明 650500

收稿日期: 2019-12-18; 修回日期: 2020-03-06; 预印本日期: 2020-03-13

基金项目: 国家自然科学基金项目（61862036，61962030，81860318）；云南省中青年学术和技术带头人后备人才培养计划项目（201905C160046）；云南省应用研究基础计划面上项目（2017FB097）

第一作者简介: 杨廷召, 1995年生, 男, 硕士研究生, 主要研究方向为计算机视觉。E-mail:1443224008@qq.com;
付晓东, 男, 教授, 博士生导师, 主要研究方向为服务计算、决策理论与方法。E-mail:xiaodong_fu@hotmail.com;
刘利军, 男, 副教授, 硕士生导师, 主要研究方向为图像处理、云计算和信息检索。E-mail:cloneiq@126.com;
黄青松, 男, 教授, 硕士生导师, 主要研究方向为机器学习、数据挖掘、智能信息系统。E-mail:1912443688@qq.com.

中图法分类号: TP301.6

文献标识码: A

文章编号: 1006-8961(2020)09-1869-13

摘要

目的多行人跟踪一直是计算机视觉领域最具挑战性的任务之一，然而受相机移动、行人频繁遮挡和碰撞影响导致第一人称视频中行人跟踪存在效率和精度不高的问题。对此，本文提出一种基于社会力模型优化的第一人称视角下的多行人跟踪算法。方法采用基于目标检测的跟踪算法，将跟踪问题简化为检测到的目标匹配问题，并且在初步跟踪之后进行社会力优化，有效解决频繁遮挡和碰撞行为导致的错误跟踪问题。首先，采用特征提取策略和宽高比重新设置的单步多框检测器（single shot multi-box detector，SSD），对输入的第一人称视频序列进行检测，并基于卷积神经网络（convolutional neural network，CNN）模型提取行人的表观特征，通过计算行人特征相似度获得初步的行人跟踪结果；然后，进行跟踪结果的社会力优化，一是定义行人分组行为，对每个行人跟踪目标进行分组计算，并通过添加分组标识，实现同组行人在遮挡的情况下的准确跟踪；二是通过定义的行人领域，对行人分组进行排斥计算，实现避免碰撞后的准确跟踪。结果在公用数据集ETH（eidgenössische technische hochschule）、MOT16（multi-object tracking 16）和ADL（adelaide）的6个第一人称视频序列上与其他跟踪算法进行对比实验，本文算法的运行速度达到准实时的20.8帧/s，同时相比其他准实时算法，本文算法的整体跟踪性能MOTA（multiple object tracking accuracy）提高了2.5%。结论提出的第一人称视频中社会力优化的多行人跟踪算法，既能准确地在第一人称场景中跟踪多个行人，又能较好地满足实际应用需求。

关键词

第一人称视频; 多行人跟踪; 社会力优化; 碰撞避免; 分组行为

Multi-pedestrian tracking optimized by social force model under first-person perspective

Yang Tingzhao¹, Liu Li^1,2, Fu Xiaodong^1,2, Liu Lijun^1,2, Huang Qingsong^1,2

1. Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China;

2. Computer Technology Application Key Laboratory of Yunnan Province, Kunming 650500, China

Supported by: National Natural Science Foundation of China (61862036, 61962030, 81860318)

Abstract

Objective Pedestrian tracking and first-person vision are challenging tasks in the field of computer vision. First-person vision focuses on analyzing and processing first-person videos, thus helping camera wearers make the right decisions. Its particularities include the following: First, the foreground and background of the video are difficult to distinguish because the camera is always moving. Second, the shooting location of the video is not fixed, and the lighting changes considerably. Third, the shooting needs to have real-time processing capabilities. Fourth, it also needs to have embedded processing capabilities when considering application to smart glasses and other devices. The above problems can cause pedestrian occlusion problems and collision avoidance behavior, thus leading to low tracking efficiency and accuracy. Therefore, this study proposes a social force-optimized multipedestrian tracking algorithm in first-person videos to resolve frequent occlusions and collisions, thereby improving tracking efficiency and accuracy. Method We use a detection-based tracking algorithm, which simplifies tracking problems into detected target matching problems. After initial tracking, the social force model is used to optimize frequent occlusion and collision avoidance behavior. The feature extraction strategy of the single shot multi-box detector (SSD) algorithm is first adjusted, and the features from low-level feature maps, such as conv4_3, conv6_1, conv6_2, conv7_1, conv7_2, conv8_2, and conv9_2, are extracted. Then, the idea of a dense and residual connection of DenseNet is drawn. In order to realize the repeated use of features, we perform a union operation on the input and output of conv6_2, and input it to conv7_2. Then, the aspect ratio of the default box is reset, and the default frame is simplified to an aspect ratio of 0.41 on the basis of the Caltech large pedestrian dataset. These steps are performed to simplify calculations and reduce the interference in pedestrian detection. From the large-scale ReID dataset, the apparent features of pedestrians are extracted on the basis of a convolutional neural network model by adding two convolutional layers, a maximum pooling layer, and six remaining modules to the pretrained network; as a result, a wide residual network is constructed. The network model is used to extract the apparent features of the pedestrian target boxes. The preliminary pedestrian tracking results are obtained by calculating the similarity of pedestrian features. First, the degree of location matching is calculated, followed by the calculation of the apparent feature matching and the degree of fusion matching. The Kuhn-Munkres algorithm is used to perform the matching correlation of the detection results. Lastly, the idea of a social force model is introduced to optimize the preliminary tracking results. The first step is to define the grouping behavior of pedestrians. Then, the grouping of each pedestrian tracking target is calculated, and a grouping identifier is added. In the case of occlusion, pedestrians in the same group are still accurately tracked by maintaining the group identification. The second step is to define the pedestrian domain and calculate the exclusion of pedestrian groups that cross the domain. After the occurrence of collision avoidance behavior, the tracking target boxes also closely follow the pedestrian target. Result Compared with other tracking algorithms on the six first-person video sequences of the public datasets eidgenössische technische hochschule (ETH), multi-object tracking 16 (MOT16), and adelaide (ADL), the algorithm runs at a near real-time speed of 20.8 frames per second, and the multiple object tracking accuracy (MOTA) is improved by 2.5%. Among the six tracking indicators, four obtained the optimum results, whereas two obtained suboptimal results. Among them, lifted multicut and person (LMP_p) obtained the best performance on the mostly tracked (MT) indicator, but it was achieved under the premise of loss of operating efficiency. Simple online and realtime tracking (SORT) performed well on the Hz index, but its other performance indicators are average. In the comparison experiment of operating efficiency, the running speed of the method in this study reaches approximately 20 frames per second on six datasets, and its operating efficiency reaches quasi real-time performance, which is second only to the SORT method. However, SORT comes at the expense of accuracy in exchange for operating efficiency, thus often causing problems, such as tracking failure. Conclusion This study explores several issues of first-person pedestrian tracking and proposes social force-optimized multipedestrian tracking in first-person videos. The core idea of this method is to simplify the tracking problem into a matching problem of detection results, use a single-shot multibox detector SSD to detect pedestrians, and then extract the apparent characteristics of pedestrians as the main basis for data association. The social force model is used for optimization to solve the tracking problem caused by frequent occlusion and collision avoidance. Moreover, this model performs well in problems, such as difficulty in distinguishing the foreground and background, unobtrusive features, numerous pedestrian targets, and lighting changes. Experimental results based on numerous first-person video sequences show that compared with the existing mainstream universal tracking methods, the proposed method have higher tracking accuracy and better real-time effect. These results validate the effectiveness of the proposed method in multipedestrian tracking in first-person videos.

Key words

first-person video; multi-pedestrian tracking; social force optimized; collision avoidance; grouping behavior

0 引言

第一人称视频中的多行人跟踪(Ess等，2008)是计算机视觉领域的重要应用之一，即面向相机佩戴者拍摄的复杂场景，解决多个行人的有效跟踪问题。当前广泛应用于各种辅助技术上，如盲人导航、物体定位、识别、行人预测等，具有重要的研究价值。区别于第三人称视觉，第一人称视觉(first-person vision)(Betancourt等，2015)是侧重对第一人称视角拍摄的视频进行分析处理，并帮助相机佩戴者进行决策，以感知周围的世界。其特殊性在于：1)由于相机始终运动的状态，导致难以区分视频的前景和后景；2)视频拍摄地点不固定，光照变化明显；3)拍摄需具有实时处理能力；4)若考虑应用到智能眼镜等设备，还需具备嵌入式处理能力。目前，第一人称视觉的方法得到了广泛研究，很多研究者尝试在第一人称视频中观察和预测其他人的行为。Su等人(2017)提出了一种预测第一人称视频中篮球运动员未来行为的方法。Yagi等人(2018)基于可佩戴相机连续记录的第一人称视频流，提出一种具有多流卷积—反卷积结构的预测框架预测行人未来位置。以上方法在第一人称视频中的行人行为识别及运动预测等方面都取得了较好的实验效果，并给出了较好的解决方案。然而，对于第一人称视频中的多行人跟踪没有较好的解决方法，仍存在行人频繁遮挡、运动相互影响等具有挑战性的问题。

现有的多目标跟踪算法主要有背景建模、相关滤波、深度学习等，但是这些行人跟踪算法都是针对固定相机而言的，普遍只考虑如何进行算法精度或速度等某一方面的提升，而不关心实际应用以及行人之间的相互影响等问题，并不适用第一人称视频中行人跟踪的应用场景。目前尚有两大问题急需解决(Ess等，2008)：1)由于多个行人运动相互交叉形成遮挡，导致遮挡频繁；2)第一人称视频中的行人与相机以及行人与行人的相互运动，会形成大量的碰撞避免行为，导致跟踪失败。受限于第一人称视频中实际环境的复杂性，当前跟踪算法在准确性、鲁棒性以及实时性上还有待提高，因此，本文提出一种第一人称视频中社会力优化的多行人跟踪算法，平衡跟踪精度、稳定性和算法效率之间的关系，实现第一人称视频中快速准确的多行人跟踪。

1 相关工作

多行人跟踪涉及行人目标检测、行人特征提取和匹配，能否快速准确地检测行人决定了视觉目标跟踪的效率和精度。针对行人目标检测，Liu等人(2016)采取单个网络框架和多尺度特征提取策略，提出了单步多框检测(single shot multi-box detector，SSD)算法，该算法运行速度较快且能获得准确的检测结果；Zhang等人(2016)提出将行人检测问题看成特定问题，并通过对Faster R-CNN(region convolutional neural network)中RPN(region proposal network)的修改，使其更加符合行人检测场景；Zhang等人(2018)遵循两阶段的Faster R-CNN检测框架：第1阶段加入聚集损失策略，第2阶段加入感知池单元，在没有损失较多效率的前提下提高了跟踪的精确度；Bose等人(2007)提出用于检测和跟踪的多个交互对象框架，实现了快速准确的多目标跟踪。Keuper等人(2016)提出了点轨迹和物体检测的联合图形模型，并在2D MOT2015基准测试的行人跟踪序列中证明了这种联合方法的有效性。提取目标的健壮特征直接关系到视觉目标跟踪中数据关联的有效性。李军伟等人(2018)提出利用卷积特征图之间的距离自适应地选取卷积特征中心来进行目标跟踪；Li等人(2019)提出了一种新的学习目标感知特征的方法，能够比预训练的深度特征更好地识别与跟踪发生显著外观变化的目标；Choi(2015)通过引入一种新颖的聚合局部特征描述符，提出了准实时的多目标跟踪(near-online multi-target tracking，NOMT)算法；Wojke等人(2017)在SORT(simple online and realtime tracking)目标跟踪算法(Bewley等，2016)的基础上，提取目标的表观特征进行最邻近匹配，有效改善了面向遮挡情况下的目标追踪效果，同时减少了目标ID(identity)的跳变问题；Yu等人(2016)在每帧上用检测器检测行人位置，并在每帧之前利用GoogLeNet模型提取行人检测框的表观特征来进行前后帧行人框的匹配，从而实现行人跟踪；王美华等人(2015)根据中层视觉线索构建部件级表观模型，提出相似物体干扰的检测和处理算法，实现了复杂环境下的准确稳定跟踪。

综上所述，行人检测性能和特征提取的效率及健壮性的提升直接关系到跟踪精度的提高。然而，由于第一人称场景中相机的快速移动，直接应用现有行人检测算法得到的检测结果精度较低，导致行人特征不突出，从而导致第一人称多行人跟踪效果不佳。为解决上述问题，本文对原始SSD检测算法的特征提取策略和宽高比进行重新设置，相比于Liu等人(2016)提出的方法，本文方法在第一人称行人检测方面具有较好的准确率和效率。同时，本文采用基于卷积神经网络(convolutional neural network，CNN)的模型进行行人表观特征提取，能够较快地提取健壮的行人特征。

同时，一些研究者除了在行人目标检测和特征提取方面提升跟踪性能，还引入其他辅助手段来改善跟踪结果。王慧燕等人(2017)提出一种深度学习辅助的多行人跟踪算法，通过采用深度学习网络实现有效的轨迹恢复，改善了长距离跟踪效果。王德建等人(2013)提出中值流辅助的在线多示例目标跟踪算法，通过计算中值流辅助进行多目标跟踪，实现了健壮的快速运动目标跟踪。而在解决第一人称视觉存在的问题时，研究者同样采用一些辅助手段来解决行人之间的相互影响问题，使用最多的就是社会学的模型。Helbing和Molnár(1995)提出了一种基于行人动力学的社会力模型，采用吸引力和排斥力来描述行人间的作用，以解决行人运动中的相互干扰；Alahi等人(2016)将行人轨迹预测任务看做是序列生成任务，提出了一个新的基于社会力的行人预测模型来解决预测问题；Yamaguchi等人(2011)提出了基于社会力模型的行人行为模型，将行人视为决策者，考虑了个人、其他行人和环境等因素以确定行人未来的目的地。通过考虑两种对行人影响的因素：一是分组行为，即考虑行人与同行的人之间是否存在相同的运动轨迹；二是目的地，即行人在场景中可能的目的地，实现了行人运动趋势的准确预测。针对第一人称视频中行人行为的识别以及运动预测来说，以上方法都取得了较好的实验效果，并给出了较好的解决方案。

为了解决第一人称视频中多行人跟踪存在的碰撞行为，受Helbing和Molnár(1995)和Yamaguchi等人(2011)方法的启发，本文引入社会力模型的思想，通过将相机佩戴者与初步跟踪结果得到的行人信息进行运动模拟，首先进行分组计算，然后通过对避免碰撞中的行人进行排斥计算，优化初步跟踪结果，有效解决了第一人称行人跟踪中避免碰撞导致的跟踪精度较低问题。

2 本文方法

本文方法流程如图 1所示，为第一人称多行人跟踪提供了一种利用社会力模型处理遮挡问题和行人之间相互影响问题的新思路，用于第一人称视频中快速准确地跟踪行人，从而满足目前第一人称视觉实际应用的需求。

图 1 社会力优化的多行人跟踪算法流程

Fig. 1 Flow chart of social force optimized multi-pedestrian tracking algorithm

首先对SSD框架(Liu等，2016)的特征提取策略和默认宽高比进行重新设置，使其更加符合第一人称行人检测场景，快速获得准确的行人检测结果；基于检测结果，进一步提取行人表观特征作为主要特征，构建相似矩阵并进行相似度计算，关联相似度较高的目标，得到初步的跟踪结果；最后将初步跟踪结果进行运动模拟，并通过社会力模型(Helbing和Molnár，1995)中的分组计算和碰撞避免计算进行跟踪结果优化，得到最终的跟踪结果。

3 多行人跟踪

3.1 行人检测

第一人称行人数据集中的应用场景大多较为复杂、相机佩戴者与行人间存在较多遮挡以及难以区分前景背景等因素导致行人检测难度较大。而现有的目标检测算法大多针对通用目标检测，不能直接用于第一人称视角下的行人检测。SSD目标检测算法采用多尺度特征提取策略，对行人检测具有较强的鲁棒性，因此本文将SSD算法的特征提取策略和默认框宽高比进行重新设置, 从而获得较好的行人检测结果。

为了保证行人检测的健壮性，本文首先对SSD算法的特征提取策略进行调整，分别从conv4_3、conv6_1、conv6_2、conv7_1、conv7_2、conv8_2、conv9_2等低层特征图进行特征提取，并且借鉴DenseNet(Huang等，2017)密集连接和残差连接的思想，将conv6_2的输入和输出的并集输入到conv7_2中，实现特征的重复利用。然后重新设置默认框的宽高比，根据caltech大型行人数据集所得，将默认框的比例简化为1种宽高比0.41，以简化计算量并减少对行人检测的干扰。

本文将第一人称视角行人数据集图像大小重设为512 × 512像素后，通过SSD进行初步检测，得到行人的初步预测框$D=(x_{D}, y_{D}, w_{D}, h_{D})$，其中$x_{D}$和$y_{D}$为左顶点的坐标，$h_{D}$和$w_{D}$分别为高度和宽度。行人检测框架如图 2所示。

图 2 行人检测框架

Fig. 2 Pedestrian detection framework

3.2 表观特征提取

为解决因相机运动和场景复杂导致的行人特征不突出的问题，本文采用基于CNN的网络提取行人检测框的表观特征作为数据关联的主要依据，并通过构建相似度矩阵进行数据关联。

表观特征用来计算行人图像框之间的相似度。通常情况下，相同行人的图像框相似度较大，不同行人的图像框相似度较小。但是由于传统的尺度不变特征变换(scale-invariant feature transform，SIFT)和方向梯度直方图(histogram of oriented gradient，HOG)等特征对第一人称视角下的行人表征能力不够，且需要大量的先验知识，计算量较大。因此，本文基于3.1节所得的行人检测结果，通过在大规模行人重识别(person re-identification，ReID)数据集的预训练网络(Wojke等，2017)中加入2个卷积层、1个最大池化层和6个剩余模块，构建一个宽度剩余网络，用于提取行人目标框的表观特征，表 1为额外补充的网络结构。

表 1 补充的网络结构
Table 1 Supplementary network structure

下载CSV

名称	步长	输出大小
conv_1	3×3/1	32×128×64
conv_2	3×3/1	32×128×64
max_pool_3	3×3/2	32×64×32
residual_4	3×3/1	32×64×32
residual_5	3×3/1	32×64×32
residual_6	3×3/2	64×32×16
residual_7	3×3/1	64×32×16
residual_8	3×3/2	128×16×8
residual_9	3×3/1	128×16×8
dense_10	-	128
注：“-”代表无数据。

将网络的输入大小设置为96 × 96，输出层是完全连接层，输出128维特征向量${\mathit{\boldsymbol{r}}}$。图 3为单个行人框的表观特征提取结果示例图。

图 3 特征提取示例图

Fig. 3 Feature extraction example

3.3 目标匹配

为了得到更好的关联结果，本文采用Kuhn-Munkres算法(Kuhn，1955)构建相似度矩阵，结合行人检测所获得的位置信息和提取到的行人表观特征进行相似度匹配。

3.3.1 相似度矩阵

1) 计算位置相似度${\mathit{\boldsymbol{P}}}$

$ \mathit{\boldsymbol{P}} = {{\rm{e}}^{ - {\omega _1} \times {{\left( {\left( {{x_{{T_i}}} - {x_{{D_j}}}} \right)/{w_{{D_j}}}} \right)}^2} + {{\left( {\left( {{y_{{T_i}}} - {y_{{D_j}}}} \right)/{h_{{D_j}}}} \right)}^2}}} $

(1)

式中，${\mathit{\boldsymbol{T}}}_{i}$为行人跟踪框，${\mathit{\boldsymbol{D}}}_{j}$为行人检测框，$x$和$y$为行人框的左顶点坐标，$w$和$h$分别为高度和宽度，$ω_{1}$为权重参数。

2) 计算表观特征相似度${\mathit{\boldsymbol{A}}}$

$ \mathit{\boldsymbol{A}} = \cos \left( {{\mathit{\boldsymbol{r}}_{{T_i}}},{\mathit{\boldsymbol{r}}_{{D_j}}}} \right) $

(2)

式中，${\mathit{\boldsymbol{r}}}_{T_{i}}$为跟踪框${\mathit{\boldsymbol{T}}}_{i}$的特征向量，${\mathit{\boldsymbol{r}}}_{D_{i}}$为检测框${\mathit{\boldsymbol{D}}}_{j}$的特征向量。

3) 计算融合相似度${\mathit{\boldsymbol{M}}}$，即相似度矩阵的具体形式

$ \mathit{\boldsymbol{M}}\left( {{\mathit{\boldsymbol{T}}_i},{\mathit{\boldsymbol{D}}_j}} \right) = \mathit{\boldsymbol{P}}\left( {{\mathit{\boldsymbol{T}}_i},{\mathit{\boldsymbol{D}}_j}} \right) \times \mathit{\boldsymbol{A}}\left( {{\mathit{\boldsymbol{T}}_i},{\mathit{\boldsymbol{D}}_j}} \right) $

(3)

式中，${\mathit{\boldsymbol{P}}}$、${\mathit{\boldsymbol{A}}}$分别表示检测与跟踪间的位置相似度和表观特征相似度，将这些相似度相结合后得到最终的相似度${\mathit{\boldsymbol{M}}}$。

3.3.2 相似度匹配

由于Kuhn-Munkres算法倾向于寻找全局最优结果，因此本文将跟踪框集合${\mathit{\boldsymbol{T}}}_{t-1}$根据分数分为高质量${\mathit{\boldsymbol{T}}}^{\rm H}_{\rm t-1}$和低质量${\mathit{\boldsymbol{T}}}^{\rm L}_{\rm t-1}$两部分，以解决检测框出现缺失的问题。先对高质量部分的跟踪框${\mathit{\boldsymbol{T}}}^{\rm H}_{\rm t-1}$与检测框${\mathit{\boldsymbol{D}}}$进行匹配，再将匹配成功的框从跟踪和检测集合中去掉，即$({\mathit{\boldsymbol{T}}}^{\rm H}_{\rm t-1}-{\mathit{\boldsymbol{T}}}^{\rm S}_{\rm t-1})∪{\mathit{\boldsymbol{T}}}^{\rm L}_{\rm t-1}$，再将剩余的低质量部分的跟踪框与${\mathit{\boldsymbol{D}}}-{\mathit{\boldsymbol{D}}}_{S}$进行相似度匹配，其跟踪质量分数$Q$计算为

$ Q\left( {{\mathit{\boldsymbol{t}}_i}} \right) = \frac{{\sum\limits_{k \in c\left( {{\mathit{\boldsymbol{t}}_i}} \right)} {{\mathit{\boldsymbol{M}}_k}} }}{{len\left( {{\mathit{\boldsymbol{t}}_i}} \right)}}\left( {1 - {{\rm{e}}^{ - {\omega _2} \times \sqrt {len\left( {{t_i}} \right)} }}} \right) $

(4)

式中，${\mathit{\boldsymbol{t}}}_{i}$为匹配成功的跟踪框集合，$c({\mathit{\boldsymbol{t}}}_{i})$是所有匹配成功的跟踪框与检测框的关联度，$ω_{2}$为权重参数，$len$为长度计算函数，${\mathit{\boldsymbol{M}}}_{k}$为跟踪框$k$的相似度矩阵。通过对检测结果${\mathit{\boldsymbol{D}}}=(x_{{\mathit{\boldsymbol{D}}}}, y_{{\mathit{\boldsymbol{D}}}}, w_{{\mathit{\boldsymbol{D}}}}, h_{{\mathit{\boldsymbol{D}}}})$进行表观特征提取和关联度量，得到初步的关联结果${\mathit{\boldsymbol{T}}}^{s}=(x_{T^{s}}, y_{T^{s}}, w_{T^{s}}, h_{T^{s}})$，其中，$x_{T^{s}}, y_{T^{s}}$为行人关联框的左顶点坐标，$w_{T^{s}}, h_{T^{s}}$为行人关联框的宽和高。

4 社会力优化

相较于第三人称视频中的行人运动模式，第一人称视频中不仅有行人运动，还要考虑相机佩戴者的运动对行人运动的干扰。因此，本文借鉴社会力模型(Helbing和Molnár，1995；Yamaguchi等，2011)的思想，将其定义为分组行为和碰撞行为。通过对初步跟踪结果中的行人进行分组和碰撞行人排斥计算，解决遮挡和行人避免碰撞导致的跟踪精度问题。

4.1 行人运动模拟

本文将第3节中得到的行人运动信息作为社会力模拟的依据，运动信息应包含位置和运动方向等必不可少的参数。图 4给出了第一人称视频中的行人运动模拟示例，其中红色表示相机佩戴者，白色为行人。图 4(a)虚线框中的两个行人就是典型的行人分组行为，其运动方向、速度, 以及所处位置大致相似，由于在跟踪过程中其跟踪框距离会越来越近，会导致遮挡从而造成遗漏跟踪。图 4(b)虚线框中则是典型的避免碰撞行为，行人在行进过程会因为其他行人或障碍物而导致突然停止或转向，如果模型更新不及时则会导致错误跟踪的问题。

图 4 运动模拟示例

Fig. 4 Motion simulation example((a) grouping behavior; (b) avoidance collision)

4.2 跟踪结果优化

本文采用社会力模型对数据关联结果进行优化。首先定义两种行为：一是分组行为，即行人准备和谁一起走，走多久；二是避免碰撞，即行人会尽可能地躲避其他分组的行人及相机佩戴者。

4.2.1 分组计算

定义标签$g_{ij}∈{+1, -1}$，其中，+1表示行人$i、j$处于同组，-1表示$i、j$处于不同组，计算为

$ \begin{array}{l} \;\;\;\;{g_{ij}} = \left( {{x_i} - {x_j} < {x_{\rm{g}}}} \right) \cap \\ \left( {{y_i} - {y_j}} \right.\left. { < {y_{\rm{g}}}} \right) \cap \left( {{v_i} - {v_j} < {v_{\rm{g}}}} \right) \end{array} $

(5)

式中，$x$和$y$为行人初步跟踪框的左顶点坐标，$v$为行人的速度，$x_{\rm g}、y_{\rm g}、v_{\rm g}$为设定的阈值。

若行人一直处于同一组，在遮挡的情况下，没有行人明显离开，则同组的跟踪框不变，且不会遗漏跟踪；若同组某一行人离开，则同组人数减少，同时跟踪框跟随离开，同组跟踪框数目减少，以有效避免遮挡导致的遗漏跟踪问题。

4.2.2 避免碰撞计算

为解决因避免碰撞行为导致的跟踪精度不高的问题，首先定义行人的领域，根据行人间的运动方向，分两种情况计算其所在领域。

1) 行人同向运动。行人间的领域计算为

$ \sqrt {{{\left( {{x_\alpha } - {x_\beta }} \right)}^2} + {{\left( {{y_\alpha } - {y_\beta }} \right)}^2}} < {s_s} $

(6)

式中，$s_{s}$为较小的阈值，$x$和$y$为行人初步跟踪框的左顶点坐标。

2) 行人相向运动。行人间的领域计算为

$ \sqrt {{{\left( {{x_\alpha } - {x_\beta }} \right)}^2} + {{\left( {{y_\alpha } - {y_\beta }} \right)}^2}} < {s_l} $

(7)

式中，$s_{l}$为较大的阈值，可根据具体场景进行调节，$x$和$y$为行人初步跟踪框的左顶点坐标。

在行人交叉的领域，为避免碰撞，行人往往会放慢速度或改变方向，使自己远离其他行人。

这里定义排斥函数$L_{T}$，使跟踪框${\mathit{\boldsymbol{T}}}$和周围的其他跟踪框尽可能远离，${\mathit{\boldsymbol{T}}}_{i}$和${\mathit{\boldsymbol{T}}}_{j}$分别匹配上不同的目标框，它们之间的距离采用的是${\mathit{\boldsymbol{T}}}_{i}$和${\mathit{\boldsymbol{T}}}_{j}$邻域的交并比，$L_{T}$可定义为

$ {L_T} = \frac{{\sum\limits_{i \ne j} {Smoot{h_{\ln }}} \left( {{f_{{\rm{loU}}}}\left( {{\mathit{\boldsymbol{T}}_i},{\mathit{\boldsymbol{T}}_j}} \right)} \right)}}{{\sum\limits_{i \ne j} {\left[ {{f_{{\rm{loU}}}}\left( {{\mathit{\boldsymbol{T}}_i},{\mathit{\boldsymbol{T}}_j}} \right) > 0} \right]} + \varepsilon }} $

(8)

式中，$ε$是防止除数为零的常数，$f_{\rm IoU}$为跟踪框交并比计算函数。$Smooth_{\rm ln}$为一个平滑的损失函数，定义为

$ Smoot{h_{\ln }} = \left\{ {\begin{array}{*{20}{l}} { - \ln (1 - x)}&{x \le \sigma }\\ {\frac{{x - \sigma }}{{1 - \sigma }} - \ln (1 - \sigma )}&{x > \sigma } \end{array}} \right. $

(9)

式中，$σ$是调整$L_{T}$敏感程度的参数，用于调整排斥函数对异常值的敏感程度。

当预测框${\mathit{\boldsymbol{T}}}_{i}$和周围的其他预测框${\mathit{\boldsymbol{T}}}_{j}$邻域的IoU越大，则产生的loss也越大，可有效防止两个跟踪框由于突然运动改变导致跟踪精度不高的问题，从而得到最终的跟踪结果${\mathit{\boldsymbol{T}}}=(x_{T}, y_{T}, w_{T}, h_{T})$，其中$x_{T}, y_{T}$为行人关联框的左顶点坐标，$w_{T}, h_{T}$为行人关联框的宽和高。

第一人称视频中的多行人跟踪具体步骤如下：

1) 输入第一人称视角行人数据集，重新调整图像大小为512 × 512像素后，输入到特征提取策略和宽高比重新设置的SSD框架中进行初步检测，得到检测结果${\mathit{\boldsymbol{D}}}=(x_{D}, y_{D}, w_{D}, h_{D})$。若为第1帧，则建立跟踪对象，转向步骤3)；若不为第1帧，转向步骤2)。

2) 提取行人检测框${\mathit{\boldsymbol{D}}}_{t}$的表观特征，得到特征向量${\mathit{\boldsymbol{r}}}_{t}$，计算相似度矩阵${\mathit{\boldsymbol{M}}}^{t-1}={\mathit{\boldsymbol{M}}}({\mathit{\boldsymbol{T}}}_{t-1}, {\mathit{\boldsymbol{D}}}_{t})$。设置跟踪质量阈值$Q_{t}$，将跟踪框集合${\mathit{\boldsymbol{T}}}_{t}$分为高质量的集合${\mathit{\boldsymbol{T}}}^{\rm H}_{\rm t-1}$和低质量的集合${\mathit{\boldsymbol{T}}}^{\rm L}_{\rm t-1}$。基于相似度矩阵${\mathit{\boldsymbol{M}}}^{t-1}$，找到检测框集合${\mathit{\boldsymbol{D}}}_{t}$与跟踪框集合$({\mathit{\boldsymbol{T}}}^{\rm H}_{\rm t-1}, {\mathit{\boldsymbol{T}}}^{\rm L}_{\rm t-1})$的最佳匹配，并通过阈值$Q_{\rm DT}$判断是否关联成功，从而获得关联成功的跟踪框集合${\mathit{\boldsymbol{T}}}^{s}_{t-1}$和检测框集合${\mathit{\boldsymbol{D}}}^{s}_{t}$。若出现新目标，先建立跟踪对象，然后转向步骤3)；若无新目标，直接转向步骤3)。

3) 根据式(5)对行人进行分组(单个行人也算一组)，并且为每个行人添加分组标识。如果无法确定某分组的目标是否完全离开相机视野，则此分组只要有1个目标存在，则所有目标在短期内(2~3 s)依然存在。若有新的行人目标，根据式(5)将新目标加入现有分组或新建分组；若无新目标加入，根据情况保持或删除分组。然后根据式(6)和式(7)判断每个行人分组是否符合避免碰撞行为，若符合则根据式(8)进行排斥计算；最后，输出新的跟踪框集合${\mathit{\boldsymbol{T}}}$，并转向步骤1)继续跟踪。

4.3 优化效果分析

为了验证引入社会力模型解决第一人称视频中行人跟踪的有效性，本文在第一人称视角行人数据集ETH(eidgnössische technische hochschule)LINTHESCHER(Ess等，2008)上进行了对比实验，结果如图 5和图 6所示。其中，无优化的实验结果中行人跟踪框为彩色，有优化的实验结果中行人标注框为蓝色和白色的组合，其中蓝色为跟踪框，白色为检测框。并且为了突出优化的效果，将相同情况下对比效果明显的实验结果用黑色虚线框标示。

图 5 分组计算优化的效果

Fig. 5 Effect of group calculation optimization((a) tracking lost due to occlusion; (b) no tracking lost under occlusion)

图 6 避免碰撞计算优化的效果

((a) tracking offset due to collision avoidance; (b) accurate tracking after collision avoidance)

Fig. 6 Effect of collision avoidance calculation optimization

图 5为分组行为优化的实验结果，图 5(a)虚线框中的同组行人在多帧之后由于遮挡导致跟踪丢失；图 5(b)是有社会力优化的实验结果，同一组行人在多帧之后，同样的遮挡情况下没有发生跟踪丢失的情况。

图 6是避免碰撞计算优化的实验结果，图 6(a)虚线框中的行人由于突然的避免碰撞行为，导致下一帧跟踪发生偏移，而图 6(b)展示了采用避免碰撞计算后得到的跟踪结果，在避免碰撞行为发生之后仍然能够准确跟踪。

图 7是有无社会力优化的跟踪算法在多目标跟踪的准确度(multiple object tracking accuracy，MOTA)和运行效率上的实验结果。可以看出，使用社会力优化得到了更高的准确度，且并未带来较大的运行效率损失，与无社会力优化的运行效率相当。由此可以得到，使用社会力模型中行人分组优化和避免碰撞计算能够有效解决遮挡和避免碰撞问题, 有社会力优化的算法在几乎不损失运行效率的情况下获得了更好的准确度。

图 7 有无社会力优化的准确度和运行效率对比分析

((a) accuracy; (b) operating efficiency)

Fig. 7 Comparative analysis of accuracy and efficiency with or without social force optimization

5 实验及结果分析

5.1 本文实验设置

实验在Intel i9-9900k CPU、2080ti GPU、32 GB内存的硬件平台以及python2.7.12、opencv3.1.0、caffe的软件环境下进行，采用多目标跟踪挑战MOTChallenge(Milan等，2016；Leal-Taixé等，2015)中提供的基准测试序列。

5.2 跟踪结果性能分析

5.2.1 定性评估实验

通过6组有代表性的第一人称行人视频序列验证本文方法的有效性以及跟踪能力。表 2给出了实验选用的在第一人称多行人跟踪应用中具有一定代表性的6组视频序列及其存在的问题，包括频繁遮挡、碰撞行为、前景后景干扰、特征不突出、类人物体干扰和光照变换等。

表 2 本文实验选用的6组视频序列及存在问题
Table 2 Six groups of video sequences selected and the problems in this experiment

下载CSV

视频序列	存在问题
ETH-PEDCROSS 2	频繁遮挡、碰撞避免
MOT16-11	频繁遮挡、光照变换
MOT16-12	特征不突出
ADL-Rundle-1	行人目标较多、频繁遮挡
ETH-LINTHESCHER	碰撞避免、类人物体干扰
ADL-Rundle-8	光照变换

图 8是本文方法在6组第一人称视频序列中的跟踪结果。由实验结果可知，本文方法较好地解决了第一人称视频中多行人跟踪存在的频繁遮挡和碰撞避免问题，同时，在存在其他问题和难点的视频序列上也表现出了较好的结果。

图 8 视频序列跟踪效果

(b) MOT16-11; (c) MOT16-12; (d) ADL-Rundle-1; (e) ETH-LINTHESCHER; (f) ADL-Rundle-8)

Fig. 8 Effects of video sequence tracking((a) ETH-PEDCROSS 2;

5.2.2 定量分析

本文采用MOT(multiple object tracking)指标(Milan等，2016；Leal-taixé等，2015)对跟踪算法进行定量分析，主要评价指标包括MT(mostly tracked)、ML(mostly lost)、ID Sw(identity switches)、MOTA、MOTP(multiple object tracking precision)和Hz(hertz)等，各项指标的具体描述如表 3所示。

表 3 评价指标
Table 3 Evaluation index

下载CSV

指标	描述
MT	跟踪成功率超过80%
ML	跟踪成功率低于20%
ID Sw	目标更改标识的总次数
MOTA	度量整体跟踪性能
MOTP	衡量目标和真值之间的匹配质量
Hz	算法每秒处理帧数

因为目前没有专门针对第一人称的行人跟踪算法，无法进行完全同类任务方法的对比，因此主要与现有的6种主流的通用行人跟踪算法进行对比分析。KDNT(K-dense neighbors tracker)和POI(person of interest)为Yu等人(2016)提出的在线和离线算法。LMP_p(lifted multicut and person)(Keuper等，2016)在MOT2015基准测试中取得了较好的结果。SORT(Bewley等，2016)和Deep SORT(Wojke等，2017)为在线跟踪器，SORT算法较为简单但速度非常快，能达到60帧/s，Deep SORT采用深度表观特征进行最邻近匹配，得到了更好的跟踪准确度。NOMT(near-online multi-target tracking)(Choi，2015)能够对外观显著变化的目标进行匹配，能够较好地保持目标ID。

将实验数据集采用6种算法同样测试过的ETH-LINTHESCHER视频序列作为基准数据集进行对比实验，对比结果如表 4所示。从表 4可以看出, 本文算法在此第一人称数据集上取得了较好的结果，在6项跟踪指标中，有4项取得了最优结果，2项取得了次优结果。在MT指标上，LMP_p表现最好，但是在损失运行效率的前提下达到的；在Hz指标上，SORT表现最好，但是SORT在其他性能指标上都表现一般。

表 4 跟踪性能对比实验
Table 4 Comparative experiment of tracking performance

下载CSV

方法	MT/%	ML/%	ID Sw	MOTA	MOTP	Hz
KDNT	43.9	19.5	98	63.6	80.8	0.7
LMP_p	52.9	20.4	78	65.7	78.2	0.5
NOMT	40.7	33.0	64	61.3	78.6	3.1
SORT	28.1	22.2	181	57.4	80.0	59.5
Deep SORT	40.3	17.6	118	60.8	79.3	17.4
POI	41.2	17.6	131	63.6	80.7	9.9
本文	44.0	17.0	60	66.1	81.0	20.8
注：加粗字体表示每列最优结果，斜体表示每列次优结果。

5.2.3 运行效率分析

由于针对第一人称视觉跟踪没有专门的评价指标，本文采用了MOT Challenge的评价指标Hz对比跟踪方法，即采用每秒处理帧数度量运行效率，处理帧数越多运行效率越高。本文在选用的6个不同的第一人称视频序列上对跟踪方法进行运行效率对比，结果如表 5所示。可以看出，本文方法的运行效率达到了准实时的性能，仅次于SORT方法，但是SORT是以牺牲准确度为代价来换取运行效率，常引起跟踪失败等问题。

表 5 运行效率对比
Table 5 Comparison of operating efficiency

下载CSV

方法	ETH-PEDCROSS 2	ETH-LINTHESCHER	ADL-Rundle-1	MOT16-11	MOT16-12	ADL-Rundle-8
KDNT	0.7	0.7	0.5	0.6	0.5	0.3
LMP_p	0.5	0.5	0.4	0.4	0.5	0.3
NOMT	3.3	3.1	2.4	3.0	2.9	1.9
SORT	58.3	59.5	50.1	52.3	51.3	46.7
Deep SORT	17.7	17.4	14.0	16.1	16	14.1
POI	10.2	9.9	6.1	7.7	8	5.9
本文	21.1	20.8	19.9	21	21.9	18.2
注：加粗字体表示每列最优结果，斜体表示每列次优结果。

6 结论

本文针对第一人称行人跟踪中存在的频繁遮挡和避免碰撞问题展开研究，提出一种社会力优化的多行人跟踪算法。利用社会力中的分组行为进行行人标识保持，有效解决了频繁遮挡问题；同时判定碰撞行为，利用排斥函数进行计算，有效解决了避免碰撞导致的跟踪失败问题。基于大量第一人称视频序列的实验结果表明：与现有主流的通用跟踪方法相比，本文算法的跟踪结果具有较高的准确度和较好的实时性，运行效率达到20.8帧/s，整体跟踪性能MOTA达到66.1%。

然而，本文算法还存在一些不足：由于引入社会力模型进行跟踪结果的优化，导致计算量上升，从而影响了算法的运行效率。此外，由于社会力对行人影响的表征较为简单，导致跟踪性能还有很大的提升空间。

因此，本文的后续工作将着重围绕上述问题展开。一是继续进行算法的优化，包括算法的各个部分，从而减少运行时间；二是考虑使用注意力机制代替社会力，从而进一步提高算法跟踪性能，使算法更加符合实际应用的要求。

参考文献

Alahi A, Goel K, Ramanathan V, Robicquet A, Li F F and Savarese S. 2016. Social LSTM: human trajectory prediction in crowded spaces//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE: 961-971[DOI:10.1109/CVPR.2016.110]

Betancourt A, Morerio P, Regazzoni C S, Rauterberg M. 2015. The evolution of first person vision methods:a survey. IEEE Transactions on Circuits and Systems for Video Technology, 25(5): 744-760 [DOI:10.1109/tcsvt.2015.2409731]

Bewley A, Ge Z Y, Ott L, Ramos F and Upcroft B. 2016. Simple online and realtime tracking//Proceedings of 2016 IEEE International Conference on Image Processing. Phoenix: IEEE: 3464-3468[DOI:10.1109/ICIP.2016.7533003]

Bose B, Wang X G and Grimson E. 2007. Multi-class object tracking algorithm that handles fragmentation and grouping//Proceedings of 2007 IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis: IEEE: 1-8[DOI:10.1109/CVPR.2007.383175]

Choi W. 2015. Near-online multi-target tracking with aggregated local flow descriptor//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago: IEEE: 3029-3037[DOI:10.1109/ICCV.2015.347]

Ess A, Leibe B, Schindler K and van Gool L. 2008. A mobile vision system for robust multi-person tracking//Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage: IEEE: 1-8[DOI:10.1109/CVPR.2008.4587581]

Helbing D, Molnár P. 1995. Social force model for pedestrian dynamics. Physical Review E, 51(5): 4282-4286 [DOI:10.1103/PhysRevE.51.4282]

Huang G, Liu Z, van der Maaten L and Weinberger K Q. 2017. Densely connected convolutional networks//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE: 2261-2269[DOI:10.1109/CVPR.2017.243]

Keuper M, Tang S Y, Yu Z J, Andres B, Brox T and Schiele B. 2016. A multi-cut formulation for joint segmentation and tracking of multiple objects[EB/OL].[2019-12-01]. https://arxiv.org/pdf/1607.06317.pdf

Kuhn H W. 1955. The Hungarian method for the assignment problem. Naval Research Logistics Quarterly, 2(1-2): 83-97 [DOI:10.1002/nav.3800020109]

Leal-Taixé L, Milan A, Reid I, Roth S and Schindler K. 2015. MOTChallenge 2015: towards a benchmark for multi-target tracking[EB/OL].[2019-12-01]. https://arxiv.org/pdf/1504.01942.pdf

Li J W, Zhou X L, Chan S X, Chen S Y. 2018. A novel video target tracking method based on adaptive convolutional neural network feature. Journal of Computer-Aided Design and Computer Graphics, 30(2): 273-281 (李军伟, 周小龙, 产思贤, 陈胜勇. 2018. 基于自适应卷积神经网络特征选择的视频目标跟踪方法. 计算机辅助设计与图形学学报, 30(2): 273-281) [DOI:10.3724/SP.J.1089.2018.16268]

Li X, Ma C, Wu B Y, He Z Y and Yang M H. 2019. Target-aware deep tracking//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE: 1369-1378[DOI:10.1109/CVPR.2019.00146]

Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C Y and Berg A C. 2016. SSD: single shot multibox detector//Proceedings of the 14th European Conference on Computer Vision. Amsterdam: Springer: 21-37[DOI:10.1007/978-3-319-46448-0_2]

Milan A, Leal-Taixe L, Reid I, Roth S and Schindler K. 2016. MOT16: a benchmark for multi-object tracking[EB/OL].[2019-12-01]. https://arxiv.org/pdf/1603.00831.pdf

Su S, Pyo Hong J, Shi J B and Soo Park H. 2017. Predicting behaviors of basketball players from first person videos//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE: 1206-1215[DOI:10.1109/CVPR.2017.133]

Wang D J, Zhang R, Yin D, Zhang Z R. 2013. Median flow aided online multi-instance learning visual tracking. Journal of Image and Graphics, 18(1): 93-100 (王德建, 张荣, 尹东, 张智瑞. 2013. 中值流辅助在线多示例目标跟踪. 中国图象图形学报, 18(1): 93-100) [DOI:10.11834/jig.20130112]

Wang H Y, Yang Y T, Zhang Z, Yan G L, Wang J Q, Li X L, Chen W G, Hua J. 2017. Deep-learning-aided multi-pedestrian tracking algorithm. Journal of Image and Graphics, 22(3): 349-357 (王慧燕, 杨宇涛, 张政, 严国丽, 王靖齐, 李笑岚, 陈卫刚, 华璟. 2017. 深度学习辅助的多行人跟踪算法. 中国图象图形学报, 22(3): 349-357) [DOI:10.11834/jig.20170309]

Wang M H, Liang Y, Liu F M, Luo X N. 2015. Object tracking based on component-level appearance model. Journal of Software, 26(10): 2733-2747 (王美华, 梁云, 刘福明, 罗笑南. 2015. 部件级表观模型的目标跟踪方法. 软件学报, 26(10): 2733-2747) [DOI:10.13328/j.cnki.jos.004737]

Wojke N, Bewley A and Paulus D. 2017. Simple online and realtime tracking with a deep association metric//Proceedings of 2017 IEEE International Conference on Image Processing. Beijing: IEEE: 3645-3649[DOI:10.1109/icip.2017.8296962]

Yagi T, Mangalam K, Yonetani R and Sato Y. 2018. Future person localization in first-person videos//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE: 7593-7602[DOI:10.1109/cvpr.2018.00792]

Yamaguchi K, Berg A C, Ortiz L E and Berg T L. 2011. Who are you with and where are you going?//Proceedings of CVPR 2011. Providence: IEEE: 1345-1352[DOI:10.1109/CVPR.2011.5995468]

Yu F W, Li W B, Li Q Q, Liu Y, Shi X H and Yan J J. 2016. POI: multiple object tracking with high performance detection and appearance feature//Proceedings of European Conference on Computer Vision. Amsterdam: Springer: 36-42[DOI:10.1007/978-3-319-48881-3_3]

Zhang L L, Lin L, Liang X D and He K M. 2016. Is faster R-CNN doing well for pedestrian detection?//Proceedings of the 14th European Conference on Computer Vision. Amsterdam: Springer: 443-457[DOI:10.1007/978-3-319-46475-6_28]

Zhang S F, Wen L Y, Bian X, Lei Z and Li S Z. 2018. Occlusion-aware R-CNN: detecting pedestrians in a crowd//Proceedings of the 15th European Conference on Computer Vision. Munich: Springer: 657-674[DOI:10.1007/978-3-030-01219-9_39]