发布时间: 2023-02-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210853
2023 | Volume 28 | Number 2

图像分析和识别

低视点下遮挡自适应感知的多目标跟踪算法

乐应英^1,2, 徐丹¹, 贺康建¹, 张浩¹

1. 云南大学信息学院, 昆明 650091;

2. 玉溪师范学院数学与信息技术学院, 玉溪 653100

收稿日期: 2021-09-18; 修回日期: 2021-12-17; 预印本日期: 2021-12-23

基金项目: 国家自然科学基金项目（61761046，61540062，62162068）；云南省重大科技专项（202202AD080003）

作者简介: 乐应英，女，副教授，主要研究方向为多目标检测与跟踪、计算机视觉。E-mail: yyy@yxnu.edu.cn
徐丹，通信作者，女，教授，主要研究方向为基于图像的建模和渲染、图像处理和理解、文化遗产数字化保护、非真实感渲染和3D重建。E-mail：danxu@ynu.edu.cn
贺康建，男，副教授，主要研究方向为多模态图像处理、信息融合和计算机视觉。E-mail：hekj@ynu.edu.cn
张浩，男，博士，主要研究方向为计算机视觉和图像情感计算。E-mail：haoyevv@outlook.com
*通信作者: 徐丹 danxu@ynu.edu.cn

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2023)02-0441-17

摘要

目的针对低视点多目标跟踪场景的遮挡问题，提出一种能够遮挡自适应感知的多目标跟踪算法。方法首先根据每帧图像的全局遮挡状态，提出了“自适应抗遮挡特征”，增强目标特征对遮挡的感知和调整能力。同时，采用“级联筛查机制”，减少由遮挡带来的目标特征剧烈变化而认定为“虚新入目标”的错误跟踪现象。最后，考虑到历史模板库中存在遮挡的模板对跟踪性能的影响，根据每一帧中目标的局部遮挡状态，提出自适应干扰模板更新机制，进一步提高对遮挡的应变和适应能力。结果实验结果表明，本文算法在MOTA（multiple object tracking accuracy）、MOTP（multiple object tracking precision）、FN（false negatives）、Rcll（recall）、ML（mostly lost tracklets）等指标上明显优于STAM（spatial-temporal attention mechanism）、ATAF（aggregate tracklet appearance features）、STRN（spatial-temporal relation network）、BLSTM_MTP_O（bilinear long short-term memory with multi-track pooling）、IADMR（instance-aware tracker and dynamic model refreshment）等典型算法。消融实验表明，自适应抗遮挡特征在MOTA指标上，相比混合特征、外观特征和运动特征分别提升了1.9%、1.8%和13.6%。去干扰模板更新策略在MOTA指标上，相比带权更新策略和常规更新策略分别提升了10.7%和17.7%。结论本文算法在低视点跟踪场景下，能够减弱部分遮挡、短时全遮挡和长时全遮挡对跟踪性能的影响，跟踪鲁棒性得到了提升。

关键词

多目标跟踪; 低视点; 遮挡; 抗遮挡特征; 数据关联; 模板更新

An adaptive occlusion-aware multiple targets tracking algorithm for low viewpoint

Yue Yingying^1,2, Xu Dan¹, He Kangjian¹, Zhang Hao¹

1. School of Information Science and Engineering, Yunnan University, Kunming 650091, China;

2. School of Mathematics and Information Technology, Yuxi Normal University, Yuxi 653100, China

Supported by: National Natural Science Foundation of China (61761046, 61540062, 62162068); Yunnan Provincial Major Science and Technology Special Plan Projects (202202AD080003)

Abstract

Objective Multi-target tracking technique is essential for the computer vision-relevant applications like video surveillance, smart cities, and intelligent public transportation. The task of multi-target tracking is required to better location for multiple targets of each frame through the context information of the video sequence. To generate the motion trajectory of each target, its identity information (ID) is required to keep in consistency. So, we focus on low viewpoint-based multi-target tracking with no high viewpoint involved. For low viewpoint tracking scenes, the occlusion can be as a key factor to optimize tracking performance. The occlusion-completed is restricted by the target-captured issues temporarily, which is challenged for target tracking. The partial-occluded target is still challenged to be captured because the visual information of the occluded target is contaminated and the extracted target features are incomplete, and it will cause tracking drift as well. Method To resolve occlusion problem, we develop a low viewpoint-based adaptive occlusion-relevant multiple targets tracking algorithm. The proposed algorithm is composed of three main aspects as following: 1) An adaptive anti-occlusion feature is illustrated in terms of the occlusion degree of each frame. To enhance its adaptability for occlusion, global occlusion information is used to adjust feature-related structure dynamically. 2) When the occlusion occurs, the target will disappear temporarily. When it reappears again after occlusion, it is often transferred to a new target and the tracking ID switch occurs. Therefore, a cascade screening mechanism is melted into for new target problem-identified. Due to the intensive change of occlusion-based target features, high-level and low-level features are employed both to prevent the virtual phenomenon for new target. 3) A large amount of target-occluded noise will be introduced into the template library if they are updated into the template library with no clarification. Therefore, an adaptive anti-interference template update mechanism is proposed for that. Multiple weights are given to the target templates-profiled of different occlusion states based on the local occlusion information of all targets, and the weights-based adaptive template-updated is then performed, which can alleviate the interference of severe-occluded targets to the template library. Result Our algorithm is experimented on the low viewpoint tracking videos-selected of MOT16, which includes special tracking scenes like 1) partial occlusion, 2) short-term full occlusion, and 3) long-term full occlusion. The experimental results show that the tracking performance of our algorithm has been improved, achieve improvement of 3.67%, 1.57%, 2.77%, 5.71%, and 3.07% on MOTA (multiple object tracking accuracy) respectively than STAM (spatial-temporal attention mechanism), ATAF (aggregate tracklet appearance features), STRN (spatial-temporal relation network), BLSTM_MTP_O (bilinear long short-term memory with multi-track pooling) and IADMR (instance-aware tracker and dynamic model refreshment). Furthermore, the ablation experiment shows that our anti-occlusion feature proposed can achieve an increase of 1.9% compared to the hybrid feature, an improvement of 1.8% compared to the appearance feature, and an optimization of 13.6% compared to the motion feature on MOTA. Compared with the weighted update strategy, the adaptive anti-interference update strategy proposed has achieved an improvement of 10.7% on MOTA, and an improvement of 17.7% compared with the conventional update strategy. Moreover, compared with the weighted update strategy, the number of ID switching times is significantly reduced from 244 to 119, which shows that our anti-interference update strategy can optimize the cleanliness of the template library and the accuracy of data association. Additionally, to validate the effectiveness of the update strategy we proposed, more indicators are improved obviously, such as Rcll (recall), FN (false negatives), MT (mostly lost tracklets), ML (mostly lost tracklets), and Frag (fragments). Conclusion The low viewpoint-based adaptive occlusion-relevant multiple targets tracking algorithm can be used to enhance the perception and balancing capabilities of the features-used in data association, reduces the impact of severe-occluded target templates beyond template library-profiled on the multi-tracking performance. Limitation and recommendation our proposed algorithm have no motion and speed-related estimation-specific mechanism for the rigid motion of the camera. Our data association-based algorithm is still cohesive to target detection algorithm severely. Therefore, the trajectory has to be disturbed and crossed when the target is missed or falsely detected. The future work can be focused on improving the tracking adaptability to actual tracking scenarios and the immunity of detection errors further.

Key words

multiple targets tracking; low viewpoint; occlusion; anti-occlusion feature; data association; template update

0 引言

多目标跟踪(multiple object tracking，MOT)是智能监管任务的关键核心技术，广泛应用在视频监控、国防军事、智慧城市和智能交通管理等领域，是计算机视觉领域的重要研究内容之一(刘沛鑫，2020)。MOT致力于在连续图像序列中定位到每一帧中所有待跟踪的目标，并且尽量避免每个目标的ID(identity information)标识在整个跟踪流程中发生切换(李沐雨，2020)。

随着Faster R-CNN(region based convolutional neural network)(Ren等，2017)，YOLO(you only look once)(Redmon等，2016)及SSD(single shot multiBox detector)(Liu等，2016)等经典目标检测算法检测性能的显著提高，大多数MOT算法都选择采用基于检测的跟踪(tracking by detection, TBD)方法作为主要跟踪方案(刘沛鑫，2020)。基于最优贪心算法(Pirsiavash等，2011)、基于K最短路径优化(Berclaz等，2011)、基于分层网络流(王雪琴等，2017)和基于最大权值独立集(Brendel等，2011)的TBD多目标跟踪算法也相继提出。

根据摄像机拍摄角度的高低，TBD存在高视点和低视点两种跟踪场景，本文重点研究低视点下的MOT问题。低视点场景的遮挡问题一直是影响跟踪性能的重要原因，如图 1所示。在完全遮挡场景，目标因为暂时消失，导致跟踪失败。目标部分遮挡导致目标的视觉信息受到污染，提取的目标特征不完整，会导致跟踪漂移。因此，在低视点跟踪中，解决好遮挡问题是提升跟踪算法性能的重要举措。

图 1 遮挡造成的跟踪漂移现象

Fig. 1 Tracking drift caused by occlusion

为了解决遮挡问题，本文提出低视点跟踪场景下遮挡自动感知的多目标跟踪算法。在MOT16低视点跟踪场景视频上进行实验，与STAM(spatial-temporal attention mechanism)(Chu等，2017)、ATAF(aggregate tracklet appearance features)(Chen等，2019)、STRN(spatial-temporal relation networks)(Xu等，2019)、BLSTM_MTP_O(bilinear LSTM with multi-track pooling)(Kim等，2021)和IADMR(instance-aware tracker and dynamic model refreshment)(Chu等，2019)等典型算法进行对比实验。视频包括部分遮挡、短时全遮挡和长时全遮挡等特殊跟踪场景。实验结果表明，本文提出算法的跟踪性能得到提升，大多数评价指标优于对比算法。

本文主要贡献如下：1)根据每一帧图像的遮挡状态，提出自适应抗遮挡特征，利用全局遮挡信息动态调整关联特征结构，增强特征对遮挡的感知调整能力。2)在新目标判断上，采用级联筛查机制，防止遮挡带来的目标特征剧烈变化而认定为“虚新入目标”的错误跟踪现象。3)提出自适应干扰模板更新机制，根据所有目标的局部遮挡系数，对不同遮挡状态的历史目标模板给予不同权重，根据权重进行自适应模板更新，减少了严重遮挡目标更新时对模板库的干扰。

1 相关工作

1.1 基于数据关联的多目标跟踪算法

基于数据关联的MOT算法首先在每一帧图像中实现目标检测，然后将跨帧图像中的目标检测结果关联起来，最终获取目标的运动轨迹。该算法可分解为4个步骤，如图 2所示。

图 2 基于数据关联的多目标跟踪基本框架图

Fig. 2 Basic framework of multi-target tracking based on data association

离线的TBD方法利用未来帧处理跟踪问题，将数据关联问题看做全局最佳化问题，专注于设计各种优化算法，例如网络流(Zhang等，2008)、连续能量最小化(Milan等，2014)和最大权独立集(Brendel等，2011)、$ k$部图(Roshan等，2012)、子图多割(Dehghan等，2015)等。然而离线方法不适用于实时、随机跟踪环境，例如自动驾驶。而在线的TBD方法在轨迹生成上不能使用未来帧，大多采用概率推理或优化算法，例如匈牙利算法(Bae和Yoon，2014)。TBD存在的问题是对目标检测结果有严重依赖性，在实时在线跟踪场景下，对噪声检测更加敏感。

1.2 低视点下的遮挡问题

低视点指视频拍摄角度相对较低，拍摄距离相对较近，导致目标较大、较密集，且目标走动过程中尺度变化大，伴有频繁遮挡。低视点拍摄视频的MOT问题，尤其是低视点下的遮挡问题会导致“跟踪漂移”和“虚新入目标”现象，是多目标跟踪中需要重点研究的问题。对此，人们提出了许多处理遮挡的方法。例如，基于人体部分检测和跟踪的算法(Izadinia等，2012)、基于遮挡可感知的检测器的算法(Tang等，2014)、基于在线判别外观学习的分层关联算法(方岚和于凤芹，2020)以及专门针对部分遮挡的多行人检测跟踪算法(Shu等，2012)等。这些算法旨在利用更好的检测器处理局部遮挡，但是因为现实跟踪场景的多变性和复杂性，使用最先进的检测器也有一定程度的虚检、漏检和不精确检测问题。Sort(Bewley等，2016)算法用运动特征作为目标特征，在目标数目不多、间距大的情况下跟踪效果不错，但是在目标密度高、遮挡频度大的情况下跟踪性能下降，ID发生频繁切换。在Sort基础上，Deep sort(Wojke等，2017)引入深度特征来解决这两个问题，降低了遮挡下的ID切换率，取得了很大进展。但是在目标严重遮挡时，遮挡部分融入了别的目标信息，Deep sort提取的目标特征的准确性下降。STAM(Chu等，2017)为了排除目标遮挡部分的干扰，尽量利用遮挡状态下目标剩余的信息，提出目标遮挡可视图和时空注意力机制来关注目标未遮挡部分的信息进行数据关联，在一定程度上提升了遮挡下的特征提取能力，但是可视图的计算增加了计算复杂度，同时在STAM中算法为每个目标建立跟踪器，实时性有待提高。

本文在低视点跟踪场景下做了大量实验，得到了以下两个发现：1)目标相对密集、遮挡严重时，目标框之间存在大量重叠，导致运动特征失效，此时由深度网络提取的特征相较于运动特征更加可靠。2)遮挡较轻时，目标相互距离可区分，运动特征鲁棒性较高，而外观特征偶尔会发生特征漂移。

因此，本文提出自适应抗遮挡特征，增强特征对遮挡目标的可区分度，采用级联筛查机制准确区分新目标和暂时消失目标，提出自适应去干扰模板更新机制，进一步提高模板库的干净度和算法对遮挡的适用性。

2 遮挡自适应感知的多目标跟踪算法

算法涉及的主要参数如表 1所示。$ n_1$是从开始帧到当前帧已经成功检测跟踪到的目标数量，$ n_2$为当前帧中所有检测到的目标数目，$ f$为当前帧编号。$ i \in\left\{1, 2, \cdots, n_1\right\}, j \in\left\{1, 2, \cdots, n_2\right\}, t \in\{1, 2, \cdots, f\} $。

表 1 算法涉及的主要参数
Table 1 Important parameters in proposed algorithm

下载CSV

变量	含义
$ \boldsymbol{M}_i$	ID号为$ i$的目标模板库
$ \boldsymbol{s}_i^t$	ID号为$ i$的目标在第$ t$帧的外观特征
$ {l}_i^t$	ID号为$ i$的目标在第$ t$帧的位置
$ {\mathit{\boldsymbol{s}}} 1_j$	当前帧第$ j$个目标的外观特征
$ {{l}} 1_j$	当前帧第$ j$个目标的位置
$ {{S}} _{i, j}$	当前帧第$ j$个目标和ID号为$ i$的目标的历史特征距离
$ {{D}} _{i, j}$	当前帧第$ j$个目标和ID号为$ i$的前一帧目标的IoU
$ {\mathit{\boldsymbol{judge}}} _{i, j}$	当前帧第$ j$个目标和ID号为$ i$的目标轨迹的抗遮挡特征

2.1 自适应抗遮挡特征

在基于数据关联的多跟踪方法中，关键在于检测目标之间关联特征的度量。目标特征的可区分性对提高跟踪性能起着重要作用。为了更好地阐述自适应抗遮挡特征，首先对3大经常使用特征的优缺点及其适用场合进行分析。1)运动特征包括目标的位置、方向和速度等信息。当摄像机无运动或运动量较小且目标稀疏时，通过运动特征计算IoU(intersection over union)可以得到准确高效的目标关联。但是目标密集时，目标的位置和运动会相互影响，导致特征辨别力下降。2)神经网络提取的外观特征可以显著提高特征辨别力和鲁棒性。然而，当目标的磨损和形状相似时，特征区分度也会降低。3)运动特征和外观特征的固定组合可以有效利用两者的优点，在复杂场景获得更好的跟踪鲁棒性。然而，大多数特征组合方法遵循固定组合方式，并没有考虑遮挡。

通过以上分析，可以发现融合特征比单一特征更容易区分，融合特征的组合方式仍然值得进一步研究。本文仍然使用融合特征的思想，但与之前的工作不同，本文将遮挡考虑在内，使特征结构可以根据目标遮挡状态进行自适应调整。接着，进一步分析不同特征在不同遮挡程度的有效性，并得到两个发现：1)当目标分布稀疏且没有遮挡时，只有基于IoU匹配的运动特征才能获得足够的目标区分度；2)在存在遮挡的情况下，重叠目标的IoU值较大，运动特征没有区分度。尽管如此，深度网络提取的外观特征仍具有一定的鲁棒性，在目标关联中起着决定性作用。

基于以上分析，本文提出一种基于全局遮挡系数的自适应抗遮挡特征。全局遮挡状态用于动态调整关联特征的结构，增强对遮挡的感知和调整能力。自适应抗遮挡特征的获取需要经历目标外观特征获取、目标运动特征获取、全局遮挡系数计算和自适应抗遮挡特征计算等4个步骤。

2.1.1 获取目标外观特征

首先基于ResNet50(He等，2016)使用孪生网络S1获取所有当前帧目标的外观特征$ {\mathit{\boldsymbol{s}}} 1_j$，然后计算当前帧目标特征和所有模板库的历史外观特征的欧氏距离$ S_{i, j}$。具体为

$S_{i, j}=\frac{\sum\limits_{t=1}^f {dis}\left(\boldsymbol{s} 1_j, \boldsymbol{s}_i^t\right)}{n_3} $

(1)

$d i s=\sqrt{\sum\limits_{i=1}^5\left(x_i-y_i\right)^2}$

(2)

式中，$ n_3$为ID号为$ i$的目标被成功跟踪到的帧数。

2.1.2 获取目标运动特征

计算当前帧目标和上一帧目标的IoU重叠面积，并将其作为运动特征。获取到的运动特征保存在矩阵$ {\mathit{\boldsymbol{D}}}$里，具体为

$D_{i, j}={IoU}\left(l 1_j, l_i^{f-1}\right)$

(3)

$D_{i, j}^{\prime}=1-D_{i, j}$

(4)

2.1.3 计算全局遮挡系数

根据当前帧目标框的相互覆盖程度，计算全局遮挡系数，具体为

$\partial=\frac{\sum\limits_{k=0}^{n_2-1} \sum\limits_{g=k+1}^{n_2} p(k, g)}{n_2}$

(5)

$p(k, g)= \begin{cases}1 & {IoU} \left(l 1_k, l 1_g\right) \neq 0 \\ 0 & {IoU}\left(l 1_k, l 1_g\right)=0\end{cases}$

(6)

式中，$ p(k, g)$为遮挡总次数，$ n_2$为当前帧的目标数目。$ \partial $反映了当前帧中目标相互遮挡的程度，取值范围为0~1，0和1分别代表没有遮挡和完全遮挡。具体示例如图 3所示，第1行是全局遮挡系数$ \partial $=0.25轻微遮挡的情景，第2行是$ \partial $=0.73严重遮挡的情景。

图 3 全局遮挡系数示例

Fig. 3 Examples of global occlusion indexes

((a)targets detection results; (b)occlusion visualization maps)

2.1.4 获取自适应抗遮挡特征

在上述两个特征中，外观特征值越大，差异性越大；运动特征值越大，差异性越小。对两个特征联合使用时，首先需要对运动特征进行归一化，如式(4)所示。接着通过全局遮挡系数$ \partial $对当前帧的特征结构进行自适应调整，具体为

$ { judge }_{i, j}=\frac{\partial}{2} \times S_{i, j}+\left(1-\frac{\partial}{2}\right) \times D_{i, j}^{\prime}$

(7)

通过$ \partial $自适应调整后得到的自适应抗遮挡特征存到矩阵$ {\mathit{\boldsymbol{judge}}}$。矩阵$ {\mathit{\boldsymbol{judge}}}$将作为后续数据关联的输入矩阵，是数据关联的唯一依据。当$ \partial $值变大时，目标帧的遮挡状态加重，算法自动调整特征结构，加大外观特征比重，减少运动特征比重, 当$ \partial $值变小时，目标帧的遮挡状态得到缓解，目标之间的重叠减少，算法自动调整特征结构，减少外观特征比重，加大运动特征比重。

2.2 新目标级联筛查机制

在多目标跟踪中，新目标的界定尤其重要。跟踪场景复杂多变、目标姿态和尺度频繁变化以及密集场景的频繁遮挡都会导致目标不能成功关联。如果将这些因为特殊原因跟踪丢失的目标界定为新目标，则会发生ID切换和轨迹断裂，会直接影响跟踪算法的性能。对此，本文提出级联筛查机制，减少了特殊情况下的“虚新入目标”，如图 4所示。

图 4 新目标级联筛查机制

Fig. 4 The cascade screening mechanism

第1级筛查在数据关联时进行，自适应抗遮挡特征(结合了运动特征和高层外观特征)在一定程度上降低了“虚新入目标”的数量，使大部分场景中的目标都能成功跟踪到。关联失败的目标可能含有真正新入场景的目标和少量“虚新入目标”，需要再次筛查。第2级筛查利用低层外观特征，采用一个4层的网络S2提取未成功关联的目标特征和模板特征进行距离比对。距离小于阈值$ d $的，认为是已经存在的目标，无需新建目标轨迹；否则，新建并初始化目标和轨迹数据，在后续帧中进行正常跟踪。经过多次试验，本文算法设置$ d $=0.5，此时算法跟踪性能最好。

2.3 自适应去干扰模板更新

目标发生遮挡时，无论是部分遮挡，还是全遮挡，由于目标是采用矩形框区域来表示的，都会或多或少混入别的目标信息。此时，如果将成功关联的目标一视同仁地进行更新，这些遮挡的目标将会给模板库带入噪声，导致后续的关联错误。以长时全遮挡为例，将遮挡过程分为5个阶段：遮挡前($ {\rm{B}}_0$)、部分遮挡1(PO1)、完全遮挡(FO)、部分遮挡2(PO2)、无遮挡(NO)。通过分析遮挡过程，得到两个发现。1)发生全遮挡前的目标处于PO1状态，这时目标存在部分遮挡，混入了其他目标信息，可靠性降低。重新出现的目标处于PO2状态，有很大一部分是遮挡的，此时目标特征混入了其他目标信息，背景发生很大变化，如图 5所示。2)在低视点跟踪场景下，每一帧都存在大量遮挡，并且大多数目标在视频序列上遮挡的时间超过70%，即使成功跟踪到这些目标，它们的更新给模板库带来的影响也不容小觑。

图 5 全遮挡的5个阶段

Fig. 5 Five stages of full occlusion

基于以上两点事实，发现直接将带遮挡目标更新入模板库会给模板库引入大量干扰噪声。因此提出基于局部遮挡状态的自适应模板更新机制。根据所有目标的遮挡状态(可通过计算目标的局部遮挡系数得到)，对不同遮挡状态的历史目标模板给予不同权重，并且根据权重进行自适应模板更新。基于局部遮挡系数的自适应去干扰模板更新机制包括局部遮挡系数计算、模板更新权重计算和自适应模板更新3个步骤。

2.3.1 局部遮挡系数计算

根据当前帧中检测到的目标框信息计算每个目标的局部遮挡系数。具体为

$O_j^t=\frac{\sum\limits_{p=1}^{n_2} l 1_j \cap l 1_p}{{Area}\left(l 1_j\right)}$

(8)

式中，$ {Area}\left(l 1_j\right)$为当前帧第$ j$个检测到的目标框面积，目标局部遮挡系数$ O_j^t$反映了第$ t$帧中第$ j$个目标的遮挡程度，其值为0表示无遮挡状态，大于等于1表示严重遮挡状态。值越大，遮挡越严重。

2.3.2 计算模板更新权重

对于当前帧$ t$中成功关联的目标$ j$，其外观特征为$ \boldsymbol{s} 1_j$。假设其成功关联到ID号为$ i$的轨迹，赋予该目标更新权重$ w_i^t$，可视化结果如图 6所示。计算为

$w_i^t=O_j^t$

(9)

图 6 更新权重示例

Fig. 6 Example of updating weights

2.3.3 自适应模板更新

权重值越大的目标，遮挡越严重，干扰信息较多，不应该更新到模板库中；权重值小的目标，遮挡程度弱，可以更新到目标模板库中。因此对模板进行更新时，阈值设定很有必要。权重值小于阈值$ W$的成功关联目标，可以添加到对应模板库中；大于阈值$ W$的关联目标不做更新。即

$M_i= \begin{cases}M_i \cup s 1_j & w_i^t \leqslant W \\ M_i & w_i^t>W\end{cases}$

(10)

实验表明，$ W$的最优值为0.6。实验结果如图 7所示。

图 7 $ W$的最优取值

Fig. 7 Experiment on optimal value of $ W$

通过更新权重，算法能够根据目标的局部遮挡状态自适应选择可靠性高的关联目标进行模板更新，防止干扰信息较多的关联目标的更新，降低了遮挡严重目标对模板库的影响。图 8是MOT16-09中1号目标经过自适应抗噪声模板更新后得到的模板库示例(110—180帧)，剔除了严重遮挡目标对模板库的影响。

图 8 自适应去干扰模板更新后得到的模板库

Fig. 8 An example of the template library obtained after adaptive anti-noisy template update

2.4 其他算法实现细节

2.4.1 网络结构及训练方法

1) 孪生网络。孪生网络由两个子网络组成，可以通过大量图像对信息学习到两个可比较的事物之间的相似性(李沐雨，2020)。在TBD跟踪中，算法需要对跨帧之间的检测目标进行大量相似性比对，孪生网络非常适用于这样的相似性度量任务，如图 9所示。

图 9 用孪生网络进行相似性度量的示例

Fig. 9 Examples of similarity measurement using siamese network

((a)different targets; (b) similar targets)

2) 网络结构。算法涉及两个孪生网络S1和S2。S1提取目标的高层特征，在ResNet50(He等，2016)结构的基础上添加FC(fully convolution)层，将输出特征变为1 × 5的向量，用于目标外观特征提取，如图 10所示。S2提取目标的低层特征，输出1 × 5的向量来表示目标特征，用于新目标级联筛查，如图 11所示。

图 10 S1的网络结构

Fig. 10 Network of S1

图 11 S2的网络结构

Fig. 11 Network of S2

3) 低维度特征。本文使用小维度的输出特征平衡不同信息的特征长度。众所周知，运动和位置特征通常很短。如果将其与长外观特征结合，就很难充分利用位置和运动特征。本文认为位置和运动信息同等重要，应该通过减少外观特征的维度来强调它们。同时，低维度的输出特征可以降低后续数据关联过程的复杂性，使程序运行更快。

4) 网络训练。孪生网络S1和S2均在ReID行人重识别数据集I-LIDS-VID(UK government benchmark datasets for automated surveillance)上训练，如图 12所示。S1和S2网络能够快速收敛，学习到了行人在不同场景下的相似性，在光照、视点、背景和遮挡等复杂场景下仍然能获得可区分的目标特征。

图 12 S1和S2的训练过程

Fig. 12 Training process of S1 and S2

((a)S1;(b)S2)

训练时，S1和S2的损失函数采用对比损失，具体为

$L=\frac{1}{2 N} \sum\limits_{n=1}^N y d^2+(1-y) \max (m-d, 0)^2$

(11)

式中，$ d $和$ y$分别代表待比较的两个特征之间的欧氏距离和匹配程度。$ y=1$和$ y=0$分别表示样本相似和不相似两种状态。$ m$是设定阈值。当样本对相似时，如果$ d $变大，损失函数促使模型增大损失值；同理，当样本对不相似时，如果$ d $变小，模型增大损失值。

2.4.2 数据关联方法

多目标跟踪的数据关联大多采用匈牙利算法(Bae和Yoon，2014)。匈牙利算法可以求得二部图的最大匹配。完美匹配一定是最大匹配，而最大匹配不一定是完美匹配。尤其是在多目标跟踪场景中，关联的准确度比关联的数目更为重要，因此本文采用最小贪心扫描法对抗遮挡特征矩阵$ {\mathit{\boldsymbol{judge}}}$进行数据关联，以提高关联准确度。

抗遮挡特征矩阵$ {\mathit{\boldsymbol{judge}}}$行表示目标模板(轨迹) 数，用$ n_1$表示；列表示当前帧中的目标数，用$ n_2$表示。最小贪心扫描法具体步骤如下：

1) 选择扫描基准。若$ n_1$＜$ n_2$，则行作为扫描基准；若$ n_1$≥$ n_2$，则以列作为扫描基准。步骤2)和3)以列作为扫描基准。

2) 顺序扫描每一列，找到每一列中最小值的行标，将此行标和对应列标的组合添加到成功关联集合$ {\mathit{\boldsymbol{R}}}$。

3) 在步骤2)得到的关联集合$ {\mathit{\boldsymbol{R}}}$中，若有相同列标对应多个行标，即同一个当前目标关联了多条轨迹，则选取特征值最小的关联保留，其余的从$ {\mathit{\boldsymbol{R}}}$中删除。

2.4.3 短时遮挡中的预测

在短时遮挡或目标漏检时，目标在帧间的运动距离很小，运动模型可以预测目标的下一帧位置，方便进行搜索和定位。本文采用线性恒速模型来近似每个物体的帧间位移。每个目标的状态建模为

$\boldsymbol{X}=\left[u, v, r, h, x^{\prime}, y^{\prime}, r^{\prime}, h^{\prime}\right]$

(12)

式中，$ u$和$ v$分别表示目标中心点的横、纵坐标，$ r$和$ h$是目标矩形框的纵横比和高度，$ x'$、$y'$、$r'$、$h'$是前4个变量的变化速度。$ r$在运动模型中是恒定的。当检测目标和目标模板成功关联时，使用检测框信息更新对应目标的轨迹状态。若关联失败，则利用式(12)中目标的历史状态信息得到预测目标的新位置和大小，进而获取预测目标的特征和目标模板特征进行相似性度量。若距离值小于阈值$ P$，则认为找到目标，更新轨迹信息。经多轮实验，本文选取0.8作为$ P$的最佳值。

2.5 算法流程

本文提出的低视点下遮挡和尺度多变自适应感知的多目标跟踪算法整体框架如图 13所示。算法的具体步骤如下：

图 13 算法流程图

Fig. 13 Flowchart of proposed algorithm

1) 初始化。第1帧时，建立目标模板库和初始轨迹数据。

2) 目标检测。用YOLOv3(Redmon和Farhadi，2018)算法对当前帧实现目标检测，得到所有目标的位置信息。

3) 自适应抗遮挡特征获取。首先获取所有目标的外观特征和运动特征，接着计算全局遮挡系数，最后计算自适应抗遮挡特征，保存在$ {\mathit{\boldsymbol{judge}}}$矩阵中。

4) 数据关联。将特征矩阵$ {\mathit{\boldsymbol{judge}}}$作为输入，采用最小贪心扫描法实现数据关联。

5) 自适应去干扰模板更新。对于成功关联的目标，采用自适应去干扰模板更新方法实现模板库的更新。首先计算局部遮挡系数，接着计算模板更新权重，最后根据模板更新权重，自适应进行模板库更新。处理完后，转步骤2)。

6) 当未成功关联时，分两种情况进行处理。如果是未关联的当前帧目标，启动新目标级联筛查机制；如果是未成功关联的目标轨迹，对该轨迹对应的目标根据上一帧位置进行短时遮挡预测。

7) 转步骤2)，进行下一帧处理。

3 实验结果及分析

3.1 数据集及评价标准

为了检验提出算法的鲁棒性，选取MOT16(multi-object tracking)(Dendorfer等，2021)数据集中低视点拍摄的视频(存在频繁遮挡的跟踪场景)进行针对性实验。选取的视频为测试集中的MOT16-01、06、12和训练集中的MOT16-05、09、11。

采用MOT16数据集的标准评价指标FP(false positives)、FN(false negatives)、MOTP(multiple object tracking precision)、ML(mostly lost tracklets)、IDF1(ID F1 score)、IDSW(ID switches)、MOTA(multiple object tracking accuracy)、MT(mostly tracked tracklets)、Frag(fragments)和Rcll(recall)衡量算法的跟踪性能。在所有评价指标中，多目标跟踪准确度(MOTA)一直是评价多目标跟踪算法最重要的指标，如果不存在跟踪错误, 则MOTA得分为1。

3.2 定量分析

在低视点跟踪场景下，本文算法对遮挡具有自动感知的能力，可以根据全局遮挡系数动态调整目标特征结构进行数据关联，也可以根据局部遮挡系数对模板库进行自适应去干扰更新，多项跟踪指标得到提升。为全面验证本文算法的性能，在MOT16低视点场景下与近年一些算法的跟踪性能进行对比，并对级联筛查机制在新入目标判定上的准确度和有效性进行实验，同时进行了两组消融实验，验证自适应抗遮挡特征和自适应去干扰模板更新机制在跟踪性能中的作用。

3.2.1 MOT16低视点场景下的跟踪性能结果对比

表 2为本文算法在MOT16低视点拍摄视频上的总体跟踪性能。表 3—表 5为本文算法与STAM、ATAF、STRN、BLSTM_MTP_O和IADMR等典型算法在测试集MOT16-01、06、12上的跟踪性能对比。表 3中，本文算法的MOTP、FN和MT指标值是6个算法中最好的，真实标注轨迹被成功跟踪的数目以及漏警数都比较理想，MOTA和Rcll仅次于ATAF。表 4中，本文算法的MOTA、MOTP、FN、Rcll和MT指标值是6个算法中最好的。表 5中，本文算法的MOTA、MOTP、FN、Rcll和ML指标值是6个算法中最好的。从这些指标可以发现，本文算法中提出的自适应抗遮挡特征的区分度得到了一定提升，对遮挡频繁复杂场景具有一定的适应能力。

表 2 本文算法在MOT16低视点视频上的跟踪性能
Table 2 Overall tracking performance of proposed approach on low-viewpoint video of MOT16

下载CSV

视频序列	MOTA/%	MOTP/%	IDF1/%	FP	FN	Rcll/%	MT/%	ML/%	IDSW	Frag
MOT16-01	40.02	77.97	37.28	239	3 528	44.83	6	9	69	127
MOT16-06	51.36	75.46	46.48	1 687	3 565	69.10	70	26	360	418
MOT16-12	45.65	77.54	45.65	635	3 793	54.27	18	29	80	118
MOT16-05	47.1	74.5	56.4	936	2 516	63.1	36	26	154	203
MOT16-09	57.4	78.5	51.7	367	1 792	65.9	8	3	82	99
MOT16-11	53.3	81.5	60.1	656	3 580	61.0	18	31	52	78

表 3 不同方法在MOT16-01测试集上的实验结果对比
Table 3 Comparison of experimental results of different methods on MOT16-01 test set

下载CSV

方法	MOTA/%	MOTP/%	IDF1/%	FP	FN	Rcll/%	MT/%	ML/%	IDSW	Frag
STAM(Chu等，2017)	35.7	72.0	40.4	159	3 921	38.7	5	9	30	81
ATAF(Chen等，2019)	42.0	71.4	48.4	201	3 486	45.5	4	8	24	58
STRN(Xu等，2019)	36.7	71.2	49.4	405	3 603	43.7	4	8	42	139
BLSTM_MTP_O(Kim等，2021)	33.0	72.9	42.5	619	3 639	43.1	5	8	25	84
IADMR(Chu等，2019)	36.9	74.0	36.3	180	3 828	40.1	5	10	26	32
本文	40.02	77.97	37.28	239	3 528	44.83	6	9	49	92
注：加粗字体表示各列最优结果。

表 4 不同方法在MOT16-06测试集上的实验结果对比
Table 4 Comparison of experimental results of different methods on MOT16-06 test set

下载CSV

方法	MOTA/%	MOTP/%	IDF1/%	FP	FN	Rcll/%	MT/%	ML/%	IDSW	Frag
STAM(Chu等，2017)	48.4	73.5	59.0	147	5 765	50.0	35	111	39	131
ATAF(Chen等，2019)	50.2	72.5	52.2	533	5 171	55.2	47	100	42	144
STRN(Xu等，2019)	49.6	72.6	57.6	443	5 311	54	38	92	58	280
BLSTM_MTP_O(Kim等，2021)	48.0	74.8	56.0	348	5 573	51.7	40	106	73	273
IADMR(Chu等，2019)	48.2	72.9	52.1	475	5 357	53.6	36	91	144	251
本文	51.36	75.46	46.48	1 687	3 565	69.10	70	125	132	266
注：加粗字体表示各列最优结果。

表 5 不同方法在MOT16-12测试集上的实验结果对比
Table 5 Comparison of experimental results of different methods on MOT16-12 test set

下载CSV

方法	MOTA/%	MOTP/%	IDF1/%	FP	FN	Rcll/%	MT/%	ML/%	IDSW	Frag
STAM(Chu等，2017)	42.3	77.1	54.0	354	4 410	46.8	14	42	23	37
ATAF(Chen等，2019)	40.3	76.4	56.1	654	4 274	48.5	15	37	23	55
STRN(Xu等，2019)	42.6	75.0	58.1	824	3 911	52.9	21	39	26	110
BLSTM_MTP_O(Kim等，2021)	39.1	74.0	55.4	900	4 112	50.4	18	36	43	167
IADMR(Chu等，2019)	42.9	76.2	54.7	586	4 124	50.3	18	43	27	94
本文	45.65	77.54	45.65	635	3 793	54.27	18	29	50	118
注：加粗字体表示各列最优结果。

3.2.2 新目标判定准确度

级联筛查机制的主要目的在于减少由遮挡带来的目标特征剧烈变化而认定为“虚新入目标”的错误跟踪现象。目前的多目标跟踪工作中鲜有此项工作，没有可以参考借鉴的评价指标。为了验证级联筛查机制的有效性，本文提出目标正确率作为评价指标。该指标用算法运行后得到的总目标数与实际目标数真值的比值来表示，可在一定程度上度量算法在新入目标判定上的有效性和准确度。表 6为本文算法的级联筛查机制的目标正确率。

表 6 新目标判定准确度
Table 6 Accuracy of new target judgement

下载CSV

视频序列	真值	算法所得目标数	正确率/%
MOT16-02	74	73	98.6
MOT16-04	141	136	96.5
MOT16-05	145	131	90.3
MOT16-09	43	60	60.5
MOT16-10	70	96	63.4
MOT16-11	80	68	85.1
MOT16-13	178	225	73.6

从表 6可知，本文算法的级联筛查机制在MOT16-2、4、5、11号视频上的目标数准确度高，能够在一定程度上抑制遮挡带来的“虚新入目标”现象，在MOT16-9、10、13号视频上的目标准确度仍然有待提高。

3.2.3 消融实验

自适应抗遮挡特征和去干扰模板更新方法的目的在于增强数据关联时所用特征对遮挡的感知和调整能力，以及减少历史模板库中带遮挡模板对多跟踪性能的影响，最终提高算法对遮挡的应变和调节能力。为了验证上述两项主要工作的有效性，在训练集MOT16-05、09、11上进行了两组消融实验。

1) 自适应抗遮挡特征消融实验。首先对外观特征、运动特征、固定比例融合特征(0.5 ×外观特征+ 0.5 ×运动特征)和本文提出的自适应抗遮挡特征(外观特征+运动特征+$ \partial $自适应调节)的有效性进行对比，实验结果如表 7所示。可以看出，仅使用外观特征或运动特征，MOTA值分别为49.4%和37.6%。通过固定比例融合特征，准确率明显更高，MOTA值为49.3%。通过式(7)计算得到的自适应抗遮挡特征，MOTA达到51.2%。本文提出的抗遮挡特征在MOTA指标上，相比混合特征、外观特征和运动特征分别提升了1.9%、1.8%和13.6%。值得注意的是，使用抗遮挡特征后，Rcll、FN、MT和ML等指标也得到了改进。这些实验数据对比证明了本文提出的自适应抗遮挡功能的有效性。

表 7 自适应抗遮挡特征消融实验
Table 7 Ablation study of the adaptive anti-occlusion feature

下载CSV

特征	MOTA/%	MOTP/%	IDF1/%	FP	FN	Rcll/%	MT/%	ML/%	IDSW	Frag
外观	49.4	78.2	46.0	611	2 903	59.6	17	23	98	113
运动	37.6	78.1	32.7	561	3 466	51.4	6	23	373	260
外观+运动	49.3	78.2	40.9	653	2 769	61.4	17	21	184	152
外观+运动+自适应抗遮挡	51.2	78.2	45.9	658	2 703	62.4	19	20	119	130
注：加粗字体表示各列最优结果。

2) 自适应去干扰模板更新方法消融实验。不同更新策略在提高跟踪精度方面的效果如表 8所示。这部分的消融实验都是在自适应抗遮挡特征的基础上完成的。实验对3种更新方法，即常规更新(不考虑目标遮挡状态)、带权重更新(常规更新+权重更新)和自适应去干扰更新(常规更新+权重更新+自适应去干扰)的效果进行了对比。使用不考虑目标遮挡状态的常规更新策略，MOT为33.5%。使用式(8)的基于局部遮挡系数的带权更新策略，MOTA为40.5%。使用式(9)的自适应去干扰更新策略，准确率明显更高，MOTA为51.2%。

表 8 自适应去干扰模板更新消融实验
Table 8 Ablation study of the adaptive anti-noisy update strategy

下载CSV

更新策略	MOTA/%	MOTP/%	IDF1/%	FP	FN	Rcll/%	MT/%	ML/%	IDSW	Frag
常规	33.5	77.6	16.6	638	3 579	49.8	5	20	495	299
常规+权重	40.5	78.5	28.4	544	3 478	51.7	10	21	244	177
常规+权重+自适应去干扰	51.2	78.2	45.9	658	2 703	62.4	19	20	119	130
注：加粗字体表示各列最优结果。

通过使用本文算法提出的自适应去干扰更新策略，相比带权更新策略和常规更新策略，MOTA分别提升了10.7%和17.7%。值得注意的是，本文提出的更新策略中，ID的切换次数显著减少，从244降到119，表明提出的去干扰更新策略可以提高模板库的清洁度和数据关联的准确性。Rcll、FN、MT、ML和Frag等其他指标也有明显改善，进一步证明了本文更新策略的有效性。

3.3 定性分析

为验证本文算法在低视点频繁遮挡和尺度多变场景下的跟踪能力，对算法在部分遮挡、短时全遮挡和长时全遮挡下的跟踪结果进行定性分析。

3.3.1 部分遮挡下的跟踪结果

本文算法在部分遮挡下的跟踪效果如图 14所示。可以看出，第1行的1、28号目标、第2行的70号目标、第3行的19、39号目标在视频序列上均发生了部分遮挡，遗失了部分目标信息，目标特征受到干扰，但本文算法中的自适应抗遮挡机制能够根据视频帧的遮挡状态，动态调整目标特征的结构，使算法能够更有效地利用剩余目标信息，实现连续、准确的定位和数据关联。同时，算法中的自适应去干扰模板更新方法能够去除这些半遮挡目标对模板库的影响，保持了模板库的纯净。

图 14 部分遮挡下的跟踪结果

Fig. 14 Tracking results under partial occlusion

3.3.2 短时全遮挡下的跟踪结果

图 15是本文算法在短时全遮挡场景下的跟踪效果。第1行的11号目标，因为车辆经过，发生了25帧的短时全遮挡，在65帧再次出现时，被本文算法成功跟踪到。第2行的215号目标在1 094帧时被208号目标遮挡，发生了16帧的短时全遮挡，在1 110帧重新进入时被算法成功跟踪到。第3行的4号目标，被1号目标遮挡，发生了21帧的短时全遮挡，在第53帧重新进入监控场景时被本文算法成功跟踪到。这些不错的跟踪结果得益于本文提出的自适应抗遮挡特征，使目标特征更加高效、有区分度。

图 15 短时全遮挡下的跟踪结果

Fig. 15 Tracking results under short-term full occlusion

3.3.3 长时全遮挡下的跟踪结果

图 16为本文算法在长时全遮挡下的跟踪结果。第1行的1号目标在111帧后被5、6号目标完全遮挡，直到155帧时才重新出现，其间共消失了44帧，本文提出的自适应抗遮挡特征，仍然能够准确定位、跟踪到了该目标。第2行的8号目标在92帧后被2号目标完全遮挡，直到172帧时才再次出现，其间消失了长达80帧，同时该目标还伴有尺度的不断变化，但本文算法凭借鲁棒的自适应抗遮挡特征，重新找回了该长时全遮挡目标，实现了准确跟踪，保持了轨迹的一致性。同时，在全遮挡发生时，本文提出的自适应去干扰模板更新机制，避免了大量目标在遮挡前和遮挡后出现的半遮挡状态给模板库带来的影响，保证了模板库的干净、准确。

图 16 长时全遮挡下的跟踪结果

Fig. 16 Tracking results under long-term full occlusion

4 结论

本文针对低视点跟踪下的遮挡问题，提出遮挡自适应感知的多目标跟踪算法。首先根据每帧图像的全局遮挡状态，采用自适应抗遮挡特征，增强关联特征对遮挡的感知和调整能力。同时，采用级联筛查机制，减少由遮挡引起目标特征剧烈变化而认定为“虚新入目标”的错误跟踪现象。最后，根据目标的局部遮挡状态，提出自适应去干扰模板更新机制，降低了存在遮挡的模板对跟踪性能的影响，进一步提高了算法对遮挡的应变和适应能力。实验结果表明，本文提出的算法在低视点跟踪场景下，跟踪性能得到提升，大多数评价指标优于STAM、ATAF、STRN、BLSTM_MTP_O和IADMR等典型算法，对遮挡具有一定抵御作用。但是，本文算法没有专门针对摄像机刚性运动的运动估计机制，当摄像机快速运动时，目标运动特征可靠性降低，导致跟踪性能下降。同时，本文算法是基于数据关联的跟踪算法，对目标检测算法过度依赖，在目标漏检或误检时，轨迹出现断裂或交叉，这是该算法的两个瓶颈。在今后工作中，将重点解决以上提到的两个问题，进一步提高跟踪算法对实际跟踪场景的适应能力。

参考文献

Bae S H and Yoon K J. 2014. Robust online multi-object tracking based on tracklet confidence and online discriminative appearance learning//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE: 1218-1225 [DOI: 10.1109/CVPR.2014.159]

Berclaz J, Fleuret F, Türetken E, Fua P. 2011. Multiple object tracking using k-shortest paths optimization. IEEE Transactions on Pattern Analysis and Machine Intelligence, 33(9): 1806-1819 [DOI:10.1109/TPAMI.2011.21]

Bewley A, Ge Z Y, Ott L, Ramos F and Upcroft B. 2016. Simple online and realtime tracking//Proceedings of 2016 IEEE International Conference on Image Processing (ICIP). Phoenix, USA: IEEE: 3464-3468 [DOI: 10.1109/ICIP.2016.7533003]

Brendel W, Amer M and Todorovic S. 2011. Multiobject tracking as maximum weight independent set//Proceedings of 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Colorado Springs, USA: IEEE: 1273-1280 [DOI: 10.1109/CVPR.2011.5995395]

Chen L, Ai H Z, Chen R, Zhuang Z J. 2019. Aggregate tracklet appearance features for multi-object tracking. IEEE Signal Processing Letters, 26(11): 1613-1617 [DOI:10.1109/LSP.2019.2940922]

Chu P, Fan H, Tan C C and Ling H B. 2019. Online multi-object tracking with instance-aware tracker and dynamic model refreshment//Proceedings of 2019 IEEE Winter Conference on Applications of Computer Vision. Waikoloa, USA: IEEE: 161-170 [DOI: 10.1109/WACV.2019.00023]

Chu Q, Ouyang W L, Li H S, Wang X G, Liu B and Yu N H. 2017. Online multi-object tracking using CNN-based single object tracker with spatial-temporal attention mechanism//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 4846-4855 [DOI: 10.1109/ICCV.2017.518]

Dehghan A, Assari S M and Shah M. 2015. GMMCP tracker: Globally optimal Generalized Maximum Multi Clique problem for multiple object tracking//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 4091-4099 [DOI: 10.1109/CVPR.2015.7299036]

Dendorfer P, Ošep A, Milan A, Schindler K, Cremers D, Reid I, Roth S, Leal-Taixé L. 2021. MOTChallenge: a benchmark for single-camera multiple target tracking. International Journal of Computer Vision, 129(4): 845-881 [DOI:10.1007/s11263-020-01393-0]

Fang L, Yu F Q. 2020. Multi-object tracking based on adaptive online discriminative appearance learning and hierarchical association. Journal of Image and Graphics, 25(4): 708-720 (方岚, 于凤芹. 2020. 自适应在线判别外观学习的分层关联多目标跟踪. 中国图象图形学报, 25(4): 708-720) [DOI:10.11834/jig.190320]

He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 770-778 [DOI: 10.1109/CVPR.2016.90]

Izadinia H, Saleemi I, Li W H and Shah M. 2012. (MP)²T: multiple people multiple parts tracker//Proceedings of the 12th European Conference on Computer Vision. Florence, Italy: Springer: 100-114 [DOI: 10.1007/978-3-642-33783-3_8]

Kim C, Li F X, Alotaibi M and Rehg J M. 2021. Discriminative appearance modeling with multi-track pooling for real-time multi-object tracking//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, USA: IEEE: 9548-9557 [DOI: 10.1109/cvpr46437.2021.00943]

Li M Y. 2020. Research on Key Technologies of Real-Time Multiple Object Tracking Based on Deep Learning. Changchun: Changchun Institute of Optics, Fine Mechanics and Physics, Chinese Academy of Sciences (李沐雨. 2020. 基于深度学习的实时多目标跟踪关键技术的研究. 长春: 中国科学院长春光学精密机械与物理研究所)

Liu P X. 2020. Research on Key Technologies of Video Multiple Object Tracking Based on Data Association. Chengdu: University of Electronic Science and Technology of China (刘沛鑫. 2020. 基于数据关联的视频多目标跟踪关键技术研究. 成都: 电子科技大学)

Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C Y and Berg A C. 2016. SSD: single shot MultiBox detector//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 21-37 [DOI: 10.1007/978-3-319-46448-0_2]

Milan A, Roth S, Schindler K. 2014. Continuous energy minimization for multitarget tracking. IEEE Transactions on Pattern Analysis and Machine Intelligence, 36(1): 58-72 [DOI:10.1109/TPAMI.2013.103]

Pirsiavash H, Ramanan D and Fowlkes C C. 2011. Globally-optimal greedy algorithms for tracking a variable number of objects//Proceedings of 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Colorado Springs, USA: IEEE: 1201-1208 [DOI: 10.1109/CVPR.2011.5995604]

Redmon J, Divvala S, Girshick R and Farhadi A. 2016. You only look once: unified, real-time object detection//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 779-788 [DOI: 10.1109/CVPR.2016.91]

Redmon J and Farhadi A. 2018. YOLOv3: an incremental improvement. [EB/OL]. [2018-04-08]. https://arxiv.org/pdf/1804.02767.pdf

Ren S Q, He K N, Girshick R, Sun J. 2017. Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(6): 1137-1149 [DOI:10.1109/TPAMI.2016.2577031]

Roshan Z A, Dehghan A and Shah M. 2012. GMCP-tracker: global multi-object tracking using generalized minimum clique graphs//Proceedings of the 12th European Conference on Computer Vision. Florence, Italy: Springer: 343-356 [DOI: 10.1007/978-3-642-33709-3_25]

Shu G, Dehghan A, Oreifej O, Hand E and Shah M. 2012. Part-based multiple-person tracking with partial occlusion handling//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE: 1815-1821 [DOI: 10.1109/CVPR.2012.6247879]

Tang S Y, Andriluka M, Schiele B. 2014. Detection and tracking of occluded people. International Journal of Computer Vision, 110(1): 58-69 [DOI:10.1007/s11263-013-0664-6]

Wang X Q, Jiang J G, Qi M B. 2017. Hierarchical multi-object tracking algorithm based on globally multiple maximum clique graphs. Journal of Image and Graphics, 22(10): 1401-1408 (王雪琴, 蒋建国, 齐美彬. 2017. 全局多极团的分层关联多目标跟踪. 中国图象图形学报, 22(10): 1401-1408) [DOI:10.11834/jig.160527]

Wojke N, Bewley A and Paulus D. 2017. Simple online and realtime tracking with a deep association metric//Proceedings of 2017 IEEE International Conference on Image Processing. Beijing, China: IEEE: 3645-3649 [DOI: 10.1109/ICIP.2017.8296962]

Xu J R, Cao Y, Zhang Z and Hu H. 2019. Spatial-temporal relation networks for multi-object tracking//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea (South): IEEE: 3987-3997 [DOI: 10.1109/ICCV.2019.00409]

Zhang L, Li Y and Nevatia R. 2008. Global data association for multi-object tracking using network flows//Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, USA: IEEE: 1-8 [DOI: 10.1109/CVPR.2008.4587584]