发布时间: 2017-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.20170309
2017 | Volume 22 | Number 3

第十一届中国计算机图形学大会专栏

深度学习辅助的多行人跟踪算法

王慧燕¹, 杨宇涛¹, 张政³, 严国丽¹, 王靖齐², 李笑岚¹, 陈卫刚¹, 华璟¹, WangXun¹

1. 浙江工商大学计算机与信息工程学院, 杭州 310018;

2. 兰州大学信息科学与工程学院, 兰州 730000;

3. 北京正安维视科技股份有限公司, 北京 100088

收稿日期: 2016-07-18; 修回日期: 2016-10-25

基金项目: 国家自然科学基金项目（61472362，61379075）；浙江省自然科学基金项目（LZ16F020002，LY14F020001）；公益技术研究社会发展项目（2015C33081）

第一作者简介: 王慧燕(1983-), 女, 教授, 2003年于浙江大学获电气工程专业博士学位, 主要研究方向为模式识别、数据挖掘及智能信息处理。E-mail:cederic@zjgsu.edu.cn

中图法分类号: TP391.4

文献标识码: A

文章编号: 1006-8961(2017)03-0349-09

摘要

目的目标的长距离跟踪一直是视频监控中最具挑战性的任务之一。现有的目标跟踪方法在存在遮挡、目标消失再出现等情况下往往会丢失目标，无法进行持续有效的跟踪。一方面目标消失后再次出现时，将其作为新的目标进行跟踪的做法显然不符合实际需求；另一方面，在跟踪过程中当相似的目标出现时，也很容易误导跟踪器把该相似对象当成跟踪目标，从而导致跟踪失败。为此，提出一种基于目标识别辅助的跟踪算法来解决这个问题。方法将跟踪问题转化为寻找帧间检测到的目标之间对应关系问题，从而在目标消失再现后，采用深度学习网络实现有效的轨迹恢复，改善长距离跟踪效果，并在一定程度上避免相似目标的干扰。结果通过在标准数据集上与同类算法进行对比实验，本文算法在目标受到遮挡、交叉运动、消失再现的情况下能够有效地恢复其跟踪轨迹，改善跟踪效果，从而可以对多个目标进行持续有效的跟踪。结论本文创新性地提出了一种结合基于深度学习的目标识别辅助的跟踪算法，实验结果证明了该方法对遮挡重现后的目标能够有效的恢复跟踪轨迹，适用在监控视频中对多个目标进行持续跟踪。

关键词

多目标跟踪; 识别辅助的跟踪; 深度学习; 长距离跟踪; 跟踪轨迹恢复

Deep-learning-aided multi-pedestrian tracking algorithm

Wang Huiyan¹, Yang Yutao¹, ${authorVo.authorNameEn}³, Yan Guoli¹, Wang Jingqi², ${authorVo.authorNameEn}¹, Chen Weigang¹, Hua Jing¹, ${authorVo.authorNameEn}¹

1. School of Computer and Information Engineering, Zhejiang Gongshang University, Hangzhou 310018, China;

2. College of Information Science and Engineering, Lanzhou University, Lanzhou 730000, China;

3. Beijing Innovisgroup Tec. Ltd. Beijing 100088, China

Supported by: National Natural Science Foundation of China (61472362, 61170098, 61379075);Natural Science Foundation of Zhejiang Provincial, China (LZ16F020002, LY14F020001)

Abstract

Objective Long-distance tracking is an important and challenging task in video surveillance. Existing tracking methods may fail when a target is completed occluded and is treated as a new target upon reappearance. Moreover, trackers are often confused by targets that appear similar. To address these problems, we propose a tracking algorithm that is aided by target recognition based on deep learning. Methods The proposed method solves problems with tracking by identifying the corresponding relationship of objects detected between different frames. When an old target reappears, the algorithm can resume its tracking trajectory based on deep learning networks. Hence, the performance of tracking multiple and similar targets is improved. Results Experiments were conducted by comparing the standard dataset with other algorithms. Results showed that the proposed method can address occlusion, overlapping, and improve the performance of long-distance tracking. Therefore, the proposed method can continuously and effectively perform tracking. Conclusion We propose a novel object tracking algorithm that is aided by recognition based on deep learning. The experimental results demonstrated the advantages of the proposed method in addressing the problem of a completely occluded object. Therefore, the proposed algorithm is suitable for the continuous tracking of multiple targets in monitoring videos.

Key words

multi-target tracking; tracking based on recognition; deep learning; long distance tracking; trajectory recover

0 引言

目标跟踪是计算机视觉领域中的一个热点问题，被广泛的应用于视频监控、汽车辅助驾驶、人机交互等领域。典型的目标跟踪场景是在视频的起始帧中用方框来标识一个或多个待跟踪的目标，在后续的视频帧中对指定的目标对象进行检测并持续跟踪。

近些年，已经有大量的目标跟踪算法被相继提出，但是复杂场景下鲁棒的目标跟踪仍然是一项十分具有挑战性的工作。例如复杂的背景，目标存在严重遮挡，目标短暂消失，光照变化和非刚性目标的姿态变化等状况都会对目标准确、稳定地跟踪造成很大的困难。同时，实际跟踪场景的实时性也对算法的时间效率提出了很高的要求，而现有的跟踪方法往往难以做到兼顾。例如经典的基于颜色直方图的粒子滤波算法^[1]依赖于目标RGB颜色分布来跟踪，因此对于光照条件十分敏感，一旦环境变化造成目标颜色分布变化会导致跟踪失败。在长距离跟踪过程中，由于环境变化剧烈，致使跟踪难度会大大增加。为了应对长距离跟踪中的这些难题，传统的方法是采用在线更新的方式，在跟踪过程中不断地更新模型^[2-4]，以适应不断变化的环境和目标姿态。但这些方法很容易产生跟踪漂移问题，一旦环境出现剧烈变化，极易导致跟踪崩塌。为此，针对当目标存在严重遮挡以及目标从摄像机视野中短暂消失的情况进行研究，提出一种基于行人检测和帧间目标关联的多行人跟踪算法，将多目标的跟踪问题转化为寻找帧间检测到的目标之间寻找对应关系的过程。算法的创新之处在于采用了基于深度神经网络的目标识别方法来进行辅助跟踪，可以很好地解决目标消失再现和存在严重遮挡时造成的目标丢失的问题。当目标再次出现时可以通过识别辅助跟踪的方法恢复消失重现目标的跟踪轨迹。实验结果证明了本文算法的有效性。

1 相关工作

由于目标跟踪技术广泛的应用前景，目前已有大量的相关研究成果。早期的目标跟踪采用模板匹配的方法^[5]，由Lucas和Kanade在1981年提出，随后该方法在目标跟踪领域得到了广泛的应用，并在此基础上继续发展^[6-7]。此后，基于子空间的跟踪方法^[8-9]被提出，在应对外观变化这一问题上取得了较好的效果，在一定程度上改善了目标外观产生变化情况下的跟踪效果。Mei等人^[10]提出了基于稀疏表达的L1跟踪器，该算法对于外观变化有着较好的鲁棒性，并且在后来的工作中^[11]效果被进一步提升。之后基于统计分析的方法开始盛行，目标跟踪被当做分类问题来解决，差分模型通过将目标与背景分类来达到跟踪目的。

随着近年来各个领域对多目标跟踪技术的需求日益增大，出现了很多的研究成果。自从文献[12]首次将网络流的方法应用到多目标跟踪，大量的相关方法^[13-17]随之出现。这类方法的基本思想是将跟踪目标看成图中的节点，构建网络流图，通过寻找最小代价流来进行跟踪。目标检测的技术日益完善后，催生了两段式的基于检测的跟踪^[18-23]，跟踪的方法是在检测结果之间寻找关联关系。考虑到目标运动中需要符合一系列的关联准则以及与其他运动目标的相互关系，SFM (social force model) 模型^[24]被提出了，随后该模型被应用到了多目标跟踪领域^[25]，后来相关的方法还有文献[26-27]方法等。Bae^[28]提出了一种在线学习外观差分模型的跟踪方法。对检测结果计算每个跟踪轨迹的置信度，依据置信度的计算结果判断目标对应关系实现跟踪。但迄今为止，并没有很好的方法能够将消失重现目标的轨迹重新恢复，而是重新将其当做新的跟踪对象。

近年来，卷积神经网络(CNN) 不断刷新着分类网络的记录。自从2012年Hinton团队将Deep Learning用于ImageNet数据集并取得了惊人的成绩后，深度学习重新得到了重视并在各个研究领域得到了广泛的应用，结合深度学习的跟踪方法也随之出现。Wang等人^[29]使用了自动编码器初始化跟踪网络的参数，通过不断在线微调网络训练分类层来跟踪目标。Ma等人^[30]通过可视化分析，利用融合的多层特征提高跟踪效果。全卷积网络提出后也被用于目标跟踪^[31]，实现了端到端的目标跟踪。但一个好的CNN网络需要大量的样本用于学习得到鲁棒的特征描述，而且在现有的硬件条件下，CNN庞大的计算代价难以满足跟踪实时性的要求。为了实现多目标的长距离稳定跟踪，首先提取Hog特征作为目标描述子，采用SVM作为分类器，构建出行人检测器，然后通过对帧间检测目标的特征相似度匹配进行目标跟踪。为了解决跟踪过程中出现的目标被短暂遮挡或走出监控区域造成目标丢失时难以对原有目标进行可靠跟踪的问题，提出一种基于卷积网络用于辅助跟踪的方法(简称TaNet)，通过对当前所有的跟踪目标建立识别模型来辅助判断某个被遮挡或者新出现的目标是一个新的目标还是原有目标，从而通过目标识别实现目标的持续、稳定的跟踪。为了实现跟踪的实时性，采用基于无监督的主成分分析的方法来构建特征学习网络。此外，当新的跟踪对象出现时，TaNet模型将会被更新，以适应不断变化的跟踪环境。

2 本文算法概述

本文算法的整体框架如图 1所示，主要分为3个模块，目标检测、匹配跟踪以及TaNet辅助跟踪。算法的简要步骤如下：

图 1 目标识别辅助的多行人跟踪算法流程图

Fig. 1 Flow chart of multi-pedestrian tracking algorithm aided by target recognition

1) 首先检测器对于视频的每一帧进行目标检测，检测结果为之后的跟踪做准备。

2) 相邻两帧中的目标之间通过相似度匹配，得到初步的跟踪结果。

3) 结合本文提出的TaNet辅助跟踪网络，恢复消失重现目标的跟踪轨迹，进一步提高跟踪效果。

3 多目标匹配跟踪

用NICTA行人数据库训练检测器，正样本为行人图片，负样本为背景图片。首先抽取训练样本的Hog特征作为分类器的输入特征，然后将准备好的数据交由支持向量机(SVM) 学习一个可以将行人和背景有效区分的超平面。检测时，采用滑动窗口搜索图中所有目标，通过一个检测窗口全图扫描，窗口每滑动到一个位置，由分类器给出分类结果，判断该窗口是否存在行人。同时，使用多尺度扫描方法检测不同大小的目标，保证不同尺寸大小的目标不被遗漏。检测结果记为${\boldsymbol{C}^t}=\{ {\boldsymbol{c}^t}_1, {\boldsymbol{c}^t}_2, \ldots, {\boldsymbol{c}^t}_n\}, n$为在第$t$帧中检测到的目标总数。检测结果在跟踪过程中被称为候选目标，$\boldsymbol{c}_j^t$表示第$t$帧中检测到的第$j$个候选目标，$j \in [1, n]$。

将所有的跟踪目标表示用一个集合表示，记为${\boldsymbol{O}_s}=\left\{ {{\boldsymbol{O}_1}, {\boldsymbol{O}_2}, \ldots, {\boldsymbol{O}_z}} \right\}, z$为跟踪目标的总数。对一个跟踪目标的轨迹记为${\boldsymbol{O}_i}=\{ {\boldsymbol{o}^1}_i, {\boldsymbol{o}^2}_i, \ldots, {\boldsymbol{o}^m}_i\}, {\boldsymbol{o}^t}_i$表示第$t$帧中目标$i$，其中$i \in \left[{1, z} \right], t \in [1, m]$，下标$i$是唯一的跟踪标识。对一个目标跟踪的目的是不断地寻找目标$\boldsymbol{o}_i^{t-1}$在当前帧检测结果中相似度最高的目标${\boldsymbol{c}^t}_j, {\boldsymbol{{\hat o}}^t}_i$表示跟踪目标$\boldsymbol{O}_i$在第$t$帧中的预测结果。寻找最相似候选目标$\boldsymbol{c}_j^t$的过程表示为

$ \arg \mathop {\min }\limits_j d\left( {f\left( {\mathit{\boldsymbol{o}}_i^{t - 1}} \right),f\left( {\mathit{\boldsymbol{c}}_j^t} \right)} \right),\mathit{\boldsymbol{c}}_j^t \in {\mathit{\boldsymbol{C}}^t} $

(1)

式中，$f\left (\cdot \right)$计算目标的颜色直方图特征，$d\left (\cdot \right)$表示距离度量函数，也就是要在当前帧检测到的候选目标中选择与跟踪对象最为相似的作为该跟踪对象在$t$帧中的位置。图 2描述了执行匹配跟踪方法的过程。

图 2 目标匹配过程

Fig. 2 The process of objects matching

由于在连续的视频帧中，目标的运动存在时空上的连续性，因此认为预测的目标位置与上一帧的目标空间上满足距离约束，即同一目标在相邻帧中的坐标位置不会相差太远。因此可以根据跟踪目标和候选目标中心点距离约束来缩小搜索范围，筛选出满足空间局部性的候选框集合

$ {\mathit{\boldsymbol{U}}^t} = \left\{ {\mathit{\boldsymbol{c}}_j^t\left| {E\left( {\mathit{\boldsymbol{o}}_i^{t - 1},\mathit{\boldsymbol{c}}_j^t} \right) < v} \right.} \right\} $

(2)

式中，$v$为设定的距离阈值，$E\left (\cdot \right)$表示求欧氏距离。通过筛选，可以减少匹配过程的计算量，提高跟踪算法效率。选择巴氏距离(BD)^[32]作为距离度量函数，由于颜色直方图反应的是图像颜色分布特征，因此巴氏距离可以很好地度量两幅图像相似度，巴氏距离为

$ {D_B}\left( {{\mathit{\boldsymbol{h}}_1},{\mathit{\boldsymbol{h}}_2}} \right) = - \ln g\left( {{\mathit{\boldsymbol{h}}_1},{\mathit{\boldsymbol{h}}_2}} \right) $

(3)

式中，$g\left (\cdot \right)$为巴氏系数计算函数，即

$ g\left( {{\mathit{\boldsymbol{h}}_1},{\mathit{\boldsymbol{h}}_2}} \right) = \sum\limits_{x \in \left[ {1,nbins} \right]} {\sqrt {{h_1}\left( x \right){h_2}\left( x \right)} } $

(4)

式中，${\boldsymbol{h}_1}, {\boldsymbol{h}_2}$表示两个目标的颜色分布，由$f\left (\cdot \right)$函数计算得到，$nbins$表示颜色直方图的胞元个数。因此式(1) 重写为

$ \mathop {\arg \min }\limits_j {D_B}\left( {f\left( {\mathit{\boldsymbol{o}}_i^{t - 1}} \right),f\left( {\mathit{\boldsymbol{u}}_j^t} \right)} \right),\mathit{\boldsymbol{u}}_j^t \in {\mathit{\boldsymbol{U}}^t} $

(5)

寻找到最相似候选目标后将其加入该跟踪对象的轨迹序列。之后对其他跟踪对象做相同操作，完成相邻帧之间所有跟踪对象和候选目标的匹配。

4 基于深度学习网络的识别辅助跟踪

在长距离跟踪过程中，常常会发生目标出现短暂消失、遮挡或者目标离开摄像机视野等情况，为了维持对目标的鲁棒跟踪，借助深度学习的识别模型来对目标进行辅助跟踪。

本文提出的TaNet辅助跟踪分类模型如图 3所示。网络主要由两个卷积层、两个最大值池化层和二值量化层组成。训练时，首先将所有训练样本分块去均值，之后将得到的矩阵基于PCA的方法求出特征向量，选取其中$n$个特征向量构成第1个卷积层的$n$个滤波器。同样的，对第2个卷积层采取同样的操作，只是第2层卷积滤波器的个数变为$n \times n$，这样就得到了网络中的所有卷积核。本文使用的网络第1个卷积层滤波器个数为8，第2层滤波器为64个。当一个样本通过两层卷积之后，会生成64个特征图。每个卷积层之后加入最大值池化的运算，每经历一次池化操作，特征图的大小会变小。例如，当池化操作的卷积核为2×2时，每次池化后特征图的长宽分别会变为原来二分之一。当获取所有的卷积特征图之后，对卷积结果进行二值化操作。然后每$n$个特征图采取加权和的方式合并，在对所有合并后的特征图分块提取直方图特征，最终得到网络输出特征。对于分类层，采用有监督的学习方法学习分类器。将网络的卷积特征和标签输入到线性SVM中，训练得到最终的分类器。至此，完成了TaNet的网络训练过程

图 3 Tracking-aided Net结构

Fig. 3 The structure of the Tracking-aided Net

每当新的目标出现时，便将当前所有跟踪目标的历史跟踪结果${\boldsymbol{}O_s}=\{ {\boldsymbol{O}_1}, {\boldsymbol{O}_2}, \ldots, {\boldsymbol{O}_z}\} $作为TaNet的训练数据，通过PCA的方法获取卷积滤波器参数。然后将网络输出的特征和跟踪标识组成训练样本去训练线性SVM分类器，完成辅助跟踪网络的更新。之后通过TaNet判断该目标是否曾出现过，具体的做法是将该目标输入网络中，通过前馈运算结果获得目标的深度特征，再将深度特征输入SVM分类器得到识别标识和相应的置信度$\alpha $。当$\alpha $高于设定的阈值时，认为该识别标识可信，判断该目标之前曾出现过，再通过识别结果将其与跟踪目标对应起来。如果置信度低于设定的阈值，认为该目标为新出现的目标。这样就避免了传统方法在目标短暂消失再次出现时将其误判为新的跟踪目标或者丢失目标的情况。目标识别辅助的多行人跟踪算法具体描述如下：

1) 对于视频中的每一帧$t$:

(1) 对该帧进行目标检测，记为${\boldsymbol{C}^t}$；

(2) 提取所有${\boldsymbol{C}_i}$的直方图特征${\boldsymbol{h}_i}$。

2) 对$t$帧进行匹配跟踪：

(1) 根据式(2) 筛选得到${\boldsymbol{U}^t}$；

(2) 根据式(5) 寻找每个跟踪轨迹对应的最佳匹配对象$\boldsymbol{\hat o}_i^t$；

(3) 将没有匹配到的${\boldsymbol{C}^t}$加入队列$\boldsymbol{T}$中。

3) 如果$\boldsymbol{T}$为空，转到步骤1) 继续处理$t$+1帧。否则转到继续：

(1) 利用所有目标的历史跟踪结果更新TaNet网络，继续下一步；

(2) 由TaNet网络判断$\boldsymbol{T}$中目标是否为消失重现目标。如果是，则恢复轨迹。否则，建立新的跟踪对象，转到步骤1) 继续处理$t$+1帧。

5 实验结果

实验环境：硬件环境使用Intel i7-4790 3.6 GHz CPU，32 GB内存，NVIDIA Quadro k620显卡工作站。

为了验证本文算法在目标完全遮挡后重现和从摄像机视野中消失后重现时跟踪轨迹恢复的有效性，在多个数据集上进行对比实验。对于一帧中跟踪器预测到的目标位置$rect$(记为${\boldsymbol{B}_r}$) 来说，是否接受该区域为跟踪结果，由其与groundtruth (记为${\boldsymbol{B}_g}$) 的交集与并集的比值决定，记为

$ P = \frac{{{\mathit{\boldsymbol{B}}_r} \cap {\mathit{\boldsymbol{B}}_g}}}{{{\mathit{\boldsymbol{B}}_r} \cup {\mathit{\boldsymbol{B}}_g}}} $

(6)

如果$P$>0.5，接受此次跟踪的结果。如果$P$ < 0.5，则认为目标跟踪失败。

首先在标准数据集TB-100中选择符合应用场景的Jogging图像序列上进行实验。图 4展示了在该数据集上本文算法的实现效果。该组数据中存在严重遮挡的情况，从图 4展示的结果可以看到，两个目标分别在第48帧和第71帧的时候发生了遮挡，甚至有14帧完全消失于视野的情形。但在第60帧和第82帧目标依次穿过遮挡物时，识别辅助跟踪算法能够快速、准确地确定对象的跟踪标识，从而将轨迹恢复，没有发生漂移和丢失目标的情况。表 1给出了数据集中各个目标正确跟踪的比例，即表中的跟踪正确率(归一化的True positive)。对于一个目标来说，预测的跟踪框与groundtruth的交并$P$大于0.5认为跟踪正确。从表 1中跟踪正确率可以看出，在仅存在遮挡的状况下，两个目标基本不存在错误跟踪(跟踪失败的那些帧是由于漏检造成)。

图 4 Jogging数据集中的跟踪效果

Fig. 4 Tracking performance in Jogging dataset ((a) frame 1; (b) frame 17; (c) frame 48; (d) frame 60; (e) frame 71;(f) frame 82)

表 1 Jogging数据集目标跟踪结果评价
Table 1 The evaluation of tracking result inJogging dataset

下载CSV

	目标1	目标2
跟踪正确帧数/出现总帧数	272/307	269/307
跟踪正确率	0.886 0	0.876 2

相对于Jogging数据集来说，Crowd_PETS09要复杂得多。选择了S2L1View8中的400帧的图像序列来验证本文提出的算法效果。在这400帧图像中，视野中存在8个目标。该数据集中存在严重遮挡、目标短暂消失、双人并排行走以及目标尺度变化(目标走近摄像机时在画面中会突然变大) 等复杂情况。图 5是跟踪的实际效果，8个目标陆续出现，互相交错行走，可以看到，本文提出的算法能够对8个目标进行有效、鲁棒的跟踪，可以很好地处理这些复杂无规律的目标跟踪问题。表 2给出了各个目标的跟踪准确度，若除去检测模块的漏检错误，算法的实际效果会略微提升。

图 5 Crowd_PETS09数据集跟踪效果

Fig. 5 Tracking performance in Crowd_PETS09 dataset ((a) frame 17; (b) frame 31; (c) frame 75; (d) frame 95;(e) frame 117; (f) frame 157;(g) frame 169;(h) frame 196;(i) frame 205;(j) frame 301;(k) frame 322;(l) frame 330)

表 2 Crowd_PETS09数据集目标跟踪结果评价
Table 2 The evaluation of tracking result inCrowd_PETS09 dataset

下载CSV

	目标1	目标2	目标3	目标4	目标5	目标6	目标7	目标8
跟踪正确帧数/出现总帧数	306/330	324/386	174/197	168/200	163/202	249/295	48/52	57/77
跟踪正确率	0.927 3	0.839 4	0.883 2	0.840 0	0.806 9	0.844 1	0.923 1	0.740 3

为了验证本文算法对相似目标的区分能力，在实际拍摄的视频数据上再次进行了实验。跟踪效果如图 6所示。在这组数据中，出现的两个目标在外观上较为相似，同时也存在目标之间交叉相互遮挡的情况和目标从监控范围中消失的状况。在第172到183帧之间目标发生了交叉，目标1被完全遮挡。第263帧时，两个目标均走出监控范围。在第455帧时，两个目标都通过识别辅助跟踪的手段正确跟踪，而且没有产生目标混淆的错误。表 3给出的各目标跟踪准确度，也证明了本文提出方法的有效性。

图 6 在实拍的数据集中跟踪效果

Fig. 6 Tracking performance in our dataset ((a) frame 151; (b) frame 172; (c) frame 183; (d) frame 188; (e) frame 206;(f) frame 263;(g) frame 335;(h) frame 455)

表 3 实拍数据中目标跟踪结果评价
Table 3 The evaluation of tracking result in our dataset

下载CSV

	目标1	目标2
跟踪正确帧数/出现总帧数	334/394	167/180
跟踪正确率	0.847 7	0.927 8

为了进一步论证本文算法的有效性，将本文算法在PETS09-S2L1和TUD-Stadtmitte标准数据集上与现有方法进行对比。表 4展示了本文算法在两个标准数据库上的表现，以及和现有方法的性能比较。

表 4 标准数据库上多目标跟踪效果比较
Table 4 Comparison of multiple object tracking performance on standard database

下载CSV

数据库	算法	准确度	精确度	召回率	精度
PETS09-S2L1	JPDA^[33]	74.6	77.8	95.4	82.2
PETS09-S2L1	本文	79.6	87.6	88.4	89.2
TUD-Stadtmitte	JPDA^[33]	51.7	59.1	67.8	81.7
TUD-Stadtmitte	本文	84.8	79.3	88.7	91.1

图 7对比了本文算法与JPDA在相同帧中的跟踪结果，图中绿色的跟踪标识是跟踪正确的情况。在第43帧前若干帧中，目标2发生了较为严重的遮挡，这种情况下，本文算法通过辅助跟踪网络正确地恢复了轨迹。与之相对的是JPDA算法将目标2当成了新的跟踪对象(图中红色跟踪标识)。

图 7 目标发生遮挡情况下跟踪效果对比

Fig. 7 Comparison of methods’ performance in the case of the occlusion ((a) JPDA algorithm; (b) ours)

在TaNet辅助跟踪过程中，候选目标通过在网络中进行前馈操作得到识别标识和置信度。在Intel i7-4790 3.6 GHz CPU的环境下，单个样本的测试时间平均为0.17 s，在GPU环境下算法执行效率会进一步提升。

6 结论

本文提出了一种基于深度学习构建识别模型辅助的多目标跟踪算法。该方法在长距离跟踪过程中出现目标消失重现和存在严重遮挡的情况下，都能实现对多个目标进行准确、鲁棒的跟踪。在标准数据库和自己拍摄的视频数据库中的实验结果证明了本文提出方法的有效性。目标的检测和匹配方法的时间代价非常小，算法最为耗时的阶段为新目标出现时，对识别辅助网络模型的更新操作。相比于传统的卷积神经网络，本文提出的TaNet的网络结构计算代价小，可应用于实际的监控场景的目标识别和跟踪系统。本文提出的方法尤其适合于在多个摄像头环境下对多个感兴趣目标进行持续性跨域跟踪，相对于传统的多目标跟踪，本算法有效的轨迹恢复策略，可以达到持续跟踪的效果。

本文所提出的多目标跟踪方法还存在进一步优化的空间，进一步的研究着重讨论如何更为准确的判断模型更新的条件和加速模型更新的过程。

参考文献

[1] Nummiaro K, Koller-Meier E, Van Gool L. An adaptive color-based particle filter[J]. Image and Vision Computing, 2003, 21(1): 99–110. [DOI:10.1016/S0262-8856(02)00129-4]

[2] Helmut G, Michael G, Horst B. Real-time tracking via on-line boosting[C]//Proceedings of the 2006 British Machine Vision Conference. Edinburgh: BMVC, 2006, 1: 47-56.

[3] Matthews I, Ishikawa T, Baker S. The template update problem[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 26(6): 810–815. [DOI:10.1109/TPAMI.2004.16]

[4] Hare S, Saffari A, Torr P H S. Struck: structured output tracking with kernels[C]//Proceedings of 2011 IEEE International Conference on Computer Vision. Barcelona: IEEE, 2011: 263-270.[DOI: 10.1109/ICCV.2011.6126251]

[5] Lucas B D, Kanade T. An iterative image registration technique with an application to stereo vision[C]//Proceedings of the 7th International Joint Conference on Artificial Intelligence. San Francisco, CA, USA: ACM, 1981, 2: 674-679.

[6] Alt N, Hinterstoisser S, Navab N. Rapid selection of reliable templates for visual tracking[C]//Proceedings of 2010 IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, CA: IEEE, 2010: 1355-1362.[DOI: 10.1109/CVPR.2010.5539812]

[7] Hager G D, Belhumeur P N. Efficient region tracking with parametric models of geometry and illumination[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(10): 1025–1039. [DOI:10.1109/34.722606]

[8] Black M J, Jepson A D. Eigentracking: robust matching and tracking of articulated objects using a view-based representation[J]. International Journal of Computer Vision, 1998, 26(1): 63–84. [DOI:10.1023/A:1007939232436]

[9] Ross D A, Lim J, Lin R S, et al. Incremental learning for robust visual tracking[J]. International Journal of Computer Vision, 2008, 77(1-3): 125–141. [DOI:10.1007/s11263-007-0075-7]

[10] Mei X, Ling H B. Robust visual tracking using ℓ₁ minimization[C]//Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Kyoto: IEEE, 2009: 1436-1443.[DOI: 10.1109/ICCV.2009.5459292]

[11] Mei X, Ling H B. Robust visual tracking and vehicle classification via sparse representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(11): 2259–2272. [DOI:10.1109/TPAMI.2011.66]

[12] Zhang L, Li Y, Nevatia R. Global data association for multi-object tracking using network flows[C]//Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, AK: IEEE, 2008: 1-8.[DOI: 10.1109/CVPR.2008.4587584]

[13] Butt A A, Collins R T. Multi-target tracking by lagrangian relaxation to min-cost network flow[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR: IEEE, 2013: 1846-1853.[DOI: 10.1109/CVPR.2013.241]

[14] Leal-Taixé L, Pons-Moll G, Rosenhahn B. Branch-and-price global optimization for multi-view multi-target tracking[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2012: 1987-1994.[DOI: 10.1109/CVPR.2012.6247901]

[15] Liu J C, Carr P, Collins R T, et al. Tracking sports players with context-conditioned motion models[C]//Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR: IEEE, 2013: 1830-1837.[DOI: 10.1109/CVPR.2013.239]

[16] Pirsiavash H, Ramanan D, Fowlkes C C. Globally-optimal greedy algorithms for tracking a variable number of objects[C]//Proceedings of 2011 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2011: 1201-1208.[DOI: 10.1109/CVPR.2011.5995604]

[17] Wang B, Wang G, Chan K L, et al. Tracklet association with online target-specific metric learning[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH: IEEE, 2014: 1234-1241.[DOI: 10.1109/CVPR.2014.161]

[18] Ma B, Shen J B, Liu Y B, et al. Visual tracking using strong classifier and structural local sparse descriptors[J]. IEEE Transactions on Multimedia, 2015, 17(10): 1818–1828. [DOI:10.1109/TMM.2015.2463221]

[19] Ma B, Hu H W, Shen J B, et al. Linearization to nonlinear learning for visual tracking[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 4400-4407.[DOI: 10.1109/ICCV.2015.500]

[20] Li A, Tang F, Guo Y W, et al. Discriminative nonorthogonal binary subspace tracking[C]//Proceedings of the 11th European Conference on Computer Vision-ECCV 2010. Berlin Heidelberg: Springer, 2010: 258-271.[DOI: 10.1007/978-3-642-15558-1_19]

[21] Kalal Z, Mikolajczyk K, Matas J. Tracking-learning-detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(7): 1409–1422. [DOI:10.1109/TPAMI.2011.239]

[22] Geiger A, Lauer M, Wojek C, et al. 3D traffic scene understanding from movable platforms[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(5): 1012–1025. [DOI:10.1109/TPAMI.2013.185]

[23] Zhang H Y, Geiger A, Urtasun R. Understanding high-level semantics by modeling traffic patterns[C]//Proceedings of the 2013 IEEE International Conference on Computer Vision. Sydney, NSW: IEEE, 2013: 3056-3063.[DOI: 10.1109/ICCV.2013.379]

[24] Helbing D, Molnár P. Social force model for pedestrian dynamics[J]. Physical Review E, 1995, 51(5): 4282–4286. [DOI:10.1103/PhysRevE.51.4282]

[25] Johansson A, Helbing D, Shukla P K. Specification of the social force pedestrian model by evolutionary adjustment to video tracking data[J]. Advances in Complex Systems, 2007, 10(Supp 2): 271–288. [DOI:10.1142/S0219525907001355]

[26] Pellegrini S, Ess A, Schindler K, et al. You'll never walk alone: modeling social behavior for multi-target tracking[C]//Proceedings of the IEEE 12th International Conference on Computer Vision. Kyoto: IEEE, 2009: 261-268.[DOI: 10.1109/ICCV.2009.5459260]

[27] Leal-Taixé L, Pons-Moll G, Rosenhahn B. Everybody needs somebody: modeling social and grouping behavior on a linear programming multiple people tracker[C]//Proceedings of 2011 IEEE International Conference on Computer Vision Workshops. Barcelona: IEEE, 2011: 120-127.[DOI: 10.1109/ICCVW.2011.6130233]

[28] Bae S H, Yoon K J. Robust online multi-object tracking based on tracklet confidence and online discriminative appearance learning[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH: IEEE, 2014: 1218-1225.[DOI: 10.1109/CVPR.2014.159]

[29] Wang N Y, Yeung D Y. Learning a deep compact image representation for visual tracking[C]//Advances in Neural Information Processing Systems 26: 27th Annual Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2013: 809-817.

[30] Ma C, Huang J B, Yang X K, et al. Hierarchical convolutional features for visual tracking[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 3074-3082.[DOI: 10.1109/ICCV.2015.352]

[31] Wang L J, Ouyang W L, Wang X G, et al. Visual Tracking with Fully Convolutional Networks[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 3119-3127.[DOI: 10.1109/ICCV.2015.357]

[32] Bhattacharyya A. On a measure of divergence between two multinomial populations[J]. Sankhyā: The Indian Journal of Statistics, 1946, 7(4): 401–406. [DOI:10.1038/157869b0]

[33] Rezatofighi S H, Milan A, Zhang Z, et al. Joint probabilistic data association revisited[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 3047-3055.[DOI: 10.1109/ICCV.2015.349]