发布时间: 2021-07-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200507
2021 | Volume 26 | Number 7

图像理解和计算机视觉

足球视频球员感知跟踪算法

冯思佳¹, 宋子恺¹, 于俊清^1,2, 何云峰¹, 管涛¹

1. 华中科技大学计算机科学与技术学院, 武汉 430074;

2. 华中科技大学网络与计算中心, 武汉 430074

收稿日期: 2020-08-24; 修回日期: 2020-12-30; 预印本日期: 2021-01-06

基金项目: 国家自然科学基金项目(61572211)

作者简介: 冯思佳, 1994年生, 女, 硕士研究生, 主要研究方向为单目标视觉跟踪。E-mail: 1140633868@qq.com
宋子恺, 男, 博士研究生, 主要研究方向为单目标视觉跟踪、图像特征编码。E-mail: skyesong@hust.edu.cn
于俊清, 通信作者, 男, 教授, 主要研究方向为基于内容的视频分析、索引与检索、多核计算与流编译、视频情感计算、网络安全与大数据处理。E-mail: yjqing@hust.edu.cn
何云峰, 男, 副教授, 主要研究方向为数字媒体处理与检索、计算机动画与影视特技。E-mail: yfhe@hust.edu.cn
管涛, 男, 教授, 主要研究方向为增强现实、虚拟现实、无人机视觉导航、避障技术、全自动3维建模技术、面向嵌入式设备的计算机视觉技术。E-mail: qd_gt@126.com
*通信作者: 于俊清yjqing@hust.edu.cn

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2021)07-1668-13

摘要

目的足球比赛视频中的球员跟踪算法为足球赛事分析提供基础的数据支持。但足球比赛中球员跟踪存在极大的挑战：球员进攻、防守和争夺球权时，目标球员可能产生快速移动、严重遮挡和周围出现若干名干扰球员的情况，目前仍没有一种能够完美解决足球比赛中球员跟踪问题的算法。因此如何解决足球场景中的困难，提升球员跟踪的准确度，成为当前研究的热点问题。方法本文在分析足球比赛视频中球员目标特点的基础上，通过融合干扰项感知的颜色模型和目标感知的深度模型，提出并设计了一种球员感知的跟踪算法。干扰项感知的颜色模型分别提取目标、背景和干扰项的颜色直方图，利用贝叶斯公式得到搜索区域中每个像素点属于目标的似然概率。目标感知的深度模型利用孪生网络计算搜索区域与目标的相似度。针对跟踪漂移问题，使用全局跟踪器和局部跟踪器分别跟踪目标整体和目标上半身，并且在两个跟踪器的跟踪结果出现较大差异的时候分析跟踪器有效性并进行定位修正。结果在公共的足球数据集上将本文算法与10个其他跟踪算法进行对比实验，同时对于文本算法进行了局部跟踪器的消融实验。实验结果表明，球员感知跟踪算法的平均有效重叠率达到了0.560 3，在存在同队球员和异队球员干扰的情况下，本文算法比排名第2的算法的有效重叠率分别高出3.7%和6.6%，明显优于其他算法，但是由于引入了干扰项感知的颜色模型、目标感知的深度模型以及局部跟踪器等模块增加了算法的时间复杂度，导致本文算法跟踪速度较慢。结论本文总结了跟踪算法的整体流程并分析了实验结果，认为干扰项感知、目标感知和局部跟踪这3个策略在足球场景中的球员跟踪问题中起到了重要的作用，为未来在足球球员跟踪领域研究的继续深入提供了参考依据。

关键词

计算机视觉; 图像处理; 目标跟踪; 足球球员跟踪; 干扰项感知; 目标感知; 局部跟踪

Players-aware tracking algorithm in soccer video

Feng Sijia¹, Song Zikai¹, Yu Junqing^1,2, He Yunfeng¹, Guan Tao¹

1. School of Computer Science and Technology, Huazhong University of Science and Technology, Wuhan 430074, China;

2. Center of Network and Computation, Huazhong University of Science and Technology, Wuhan 430074, China

Supported by: National Natural Science Foundation of China (61572211)

Abstract

Objective Target object tracking is important in computer vision. Player-tracking algorithms in broadcast soccer videos provide basic data support for the analysis of soccer matches. Several challenges occur in soccer player tracking, including a rapid move of the target player, occlusion, and disturbance of similar players when they attack, defend, and scramble for the ball. However, no perfect tracking algorithm specifically for soccer video is available. The following challenges remain in the player tracking of broadcast soccer videos: 1) A small patch of target players in the video frame is not conducive to feature extraction. 2) Similar players often interfere with the target player. 3) Occlusion of the target player by other players often occurs, requiring the algorithm to distinguish intra-class targets. 4) Relocating the target after tracking drift is difficult. Thus, a prevalent topic in current research is how to handle the challenges in the soccer scene and improve the accuracy of player tracking. Method Based on a depth analysis of the characteristics of a soccer player, we propose and design a player-aware tracking algorithm by fusing a distractor-aware color model and the target-aware deep model. In the color model, the color histogram of the target player, background, and distractors are extracted. The color model based on the Bayesian classifier aims to identify the foreground target from the background by color information in the search region. Three primary color components in the RGB color space are divided into 16 color regions by uniform quantization. The color histogram of the corresponding region can be obtained by calculating the number of pixels in each color interval. Distractors are non-target candidate regions whose similarity scores are larger than a certain threshold in the response map. As with the foreground-background color model, the color histogram of the target and distractor is counted, and the likelihood probability that the pixel belongs to the target in the target-distractor item is obtained. In the deep model, Siamese networks are adopted to calculate the similarity between the search and target regions. The target-aware deep model embeds deep features into the Siamese network, calculates the similarity between the output of the template branch and detects branches to obtain a response map of the search region. The well-known Visual Geometry Group(VGG) feature extraction network is adopted as a backbone network. In feature space, each channel of feature represents a different feature-representation capability, and specific combinations of features can recognize specific categories. The response of one category only focuses on specific deep-feature channels but not all feature channels. For the current tracking player, we design a small regression network to select feature channels related to the tracking player from VGG deep features. The structure of the small regression network is composed of one convolution layer with one convolution kernel. The size of the convolution kernel is the same as that of the target feature. The regression network aims to fit the features of the target sample to Gaussian distribution. In addition, to solve the problem of tracking drift, a global-local tracking strategy is designed to track the entire target and upper part of the target. Both global and local trackers have the same network architecture, including a distractor-aware color model branch and target-aware deep model branch. When a great difference in tracking results exists between the global and local trackers, the effectiveness of each tracker is analyzed and location revision is performed. In online tracking, both global and local trackers are used to track the whole and upper part of the target. When one tracker drifts, another is used to revise the target position. According to the intersection over union of the target of the global and local trackers, the tracking results can be classified into stable and unstable states. A stable state is when the intersection over union of the target boxes of the local and global trackers is greater than a certain threshold, while an unstable state indicates less than that threshold. In the unstable state, the following factors are considered simultaneously to analyze the tracker: main color similarity of the target in the current and initial frames, maximum response value of the response map, and moving distance from the center of the previous frame to the current frame. The lower the main color similarity, the more likely the tracker will be lost to the non-target player. The smaller the maximum response value of the response map, the lower is the reliability of the tracker. The moving distance of the tracker box is greater than a certain threshold, which indicates that the tracker is likely to have a sudden tracking drift in the current frame. Result We select 10 state-of-the-art tracking algorithms and compare them with the proposed algorithm on the public soccer dataset. The ablation experiment on the global-local tracking strategy is expanded. Experimental results show that the average valid overlap rate of the proposed tracking algorithm is 0.560 3, and when the target player is occluded by players in the same team and different teams, the average valid overlap rate of the proposed algorithm is 3.7% and 6.6% higher than that of the second-ranked algorithm, respectively.The evaluation results demonstrate that the player-aware tracking algorithm is more effective than other algorithms in addressing the disturbance by other similar players. However, the tracking speed is slow due to the increase of computational complexity by introducing the color model, deep model, and global-local tracking strategy. Conclusion We summarize the entire process of the proposed tracking algorithm and analyze the experimental results. Three strategies, namely, distractor-aware color model, target-aware deep model, and global-local tracking strategy, are demonstrated to play a crucial role in player tracking. In terms of the color model, the color histogram of the target player, background, and distractor are extracted, and the likelihood probability that each pixel in the search region belongs to the target is calculated by using the Bayesian formula. In terms of the deep model, a small regression network is adopted to select feature channels related to the target object from the deep feature, and the Siamese network is used to calculate the similarity between the search region and target object. To alleviate tracking drift, we use the global-local strategy to track the whole target and upper body of the target so that the failure location can be revised. This study provides a basic reference for further research on player tracking in broadcast soccer videos.

Key words

computer vision; image processing; object tracking; player tracking; distractor aware; target aware; global-local tracking strategy

0 引言

体育视频中的运动目标跟踪技术对于智能体育视频系统的发展与应用具有重要意义。作为拥有极高关注度的体育比赛之一，足球比赛视频中的球员跟踪算法吸引了不少研究人员的目光。足球比赛视频中的球员跟踪是指在初始帧给出目标球员的位置信息后，利用跟踪算法计算后续帧中目标球员的位置信息的技术。足球比赛视频中的球员跟踪为赛事分析提供了基础的数据支持：利用球员的移动距离、奔跑速度等参数帮助教练进行比赛数据分析；利用球员的运动轨迹、瞬间速度等参数帮助裁判对有争议的判罚进行裁定。

从20世纪50年代初起，目标跟踪取得丰富的研究成果，但是至今仍没有出现一种能够胜任所有场景的跟踪任务的算法。足球比赛视频中的球员跟踪依然存在以下挑战：1)目标球员所占面积较小，不利于目标球员的特征提取；2)目标球员周围常有相似球员干扰；3)目标球员可能被其他球员遮挡；4)跟踪漂移后无法重定位。

针对足球比赛视频这一特定跟踪场景，结合足球领域特点，提出并设计了一种球员感知的跟踪算法，利用手工特征和深度特征相结合的方式来增强球员的特征表达能力以缓解球员面积小且特征不明显的问题，利用干扰项感知的颜色模型来排除目标球员周围相似球员的干扰问题，采用局部跟踪器以及定位修正来解决球员被遮挡时可能引起的跟踪漂移问题，本文算法在公开的足球数据集上取得了优异的成绩。主要贡献如下：

1) 为了充分利用手工特征和深度特征的互补性，分别提取颜色特征和目标感知的深度特征描述目标球员。

2) 通过融合干扰项感知的颜色模型和目标感知的深度模型，提出并设计了一种球员感知的跟踪算法。

3) 使用全局和局部跟踪器分别对目标整体和目标上半身独立跟踪，在跟踪漂移时进行定位修正。

1 相关工作

通用的目标跟踪算法层出不穷。以核化相关滤波器(kernelized correlation filters, KCF)(Henriques等，2015)为代表的基于相关滤波的跟踪算法在实时性方面表现优秀，但不足以应对复杂背景干扰、相似物遮挡等情况。以深度学习跟踪器(deep learning tracker, DLT)(Wang和Yeung，2013)为代表的基于深度学习的跟踪算法则更侧重于性能，大多无法满足实时性。以全卷积孪生网络(fully-convolutional siamese networks, SiamFC)(Bertinetto等，2016b)为代表的使用孪生神经网络的跟踪算法兼顾了性能和实时性。

与通用的目标跟踪算法不同，足球视频中场景的复杂性和目标运动状态的不确定性限制了球员跟踪算法的研究。足球比赛视频中的跟踪算法大多结合检测算法，并且与足球比赛视频中的目标特点紧密联系。

Heydari和Moghadam(2012)提取YCbCr颜色空间下的特征值和区域面积作为特征，在第1阶段利用K均值聚类算法获取足球场地主色，结合足球领域知识和形态学操作去除场地上的非球员区域；在第2阶段利用多层感知神经网络将球员区域进一步细分为目标球员区域和非目标球员区域。娄娜等人(2007)利用颜色统计信息和像素边缘特征对球员区域进行检测，并为球员区域设置编号、球员模板坐标、区域中球员的编号和区域内球员个数4个属性，结合图像匹配进行球员跟踪。付龙(2015)利用卡尔曼滤波与局部区域匹配相结合的方法进行多球员跟踪，根据相邻帧之间的球员质心和球员面积的改变，判断当前帧是否发生遮挡，并在遮挡结束后及时利用匹配策略对球员进行重定位。王勋(2017)在HSV颜色空间下去除球场主色，提取上下两块球员主色直方图和哈尔特征，利用改进的传统在线多示例学习方法对球员进行跟踪。Lu等人(2011)利用可变形局部模型(deformable parts model, DPM)对足球场上的人物进行分类，建立条件随机场(conditional random fields, CRF)模型进行联合概率推理。Morais等人(2012)利用多个提前放置在足球场地上的固定摄像机拍摄到的画面，融合多摄像机的参数生成外观模型，投射到球场平面上以生成多峰双向概率函数，该球场平面概率能够反映球场平面上球员可能出现的位置。Seo等人(1997)在去除足球主场地和分割出球员区域的基础上，利用卡尔曼滤波与模板匹配相结合的方法对球员进行跟踪，并通过直方图反向投影的方式处理遮挡情况。马月洁等人(2018)利用目标检测数据集和足球视频数据集对全卷积孪生网络进行离线训练，获取适合球员跟踪任务的深度特征。Liu等人(2013)认为球员的运动与其附近的球员有高度相关性，利用层级间联系在长时间内跟踪多个球员。Li和Flierl(2012)提出一种基于SIFT(scale-invariant feature transform)特征多视角的方式进行多球员跟踪，假设未来的比赛视频会有多个视角的高分辨率摄像机拍摄，能提供自由视角的网上观看体验，球员精确的3D信息被高效地用于跟踪，通过共享所有摄像机的3D信息解决遮挡问题。Baysal和Duygulu(2016)提出了模型场地粒子的概念，把足球场地用一组密集采样的粒子集合来表示，使球员位置离散化，从全局上联合目标外观和运动模型进行位置可能性计算。Kataoka和Aoki(2011)在分割出足球场地的基础上，利用粒子滤波跟踪球员，利用Real AdaBoost分类器解决球员之间相互遮挡的问题，结合摄像机运动获得球员在球场上的运动轨迹。Mazzeo等人(2008)在利用背景去除法分割出运动球员和利用无监督聚类算法对运动球员分类的基础上，采用最大后验概率估计的方法跟踪球员。Najafzadeh等人(2015)提出将球员平均分为大小相同的头颈、躯干、脚3个块，分别统计每个块的颜色直方图，利用Bhattacharyya距离计算每个块的权重，以实现适应块的模型更新。Bastanfard等人(2019)在YCbCr颜色空间下检测并去除阴影，利用显著图算法检测球场区域，利用边缘检测、颜色检测和最大类间方差三大算法检测场上球员，结合改进的粒子滤波算法进行球员跟踪。

现有的足球球员跟踪算法大多在通用跟踪算法的基础上采用球场的颜色特征以增强跟踪器对足球场景的适应性，但是足球场景中球员面积小、特征不明显以及比赛中经常出现的球员遮挡情况没有得到很好的解决。本文针对这些挑战设计了球员感知的跟踪算法，通过引入目标感知的深度模型、干扰项感知的颜色模型以及局部跟踪器的方法提高了球员跟踪的准确率。

2 球员感知跟踪算法

如图 1所示，通过融合干扰项感知的颜色模型和目标感知的深度模型，提出并设计了一种球员感知的跟踪算法(players aware yracking model, PAT)。

图 1 球员感知跟踪算法整体流程图

Fig. 1 The flow chart of proposed players aware tracking algorithm

目标感知中的目标指目标球员，干扰项感知中的干扰项指目标球员周围的非目标球员。干扰项感知指在颜色模型中不仅考虑目标球员和背景的颜色差异，还考虑目标球员和干扰项的颜色差异。目标感知指在深度模型中使用与当前跟踪球员相关的深度特征，而非普通的VGG-16(Visual Geometry Group-16)(Simonyan和Zisserman，2015)深度特征。针对跟踪漂移问题，在线跟踪过程时使用全局跟踪器和局部跟踪器分别用于跟踪目标整体和目标上半身，当两个跟踪器的跟踪结果之间的距离大于一定阈值时，进行定位修正。

2.1 干扰项感知的颜色模型

利用目标颜色信息的跟踪算法，极容易受到与目标颜色相似的非目标物体的干扰。足球比赛中，目标球员周围常有颜色属性非常相似的同队球员出现，在目标周围出现的同队球员极有可能成为干扰项。如图 2所示，干扰项感知的颜色模型利用贝叶斯分类器对目标—背景以及目标—干扰项建模。

图 2 干扰项感知的颜色模型

Fig. 2 Distractor aware color model

2.1.1 目标—背景颜色模型

基于贝叶斯分类器的颜色模型首先对目标—背景建模，该模型直接在搜索图像中统计颜色信息：采取均匀量化的方式将RGB颜色空间中的三原色分量各划分成16个颜色区间，计算落在每个颜色区间的像素数量即可得到对应图像的颜色直方图。

记统计区域为$\mathit{\boldsymbol{S}}$，目标球员区域为$\mathit{\boldsymbol{T}}$，背景区域为$\mathit{\boldsymbol{B}}$，当前位置像素为$x$，当前位置像素所属颜色区间${\mathit{\boldsymbol{b}}_x}$，计算搜索图像中像素$x$属于目标的似然概率为

$ \begin{gathered} P\left(x \in \boldsymbol{T} \mid \boldsymbol{T}, \boldsymbol{B}, \boldsymbol{b}_{x}\right) \approx \\ P\left(\boldsymbol{b}_{x} \mid x \in \boldsymbol{T}\right) P(x \in \boldsymbol{T}) \\ \hline P\left(\boldsymbol{b}_{x} \mid x \in \boldsymbol{T}\right) P(x \in \boldsymbol{T})+P\left(\boldsymbol{b}_{x} \mid x \in \boldsymbol{B}\right) P(x \in \boldsymbol{B}) \end{gathered} $

(1)

像素点属于目标或者背景的先验概率可以利用颜色直方图简化表达为

$ P\left(\boldsymbol{b}_{x} \mid x \in \boldsymbol{T}\right) \approx \frac{H_{T}^{S}\left(\boldsymbol{b}_{x}\right)}{|\boldsymbol{T}|} $

(2)

$ P\left(\boldsymbol{b}_{x} \mid x \in \boldsymbol{B}\right) \approx \frac{H_{B}^{S}\left(\boldsymbol{b}_{x}\right)}{|\boldsymbol{B}|} $

(3)

式中，$H_T^S\left({{\mathit{\boldsymbol{b}}_x}} \right)$表示在目标颜色直方图中${\mathit{\boldsymbol{b}}_x}$颜色区间所对应的统计值，$H_B^S\left({{\mathit{\boldsymbol{b}}_x}} \right)$表示在背景颜色直方图中${\mathit{\boldsymbol{b}}_x}$颜色区间所对应的统计值，$\left| \mathit{\boldsymbol{T}} \right|$表示目标面积，$\left| \mathit{\boldsymbol{B}} \right|$表示背景面积。$P\left({x \in \mathit{\boldsymbol{T}}} \right)$和$P\left({x \in \mathit{\boldsymbol{B}}} \right)$可以用面积占比来表示，即

$ P(x \in \boldsymbol{T}) \approx \frac{|\boldsymbol{T}|}{|\boldsymbol{T}|+|\boldsymbol{B}|} $

(4)

$ P(x \in \boldsymbol{B}) \approx \frac{|\boldsymbol{B}|}{|\boldsymbol{T}|+|\boldsymbol{B}|} $

(5)

结合式(2)—(5)，式(1)可以简化表达为

$ \begin{gathered} P\left(x \in \boldsymbol{T} \mid \boldsymbol{T}, \boldsymbol{B}, \boldsymbol{b}_{x}\right)= \\ \begin{cases}\frac{H_{T}^{S}\left(\boldsymbol{b}_{x}\right)}{H_{T}^{S}\left(\boldsymbol{b}_{x}\right)+H_{B}^{S}\left(\boldsymbol{b}_{x}\right)} & \boldsymbol{b}_{x} \in\{\boldsymbol{b}(\boldsymbol{T} \cup \boldsymbol{B})\} \\ 0.5 & \text { 其他 }\end{cases} \end{gathered} $

(6)

当${\mathit{\boldsymbol{b}}_x} \notin \left\{ {\mathit{\boldsymbol{b}}\left({\mathit{\boldsymbol{T}} \cup \mathit{\boldsymbol{B}}} \right)} \right\}$时，该颜色区间在目标区域和背景区域中都不曾出现，颜色模型无法从先验概率中分辨该颜色更倾向于哪一方，故该情况下像素$x$属于目标的似然概率为0.5。

2.1.2 目标—干扰项颜色模型

干扰项生成工作将在在线跟踪中详细说明，现假设已知干扰项集合。与目标—背景颜色模型一样，分别统计目标和干扰项的颜色直方图，在目标—干扰项模型中像素$x$属于目标的似然概率为

$ \begin{array}{cl} P\left(x \in \boldsymbol{T} \mid \boldsymbol{T}, \boldsymbol{D}, \boldsymbol{b}_{x}\right)= \\ \begin{cases}\frac{n H_{T}^{S}\left(\boldsymbol{b}_{x}\right)}{n H_{T}^{S}\left(\boldsymbol{b}_{x}\right)+H_{D}^{S}\left(\boldsymbol{b}_{x}\right)} & \boldsymbol{b}_{x} \in\{b(\boldsymbol{T} \cup \boldsymbol{D})\} \\ 0.5 & \text { 其他 }\end{cases} \end{array} $

(7)

式中，$\mathit{\boldsymbol{D}}$代表所有的干扰项，$n$代表干扰项个数。$H_D^S\left({{\mathit{\boldsymbol{b}}_x}} \right)$代表在干扰项颜色直方图中${\mathit{\boldsymbol{b}}_x}$颜色区间所对应的统计值。

在得到目标—背景颜色模型和目标—干扰项颜色模型后，结合目标—背景模型和目标—干扰项模型，得到干扰项感知的颜色模型，即

$ \begin{gathered} P\left(x \in \boldsymbol{T} \mid \boldsymbol{b}_{x}\right)= \\ \lambda_{1} P\left(x \in \boldsymbol{T} \mid \boldsymbol{T}, \boldsymbol{B}, \boldsymbol{b}_{x}\right)+ \\ \left(1-\lambda_{1}\right) P\left(x \in \boldsymbol{T} \mid \boldsymbol{T}, \boldsymbol{D}, \boldsymbol{b}_{x}\right) \end{gathered} $

(8)

通过干扰项感知的颜色模型，计算搜索图像内各像素点属于目标的似然概率，得到搜索图像对应的像素级概率图，通过高斯投票机制进一步将像素级概率图转化为响应图。响应图中各响应值对应着一个固定尺寸的目标候选框。在计算目标候选框的响应得分时，不仅考虑了像素颜色属于目标的似然概率，还考虑了像素和上一帧目标中心点的距离。计算搜索图像的响应图${\mathit{\boldsymbol{M}}_1}$，即

$ \boldsymbol{M}_{1}=\left(s_{v}\left(\boldsymbol{T}_{t, i}\right) s_{d}\left(\boldsymbol{T}_{t, i}\right)\right) $

(9)

$ s_{v}\left(\boldsymbol{T}_{t, i}\right)=\sum\limits_{x \in \boldsymbol{T}_{t, i}} P_{t}\left(x \in \boldsymbol{T} \mid \boldsymbol{b}_{x}\right) $

(10)

$ s_{d}\left(\boldsymbol{T}_{t, i}\right)=\sum\limits_{x \in \boldsymbol{T}_{t, i}} \mathrm{e}^{-\frac{\left\|_{x-c_{t-1}}\right\|^{2}}{2 \sigma^{2}}} $

(11)

式中，${\mathit{\boldsymbol{T}}_{t, i}}$代表第$t$帧的第$i$个候选框，${s_v}\left(\cdot \right)$代表候选框的投票得分，${s_d}\left(\cdot \right)$代表候选框的距离得分。${c_{t - 1}}$代表第$t - 1$帧的目标中心位置，$\sigma $为高斯函数中的标准方差参数。

2.2 目标感知的深度模型

如图 3所示，目标感知的深度模型将目标感知的深度特征嵌入孪生网络，将模板分支(template)输出的特征通过由单层卷积网络(Conv)和L2损失函数(L2 Loss)组成的回归网络生成目标激活向量(activate vector)，通过目标激活向量作用于原始深度特征，便可以得到目标感知的深度特征，目标感知的深度特征作为卷积核，与检测分支(search region)输出的目标感知的深度特征做相关操作(Corr)，得到搜索图像的响应图${\mathit{\boldsymbol{M}}_2}$。

图 3 目标感知的深度模型

Fig. 3 Target aware deep model

2.2.1 目标感知的深度特征

VGG-16(Simonyan和Zisserman，2015)在ImageNet上训练得到的深度神经网络模型学习到一组丰富的、有辨别力的特征来识别不同类别的物体。VGG-16共包含13个卷积层，4 224个卷积滤波器，每个卷积滤波器捕获一个特定的特征模式。VGG-16中所有的卷积滤波器构造了一个包含1 000个类别的特征空间，在该特征空间中，深度特征的每一个维度代表了不同的特征组合，特定的特征组合可以识别特定的类别。一个特定的类别的分类响应只集中在特定的深度特征通道上，而不是所有深度特征通道。

针对当前跟踪球员，利用小型回归网络在VGG-16深度特征中选择与该跟踪球员相关的特征通道。小型回归网络结构试图将目标样本特征通过以下方式拟合高斯分布：

1) 输入初始帧搜索图像的深度特征作为目标样本。

2) 经过一个卷积层，卷积核大小为目标图像特征的大小，卷积核个数为1。

3) 真实响应值为高斯标签值，越靠近目标中心的位置标签值越高，越远离目标中心的位置标签值越低。输出损失函数为L2损失，损失函数为

$ L=\|\boldsymbol{Y}(i, j)-\boldsymbol{W} * \boldsymbol{X}(i, j)\|^{2}+\lambda\|\boldsymbol{W}\|^{2} $

(12)

式中，$\mathit{\boldsymbol{Y}}\left({i, j} \right) = {{\rm{e}}^{ - \frac{{{i^2} + {j^2}}}{{2{\sigma ^2}}}}}$，$\left({i, j} \right)$代表该像素点到目标中心的偏移量，$\mathit{\boldsymbol{Y}}\left({i, j} \right)$代表该像素点的高斯响应值，$\mathit{\boldsymbol{W}}$为卷积参数，$\mathit{\boldsymbol{X}}\left({i, j} \right)$为目标图像的VGG-16深度特征，$\lambda $为正则化参数。

等模型收敛后，对目标图像的VGG-16深度特征反向求导，获得深度特征各个通道的梯度值，各通道的梯度值代表了该特征通道对于拟合高斯分布任务的贡献，即

$ \frac{\partial L}{\partial \boldsymbol{X}}=\sum\limits_{i, j} 2(\boldsymbol{Y}(i, j)-\boldsymbol{W} * \boldsymbol{X}(i, j)) \times \boldsymbol{W} $

(13)

各个特征通道的重要性度量方法为

$ \theta_{k}=G_{\mathrm{AP}}\left(\frac{\partial L}{\partial \boldsymbol{X}_{k}}\right) $

(14)

式中，$k$代表特征通道，${\theta _k}$代表第$k$个特征通道的重要程度，${G_{{\rm{AP}}}}\left(\cdot \right)$为全局平均池化函数。

根据特征通道重要性，生成目标激活向量$\mathit{\boldsymbol{v}}$，该向量维度和样本特征通道数保持一致。目标激活向量$\mathit{\boldsymbol{v}}$仅激活排在前$m$位的特征通道，其余通道不激活，即

$ v_{k}= \begin{cases}1 & {rank}\left(\theta_{k}, \theta_{1}: \theta_{m}\right) \leqslant m \\ 0 & \text {其他 }\end{cases} $

(15)

计算目标感知的深度特征

$ \boldsymbol{X}_{\text {target_activate }}=\boldsymbol{X}_{\text {original }} \cdot \boldsymbol{v} $

(16)

式中，${\mathit{\boldsymbol{X}}_{{\rm{original}}}}$表示激活前的原始特征，即从VGG-16直接提取出的特征, ${\mathit{\boldsymbol{X}}_{{\rm{target}}\_{\rm{activate}}}}$表示激活后的特征。

2.2.2 孪生网络

孪生网络将目标跟踪问题转化为相似性学习问题，两路分支分别为模板分支和检测分支，两分支共享一个神经网络模型和一套模型参数。

对于模板分支，提取初始帧目标图像的VGG-16第10层深度特征，将该深度特征与目标激活向量$\mathit{\boldsymbol{v}}$相乘，得到初始帧目标图像的目标感知的深度特征。对于检测分支，同样地，提取当前帧搜索图像的VGG-16第10层深度特征，将该深度特征与目标激活向量$\mathit{\boldsymbol{v}}$相乘，得到当前帧搜索图像的目标感知的深度特征。

将模板分支输出的目标感知的深度特征作为卷积核，与检测分支输出的目标感知的深度特征做卷积操作，得到搜索图像的响应图${\mathit{\boldsymbol{M}}_2}$，即

$ \boldsymbol{M}_{2}=\left(\boldsymbol{X}_{1} \cdot \boldsymbol{v}\right) *\left(\boldsymbol{X}_{t} \cdot \boldsymbol{v}\right) $

(17)

卷积操作相当于对搜索图像进行密集的滑动窗口评估，每一次评估计算了滑动窗口图像特征与模板图像特征的相关性，如果这两个图像所描绘的对象高度相似则返回高分，否则返回低分。

目标跟踪任务需要在搜索图像中进行像素级别的定位，而卷积操作得到的搜索区域的响应图${\mathit{\boldsymbol{M}}_2}$比搜索区域本身小很多，因此需要对响应图进行上采样。上采样的方式有多种，如双线性插值、反卷积和反池化等，故采用双线性插值将响应图重新映射回搜索图像。

2.3 融合模型

融合干扰项感知的颜色模型和目标感知的深度模型，即可得到PAT。在线跟踪时，同时使用全局跟踪器和局部跟踪器跟踪目标整体和目标上半身，在一个跟踪器发生跟踪漂移时，使用另一个跟踪器进行定位修正。

2.3.1 初始化

全局跟踪器的初始目标球员位置用一个矩形目标框表示为$\left({{x_g}, {y_g}, {w_g}, {h_g}} \right)$，局部跟踪器的初始局部目标位置则用矩形目标框表示为$\left({{x_g}, {y_g}, {w_g}, {h_g}/2} \right)$。

对于全局跟踪器，初始化一个干扰项感知的深度模型、一个目标感知的深度模型和一个目标主色。根据颜色直方图中颜色块索引相对应的颜色出现的频率高低对颜色块索引进行排序，得到4 096×1的向量，提取其中前$n$个颜色索引构成一个$n$×1的向量，作为目标主色。目标主色用于辅助分析跟踪器有效性。

对于局部跟踪器的初始化工作和全局跟踪器完全一致。

2.3.2 在线跟踪

对于局部跟踪器，为了对目标球员进行简单尺度估计，利用双线性插值得到3个不同尺度的搜索图像。3个不同尺度的搜索图像经过干扰项感知的颜色模型得到多尺度颜色模型响应图${\mathit{\boldsymbol{M}}_1}$；经过目标感知的深度模型得到多尺度深度模型响应图${\mathit{\boldsymbol{M}}_2}$。将相同尺度因子所对应的颜色模型响应图和深度模型响应图加权融合，得到多尺度融合响应图，即

$ \boldsymbol{M}=\lambda_{2} \boldsymbol{M}_{1}+\left(1-\lambda_{2}\right) \boldsymbol{M}_{2} $

(18)

在多尺度融合响应图中，最大响应值所对应的尺度因子为当前帧目标的尺度；最大响应值对应的位置为当前帧目标的中心位置，两者结合得到当前帧的目标框。

由于同一个镜头中的非目标球员和目标球员的尺寸相差不大，故干扰项尺寸和当前目标尺寸保持一致。在最大响应值所在的融合响应图中，干扰项生成过程步骤为：

1) 根据融合响应图$\mathit{\boldsymbol{M}}$，选择主峰位置对应候选框为当前目标框，记最大置信度为${C_{\max }}$，并将其加入干扰项候选集合$\mathit{\boldsymbol{P}}$中。

2) 选择融合响应图中置信度大于$\beta \cdot {C_{\max }}$的除当前目标框以外的候选框，将其加入干扰项候选集合$\mathit{\boldsymbol{P}}$，根据置信度对$\mathit{\boldsymbol{P}}$中候选框进行降序排序。

3) 选择当前$\mathit{\boldsymbol{P}}$中最大置信度对应的候选框$\mathit{\boldsymbol{d}}$，将其从$\mathit{\boldsymbol{P}}$中删除并加入干扰项集合$\mathit{\boldsymbol{D}}$，计算$\mathit{\boldsymbol{d}}$与$\mathit{\boldsymbol{P}}$中所有候选框${\mathit{\boldsymbol{d}}_i}$的交并比(intersection over union, IoU)，若交并比大于阈值则将该${\mathit{\boldsymbol{d}}_i}$从$\mathit{\boldsymbol{P}}$中删除。

4) 重复步骤3)，直到当前$\mathit{\boldsymbol{P}}$为空。

5) 将当前$\mathit{\boldsymbol{D}}$中置信度最大的侯选框删除。

局部跟踪器的在线跟踪算法和全局跟踪器完全一致。

2.3.3 定位修正

根据全局跟踪器和局部跟踪器的目标框的交并比，跟踪可分为理想、稳定和不稳定3种状态。局部跟踪器和全局跟踪器的目标框的IoU为0.5时，跟踪处于理想状态；大于某阈值时，跟踪处于稳定状态；小于该阈值时，跟踪处于不稳定状态。

不稳定状态下，综合考虑以下因素对跟踪器进行分析：1)当前跟踪框和初始跟踪框的主色相关度；2)响应图最高响应值；3)前一帧跟踪框中心到当前跟踪框中心的移动距离。提取当前目标框的主色，与初始帧的目标主色进行相关性计算，主色相关度越低，说明跟踪器越有可能跟丢到非目标球员；跟踪器的响应图最高响应值越小，在某种程度上说明跟踪器的可靠性越低；跟踪框的移动距离大于一定的阈值，说明跟踪器在当前帧很有可能突然发生跟踪漂移。定位修改过程步骤为：

1) 计算修正前全局跟踪框(x_g, y_g, w_g, h_g) 和局部跟踪框(x_p, y_p, w_p, h_p) 的IoU。如果满足1>IoU≥ θ₁，进入步骤5)；如果不满足，进入步骤2)。

2) 获取相关参数：Move_g，Con_g，CC_g，Move_p，Con_p，CC_p。Move代表上一帧目标框中心到当前目标框中心的移动距离，Con代表跟踪器响应图的最大响应值，CC代表当前目标框和其初始帧目标框的主色相关性，下标g代表全局跟踪器，下标p代表局部跟踪器。

3) 如果满足Move_g > θ₂，Con_p > Con_g×θ₃，CC_p - CC_g>θ₄三个条件中的任何一个，则判定全局跟踪器失效，局部跟踪器有效，全局跟踪框被修正为(x_p, y_p, w_p, 2h_p)，进入步骤5)；如果不满足，进入步骤4)。

4) 如果满足Move_p > θ₂，Con_g < Con_p×θ₃，CC_g - CC_p>θ₄三个条件中的任何一个，则判定局部跟踪器失效，全局跟踪器有效，局部跟踪框被修正为(x_g, y_g, w_g, h_g/2)。

5) 输出修正后的全局跟踪框(x_g, y_g, w_g, h_g) 和局部跟踪框(x_p, y_p, w_p, h_p)。

定位修正前，局部跟踪框为(x_p, y_p, w_p, h_p)，全局跟踪框为(x_g, y_g, w_g, h_g)，如果算法认为全局跟踪器有效、局部跟踪器失效，局部跟踪器的跟踪结果则会被修正为(x_g, y_g, w_g, h_g/2)；反之，全局跟踪器的跟踪结果则会被修正为(x_p, y_p, w_p, 2 h_p)。最终，全局跟踪器的跟踪结果将作为输出的跟踪结果用于跟踪器性能分析。

2.3.4 模型更新

无论是全局跟踪器还是局部跟踪器，初始帧的目标主色绝对可靠，更新操作可能会造成目标主色被污染，故目标主色不更新；干扰项感知的颜色模型中，目标球员的颜色偶尔受光照影响或者部分被其他球员遮挡产生变化，且目标球员周围的干扰项也会发生颜色变化，故对颜色模型采用逐帧更新的策略以适应目标和干扰项在跟踪过程中的颜色变化；目标感知的深度模型中，在得到目标激活向量和模板分支上输出的目标感知的深度特征后，目标激活向量和模板分支就不再逐帧计算。全局跟踪器和局部跟踪器都具有一个固定不变的深度模型和一个逐帧更新的颜色模型，这种模型更新策略使得算法既能捕捉目标在跟踪过程中发生的外观变化，又能防止因连续更新造成的算法退化问题。

颜色模型的更新情况可以分为以下3种：

1) 当前帧全局跟踪器和局部跟踪器均有效。该情况下，对于全局跟踪器，假设当前帧为第$t$帧，$\eta $为更新率，${P_{t - 1}}\left({x \in \mathit{\boldsymbol{T}}|{b_x}} \right)$为更新前的颜色模型，$P\left({x \in \mathit{\boldsymbol{T}}|{b_x}} \right)$为学习到的当前帧的颜色模型，${P_t}\left({x \in \mathit{\boldsymbol{T}}|{b_x}} \right)$为更新后的颜色模型，使用线性插值的方法对其颜色模型进行更新，具体为

$ \begin{gathered} P_{t}\left(x \in \boldsymbol{T} \mid b_{x}\right)= \\ \eta P\left(x \in \boldsymbol{T} \mid b_{x}\right)+(1-\eta) P_{t-1}\left(x \in \boldsymbol{T} \mid b_{x}\right) \end{gathered} $

(19)

对于局部跟踪器，采用和全局跟踪器相同的方式对其颜色模型进行更新。

2) 当前帧全局跟踪器失效、局部跟踪器有效。该情况下，全局跟踪器被判定为失效跟踪器，说明前若干帧的颜色模型很有可能被污染，为避免其颜色模型产生错误累积，利用修正后的全局跟踪框重新初始化其颜色模型。故对于全局跟踪器，对其颜色模型进行重新初始化

$ P_{t}\left(x \in \boldsymbol{T} \mid b_{x}\right)=P\left(x \in \boldsymbol{T} \mid b_{x}\right) $

(20)

对于局部跟踪器，采用式(19)对其颜色模型进行更新。

3) 当前帧全局跟踪器有效、局部跟踪器失效。该情况下，对于全局跟踪器，采用式(19)对其颜色模型进行更新；对于局部跟踪器，采用式(20)对其颜色模型进行更新。

3 实验

3.1 数据集

实验采用的数据集为Soccer DatasetV2，该数据集由Yu等人(2018)提出的Soccer Dataset改进而来。Soccer Dataset采用固定目标框对目标球员进行标注，这种标注方式较简单，但是得到的目标框不够精准。为获得更准确的实验结果，Soccer DatasetV2对标注方式进行改进，摒弃固定目标框，采用精确的目标框对目标球员进行标注。Soccer DatasetV2具体分布如表 1所示。

表 1 Soccer DatasetV2数据集分布
Table 1 Distribution of Soccer DatasetV2

下载CSV

场景类型	图像序列编号	帧数
无遮挡场景	1~20	5 385
同队队员遮挡场景	21~40	3 954
异队队员遮挡场景	41~60	5 060
多遮挡场景	61~80	5 509

Soccer DatasetV2序列均来自远镜头中的连续图片帧，共包含80个彩色图像序列，平均每个图像序列249帧，最短序列101帧，最长序列600帧，共19 908个精准目标框。根据目标球员被遮挡的情况，Soccer DatasetV2划分为4类场景：第1类场景中目标球员没有被任何物体遮挡；第2类场景中目标球员被同队球员遮挡；第3类场景中目标球员被异队队员遮挡；第4类场景中目标球员同时被多个球员遮挡。

3.2 评价指标

评价跟踪算法一般从跟踪算法的跟踪准确率和跟踪算法的跟踪速度两个方面进行考虑。

跟踪速度采用每秒跟踪帧数(frames per second, FPS)作为评价指标。

跟踪准确度采用平均有效重叠率(average valid overlap，AVO)作为跟踪准确度方面的评价指标。计算为

$ A V O=\frac{1}{M} \sum\limits_{m=1}^{M} A V O_{m} $

(21)

式中，$M$为足球序列的个数，$AV{O_m}$为第$m$个序列的平均有效重叠率，$AV{O_m}$计算为

$ A V O_{m}=\frac{1}{N_{m}} \sum\limits_{t=1}^{N_{m}} \varphi_{m, t} $

(22)

式中，${N_m}$为第$m$个序列的总帧数，${\varphi _{m, t}}$为第$m$个序列的第$t$帧的重叠率，计算为

$ \varphi_{m, t}=\frac{\boldsymbol{A}_{m, t}^{G} \cap \boldsymbol{A}_{m, t}^{\mathrm{T}}}{\boldsymbol{A}_{m, t}^{G} \cup \boldsymbol{A}_{m, t}^{\mathrm{T}}} $

(23)

式中，$\mathit{\boldsymbol{A}}_{m, t}^G$为第$m$个序列的第$t$帧人工标注的目标框，$\mathit{\boldsymbol{A}}_{m, t}^{\rm{T}}$为第$m$个序列的第$t$帧的目标框，当${\varphi _{m, t}}$小于0.5时，将其重置为0，即

$ \varphi_{m, t}= \begin{cases}\varphi_{m, t} & \varphi_{m, t} \geqslant 0.5 \\ 0 & \text { 其他 }\end{cases} $

(24)

3.3 跟踪准确度对比分析

实验选取ATOM(accurate tracking by overlap maximization)(Danelljan等，2019)、CFNet(correlation filter network)(Valmadre等，2017)、CN(color name)(Danelljan等，2014b)、DAT(distractor-aware tracker)(Possegger等，2015)、DCFNet(discriminant correlation filters network)(Wang等，2017)、DSST(discriminative scale space tracker)(Danelljan等，2019)、SiamFC(fully-convolutional siamese networks)(Bertinetto等，2016b)、SiamRPN++(siamese visual tracking with very deep networks)(Li等，2019)、SiamRPNRes22(deeper and wider siamese networks)(Zhang和Peng，2019)和Staple(sum of template and pixel-wise learners)(Bertinetto等，2016a)作为对比跟踪器。PAT-nopart表示本文算法没有采用局部跟踪器以及定位修正策略的结果。

各跟踪器在Soccer DatasetV2上的跟踪准确度表现如表 2所示。

表 2 各跟踪器在Soccer DatasetV2上的AVO
Table 2 The AVO measurement on Soccer DatasetV2 of each tracking algorithm

下载CSV

跟踪器	AVO1	AVO2	AVO3	AVO4	平均AVO
ATOM	0.758 5	0.358 5	0.425 0	0.202 5	0.436 1
CFNet	0.632 0	0.364 5	0.437 0	0.350 5	0.446 0
CN	0.519 5	0.190 5	0.208 0	0.172 5	0.272 6
DAT	0.694 5	0.356 0	0.499 0	0.334 0	0.470 9
DCFNet	0.688 5	0.455 5	0.490 5	0.375 5	0.502 5
DSST	0.583 5	0.265 0	0.239 5	0.224 0	0.328 0
SiamFC	0.597 0	0.264 5	0.321 5	0.234 0	0.354 3
SiamRPN++	0.798 0	0.471 0	0.490 0	0.295 5	0.513 6
SiamRPNRes22	0.549 0	0.273 0	0.385 5	0.196 0	0.350 9
Staple	0.621 5	0.352 0	0.451 0	0.363 0	0.446 9
PAT-nopart	0.609	0.197 5	0.217 5	0.085 5	0.277 4
PAT	0.722 5	0.508 0	0.564 5	0.446 5	0.560 3
平均值	0.647 9	0.338 0	0.394 1	0.273 3	0.413 3
注：加粗字体和斜体分别表示最优和次优结果。

3.3.1 局部跟踪器消融实验的表现

从实验结果中可以看出，在不采用局部跟踪器以及定位修正模块时，本文算法的准确度表现不佳。主要原因是在出现球员遮挡的情况下容易发生跟踪漂移，而跟踪漂移多发生在整个序列前几帧，从而使整个视频序列跟踪失败，导致出现无效结果。PAT-nopart与PAT的实验结果说明了球员跟踪的重大挑战在于相似球员之间的遮挡与干扰，在足球场景的球员跟踪算法中增加局部跟踪以及重新定位模块对整个算法有着巨大的提升作用。

3.3.2 无遮挡场景的表现

无遮挡场景是足球比赛视频中最简单的场景，目标球员周围大多是单一的场地背景，该场景下目标球员可能快速跑动，跟踪算法需要对目标快速运动及时作出反应。实验结果显示，各跟踪器在无遮挡场景下的跟踪准确度的排名依次为：SiamRPN++>ATOM>PAT>DAT>DCFNet>CFNet>Staple>SiamFC>DSST>SiamRPNRes22>CN。各跟踪器在无遮挡场景下的平均AVO得分为0.651 3，其中，PAT以0.722 5的单项得分排名第3，且与排名第1的SiamRPN++相差7.6%。

3.3.3 同队球员遮挡场景的表现

同队球员遮挡场景下，目标球员和同队球员非常相似，需要跟踪算法具备极强的辨别能力。实验结果显示，各跟踪器在同队遮挡场景下的跟踪准确度的排名依次为：PAT>SiamRPN++>DCFNet>CFNet>ATOM>DAT>Staple>SiamRPNRes22>DSST>SiamFC>CN。各跟踪器在同队球员遮挡场景下的平均AVO得分为0.350 8，其中，PAT以0.508 0的单项得分排名第1，且比排名第2的SiamRPN++高出3.7%。

3.3.4 异队球员遮挡场景的表现

异队球员遮挡场景下，不同球队队员间颜色差距较大，目标球员较容易辨认，但是跟踪算法需要有良好的模型更新机制应对长时间的异队球员遮挡带来的样本污染问题。实验结果显示，各跟踪器在异队遮挡场景下的跟踪准确度的排名依次为：PAT>DAT>DCFNet>SiamRPN++>Staple>CFNet>ATOM>SiamRPNRes22>SiamFC>DSST>CN。各跟踪器在异队球员遮挡场景下的平均AVO得分为0.410 1，其中，PAT以0.564 5的单项得分排名第1，且比排名第2的DAT高出6.6%。

3.3.5 综合场景的表现

实验结果显示，各跟踪器在所有场景下的跟踪准确度的排名依次为：PAT>SiamRPN++>DCFNet>DAT>Staple>CFNet>ATOM>SiamFC>SiamRPNRes22>DSST>CN。各跟踪器在所有场景下的平均AVO得分为0.425 6，其中，PAT以0.560 3的综合得分排名第1，且比排名第2的SiamRPN++高出4.7%。

3.3.6 结果分析

从各个跟踪器在各个场景下的AVO数值分布看，4个场景的跟踪难度从高到低依次为：多球员遮挡场景>同队球员遮挡场景>异队球员遮挡场景>无遮挡场景。各个跟踪器在无遮挡场景下的表现均不错。除了无遮挡场景，PAT在其他3个场景下均排名第1，且相较于这3个场景下排名第2的算法均有不同程度的提升。按照PAT在各个场景下相对第2名的提升排名依次为：多球员遮挡场景>同队球员遮挡场景>异队球员遮挡场景。这说明PAT在足球比赛视频中的简单场景下表现良好，且相比其他各种类型的跟踪算法更能从容应对足球比赛视频中的高难度跟踪场景。这得益于以下几点：

1) 干扰项感知的颜色模型法能够轻松辨别目标球员与异队球员，同时能够帮助辨别目标球员与同队球员;

2) 目标感知的深度特征有利于区分类内差异，增强了算法对目标球员与其他球员的辨别能力；

3) 深度模型固定不更新，使得PAT在目标球员被遮挡后仍能够“记得”目标球员；

4) 跟踪算法出现漂移现象时，PAT中的局部跟踪器及时与全局跟踪器协同工作, 修正目标定位。

3.4 跟踪速度对比分析

各跟踪算法在Soccer DatasetV2上的跟踪速度如表 3所示。实验结果表明，各跟踪器在跟踪速度方面的排名依次为：CN>DSST>DAT>Staple>DCFNet>SiamRPNRes22>SiamFC>ATOM>CFNet>PAT>SiamRPN++。

表 3 各跟踪器在Soccer DatasetV2上的FPS
Table 3 The FPS measurement on Soccer DatasetV2 of each tracking algorithm

下载CSV

算法	帧率/(帧/s)
ATOM	17.02
CFNet	17.00
CN	120.92
DAT	66.97
DCFNet	32.94
DSST	69.73
SiamFC	23.68
SiamRPN++	8.44
SiamRPNRes22	23.88
Staple	60.92
PAT	9.79
注：加粗字体和斜体分别表示最优和次优结果。

干扰项感知的颜色模型除了要计算目标—背景颜色模型，还要计算目标—干扰项颜色模型，故干扰项感知的颜色模型的计算量是普通颜色模型的两倍。目标感知的深度模型需要在初始帧在线训练一个回归网络。局部跟踪器的加入使得PAT的计算量增加近一倍。上述一系列操作增加了算法的计算复杂度，导致该算法无法达到实时性要求。

4 结论

针对足球比赛视频这一特定跟踪场景，通过融合干扰项感知的颜色模型和目标感知的深度模型，提出了一种球员感知的跟踪算法。颜色模型方面，提取目标球员、背景以及干扰项的颜色直方图，利用贝叶斯公式计算搜索图像中各像素点属于目标的似然概率。深度模型方面，利用回归网络从深度特征中选择与当前跟踪目标相关的特征通道，利用孪生网络计算搜索图像与目标图像的相似度。此外，针对跟踪漂移问题，提出使用全局跟踪器和局部跟踪器分别跟踪目标整体和目标上半身，当两个跟踪结果的距离大于一定的阈值时，通过主色相关度、最高响应值和移动距离等参数判断两个跟踪器的有效性，利用有效跟踪器的跟踪结果修正失效跟踪器的跟踪结果。实验结果表明，在相似球员干扰和遮挡等挑战下，球员感知跟踪算法的跟踪效果明显优于其他算法。但是由于干扰项感知的颜色模型计算、目标感知的深度模型计算和局部跟踪器的加入等增加了算法计算复杂度，跟踪速度较慢，未来工作将聚焦在算法优化，减少重复计算，提高算法的跟踪效率。

参考文献

Bastanfard A, Jafari S and Amirkhani D. 2019. Improving tracking soccer players in shaded playfield video//Proceedings of the 5th Iranian Conference on Signal Processing and Intelligent Systems. Shahrood, Iran: IEEE: 1-8[DOI: 10.1109/ICSPIS48872.2019.9066103]

Baysal S, Duygulu P. 2016. Sentioscope: a soccer player tracking system using model field particles. IEEE Transactions on Circuits and Systems for Video Technology, 26(7): 1350-1362 [DOI:10.1109/TCSVT.2015.2455713]

Bertinetto L, Valmadre J, Golodetz S, Miksik O and Torr P H S. 2016a. Staple: complementary learners for real-time tracking//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 1401-1409[DOI: 10.1109/CVPR.2016.156]

Bertinetto L, Valmadre J, Henriques J F, Vedaldi A and Torr P H S. 2016b. Fully-convolutional Siamese networks for object tracking//Proceedings of the European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 850-865[DOI: 10.1007/978-3-319-48881-3_56]

Danelljan M, Bhat G, Khan F S and Felsberg M. 2019. ATOM: accurate tracking by overlap maximization//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 4655-4664[DOI: 10.1109/CVPR.2019.00479]

Danelljan M, Häger G, Khan F S and Felsberg M. 2014a. Accurate scale estimation for robust visual tracking//Proceedings of British Machine Vision Conference. Guildford, Surrey UK: British Machine Vision Association Press: #79[DOI: 10.5244/C.28.65]

Danelljan M, Khan F S, Felsberg M and Van De Weijer J. 2014b. Adaptive color attributes for real-time visual tracking//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE: 1090-1097[DOI: 10.1109/CVPR.2014.143]

Fu L. 2015. A Method for Multi-Target Tracking in Soccer Videos. Shijiazhuang: Hebei University of Technology (付龙. 2015. 足球视频中多目标跟踪算法研究. 石家庄: 河北工业大学)

Henriques J F, Caseiro R, Martins P, Batista J. 2015. High-speed tracking with kernelized correlation filters. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(3): 583-596 [DOI:10.1109/TPAMI.2014.2345390]

Heydari M and Moghadam A M E. 2012. An MLP-based player detection and tracking in broadcast soccer video//Proceedings of 2012 International Conference of Robotics and Artificial Intelligence. Rawalpindi, Pakistan: IEEE: 195-199[DOI: 10.1109/ICRAI.2012.6413398]

Kataoka H and Aoki Y. 2011. Football players and ball trajectories projection from single camera's image//Proceedings of the 17th Korea-Japan Joint Workshop on Frontiers of Computer Vision. Ulsan, Korea (South): IEEE: 1-4[DOI: 10.1109/FCV.2011.5739712]

Li B, Wu W, Wang Q, Zhang F Y, Xing J L and Yan J J. 2019. SiamRPN++: evolution of Siamese visual tracking with very deep networks//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 4277-4286[DOI: 10.1109/CVPR.2019.00441]

Li H P and Flierl M. 2012. Sift-based multi-view cooperative tracking for soccer video//Proceedings of 2012 IEEE International Conference on Acoustics, Speech and Signal Processing. Kyoto, Japan: IEEE: 1001-1004[DOI: 10.1109/ICASSP.2012.6288054]

Liu J C, Carr P, Collins R T and Liu Y X. 2013. Tracking sports players with context-conditioned motion models//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA: IEEE: 1830-1837[DOI: 10.1109/CVPR.2013.239]

Lou N, He N Z, Shi B C. 2007. Detection and tracking in soccer video sequences. Computer Engineering and Applications, 43(2): 227-230 (娄娜, 何南忠, 施保昌. 2007. 足球视频中的目标检测与跟踪. 计算机工程与应用, 43(2): 227-230) [DOI:10.3321/j.issn:1002-8331.2007.02.067]

Lu W L, Ting J A, Murphy K P and Little J J. 2011. Identifying players in broadcast sports videos using conditional random fields//Proceedings of the Conference on Computer Vision and Pattern Recognition. Colorado Springs, USA: IEEE: 3249-3256[DOI: 10.1109/CVPR.2011.5995562]

Ma Y J, Feng S, Wang Y B. 2018. Research on player tracking algorithm based on deep learning. Journal of Communication University of China (Science and Technology), 25(3): 60-64 (马月洁, 冯爽, 王永滨. 2018. 基于深度学习的足球球员跟踪算法研究. 中国传媒大学学报(自然科学版), 25(3): 60-64) [DOI:10.16196/j.cnki.issn.1673-4793.2018.03.009]

Mazzeo P L, Spagnolo P, Leo M and D'Orazio T. 2008. Visual players detection and tracking in soccer matches//Proceedings of the 5th International Conference on Advanced Video and Signal Based Surveillance. Santa Fe, USA: IEEE: 326-333[DOI: 10.1109/AVSS.2008.33]

Morais E, Goldenstein S, Ferreira A and Rocha A. 2012. Automatic tracking of indoor soccer players using videos from multiple cameras//Proceedings of the 25th SIBGRAPI Conference on Graphics, Patterns and Images. Ouro Preto, Brazil: IEEE: 174-181[DOI: 10.1109/SIBGRAPI.2012.32]

Najafzadeh N, Fotouhi M and Kasaei S. 2015. Multiple soccer players tracking//Proceedings of the International Symposium on Artificial Intelligence and Signal Processing. Mashhad, Iran: IEEE: 310-315[DOI: 10.1109/AISP.2015.7123503]

Possegger H, Mauthner T and Bischof H. 2015. In defense of color-based model-free tracking//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 2113-2120[DOI: 10.1109/CVPR.2015.7298823]

Seo Y, Choi S, Kim H and Hong K S. 1997. Where are the ball and players? Soccer game analysis with color-based tracking and image mosaick//Proceedings of the Image Analysis and Processing. Florence, Italy: Springer: 196-203[DOI: 10.1007/3-540-63508-4_123]

Simonyan K and Zisserman A. 2015. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2020-08-21]. https://arxiv.org/pdf/1409.1556v4.pdf

Valmadre J, Bertinetto L, Henriques J, Vedaldi A and Torr P H S. 2017. End-to-end representation learning for correlation filter based tracking//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 5000-5008[DOI: 10.1109/CVPR.2017.531]

Wang N Y and Yeung D Y. 2013. Learning a deep compact image representation for visual tracking//Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe, USA: Curran Associates Inc. : 809-817

Wang Q, Gao J, Xing J L, Zhang M D and Hu W M. 2017. DCFNet: discriminant correlation filters network for visual tracking[EB/OL]. [2020-08-21]. https://arxiv.org/pdf/1704.04057.pdf

Wang X. 2017. Research on Player Tracking Algorithm in Soccer Video. Wuhan: Huazhong University of Science and Technology (王勋. 2017. 足球视频中球员跟踪算法研究. 武汉: 华中科技大学)

Yu J Q, Lei A P, Song Z K, Wang T T, Cai H Y and Feng N. 2018. Comprehensive dataset of broadcast soccer videos//Proceedings of 2018 IEEE Conference on Multimedia Information Processing and Retrieval. Miami, USA: IEEE: 418-423[DOI: 10.1109/MIPR.2018.00090]

Zhang Z P and Peng H W. 2019. Deeper and wider Siamese networks for real-time visual tracking//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 4586-4595[DOI: 10.1109/CVPR.2019.00472]