网刊加载中。。。

0引言体育视频中的运动目标跟踪技术对于智能体育视频系统的发展与应用具有重要意义。作为拥有极高关注度的体育比赛之一，足球比赛视频中的球员跟踪算法吸引了不少研究人员的目光。足球比赛视频中的球员跟踪是指在初始帧给出目标球员的位置信息后，利用跟踪算法计算后续帧中目标球员的位置信息的技术。足球比赛视频中的球员跟踪为赛事分析提供了基础的数据支持：利用球员的移动距离、奔跑速度等参数帮助教练进行比赛数据分析；利用球员的运动轨迹、瞬间速度等参数帮助裁判对有争议的判罚进行裁定。从20世纪50年代初起，目标跟踪取得丰富的研究成果，但是至今仍没有出现一种能够胜任所有场景的跟踪任务的算法。足球比赛视频中的球员跟踪依然存在以下挑战：1)目标球员所占面积较小，不利于目标球员的特征提取；2)目标球员周围常有相似球员干扰；3)目标球员可能被其他球员遮挡；4)跟踪漂移后无法重定位。针对足球比赛视频这一特定跟踪场景，结合足球领域特点，提出并设计了一种球员感知的跟踪算法，利用手工特征和深度特征相结合的方式来增强球员的特征表达能力以缓解球员面积小且特征不明显的问题，利用干扰项感知的颜色模型来排除目标球员周围相似球员的干扰问题，采用局部跟踪器以及定位修正来解决球员被遮挡时可能引起的跟踪漂移问题，本文算法在公开的足球数据集上取得了优异的成绩。主要贡献如下：1) 为了充分利用手工特征和深度特征的互补性，分别提取颜色特征和目标感知的深度特征描述目标球员。2) 通过融合干扰项感知的颜色模型和目标感知的深度模型，提出并设计了一种球员感知的跟踪算法。3) 使用全局和局部跟踪器分别对目标整体和目标上半身独立跟踪，在跟踪漂移时进行定位修正。1相关工作通用的目标跟踪算法层出不穷。以核化相关滤波器(kernelized correlation filters, KCF)(Henriques等，2015)为代表的基于相关滤波的跟踪算法在实时性方面表现优秀，但不足以应对复杂背景干扰、相似物遮挡等情况。以深度学习跟踪器(deep learning tracker, DLT)(Wang和Yeung，2013)为代表的基于深度学习的跟踪算法则更侧重于性能，大多无法满足实时性。以全卷积孪生网络(fully-convolutional siamese networks, SiamFC)(Bertinetto等，2016b)为代表的使用孪生神经网络的跟踪算法兼顾了性能和实时性。与通用的目标跟踪算法不同，足球视频中场景的复杂性和目标运动状态的不确定性限制了球员跟踪算法的研究。足球比赛视频中的跟踪算法大多结合检测算法，并且与足球比赛视频中的目标特点紧密联系。Heydari和Moghadam(2012)提取YCbCr颜色空间下的特征值和区域面积作为特征，在第1阶段利用K均值聚类算法获取足球场地主色，结合足球领域知识和形态学操作去除场地上的非球员区域；在第2阶段利用多层感知神经网络将球员区域进一步细分为目标球员区域和非目标球员区域。娄娜等人(2007)利用颜色统计信息和像素边缘特征对球员区域进行检测，并为球员区域设置编号、球员模板坐标、区域中球员的编号和区域内球员个数4个属性，结合图像匹配进行球员跟踪。付龙(2015)利用卡尔曼滤波与局部区域匹配相结合的方法进行多球员跟踪，根据相邻帧之间的球员质心和球员面积的改变，判断当前帧是否发生遮挡，并在遮挡结束后及时利用匹配策略对球员进行重定位。王勋(2017)在HSV颜色空间下去除球场主色，提取上下两块球员主色直方图和哈尔特征，利用改进的传统在线多示例学习方法对球员进行跟踪。Lu等人(2011)利用可变形局部模型(deformable parts model, DPM)对足球场上的人物进行分类，建立条件随机场(conditional random fields, CRF)模型进行联合概率推理。Morais等人(2012)利用多个提前放置在足球场地上的固定摄像机拍摄到的画面，融合多摄像机的参数生成外观模型，投射到球场平面上以生成多峰双向概率函数，该球场平面概率能够反映球场平面上球员可能出现的位置。Seo等人(1997)在去除足球主场地和分割出球员区域的基础上，利用卡尔曼滤波与模板匹配相结合的方法对球员进行跟踪，并通过直方图反向投影的方式处理遮挡情况。马月洁等人(2018)利用目标检测数据集和足球视频数据集对全卷积孪生网络进行离线训练，获取适合球员跟踪任务的深度特征。Liu等人(2013)认为球员的运动与其附近的球员有高度相关性，利用层级间联系在长时间内跟踪多个球员。Li和Flierl(2012)提出一种基于SIFT(scale-invariant feature transform)特征多视角的方式进行多球员跟踪，假设未来的比赛视频会有多个视角的高分辨率摄像机拍摄，能提供自由视角的网上观看体验，球员精确的3D信息被高效地用于跟踪，通过共享所有摄像机的3D信息解决遮挡问题。Baysal和Duygulu(2016)提出了模型场地粒子的概念，把足球场地用一组密集采样的粒子集合来表示，使球员位置离散化，从全局上联合目标外观和运动模型进行位置可能性计算。Kataoka和Aoki(2011)在分割出足球场地的基础上，利用粒子滤波跟踪球员，利用Real AdaBoost分类器解决球员之间相互遮挡的问题，结合摄像机运动获得球员在球场上的运动轨迹。Mazzeo等人(2008)在利用背景去除法分割出运动球员和利用无监督聚类算法对运动球员分类的基础上，采用最大后验概率估计的方法跟踪球员。Najafzadeh等人(2015)提出将球员平均分为大小相同的头颈、躯干、脚3个块，分别统计每个块的颜色直方图，利用Bhattacharyya距离计算每个块的权重，以实现适应块的模型更新。Bastanfard等人(2019)在YCbCr颜色空间下检测并去除阴影，利用显著图算法检测球场区域，利用边缘检测、颜色检测和最大类间方差三大算法检测场上球员，结合改进的粒子滤波算法进行球员跟踪。现有的足球球员跟踪算法大多在通用跟踪算法的基础上采用球场的颜色特征以增强跟踪器对足球场景的适应性，但是足球场景中球员面积小、特征不明显以及比赛中经常出现的球员遮挡情况没有得到很好的解决。本文针对这些挑战设计了球员感知的跟踪算法，通过引入目标感知的深度模型、干扰项感知的颜色模型以及局部跟踪器的方法提高了球员跟踪的准确率。2球员感知跟踪算法如图 1所示，通过融合干扰项感知的颜色模型和目标感知的深度模型，提出并设计了一种球员感知的跟踪算法(players aware yracking model, PAT)。图1 球员感知跟踪算法整体流程图 The flow chart of proposed players aware tracking algorithmFig 1目标感知中的目标指目标球员，干扰项感知中的干扰项指目标球员周围的非目标球员。干扰项感知指在颜色模型中不仅考虑目标球员和背景的颜色差异，还考虑目标球员和干扰项的颜色差异。目标感知指在深度模型中使用与当前跟踪球员相关的深度特征，而非普通的VGG-16(Visual Geometry Group-16)(Simonyan和Zisserman，2015)深度特征。针对跟踪漂移问题，在线跟踪过程时使用全局跟踪器和局部跟踪器分别用于跟踪目标整体和目标上半身，当两个跟踪器的跟踪结果之间的距离大于一定阈值时，进行定位修正。2.1干扰项感知的颜色模型利用目标颜色信息的跟踪算法，极容易受到与目标颜色相似的非目标物体的干扰。足球比赛中，目标球员周围常有颜色属性非常相似的同队球员出现，在目标周围出现的同队球员极有可能成为干扰项。如图 2所示，干扰项感知的颜色模型利用贝叶斯分类器对目标—背景以及目标—干扰项建模。图2 干扰项感知的颜色模型 Distractor aware color modelFig 22.1.1目标—背景颜色模型基于贝叶斯分类器的颜色模型首先对目标—背景建模，该模型直接在搜索图像中统计颜色信息：采取均匀量化的方式将RGB颜色空间中的三原色分量各划分成16个颜色区间，计算落在每个颜色区间的像素数量即可得到对应图像的颜色直方图。记统计区域为$\mathit{\boldsymbol{S}}$，目标球员区域为$\mathit{\boldsymbol{T}}$，背景区域为$\mathit{\boldsymbol{B}}$，当前位置像素为$x$，当前位置像素所属颜色区间${\mathit{\boldsymbol{b}}_x}$，计算搜索图像中像素$x$属于目标的似然概率为 1 $\begin{gathered}P\left(x \in \boldsymbol{T} \mid \boldsymbol{T}, \boldsymbol{B}, \boldsymbol{b}_{x}\right) \approx \\P\left(\boldsymbol{b}_{x} \mid x \in \boldsymbol{T}\right) P(x \in \boldsymbol{T}) \\\hline P\left(\boldsymbol{b}_{x} \mid x \in \boldsymbol{T}\right) P(x \in \boldsymbol{T})+P\left(\boldsymbol{b}_{x} \mid x \in \boldsymbol{B}\right) P(x \in \boldsymbol{B})\end{gathered}$ 像素点属于目标或者背景的先验概率可以利用颜色直方图简化表达为 2 $P\left(\boldsymbol{b}_{x} \mid x \in \boldsymbol{T}\right) \approx \frac{H_{T}^{S}\left(\boldsymbol{b}_{x}\right)}{|\boldsymbol{T}|}$ 3 $P\left(\boldsymbol{b}_{x} \mid x \in \boldsymbol{B}\right) \approx \frac{H_{B}^{S}\left(\boldsymbol{b}_{x}\right)}{|\boldsymbol{B}|}$ 式中，$H_T^S\left({{\mathit{\boldsymbol{b}}_x}} \right)$表示在目标颜色直方图中${\mathit{\boldsymbol{b}}_x}$颜色区间所对应的统计值，$H_B^S\left({{\mathit{\boldsymbol{b}}_x}} \right)$表示在背景颜色直方图中${\mathit{\boldsymbol{b}}_x}$颜色区间所对应的统计值，$\left| \mathit{\boldsymbol{T}} \right|$表示目标面积，$\left| \mathit{\boldsymbol{B}} \right|$表示背景面积。$P\left({x \in \mathit{\boldsymbol{T}}} \right)$和$P\left({x \in \mathit{\boldsymbol{B}}} \right)$可以用面积占比来表示，即 4 $P(x \in \boldsymbol{T}) \approx \frac{|\boldsymbol{T}|}{|\boldsymbol{T}|+|\boldsymbol{B}|}$ 5 $P(x \in \boldsymbol{B}) \approx \frac{|\boldsymbol{B}|}{|\boldsymbol{T}|+|\boldsymbol{B}|}$ 结合式(2)—(5)，式(1)可以简化表达为 6 $\begin{gathered}P\left(x \in \boldsymbol{T} \mid \boldsymbol{T}, \boldsymbol{B}, \boldsymbol{b}_{x}\right)= \\\begin{cases}\frac{H_{T}^{S}\left(\boldsymbol{b}_{x}\right)}{H_{T}^{S}\left(\boldsymbol{b}_{x}\right)+H_{B}^{S}\left(\boldsymbol{b}_{x}\right)} & \boldsymbol{b}_{x} \in\{\boldsymbol{b}(\boldsymbol{T} \cup \boldsymbol{B})\} \\0.5 & \text { 其他 }\end{cases}\end{gathered}$ 当${\mathit{\boldsymbol{b}}_x} \notin \left\{ {\mathit{\boldsymbol{b}}\left({\mathit{\boldsymbol{T}} \cup \mathit{\boldsymbol{B}}} \right)} \right\}$时，该颜色区间在目标区域和背景区域中都不曾出现，颜色模型无法从先验概率中分辨该颜色更倾向于哪一方，故该情况下像素$x$属于目标的似然概率为0.5。2.1.2目标—干扰项颜色模型干扰项生成工作将在在线跟踪中详细说明，现假设已知干扰项集合。与目标—背景颜色模型一样，分别统计目标和干扰项的颜色直方图，在目标—干扰项模型中像素$x$属于目标的似然概率为 7 $\begin{array}{cl}P\left(x \in \boldsymbol{T} \mid \boldsymbol{T}, \boldsymbol{D}, \boldsymbol{b}_{x}\right)= \\\begin{cases}\frac{n H_{T}^{S}\left(\boldsymbol{b}_{x}\right)}{n H_{T}^{S}\left(\boldsymbol{b}_{x}\right)+H_{D}^{S}\left(\boldsymbol{b}_{x}\right)} & \boldsymbol{b}_{x} \in\{b(\boldsymbol{T} \cup \boldsymbol{D})\} \\0.5 & \text { 其他 }\end{cases}\end{array}$ 式中，$\mathit{\boldsymbol{D}}$代表所有的干扰项，$n$代表干扰项个数。$H_D^S\left({{\mathit{\boldsymbol{b}}_x}} \right)$代表在干扰项颜色直方图中${\mathit{\boldsymbol{b}}_x}$颜色区间所对应的统计值。在得到目标—背景颜色模型和目标—干扰项颜色模型后，结合目标—背景模型和目标—干扰项模型，得到干扰项感知的颜色模型，即 8 $\begin{gathered}P\left(x \in \boldsymbol{T} \mid \boldsymbol{b}_{x}\right)= \\\lambda_{1} P\left(x \in \boldsymbol{T} \mid \boldsymbol{T}, \boldsymbol{B}, \boldsymbol{b}_{x}\right)+ \\\left(1-\lambda_{1}\right) P\left(x \in \boldsymbol{T} \mid \boldsymbol{T}, \boldsymbol{D}, \boldsymbol{b}_{x}\right)\end{gathered}$ 通过干扰项感知的颜色模型，计算搜索图像内各像素点属于目标的似然概率，得到搜索图像对应的像素级概率图，通过高斯投票机制进一步将像素级概率图转化为响应图。响应图中各响应值对应着一个固定尺寸的目标候选框。在计算目标候选框的响应得分时，不仅考虑了像素颜色属于目标的似然概率，还考虑了像素和上一帧目标中心点的距离。计算搜索图像的响应图${\mathit{\boldsymbol{M}}_1}$，即 9 $\boldsymbol{M}_{1}=\left(s_{v}\left(\boldsymbol{T}_{t, i}\right) s_{d}\left(\boldsymbol{T}_{t, i}\right)\right)$ 10 $s_{v}\left(\boldsymbol{T}_{t, i}\right)=\sum\limits_{x \in \boldsymbol{T}_{t, i}} P_{t}\left(x \in \boldsymbol{T} \mid \boldsymbol{b}_{x}\right)$ 11 $s_{d}\left(\boldsymbol{T}_{t, i}\right)=\sum\limits_{x \in \boldsymbol{T}_{t, i}} \mathrm{e}^{-\frac{\left\|_{x-c_{t-1}}\right\|^{2}}{2 \sigma^{2}}}$ 式中，${\mathit{\boldsymbol{T}}_{t, i}}$代表第$t$帧的第$i$个候选框，${s_v}\left(\cdot \right)$代表候选框的投票得分，${s_d}\left(\cdot \right)$代表候选框的距离得分。${c_{t - 1}}$代表第$t - 1$帧的目标中心位置，$\sigma $为高斯函数中的标准方差参数。2.2目标感知的深度模型如图 3所示，目标感知的深度模型将目标感知的深度特征嵌入孪生网络，将模板分支(template)输出的特征通过由单层卷积网络(Conv)和L2损失函数(L2 Loss)组成的回归网络生成目标激活向量(activate vector)，通过目标激活向量作用于原始深度特征，便可以得到目标感知的深度特征，目标感知的深度特征作为卷积核，与检测分支(search region)输出的目标感知的深度特征做相关操作(Corr)，得到搜索图像的响应图${\mathit{\boldsymbol{M}}_2}$。图3 目标感知的深度模型 Target aware deep modelFig 32.2.1目标感知的深度特征VGG-16(Simonyan和Zisserman，2015)在ImageNet上训练得到的深度神经网络模型学习到一组丰富的、有辨别力的特征来识别不同类别的物体。VGG-16共包含13个卷积层，4 224个卷积滤波器，每个卷积滤波器捕获一个特定的特征模式。VGG-16中所有的卷积滤波器构造了一个包含1 000个类别的特征空间，在该特征空间中，深度特征的每一个维度代表了不同的特征组合，特定的特征组合可以识别特定的类别。一个特定的类别的分类响应只集中在特定的深度特征通道上，而不是所有深度特征通道。针对当前跟踪球员，利用小型回归网络在VGG-16深度特征中选择与该跟踪球员相关的特征通道。小型回归网络结构试图将目标样本特征通过以下方式拟合高斯分布：1) 输入初始帧搜索图像的深度特征作为目标样本。2) 经过一个卷积层，卷积核大小为目标图像特征的大小，卷积核个数为1。3) 真实响应值为高斯标签值，越靠近目标中心的位置标签值越高，越远离目标中心的位置标签值越低。输出损失函数为L2损失，损失函数为 12 $L=\|\boldsymbol{Y}(i, j)-\boldsymbol{W} * \boldsymbol{X}(i, j)\|^{2}+\lambda\|\boldsymbol{W}\|^{2}$ 式中，$\mathit{\boldsymbol{Y}}\left({i, j} \right) = {{\rm{e}}^{ - \frac{{{i^2} + {j^2}}}{{2{\sigma ^2}}}}}$，$\left({i, j} \right)$代表该像素点到目标中心的偏移量，$\mathit{\boldsymbol{Y}}\left({i, j} \right)$代表该像素点的高斯响应值，$\mathit{\boldsymbol{W}}$为卷积参数，$\mathit{\boldsymbol{X}}\left({i, j} \right)$为目标图像的VGG-16深度特征，$\lambda $为正则化参数。等模型收敛后，对目标图像的VGG-16深度特征反向求导，获得深度特征各个通道的梯度值，各通道的梯度值代表了该特征通道对于拟合高斯分布任务的贡献，即 13 $\frac{\partial L}{\partial \boldsymbol{X}}=\sum\limits_{i, j} 2(\boldsymbol{Y}(i, j)-\boldsymbol{W} * \boldsymbol{X}(i, j)) \times \boldsymbol{W}$ 各个特征通道的重要性度量方法为 14 $\theta_{k}=G_{\mathrm{AP}}\left(\frac{\partial L}{\partial \boldsymbol{X}_{k}}\right)$ 式中，$k$代表特征通道，${\theta _k}$代表第$k$个特征通道的重要程度，${G_{{\rm{AP}}}}\left(\cdot \right)$为全局平均池化函数。根据特征通道重要性，生成目标激活向量$\mathit{\boldsymbol{v}}$，该向量维度和样本特征通道数保持一致。目标激活向量$\mathit{\boldsymbol{v}}$仅激活排在前$m$位的特征通道，其余通道不激活，即 15 $v_{k}= \begin{cases}1 & {rank}\left(\theta_{k}, \theta_{1}: \theta_{m}\right) \leqslant m \\ 0 & \text {其他 }\end{cases}$ 计算目标感知的深度特征 16 $\boldsymbol{X}_{\text {target_activate }}=\boldsymbol{X}_{\text {original }} \cdot \boldsymbol{v}$ 式中，${\mathit{\boldsymbol{X}}_{{\rm{original}}}}$表示激活前的原始特征，即从VGG-16直接提取出的特征, ${\mathit{\boldsymbol{X}}_{{\rm{target}}\_{\rm{activate}}}}$表示激活后的特征。2.2.2孪生网络孪生网络将目标跟踪问题转化为相似性学习问题，两路分支分别为模板分支和检测分支，两分支共享一个神经网络模型和一套模型参数。对于模板分支，提取初始帧目标图像的VGG-16第10层深度特征，将该深度特征与目标激活向量$\mathit{\boldsymbol{v}}$相乘，得到初始帧目标图像的目标感知的深度特征。对于检测分支，同样地，提取当前帧搜索图像的VGG-16第10层深度特征，将该深度特征与目标激活向量$\mathit{\boldsymbol{v}}$相乘，得到当前帧搜索图像的目标感知的深度特征。将模板分支输出的目标感知的深度特征作为卷积核，与检测分支输出的目标感知的深度特征做卷积操作，得到搜索图像的响应图${\mathit{\boldsymbol{M}}_2}$，即 17 $\boldsymbol{M}_{2}=\left(\boldsymbol{X}_{1} \cdot \boldsymbol{v}\right) *\left(\boldsymbol{X}_{t} \cdot \boldsymbol{v}\right)$ 卷积操作相当于对搜索图像进行密集的滑动窗口评估，每一次评估计算了滑动窗口图像特征与模板图像特征的相关性，如果这两个图像所描绘的对象高度相似则返回高分，否则返回低分。目标跟踪任务需要在搜索图像中进行像素级别的定位，而卷积操作得到的搜索区域的响应图${\mathit{\boldsymbol{M}}_2}$比搜索区域本身小很多，因此需要对响应图进行上采样。上采样的方式有多种，如双线性插值、反卷积和反池化等，故采用双线性插值将响应图重新映射回搜索图像。2.3融合模型融合干扰项感知的颜色模型和目标感知的深度模型，即可得到PAT。在线跟踪时，同时使用全局跟踪器和局部跟踪器跟踪目标整体和目标上半身，在一个跟踪器发生跟踪漂移时，使用另一个跟踪器进行定位修正。2.3.1初始化全局跟踪器的初始目标球员位置用一个矩形目标框表示为$\left({{x_g}, {y_g}, {w_g}, {h_g}} \right)$，局部跟踪器的初始局部目标位置则用矩形目标框表示为$\left({{x_g}, {y_g}, {w_g}, {h_g}/2} \right)$。对于全局跟踪器，初始化一个干扰项感知的深度模型、一个目标感知的深度模型和一个目标主色。根据颜色直方图中颜色块索引相对应的颜色出现的频率高低对颜色块索引进行排序，得到4 096×1的向量，提取其中前$n$个颜色索引构成一个$n$×1的向量，作为目标主色。目标主色用于辅助分析跟踪器有效性。对于局部跟踪器的初始化工作和全局跟踪器完全一致。2.3.2在线跟踪对于局部跟踪器，为了对目标球员进行简单尺度估计，利用双线性插值得到3个不同尺度的搜索图像。3个不同尺度的搜索图像经过干扰项感知的颜色模型得到多尺度颜色模型响应图${\mathit{\boldsymbol{M}}_1}$；经过目标感知的深度模型得到多尺度深度模型响应图${\mathit{\boldsymbol{M}}_2}$。将相同尺度因子所对应的颜色模型响应图和深度模型响应图加权融合，得到多尺度融合响应图，即 18 $\boldsymbol{M}=\lambda_{2} \boldsymbol{M}_{1}+\left(1-\lambda_{2}\right) \boldsymbol{M}_{2}$ 在多尺度融合响应图中，最大响应值所对应的尺度因子为当前帧目标的尺度；最大响应值对应的位置为当前帧目标的中心位置，两者结合得到当前帧的目标框。由于同一个镜头中的非目标球员和目标球员的尺寸相差不大，故干扰项尺寸和当前目标尺寸保持一致。在最大响应值所在的融合响应图中，干扰项生成过程步骤为：1) 根据融合响应图$\mathit{\boldsymbol{M}}$，选择主峰位置对应候选框为当前目标框，记最大置信度为${C_{\max }}$，并将其加入干扰项候选集合$\mathit{\boldsymbol{P}}$中。2) 选择融合响应图中置信度大于$\beta \cdot {C_{\max }}$的除当前目标框以外的候选框，将其加入干扰项候选集合$\mathit{\boldsymbol{P}}$，根据置信度对$\mathit{\boldsymbol{P}}$中候选框进行降序排序。3) 选择当前$\mathit{\boldsymbol{P}}$中最大置信度对应的候选框$\mathit{\boldsymbol{d}}$，将其从$\mathit{\boldsymbol{P}}$中删除并加入干扰项集合$\mathit{\boldsymbol{D}}$，计算$\mathit{\boldsymbol{d}}$与$\mathit{\boldsymbol{P}}$中所有候选框${\mathit{\boldsymbol{d}}_i}$的交并比(intersection over union, IoU)，若交并比大于阈值则将该${\mathit{\boldsymbol{d}}_i}$从$\mathit{\boldsymbol{P}}$中删除。4) 重复步骤3)，直到当前$\mathit{\boldsymbol{P}}$为空。5) 将当前$\mathit{\boldsymbol{D}}$中置信度最大的侯选框删除。局部跟踪器的在线跟踪算法和全局跟踪器完全一致。2.3.3定位修正根据全局跟踪器和局部跟踪器的目标框的交并比，跟踪可分为理想、稳定和不稳定3种状态。局部跟踪器和全局跟踪器的目标框的IoU为0.5时，跟踪处于理想状态；大于某阈值时，跟踪处于稳定状态；小于该阈值时，跟踪处于不稳定状态。不稳定状态下，综合考虑以下因素对跟踪器进行分析：1)当前跟踪框和初始跟踪框的主色相关度；2)响应图最高响应值；3)前一帧跟踪框中心到当前跟踪框中心的移动距离。提取当前目标框的主色，与初始帧的目标主色进行相关性计算，主色相关度越低，说明跟踪器越有可能跟丢到非目标球员；跟踪器的响应图最高响应值越小，在某种程度上说明跟踪器的可靠性越低；跟踪框的移动距离大于一定的阈值，说明跟踪器在当前帧很有可能突然发生跟踪漂移。定位修改过程步骤为：1) 计算修正前全局跟踪框(xg, yg, wg, hg) 和局部跟踪框(xp, yp, wp, hp) 的IoU。如果满足1IoU≥ θ1，进入步骤5)；如果不满足，进入步骤2)。2) 获取相关参数：Moveg，Cong，CCg，Movep，Conp，CCp。Move代表上一帧目标框中心到当前目标框中心的移动距离，Con代表跟踪器响应图的最大响应值，CC代表当前目标框和其初始帧目标框的主色相关性，下标g代表全局跟踪器，下标p代表局部跟踪器。3) 如果满足Moveg θ2，Conp Cong×θ3，CCp - CCgθ4三个条件中的任何一个，则判定全局跟踪器失效，局部跟踪器有效，全局跟踪框被修正为(xp, yp, wp, 2hp)，进入步骤5)；如果不满足，进入步骤4)。4) 如果满足Movep θ2，Cong Conp×θ3，CCg - CCpθ4三个条件中的任何一个，则判定局部跟踪器失效，全局跟踪器有效，局部跟踪框被修正为(xg, yg, wg, hg/2)。5) 输出修正后的全局跟踪框(xg, yg, wg, hg) 和局部跟踪框(xp, yp, wp, hp)。定位修正前，局部跟踪框为(xp, yp, wp, hp)，全局跟踪框为(xg, yg, wg, hg)，如果算法认为全局跟踪器有效、局部跟踪器失效，局部跟踪器的跟踪结果则会被修正为(xg, yg, wg, hg/2)；反之，全局跟踪器的跟踪结果则会被修正为(xp, yp, wp, 2 hp)。最终，全局跟踪器的跟踪结果将作为输出的跟踪结果用于跟踪器性能分析。2.3.4模型更新无论是全局跟踪器还是局部跟踪器，初始帧的目标主色绝对可靠，更新操作可能会造成目标主色被污染，故目标主色不更新；干扰项感知的颜色模型中，目标球员的颜色偶尔受光照影响或者部分被其他球员遮挡产生变化，且目标球员周围的干扰项也会发生颜色变化，故对颜色模型采用逐帧更新的策略以适应目标和干扰项在跟踪过程中的颜色变化；目标感知的深度模型中，在得到目标激活向量和模板分支上输出的目标感知的深度特征后，目标激活向量和模板分支就不再逐帧计算。全局跟踪器和局部跟踪器都具有一个固定不变的深度模型和一个逐帧更新的颜色模型，这种模型更新策略使得算法既能捕捉目标在跟踪过程中发生的外观变化，又能防止因连续更新造成的算法退化问题。颜色模型的更新情况可以分为以下3种：1) 当前帧全局跟踪器和局部跟踪器均有效。该情况下，对于全局跟踪器，假设当前帧为第$t$帧，$\eta $为更新率，${P_{t - 1}}\left({x \in \mathit{\boldsymbol{T}}|{b_x}} \right)$为更新前的颜色模型，$P\left({x \in \mathit{\boldsymbol{T}}|{b_x}} \right)$为学习到的当前帧的颜色模型，${P_t}\left({x \in \mathit{\boldsymbol{T}}|{b_x}} \right)$为更新后的颜色模型，使用线性插值的方法对其颜色模型进行更新，具体为 19 $\begin{gathered}P_{t}\left(x \in \boldsymbol{T} \mid b_{x}\right)= \\\eta P\left(x \in \boldsymbol{T} \mid b_{x}\right)+(1-\eta) P_{t-1}\left(x \in \boldsymbol{T} \mid b_{x}\right)\end{gathered}$ 对于局部跟踪器，采用和全局跟踪器相同的方式对其颜色模型进行更新。2) 当前帧全局跟踪器失效、局部跟踪器有效。该情况下，全局跟踪器被判定为失效跟踪器，说明前若干帧的颜色模型很有可能被污染，为避免其颜色模型产生错误累积，利用修正后的全局跟踪框重新初始化其颜色模型。故对于全局跟踪器，对其颜色模型进行重新初始化 20 $P_{t}\left(x \in \boldsymbol{T} \mid b_{x}\right)=P\left(x \in \boldsymbol{T} \mid b_{x}\right)$ 对于局部跟踪器，采用式(19)对其颜色模型进行更新。3) 当前帧全局跟踪器有效、局部跟踪器失效。该情况下，对于全局跟踪器，采用式(19)对其颜色模型进行更新；对于局部跟踪器，采用式(20)对其颜色模型进行更新。3实验3.1数据集实验采用的数据集为Soccer DatasetV2，该数据集由Yu等人(2018)提出的Soccer Dataset改进而来。Soccer Dataset采用固定目标框对目标球员进行标注，这种标注方式较简单，但是得到的目标框不够精准。为获得更准确的实验结果，Soccer DatasetV2对标注方式进行改进，摒弃固定目标框，采用精确的目标框对目标球员进行标注。Soccer DatasetV2具体分布如表 1所示。表1 Soccer DatasetV2数据集分布场景类型图像序列编号帧数无遮挡场景 1~20 5 385 同队队员遮挡场景 21~40 3 954 异队队员遮挡场景 41~60 5 060 多遮挡场景 61~80 5 509 Distribution of Soccer DatasetV2Table 1Soccer DatasetV2序列均来自远镜头中的连续图片帧，共包含80个彩色图像序列，平均每个图像序列249帧，最短序列101帧，最长序列600帧，共19 908个精准目标框。根据目标球员被遮挡的情况，Soccer DatasetV2划分为4类场景：第1类场景中目标球员没有被任何物体遮挡；第2类场景中目标球员被同队球员遮挡；第3类场景中目标球员被异队队员遮挡；第4类场景中目标球员同时被多个球员遮挡。3.2评价指标评价跟踪算法一般从跟踪算法的跟踪准确率和跟踪算法的跟踪速度两个方面进行考虑。跟踪速度采用每秒跟踪帧数(frames per second, FPS)作为评价指标。跟踪准确度采用平均有效重叠率(average valid overlap，AVO)作为跟踪准确度方面的评价指标。计算为 21 $A V O=\frac{1}{M} \sum\limits_{m=1}^{M} A V O_{m}$ 式中，$M$为足球序列的个数，$AV{O_m}$为第$m$个序列的平均有效重叠率，$AV{O_m}$计算为 22 $A V O_{m}=\frac{1}{N_{m}} \sum\limits_{t=1}^{N_{m}} \varphi_{m, t}$ 式中，${N_m}$为第$m$个序列的总帧数，${\varphi _{m, t}}$为第$m$个序列的第$t$帧的重叠率，计算为 23 $\varphi_{m, t}=\frac{\boldsymbol{A}_{m, t}^{G} \cap \boldsymbol{A}_{m, t}^{\mathrm{T}}}{\boldsymbol{A}_{m, t}^{G} \cup \boldsymbol{A}_{m, t}^{\mathrm{T}}}$ 式中，$\mathit{\boldsymbol{A}}_{m, t}^G$为第$m$个序列的第$t$帧人工标注的目标框，$\mathit{\boldsymbol{A}}_{m, t}^{\rm{T}}$为第$m$个序列的第$t$帧的目标框，当${\varphi _{m, t}}$小于0.5时，将其重置为0，即 24 $\varphi_{m, t}= \begin{cases}\varphi_{m, t} & \varphi_{m, t} \geqslant 0.5 \\ 0 & \text { 其他 }\end{cases}$ 3.3跟踪准确度对比分析实验选取ATOM(accurate tracking by overlap maximization)(Danelljan等，2019)、CFNet(correlation filter network)(Valmadre等，2017)、CN(color name)(Danelljan等，2014b)、DAT(distractor-aware tracker)(Possegger等，2015)、DCFNet(discriminant correlation filters network)(Wang等，2017)、DSST(discriminative scale space tracker)(Danelljan等，2019)、SiamFC(fully-convolutional siamese networks)(Bertinetto等，2016b)、SiamRPN++(siamese visual tracking with very deep networks)(Li等，2019)、SiamRPNRes22(deeper and wider siamese networks)(Zhang和Peng，2019)和Staple(sum of template and pixel-wise learners)(Bertinetto等，2016a)作为对比跟踪器。PAT-nopart表示本文算法没有采用局部跟踪器以及定位修正策略的结果。各跟踪器在Soccer DatasetV2上的跟踪准确度表现如表 2所示。表2 各跟踪器在Soccer DatasetV2上的AVO 跟踪器 AVO1 AVO2 AVO3 AVO4 平均AVO ATOM 0.758 5 0.358 5 0.425 0 0.202 5 0.436 1 CFNet 0.632 0 0.364 5 0.437 0 0.350 5 0.446 0 CN 0.519 5 0.190 5 0.208 0 0.172 5 0.272 6 DAT 0.694 5 0.356 0 0.499 0 0.334 0 0.470 9 DCFNet 0.688 5 0.455 5 0.490 5 0.375 5 0.502 5 DSST 0.583 5 0.265 0 0.239 5 0.224 0 0.328 0 SiamFC 0.597 0 0.264 5 0.321 5 0.234 0 0.354 3 SiamRPN++ 0.798 0 0.471 0 0.490 0 0.295 5 0.513 6 SiamRPNRes22 0.549 0 0.273 0 0.385 5 0.196 0 0.350 9 Staple 0.621 5 0.352 0 0.451 0 0.363 0 0.446 9 PAT-nopart 0.609 0.197 5 0.217 5 0.085 5 0.277 4 PAT 0.722 5 0.508 0 0.564 5 0.446 5 0.560 3 平均值 0.647 9 0.338 0 0.394 1 0.273 3 0.413 3 The AVO measurement on Soccer DatasetV2 of each tracking algorithmTable 2 加粗字体和斜体分别表示最优和次优结果。3.3.1局部跟踪器消融实验的表现从实验结果中可以看出，在不采用局部跟踪器以及定位修正模块时，本文算法的准确度表现不佳。主要原因是在出现球员遮挡的情况下容易发生跟踪漂移，而跟踪漂移多发生在整个序列前几帧，从而使整个视频序列跟踪失败，导致出现无效结果。PAT-nopart与PAT的实验结果说明了球员跟踪的重大挑战在于相似球员之间的遮挡与干扰，在足球场景的球员跟踪算法中增加局部跟踪以及重新定位模块对整个算法有着巨大的提升作用。3.3.2无遮挡场景的表现无遮挡场景是足球比赛视频中最简单的场景，目标球员周围大多是单一的场地背景，该场景下目标球员可能快速跑动，跟踪算法需要对目标快速运动及时作出反应。实验结果显示，各跟踪器在无遮挡场景下的跟踪准确度的排名依次为：SiamRPN++ATOMPATDATDCFNetCFNetStapleSiamFCDSSTSiamRPNRes22CN。各跟踪器在无遮挡场景下的平均AVO得分为0.651 3，其中，PAT以0.722 5的单项得分排名第3，且与排名第1的SiamRPN++相差7.6%。3.3.3同队球员遮挡场景的表现同队球员遮挡场景下，目标球员和同队球员非常相似，需要跟踪算法具备极强的辨别能力。实验结果显示，各跟踪器在同队遮挡场景下的跟踪准确度的排名依次为：PATSiamRPN++DCFNetCFNetATOMDATStapleSiamRPNRes22DSSTSiamFCCN。各跟踪器在同队球员遮挡场景下的平均AVO得分为0.350 8，其中，PAT以0.508 0的单项得分排名第1，且比排名第2的SiamRPN++高出3.7%。3.3.4异队球员遮挡场景的表现异队球员遮挡场景下，不同球队队员间颜色差距较大，目标球员较容易辨认，但是跟踪算法需要有良好的模型更新机制应对长时间的异队球员遮挡带来的样本污染问题。实验结果显示，各跟踪器在异队遮挡场景下的跟踪准确度的排名依次为：PATDATDCFNetSiamRPN++StapleCFNetATOMSiamRPNRes22SiamFCDSSTCN。各跟踪器在异队球员遮挡场景下的平均AVO得分为0.410 1，其中，PAT以0.564 5的单项得分排名第1，且比排名第2的DAT高出6.6%。3.3.5综合场景的表现实验结果显示，各跟踪器在所有场景下的跟踪准确度的排名依次为：PATSiamRPN++DCFNetDATStapleCFNetATOMSiamFCSiamRPNRes22DSSTCN。各跟踪器在所有场景下的平均AVO得分为0.425 6，其中，PAT以0.560 3的综合得分排名第1，且比排名第2的SiamRPN++高出4.7%。3.3.6结果分析从各个跟踪器在各个场景下的AVO数值分布看，4个场景的跟踪难度从高到低依次为：多球员遮挡场景同队球员遮挡场景异队球员遮挡场景无遮挡场景。各个跟踪器在无遮挡场景下的表现均不错。除了无遮挡场景，PAT在其他3个场景下均排名第1，且相较于这3个场景下排名第2的算法均有不同程度的提升。按照PAT在各个场景下相对第2名的提升排名依次为：多球员遮挡场景同队球员遮挡场景异队球员遮挡场景。这说明PAT在足球比赛视频中的简单场景下表现良好，且相比其他各种类型的跟踪算法更能从容应对足球比赛视频中的高难度跟踪场景。这得益于以下几点：1) 干扰项感知的颜色模型法能够轻松辨别目标球员与异队球员，同时能够帮助辨别目标球员与同队球员;2) 目标感知的深度特征有利于区分类内差异，增强了算法对目标球员与其他球员的辨别能力；3) 深度模型固定不更新，使得PAT在目标球员被遮挡后仍能够“记得”目标球员；4) 跟踪算法出现漂移现象时，PAT中的局部跟踪器及时与全局跟踪器协同工作, 修正目标定位。3.4跟踪速度对比分析各跟踪算法在Soccer DatasetV2上的跟踪速度如表 3所示。实验结果表明，各跟踪器在跟踪速度方面的排名依次为：CNDSSTDATStapleDCFNetSiamRPNRes22SiamFCATOMCFNetPATSiamRPN++。表3 各跟踪器在Soccer DatasetV2上的FPS 算法帧率/(帧/s) ATOM 17.02 CFNet 17.00 CN 120.92 DAT 66.97 DCFNet 32.94 DSST 69.73 SiamFC 23.68 SiamRPN++ 8.44 SiamRPNRes22 23.88 Staple 60.92 PAT 9.79 The FPS measurement on Soccer DatasetV2 of each tracking algorithmTable 3 加粗字体和斜体分别表示最优和次优结果。干扰项感知的颜色模型除了要计算目标—背景颜色模型，还要计算目标—干扰项颜色模型，故干扰项感知的颜色模型的计算量是普通颜色模型的两倍。目标感知的深度模型需要在初始帧在线训练一个回归网络。局部跟踪器的加入使得PAT的计算量增加近一倍。上述一系列操作增加了算法的计算复杂度，导致该算法无法达到实时性要求。4结论针对足球比赛视频这一特定跟踪场景，通过融合干扰项感知的颜色模型和目标感知的深度模型，提出了一种球员感知的跟踪算法。颜色模型方面，提取目标球员、背景以及干扰项的颜色直方图，利用贝叶斯公式计算搜索图像中各像素点属于目标的似然概率。深度模型方面，利用回归网络从深度特征中选择与当前跟踪目标相关的特征通道，利用孪生网络计算搜索图像与目标图像的相似度。此外，针对跟踪漂移问题，提出使用全局跟踪器和局部跟踪器分别跟踪目标整体和目标上半身，当两个跟踪结果的距离大于一定的阈值时，通过主色相关度、最高响应值和移动距离等参数判断两个跟踪器的有效性，利用有效跟踪器的跟踪结果修正失效跟踪器的跟踪结果。实验结果表明，在相似球员干扰和遮挡等挑战下，球员感知跟踪算法的跟踪效果明显优于其他算法。但是由于干扰项感知的颜色模型计算、目标感知的深度模型计算和局部跟踪器的加入等增加了算法计算复杂度，跟踪速度较慢，未来工作将聚焦在算法优化，减少重复计算，提高算法的跟踪效率。