发布时间: 2021-02-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200033
2021 | Volume 26 | Number 2

图像分析和识别

遮挡判定下多层次重定位跟踪算法

姜文涛¹, 金岩², 刘万军¹

1. 辽宁工程技术大学软件学院, 葫芦岛 125105;

2. 辽宁工程技术大学研究生院, 葫芦岛 125105

收稿日期: 2020-01-21; 修回日期: 2020-04-14; 预印本日期: 2020-04-21

基金项目: 国家自然科学基金项目（61172144）；辽宁省自然科学基金项目（20170540426）；辽宁省教育厅基金项目（LJYL049，LJ2017QL034，LJ2017ZL003）

作者简介: 姜文涛，1986年生，男，副教授，主要研究方向为图像与视觉计算、模式识别与人工智能。E-mail：lntuwulue@sina.com;
金岩，通信作者，男，硕士研究生，主要研究方向为图像与视觉计算、模式识别与人工智能。E-mail：739639988@qq.com;
刘万军，男，教授，主要研究方向为软件工程理论、图像与视觉信息计算、模式识别与人工智能。E-mail：liuwanjun@lntu.edu.cn

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2021)02-0378-13

摘要

目的目标遮挡一直是限制跟踪算法精确度和稳定性的问题之一，针对该问题，提出一种抗遮挡的多层次重定位目标跟踪算法。方法通过平均峰值相关能量动态分配特征权重，将梯度特征与颜色直方图特征动态地结合起来进行目标跟踪。利用多峰值检测和峰值波动情况进行目标状态判定，若目标状态不理想，则停止模板更新，避免逐帧更新导致目标漂移，继续跟踪目标；若判定目标遮挡，则提取对应特征点，使用最邻近距离比进行特征匹配和筛选，丢弃负样本的最邻近样本作为二次筛选，利用广义霍夫变换进行第3次筛选并重定位目标，对目标继续跟踪。结果在标准数据集OTB（object tracking benchmark）100和LaSOT（large-scale single object tracking）上的实验结果显示，本文算法的精确率分别为0.885和0.301，相较于Staple算法分别提升了13.5%和30.3%。结论在目标发生遮挡的场景中，本文方法能够重定位目标并且继续跟踪，优化后的模板更新策略提高了算法速度。目标状态的判定有效估计了目标遮挡问题，可以及时采取应对策略，提高算法在复杂环境下的稳定性。

关键词

目标跟踪; 相关滤波; 目标重定位; 遮挡感知; 特征提取

Multilevel relocation tracking algorithm under occlusion decision

Jiang Wentao¹, Jin Yan², Liu Wanjun¹

1. School of Software, Liaoning Technical University, Huludao 125105, China;

2. Graduate School, Liaoning Technical University, Huludao 125105, China

Supported by: National Natural Science Foundation of China(61172144)

Abstract

Objective As one of the important research directions in the field of computer vision, target tracking has a wide range of applications in the fields of video surveillance, human computer interaction, and behavior analysis. A tracking algorithm analyzes target location information in real time in a subsequent sequence of video images by giving the target information (i.e., location and size) in the first frame. At present, target tracking technology has achieved considerable progress, but the robustness of real-time tracking algorithms is still affected by factors, such as target occlusion, illumination change, scale change, fast motion, and background interference. Among these issues, the occlusion problem is the most prominent. A complementary learning correlation filter tracking algorithm updates the template frame by frame. The reliability of the sample is not discriminated during template update, and the sample is not filtered. When background information is complex, particularly when the target is occluded, the template update result will gradually deviate from the target to be tracked. In particular, the color feature is more susceptible to complex environmental factors, aggravating target drift, and thus, template update leads to target drift and occlusion. Method The problem of losing the target persists. The occlusion problem has always limited the accuracy and stability of tracking algorithms. To address this problem, an anti-occlusion multilevel retargeting target tracking algorithm is proposed. This algorithm has three innovations.1) By using the average peak correlation energy, the gradient and color histogram features are dynamically combined to distribute weight reasonably. 2) The target state is determined in real time through peak responses and fluctuations, and the template update strategy is optimized. 3) To address the occlusion problem during the tracking process, a multilevel target relocation strategy is proposed and multilevel filtered feature points are used in the target relocation operation. Feature weight is determined on the basis of the dynamically changing average peak correlation energy, and it is used to combine the gradient and color histogram features for target tracking. After the current frame identifies the target position, target state determination is performed using multi-peak detection and the peak fluctuation condition. If the target state is not ideal, then template update is stopped. Frame-by-frame update is avoided, causing the target to drift, and then target tracking is continued. If target occlusion is determined, then the oriented fast and rotated brief feature of the target is extracted. The nearest neighbor distance ratio of the feature points is matched and filtered, and the nearest neighbor of the negative sample is discarded as secondary screening. Third screening is performed via the generalized Hough transform, the target is relocated, and tracking the target is continued. Result To objectively verify the advantages and disadvantages of the proposed algorithm, 10 groups of image sequences, namely, Basketball, Bird2, CarDark, CarScale, DragonBaby, Girl, Human5, Human8, Singer1, and Walking2, are selected. Nine algorithms, including the proposed algorithm, are selected for the tracking experiments. The eight other algorithms are as follows: kernel correlation filters, discriminative scale space tracking, staple, background-aware correlation filter, spatially regularized correlation filter, scale adaptive multiple features, efficient convolution operators, and spatiotemporal regularized correlation filter. Experimental results for the standard datasets OTB(object tracking benchmark)100 and LaSOT(large-scale single object tracking) show that the accuracy of the algorithm proposed in this study is 0.885 and 0.301, which are 13.5% and 30.3% higher than the original algorithm, respectively. Conclusion In the scenario where in the target is occluded, the target can be repositioned and tracking continues. The optimized template update strategy increases the speed of the algorithm. The determination of the target state effectively estimates the target occlusion problem and can adopt a timely coping strategy to improve the stability of the algorithm in a complex environment.

Key words

target tracking; correlation filter; target relocation; occlusion perception; feature extraction

0 引言

目标跟踪作为计算机视觉中的重要研究方向之一(卢湖川等，2018；Bao等，2012)，广泛用于视频监控、人机交互和行为分析等领域(张微和康宝生，2017)。跟踪算法通过第1帧给定的目标信息(位置和大小)，能够在随后的视频图像序列中实时地分析目标的位置信息。目标跟踪技术已经取得了较大进展，但实时跟踪算法的鲁棒性仍受目标遮挡、光照变化、尺度变化、快速运动和背景干扰等因素影响，较突出的是遮挡问题。

目前的跟踪算法主要以判别式方法为主(Zhu等，2017)，包括大部分深度学习算法(郭文等，2018；Fan和Lin，2017)和少量相关滤波算法(Danelljan等，2016；Lukežic等，2017)。该类算法对背景和前景的区分十分显著，表现更为鲁棒。

深度学习在目标检测和识别领域的突出表现促进了其在目标跟踪领域的应用研究。迄今为止，深度学习在目标跟踪中的高准确率一直是其他方法难以超越的。在孪生全卷积网络基础上，Bertinetto等人(2016b)提出了SiameseFC(fully convolutional siamese networks forobject tracking)网络结构，用于目标跟踪。该网络利用卷积相关性计算两幅图像对应的卷积神经网络(convolutional neural network, CNN)，得到特征的降维映射，确定目标位置。为了提升SiameseFC的泛化能力，Wang等人(2018)提出了RASNet(residual attentional siamese network for high performance online visual tracking)算法，重新规划注意力权重，再对预测区域进行处理。Li等人(2019)解决了Siamese算法中学习网络的深度扩展问题，提出的SiamRPN++算法使精度获得大幅度提高，但也进一步降低了算法的实时性。该类算法在精度和准确率上均优于其他深度学习算法，与深度模型相关的跟踪方法在跟踪精度和稳定性上都具备一定优势，但是复杂的计算过程降低了目标跟踪的实时性，在一定程度上限制了该类算法在现实中的应用。

相关滤波跟踪方法在跟踪速度和精度两方面都具有相当优势，在视觉跟踪领域一直备受青睐。Bolme等人(2010)通过最小平方误差和滤波器将相关滤波应用到跟踪领域；Henriques等人(2012)在此基础上提出核循环结构跟踪器(circulant structure kernel，CSK)，在改变分类器采样方式的同时，引入核函数，高效利用了整幅图像的特征。随后，Henriques等人(2014)利用HOG(histogram of oriented gridients)特征代替灰度特征，对原算法进一步改进，提出了核相关滤波(kernel correlation filters，KCF)，极大提高了跟踪精度，但仍然存在遮挡和尺度变化问题。DSST(discriminative scale space tracking)(Danelljan等，2016)算法通过加入尺度空间滤波器解决了跟踪过程中目标尺度变换的问题；Staple算法(Bertinetto等，2016a)在DSST算法基础上进行多特征融合，结合HOG特征对运动模糊和光照变化的鲁棒性，以及对颜色特征的抗形变性，提高了跟踪精度，但是模板更新导致目标漂移以及遮挡后目标丢失的问题依然存在。

针对以上问题，本文利用平均峰值相关能量优化特征权重，将梯度特征和颜色直方图特征进行特征互补，提出一种结合ORB(oriented fast and rotated brief)特征和多层次目标重定位的抗遮挡目标跟踪算法。通过平均峰值相关能量(Wang等，2017)和最大峰值的变化对目标状况进行实时判定，进而决定是否更新模板；判定目标发生遮挡时，提取当前帧目标ORB特征，过滤异常值后进行尺度估计，根据广义霍夫变换(generalized Hough transform，GHT)(Lowe，2004)获得的参数准确绘制边框定位目标。

经实验验证，通过对目标状态判定，本文算法有效解决了跟踪过程中因遮挡导致的目标丢失问题，优化了更新模板产生的目标漂移问题，同时降低了运算量，提高了算法跟踪速度。

1 总体框架设计

实时互补学习跟踪(staple)算法在跟踪精度和速度上都有不错的表现，但是在目标遮挡后的跟踪表现并不是很理想。本文在该算法的基础上，通过对目标状态的判定，调整更新策略以及跟踪方法，提出一种遮挡判定下的多层次重定位跟踪算法。该算法分为建模和跟踪两个阶段，整体框架如图 1所示。

图 1 整体框架示意图

Fig. 1 Schematic of overall frame

1) 建模阶段。确定第1帧图像内的跟踪目标，训练用于估计目标位置的相关滤波器和颜色直方图模板，准备对目标状态进行判定，设立初始的特征权重进行初始帧的跟踪。

2) 跟踪阶段。利用训练好的相关滤波器和颜色直方图模板分别结合权重和得分函数得到目标位置，通过平均峰值相关能量和最大峰值的变化趋势判定目标状态，判断目标是否发生遮挡以及模板更新策略。若判定未遮挡且目标状态良好，则更新梯度特征模板和颜色直方图模板；若判定遮挡，则采取多层次目标检测在下一帧进行目标重定位，根据GHT获得的参数确定目标位置，更新目标特征模板，反复进行该过程，直至完成目标跟踪。

2 多层次目标重定位跟踪算法

相关滤波跟踪算法是通过样本图像训练相关滤波器，利用相关滤波器对需要跟踪的图像做滤波响应处理，将得到的最大响应位置判定为目标。因在跟踪精度和跟踪速度上具有优势，相关滤波跟踪算法在目标跟踪领域应用广泛。本文对互补学习相关滤波算法进行改进，作为本文算法的基本框架。

2.1 互补学习跟踪算法

互补学习相关滤波跟踪算法是在DSST算法的基础上提出的，本文针对复杂背景下的权重分配问题和遮挡问题对其进行优化，相关技术也可以应用到其他基于相关滤波的算法中。本文算法分为学习模块和跟踪模块。学习模块提取目标的梯度特征和颜色直方图特征，为跟踪模块训练目标模板；跟踪模块通过学习模块从上一帧得到的目标模板在当前帧进行跟踪。

梯度模板打分函数和颜色模板打分函数分别为

$ {f_{{\rm{tmpl}}}}\left({{\phi _{T\left({{x_t}, p} \right)}};{h_{t - 1}}} \right) = \sum\limits_{u \in \mathit{\boldsymbol{T}}} {{h_{t - 1}}{{\left[ \mathit{u} \right]}^{\rm{T}}}{\phi _{T\left({{x_t}, p} \right)}}\left[ \mathit{u} \right]} $

(1)

$ {f_{{\rm{hist}}}}\left({{\psi _{T\left({{x_t}, p} \right)}};{\beta _{t - 1}}} \right) = \sum\limits_{j = 1}^M {\frac{{\beta _{t - 1}^j{N^j}\left(\mathit{\boldsymbol{H}} \right)}}{{\left| \mathit{\boldsymbol{H}} \right|}}} $

(2)

式中，$ \mathit{\boldsymbol{T}}{\rm{和}}\mathit{\boldsymbol{H}}$为同类型有限网格(可以理解为矩形网络)，$ \mathit{\boldsymbol{T}} \subset {\mathit{\boldsymbol{Z}}^2};{\phi _{T\left({{x_t}, p} \right)}}$为K通道图像梯度特征，$\mathit{\boldsymbol{T}}\left({{x_t}, p} \right) $为第$t $帧图像的特征描述，${\phi _{T\left({{x_t}, p} \right)}}\left[ \mathit{u} \right] $为梯度特征对应的具体像素位置，${\phi _{T\left({{x_t}, p} \right)}}\left[ \mathit{u} \right]:\mathit{\boldsymbol{T}} \to {{\bf{R}}^K} $。$ \mathit{\boldsymbol{H}}$为有限网格；$ M$为颜色直方图特征的维数，从图像$\mathit{\boldsymbol{x}} $获得并定义在(不同的)有限网格上，$ \mathit{\boldsymbol{H}} \subset {\mathit{\boldsymbol{Z}}^2};\beta _{t - 1}^j$为前面所有帧学习的颜色直方图模型结果的当前值；在图像${\mathit{\boldsymbol{x}}_t} $的待选区域中，$ {N^j}$为下标是$ j$的颜色直方图特征在区域$\mathit{\boldsymbol{H}} $中出现的次数。

得到当前帧的目标后，提取当前目标所在区域的图像特征，为了减少计算，提升运行速度，利用岭回归问题分别解决梯度模板更新和颜色直方图模板更新。通过最小化损失函数，得到当前帧图像梯度特征对梯度模板更新的相关量$ h$，具体为

$ {\ell _{{\rm{tmpl}}}}\left({\phi, y, h} \right) = {\left| {\sum\limits_{k = 1}^K {{h^k}{\phi ^k} - y} } \right|^2} + \lambda \sum\limits_{k = 1}^K {{{\left| {{h^k}} \right|}^2}} $

(3)

式中，${{h^k}} $为梯度模板；$ {{\phi ^k}}$为当前帧目标所在图像区域的梯度特征；$ y$为期望输出；$ K$为通道数；梯度特征对应的岭回归问题解为

$ {{\hat h}^k} = \frac{{\bar{ \hat y }\odot {{\hat \phi }^k}}}{{\sum\limits_{k = 1}^K {{\bar{{ \hat \phi }}} ^l\odot {{\hat \phi }}^l + \lambda } }}, \;\;k = 1, \cdots, K $

(4)

式中，${{\hat \phi }^k}{\rm{和}}\hat y$分别为${\phi ^k}{\rm{和}}y $对应的离散傅里叶变换(discrete Fourier transform，DFT)，$ \bar{ \hat y}{\rm{和}}\hat y$的复共轭，⊙为点乘运算。

通过最小化损失函数$ {l_{{\rm{hist}}}}$，得到当前帧图像颜色直方图特征对颜色直方图模板更新的相关量$ β$，具体为

$ \begin{array}{l} {\ell _{{\rm{hist}}}}\left({\psi, y, \beta } \right) = \\ \sum\limits_{j = 1}^M {\left[ {\frac{{{N^j}\left(\mathit{\boldsymbol{O}} \right)}}{{\left| \mathit{\boldsymbol{O}} \right|}}{{\left({{\beta ^j} - 1} \right)}^2} + \frac{{{N^j}\left(\mathit{\boldsymbol{B}} \right)}}{{\left| \mathit{\boldsymbol{B}} \right|}}{{\left({{\beta ^j}} \right)}^2}} \right]} + \\ \lambda \sum\limits_{j = 1}^M {{{\left| {{\beta ^j}} \right|}^2}} \end{array} $

(5)

式中，$M $为颜色直方图的特征维数；${N^j}\left(\mathit{\boldsymbol{O}} \right){\rm{和}}{N^j}\left(\mathit{\boldsymbol{B}} \right) $分别为在对应区域$\mathit{\boldsymbol{O}}{\rm{或}}\mathit{\boldsymbol{B}} $中，颜色直方图中$j $色度出现的次数。

颜色特征对应的岭回归问题解为

$ {\rho ^j} = \frac{{{N^j}\left(\mathit{\boldsymbol{A}} \right)}}{{\left| \mathit{\boldsymbol{A}} \right|}} $

(6)

$ {\beta ^j} = \frac{{{\rho ^j}\left(\mathit{\boldsymbol{O}} \right)}}{{{\rho ^j}\left(\mathit{\boldsymbol{O}} \right) + {\rho ^j}\left(\mathit{\boldsymbol{B}} \right) + \lambda }} $

(7)

式中，${\rho ^j}{\rm{为}}j $色度在对应区域$ \mathit{\boldsymbol{A}}$($ \mathit{\boldsymbol{O}}{\rm{和}}\mathit{\boldsymbol{B}}{\rm{是}}\mathit{\boldsymbol{A}}$的实例化)中出现的比例；在线更新模板的最终结果${h_t}{\rm{和}}{\beta _t} $分别由前一帧的$ {h_{t - 1}}{\rm{和}}{\beta _{t - 1}}$与上述岭回归问题解$h{\rm{和}}\beta $按照退化因子叠加得到。

2.2 相关权重的自适应分配

对于$t $帧，跟踪模块根据上一帧得到的模型参数，筛选出一个目标$ {p_t}$(包括目标位置和尺寸)和${\theta _t} $，分别使得分函数$f $的值最大化以及损失函数$ L$最小化，即

$ {p_t} = {\rm{arg}}\;\mathop {{\rm{max}}}\limits_{p \in {\mathit{\boldsymbol{S}}_t}} f\left({T\left({{\mathit{\boldsymbol{x}}_t}, p} \right);{\theta _{t - 1}}} \right) $

(8)

$ {\theta _t} = {\rm{arg}}\;\mathop {{\rm{max}}}\limits_{\theta \in \mathit{\boldsymbol{Q}}} \left\{ {L\left({\theta ;{\mathit{\boldsymbol{X}}_t}} \right) + \lambda R\left(\theta \right)} \right\} $

(9)

式中，$ p$为目标信息；${T\left({{\mathit{\boldsymbol{x}}_t}, p} \right)} $为第$t $帧图像${{\mathit{\boldsymbol{x}}_t}} $中检测出来的梯度特征和颜色直方图特征的特征变换；${{\theta _{t - 1}}} $为综合$ t$帧之前求得的模型参数, ${\theta _{t - 1}} = \left({{h_{t - 1}}, {\beta _{t - 1}}} \right), {h_{t - 1}} $为梯度模板模型，$ {{\beta _{t - 1}}}$为颜色直方图模型；${\mathit{\boldsymbol{S}}_t} $为当前帧目标对应的所有搜索区域；$ L$为过往帧目标位置的相关函数，${\mathit{\boldsymbol{X}}_t} = \left\{ {\left({{x_i}, {p_i}} \right)} \right\}_{i = 1}^t;R $为正则项。

本文针对互补学习跟踪利用梯度特征对目标运动模糊和光照变化十分鲁棒的特性，结合颜色直方图特征对目标形变具有适应性的特点，利用对目标状态的判定数据(2.3节)，动态分配权重，通过对应的打分函数将梯度模板打分函数和颜色直方图模板打分函数加权求和(Zhou等，2016)，具体为

$ \begin{array}{l} f\left({T\left({{x_t}, p} \right);{\theta _{t - 1}}} \right) = \left({1 - {\gamma _t}} \right){f_{{\rm{tmp1}}}}\left({{\phi _{T\left({{x_t}, p} \right)}};{h_{t - 1}}} \right) + \\ {\gamma _t}{f_{{\rm{hist}}}}\left({{\psi _{T\left({{x_t}, p} \right)}};{\beta _{t - 1}}} \right) \end{array} $

(10)

$ {{\xi '}_t} = \frac{{{\xi _t}}}{{\sum\limits_{i = 1}^t {{\xi _i}/t} }} $

(11)

$ {\gamma _t} = \frac{{0.6}}{{1 + {{\rm{e}}^{1 - {\xi _t}}}}} $

(12)

式中，${f_{{\rm{tmp1}}}}{\rm{和}}{f_{{\rm{hist}}}} $分别为梯度模板打分函数和颜色直方图模板打分函数；$ {{\xi _t}}$为下文介绍的平均峰值相关能量；$ {{\xi '}_t}$为第$t $帧的相对峰值相关能量；${\gamma _t} $为梯度模板打分函数的线性系数。

2.3 目标状态判定与模板更新策略

互补学习相关滤波跟踪算法采取逐帧更新模板的方式，在模板更新上没有对样本的可靠性进行判别，也未对样本进行筛选。当背景信息复杂，尤其是目标发生遮挡时，模板更新的结果会逐渐偏离需要跟踪的目标，特别是颜色特征更容易受到复杂环境因素的影响，加重目标漂移。本文对相关滤波响应结果进行分析，利用响应峰值和振荡程度与历史情况对比得到的目标状态，进行更新判定，在提升跟踪速度的同时，实现了对目标的稳定跟踪。

本文采用Wang等人(2017)提出的平均峰值相关能量($ \xi $)和响应峰值$ {{F_{t\_\max }}}$对遮挡情况进行判定，计算公式为

$ {\xi _t} = \frac{{{{\left| {{F_{t\_\max }} - {F_{t\_\min }}} \right|}^2}}}{{{\rm{mean}}\left({\sum\limits_{t\_v, t\_r} {{{\left({{F_{v\_r}} - {F_{t\_\min }}} \right)}^2}} } \right)}} $

(13)

式中，$ {F_{t\_\max }}, {F_{t\_\min }}{\rm{和}}{F_{v\_r}}$分别表示滤波图响应最高、最低和$\left({v, r} \right) $位置上的响应。$ {\xi _t}$反映了响应图的振荡程度，一般情况下，当$ {\xi _t}$突然降低时，可以判定目标遮挡或目标丢失，此时停止对模型更新，该操作可以降低模型漂移的概率。

考虑到相关滤波响应图具有一定的局限性，仅通过$ {\xi _t}{\rm{和}}{F_{t\_\max }}$难以全面分析目标状态情况，尤其是目标被相似障碍物遮挡时，峰值波动较小易导致目标状态判定不准确。本文根据目标运动具有连续渐变的特性，在$ {\xi _t}{\rm{和}}{F_{t\_\max }}$的基础上，引入$\Delta {F_{t\_\max }}, \Delta {F_{{\rm{mean}}}}, \Delta {\xi _t}, \Delta {\xi _{{\rm{mean}}}} $等4个变量，根据4个变量的变化情况，对目标跟踪结果进行更准确的判定，具体为

$ \Delta {F_{t\_\max }} = \left| {{F_{t\_\max }} - {F_{t - 1\_\max }}} \right| $

(14)

$ \Delta {F_{{\rm{mean}}}} = {\rm{mean}}\left| {\sum\limits_{c = 2}^{t - 1} {{F_{c\_\max }} - {F_{c - 1\_\max }}} } \right| $

(15)

$ \Delta {\xi _t} = \left| {{\xi _t} - {\xi _{t - 1}}} \right| $

(16)

$ \Delta {\xi _{{\rm{mean}}}} = {\rm{mean}}\left| {\sum\limits_{c = 2}^{t - 1} {{\xi _c} - {\xi _{c - 1}}} } \right| $

(17)

式中，$ \Delta {F_{t\_\max }}$为响应图峰值变化情况，通过观察其是否发生突变，判定峰值区域为目标位置的可靠性；$ \Delta {F_{{\rm{mean}}}}$为响应图峰值的历史均差；$\Delta {\xi _t} $为当前帧与前一帧相比，平均峰值能量$\xi $的波动情况；$\Delta {\xi _{{\rm{mean}}}} $为历史平均峰值能量$\xi $的均差值。

当$ {F_{t\_\max }}{\rm{和}}{\xi _t}$均以一定比例大于历史均值，且$ \Delta {\xi _t}$未发生突变时，判定当前帧可获取的特征信息较$ {t - 1}$帧更为完整，此时对特征模板进行更新；当$\Delta {F_{t\_\max }}{\rm{和}}\Delta {\xi _t} $同时发生突变时，判定当前帧目标受到遮挡，突变越剧烈，受遮挡范围越大，此时停止对特征模板的更新，利用多层次目标检测重定位目标。

2.4 多层次目标重定位

使用基于特征点的方法进行目标匹配时，对异常值的过滤处理十分关键，如果同时考虑实时性和准确性两个因素，使用简单单一的拟合方法过滤异常值的结果都不是十分理想，异常值的比例常常高于50%。为此，本文将特征点的过滤分为3个层次，前两个层次进行粗过滤后，再利用3维GHT对特征点进行更为细致的筛选。

考虑到ORB特征点在实践中具备一定的实时性和稳定性，本文阐述的多层次目标重定位方法采用ORB特征。

首先，提取图像中的ORB特征点，使用最邻近距离比(nearest neighbor distance ratio，NNDR)做特征匹配，进行第1次异常值过滤。记待匹配特征为$ {{D_A}}$，其最邻近特征为$ {{D_B}}$，次邻近特征为${D_C}, \mathit{\Phi } $为最近邻与次近邻特征的距离比，判断该特征匹配的条件为

$ \frac{{\left\| {{D_A} - {D_B}} \right\|}}{{\left\| {{D_A} - {D_C}} \right\|}} < \mathit{\Phi } $

(18)

本文将$\mathit{\Phi } $设置为0.8。不同的$ \mathit{\Phi }$值对应的匹配排除率如表 1所示。

表 1 不同距离比对应的匹配排除率
Table 1 Matching exclusion rate for different distance ratios

下载CSV

/%
Φ	错误匹配排除率	正确匹配排除率
0.9	67	2
0.8	91	6
0.7	94	13

其次，丢弃在负样本上找到的第1个最邻近的所有匹配，做第2次匹配过滤，对匹配特征进一步筛选，在提高匹配质量的同时，增加了计算速度。

最后，使用GHT进行第3个层次的过滤，与Lowe(2004)的解决方案不同，本文算法将GHT的参数设置为目标中心、方向和大小。首先预设(0，0)为模板参考点，利用本文算法设立的4个参数定义新的累加表(参数为目标中心、方向和大小)，遍历二次筛选后的剩余特征点，对累加单元进行累加，通过所有累加单元最大值确定目标位置，并将该过程中未被使用的点视为异常值予以剔除，完成第3次过滤。

考虑到GHT在缩放图像过程中带来的不稳定性以及缩放导致的误差损失，本文提出另一种更为简单高效的确定尺度变化的方式。

为了确定目标尺度变化，引入特征点对之间的距离关系。图 2为3幅不同视角(狗的倾斜和旋转导致的视角变化)的训练图像和当前目标图像，图中3条颜色不同的线段为特征点对(此处特征点对仅作为解释说明的用例)的颜色区分，表示不同特征点对在不同图像中的尺度变化。

图 2 训练图像和当前图像的连续关键点对

Fig. 2 Continuous key point pairs of training image and query image

计算训练图像中连续特征点对的距离与当前图像之间的比例，对每幅具有至少两个特征匹配的样本图像重复以上操作，通过计算所有训练图像大小的平均值得到最终目标大小，具体计算为

$ {{\bar \omega }_o} = \frac{1}{\mathit{\Lambda }}\sum\limits_{i = 1}^\mathit{\Lambda } {\left({\frac{{{{\bar \omega }_i}}}{{J - 1}}\sum\limits_{\varepsilon = 1}^{J - 1} {\frac{{\left\| {\mathit{\Gamma }_\varepsilon ^\mathit{\boldsymbol{I}} - \mathit{\Gamma }_{\varepsilon + 1}^\mathit{\boldsymbol{I}}} \right\|}}{{\left\| {\mathit{\Gamma }_\varepsilon ^{{\mathit{\boldsymbol{T}}_i}} - \mathit{\Gamma }_{\varepsilon + 1}^{{\mathit{\boldsymbol{T}}_i}}} \right\|}}} } \right)} $

(19)

式中，$ {{\bar \omega }_o}{\rm{和}}{{\bar \omega }_i}$为表示高度和宽度的向量，${{\bar \omega }_o} $为目标大小，$ {{{\bar \omega }_i}}$为第$i $个样本图像的大小；$\mathit{\Lambda } $为样本图像的数量；$J $为第$ i$个样本图像的ORB特征点数；${\mathit{\Gamma }_\varepsilon ^\mathit{\boldsymbol{I}}} $为图像$ \mathit{\boldsymbol{I}}$上的第$ \varepsilon $个特征点；${\mathit{\Gamma }_\varepsilon ^{{\mathit{\boldsymbol{T}}_i}}} $为样本图像${{\mathit{\boldsymbol{T}}_i}} $上的第$ \varepsilon $个特征点。

从目标重定位的角度分析，3次筛选后得到的特征匹配，质量和数量都十分理想。从数量上观察，3次筛选剔除了大量的重复匹配，提升了算法速度；从质量上分析，3次筛选过滤掉大量的错误匹配，提高了算法的精确度和稳定性。

3 算法步骤

针对目标遮挡问题，多层次目标重定位的互补学习跟踪算法步骤如下：

1) 建立样本模型。利用已知位置信息，框选第1帧图像中需要跟踪的目标，训练2维位置滤波器和颜色直方图模板。

2) 目标定位。将2维相关滤波器和目标颜色直方图模板进行互补结合，在目标区域采集样本，得到滤波器响应图得分${f_{{\rm{tmp1}}}} $；同时计算颜色直方图得分${f_{{\rm{hist}}}} $，代入对应权重，计算出最终融合特征得分$ f$，利用平移搜索进行目标定位。

3) 尺度估计。计算训练图像的连续特征点对的距离与当前图像之间的对应比例，对满足条件的训练图像与当前图像的对应比例求取平均值，得到尺度变化。根据当前帧目标所在位置的中心，提取不同尺度下的候选样本，计算对应的尺度响应值，取最大值为当前尺度大小。

4) 模型更新。当最大响应值$ {F_{t\_\max }}{\rm{和}}{\xi _t}$均以一定比例大于历史均值时，更新位置滤波器，同时更新颜色直方图模板。

5) 遮挡判别。当$\Delta {F_{t\_\max }}{\rm{和}}\Delta {\xi _t} $同时发生突变时，进行多层次目标重定位操作，确认目标后，继续执行步骤2)，否则执行步骤6)。

6) 输出跟踪结果。输出可视化窗口，继续执行步骤2)。

4 实验与对比分析

4.1 实验参数设置及数据

实验在AMD Ryzen 53.20 GHz CPU，8GB内存的设备上通过MATLAB R2016a实现。相关滤波器的λ=10^－3，学习率η=0.015，选取的特征为梯度特征，直方图分类器的学习率θ=0.04。本文在OTB(object tracking benchmark)100数据集(Wu等，2013)中选取10组特点突出且具有挑战的图像序列进行测试，在LaSOT(large-scale single object tracking)(Fan等，2019)数据集上进行完整测试。

10组图像序列的属性信息如表 2所示，其中IV(illumination variation)为光照变化；SV(scale variation)为比例变化；OCC(occlusion)为遮挡；DEF(deformation)为形变；MB(motion blur)为运动模糊；FM(fast motion)为快速运动；IPR(in-plane rotation)为平面内旋转；OPR(out-of-plane rotation)为平面外旋转；OV(out-of-view)为脱离视线；BC(background clutters)为背景杂波；LR(low resolution)为低分辨率。

表 2 序列属性信息
Table 2 The attribute information of the sequence

下载CSV

图像	属性	帧
Basketball	IV, OCC, DEF, OPR, BC	725
Bird2	OCC, DEF, FM, IPR, OPR	99
CarDark	IV, BC	393
CarScale	SV, OCC, FM, IPR, OPR	252
DragonBaby	SV, OCC, MB, FM, IPR, OPR, OV	113
Girl	SV, OCC, IPR, OPR	500
Human5	SV, OCC, DEF	713
Human8	IV, SV, DEF	128
Singer1	IV, SV, OCC, OPR	351
Walking2	SV, OCC, LR	500

考虑到选取的图像序列在遮挡判定下具有尺度变化、旋转等问题，为了准确验证本文跟踪算法的有效性，采用跟踪精度、跟踪速度和平均中心位置误差(center location error，CLE)等评估指标对跟踪结果进行综合评估。其中，平均中心位置误差的计算式为

$ CLE = \frac{1}{n}\sum\limits_{i = 1}^n {\sqrt {{{\left({r{x_i} - g{x_i}} \right)}^2} + {{\left({r{y_i} - g{y_i}} \right)}^2}} } $

(20)

式中，$\left({r{x_i}, r{y_i}} \right) $为当前帧确定的目标中心，$\left({g{x_i}, g{y_i}} \right) $为真正的目标中心，通过对其进行式中变换可以一定程度上描述跟踪精度。

4.2 对比实验分析

为了客观验证本文算法的优势和不足，在选定的10组图像序列上，将本文算法与KCF、DSST、Staple、BACF(background-aware correlation filter)(Galoogahi等，2017)、SRDCF(spatially regularized correlation filter)(Danelljan等，2015)、SAMF (scale adaptive multiple features)(Li和Zhu，2014)、ECO(efficient convolution operators)(Danelljan等，2017)、DeepSTRCF(spatial-temporal regularized correlation filter)(Li等，2018)等8种算法进行跟踪实验对比，不同算法在实验图像序列上的平均中心误差(CLE)、跟踪精确率和运行速度如表 3—表 5所示。其中，深度学习算法ECO和DeepSTRCF在实验中的速度极低，未参与运行速度的比较。

表 3 不同算法在OTB数据集上的平均中心误差对比
Table 3 Comparison of average center error of different algorithms on OTB100 dataset

下载CSV

/像素
算法	Basketball	Bird2	CarDark	CarScale	DragonBaby	Girl	Human5	Human8	Singer1	Walking2
KCF	6.70	7.04	2.78	10.19	9.27	9.66	7.33	8.76	5.34	7.89
DSST	10.70	7.50	1.03	11.96	8.44	8.97	28.80	2.49	2.56	3.02
Staple	7.30	5.98	4.27	6.50	9.86	4.30	4.78	3.02	6.57	7.99
BACF	6.37	8.15	3.88	5.63	6.35	6.33	4.33	2.42	3.58	2.04
SRDCF	11.7	6.10	3.20	6.86	5.77	4.54	2.32	3.08	3.20	3.67
SAMF	7.59	6.42	4.99	11.49	7.41	3.39	4.99	3.79	2.79	4.95
ECO	4.48	6.64	3.37	5.29	6.48	3.85	2.44	3.52	4.56	3.22
Deep STRCF	4.62	3.27	2.24	7.45	5.34	7.58	2.33	2.41	3.77	3.99
本文	2.80	3.20	1.12	5.20	4.30	4.60	2.53	2.39	3.20	2.32
注：加粗字体表示各列最优结果。

表 4 不同算法在OTB数据集上的跟踪精确率对比
Table 4 Comparison of tracking accuracy of different algorithms on OTB100 dataset

下载CSV

/%
算法	Basketball	Bird2	CarDark	CarScale	DragonBaby	Girl	Human5	Human8	Singer1	Walking2
KCF	100.00	84.77	94.31	88.53	63.71	32.67	24.10	30.78	38.63	47.68
DSST	64.41	81.33	100.00	76.27	57.52	24.40	24.30	100.00	68.50	88.70
Staple	85.41	79.79	88.57	68.96	80.94	89.56	61.27	90.34	80.28	92.69
BACF	90.48	53.53	99.49	94.54	45.13	96.73	99.86	100.00	100.00	100.00
SRDCF	34.89	87.39	88.73	91.24	43.80	78.64	93.47	97.46	89.67	85.73
SAMF	50.90	76.80	100.00	71.40	71.70	100.00	89.00	98.00	100.00	97.69
ECO	96.11	81.81	97.69	95.12	69.98	93.44	98.90	96.13	97.48	98.56
Deep STRCF	93.34	95.71	92.56	91.63	96.77	94.98	90.40	94.33	97.58	96.71
本文	88.35	90.53	100.00	96.77	94.28	95.8.	88.30	93.20	93.86	94.60
注：加粗字体表示各列最优结果。

表 5 不同算法在OTB数据集上的平均运行速度对比
Table 5 Comparison of average tracking speed of different algorithms on OTB100 dataset

下载CSV

/(帧/s)
算法	Basketball	Bird2	CarDark	CarScale	DraBaby	Girl	Human5	Human8	Singer1	Walking2
KCF	263.56	253.15	705.99	768.96	293.37	504.50	978.36	326.55	211.86	190.77
DSST	38.50	22.00	83.80	42.60	28.60	92.30	93.70	39.20	13.80	40.30
Staple	85.32	79.67	25.53	25.25	24.70	26.25	35.24	25.12	35.80	37.24
BACF	25.88	24.15	55.76	29.97	24.37	30.15	44.53	29.34	20.87	28.39
SRDCF	3.91	3.73	8.33	7.72	3.75	5.89	8.23	3.83	2.98	4.57
SAMF	4.63	3.01	11.47	7.37	4.02	12.71	5.90	6.58	3.69	4.65
ECO	-	-	-	-	-	-	-	-	-	-
Deep STRCF	-	-	-	-	-	-	-	-	-	-
本文	38.00	36.70	41.80	38.20	36.10	36.60	38.10	39.90	37.20	38.40
注：加粗字体表示各列最优结果，“-”表示未进行比较。

从表 3—表 5可以看出，本文算法的平均中心误差较低。在精确度指标上，本文算法的跟踪精确率较高，比Staple算法有明显提升，且高于经典的KCF和DSST算法。但与BACF算法相比，对复杂背景的处理欠佳，说明本文算法在精确率上仍有不足之处。在运行速度方面，本文算法通过多峰值检测和峰值波动情况判定目标状态信息，并利用目标状态信息侧面推测当前模板质量，进而决定更新与否。这种更新策略在提高模板质量的同时，节约了运算成本，保证了跟踪算法的实时性需求，跟踪性能良好。同时，多层次目标重定位操作共进行3次筛选，剔除了大量误差点和模糊点，也是对运行速度的进一步提升。

图 3—图 5分别为本文算法和8种对比算法在OTB100数据集遮挡图像序列、光照变化图像序列和全部图像序列的精确率和成功率。可以看出，本文算法具备处理遮挡问题的能力，在遮挡图像序列中表现突出，具备较高的精确率。在合理优化特征权重后，本文算法在光照变化图像序列中的效果显著，突出了梯度特征原本的优势，具备抗光照变化的特性。在全部图像序列上的实验结果表明，本文算法具备高精确率，同时在速度上有较大优势。

图 3 不同算法在OTB100数据集遮挡序列中的精确率和成功率

Fig. 3 Precision and success rates of different algorithms on occlusion sequence of OTB100 dataset

图 4 不同算法在OTB100数据集光照变化序列中的精确率和成功率

Fig. 4 Precision and success rates of different algorithms on illumination variation sequence of OTB100 dataset

图 5 不同算法在OTB100数据集全部图像序列的精确率和成功率

Fig. 5 Precision and success rates of different algorithms in all image sequences of OTB100 dataset

结合10组图像序列的关键属性及表 3—表 5、图 3—图 5的实验结果，以及图 6所示本文算法和8种对比算法在OTB100数据集遮挡问题突出的图像序列中的表现情况。分析得出如下结论：

图 6 不同算法在遮挡序列上的跟踪结果

Fig. 6 Tracking results of different algorithms in occlusion sequence ((a)Bird2;(b)CarScale; (c)DragonBaby; (d)Freeman4;(e)Lemming; (f)Matrix)

1) Basketball图像序列的关键属性是目标遮挡的同时进行旋转和快速运动。在此图像序列中，KCF算法表现较好，仅在目标旋转时有轻微的漂移，但由于目标遮挡发生迅速，未产生严重影响。DSST算法受快速运动影响较大，跟踪精确率不高并且目标中心偏移。Staple算法由于加入了颜色特征，在后期相似目标部分遮挡时，直接导致目标丢失。BACF算法具备较高的跟踪精确率和较低平均中心误差，但是速度较慢。DeepSTRCF算法在遮挡发生时直接丢失目标，重新定位目标后因为目标旋转而逐渐漂移，最终定位在相似目标上导致彻底丢失目标。本文算法通过跟踪情况判定的结果，在目标丢失时利用多层次目标检测重定位目标，具有较好的稳定性。

2) Bird2图像序列的关键属性是小部分目标遮挡、旋转和快速运动。在此图像序列中，KCF算法表现较好，但在目标旋转后产生了轻微的目标漂移。DSST算法在目标旋转后，由于出现部分遮挡问题，逐渐产生目标漂移，最后丢失目标。Staple算法在旋转和部分遮挡时仍能进行稳定跟踪，但速度较慢。BACF算法在目标旋转后直接丢失目标。DeepSTRCF算法在目标旋转后逐渐丢失目标，但在4帧后重新跟踪到目标。本文算法通过跟踪情况判定的结果，采取合理的模板更新策略，在目标遮挡时重新定位目标，实现了稳定的跟踪。

3) CarDark图像序列的关键属性是光照变换和背景杂波。在此图像序列中，各算法在跟踪准确度上都取得了不错的结果，在跟踪精度的基础上对比跟踪速度，Staple和DeepSTRCF算法明显不具备跟踪实时性的特点，两者的帧频率分别为25.53帧/s和8.33帧/s。本文算法通过跟踪情况判定的结果，降低了低质量模板的更新频率，提升了跟踪速度。

4) CarScale图像序列的关键属性是遮挡、尺度变换和快速运动。在此图像序列中，KCF和DSST算法在灌木遮挡目标后，前者跟踪框缩小后彻底丢失目标，后者跟踪框中心逐渐偏移目标，效果不理想。Staple和DeepSTRCF算法在目标部分遮挡后仍能高覆盖地跟踪目标，但跟踪速度不理想。BACF算法表现出色，在帧率达到30帧/s满足实时性需求的同时，跟踪精确率也十分可观。本文算法由于以Staple算法作为基础，得到的平均中心误差略逊于BACF算法。

5) DragonBaby图像序列的关键属性与Basketball图像序列相近，目标遮挡更频繁。在此图像序列中，KCF算法在目标第1次旋转后丢失跟踪目标，因不具备重检测能力，最后彻底丢失目标。DSST算法在目标快速运动后发生目标漂移，跟踪框无法锁定目标。Staple算法有很高的跟踪精确率，但是算法受快速运动和复杂背景等因素影响，严重限制了运行速度。BACF算法在满足实时性需求的基础上，具备一定的跟踪精确率。DeepSTRCF算法在目标多次快速运动和旋转后，产生了多个候选响应区，严重干扰了正确的目标跟踪。本文算法利用多层次目标检测，在目标旋转后重新定位目标，能够持续进行稳定跟踪。

6) Girl图像序列的属性比较全面，具备旋转变化、遮挡和尺度变化。在此图像序列中，KCF和DSST算法在目标二次旋转后，都产生了不可逆的目标漂移，在目标部分遮挡后，彻底失去了跟踪目标。BACF算法在目标第1次旋转后，由于背景信息复杂，背景响应程度高于真实目标导致失去目标。Staple算法将颜色特征与梯度特征相结合，有效避免了目标旋转后的漂移问题。本文算法在Staple算法基础上，当图中出现的男人遮挡部分目标时，利用目标检测重新定位目标，继续跟踪目标，效果显著。

7) Human5图像序列的关键属性是尺度变化和形状变换。在此图像序列中，KCF和DSST算法在行人动作变化时，仅根据相关滤波最大值响应确定目标位置，导致目标漂移至行道树。Staple算法在该序列上的跟踪精确率和平均中心误差较为理想，但在速度上低于DSST算法。DeepSTRCF算法受尺度变化影响，平均中心误差逐渐增大。本文算法利用颜色特征的抗形变性，使得行人在动作形变后依然能稳定跟踪。

8) Human8图像序列的关键属性是形变、光照变化和尺度变化。在此图像序列中，DSST、BACF和Staple算法都具有可观的跟踪精确率。KCF算法由于逐帧更新模板，错误的背景信息不断堆积，导致错误跟踪目标。DeepSTRCF算法尽管满足跟踪精确率，但跟踪速度不太理想。本文算法以Staple算法为基础，提升模板更新质量，降低模板更新频率，提升了跟踪性能。

9) Singer1和Walking2图像序列的关键属性均是光照变化和遮挡。在这两个图像序列中，KCF算法由于目标尺度的不断变化，使得跟踪框不断扩大，最终导致跟踪精确率和平均中心误差不断上升，失去跟踪意义。DSST、Staple和BACF算法的跟踪精确率和平均中心误差都十分理想，但实时性仍与实际应用领域具有一定差距。本文算法通过实时对跟踪情况判定，对部分遮挡目标进行重定位处理，能够在满足实时性需求的同时，达到长期稳定跟踪的目的。

图 7是本文算法和8种对比算法在LaSOT数据集上的测试结果。与OTB100数据集的实验结果相比，LaSOT数据集在序列的数量和种类上进行了更细致的划分，提高了跟踪难度，部分算法在精确率上有些许波动，导致从整体角度看，算法的精确率有一定程度的降低，但本文算法仍然具备较高的精确率。可以看出，与其他基于颜色特征和梯度特征的算法相比，本文算法在性能上的提升显而易见。

图 7 不同算法在LaSOT数据集上的精确率

Fig. 7 Precisions rates for different algorithms on LaSOT dataset

5 结论

在目标发生遮挡的情况下，本文算法主要解决了3个问题：1)通过观测跟踪过程中的目标状态信息，对目标遮挡情况和模板质量进行一定的评估，保证算法在目标遮挡时，仍能具备较高的跟踪精确度和稳定性；2)通过目标状态信息判定目标发生遮挡时，利用多层次目标检测的方法，进行目标重定位操作，对目标继续跟踪；3)利用目标状态信息调整模型更新策略，降低逐帧更新模型的频率，提升跟踪速度。但在以下两方面仍然有待改进：1)仅使用ORB特征进行目标重定位，使得算法具备过高的针对性。单一特征点在目标重定位操作过程中具有较高的局限性，对不同跟踪目标以及目标周围环境的响应程度差异较大。应考虑利用多特征点的学习组合和学习调配来应对目标差异对重定位的影响。2)特征点筛选时，固定的过滤阈值导致容错率较高，从而在重定位过程中发生目标漂移。在改进方向上，应考虑设置多个范围值，区分复杂的目标状态和环境因素，提高特征点筛选准确率。

经实验验证，本文算法有效提升了目标跟踪过程中的抗遮挡性，优化了逐帧更新模板导致的模型漂移问题，在具备高稳定性的前提下，提高了跟踪的精确度和实时性；同时，利用目标状态信息，对遮挡目标实施重定位操作，实现长期稳定的跟踪。今后将加强对多特征点的组合使用和协同调度的研究，进一步提升遮挡状态下重定位操作的精确度。

参考文献

Bao C L, Wu Y, Ling H B and Ji H. 2012. Real time robust L1 tracker using accelerated proximal gradient approach//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE: 1830-1837[DOI: 10.1109/CVPR.2012.6247881]

Bertinetto L, Valmadre J, Golodetz S, Miksik O and Torr P H S. 2016a. Staple: complementary learners for real-time tracking//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 1401-1409[DOI: 10.1109/CVPR.2016.156]

Bertinetto L, Valmadre J, Henriques J F, Vedaldi A and Torr P H S. 2016b. Fully-convolutional siamese networks for object tracking//Proceedings of the 14th ECCV Workshops. Amsterdam, The Netherlands: Springer: 850-865[DOI: 10.1007/978-3-319-48881-3_56]

Bolme D S, Beveridge J R, Draper B A and Lui Y M. 2010. Visual object tracking using adaptive correlation filters//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE: 2544-2550[DOI: 10.1109/CVPR.2010.5539960]

Danelljan M, Bhat G, Khan F S and Felsberg M. 2017. ECO: efficient convolution operators for tracking//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 6931-6939[DOI: 10.1109/CVPR.2017.733]

Danelljan M, Häger G, Khan F S and Felsberg M. 2015. Learning spatially regularized correlation filters for visual tracking//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 4310-4318[DOI: 10.1109/ICCV.2015.490]

Danelljan M, Häger G, Khan F S, Felsberg M. 2016. Discriminative scale space tracking. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(8): 1561-1575 [DOI:10.1109/TPAMI.2016.2609928]

Fan H and Ling H B. 2017. SANet: Structure-aware network for visual tracking//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognitio Workshops. Honolulu, USA: IEEE: 2217-2224[DOI: 10.1109/CVPRW.2017.275]

Fan H, Lin L T, Yang F, Chu P, Deng G, Yu S J, Bai H X, Xu Y, Liao C Y and Ling H B. 2019. LaSOT: a high-quality benchmark for large-scale single object tracking//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: #00552[ DOI:10.1109/CVPR.2019.00552]

Galoogahi H K, Fagg A and Lucey S. 2017. Learning background-aware correlation filters for visual tracking//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 1144-1152[DOI: 10.1109/ICCV.2017.129]

Guo W, You S S, Gao J Y, Yang X S, Zhang T Z, Xu C S. 2018. Deep relative metric learning for visual tracking. Scientia Sinica Informations, 48(1): 60-78 (郭文, 游思思, 高君宇, 杨小汕, 张天柱, 徐常胜. 2018. 深度相对度量学习的视觉跟踪. 中国科学:信息科学, 48(1): 60-78) [DOI:10.1360/N112017-00124]

Henriques J F, Caseiro R, Martins P and Batista J. 2012. Exploiting the circulant structure of tracking-by-detection with kernels//Proceedings of the 12th European Conference on Computer Vision. Berlin, Germany: Springer: 702-715[DOI: 10.1007/978-3-642-33765-9_50]

Henriques J F, Caseiro R, Martins P, Batista J. 2014. High- speed tracking with kernelized correlation filters. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(3): 583-596 [DOI:10.1109/TPAMI.2014.2345390]

Li B, Wu W, Wang Q, Zhang F Y, Xing J L and Yan J J. 2019. SiamRPN++: evolution of Siamese visual tracking with very deep networks//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 4282-4291[DOI: 10.1109/CVPR.2019.00441]

Li F, Tian C, Zuo W M, Zhang L and Yang M H. 2018. Learning spatial-temporal regularized correlation filters for visual tracking//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 4904-4913[DOI: 10.1109/CVPR.2018.00515]

Li Y and Zhu J K. 2014. A scale adaptive kernel correlation filter tracker with feature integration//Proceedings of 2014 European Conference on Computer Vision. Zurich, Switzerland: Springer: 254-265[DOI: 10.1007/978-3-319-16181-5_18]

Lowe D G. 2004. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 60(2): 91-110 [DOI:10.1023/B:VISI.0000029664.99615.94]

Lu H C, Li P X, Wang D. 2018. Visual object tracking: a survey. Pattern Recognition and Artificial Intelligence, 31(1): 61-67 (卢湖川, 李佩霞, 王栋. 2018. 目标跟踪算法综述. 模式识别与人工智能, 31(1): 61-76) [DOI:10.16451/j.cnki.issn1003-6059.201801006]

Lukežic A, Vojír T, Zajc L C, Matas J and Kristan M. 2017. Discriminative correlation filter with channel and spatial reliability//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 4847-4856[DOI: 10.1109/CVPR.2017.515]

Wang M M, Liu Y and Huang Z Y. 2017. Large margin object tracking with circulant feature maps//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 4800-4808[DOI: 10.1109/CVPR.2017.510]

Wang Q, Teng Z, Xing J L, Gao J, Hu W M and Maybank S. 2018. Learning attentions: residual attentional siamese network for high performance online visual tracking//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 4854-4863[DOI: 10.1109/CVPR.2018.00510]

Wu Y, Lim J and Yang M H. 2013. Online object tracking: a benchmark//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA: IEEE: 2411-2418[DOI: 10.1109/CVPR.2013.312]

Zhang T Z, Xu C S and Yang M H. 2017. Multi-task correlation particle filter for robust object tracking//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 4819-4827[DOI: 10.1109/CVPR.2017.512]

Zhang W, Kang B S. 2017. Recent advances in correlation filter-based object tracking: a review. Journal of Image and Graphics, 22(8): 1017-1033 (张微, 康宝生. 2017. 相关滤波目标跟踪进展综述. 中国图象图形学报, 22(8): 1017-1033) [DOI:10.11834/jig.170092]

Zhou Y, Bai X, Liu W Y, Latecki L J. 2016. Similarity fusion for visual tracking. International Journal of Computer Vision, 118(3): 337-363 [DOI:10.1007/s11263-015-0879-9]

Zhu S G, Du J P, Ren N. 2017. A novel simple visual tracking algorithm based on hashing and deep learning. Chinese Journal of Electronics, 26(5): 1073-1078 [DOI:10.1049/cje.2016.06.026]