发布时间: 2017-08-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170092
2017 | Volume 22 | Number 8

综述

摘要

目的目标跟踪是计算机视觉中的关键问题，在人机交互、行为识别等领域有着非常广泛的应用。最近，相关滤波理论由于其高效性和鲁棒性，被用于目标跟踪领域，取得了一系列新的进展，成为目标跟踪领域的研究热点，得到越来越多的关注。为使更多国内外研究者对相关滤波目标跟踪理论及其发展进行探索，本文对该领域研究现状进行综述。方法首先介绍相关滤波跟踪的一般框架，在此基础上，给出相关滤波理论，并重点对经典相关滤波跟踪算法——核相关滤波（KCF）跟踪算法进行详细描述，然后讨论目标跟踪中常见问题的处理——特征的有效表示和尺度变化的适应，并进一步从3个方面分析当前研究现状，指出未来可能的发展趋势。结果采用目标跟踪基准数据库（OTB-2013）中的50组视频序列进行实验，分析比较45种不同跟踪算法的性能，包括14种代表性相关滤波跟踪算法。在总体性能评估中给出排名前15位的跟踪算法，其中相关滤波跟踪算法占11个，充分体现此类算法的优越性。结论相关滤波理论在目标跟踪领域的研究取得了显著的进展，具有广阔的应用前景，但受复杂场景及目标外观剧烈变化等因素影响，目标跟踪仍是一个极具挑战的问题。研究高效、鲁棒的相关滤波目标跟踪算法具有非常重要的意义。

关键词

相关滤波跟踪; 特征表示; 尺度自适应; 分块模型

Recent advances in correlation filter-based object tracking:a review

Zhang Wei, Kang Baosheng

Department of Information Science and Technology, Northwest University, Xi'an 710127, China

Abstract

Objective Visual object tracking is a key problem in computer vision area.It has a wide range of applications in the field of human-computer interaction, behavior recognition, robotics, and surveillance.Recently, visual object tracking has been widely applied to object tracking field due to its efficiency and robustness of correlation filter theory.A series of new advances have been introduced and much attention has been achieved.Correlation filter-based tracking methods have become a research interest in this field.These methods have received extremely compelling performance in recent benchmarks and competitions.This paper reviews the current research status of the tracking field to allow more researchers to explore the theory and development of correlation filter-based trackers (CFTs). Method First, the general framework of correlation filter tracking is introduced.The correlation filter theory is presented based on the general framework.Then, the classic CFTs, such as the kernelized correlation tracking, are described in three parts as follows:training, detection, and updating in detail.Furthermore, problems that often occurred in tracking task, such as feature representation and scale variation, are discussed.The scale estimation strategy in CFTs is further divided into four different categories depending on how they handle the scale variation; the categories are scaling pool-based strategy, part or patch-based strategy, keypoint-based strategy, and other methods based on their proposed models.In addition, the current research status is analyzed in three aspects, namely, model-based improvement, part-based tracking, and ensemble-based tracking.Future development trends are also presented in the discussion. Result Fifty video sequences from object tracking benchmark (OTB-2013) dataset have been adopted in the experiments to analyze the performance of 45 state-of-the-art trackers, including 14 representative CFTs.Comparisons are performed for these trackers using average center location error, average Pascal VOC overlap ratio, and median frame per second.Precision and success plots are presented simultaneously to evaluate the overall and attribute-based performances.In the overall performance evaluation, the top 15 trackers are provided, and 11 CFTs are observed, fully reflecting the superiority of these trackers.In the attribute-based evaluation, benchmark sequences are annotated with 11 different attributes, such as scale variation, occlusion, and deformation.Success plots of different attributes are presented, and the performance of CFTs and state-of-the-art trackers is discussed.Experiment results demonstrate that most CFTs not only perform favorably in comparison to the state-of-the art trackers in terms of accuracy and robustness but also satisfy the demand of real-time processing. Conclusion The research on correlation filter theory achieves great improvements; it has extensive applications in the object tracking field.However, actual scenarios are usually complex, and targets often undergo large appearance changes, which easily influence the tracking performance.Object tracking remains a challenging task.Developing highly efficient and robust CFTs is considerably significant.Future studies can be conducted on balancing between the accuracy and efficiency, selecting appropriate features, and exploiting spatial structure of reliable parts.The application of CFTs in multi-object tracking and long-term tracking is also a valuable point.

Key words

correlation filter tracking; feature representation; scale variation; part based model

0 引言

目标跟踪是计算机视觉中非常重要的问题，在视频监控、人机交互等领域有着广泛应用。目标跟踪的目的是在给定第一帧图像中目标初始状态(通常为位置或范围)的情况下，对后续图像序列中每一帧的目标位置进行估计。尽管近年来目标跟踪领域取得了显著的进展，但是它仍是一个极具挑战的问题。有许多因素会对跟踪算法的性能造成影响，如部分遮挡、目标形变、背景复杂以及尺度改变等。如何建立有效的外观模型是跟踪算法成功与否的关键因素。

跟踪算法可以根据外观模型的不同分为两类：生成式模型^[1-3]与判别式模型^[4-6]。生成式模型通过在线学习方式建立目标模型，然后使用模型搜索重建误差最小的图像区域，完成目标定位。这一类方法没有考虑目标的背景信息，图像信息没有得到较好的应用。判别式模型将目标跟踪看作是一个二元分类问题，同时提取目标和背景信息用来训练分类器，将目标从图像序列背景中分离出来，从而得到当前帧的目标位置。文献[7-8]在对跟踪算法的评估中发现背景信息在跟踪中十分有效，而判别模型同时考虑了目标和背景信息，在现有跟踪方法中具有明显的优势。

最近，基于相关滤波的目标跟踪(CFTs)方法取得了显著的进展，成为当前研究热点，得到了研究者的广泛关注。相关滤波器设计时，当在视频场景中遇到感兴趣目标时，会产生相关响应峰值，而对于背景产生较低的响应值，通常会将其作为检测器使用。这类滤波器在定位中十分有效，但其训练过程不适合于目标跟踪，直到误差最小平方和滤波器(MOSSE)^[9]的提出，这种情形才有了改善。MOSSE使用了一种自适应的训练策略，实时有效地实现了目标跟踪。基于MOSSE滤波器的基本框架，一系列改进算法被提出^[10-14]。CFTs在目标跟踪基准数据库(OTB)^[7-8]的测评中体现出显著的高效性和鲁棒性，加快了目标跟踪的发展。本文在文献[15]对CFTs综述的基础上，主要对最近提出的新算法进行对比分析，且主要针对单目标短时跟踪问题展开讨论，关于长时间跟踪问题，可以参见文献[15-17]。

本文工作如下：首先对相关滤波理论进行介绍，在此基础上，详细描述经典的核相关滤波跟踪(KCF)算法^[11]，然后从目标跟踪的常见问题、当前研究现状等方面展开分析与讨论，最后采用OTB-2013中的50组视频序列进行实验，将CFTs与经典跟踪算法进行比较，进一步表明CFTs的优越性。

1 相关滤波跟踪理论

根据已有算法，可以将相关滤波跟踪一般框架总结如下：

1) 在第1帧给定的目标位置提取图像块，训练得到相关滤波器。在后续的每一帧中，根据前一帧位置提取新的图像块，用于目标检测。

2) 提取图像块的特征，并用余弦窗口平滑边缘。

3) 通过离散傅里叶变换(DFT)执行相关滤波操作。

4) 通过傅里叶逆变换得到置信图(confidence map)或响应图(response map)，置信图的最大值所对应的坐标位置即为目标的新位置，并由此估计位置训练、更新相关滤波器。

由于相关滤波器的检测、训练和更新仅采用DFT实现，整个过程在频域执行，提高了运行速率。图 1中给出了相关滤波跟踪算法的执行过程。

图 1 相关滤波跟踪算法执行过程示意图

Fig. 1 Illustration of the execution process of correlation filter based trackers

1.1 相关滤波理论

设$\mathit{\boldsymbol{x}}$表示输入数据，可以是原始图像块或提取出的特征，$\mathit{\boldsymbol{h}}$表示相关滤波器，假设${\mathit{\boldsymbol{\hat x}}}$表示$\mathit{\boldsymbol{x}}$的傅里叶变换。根据卷积定理，空域中的卷积等价于频域中元素间的乘法运算，可得

$\mathit{\boldsymbol{x}} \otimes \mathit{\boldsymbol{h = }}{F^{ - 1}}\left( {\mathit{\boldsymbol{\hat x}} \odot {{\mathit{\boldsymbol{\hat h}}}^*}} \right)$

(1)

式中，⊗表示卷积，${F^{ - 1}}$表示傅里叶逆变换，⊙表示元素间的乘法运算，*表示复共轭。为了训练滤波器，定义期望的相关输出$\mathit{\boldsymbol{y}}$，对于目标的新样本${{\mathit{\boldsymbol{x}}^\prime }}$，相关滤波器$\mathit{\boldsymbol{h}}$满足条件

$\mathit{\boldsymbol{y = }}{F^{ - 1}}\left( {{{\mathit{\boldsymbol{\hat x}}}^\prime } \odot {{\mathit{\boldsymbol{\hat h}}}^*}} \right)$

(2)

因此，得到

${{\mathit{\boldsymbol{\hat h}}}^*} = \frac{{\mathit{\boldsymbol{\hat y}}}}{{{{\mathit{\boldsymbol{\hat x}}}^\prime }}}$

(3)

式中，$\frac{{\mathit{\boldsymbol{\hat y}}}}{{{{\mathit{\boldsymbol{\hat x}}}^\prime }}}$表示元素间的除法运算。

1.2 核相关滤波器

在KCF中，Henriques将相关滤波器的求解转化为岭回归问题^[10-11]，循环矩阵用来对样本进行密集采样，核方法的引入使得相关滤波算法更具鲁棒性，能够处理非线性分类问题。KCF的实现可以分为训练、检测、更新3个部分。

1) 训练。在第$t$帧中，分类器$f\left( \mathit{\boldsymbol{x}} \right) = \left\langle {\mathit{\boldsymbol{w}},\phi \left( \mathit{\boldsymbol{x}} \right)} \right\rangle $在以目标位置为中心、大小为$M$×$N$的图像块$\mathit{\boldsymbol{x}}$上进行训练，采用${x_i}$循环移位的形式实现，其中$i$∈{0，…，$M$－1}×{0，…，$N$－1}。每一个样本${\mathit{\boldsymbol{x}}_i}$对应一个标记${y_i}$∈[0, 1]，由高斯函数得到。分类器可以通过最小化回归误差训练得到，表示为

$\mathop {\min }\limits_w \sum\limits_i {{{\left( {\left\langle {\mathit{\boldsymbol{w}},\phi \left( {{\mathit{\boldsymbol{x}}_i}} \right)} \right\rangle - {y_i}} \right)}^2} + \lambda {{\left\| \mathit{\boldsymbol{w}} \right\|}^2}} $

(4)

式中，〈.，.〉表示内积，$\mathit{\boldsymbol{w}}$表示分类器参数，${\phi \left( \mathit{\boldsymbol{x}} \right)}$是Hilbert空间的映射，$\lambda $表示正则化参数，用来控制过拟合现象。采用核方法，$\mathit{\boldsymbol{w}}$可以表示为训练样本线性组合的形式，即$\mathit{\boldsymbol{w}} = \sum\limits_i {{\alpha _i}} \phi \left( {{\mathit{\boldsymbol{x}}_i}} \right)$，其中$\mathit{\boldsymbol{\alpha }}$是$\mathit{\boldsymbol{w}}$的对偶空间变量，即滤波器系数。对于核函数$\kappa \left( {\mathit{\boldsymbol{x}},{\mathit{\boldsymbol{x}}^\prime }} \right) = \left\langle {\phi \left( \mathit{\boldsymbol{x}} \right),\phi \left( {{\mathit{\boldsymbol{x}}^\prime }} \right)} \right\rangle $，分类器可以进一步转化为$f\left( \mathit{\boldsymbol{x}} \right) = \sum\limits_i {{\alpha _i}} \kappa \left( {{\mathit{\boldsymbol{x}}_i},\mathit{\boldsymbol{x}}} \right)$。优化问题也由$\mathit{\boldsymbol{w}}$的求解转化为$\mathit{\boldsymbol{\alpha }}$的求解问题。根据文献[11]，如果核函数具有循环性质，那么${\mathit{\boldsymbol{\hat \alpha }}}$的计算公式为

$\mathit{\boldsymbol{\hat \alpha = }}\frac{{\mathit{\boldsymbol{\hat y}}}}{{{{\mathit{\boldsymbol{\hat k}}}^{xx}} + \lambda }}$

(5)

式中，$\mathit{\boldsymbol{\hat \alpha = }}F\left( \mathit{\boldsymbol{\alpha }} \right)$表示$\mathit{\boldsymbol{\alpha }}$的离散傅里叶变换。核相关${\mathit{\boldsymbol{k}}^{xx}}$表示$\kappa \left( {{\mathit{\boldsymbol{x}}_i},\mathit{\boldsymbol{x}}} \right)$的第$i$个元素，计算公式为

$\begin{array}{l} {\mathit{\boldsymbol{k}}^{x{x^\prime }}} = \exp \left( { - \frac{1}{{{\sigma ^2}}}\left( {{{\left\| \mathit{\boldsymbol{x}} \right\|}^2} + } \right.} \right.{\left\| {{\mathit{\boldsymbol{x}}^\prime }} \right\|^2} - \\ \quad \quad \quad \quad 2{F^{ - 1}}\left. {\left. {\left( {{{\mathit{\boldsymbol{\hat x}}}^ * } \odot {{\mathit{\boldsymbol{\hat x}}}^\prime }} \right)} \right)} \right) \end{array}$

(6)

式中，$\sigma $为核函数参数，${{\mathit{\boldsymbol{\hat x}}}^*}$表示${\mathit{\boldsymbol{\hat x}}}$的复共轭。

2) 检测。训练阶段完成以后，对于第$t$+1帧，在以上一帧目标位置为中心、大小为$M$×$N$的图像块$z$上进行检测。相关响应图$f\left( \mathit{\boldsymbol{z}} \right)$为

$f\left( \mathit{\boldsymbol{z}} \right) = {F^{ - 1}}\left( {\left( {{{\mathit{\boldsymbol{\hat k}}}^{xz}}} \right) \odot \mathit{\boldsymbol{\hat \alpha }}} \right)$

(7)

因此，新的目标位置通过$f\left( \mathit{\boldsymbol{z}} \right)$最大值对应位置找到。

3) 更新。为了更好地适应目标外观的变化，采用线性插值的方式对滤波器系数$\mathit{\boldsymbol{\alpha }}$和目标外观模型$\mathit{\boldsymbol{x}}$进行更新，即

${{\mathit{\boldsymbol{\hat \alpha }}}^t} = \left( {1 - \gamma } \right){{\mathit{\boldsymbol{\hat \alpha }}}^{t - 1}} + \gamma \mathit{\boldsymbol{\hat \alpha }}$

(8)

${{\mathit{\boldsymbol{\hat x}}}^t} = \left( {1 - \gamma } \right){{\mathit{\boldsymbol{\hat x}}}^{t - 1}} + \gamma \mathit{\boldsymbol{\hat x}}$

(9)

式中，$\gamma $表示学习率，$t$表示帧数。

2 目标跟踪中常见问题的处理

目标跟踪中常见的问题有很多，这里主要从特征选择和表示、尺度变化的处理两方面进行分析。特征的选择和表示在目标跟踪中十分关键，它直接影响目标外观模型的有效性，选择适合的特征或特征融合方式是首要考虑的因素。目标在跟踪过程中由近及远、或由远及近的变化总会伴随目标尺度的改变，采用固定跟踪框会损失目标边缘处的信息、或包含部分背景信息，进而影响跟踪结果的准确性。

2.1 有效特征的选择和表示

最初的相关滤波器MOSSE和基于检测的核循环结构(CSK)跟踪器^[10]均采用原始图像灰度作为特征，易受图像背景复杂、目标背景颜色相似的影响。KCF引入了多通道特征表示，对于高斯核函数，将不同通道的向量相加得到，即

$\begin{array}{l} {\mathit{\boldsymbol{k}}^{x{x^\prime }}} = \exp \left( { - \frac{1}{{{\sigma ^2}}}\left( {{{\left\| x \right\|}^2} + } \right.} \right.{\left\| {{x^\prime }} \right\|^2} - \\ \quad \quad \quad \quad 2{F^{ - 1}}\left. {\left. {\left( {\sum\limits_c {\mathit{\boldsymbol{\hat x}}_c^*} \odot \mathit{\boldsymbol{\hat x}}_c^\prime } \right)} \right)} \right) \end{array}$

(10)

式中，$c$表示通道数。KCF中采用方向梯度直方图(HOG)特征^[18]，体现了图像的边缘梯度信息，得到了较好的跟踪结果。颜色名(CN)跟踪器^[12]将颜色属性^[19]用于相关滤波跟踪算法中，并采用自适应降维策略，将11维颜色特征降为2维，在保证高效跟踪的同时，提高了算法性能。基于多特征融合的尺度自适应(SAMF)跟踪器^[13]同时将原始图像灰度信息、颜色属性以及HOG多种特征融合，得到更为鲁棒的结果。文献[20]将一种判别颜色描述子(DD)^[21]加入向量相关滤波器(VCF)^[22]来提高跟踪性能。文献[23]对RGB特征空间下的KCF进行改进，引入深度信息(depth cues)，将深度信息与颜色信息融合，提出一种基于深度尺度核相关滤波(DS-KCF)的实时RGB-D跟踪器。文献[24]提出一种新的特征描述子——多颜色通道提取的方向梯度直方图(MC-HOG)特征，将梯度和颜色信息融合，以提升跟踪性能。文献[25]提出一种融合深度特征的空间正则化判别相关滤波(DeepSRDCF)跟踪算法，将卷积特征(convolutional features)考虑进来，在判别相关滤波跟踪框架下使用卷积神经网络(CNN)卷积层中的激励。文献[26]提出一种基于卷积特征的相关滤波(CF2) 跟踪方法，同样采用CNN特征建立目标外观模型，不同的是，它通过在每一个卷积层中自适应地训练相关滤波器，以由粗到精的方式采用多层相关响应图推导目标位置。

由上述讨论可以看出，CFTs中使用的特征经历了从原始图像灰度、颜色名、HOG等单一特征到多种特征融合的转变，并进一步将深度特征等其他特征引入。后续研究可以考虑其他有效特征或特征融合方式。

2.2 尺度变化的适应

传统相关滤波跟踪算法采用固定大小的跟踪窗口。然而在目标移动过程中，常常会伴随着尺度的变化，如果不能较好地处理目标尺度的变化，那么当目标变大时，跟踪窗口会丢失目标边缘的部分信息。而在目标变小时，采用同样大小的跟踪窗口，又会将背景信息包含进来，对后续视频帧中目标位置的确定产生影响。为了更好地处理目标尺度变化，许多算法针对这一问题进行改进，主要有以下几种思路：

2.2.1 基于尺度池(scaling pool)的方法

设跟踪窗$i$的大小为2维向量${\mathit{\boldsymbol{s}}_i}$，${\mathit{\boldsymbol{s}}_0}$表示原始窗口大小，$\mathit{\boldsymbol{S = }}\left\{ {{a_1},{a_2}, \cdots ,{a_{{N_s}}}} \right\}$为尺度池，其中${a_i} = \left( {i = 1, \cdots ,{N_s}} \right)$表示尺度因子，${{N_s}}$为正整数。跟踪窗$i$的大小由${s_i} = {a_i}{s_0}$计算得到。尺度估计采用搜索策略进行，对于每一帧视频图像，不同大小的跟踪窗在前一帧目标中心处采样得到。对不同的跟踪窗，分别训练得到相关滤波器计算置信图，其中响应值最大的位置为当前帧目标跟踪位置，所对应的窗口尺度因子反映当前帧尺度变化。SAMF跟踪器和判别式尺度空间跟踪器(DSST)^[14]算法均采用这一思路实现，不同的是SAMF使用固定的尺度因子$\mathit{\boldsymbol{S}}$={0.985，0.99，0.995，1.0，1.005，1.01，1.015}，且变化范围十分有限，对于尺度变化较大的问题不能较好适应。DSST定义了一个3维尺度空间滤波器，类似于一个尺度金字塔，其大小为$m$×$n$×$s$，$m$和$n$分别表示滤波器的宽和高，尺度池定义为$\mathit{\boldsymbol{S}} = \left\{ {{a^n}|n = \left\lfloor { - \frac{{s - 1}}{2}} \right\rfloor , \cdots ,\left\lfloor {\frac{{s - 1}}{2}} \right\rfloor } \right\}$，其中$a$表示尺度增量因子，文中取1.02，$s$表示尺度数，文中取33。文献[27]提出一种多模版尺度自适应(MTSA)核相关滤波跟踪方法，该方法中尺度计算策略与SAMF和DSST算法相似，尺度搜索空间定义为[0.76，0.80，…，1.20，1.24]，在检测阶段对多个尺度应用max-pooling思想。文献[27]与之前工作的最大区别在于它对后验概率求最大值，而不是求似然函数的最大值，即

$\mathop {\max }\limits_i P\left( {{s_i}|y} \right) = P\left( {y|{s_i}} \right)P\left( {{s_i}} \right)$

(11)

式中，${s_i}$表示第$i$个尺度因子，$P\left( {y|{s_i}} \right)$是似然函数，由第$i$个尺度因子下的最大检测响应值$\hat f\left( \mathit{\boldsymbol{z}} \right) = {{\mathit{\boldsymbol{\hat k}}}^{xz}}$⊙ ${\mathit{\boldsymbol{\hat \alpha }}}$定义，先验项$P\left( {{s_i}} \right)$服从高斯分布。由于一般情况下，目标尺度在连续帧中变化并不大，采用上述方法保证连续帧间尺度变化的平滑性。文献[28]提出一种空间正则化判别相关滤波器(SRDCF)用于目标跟踪，采用与文献[13-14]类似的方法实现尺度变化的自适应。文献[29]提出一种基于Multi-expert的尺度自适应(SME)跟踪器，与文献[13-14]不同，该方法同时估计目标平移和尺度的变化。

2.2.2 基于分块(part/patch based)模型的方法

与尺度池方法不同，基于分块模型的跟踪方法也可以有效解决目标尺度变化问题。文献[30]提出一种可信块跟踪器(RPT)，通过记录不同子块相对位置的改变来估计目标尺度的变化，并用高斯滤波器平滑尺度变化。文献[31]提出一种实时分块自适应核相关滤波(RPAC)跟踪算法，该方法中整个目标的尺度变化由贝叶斯框架决定。文献[32]在基于检测的跟踪框架下提出一种基于分块的尺度计算(PSC)策略，将目标分为四块，其中每一个分块分别作为子分类器，使用CN跟踪器计算得到每一个子块置信图的最大响应值位置，通过比较前后两帧间子块置信图最大响应值位置的变化估计目标尺度变化，同时设置权值系数去除错误匹配点提高算法性能。文献[33]提出一种基于可变形分块的相关滤波(DPCF)跟踪算法，使用一种自适应的方式改变滤波器的大小，准确估计目标尺度变化。文献[33]的实验表明，仅采用两个分块就可以实现有效跟踪，用两个分块间距离的远近来衡量尺度的变化。若分块越近，则表明目标变小；反之，目标变大。具体是通过计算两个分块间的距离以及前一帧尺度变化得到，并求出连续帧尺度变化均值与预先设定阈值比较以判断是否需要尺度的更新。

2.2.3 基于特征点检测(keypoints based)的方法

基于特征点检测的目标跟踪方法^[34-35]利用局部显著特征，如尺度不变特征变换(SIFT)^[36]，二进制鲁棒不变可扩展的特征点(BRISK)^[37]等，不仅可以有效地应对遮挡和变形问题，还能通过匹配前后两帧视频图像的特征点，计算其相对位置的改变估计目标尺度的变化。文献[38]提出一种可伸缩相关滤波器(sKCF)，将特征点检测跟踪作为尺度估计策略加入到KCF框架，先利用前向-后向光流(forwards-backwards optical flow)^[39]跟踪方法在相邻两帧目标区域提取特征点，选择置信值高的特征点进行匹配，比较相邻两帧匹配特征点位置的变化，并根据不同的特征点距目标中心的远近分配不同的权值，离目标中心越近的特征点在尺度估计中所占权重越大，反之越小

2.2.4 其他方法

不同于前面讨论的3种方式，一些方法结合自身模型特点定义不同的尺度估计策略。文献[40]提出一种时空上下文(STC)目标跟踪方法，通过计算当前帧目标中心位置处的置信值，与前一帧目标中心处置信值的比值平方根估计尺度因子，并计算连续$n$帧尺度因子的平均值来平滑尺度的变化。文献[20]采用相似的方法实现。文献[41]提出一种协同相关滤波器(CCT)直接将尺度因子加入到核矩阵中来应对尺度变化。文献[42]根据计算前后两帧检测目标像素点数量的比值来估计目标尺度变化。文献[43]提出一种带有候选区域检测的核相关滤波(KCFDP)跟踪方法，引入边缘框(EdgeBoxes)搜索目标位置附近的可能候选区域(Proposals)，并用这些Proposals估计目标最终位置、尺度、长宽比的变化。DS-KCF^[23]将深度信息与颜色信息结合，使用目标的深度分布确定尺度的变化，并在频域对尺度的变化进行有效建模。DS-KCF采用两种类型的尺度因子，一种为连续尺度因子，由目标的相对深度表示，通过计算目标当前深度与初始深度的比值得到${S^r} = {d_{{\rm{obj}}}}/d_{{\rm{obj}}}^{{t_0}}$，其中${d_{{\rm{obj}}}}$表示目标当前深度，$d_{{\rm{obj}}}^{{t_0}}$表示目标初始深度。另一种是一个量化尺度因子的集合${\mathit{\boldsymbol{S}}^q} = \left\{ {{s_j}|j = 1, \cdots ,J} \right\}$，当前尺度通过选择最接近${\mathit{\boldsymbol{S}}^r}$的因子${s_j} \in {\mathit{\boldsymbol{S}}^q}$得到。${\mathit{\boldsymbol{S}}^q}$能够提高计算效率，而${\mathit{\boldsymbol{S}}^r}$能够表示尺度上更精细的变化。

除了早期经典跟踪器，如MOSSE、CSK、KCF和CN跟踪器等，后续改进算法大多包含了尺度变化的适应，可见尺度问题在目标跟踪中的重要性。前期算法主要采用尺度池策略，虽然取得了一定效果，但由于尺度变化范围有限，通常为固定值，或是目标位置的估计与尺度估计分别进行，当目标位置估计不准确时，必然对尺度变化的计算产生影响。后续算法在此基础上改进，同时进行目标平移和尺度估计，并进一步利用分块模型的优势，较为准确地计算出前后帧尺度的变化，或将特征点检测引入，用特征点的位移变化反映尺度的改变。相比之下，结合模型特点定义不同的尺度估计策略更具有灵活性。

3 研究现状分析

目标跟踪之所以具有极大的挑战性，是由于以下几方面因素：1) 缺乏充足的目标外观信息(仅有第1帧中的目标信息)；2) 目标和背景判别的不确定性(通常受限于跟踪框的几何形状，目标和背景信息会同时包含进来)；3) 跟踪过程中，不可避免的目标外观变化。尽管在建立外观模型和鲁棒跟踪方面取得了明显进展，目标跟踪在许多实际困难面前仍然是一个非常复杂的问题。除了第2节中讨论的特征选择和表示是所有跟踪算法必须要考虑的问题，以及大部分改进算法包含的尺度变化的处理，目标遮挡和模型偏移等也是跟踪中面临的问题，严重影响跟踪性能。

本节针对上述挑战和问题，讨论相关滤波跟踪算法的改进。图 2结合第2节讨论问题和本节内容，对本文综述CFTs进行汇总。从图 2中可以看出不同方法采用的特征及其尺度估计方式。根据不同方法的特点，将CFTs分为以下3种情形进行讨论：基于模型改进(model based improvement)的方法；基于分块模型(part-based model)的方法；基于集成的跟踪方法(ensemble-based tracking)。基于模型改进是对经典相关滤波跟踪框架的改进，旨在处理多种问题。基于分块模型的方法常用于遮挡情况的处理，而基于集成的跟踪方法可较好地应对模型偏移的发生。从图 2中可以看出不同情形下CFTs的主要贡献。下面进行详细对比分析。

图 2 本文综述相关滤波跟踪方法汇总

Fig. 2 Summarization of reviewed methods of CFTs in this paper

3.1 基于模型改进的方法

基于模型改进的方法以相关滤波理论为基础，从CFTs特征融合、核函数、尺度处理、模型更新、循环矩阵等多个角度出发对经典模型进行改进。相比于传统CFTs，跟踪性能得到了不同程度的提升。

CF2^[26]采用CNN特征建立目标外观模型，并将其引入目标跟踪，以提高跟踪性能。根据CNN模型卷积层的特点，前向卷积层(early layers of CNNs)中保留了较高的空间分辨率可以用于准确的目标定位，但缺少语义信息；而后向卷积层(last layer of CNNs)能够捕捉更多的语义信息，但会造成空间分辨率降低和空间位置模糊。CF2采用后向层中的语义信息应对目标外观的剧烈变化，同时采用前向层中的特征进行准确定位，减少模型偏移的发生。通过在每一个卷积层上自适应地训练相关滤波器建立目标外观模型，以由粗到精的方式采用多层相关响应图推导目标位置。

MTSA^[27]从尺度估计和滤波器更新两方面进行改进。通过重新定义核相关问题并采用固定点优化有效地将多个模版(先前帧的训练样本)用于滤波器更新。MTSA中的尺度估计方法见2.2.1节。

由于判别相关滤波器在训练过程中使用了周期性的假设，能够在目标邻域的所有图像块上有效地学习得到分类器。然而这种周期性假设会引入边缘效应，使得负样本的数量有限，影响图像真实内容的获取，大大降低了分类器的性能。针对这一问题，SRDCF^[28]在判别相关滤波器(DCF)框架下引入一种空间正则化组件，根据空间位置惩罚相关滤波器系数。这种形式能够扩大训练图像区域，使得SRDCF在不影响正样本的情况下，增加负样本集，提高分类器性能，并进一步提出一种基于Gauss-Seidel迭代的优化方法，有效地在线训练SRDCF。在检测阶段，还引入一种快速子网格检测(fast sub-grid detection)策略来最大化响应值。

为了更好地处理尺度变化和模型偏移问题，CCT^[41]直接将尺度因子引入KCF tracker中，提出一种多尺度核相关跟踪算法(MKC)，并设计了一种在线CUR^[41]滤波器用于检测。CUR矩阵能够通过矩阵的实际行和列近似计算给定矩阵的低秩表达。在跟踪过程中，所有目标的历史表达可以在当前帧形成一个满足CUR理论的大型矩阵，这一矩阵通过在线CUR快速近似用于目标结构的表达。CCT学习得到的CUR滤波器不仅可以利用跟踪时空域中目标表示的低秩性质，还能将历史目标表示矩阵投影到子空间，获得更鲁棒的目标表达，这种方式可以减小模型偏移的发生。

针对KCF不能处理目标尺度和纵横比变化的问题，KCFDP^[43]将EdgeBoxes引入相关滤波跟踪算法中，用来生成目标候选区域，并给出特征融合、模型更新、候选区域筛选等优化方式，以保证各部分之间的有效结合。由于EdgeBoxes得到的候选框本身具有不同尺度和长宽比，该方法可以有效地应对目标尺度和长宽比的变化。

传统的核相关滤波跟踪算法中仅采用单一核函数实现，文献[44]提出一种多核相关滤波(MKCF)跟踪算法，以充分利用各种特征的幂频谱(power spectrums)的判别不变性，进一步提高算法的性能。在目标跟踪框尺度的搜索过程中，由于离散候选尺度和对应的特征金字塔通常是事先确定的，很容易引入位置和表示上的误差。MKCF结合二分搜索和特征快速估计，提出一种有效地尺度估计策略。MKCF可以看做是融合多通道与多核两种优势的相关滤波一般框架，且将图像尺度缩放的幂法则(power law of image scaling)引入目标跟踪，用于快速估计目标尺度。

文献[45]提出一种联合尺度空间相关(JSSC)跟踪算法，能够有效地自适应尺度变化。该方法引入块循环矩阵(block-circulant matrix)，将尺度空域空间下的模版匹配操作有效地转化为傅里叶域下的乘积运算。通过对尺度空域分布的离散傅里叶逆变换，同时得到目标的最终尺度和位置信息。文献[46]提出一种旋转自适应联合尺度空间相关(RAJSSC)跟踪算法，在JSSC的基础上增加了自适应旋转估计策略，将目标模版从笛卡儿坐标系转换到对数极坐标系。经过旋转变换，目标模版的循环结构得到保持，使得跟踪器可以在统一框架下处理空间平移、尺度和旋转变化。

文献[47]提出一种新的目标跟踪算法Staple(sum of template and pixel-wise learners)以更好地适应目标外观的变化，提高跟踪性能。该方法采用两种互补特征(HOG和全局颜色直方图)建立目标外观模型，利用每一种特征的固有性质，分别转化为岭回归问题求解。通过融合两种模型(基于直方图的模型和基于模版的模型)的响应图，估计目标位置的变化。基于直方图的模型能够应对目标形变，而基于模版的模型能够适应光照变化的不一致性，两者结合取得了较好结果的同时，获得了较高的执行速率。

传统CFTs具有效率高，鲁棒性强的特点，然而复杂的模型改进在提升跟踪性能的同时，降低了跟踪算法的执行效率，如何权衡两者之间的关系仍是亟待解决的问题。

3.2 基于分块模型的方法

相比于全局外观模型，一些方法^[48-51]采用局部分块建立外观模型，其优势在于，当跟踪目标部分遮挡时，未被遮挡的目标部分仍然可以有效地表示目标的外观模型，利用局部信息实现目标跟踪。由于分块模型会产生较大的计算复杂度，难以满足实时跟踪，而CFTs的高效性和鲁棒性使其在分块模型中的应用具有极大的优势。

RPT^[30]以采样的方式获得分块作为粒子，并用KCF做基跟踪器(base tracker)。在序列蒙特卡洛框架(sequential monte carlo framework)下用概率模型估计可信块的分布，先通过分别定义分块的置信函数和运动信息判断分块是否是可跟踪的、以及是否在目标上，然后计算分块粒子的权值函数，最后利用霍夫投票机制(Hough-voting scheme)估计目标位置。和传统方法相比，RPT不需要对每一帧进行重采样，只要保持前一帧粒子位置并重新计算粒子权值。根据预先定义的准则进行判断，当分块不再可靠时，在目标附近重新采样。

RPAC^[31]将目标分为大小相同的5个子块，每一个子块用KCF进行独立跟踪。当发生遮挡或形变时，整个目标的位置仍然可以依据其他子块获得。RPAC的主要贡献在于给出一个新的准则——置信图平滑约束(SCCM)，以衡量不同子块的跟踪性能。对未遮挡的子块分配较大权值，采用贝叶斯框架给出各子块的联合置信图，并将权值与设定阈值比较，判断是否需要模型更新。

DPCF^[33]利用“局部—全局”思想，将基于目标的全局滤波器与基于分块的局部滤波器相结合，先由局部滤波器给出初始位置估计，全局滤波器再以该位置作为参考，通过计算每一个分块的可信度值，判断分块是否遮挡，并结合分块对目标中心的偏移量给出最终结果。目标尺度变化也由分块相对偏移量估计得到。同时，全局滤波器还根据其更新与形变参数对局部滤波器给予反馈。

文献[50]提出一种带有空间结构的分块自适应核相关滤波(SSPA_KCF)跟踪算法，该算法通过最小化外观和形变的代价函数估计新一帧目标的位置。KCF和结构化学习机制分别用于分块外观和形变代价函数最小化。最后采用最小生成树和动态规划将分块外观和形变的响应图结合，以检测新一帧目标的位置。

分块模型能够有效处理跟踪过程中的目标遮挡与形变，通过分块/子块间、及分块与目标中心间的相对位置关系，较好地应对了目标的尺度变化问题。其难点在于如何将分块/子块的置信图结合对全局目标位置进行估计，如何处理分块/子块间的空间位置关系、局部分块与全局目标的关系，以及遮挡、形变情形下分块/子块可信度的计算。分块的数量与空间结构关系和跟踪的性能有着紧密联系，分块数量越多，跟踪算法的效率必然会受影响。RPT^[30]、RPAC^[31]、PSC^[32]、DPCF^[33]和SSPA_KCF^[50]跟踪算法均采用不同的分块形式。RPT从目标和背景中采样获得多个分块作为粒子，KCF的高效性并没有明显体现出来。RPAC以分块大小为目标大小1/4~1/6的5个分块建立分块模型。PSC和SSPA_KCF采用以目标中心划分的大小相同的4个分块，DPCF仅采用两个分块。合理地选择分块数量、设计分块空间结构显得尤为重要，需要在性能和效率间权衡，如何估计分块的可信度值，以及有效利用局部分块与全局目标的空间结构关系也是值得考虑的问题。

3.3 基于集成的跟踪方法

由于每一种跟踪算法之间都有差异，它们根据被跟踪目标和环境的不同进行假设，不同算法体现出其自身优势。例如，基于局部分块的方法^{[30-31, 48]}能够更好地处理遮挡和目标形变，而基于全局模版的方法^[52-53]可以较好地跟踪刚性目标。同样地，基于生成式的方法^[1-3]在目标没有剧烈变化时能够得到更精确的结果，而基于判别式的方法^{[4-6, 9-11]}利用目标的背景信息，当背景复杂时表现出较好的性能。尽管一些方法采用混合的方式^[54-55]，它们仍然不能在任何情况下都得到满意的结果。

一些算法将集成分类(ensemble based classification)应用于目标跟踪^[56-58]。这类算法大多将跟踪问题看做二元分类或是多示例学习问题^[5]，它们通过集成方法(如AdaBoost)将多个弱分类器的分类结果结合生成强分类器，该算法中仅有一个跟踪器。与此类算法相似，文献[59]提出一种基于集成的跟踪(EBT)算法，将多种方法结合，该算法受众包(crowdsourcing)思想启发，利用群体的智慧解决问题，通过将一个问题分派给多个个体，然后将每个个体的解决方案集聚在一起得到更高质量的方案。对于跟踪问题，每一个跟踪器可以看做是一个个体，它们独立的解决跟踪任务得到结果。与上述算法不同，EBT不是单一的一种方法，而是将多个跟踪器结合形成的统一框架，这些跟踪器可以是生成的、判别的或是混合的方法。EBT采用因式隐马尔可夫模型(FHMM)进行集成跟踪，同时学习目标的位置轨迹和每一个跟踪器的可靠性。通过利用隐变量联合后验分布的结构，采用条件粒子滤波算法进行FHMM在线推导。考虑到跟踪算法的多样性、互补性以及执行速度，EBT选择五种跟踪器用于集成，分别是局部分块方法^[60]——基于自适应结构化局部稀疏外观模型的跟踪器(ASLA)、结构化输出核支持向量机跟踪器^[4](Struck)、基于深度学习的方法^[61]——深度学习跟踪器(DLT)、基于模版的方法^[53]——最小软阈值平方跟踪(LSST)和基于相关滤波的方法^[10](CSK)。

为了更好地对不同跟踪算法的优缺点进行充分理解和分析，文献[62](记为diagnose)将一个跟踪器分为5个组成部分：运动模型(motion model)、特征提取(feature extractor)、观测模型(observation model)、模型更新(model updater)、集成后处理(ensemble post-processor)，其中集成方法作为一种后处理组件，将多个跟踪器集成在一起，以多个跟踪器的结果作为输入，克服单一跟踪器的不稳定性。为了体现跟踪器的多样性，且跟踪器采用的方法之间能进行互补，选择6种不同的跟踪器，除了该文中设计的4种带有不同观测模型的跟踪器外，还包括两种高性能跟踪器DSST^[14]和传递高斯过程回归(TGPR)^[63]。文献[62]分别采用两种不同的方法文献[59]和文献[64]进行跟踪器集成。经过实验可以发现，两种跟踪器集成方法相比于单一跟踪器得到的结果均有所提升，由于DSST和TGPR的加入增加了多样性，相比于4种跟踪器的情形，实验结果有明显提高。

文献[65]提出基于多专家的熵最小化(MEEM)跟踪算法同样融合了集成的思想，它将当前跟踪器与其前序快照(past snapshots)组成Expert ensemble，提出一种Multi-expert跟踪框架，采用熵正则化优化函数作为expert选择准则，并用支持向量机作为基跟踪器。Expert ensemble的使用可以有效地减少模型偏移、错误更新的发生。受MEEM的启发，SME^[29]将当前跟踪器与其历史训练快照(historical trained snapshots)组成Multi-expert ensemble，并提出一种轨迹一致分值函数(trajectory consistency based score function)作为expert选择准则，并给出一种有效地尺度自适应策略。由于相关滤波跟踪算法的准确性和高效性，SME将其作为基跟踪器。

通过集成分类的思想，EBT^[59]和文献[62]体现出不同跟踪器的多样性，且它们之间可以形成互补，而SME将当前跟踪器与其历史快照结合组成Multi-expert ensemble，expert由同一跟踪器学习得到，且根据提出的轨迹一致准则选出最佳expert。这些算法均选择性能效率较好的CFTs作为集成跟踪器，与其他跟踪器或其历史快照相结合，用来提升跟踪性能。基于集成的跟踪方法能够较好地减少模型偏移的发生，如何在不影响执行速度的情况下，选择适合的跟踪器，以体现它们的多样性和互补性是首先要考虑的。如何估计目标的位置轨迹以及每一个跟踪器的可靠性也是值得思考的问题。

4 实验对比分析

本节中给出CFTs和State-of-the-art trackers的性能分析，所有实验的硬件运行环境均为3.6 GHz Intel(R)Core(TM)i7-4790 CPU，8 GB RAM，软件环境为MATLAB R2013b。下面分别介绍实验所用数据库、算法性能评价标准以及跟踪算法，最后给出实验结果与对比分析。

4.1 视频数据库

文中所有测试视频序列均来自目标跟踪基准数据库OTB-2013^[7]，由50段带有11种标记属性的不同视频序列组成，分别是光照变化(Ⅳ)、尺度变化(SV)、遮挡(OCC)、形变(DEF)、运动模糊(MB)、快速运动(FM)、平面内旋转(IPR)、平面外旋转(OPR)、移出视野外(OV)、背景杂乱(BC)、低分辨率(LR)。其中，Jogging视频包含两个目标，看做是两段不同的视频。文献[8]在原有50段视频数据的基础上进行扩展，增加到100段视频。

4.2 评估方法

为了评估各类跟踪算法的性能，参照文献[7]按以下两种方式进行度量。第1种是精确度(precision)。精确度表示视频序列中中心位置误差(CLE)小于特定阈值的相对帧数，即值越大越好，阈值通常设定为20。CLE表示估计目标中心位置与标记中心位置之间欧氏距离的平均值，即值越小越好。第2种是成功率(success rate)。若跟踪框重叠率超过特定阈值，通常设为0.5，则认为该视频帧跟踪成功。成功率表示所有跟踪成功的视频帧所占百分比。Pascal VOC重叠率计算公式为

$VOR = \frac{{Area\left( {{B_T} \cap {B_G}} \right)}}{{Area\left( {{B_T} \cup {B_G}} \right)}}$

(12)

式中，${B_T}$表示跟踪框，${B_G}$表示标记跟踪框，∩表示两者重叠区域，∪表示两者总覆盖区域，$Area$(·)表示区域的面积。除此之外，还用跟踪算法的精确度曲线(precision plots)和成功率曲线(success plots)表示跟踪算法性能。精度曲线中绘制了阈值在一定范围内的平均精度，所有的跟踪算法以CLE阈值为20处的平均精度值进行排序。成功率曲线表示阈值在一定范围内的重叠率精度。所有跟踪算法根据曲线下面积(AUC)进行排序。跟踪算法的执行速度采用帧/s(FPS)表示。

4.3 实验中用到的跟踪算法

实验中用到的对比算法共有45种，其中包含14种提供源代码的CFTs，它们分别是：MOSSE^[9]、CSK^[10]、KCF^[11]、CN^[12]、SAMF^[13]、DSST^[14]、RPT^[30]、CCT^[41]、KCFDP^[43]、SRDCF^[28]、SME^[29]，Staple^[47]，CF2^[26]，MTSA^[27]，将其加入到OTB代码库中，其中MOSSE采用Henriques^[11]的实现，SME算法仅提供了跟踪结果。表 1给出这14种代表性CFTs的比较结果。以上CFTs对应于文中讨论的情形如表 2所示。

表 1 近年提出的代表性相关滤波跟踪算法对比
Table 1 Comparison of representative correlation filter based trackers proposed in recent years

下载CSV

序号	名称	发表年份	出版源	特征	尺度
1	MOSSE^[9]	2010	CVPR	Raw pixel	○
2	CSK^[10]	2012	ECCV	Raw pixel	○
3	KCF^[11]	2014	PAMI	HOG	○
4	CN^[12]	2014	CVPR	Color attribute	○
5	SAMF^[13]	2014	ECCV	Raw pixel+HOG+Color Naming	√
6	DSST^[14]	2014	BMVC	HOG	√
7	RPT^[30]	2015	CVPR	HOG	√
8	CCT^[41]	2015	BMVC	HOG	√
9	SME^[29]	2015	ICCV	PCA-HOG+Color attribute	√
10	KCFDP^[43]	2015	BMVC	Raw pixel+HOG+Color Naming	√
11	MTSA^[27]	2015	ICCV	HOG	√
12	SRDCF^[28]	2015	ICCV	Raw pixel+HOG+Color Naming	√
13	CF2^[26]	2015	ICCV	CNN features	○
14	Staple^[47]	2016	CVPR	HOG+colour histogram	√
注：○表示不包含尺度变化，√表示包含尺度变化。

表 2 实验中用到的相关滤波方法及其分类
Table 2 CFTs used in the experiment and their classification

下载CSV

方法分类	名称
经典方法	MOSSE、CSK、KCF
经典改进方法 (有效特征/尺度自适应)	CN、DSST、SAMF
基于模型改进的方法	CCT、KCFDP、SRDCF， MTSA，Staple，CF2
基于分块模型的方法	RPT
基于集成的跟踪方法	SME

由表 1可以看出，HOG特征是使用最多的一种特征，大部分改进方法采用原始图像灰度、HOG与颜色特征融合。除此之外，CF2中引入了CNN特征，Staple同时考虑HOG与颜色直方图特征。结合表 2可见，经典方法中仅采用单一特征且未考虑目标尺度变化。经典改进方法及后续改进方法中不仅特征多样化，大部分方法还给出了目标尺度自适应策略，有利于跟踪性能的进一步提升。

实验中所有参数的设置均按照源代码默认值执行。其余对比算法来自于OTB代码库中的28个跟踪器。除此之外，将3种其他跟踪算法加入实验对比，它们是MEEM^[65]、TGPR^[63]、基于空间有序带权块^[66](SOWP)描述子的跟踪方法。这3种方法均采用作者提供的跟踪结果，其中TGPR_C为C语言版本得到的结果。

4.4 目标跟踪基准数据库评估

为了评估不同跟踪算法的性能，表 3中给出了20种不同跟踪算法在平均CLE、平均VOR、以及执行速度的中值上的比较结果，其中14种为CFTs，其他6种为state-of-the-art trackers。最优结果以粗体表示，次优结果以下划线表示，排名第3结果以斜体表示。从表 3可以看出，在CLE和VOR上排名前3位的跟踪器中，不管是CF2加入CNN特征，还是SRDCF引入空间正则化组件，以及SME、MEEM采用集成的思想，和SOWP以分块的形式表示目标外观模型，每种方法都具有自身特点，均取得了较好的跟踪结果。通常情况下，跟踪算法达到25帧/S能够满足实时处理的需要^[20]。从表 3不同跟踪算法FPS项的数据上可以看出，CFTs相比于其他经典跟踪算法如SCM、Struck、TGPR、SOWP等具有较大优势。在CFTs中，经典算法CSK、KCF及其改进CN的执行速率均大于100帧/s。后续算法在此基础上改进，分别从尺度自适应、分块、特征等方面进行考虑。在提高精确度的同时，由于模型复杂度的增加，算法的实时性有所降低，不过大多数CFTs如DSST、CCT、KCFDP、MTSA、Staple等仍能满足实时处理的需要。同样采用基于尺度池的方法，DSST相比于SAMF实时性更好，SRDCF和Staple也用与DSST相似的方法实现尺度估计。CF2中引入了CNN特征，相比于CN的颜色特征、以及Staple的颜色直方图更复杂，降低了跟踪实时性。Staple和CCT在CLE、VOR和执行效率上都有较好的表现。SRDCF虽然在CLE和VOR上取得较好的结果，但是以执行效率为代价。基于分块的方法RPT、SOWP同样得到较好的结果，而执行效率不高。

表 3 不同跟踪算法的性能比较
Table 3 Performance comparison of different trakers

下载CSV

	CSK	KCF	CN	DSST	SAMF	SRDCF	CCT	KCFDP	RPT	SME
CLE	88.78	35.49	63.98	41.26	29.77	35.16	26.24	28.86	36.69	31.61
VOR	0.401	0.519	0.448	0.561	0.587	0.636	0.613	0.585	0.583	0.637
FPS	197.2	245.2	$\mathit{152}\mathit{.4}$	39.28	17.86	2.657	58.12	26.22	4.849	—
	MTSA	Staple	CF2	MIL	SCM	TLD	Struck	TGPR	MEEM	SOWP
CLE	36.68	30.55	15.75	62.33	54.13	48.13	50.57	36.35	22.28	13.72
VOR	0.548	0.609	0.611	0.360	0.505	0.441	0.478	0.534	0.578	0.626
FPS	33.08	46.18	11.21	28.95	0.361	19.21	10.16	1.418	13.40	4.853
注：加粗为最优结果，下划线为次优结果，斜体为第3名结果。

4.4.1 总体性能分析

图 3中给出了45种跟踪算法在OTB-2013中得到的精确度曲线和成功率曲线，并显示排名前15位的跟踪算法。根据文献[7]的评估方法，图 3给出一次性评估(OPE)方法结果，即跟踪算法在每一段视频上运行一次。

图 3 不同跟踪器在OTB-2013中得到的精确度曲线图和成功率曲线图

Fig. 3 Precision plots and success plots of state-of-the-art trackers on OTB-2013

从图 3中可以看出，在排名前15的跟踪器中，CFTs占到了11个，体现出此类算法优越的性能，其中SOWP和SME算法分别以精度值0.894和成功率0.628排名第1。CF2和SRDCF分别以精度值0.891和成功率0.626排名第2。与表 3中的数据分析基本一致。

4.4.2 属性性能分析

图 4、图 5给出45种跟踪算法在OTB-2013中得到不同属性下的成功率曲线，其中每一幅子图分别表示一种属性，子图中的数字表示该属性下的视频数。对于背景复杂的情形，CF2性能最好，SOWP、RPT、SRDCF获得次优性能。在光照变化的情形下，SOWP表现出最优性能，SME、SRDCF和Staple表现次优。对于文中重点讨论的尺度变换情形，可以看出SRDCF、SME、Staple、KCFDP、CCT、DSST、RPT等CFTs算法的都体现出强大的优势。相比于其他包含尺度变化的跟踪算法，SCM、ASLA有明显的提升。和DSST不同，SME同时估计平移和尺度变化取得了更高的成功率。文中讨论的KCFDP、CCT以及PRT中的尺度估计策略同样有效，取得了较好的结果。

图 4 不同跟踪算法在OTB-2013中得到不同属性的成功率曲线

Fig. 4 Attribute based success plots of state-of-the-art trackers on OTB-2013 ((a) background clutter; (b) illumination variation; (c) scale variation; (d) fast motion; (e) occlusion; (f) out-of-plane rotation

图 5 不同跟踪算法在OTB-2013中得到不同属性的成功率曲线

Fig. 5 Attribute based success plots of state-of-the-art trackers on OTB-2013

((a) in-plane rotation; (b) deformation; (c) out-of-view; (d) motion blur; (e) low resolution)

快速运动属性中，CF2性能最好，SOWP和SRDCF次之。MEEM和SME两种方法均采用Multi-expert集成思想，也取得了较好的结果。在遮挡情形，前5位跟踪器均为CFTs，且SME取得了最优的性能，而SOWP的性能有所下降。对于旋转和形变，SOWP表现最好，排名次优的5种跟踪器均为CFTs，其中SME、SRDCF、CF2、Staple均表现较好。其余3种属性均由于视频拍摄设备的局限性造成，SME在移出视野外情形下取得最优性能、CF2在低分辨率和运动模糊情形下获得最优性能。由以上实验和分析可以看出，CFTs在不同属性下的整体性能极具优势的，其中CF2、SRDCF、SME跟踪器在不同情形下均表现出良好的性能。

5 结语

本文以相关滤波跟踪算法的理论框架为基础，详细描述KCF跟踪算法。针对目标跟踪的常见问题进行分析，并对该领域研究现状展开讨论，最后在OTB-2013视频库上进行实验，将CFTs与其他跟踪算法进行比较。从实验结果中可以看出，CFTs在总体性能及不同属性下性能的评估中都具有较大的优势。虽然相关滤波理论在目标跟踪领域的研究取得了显著进展，但由于实际场景的复杂性以及目标外观变化的不确定性，使得现有算法仍不能满足需要，研究高效、鲁棒的相关滤波目标跟踪算法具有非常重要的意义。

结合文中讨论和实验，未来研究可以从以下几个方面考虑：1) 如何权衡准确率与执行效率，在保证准确率的情况下，满足实时运行的需要，实现两者兼顾。2) 特征选择和表示是目前跟踪算法必须考虑的问题，选择适合的特征或特征融合方式是提高跟踪性能的关键，从实验中可以看出CNN特征的明显优势，是未来研究的热点。3) 基于分块模型的方法在抗遮挡方面能起到较好的作用，如何计算分块的置信度、有效利用分块间、局部分块与全局目标间的空间结构关系很关键。基于集成的方法目前研究较少，从实验中可以看出其较好的跟踪性能。4) 文中仅对单目标短时跟踪展开讨论，CFTs在多目标、长时跟踪等更为复杂情形中的应用也是研究者值得关注的问题。

参考文献

[1] Sevilla-Lara L, Learned-Miller E.Distribution fields for tracking[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence, RI, USA:IEEE, 2012:1910-1917.[DOI:10.1109/CVPR.2012.6247891]

[2] Ross D A, Lim J, Lin R S, et al. Incremental learning for robust visual tracking[J]. International Journal of Computer Vision, 2008, 77(1-3): 125–141. [DOI:10.1007/s11263-007-0075-7]

[3] Mei X, Ling H B. Robust visual tracking and vehicle classification via sparse representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(11): 2259–2272. [DOI:10.1109/TPAMI.2011.66]

[4] Hare S, Saffari A, Torr P H S.Struck:structured output tracking with kernels[C]//Proceedings of 2011 IEEE International Conference on Computer Vision.Barcelona, Spain:IEEE, 2012:263-270.[DOI:10.1109/ICCV.2011.6126251]

[5] Babenko B, Yang M H, Belongie S. Robust object tracking with online multiple instance learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1619–1632. [DOI:10.1109/TPAMI.2010.226]

[6] Zhang K, Zhang L, Yang M H.Real-Time Compressive Tracking[C]// Proceedings of 2012 European Conference on Computer Vision.Heidelberg, Berlin:Springer, 2012:864-877.[DOI:10.1007/978-3-642-33712-3_62]

[7] Wu Y, Lim J, Yang M H.Online object tracking:a benchmark[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Portland, OR, USA:IEEE, 2013:2411-2418.[DOI:10.1109/CVPR.2013.312]

[8] Wu Y, Lim J, Yang M H. Object tracking benchmark[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1834–1848. [DOI:10.1109/TPAMI.2014.2388226]

[9] Bolme D S, Beveridge J R, Draper B A, et al.Visual object tracking using adaptive correlation filters[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.San Francisco, USA:IEEE, 2010:2544-2550.[DOI:10.1109/CVPR.2010.5539960]

[10] Henriques J F, Caseiro R, Martins P, et al.Exploiting the circulant structure of tracking-by-detection with kernels[C]//Proceedings of 2012 European Conference on Computer Vision.Heidelberg, Berlin:Springer, 2012:702-715.[DOI:10.1007/978-3-642-33765-9_50]

[11] Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583–596. [DOI:10.1109/TPAMI.2014.2345390]

[12] Danelljan M, Khan F S, Felsberg M, et al.Adaptive color attributes for real-time visual tracking[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus, USA:IEEE, 2014:1090-1097.[DOI:10.1109/CVPR.2014.143]

[13] Li Y, Zhu J K.A scale adaptive kernel correlation filter tracker with feature integration[C]//Proceedings of 2014 European Conference on Computer Vision.Cham:Springer, 2014:254-265.[DOI:10.1007/978-3-319-16181-5_18]

[14] Danelljan M, Häger G, Khan F S, et al.Accurate scale estimation for robust visual tracking[C]//Proceedings of 2014 British Machine Vision Conference.Nottingham:BMVA Press, 2014:65.1-65.11.[DOI:10.5244/C.28.65]

[15] Chen Z, Hong Z B, Tao D C.An experimental survey on correlation filter-based tracking.arXiv preprint arXiv:1509.05520, 2015.

[16] Hong Z B, Chen Z, Wang C H, et al.MUlti-Store Tracker (MUSTer):a cognitive psychology inspired approach to object tracking[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston, MA, USA:IEEE, 2015:749-758.[DOI:10.1109/CVPR.2015.7298675]

[17] Ma C, Yang X K, Zhang C Y, et al.Long-term correlation tracking[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston, MA, USA:IEEE, 2015:5388-5396.[DOI:10.1109/CVPR.2015.7299177]

[18] Dalal N, Triggs B.Histograms of oriented gradients for human detection[C]//Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.San Diego, California:IEEE, 2005:886-893.[DOI:10.1109/CVPR.2005.177]

[19] Khan F S, Anwer R M, Van de Weijer J, et al.Color attributes for object detection[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence, RI, USA:IEEE, 2012:3306-3313.[DOI:10.1109/CVPR.2012.6248068]

[20] Ruan Y, Wei Z Z. Discriminative descriptors for object tracking[J]. Journal of Visual Communication and Image Representation, 2016, 35: 146–154. [DOI:10.1016/j.jvcir.2015.12.009]

[21] Khan R, van de Weijer J, Khan F S, et al.Discriminative color descriptors[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland, OR, USA:IEEE, 2013:2866-2873.[DOI:10.1109/CVPR.2013.369]

[22] Boddeti V N, Kanade T, Kumar B V K V.Correlation filters for object alignment[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Portland, OR, USA:IEEE, 2013:2291-2298.[DOI:10.1109/CVPR.2013.297]

[23] Camplani M, Hannuna S, Mirmehdi M, et al.Real-time RGB-D tracking with depth scaling kernelised correlation filters and occlusion handling[C]//Xie X H, Jones M W, Tam G K L.Proceedings of 2015 British Machine Vision Conference.Swansea, UK:BMVA Press, 2015:145.1-145.11.[DOI:10.5244/C.29.145]

[24] Zhu G B, Wang J Q, Wu Y, et al.MC-HOG correlation tracking with saliency proposal[C]//Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence.Phoenix, Arizona USA:ACM, 2016:12-17.

[25] Danelljan M, Hager G, Khan F S, et al.Convolutional features for correlation filter based visual tracking[C]//Proceedings of IEEE International Conference on Computer Vision Workshop.Santiago, Chile:IEEE, 2015:621-629.[DOI:10.1109/ICCVW.2015.84]

[26] Ma C, Huang J B, Yang X K, et al.Hierarchical convolutional features for visual tracking[C]//Proceedings of 2015 IEEE International Conference on Computer Vision.Santiago, Chile:IEEE, 2015:3074-3082.[DOI:10.1109/ICCV.2015.352]

[27] Bibi A, Ghanem B.Multi-template scale-adaptive kernelized correlation filters[C]//Proceedings of 2015 IEEE International Conference on Computer Vision Workshop.Santiago, Chile:IEEE, 2015:613-620.[DOI:10.1109/ICCVW.2015.83]

[28] Danelljan M, Häger G, Khan F S, et al.Learning spatially regularized correlation filters for visual tracking[C]//Proceedings of 2015 IEEE International Conference on Computer Vision.Santiago, Chile:IEEE, 2016:4310-4318.[DOI:10.1109/ICCV.2015.490]

[29] Li J T, Hong Z B, Zhao B J.Robust visual tracking by exploiting the historical tracker snapshots[C]//Proceedings of IEEE International Conference on Computer Vision Workshop.Santiago, Chile:IEEE, 2015:604-612.[DOI:10.1109/ICCVW.2015.82]

[30] Li Y, Zhu J K, Hoi S C H.Reliable Patch Trackers:robust visual tracking by exploiting reliable patches[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston, MA, USA:IEEE, 2015:353-361.[DOI:10.1109/CVPR.2015.7298632]

[31] Liu T, Wang G, Yang Q X.Real-time part-based visual tracking via adaptive correlation filters[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston, MA, USA:IEEE, 2015:4902-4912.[DOI:10.1109/CVPR.2015.7299124]

[32] Xu Y L, Wang J B, Li H, et al. Patch-based scale calculation for real-time visual tracking[J]. IEEE Signal Processing Letters, 2016, 23(1): 40–44. [DOI:10.1109/LSP.2015.2479360]

[33] Akin O, Erdem E, Erdem A, et al. Deformable part-based tracking by coupled global and local correlation filters[J]. Journal of Visual Communication and Image Representation, 2016, 38: 763–774. [DOI:10.1016/j.jvcir.2016.04.018]

[34] Nebehay G, Pflugfelder R.Consensus-based matching and tracking of keypoints for object tracking[C]//Proceedings of 2014 IEEE Winter Conference on Applications of Computer Vision.Steamboat Springs, CO, USA:IEEE, 2014:862-869.[DOI:10.1109/WACV.2014.6836013]

[35] Nebehay G, Pflugfelder R.Clustering of static-adaptive correspondences for deformable object tracking[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston, MA, USA:IEEE, 2015:2784-2791.[DOI:10.1109/CVPR.2015.7298895]

[36] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91–110. [DOI:10.1023/B:VISI.0000029664.99615.94]

[37] Leutenegger S, Chli M, Siegwart R Y.BRISK:binary robust invariant scalable keypoints[C]//Proceedings of 2011 IEEE International Conference on Computer Vision.Barcelona, Spain:IEEE, 2011:2548-2555.[DOI:10.1109/ICCV.2011.6126542]

[38] Montero A S, Lang J, Laganiere R.Scalable kernel correlation filter with sparse feature integration[C]//Proceedings of 2015 IEEE International Conference on Computer Vision Workshop.Santiago, Chile:IEEE, 2015:587-594.[DOI:10.1109/ICCVW.2015.80]

[39] Bouguet J Y.Pyramidal implementation of the lucas kanade feature tracker description of the algorithm[R].Santa Clara, CA:Intel Corporation, Microprocessor Research Labs, 1999.

[40] Zhang K H, Zhang L, Liu Q S, et al.Fast visual tracking via dense spatio-temporal context learning[C]//Proceedings of 2014 European Conference on Computer Vision.Cham:Springer, 2014:127-141.[DOI:10.1007/978-3-319-10602-1_9]

[41] Zhu G B, Wang J Q, Wu Y, et al.Collaborative correlation tracking[C]//Proceedings of 2015 British Machine Vision Conference.Swansea, UK:BMVA Press, 2015:184.1-184.12.[DOI:10.5244/C.29.184]

[42] He Y J, Li M, Zhang J L, et al. Infrared target tracking via weighted correlation filter[J]. Infrared Physics and Technology, 2015, 73: 103–114. [DOI:10.1016/j.infrared.2015.09.010]

[43] Huang D F, Luo L, Wen M, et al.Enable scale and aspect ratio adaptability in visual tracking with detection proposals[C]//Proceedings of 2015 British Machine Vision Conference.Swansea, UK:BMVA Press, 2015:185.1-185.12.[DOI:10.5244/C.29.185]

[44] Tang M, Feng J Y.Multi-kernel correlation filter for visual tracking[C]//Proceedings of 2015 IEEE International Conference on Computer Vision.Santiago, Chile:IEEE, 2016:3038-3046.[DOI:10.1109/ICCV.2015.348]

[45] Zhang M D, Xing J L, Gao J, et al.Robust visual tracking using joint scale-spatial correlation filters[C]//Proceedings of 2015 IEEE International Conference on Image Processing.Quebec City, QC, Canada:IEEE, 2015:1468-1472.[DOI:10.1109/ICIP.2015.7351044]

[46] Zhang M D, Xing J L, Gao J, et al.Joint scale-spatial correlation tracking with adaptive rotation estimation[C]//Proceedings of 2015 IEEE International Conference on Computer Vision Workshop.Santiago:IEEE, 2015:595-603.[DOI:10.1109/ICCVW.2015.81]

[47] Bertinetto L, Valmadre J, Golodetz S, et al.Staple:complementary learners for real-time tracking[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas, NV, United States:IEEE, 2016:1401-1409.[DOI:10.1109/CVPR.2016.156]

[48] Adam A, Rivlin E, Shimshoni I.Robust fragments-based tracking using the integral histogram[C]//Proceedings of 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.New York, USA:IEEE, 2006:798-805.[DOI:10.1109/CVPR.2006.256]

[49] Čehovin L, Kristan M, Leonardis A.An adaptive coupled-layer visual model for robust visual tracking[C]//Proceedings of 2011 International Conference on Computer Vision.Barcelona, Spain:IEEE, 2011:1363-1370.[DOI:10.1109/ICCV.2011.6126390]

[50] Yao R, Xia S X, Shen F M, et al. Exploiting spatial structure from parts for adaptive kernelized correlation filter tracker[J]. IEEE Signal Processing Letters, 2016, 23(5): 658–662. [DOI:10.1109/LSP.2016.2545705]

[51] Ruan Y, Wei Z Z. Extended kernelised correlation filter tracking[J]. Electronics Letters, 2016, 52(10): 823–825. [DOI:10.1049/el.2016.0757]

[52] Bao C L, Wu Y, Ling H B, et al.Real time robust L1 tracker using accelerated proximal gradient approach[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence, RI, USA:IEEE, 2012:1830-1837.[DOI:10.1109/CVPR.2012.6247881]

[53] Wang D, Lu H C, Yang M H.Least soft-threshold squares tracking[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland, OR, USA:IEEE, 2013:2371-2378.[DOI:10.1109/CVPR.2013.307]

[54] Kwon J, Lee K M. Tracking by sampling and integrating multiple trackers[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(7): 1428–1441. [DOI:10.1109/TPAMI.2013.213]

[55] Zhong W, Lu H C, Yang M H.Robust object tracking via sparsity-based collaborative model[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence, RI, USA:IEEE, 2012:1838-1845.[DOI:10.1109/CVPR.2012.6247882]

[56] Avidan S. Ensemble tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(2): 261–271. [DOI:10.1109/TPAMI.2007.35]

[57] Bai Q X, Wu Z, Sclaroff S, et al.Randomized ensemble tracking[C]//Proceedings of 2013 IEEE International Conference on Computer Vision.Sydney, NSW, Australia:IEEE, 2013:2040-2047.[DOI:10.1109/ICCV.2013.255]

[58] Grabner H, Grabner M, Bischof H.Real-time tracking via on-line boosting[C]//Proceedings of 2006 British Machine Vision Conference.Edinburgh, UK:BMVA Press, 2006:47-56.[DOI:10.5244/C.20.6]

[59] Wang N Y, Yeung D Y.Ensemble-based tracking:aggregating crowdsourced structured time series data[C]//Proceedings of the 31st International Conference on Machine Learning.Beijing, China:ICML, 2014:1107-1115.

[60] Jia X, Lu H C, Yang M H.Visual tracking via adaptive structural local sparse appearance model[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence, RI, USA:IEEE, 2012:1822-1829.[DOI:10.1109/CVPR.2012.6247880]

[61] Wang N Y, Yeung D Y.Learning a deep compact image representation for visual tracking[C]//Proceedings of the Twenty-Seventh International Conference on Neural Information Processing Systems.Lake Tahoe, Nevada, USA:Curran Associates Inc., 2013:809-817.

[62] Wang N Y, Shi J P, Yeung D Y, et al.Understanding and diagnosing visual tracking systems[C]//Proceedings of IEEE International Conference on Computer Vision.Santiago, Chile:IEEE, 2015:3101-3109.[DOI:10.1109/ICCV.2015.355]

[63] Gao J, Ling H B, Hu W M, et al.Transfer learning based visual tracking with gaussian processes regression[C]//Proceedings of 2014 European Conference on Computer Vision.Cham:Springer, 2014:188-203.[DOI:10.1007/978-3-319-10578-9_13]

[64] Bailer C, Pagani A, Stricker D.A superior tracking approach:building a strong tracker through fusion[C]//Proceedings of 2014 European Conference on Computer Vision.Cham:Springer, 2014:170-185.[DOI:10.1007/978-3-319-10584-0_12]

[65] Zhang J M, Ma S G, Sclaroff S.MEEM:robust tracking via multiple experts using entropy minimization[C]//Proceedings of 2014 European Conference on Computer Vision.Cham:Springer, 2014:188-203.[DOI:10.1007/978-3-319-10599-4_13]

[66] Kim H U, Lee D Y, Sim J Y, et al.SOWP:spatially ordered and weighted patch descriptor for visual tracking[C]//Proceedings of 2015 IEEE International Conference on Computer Vision.Santiago, Chile:IEEE, 2015:3011-3019.[DOI:10.1109/ICCV.2015.345]