发布时间: 2018-05-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170472
2018 | Volume 23 | Number 5

图像处理和编码

多特征分层融合的相关滤波鲁棒跟踪

鲁国智, 彭冬亮, 谷雨

杭州电子科技大学通信信息传输与融合技术国防重点学科实验室, 杭州 310018

收稿日期: 2017-08-28; 修回日期: 2017-12-08

基金项目: 国家自然科学基金项目（61771177，61375011）

第一作者简介: 鲁国智(1991-), 男, 杭州电子科技大学自动化学院控制工程专业硕士研究生, 主要研究方向为嵌入式系统开发、数字图像处理、计算机视觉。E-mail:m18094784726@163.com.

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2018)05-0662-12

摘要

目的为提高目标跟踪的鲁棒性，针对相关滤波跟踪中的多特征融合问题，提出了一种多特征分层融合的相关滤波鲁棒跟踪算法。方法采用多通道相关滤波跟踪算法进行目标跟踪时，从目标和周围背景区域分别提取HOG（histogram of oriented gradient）、CN（color names）和颜色直方图3种特征。提出的分层融合算法首先采用自适应加权融合策略进行HOG和CN特征的特征响应图融合，通过计算特征响应图的平滑约束性和峰值旁瓣比两个指标得到融合权重。将该层融合结果与基于颜色直方图特征获得的特征响应图进行第2层融合时，采用固定系数融合策略进行特征响应图的融合。最后基于融合后的响应图估计目标的位置，并采用尺度估计算法估计得到目标更准确的包围盒。结果采用OTB-2013（object tracking benchmark 2013）和VOT-2014（visual object tracking 2014）公开测试集验证所提跟踪算法的性能，在对多特征分层融合参数进行分析的基础上，与5种主流基于相关滤波的目标跟踪算法进行了对比分析。实验结果表明，本文算法的目标跟踪精度有所提高，其跟踪精度典型值比Staple算法提高了5.9%（0.840 vs 0.781），同时由于有效地融合了3种特征，在多种场景下目标跟踪的鲁棒性优于其他算法。结论提出的多特征分层融合跟踪算法在保证跟踪准确率的前提下，跟踪鲁棒性优于其他算法。当相关滤波跟踪算法采用了多个不同类型特征时，本文提出的分层融合策略具有一定的借鉴性。

关键词

目标跟踪; 相关滤波; 多特征融合; 分层融合; 特征响应图

Robust correlation filtering-based tracking by multifeature hierarchical fusion

Lu Guozhi, Peng Dongliang, Gu Yu

Fundamental Science on Communication Information Transmission and Fusion Technology Laboratory, Hangzhou Dianzi University, Hangzhou 310018, China

Supported by: National Natural Science Foundation of China (61771177, 61375011)

Abstract

Objective A robust correlation filtering-based visual tracking algorithm based on multifeature hierarchical fusion is proposed to improve the robustness of target tracking after summarizing the main multifeature fusion strategies to solve the multifeature fusion problem in correlation filtering-based tracking. Method Three features, including histogram of oriented gradient (HOG), color name (CN), and color histogram, are extracted from the target area and its surroundings to depict the appearances of the target and background when the multichannel correlation filtering algorithm is used to track the target. Two fusion layers are used in the proposed hierarchical fusion scheme to combine the response maps of the three features. The HOG and CN features, which describe the gradient and color information of the target, respectively, have a strong discrimination capability and are a pair of complementary features. Given that the saliency of the HOG and CN features is different under different tracking scenarios, the adaptive weighted fusion strategy, which can adaptively adjust fusion weights according to scene change, can be used to combine the responses of the HOG and CN features. Therefore, the adaptive weighted fusion strategy is used to combine the response maps of the HOG and CN features at the first fusion layer, where fusion weights are computed by calculating the smooth constraint and peak-to-sidelobe ratio of the feature response maps. Color histogram is a global statistical feature, and it can handle the case of deformation because the position information is discarded during computation of the color histogram. However, the tracking algorithm has a low accuracy when using the color histogram only because it is susceptible to the interference of similar-colored backgrounds. Thus, the color histogram feature is used as an additional feature in the proposed algorithm. The fixed-coefficient fusion strategy is adopted to combine the feature response maps of the first fusion layer and the feature response maps of the second fusion layer based on the color histogram. Finally, the position of the target is estimated based on the final response map, and the maximum of the final response map corresponds to the target position. The scale estimation algorithm, which uses a 1D scale-dependent filter to estimate the target scale rapidly, is adopted to obtain an accurate bounding box of the target. The model update procedure using a fixed learning factor at each frame is performed to adapt to appearance changes. Result The performance of the proposed tracking algorithm is verified using two public datasets, i.e., OTB-2013 and VOT-2014, for the evaluation of the visual tracking algorithm. The OTB-2013 dataset contains 51 test sequences, of which 35 are color video sequences. The distance precision and success rate curves are selected as performance metrics for the OTB-2013 dataset, and the one-pass evaluation assessment method is used to compute these metrics. The VOT-2014 dataset contains 25 color test sequences, and the accuracy and robustness metrics are used to analyze the performance for the VOT-2014 dataset. The experiments are divided into two parts, i.e., performance analysis of different parameters on the proposed algorithm and comparison with five mainstream correlation-filtering-based tracking algorithms, to analyze the performance of the proposed algorithm fully. The parameters of the proposed multifeature hierarchical fusion scheme, including fusion methods, target features, and fusion parameters, are analyzed using 35 sequences of the OTB-2013 dataset. Experimental results indicate that the proposed adaptive weighted fusion strategy is better than multiplicative fusion strategy, and the HOG, CN, color histogram features can improve the performance of the tracking algorithm. Second, the performance of our algorithm and five mainstream tracking algorithms are compared and analyzed. The six tracking algorithms are initially tested on all sequences and subsequently tested on 10 different individual attribute sequences. Experimental results indicate that the tracking performance is improved, where the precision score of the proposed algorithm is higher than that of the Staple algorithm by 5.9% (0.840 vs 0.781). Meanwhile, the robustness of the proposed algorithm is superior to that of other algorithms in most scenarios because of the effective integration of the CN, HOG, and color histogram features, and the highest success rate is achieved on out-of-plane rotation, occlusion, and fast motion sequences. Conclusion The robustness of the proposed multifeature hierarchical fusion tracking algorithm is superior to that of other algorithms based on correlation filtering under the premise of ensuring the tracking accuracy. The proposed hierarchical fusion strategy can be used and expanded when different types of features are adopted in the correlation filtering-based tracking algorithm.

Key words

target tracking; correlation filter; multi-feature fusion; hierarchical fusion; feature response map

0 引言

视觉跟踪通过图像处理和滤波估计等技术确定感兴趣目标在图像序列中的位姿，是计算机视觉领域研究的热点问题之一，其在军事和民用领域具有广泛的应用^[1]。目前实现鲁棒视觉跟踪仍是一个极具挑战的难题，需要解决的难点包括目标形变、快速运动、复杂背景等^[2]。

目前主要的视觉跟踪算法包括基于在线学习的跟踪算法、基于稀疏表示的跟踪算法、基于相关滤波的跟踪算法和基于卷积神经网络的跟踪算法等^[3]。基于相关滤波的视觉跟踪算法具有实时性好和跟踪性能高的优点，其在VOT视觉跟踪竞赛^[3-4]中取得了优异成绩。影响相关滤波跟踪算法性能的主要因素包括相关滤波器的设计，图像特征的提取、选择和融合两个方面。国内外学者做了大量研究工作，提出了多种行之有效的相关滤波跟踪算法，包括误差最小平方和滤波器(MOSSE)^[5]、基于检测的核循环结构(CSK)跟踪算法^[6]、核相关滤波跟踪算法(KCF)^[7]、颜色名(CN)跟踪算法^[8]、判别式尺度空间跟踪算法(DSST)^[9]、基于多特征融合的尺度自适应跟踪算法(SAMF)^[10]等。

早期的相关滤波器，如MOSSE^[5]和CSK^[6]，仅支持单通道特征，这在一定程度上限制了目标多通道互补特征的使用。DSST^[9]在MOSSE滤波器的基础上进行多通道特征的滤波器求解，并做了鲁棒性近似，在只考虑单模板的情况下，滤波器求解所需参数少，计算速度快。KCF^[7]在求取CSK滤波器的模板乘积核矩阵时，针对目标多通道特征情况，采用将每个单通道的乘积结果进行相加的方式计算核矩阵，将目标特征从单通道扩展到了多通道。

当在相关滤波跟踪算法中采用多源特征时，根据融合的层次不同，融合策略可分为特征提取层融合和特征响应图层融合两种，如图 1所示。融合策略1在特征提取层将多种特征合并成多通道特征，融合策略2在特征响应图层进行融合，融合系数的确定方法可概括为固定系数加权融合、自适应加权融合、自适应特征选择融合和分层融合等。

图 1 相关滤波跟踪算法中的多特征融合策略示意图

Fig. 1 Schematic diagram of multi-feature fusion strategies in correlation-filtering-based tracking algorithm

目前相关滤波跟踪算法普遍采用灰度(Gray)、颜色、方向梯度直方图(HOG)^[11]3种特征。MOSSE和CSK均采用Gray特征, 虽然算法实时性好，但其对目标的描述能力有限，跟踪精度不高。KCF对Gray和HOG特征进行比较得出，采用HOG特征的跟踪精度大幅提高。文献[8]对不同颜色空间的颜色特征做了对比分析，实验结果表明，采用CN特征^[12]的跟踪算法在准确率和鲁棒性上性能最好。在多特征融合策略方面，DSST采用图 1所示的融合策略1融合Gray和HOG特征。SAMF^[10]采用Gray、CN和HOG3种特征，同样采用融合策略1融合这3种特征，由于利用了HOG和CN特征互补的优势，取得了较好的跟踪结果。文献[13]采用融合策略1融合Gray、HOG和色调饱和度亮度(HSV)3种特征，对颜色和梯度特征进行了有效融合，使跟踪性能得到有效提升。文献[14]采用融合策略1将3种互补特征HOG、局部二值模式(Local Binary Pattern, LBP)、CN分别和Gray特征融合，并采用融合策略2中的自适应特征选择融合策略进行多特征融合，能自适应选择最优特征进行目标跟踪。文献[15]通过训练损失函数计算融合权重，采用融合策略2中的自适应加权融合策略融合HOG和CN特征。基于卷积特征的相关滤波跟踪算法(HCF)^[16]利用卷积神经网络中的多个卷积层来提取目标特征，通过由粗到精的方式在多个特征响应图层上估计目标位置。Staple(sum of template and pixel-wise learners)跟踪算法^[17]在特征提取层将Gray和HOG特征合并成多通道特征，同时提出了适合于相关滤波跟踪算法的颜色直方图特征，利用固定系数加权融合策略在特征响应图层融合基于Gray和HOG组成的多通道特征、颜色直方图特征的滤波结果。上述跟踪算法在特征响应图层只采用了单一的融合策略进行特征融合，当跟踪算法采用了多个不同类型的特征时，单一的特征融合策略往往不能适应跟踪场景的变化，跟踪算法易受跟踪环境变化的干扰，无法准确跟踪目标。因为不同类型的特征描述目标的能力不同，应根据不同特征的判别性采取分层融合策略。

为提高目标跟踪的鲁棒性，针对相关滤波跟踪中多个不同类型的特征融合问题，本文提出了一种多特征分层融合的相关滤波鲁棒跟踪算法。所提算法采用HOG、CN和颜色直方图3种特征，基于多通道相关滤波跟踪算法框架进行目标跟踪。采用自适应加权融合策略首先进行HOG和CN的特征响应图融合，将该层融合结果与基于颜色直方图特征获得的特征响应图进行第2层固定系数特征响应图融合。通过融合后的响应图进行目标位置估计，并采用尺度估计算法估计目标尺度。采用OTB-2013 ^[18]和VOT-2014 ^[4]公开测试集验证所提跟踪算法的性能，与5种主流基于相关滤波的目标跟踪算法进行了跟踪性能对比分析。实验结果表明，本文算法在保证跟踪准确率的情况下，跟踪鲁棒性要优于其他算法，验证了本文算法的有效性。

1 多通道相关滤波跟踪原理

记 $d$ 通道目标外观模板为 $\mathit{\boldsymbol{f }}$ ，其第 $l$ 个通道特征表示为 $\mathit{\boldsymbol{f }} ^l$ ， $\{l\in{1, \cdots , d}\}$ 。记相关滤波器为 $\mathit{\boldsymbol{h }}$ ，其由 $d$ 个单通道滤波器 $\mathit{\boldsymbol{h }}^l$ 组成。多通道相关滤波跟踪算法通过最小化训练损失函数 $ε$ 求取 $\mathit{\boldsymbol{h }}$ ，即

$ \varepsilon = {\left\| {\mathit{\boldsymbol{g-}}\sum\limits_{l = 1}^d {{\mathit{\boldsymbol{h}}^l} * {\mathit{\boldsymbol{f}}^l}} } \right\|^2} + \lambda \sum\limits_{l = 1}^d {{{\left\| {{\mathit{\boldsymbol{h}}^l}} \right\|}^2}} $

(1)

式中， $*$ 代表循环相关操作，用 $\mathit{\boldsymbol{f }}$ 表示目标样本，用对 $\mathit{\boldsymbol{f }}$ 进行循环移位产生的所有样本组成背景样本， $\mathit{\boldsymbol{g }}$ 表示相关滤波训练输出，其是一个峰值位于 $\mathit{\boldsymbol{f }}$ 中心的高斯函数。式(1)的后半部分是一个带有权重系数 $λ$ 的正则项。式(1)是一个线性最小二乘问题，通过将时域的卷积转化为频域的点乘，能极大地降低计算量。相关滤波器 $\mathit{\boldsymbol{h }}$ 在频域内的闭环解为

$ {\mathit{\boldsymbol{H}}^l} = \frac{{\mathit{\boldsymbol{\bar G}}{\mathit{\boldsymbol{F}}^l}}}{{\sum\limits_{k = 1}^d {{{\mathit{\boldsymbol{\bar F}}}^k}{\mathit{\boldsymbol{F}}^k} + \lambda } }};\;\;\;l = 1, \cdots, d $

(2)

式中，大写字母表示相应变量的离散傅里叶变换形式，$ \mathit{\boldsymbol{\bar F}} $和$ \mathit{\boldsymbol{\bar G}} $分别表示$ \mathit{\boldsymbol{F}} $和$ \mathit{\boldsymbol{G}} $的复数共轭形式。式(2)的详细推导参见文献[9]。

在仅考虑单个目标样本的条件下，式(2)给出了最优滤波器 $\mathit{\boldsymbol{h }}$ 。在目标跟踪中，为了得到鲁棒性的相关滤波器，需要考虑不同时刻 $t$ 的目标样本 $\mathit{\boldsymbol{f }}_1, \cdots, \mathit{\boldsymbol{f }}_t$ 在式(1)中的情况，但求解过程计算量太大，严重影响算法的实时性。文献[9]为了解决该问题，做了鲁棒性近似，只考虑单个目标样本 $\mathit{\boldsymbol{f }}$ 的情况，直接利用式(2)得到最优滤波器 $\mathit{\boldsymbol{h }}$ 。在目标跟踪过程中，目标的外观会发生变化，为了能持续跟踪目标，滤波器需要在线更新。在第 $t$ 帧图像上进行目标跟踪时，相关滤波器 $\mathit{\boldsymbol{h }}$ 在频域内的更新公式为

$ \begin{array}{l} \mathit{\boldsymbol{A}}_{_t}^{^l} = \left( {1-\eta } \right)\mathit{\boldsymbol{A}}_{_{t-1}}^{^l} + \eta \mathit{\boldsymbol{\bar GF}}_{_t}^{^l};\;\;\;\;\;l = 1, \cdots, d\\ {\mathit{\boldsymbol{B}}_t} = \left( {1-\eta } \right){\mathit{\boldsymbol{B}}_{t - 1}} + \eta \sum\limits_{k = 1}^d {\mathit{\boldsymbol{\bar F}}_{_t}^{^k}\mathit{\boldsymbol{F}}_{_t}^{^k}} \end{array} $

(3)

式中， $ \mathit{\boldsymbol{A }}^l_t$ 和 $ \mathit{\boldsymbol{B }} _t$ 分别是滤波器 $ \mathit{\boldsymbol{H }} _t$ 的分子和分母， $η$ 是学习系数。

在第 $t$ 帧图像上的第 $t-1$ 帧估计目标位置处，提取候选样本 $ \mathit{\boldsymbol{Z }} _t$ 进行观测，在频域内计算相关滤波器输出，并转换为时域滤波结果，记为 $y_t$ ，即

$ {y_t} = {F^{-1}}\left\{ {\frac{{\sum\limits_{l = 1}^d {\mathit{\boldsymbol{\bar A}}_{_{t-1}}^{^l}\mathit{\boldsymbol{Z}}_{_t}^{^l}} }}{{{\mathit{\boldsymbol{B}}_{t-1}} + \lambda }}} \right\} $

(4)

式中， $F^{-1}$ 表示离散傅里叶反变换。通过 $y_t$ 的峰值位置得到当前帧目标估计位置。

2 多特征分层融合相关滤波跟踪算法

本文算法在多通道相关滤波算法框架下，采用HOG、CN和颜色直方图3种特征进行目标跟踪。通过自适应加权融合策略进行HOG特征和CN特征的特征响应图融合，将该层融合结果与基于颜色直方图特征获得的特征响应图进行固定系数融合。通过融合后的响应图进行目标位置估计，并采用文献[9]的尺度估计方法进行目标尺度估计。算法细节描述如下。

2.1 多特征描述

相关滤波跟踪算法通过循环移位来构造样本，其目标特征是基于模板的，适合于跟踪刚体目标，但模板特征不适用于处理目标形变问题。颜色直方图特征是基于全局统计特征，其舍弃了每个像素的位置信息，目标发生形变对其影响较小。Staple^[17]算法设计了能够用于相关滤波跟踪的颜色直方图特征，其能有效处理目标形变。

2.1.1 基于模板的目标特征

在图像的每个局部区域(cell)内，通过计算梯度方向直方图来提取HOG^[11]特征，其描述了目标的边缘梯度信息。在目标的每个像素上进行非线性映射来提取CN^[12]特征，相比Gray特征，其能描述更丰富的目标颜色信息。HOG特征保留了目标cell的位置信息，CN特征保留了像素的位置信息，两者都属于模板特征。

2.1.2 颜色直方图特征

早期的跟踪算法^[19-20]仅将颜色直方图特征用于计算目标模板和候选样本间的Bhattacharyya系数，算法只能求得一个最优目标位置，无法得到候选区域响应图。Staple通过线性脊回归方程求取了颜色直方图滤波器，直接通过目标和背景颜色直方图来计算单个像素的相似度，能得到候选区域的响应图，其将颜色直方图特征引入到了相关滤波跟踪算法中^[17]。

记颜色直方图滤波器为 $ \mathit{\boldsymbol{\beta }} $ ，目标特征为 $ \mathit{\boldsymbol{\varphi }}\left[u \right] = {\mathit{\boldsymbol{e}}_{\mathit{\boldsymbol{k}}[u]}} $ 。单个像素特征 $ {\mathit{\boldsymbol{e}}_i} $ 是长度为 $M$ 的向量，其只在下标为 $i$ 的位置为1，其他位置为0， $ \mathit{\boldsymbol{k}}[u] $ 计算位置 $u$ 处的像素在颜色直方图中的区间值， $M$ 是颜色直方图的bin数目。滤波器和单个像素特征的乘积运算转化为查表操作， $ {\mathit{\boldsymbol{\beta }}^{\rm{T}}}\mathit{\boldsymbol{\varphi }}\left[u \right] = {\mathit{\boldsymbol{\beta }}^{\rm{T}}}{\mathit{\boldsymbol{e}}_{\mathit{\boldsymbol{k}}[u]}} = {\mathit{\boldsymbol{\beta }}^{\mathit{\boldsymbol{k}}[u]}} $ 。在目标和背景区域的每个像素上，通过线性脊回归方程进行训练，训练函数 $ε_{\rm{hist}}$ 为

$ \begin{array}{l} {\varepsilon _{{\rm{hist}}}} = \frac{1}{{\left| \mathit{\boldsymbol{O}} \right|}}\sum\limits_{u \in O} {{{\left( {{\mathit{\boldsymbol{\beta }}^{\rm{T}}}\mathit{\boldsymbol{\varphi }}\left[u \right] - 1} \right)}^2} + } \\ \;\;\;\;\;\;\;\;\frac{1}{{\left| \mathit{\boldsymbol{B}} \right|}}\sum\limits_{u \in B} {{{\left( {{\mathit{\boldsymbol{\beta }}^{\rm{T}}}\mathit{\boldsymbol{\varphi }}\left[u \right]} \right)}^2}} \end{array} $

(5)

式中，$ \mathit{\boldsymbol{O}} $和$ \mathit{\boldsymbol{B}} $分别表示目标和背景区域，$ \mathit{\boldsymbol{|O|}} $和$ \mathit{\boldsymbol{|B|}} $分别表示目标和背景区域内的像素数目。利用$ {\mathit{\boldsymbol{\beta }}^{\rm{T}}}\mathit{\boldsymbol{\varphi }}\left[u \right] = {\mathit{\boldsymbol{\beta }}^{\mathit{\boldsymbol{k}}[u]}} $的特性，式(5)可转换为对$ \mathit{\boldsymbol{\beta }} $的每一特征维度进行求解，$ \mathit{\boldsymbol{\beta }} $计算公式为

$ {\mathit{\boldsymbol{\beta }}^j} = \frac{{{\mathit{\boldsymbol{\rho }}^j}\left( \mathit{\boldsymbol{O}} \right)}}{{{\mathit{\boldsymbol{\rho }}^j}\left( \mathit{\boldsymbol{O}} \right) + {\mathit{\boldsymbol{\rho }}^j}\left( \mathit{\boldsymbol{B}} \right) + \lambda }};\;\;\;\;\;j = 1, \cdots, M $

(6)

式中，$ \mathit{\boldsymbol{\rho }}(\mathit{\boldsymbol{O}}) $和$ \mathit{\boldsymbol{\rho }}(\mathit{\boldsymbol{B}}) $分别为目标和背景的颜色直方图特征，$ {\mathit{\boldsymbol{\rho }}^j}\left( \mathit{\boldsymbol{A}} \right) = {N^j}\left( \mathit{\boldsymbol{A}} \right)/\left| \mathit{\boldsymbol{A}} \right| $，${N^j}\left( \mathit{\boldsymbol{A}} \right) $是区域$ \mathit{\boldsymbol{A}} $中所有位于颜色直方图$ j $区间的像素数目，$\left| \mathit{\boldsymbol{A}} \right| $是区域$ \mathit{\boldsymbol{A}} $内的像素数目。

利用$ \mathit{\boldsymbol{\beta }} $可计算出每个像素的相似度，为降低背景像素的干扰，通过积分图技术求得基于目标区域的相似度。和多通道相关滤波器的更新方法式(3)一样，采用线性插值方法对$ \mathit{\boldsymbol{\rho }}(\mathit{\boldsymbol{O}}) $和$ \mathit{\boldsymbol{\rho }}(\mathit{\boldsymbol{B}}) $进行在线更新。

2.2 多特征分层融合算法

通过实验发现，若将本文所用3种特征的特征响应图直接相乘进行特征融合，跟踪准确率和鲁棒性都很差，这是因为不同类型的特征描述目标的能力不同，应根据不同特征的判别性采取分层融合策略。HOG和CN特征分别描述了目标的梯度和颜色特征，特征判别性较强。不同跟踪场景下目标的HOG和CN特征的显著性不同，本文采用自适应加权融合策略进行这两种特征的响应图融合，以增强目标特征的显著性。当只利用颜色直方图特征时，跟踪算法准确率较低。这是因为颜色直方图特征的判别性较弱，易受背景相似颜色的干扰。但当目标发生形变时，模板特征几乎失效，而颜色直方图特征能保留一部分目标信息，可以依赖颜色直方图特征来跟踪目标，从而提高跟踪算法的鲁棒性。当模板特征和颜色直方图特征融合时，将颜色直方图特征作为一种辅助特征，本文采用固定系数融合策略进行特征响应图的融合。

2.2.1 自适应加权特征融合

为计算各特征在跟踪过程中的判别能力，本文采用响应图平滑约束性(SCCM)^[21]和峰值旁瓣比(PSR)^[5]两个指标来计算模板特征融合权重。

SCCM的定义为

$ S = {\left\| {{\mathit{\boldsymbol{y}}_t}-{\mathit{\boldsymbol{y}}_{t-1}} \oplus \mathit{\boldsymbol{ \boldsymbol{\varDelta} }}} \right\|^2} $

(7)

式中，$ {\mathit{\boldsymbol{y}}_t} $和$ {\mathit{\boldsymbol{y}}_{t-1}} $代表相邻两帧的相关滤波输出，⊕代表移位操作，$ \mathit{\boldsymbol{ \boldsymbol{\varDelta} }} $代表相邻帧相关滤波输出峰值位置之间的相对位移。通常情况下，相邻帧中目标和背景的相对位置不会发生较大改变，相邻帧相关滤波输出的空间分布应该是相似的。

PSR的计算公式为

$ P = \frac{{\max \left( {{y_t}} \right)-{u_\mathit{\Phi} }\left( {{\mathit{\boldsymbol{y}}_t}} \right)}}{{{\sigma _\mathit{\Phi} }({\mathit{\boldsymbol{y}}_t})}} $

(8)

式中，$ \max ({\mathit{\boldsymbol{y}}_t}) $是相关滤波输出$ {\mathit{\boldsymbol{y}}_t} $的峰值，$ \mathit{\Phi}=0.10 $，$ {u_\mathit{\Phi} }({\mathit{\boldsymbol{y}}_t}) $和$ {\sigma _\mathit{\Phi} }({\mathit{\boldsymbol{y}}_t}) $分别是以$ {\mathit{\boldsymbol{y}}_t} $峰值为中心的10 %响应区域的均值和标准差。

SCCM越小，PSR值越大，表明对应特征的跟踪结果可信度越高，在模板特征融合时应该赋予更大的权重。基于以上考虑，设计的自适应特征融合权重计算公式为

$ {w_{{\rm{CN}}}} = \frac{{\frac{{{P_{{\rm{CN}}}}}}{{{S_{{\rm{CN}}}}}}}}{{\frac{{{P_{{\rm{CN}}}}}}{{{S_{{\rm{CN}}}}}} + \frac{{{P_{{\rm{HOG}}}}}}{{{S_{{\rm{HOG}}}}}}}} $

(9)

式中， $w_{\rm{CN}}$ 是CN特征的融合权重， $P_{\rm{HOG}}$ 和 $P_{\rm{CN}}$ 分别表示HOG和CN特征的PSR值， $S_{\rm{HOG}}$ 和 $S_{\rm{CN}}$ 分别表示HOG和CN特征的SCCM值。在第 $t$ 帧中对 $w_{\rm{CN}}$ 进行在线更新，更新公式为

$ {w_{{\rm{CN}}, t}} = \left( {1-\tau } \right) \times {w_{{\rm{CN}}, t-1}} + \tau \times {w_{{\rm{CN}}}} $

(10)

式中， $τ$ 是学习系数， $w_{\rm{CN}}$ 是仅根据当前帧计算出的权重参数。

在模板特征响应图层进行自适应特征融合，融合后的输出响应为 $ \boldsymbol{y} _{\rm{tmpl}}$ ，融合公式为

$ {\mathit{\boldsymbol{y}}_{{\rm{tmpl}}}} = {w_{{\rm{CN}}}} \times {\mathit{\boldsymbol{y}}_{{\rm{CN}}}} + \left( {1-{w_{{\rm{CN}}}}} \right) \times {\mathit{\boldsymbol{y}}_{{\rm{HOG}}}} $

(11)

式中， $ \boldsymbol{y} _{\rm{HOG}}$ 和 $ \boldsymbol{y} _{\rm{CN}}$ 分别为HOG和CN特征的相关滤波输出。

2.2.2 固定系数特征融合

本文借鉴文献[17]的特征融合策略，将融合结果和颜色直方图特征响应图进行固定系数融合，融合公式为

$ {\mathit{\boldsymbol{y}}_{{\rm{trans}}}} = \alpha \times {\mathit{\boldsymbol{y}}_{{\rm{hist}}}} + \left( {1-\alpha } \right) \times {\mathit{\boldsymbol{y}}_{{\rm{tmpl}}}} $

(12)

式中， $α$ 为融合系数， $ \boldsymbol{y} _{\rm{trans}}$ 为融合后的结果， $ \boldsymbol{y} _{\rm{hist}}$ 为颜色直方图特征的相关滤波输出。通过 $ \boldsymbol{y} _{\rm{trans}}$ 的峰值位置得到目标的位置。

2.3 尺度估计

如何有效处理目标尺度变化是相关滤波目标跟踪算法需要解决的重要问题。若不能准确估计目标尺度，在模板更新过程中，会将背景信息更新到目标模板中，造成目标模板漂移。文献[10]采用多分辨率尺度方法，在若干个固定目标尺度上分别计算候选样本的响应图，选取响应图峰值最大所对应的尺度为目标估计尺度。文献[9]提出了一种尺度快速估计方法，其采用1维尺度相关滤波器估计目标尺度。由于文献[9]通过尺度相关滤波器能在尺度空间进行目标尺度详尽搜索，其尺度估计更加准确，因此本文采用文献[9]的尺度估计算法估计目标尺度。

2.4 算法流程

图 2是本文算法在第 $t+1$ 帧进行目标位置估计的示意图，分为模板特征相关部分和颜色直方图特征相关部分。首先在第 $t$ 帧提取模板特征训练并更新2个相关滤波器，提取颜色直方图特征训练并更新颜色直方图滤波器。然后在第 $t+1$ 帧提取候选样本特征，通过观测方程计算相关滤波输出，得到模板特征响应图和颜色直方图特征响应图，采用多特征分层融合策略在响应图层进行特征融合。最后根据融合后的响应图峰值位置估计出第 $t+1$ 帧目标位置。

图 2 第 $t+ 1$ 帧目标位置估计示意图

Fig. 2 Schematic diagram of target location estimation for $t+ 1$ frame

本文提出的基于多特征融合的相关滤波跟踪算法流程如下：

1) 在第 $t$ 帧的目标估计位置 $p_t$ 处和尺度 $s_t$ 上，提取HOG和CN特征，通过式(3)更新滤波器 $ \boldsymbol{H }_{\rm{HOG}}$ 、 $ \boldsymbol{H } _{\rm{CN}}$ 和尺度滤波器 $ \boldsymbol{H } _{\rm{scale}}$ 。提取$ \mathit{\boldsymbol{\rho }}(\mathit{\boldsymbol{O}}) $和$ \mathit{\boldsymbol{\rho }}(\mathit{\boldsymbol{B}}) $特征，通过线性插值方法更新$ {\mathit{\boldsymbol{\rho }}_t}(\mathit{\boldsymbol{O}})$和$ {\mathit{\boldsymbol{\rho }}_t}(\mathit{\boldsymbol{B}}) $。

2) 在第 $t+1$ 帧的 $p_t$ 处和尺度 $s_t$ 上，提取HOG和CN特征位置候选样本，通过式(4)分别得到 $ \boldsymbol{y}_{\rm{HOG}}$ 和 $ \boldsymbol{y}_{\rm{CN}}$ 。通过式(10)进行融合权重 $w_{\rm{CN}}$ 更新。通过式(6)和积分图技术，在候选样本 $ \boldsymbol{Z} $ 上计算得到 $ \boldsymbol{y} _{\rm{hist}}$ 。

3) 通过式(11)进行自适应特征融合得到 $ \boldsymbol{y}_{\rm{tmpl}}$ 。通过式(12)进行固定系数特征融合得到位置响应图 $ \boldsymbol{y}_{\rm{trans}}$ ，通过 $ \boldsymbol{y}_{\rm{trans}}$ 的峰值位置得到第 $t+1$ 帧目标估计位置 $p_{t+1}$ 。

4) 在第 $t+1$ 帧的目标估计位置 $p_{t+1}$ 处，提取HOG特征尺度候选样本，通过式(4)得到尺度响应图 $ \boldsymbol{y}_{\rm{scale}}$ ，通过 $ \boldsymbol{y}_{\rm{scale}}$ 的峰值位置得到第 $t+1$ 帧目标估计尺度 $s_{t+1}$ 。

5) 输出第 $t+1$ 帧目标位置 $p_{t+1}$ 和目标尺度 $s_{t+1}$ 。返回1)，跟踪下一帧。

3 实验结果与分析

3.1 实验环境及算法参数设置

本文实验硬件环境为配置Intel Core i5-3470 CPU，3.20 GHz主频, 4 GB内存的PC机，算法开发平台为Matlab R2014a。位置滤波器学习系数 $η_{\rm{trans}}$ 为0.01，正则化系数 $λ_{\rm{HOG}}$ 为10^-3， $λ_{\rm{CN}}$ 为10^-4，尺度滤波器正则化系数 $λ_{\rm{scale}}$ 为10^-3，PSR响应区域 $\mathit{\Phi}$ 为0.1，融合权重 $w_{\rm{CN}}$ 初始值为0.5，学习系数 $τ$ 为0.2，融合系数 $α$ 为0.3。颜色直方图滤波器和尺度滤波器采用的其他参数分别与Staple和DSST算法相同。

3.2 数据集及评价指标

采用OTB-2013和VOT-2014公开测试集验证算法性能。OTB-2013中选取了35段彩色序列，使用一次通过评估模式(OPE)。距离精度曲线是计算算法跟踪框和真实目标框中心距离小于某一阀值的帧数占所有帧的百分比，选取阀值为20像素时的距离精度曲线值(DP)作为典型值，其评价了算法的鲁棒性。成功率曲线计算重叠率大于某个阀值的帧数占所有帧的百分比，两个框的重叠面积与总面积之比为重叠率，将成功率曲线下方的面积(AUC)作为典型值，其评价了算法的准确性。VOT-2014中使用准确率(Accuracy)和鲁棒性(Robustness)两种评价指标。Accuracy是指跟踪算法的平均重叠率，计算公式和OTB-2013一致，Robustness是指跟踪算法的平均跟踪失败次数。

3.3 本文算法分析

为对算法进行详细分析，将算法所用特征进行拆分，得到3种算法Ours_CN、Ours_HOG和Ours_CN_HOG，记本文算法为Ours。其中Ours_CN和Ours_HOG算法分别只利用CN和HOG特征进行目标跟踪，Ours_CN_HOG算法利用CN特征和HOG特征进行目标跟踪。

3.3.1 自适应特征融合方法分析

为分析自适应特征融合方法的有效性，将Ours_CN、Ours_HOG和Ours_CN_HOG 3种算法在OTB-2013的Skating1序列上做了实验。图 3是对应3帧的跟踪结果，图 4是Ours_CN_HOG算法的融合权重系数 $w_{\rm{CN}}$ 变化曲线。从曲线中选取具有代表性的3个点，分别对应第118、178和285帧。

图 3 3种算法在Skating1序列上的跟踪结果

Fig. 3 Tracking results of three kind of algorithms using Skating1 sequence((a) 118 frame; (b) 178 frame; (c) 285 frame)

图 4 Skating1序列融合权重 $w_{\rm{CN}}$ 变化曲线

Fig. 4 Variation curve of fusion weight $w_{\rm{CN}}$ of Skating1.

第118帧中目标存在光照变化，其下半部分和背景颜色接近，导致CN特征响应图分布变化较大，而HOG特征能有效处理光照变化。此时融合权重系数自动变小，使融合后的响应图仍能跟踪目标。第178帧中目标存在部分遮挡，HOG特征响应图分布变化较大，使Ours_HOG算法不能准确跟踪目标。提出的自适应特征融合方法能准确及时地判断出跟踪场景变化，对CN特征赋予了更高的权重。第285帧中目标周围环境光照变化较大，CN特征无法有效利用颜色信息，导致Ours_CN算法估计目标误差较大。提出的自适应特征融合方法通过降低CN特征的融合权重，有效克服了光照变化所带来的不利影响。

3.3.2 目标特征分析

为验证算法所用特征的有效性，在OTB-2013上做了一组实验，实验结果如图 5所示。进行自适应特征融合后，Ours_CN_HOG算法在准确性和鲁棒性上相比于单特征的Ours_CN和Ours_HOG算法均有所提升，说明了CN和HOG特征的有效性。本文算法Ours的准确性和鲁棒性相比于Ours_CN_HOG算法，都有了较大提升，说明了颜色直方图特征对跟踪算法性能提升的重要性。

图 5 四种算法在OTB-2013上的成功率曲线和距离精度曲线

Fig. 5 Precision plots and success plots of four kind of algorithms on OTB-2013

((a) success plots; (b) precision plots)

3.3.3 多特征分层融合参数分析

为分析学习系数 $τ$ 和融合系数 $α$ 对算法性能的影响，在OTB-2013上做了一组实验。步长为0.05，系数范围从0到1，对 $τ$ 和 $α$ 分别做了21次实验，并以AUC为评价指标，找出使算法准确率最高的 $τ$ 和 $α$ 值。实验中先根据经验值，令 $τ$ 和 $α$ 分别为0.2和0.3，然后固定其中一个，对另一个进行0到1的调节，实验结果如图 6所示。

图 6 不同 $τ$ 和 $α$ 下的算法准确率曲线

Fig. 6 Accuracy curve of our proposed algorithm under different $τ$ and $α$

$α$ 固定为0.3时，学习系数 $τ$ 的变化对算法的准确率影响较小，这从另一方面表明了HOG和CN特征的有效性和互补性。当 $τ$ 为0.2时，算法准确率最高。 $τ$ 固定为0.2时，融合系数 $α$ 的变化对算法的准确率影响很大。当 $α$ 系数大于0.45时，随着 $α$ 的增大，算法准确率会随之下降。 $α$ 为1时，算法只利用颜色直方图特征，算法准确率最低，说明了颜色直方图特征的局限性。当 $α$ 为0.3时，算法准确率最高，因此实验中取 $τ$ 为0.2， $α$ 为0.3。

3.4 与5种主流基于相关滤波的跟踪算法对比分析

为验证算法的有效性，在VOT-2014和OTB-2013公开测试集上，将本文算法与5种主流基于相关滤波的目标跟踪算法，包括CN、KCF、SAMF、DSST和Staple进行对比分析。表 1对6种算法所采用的特征和融合策略进行了总结对比。

表 1 6种算法的总结对比
Table 1 Summary and comparison of the six kinds of algorithms

下载CSV

算法	特征组合				特征融合方法		尺度自适应
算法	Gray	HOG	CN	颜色直方图	合并成多通道特征	加权融合	尺度自适应
CN^[8]	√		√		√		×
KCF^[7]		√					×
SAMF^[10]	√	√	√		√		√
DSST^[9]	√	√			√		√
Staple^[17]	√	√		√	√	√	√
本文	√	√	√	√		√	√
注：√表示是，×表示否。

进行测试时，KCF仅采用HOG特征，CN和DSST分别将CN、HOG与Gray特征合并成多通道特征，SAMF将Gray、HOG和CN特征合并成多通道特征。Staple将Gray和HOG特征合并成多通道特征，采用固定系数加权融合策略将模板特征和颜色直方图特征在特征响应图层进行特征融合。本文算法虽然也采用了多个特征，但与其他算法不同的是，本文通过多特征分层融合策略在特征响应图层进行特征融合。

3.4.1 OTB-2013实验结果

图 7为本文算法与5种算法在OTB-2013上的跟踪结果。从图 7看出，本文算法在准确率和鲁棒性上均要好于其他算法。相比于Staple算法，本文算法的DP和AUC分别提高了5.9 % (0.840 vs 0.781)和3.2 % (0.633 vs 0.601)。第1个原因是加入了CN特征，其能够提取具有判别力的颜色特征，且CN和HOG特征具有一定的互补性。第2个原因是本文提出的多特征分层融合策略，能根据不同跟踪场景下特征描述目标的能力，自适应调整融合权重，减少了算法跟丢目标的可能性，提高了算法的鲁棒性。

图 7 6种跟踪算法在OTB-2013中得到的成功率曲线和距离精度曲线

Fig. 7 Precision plots and success plots of six kind of algorithms on OTB-2013((a) success plots; (b) precision plots)

图 8为6种算法在OTB-2013中10种不同属性序列上的成功率曲线。本文算法在9种属性序列上都取得了较好的跟踪结果，特别是在目标形变序列上，本文算法的AUC相比于Staple算法提高了3.1 % (0.633 vs 0.602)。在背景杂乱序列上，本文算法和Staple跟踪性能都较差，本文算法的AUC相比于Staple算法下降了0.9 % (0.445 vs 0.454)。对于背景杂乱序列，其背景颜色信息往往较丰富，颜色直方图特征易受到相似背景颜色的影响，由于本文算法无法自适应调节颜色直方图特征的融合权重，不能准确跟踪目标。

图 8 6种算法在OTB-2013中得到10种不同属性的成功率曲线

Fig. 8 Attribute based success plots of the six kinds of algorithms on OTB-2013 ((a) low resolution; (b) out-of-plane rotation; (c) in-plane rotation; (d) fast motion; (e) scale variation; (f) motion blur; (g) occlusion; (h) illumination variation; (i) background clutter; (j) deformation)

表 2为6种跟踪算法在OTB-2013上的平均运行速度。从表 2看出，本文算法在采用HOG、CN和颜色直方图3种特征后，算法执行效率相比Staple算法有所下降，但仍能保持实时性。在保证跟踪准确率的前提下，跟踪鲁棒性优于其他算法，具有一定的实用性。

表 2 6种跟踪算法在OTB-2013上的平均运行速度
Table 2 Average speed of six tracking algorithms on OTB-2013

下载CSV

	本文	Staple^[17]	SAMF^[10]	DSST^[9]	KCF^[7]	CN^[8]
平均速度/(帧/s)	21.3	41.4	10.4	25.3	131.1	99.5

3.4.2 VOT-2014实验结果

VOT-2014的实验类型包含baseline和region noise两种，其中region noise实验是测试算法在干扰情况下的跟踪性能。本文算法没有随机性，在baseline实验上做了3次仿真卡罗模拟，在region noise实验上做了5次仿真卡罗模拟。表 3为本文算法与对比算法在VOT-2014上的跟踪结果，可以看出，本文算法在baseline和region noise实验中的鲁棒性均好于其他算法，这进一步说明了提出的多特征分层融合策略的有效性。

表 3 VOT-2014上6种算法跟踪结果汇总
Table 3 Summary of six kinds of algorithms tracking results on VOT-2014

下载CSV

算法	baseline实验		region noise实验
算法	Accuracy	Robustness	Accuracy	Robustness
CN^[8]	0.52	1.68	0.48	1.64
KCF^[7]	0.62	1.32	0.57	1.51
SAMF^[10]	0.61	1.28	0.57	1.43
DSST^[9]	0.62	1.16	0.57	1.28
Staple^[17]	0.64	0.96	0.58	1.04
本文	0.62	0.88	0.58	0.95
注：加粗字体为最优结果。

4 结论

采用HOG、CN和颜色直方图3种特征，提出了一种多特征分层融合的相关滤波鲁棒跟踪算法。采用自适应加权融合策略进行HOG和CN特征的特征响应图融合，将该层融合结果与基于颜色直方图特征获得的特征响应图进行融合时，采用固定系数融合策略进行特征响应图融合。采用OTB-2013和VOT-2014公开测试集验证所提跟踪算法的性能，在对多特征分层融合参数进行分析的基础上，与5种主流基于相关滤波的目标跟踪算法进行了对比分析。实验结果表明，本文算法在保证跟踪准确率的前提下，跟踪鲁棒性优于其他算法，验证了提出的多特征分层融合策略的有效性。当相关滤波跟踪算法采用了多个不同类型的特征时，本文提出的分层融合策略具有一定的借鉴性。但本文算法易受背景杂乱干扰，如何对颜色直方图特征进行自适应特征融合，克服相似背景颜色的影响，是下一步的重点研究方向。

参考文献

[1] Huang K Q, Chen X T, Kang Y F, et al. Intelligent visual surveillance:a review[J]. Chinese Journal of Computers, 2015, 38(6): 1093–1118. [黄凯奇, 陈晓棠, 康运锋, 等. 智能视频监控技术综述[J]. 计算机学报, 2015, 38(6): 1093–1118. ] [DOI:10.11897/SP.J.1016.2015.01093]

[2] Smeulders A W M, Chu D M, Cucchiara R, et al. Visual tracking:an experimental survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(7): 1442–1468. [DOI:10.1109/TPAMI.2013.230]

[3] Kristan M, Matas J, Leonardis A, et al. The visual object tracking VOT2015 challenge results[C]//Proceedings of 2015 IEEE International Conference on Computer Vision Workshop. Santiago, Chile: IEEE, 2016: 564-586. [DOI: 10.1109/ICCVW.2015.79]

[4] Kristan M, Pflugfelder R, Leonardis A, et al. The visual object tracking VOT2014 challenge results[C]//Proceedings of European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014: 191-217. [DOI: 10.1007/978-3-319-16181-5_14]

[5] Bolme D S, Beveridge J R, Draper B A, et al. Visual object tracking using adaptive correlation filters[C]//Proceedings of 2010 IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, CA, USA: IEEE, 2010: 2544-2550. [DOI: 10.1109/CVPR.2010.5539960]

[6] Henriques J F, Caseiro R, Martins P, et al. Exploiting the circulant structure of tracking-by-detection with kernels[C]//Proceedings of the 12th European Conference on Computer Vision. Florence, Italy: Springer-Verlag, 2012: 702-715. [DOI: 10.1007/978-3-642-33765-9_50]

[7] Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583–596. [DOI:10.1109/TPAMI.2014.2345390]

[8] Danelljan M, Khan F S, Felsberg M, et al. Adaptive color attributes for real-time visual tracking[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE, 2014: 1090-1097. [DOI: 10.1109/CVPR.2014.143]

[9] Danelljan M, Häger G, Khan F S, et al. Accurate scale estimation for robust visual tracking[C]//Proceedings of British Machine Vision Conference 2014. Nottingham, UK: BMVA Press, 2014: 1-11. [DOI: 10.5244/C.28.65]

[10] Li Y, Zhu J K. A scale adaptive kernel correlation filter tracker with feature integration[C]//Proceedings of European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014: 254-265. [DOI: 10.1007/978-3-319-16181-5_18]

[11] Felzenszwalb P F, Girshick R, McAllester D, et al. Object detection with discriminatively trained part-based models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627–1645. [DOI:10.1109/TPAMI.2009.167]

[12] Van De Weijer J, Schmid C, Verbeek J, et al. Learning color names for real-world applications[J]. IEEE Transactions on Image Processing, 2009, 18(7): 1512–1523. [DOI:10.1109/TIP.2009.2019809]

[13] Xu Y L, Wang J B, Li Y, et al. Scale adaptive correlation tracking combined with color features[J]. Application Research of Computers, 2017, 34(3): 945–948. [徐玉龙, 王家宝, 李阳, 等. 融合颜色特征的尺度自适应相关跟踪[J]. 计算机应用研究, 2017, 34(3): 945–948. ] [DOI:10.3969/j.issn.1001-3695.2017.03.071]

[14] Shen Q, Yan X L, Liu L F, et al. Multi-scale correlation filtering tracker based on adaptive feature selection[J]. Acta Optica Sinica, 2017, 37(5): #515001. [沈秋, 严小乐, 刘霖枫, 等. 基于自适应特征选择的多尺度相关滤波跟踪[J]. 光学学报, 2017, 37(5): #515001. ] [DOI:10.3788/aos201737.0515001]

[15] Wang W, Wang C P, Li J, et al. Correlation filter tracking based on feature fusing and model adaptive updating[J]. Optics and Precision Engineering, 2016, 24(8): 2059–2066. [王暐, 王春平, 李军, 等. 特征融合和模型自适应更新相结合的相关滤波目标跟踪[J]. 光学精密工程, 2016, 24(8): 2059–2066. ] [DOI:10.3788/OPE.20162408.2059]

[16] Ma C, Huang J B, Yang X K, et al. Hierarchical convolutional features for visual tracking[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 3074-3082. [DOI: 10.1109/ICCV.2015.352]

[17] Bertinetto L, Valmadre J, Golodetz S, et al. Staple: complementary learners for real-time tracking[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 1401-1409. [DOI: 10.1109/CVPR.2016.156]

[18] Wu Y, Lim J, Yang M H. Online object tracking: a benchmark[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE, 2013: 2411-2418. [DOI: 10.1109/CVPR.2013.312]

[19] Comaniciu D, Ramesh V, Meer P, et al. Kernel-based object tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(5): 564–577. [DOI:10.1109/TPAMI.2003.1195991]

[20] Isard M, Blake A. CONDENSATION-conditional density propagation for visual tracking[J]. International Journal of Computer Vision, 1998, 29(1): 5–28. [DOI:10.1023/A:1008078328650]

[21] Liu T, Wang G, Yang Q X. Real-time part-based visual tracking via adaptive correlation filters[C]//Proceedings of 2015 IEEE Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 4902-4912. [DOI: 10.1109/CVPR.2015.7299124]