Print

发布时间: 2018-11-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180252
2018 | Volume 23 | Number 11




    NCIG 2018会议专栏    




  <<上一篇 




  下一篇>> 





自适应卷积特征选择的实时跟踪算法
expand article info 熊昌镇1, 车满强1, 王润玲2
1. 城市道路交通智能控制技术北京市重点实验室, 北京 100144;
2. 北方工业大学理学院, 北京 100144

摘要

目的 针对深度卷积特征相关滤波跟踪算法因特征维度多造成的跟踪速度慢及其在目标发生形变、遮挡等情况时存在跟踪失败的问题,提出了一种自适应卷积特征选择的实时跟踪算法。方法 该算法先分析结合深度卷积特征的相关滤波跟踪算法定位目标的特性,然后提出使用目标区域和搜索区域的特征均值比来评估卷积操作,选取满足均值比大于阈值的特征通道数最多的卷积层,减少卷积特征的层数及维度,并提取该卷积层的有效卷积特征来训练相关滤波分类器,最后采用稀疏的模型更新策略提高跟踪速度。结果 在OTB-100标准数据集上进行算法测试,本文算法的平均距离精度值达86.4%,平均跟踪速度达29.9帧/s,比分层卷积相关滤波跟踪算法平均距离精度值提高了2.7个百分点,速度快将近3倍。实验结果表明,本文自适应特征选择的方式在保证跟踪精度的同时有效地提升了跟踪的速度,且优于当前使用主成分分析降维的方式;与现有前沿跟踪算法对比,本文算法的整体性能优于实验中对比的9种算法。结论 该算法采用自适应卷积通道和卷积层选择的方式有效地减少了卷积层数和特征维度,降低了模型的复杂度,提升了跟踪速度,利用稀疏模型更新策略进一步提升了跟踪的速度,减少了模型漂移现象,当目标发生快速运动、遇到遮挡、光照变化等复杂场景时,仍可实时跟踪到目标,具有较强的鲁棒性和适应性。

关键词

机器视觉; 目标跟踪; 深度学习; 通道裁剪; 相关滤波; 稀疏更新

Adaptive convolutional feature selection for real-time visual tracking
expand article info Xiong Changzhen1, Che Manqiang1, Wang Runling2
1. Beijing Key Laboratory of Urban Intelligent Control, Beijing 100144, China;
2. College of Sciences, North China University of Technology, Beijing 100144, China
Supported by: National Key R & D Program of China(2017YFC0821102)

Abstract

Objective In the field of object tracking, the most serious difficulty is that the object may have a motion in different degrees in each video frame. Different types of movements will cause complex scenes of the object's own non-rigid deformation, background clusters, occlusion, fast motion and so on, thereby making object tracking more difficult. The balance between high speed and high accuracy remains a challenging task, although considerable progress in enhancing the accuracy and speed of tracking has been achieved. Recently, discriminative correlation filter methods have been successfully and widely applied to the visual tracking field. The standard correlation filter method can obtain numerous training samples through a cyclic shift and can train the filters through fast Fourier transform algorithm, which can ensure real-time favorable performance and robustness. However, the tracking accuracy of the correlation filter tracking algorithms based on traditional manual features must be improved given the limitations of traditional manual features. Therefore, correlation filter tracking algorithms based on convolutional features have been proposed and developed. The correlation filter tracking algorithms based on deep convolutional features can lead to a low tracking speed considering multiple feature dimensions and tracking failure problems when the object is subjected to deformation or occlusion despite a high accuracy of such algorithms. Thus, a real-time tracking algorithm based on adaptive convolutional feature selection is proposed to solve these problems. Method First, the proposed method analyzes the characteristics of convolution features extracted from the convolutional network model trained on the classification data set and selects the multilayer convolution features suitable for object tracking. The method also analyzes the characteristics of localization prediction of correlation filter trackers based on deep convolutional features. Analysis results show that a large average feature ratio between object and search regions indicates an improved convolution operator. Thus, this study proposed the average feature ratio between object and search regions to evaluate the convolution operator of each channel of every convolution layer. Then, the feature selection strategy is applied to select the convolution layer with the most convolution channels whose feature mean ratio is larger than the threshold for each preselected convolution layer. This strategy can effectively reduce the number of layers with convolution features. Simultaneously, the strategy can reduce the dimensions of the selected convolution layer by removing the convolution features that are not larger than the threshold. Then, the correlation filter classifier is trained by extracting the remaining effective convolutional features from the selected layer. The trained classifier is used to predict the position of the object. Finally, a sparse model updating strategy is adopted to prevent overfitting of the correlation filter classifier and improve the tracking speed. Result The proposed approach is evaluated on 100 sequences of Object Tracker Benchmark (OTB-100), which mainly contains 11 challenges (e.g., variation, background blusters, low resolution and so on) that may be encountered in object tracking, and compared with 9 other state-of-the-art tracking methods. The selected benchmark, namely, center location error, distance precision, overlap precision, and one-pass evaluation is applied to evaluate the tracking algorithm. The experiments are divided into two parts. The first part analyzes the tracking results of the different pre-selected convolutional layers. This part includes the results of no dimension reduction method, dimension reduction using principal component analysis, and our adaptive feature selection method using the feature mean ratio. The average distance accuracy of our adaptive feature selection method is 86.4%, which is higher than that of other methods. Experimental results show that the method can effectively improve the tracking speed and that it is better than the current trackers which use principal component analysis in reducing feature dimensions. The second part presents the comparison of our method and the existing mainstream object tracking method. These algorithms include the original hierarchical convolutional filter tracking algorithm and other correlation filter tracking algorithms that use convolutional features or traditional manual features. The average distance accuracy of our algorithm is 86.4%, which is 2.7 percent points higher than the original hierarchical convolutional features for visual tracking algorithm. The average success rate in the proposed approach is 68.4%, which is 2.9 percent points higher than the original hierarchical convolutional filter tracking algorithm. The average tracking speed is 29.9 frame/s, which is approximately three times faster than the previous performance. The experimental results show that the adaptive feature selection method can effectively improve the tracking speed while ensuring the tracking accuracy. The overall performance is superior to the nine other state-of-the-art tracking methods in the experiment. Conclusion The feature mean ratio of the object and search regions is used to evaluate the convolution operator. The convolutional layer with the largest number of convolutional channels that satisfy the feature mean ratio threshold is selected, and the convolutional effective features of the selected convolutional layer are extracted to train the correlation filter classifier. The method not only effectively reduces the number of convolutional layers and the dimensions of the feature but also reduces the complexity of the model to improve the tracking speed by adaptively selecting convolutional channels and layers. In addition, a sparse model update strategy is utilized to further enhance the tracking speed and prevent model drifting. The proposed algorithm has excellent robustness and adaptability under complex scenes, such as occlusion, illumination change, and fast motion.

Key words

machine vision; object tracking; deep learning; channel pruning; correlation filter; sparse updating

0 引言

目标跟踪是计算视觉研究的重要分支,主要通过计算机获取视频,在视频第一帧指定跟踪目标,然后对后续帧的视频进行分析处理,找出跟踪目标,为分析运动目标的运动轨迹、行为等做准备,在无人驾驶、军事、监控等方面有着广泛的应用。目标跟踪的难点在于目标在每一帧视频中都有可能发生不同程度的运动,这种运动会造成目标自身的非刚性形变、运动背景的改变、目标的遮挡、摄像机的抖动等,会使得目标跟踪变得更加困难。针对这些难点,近年来,研究者们提出很多优秀的目标跟踪算法,其中基于相关滤波的跟踪算法由于具有快速高效的特点,得到快速发展,同时由于深度学习在图像检索等方面取得巨大成就,也开始应用到目标跟踪中。

基于相关滤波的跟踪算法[1-15]属于判别式跟踪,这类算法将跟踪问题看做二分类问题,通过分类器来区分目标和背景。经典的相关滤波算法[1]通过快速傅里叶变换求解算法中的相关操作,跟踪速度快,但是对于目标自身表观变化等鲁棒性较差。Henriques等人[2]应用循环矩阵特性,设计了高速的相关滤波算法。随后使用方向梯度直方图(HOG)特征代替原来的灰度特征,有效地提高了跟踪效果[3]。Danelljan等人[4]提出基于颜色属性的相关滤波跟踪算法, 改进了目标的表观特征,取得了很好的跟踪效果。Danelljan等人[5]在损失函数中引入惩罚项,用来抑制离目标中心较远特征对定位的影响,有效地减缓了循环矩阵引起的边缘效应,但是未能达到实时的效果。Lukezic等人[11]通过图像前景与背景的颜色直方图特征进行空域的可靠性判断,缓解边界效应。上述相关滤波算法跟踪速度很快,且在不断地选用更能表征目标的特征,通过各种方式缓解相关滤波卷积运算引起的边缘效应,但是由于HOG特征和颜色特征表达的局限性,使得跟踪精度有限。随着深度学习兴起,深度卷积特征也被应用于相关滤波算法中[6],提升了算法的跟踪精度。Ma等人[7]开始将深度卷积特征与相关滤波相结合,该算法在实际测试中精度高,性能稳定,但未达到实时的效果。Wang等人[8]在多尺度域跟踪算法(MSDAT)中将卷积特征的维度降为原来的1/8,训练多尺度域的相关滤波器,提升卷积特征进行跟踪的实时性。Huang等人[9]提出一种自适应深度特征跟踪策略提升了利用卷积特征跟踪时的速度。Song等人[10]将残差网络学习应用于目标跟踪中,设计了一种端到端的跟踪模型,将卷积特征提取和相关滤波融入到深度学习框架中, 取得了很好的跟踪效果。为了从目标的不同角度更好地表征目标,除了上述使用单一特征表示目标表观模型外,也有不少融合多种特征的跟踪算法[12-15]。Bertinetto等人[12]结合HOG特征和颜色直方图特征,在决策层融合两种特征的响应预测目标位置,跟踪精度高,速度快。Xiong等人[13]在决策层自适应融合颜色属性和HOG特征的响应进行跟踪,提高了目标定位的精度。Danelljan等人[14]提出一种连续空间域的卷积操作理论框架,使用卷积特征、HOG特征、颜色属性特征训练多个滤波器,对所有特征的响应进行加权求和预测目标的位置,跟踪精度高,但跟踪速度很慢。Danelljan等人[15]采用因式分解的方式对卷积特征进行稀疏选择来降低模型的复杂度,采用样本的空间结构对模型进行更新来降低内存与时间的复杂度,同时采用稀疏模型更新策略防止模型过拟合,提升了算法的精度和速度,但使用卷积特征的跟踪速度较慢。

随着深度卷积特征的引入和特征融合算法的提出,视觉跟踪算法的精度得到了很大提升,但高精度的跟踪算法速度还无法达到实时的要求。如何有效地平衡视觉跟踪的精度和速度值得深入研究。因此本文在分析深度卷积特征冗余性基础上,进一步分析相关滤波算法中目标区域和搜索区域深度特征的关系,提出了一种基于特征均值比的自适应卷积层及卷积通道选择的相关滤波跟踪算法,在提升算法跟踪精度的同时提高了跟踪速度。

2 自适应卷积特征选择的跟踪算法

2.1 自适应卷积特征选择算法

深度卷积特征具有丰富的特征表达能力,每层学习到的特征信息不同,低层特征保留了目标的空间信息,高层特征具有更强的语义信息。为了充分利用不同层特征的特性,文献[7]中组合多层卷积特征,利用了不同层卷积特征的优点,具有较好的鲁棒性,但运行速度仍需提升。文献[15]采用因式分解的方法降低卷积通道数,融合HOG特征和颜色特征,并通过稀疏的模型更新策略很好地提升了算法的性能和速度, 融合深度特征的跟踪速度还无法达到实时。目标跟踪中,不同视频序列背景信息不同,所遇到的干扰不同,为了适应不同场景的变化,需要选择有效的深度卷积特征来表达不同目标信息。深度卷积特征具有多层多通道特征,但并不是每个通道的特征都是有效的,使用无效的特征并不能提高目标的跟踪效果,反而造成跟踪速度的下降。为了提高跟踪的速度, 可减少特征的卷积层数或通道数,去除无效的卷积特征。目前主要有主成分分析(PCA)法[4]、因式分解方法[15]和训练学习方法[8],但这些算法都没有很好地体现目标区域和搜索区域之间的特征特性。

相关滤波跟踪算法根据第一帧图像的目标区域和搜索区域训练正则化最小二乘分类器(RLSC), RLSC是一种基于二次损失的正则化网络[16],通过最小化一个线性正则化函数即可得到,训练速度快且分类效率高。获取新一帧图像时,根据上一帧的目标位置和搜索区域,利用提取的目标特征,找到相关滤波响应值最大的位置为目标位置。特征选择对目标跟踪的效果产生决定影响,单一特征中深度卷积特征取得很好的跟踪效果,但由于现有深度模型主要通过大型的图像分类数据库训练得到,根据相关滤波的特性,好的目标特征应该满足目标区域的滤波响应大,其他区域的滤波响应小,即目标区域应该具有更大的特征值,非目标区域具有小的特征值,因此本文设计了卷积层和卷积通道的自适应选择方法,通过目标区域和搜索区域特征能量均值比的方法来评估深度卷积特征,去除冗余卷积特征。

图 1所示视频跟踪的第1帧图像,绿色框为目标区域,黄色框为目标搜索区域,卷积神经网络提取的第$ l$层第$ d$个通道的卷积特征为$ \mathit{\boldsymbol{x}}_l^d$,目标区域的特征均值为$ \mathit{M}_l^d$(O), 搜索区域的特征均值为$ \mathit{M}_l^d$(S),则目标区域和搜索区域特征能量均值比$ R$定义为

$ R = \frac{{M_l^d({\rm{O}})}}{{1 + M_l^d({\rm{S}})}} $ (1)

图 1 目标搜索区域与目标区域响应示意图
Fig. 1 The response maps of search and target area

分母参数加1避免分子被除零,$ R$值越大表示目标区域的特征值越大,目标区域的响应值越大,目标跟踪越稳定,反之特征值越小,响应值越小,越容易造成目标丢失。

若某个通道卷积特征的$ R$值大于给定阈值$ \theta $,则保留该通道的卷积特征,图 2(a)为直接使用VGG-19网络提取卷积特征时conv5-4层输出的512个通道的卷积特征,从图中可以看出,在直接应用于目标跟踪时,很多特征无法表征目标,存在较大的冗余;图 2(b)为通过本文自适应选择方式筛选特征后得到的卷积特征,可以看出去除掉大量的冗余特征,保留了可以表征目标的特征。可通过统计第$ l$层满足要求的卷积数为$ {N_l}$,对于给定的多个卷积层,选择$ {N_l}$值最大的卷积层为目标跟踪所用的卷积层$ l$,该层满足阈值$ \theta $的卷积通道用于目标跟踪,去除不满足阈值的特征通道,从而实现自适应的卷积层和卷积通道的特征选择。

图 2 自适应卷积特征选择前后对比图
Fig. 2 The comparison of before and after adaptive convolution features selection((a)original 512 dimension features; (b)the convolution features after adaptive)

2.2 多通道相关滤波跟踪算法

相关滤波跟踪算法主要包括分类器训练、目标位置预测和参数更新3部分。

2.2.1 分类器训练

对给定视频序列的第1帧,通过该方法自适应选取适合当前视频序列的卷积层$ l$和对应的通道重新编号记为$ d$=1, 2, 3, …, $ D$,然后提取对应通道的卷积特征记为$ {\mathit{\boldsymbol{x}}^\mathit{d}}$, 记$ {\mathit{\boldsymbol{x}}^\mathit{d}}$傅里叶变换后的特征为$ {\mathit{\boldsymbol{X}}^d}$。在训练分类器时, 对于给定的目标块采用2维高斯分布的类标签函数$ \mathit{\boldsymbol{y}}$, 为了保证跟踪算法实时性的同时提高其鲁棒性,采用循环平移矩阵稠密采样的方法, 可在傅里叶变换域进行快速求解, 得到分类器[7]

$ {\mathit{\boldsymbol{W}}^d} = \frac{{\mathit{\boldsymbol{Y}} \odot {{\mathit{\boldsymbol{\bar X}}}^d}}}{{\sum\limits_{d = 1}^D {{\mathit{\boldsymbol{X}}^d} \odot {{\mathit{\boldsymbol{\bar X}}}^d} + \lambda} }} $ (2)

式中,$ \mathit{\boldsymbol{Y}}$为标签函数$ \mathit{\boldsymbol{y}}$的傅里叶变换, $ {\mathit{\boldsymbol{\bar X}}}$$ \mathit{\boldsymbol{X}}$的复共轭, $ \odot $表示对应元素相乘, $ D$代表特征的通道数,$ \lambda $>0为优化求解时的正则项参数。

2.2.2 目标位置预测

得到分类器$ {\mathit{\boldsymbol{W}}^\mathit{d}}$后, 对新的图像块, 提取图像块的卷积特征$ {\mathit{\boldsymbol{z}}^\mathit{d}}$, 计算傅里叶变换后的卷积特征$ {\mathit{\boldsymbol{Z}}^\mathit{d}}$与分类器$ {\mathit{\boldsymbol{W}}^\mathit{d}}$的相关输出$ \mathit{\boldsymbol{f}}$

$ \mathit{\boldsymbol{f}} = {F^{ - 1}}(\sum\limits_{d = 1}^D {{\mathit{\boldsymbol{W}}^d} \odot {{\mathit{\boldsymbol{\bar Z}}}^d}} ) $ (3)

式中,$ {F^{{\rm{ - 1}}}}$为傅里叶逆变换,寻找响应值最高的位置即为预测的目标位置。

2.2.3 模型更新

在目标跟踪过程中,由于目标自身姿态等的变化,需要不断地对分类器进行更新,才能适合不同帧目标的定位。可通过最小化所有跟踪结果的输出误差来进行更新, 但是该方法须求解在最佳响应位置的一个$ D$×$ D$的线性方程组,对于卷积神经网络特征而言, 通道数目通常较多,使得计算非常耗时。为了增加其实时性, 使用移动平均分别更新相关滤波分类器的分子$ {\mathit{\boldsymbol{A}}^\mathit{d}}$和分母$ {\mathit{\boldsymbol{B}}^\mathit{d}}$, 即

$ \mathit{\boldsymbol{W}}_t^d = \frac{{\mathit{\boldsymbol{A}}_t^d}}{{\mathit{\boldsymbol{B}}_t^d + \lambda}} $ (4)

$ \mathit{\boldsymbol{A}}_t^d = \left( {1 - \eta } \right)\mathit{\boldsymbol{A}}_{t - 1}^d + \eta \mathit{\boldsymbol{Y}} \odot \mathit{\boldsymbol{\bar X}}_t^d $ (5)

$ \mathit{\boldsymbol{B}}_t^d = \left( {1 - \eta } \right)\mathit{\boldsymbol{B}}_{t - 1}^d + \eta \sum\limits_{i = 1}^D {\mathit{\boldsymbol{X}}_t^i \odot \mathit{\boldsymbol{\bar X}}_t^i} $ (6)

式中,$ t$为帧序列,$ \eta $为模型学习率。

相关滤波跟踪器属于在线跟踪模型,具有较强的灵活性和适应性,可以通过不断地融入新的数据对模型做出不断调整,以适应目标的变化。现有算法通常采用每一帧都进行更新的策略,这种更新方式虽然可以很好地帮助模型适应目标在每一帧之间的变化,但是也很容易造成算法计算量负荷,跟踪速度下降,而且可能造成模型的过拟合和漂移。受MSDAT算法的选用模型的稀疏更新策略的启发,在一组视频序列中,目标在相邻两帧之间变化很小,跟踪过程中使用上一帧的模型进行目标的定位,仍然可以准确地定位到目标,因此本文在模型更新时采用隔一帧更新一次的策略,有效提升算法速度,提高了本算法在小目标遇到遮挡和相似物干扰时的鲁棒性。

算法具体实施过程如下:

输入:初始目标位置$ P_0$

输出:预测的目标位置$ {\mathit{P}_\mathit{t}}$,学习得到的相关滤波器$ {\mathit{\boldsymbol{W}}^\mathit{d}}$

过程:

1) 第1帧图像;

2) 以第1帧的中心($ P_0^x, P_0^y$)为中心裁剪第1帧的搜索窗,获取卷积特征$ \mathit{\boldsymbol{x}}_l^d$, $ d$=1, 2, 3, …, $ D$

3) for $ l$ = 1, 2, … do

用式(1)挑选出自适应卷积层$ l$和通道卷积特征,记为$ {\mathit{\boldsymbol{x}}^\mathit{d}}$

  end for

4) 用式(2)训练分类器$ {\mathit{\boldsymbol{W}}^\mathit{d}}$;

5) repeat

6) 以$ t$-1帧的中心($ P_{t - 1}^x, P_{t - 1}^y$)为中心裁剪第$ t$帧的搜索窗,获取对应层和对应通道的卷积特征$ {\mathit{\boldsymbol{x}}^\mathit{d}}$;

7) 用式(3)预测目标位置$ f$;

8) 根据响应值$ f$预测目标新的位置$ {\mathit{P}_\mathit{t}}$;

9) if帧数除2的余数为0 then

用式(5)(6)(7)更新相关滤波器$ {\mathit{\boldsymbol{W}}^\mathit{d}}$

  end if

10) until结束所有帧。

3 实验结果

实验选用目标跟踪标准数据集OTB100评估算法。这些测试视频序列包括跟踪场景中的挑战有:光照变化(Ⅳ)、遮挡(OCC)、尺度变化(SV)、快速运动(FM)、背景混乱(BC)、低分辨率(LR)、平面内旋转(IPR)、超出视野(OV)、平面外旋转OPR)、非刚性形变(DEF)以及运动模糊(MB)等。本文算法使用的实验平台为Ubuntu14.04系统下的MATLAB R2015b,卷积特征计算框架为MatConvNet,所有的实验均在配置为Intel Core i7-4790 4.0G Hz CPU、显存为6GB的GTX980ti台式电脑下完成。

实验中采用中心位置误差(CLE)、距离精度(DP)、重叠精度(OP)、一次性通过(OPE)的距离精度曲线(precision plot)和成功率曲线(success plot)进行算法评估。其中,CLE指检测到的目标中心位置与目标真实中心位置的平均欧氏距离;DP指中心位置误差小于某个阈值的帧数占视频总帧数的百分比;OP指边界框重叠的位置超过某个阈值的帧数占视频总帧数的百分比;距离精度曲线指显示距离精度值与阈值之间关系的曲线图;成功率图指显示边界框重叠率与阈值之间的关系图,为了评估的准确公正性,根据成功率曲线下的面积作为实际计算的成功率值。

实验中所用的正则化参数为10-4,类标签函数的核带宽因子为0.15,牛津大学视觉几何组(VGG)设计的VGG-19模型在第4个池化层及之后卷积层特征的目标跟踪效果都比较接近,因此实验中预选的卷积层为VGG-19网络的第4个池化层pool4、第5层的第1~4个卷积层conv5-1、conv5-2、conv5-3、conv5-4和第5个池化层pool5共6个卷积层,实验中根据算法自适应地选择某一层用于跟踪,选取特征的评估阈值$ \theta $=1,模型更新间隔为1。

为验证本文算法,实验中对比了无特征选择算法、PCA降维方法、自适应特征选择算法和本文包括自适应层选择和特征选择算法的结果,验证了本文特征选择算法的效果。实验中还将本文算法与其他9种典型的算法对比, 并给出5种算法在典型视频序列部分帧的跟踪结果。

实验1:特征选择对比实验。对预选的6个卷积网络层进行自适应特征通道选择跟踪,同时使用PCA降维的方式对卷积特征进行稀疏跟踪,以及本文结合层和通道的自适应选择跟踪,结果如图 3所示(由于对比算法较多,便于清晰显示,分成上下两幅图显示),图中后缀为ap的为各层自适应特征通道选择的跟踪结果,后缀为pca的为使用PCA降维后的跟踪结果,ours为本文的算法结果,从图中可以看出各层特征进行PCA降维和自适应特征通道选择的跟踪精度都有提升,使用自适应特征通道选择算法的精度提升更明显,本文的卷积层和通道自适应选择算法的跟踪精度最高, 达到86.4%,速度为29.9帧/s,达到实时的效果。

图 3 不同特征稀疏选择策略跟踪结果
Fig. 3 The tracking results of different sparse features selection strategy

实验2:与现有优秀算法对比实验。为了分析本文算法与其他算法性能的差异,该实验中选取了近年来优秀的9种算法进行比较,分别是:核相关滤波跟踪算法[3] (KCF)、空间正则化相关滤波跟踪算法[5] (SRDCF)、基于深度卷积特征的空间正则化相关滤波跟踪算法[6] (D_SRDCF)、分层卷积相关滤波跟踪算法[7] (CF2)、MSDAT、多特征融合的实时跟踪算法[12](Staple)、多层卷积相关滤波跟踪算法[17] (HDT)、双线性SVM跟踪算法[18] (DLSSVM),以及增加了尺度变化的DLSSVM算法(SDLSSVM)。9种算法中除了DLSSVM和SDLSSVM外,其他7种均使用了相关滤波的方法,CF2、MSDAT、D_SRDCF、HDT使用了深度特征。

表 1为10种算法在OTB-100数据集上跟踪结果的平均CLE、平均DP、平均OP和平均速度的对比结果,其中CF2、MSDAT、Staple、KCF的速度与本文算法为同一实验平台下测试结果,相应的OPE距离精度曲线和成功率曲线如图 4所示,本文算法的平均CLE和平均DP均排第1,平均OP排第3,可以看出本文算法的跟踪准确度优于其他9种算法,速度为29.9帧/s,满足实时的要求。表 2为10种算法在不同挑战下的平均DP值,从数据可以看出,本文算法在背景混乱、非刚性形变、光照变化、遮挡、平面外旋转、超出视野几种干扰下的平均DP值排第1或第2,都可以稳定地跟踪到目标,性能优于其他几种算法。

表 1 10种算法在OTB-100数据集上的跟踪结果
Table 1 The tracking results of ten algorithms on the OTB-100

下载CSV
算法
ours CF2 MSDAT SRDCF D_SRDCF Staple DLSSVM S_DLSSVM KCF HDT
平均CLE/像素 16.8 22.8 20.5 38.6 21.4 31.5 32.8 30.3 44.8 20.1
平均DP/% 86.4 83.7 82.1 78.9 85.2 78.4 76.3 80.3 69.5 84.7
平均OP/% 68.5 65.7 65.6 72.9 77.3 70.9 62.5 65 55.2 65.7
平均速度/(帧/s) 29.9 11.5 27.9 3.6 0.3 69.2 2.1 1.8 266.7 5.5
注:排名第1的均用加粗体表示,排名第2的均用加粗斜体表示。
图 4 10种算法在OTB-100数据集上的准确率与成功率曲线
Fig. 4 Precision and success plots of ten algorithms on OTB-100((a) precision plots; (b) success plots)

表 2 在不同挑战下10种算法平均DP值
Table 2 The average DP of ten algorithms on different challenges

下载CSV
/%
挑战 ours 算法
CF2 MSDAT SRDCF D_SRDCF Staple DLSSVM S_DLSSVM KCF HDT
FM 77.6 81.5 74.4 76.9 81.4 69.7 71.5 71.0 62.1 81.7
BC 90.1 84.3 83.3 77.5 84.1 76.6 72.8 77.1 71.3 84.4
MB 78.3 80.4 76.1 76.7 82.3 70.7 72.8 71.7 60.1 78.9
DEF 82.2 79.1 79.2 73.4 78.3 74.8 72.7 73.5 61.7 82.1
85.0 81.7 82.5 79.2 79.1 79.1 72.3 77.4 71.9 82.0
IPR 82.9 85.4 85.4 84.4 81.8 77.0 77.6 80.7 70.1 84.4
LR 78.3 84.7 85.0 76.5 84.7 69.5 78.4 98.8 67.1 88.7
OCC 80.8 76.7 74.0 73.5 82.5 72.6 71.3 76.3 63.0 77.4
OPR 83.1 80.7 79.7 74.2 83.5 73.8 76.8 80.2 67.7 80.5
OV 68.6 67.7 62.7 59.7 78.1 66.1 62.1 65.6 50.1 66.3
SV 81.7 79.9 77.1 74.5 81.9 72.7 70.7 73.9 63.3 80.8
注:排名第1的均用加粗体表示,排名第2的均用加粗斜体表示。

除了以上的定性对比结果外,图 4给出5种算法在典型视频的部分帧跟踪结果。图 5(a)中Singer2视频为背景混乱和光照变化的典型视频,在20帧时HDT和MSDAT两种算法开始跟丢目标,在34帧时已经完全跟丢目标,本文算法和其他两种算法可以稳定地跟踪到目标;图 5(b)中Motorrolling视频为光照和非刚性形变的代表视频,在视频28帧时,Staple算法开始跟丢目标,在31帧时已完全跟丢目标,MSDAT在跟踪过程中出现定位不够准确的问题,但未丢失目标,本文算法和其余两种算法都能稳定地跟踪到目标;图 5(c)中Box视频为遮挡、相似物干扰、非刚性形变的代表视频,在视频第490帧时由于相似物干扰,其他4种算法全部跟丢目标,本文算法仍然稳定跟踪目标,522帧时形变结束目标发生形变,本文算法继续稳定跟踪目标;图 5(d)中Girl2视频为遮挡和相似物干扰视频,在视频第106帧目标发生遮挡,以及相似物粉色自行车的干扰,5种算法都开始跟丢目标,但是在327帧时,本文算法又重新跟踪到目标。从4组视频可以看出,本文算法的整体性能优于其他4种算法。

图 5 5种算法在典型视频上的部分跟踪结果
Fig. 5 Partial tracking results of five algorithms on typical videos((a)Singer2; (b)Motorrolling; (c)Box; (d)Girl2)

4 结论

本文根据相关滤波的特征,利用目标区域和跟踪搜索区域卷积特征的均值比,提出了一种自适应卷积层和卷积通道的选择算法,同时,使用稀疏模型更新策略,在相关滤波的框架下进行目标跟踪,有效地提升了算法的跟踪精度和速度。在OTB-100标准数据集上进行算法验证,本文算法的平均DP值为86.4%,平均速度为29.9帧/s,均优于分层卷积相关滤波跟踪算法CF2,也优于改进的分层卷积相关滤波跟踪算法MSDAT。在目标发生光照变化、遮挡、非刚性形变时,本文算法具有较强的鲁棒性。由于使用简单间隔帧更新模型的策略,没有考虑跟踪结果的可靠性,因此未来将研究自适应模型更新策略,进一步提高算法的跟踪性能。

参考文献

  • [1] Bolme D S, Beveridge J R, Draper B A, et al. Visual object tracking using adaptive correlation filters[C]//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco: IEEE, 2010: 2544-2550.[DOI:10.1109/CVPR.2010.5539960]
  • [2] Henriques J F, Caseiro R, Martins P, et al. Exploiting the circulant structure of tracking-by-detection with kernels[C]//Proceedings of the 12th European Conference on Computer Vision. Florence, Italy: Springer, 2012: 702-715.[DOI:10.1007/978-3-642-33765-9_50]
  • [3] Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583–596. [DOI:10.1109/TPAMI.2014.2345390]
  • [4] Danelljan M, Khan F S, Felsberg M, et al. Adaptive color attributes for real-time visual tracking[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, Ohio, USA: IEEE, 2014: 1090-1097.[DOI:10.1109/CVPR.2014.143]
  • [5] Danelljan M, H? ger G, Khan F S, et al. Learning spatially regularized correlation filters for visual tracking[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 4310-4318.[DOI:10.1109/ICCV.2015.490]
  • [6] Danelljan M, Hager G, Khan F S, et al. Convolutional features for correlation filter based visual tracking[C]//Proceedings of IEEE International Conference on Computer Vision Workshop. Santiago, Chile: IEEE, 2016: 621-629.[DOI:10.1109/ICCVW.2015.84]
  • [7] Ma C, Huang J B, Yang X K, et al. Hierarchical convolutional features for visual tracking[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 3074-3082.[DOI:10.1109/ICCV.2015.352]
  • [8] Wang X Y, Li H X, Li Y, et al. Robust and real-time deep tracking via multi-scale domain adaptation[C]//Proceedings of 2017 IEEE International Conference on Multimedia and Expo. Hong Kong, China: IEEE, 2017: 1338-1343.[DOI:10.1109/ICME.2017.8019450]
  • [9] Huang C, Lucey S, Ramanan D. Learning policies for adaptive tracking with deep feature cascades[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 105-114.[DOI:10.1109/ICCV.2017.21]
  • [10] Song Y B, Ma C, Gong L J, et al. CREST: convolutional residual learning for visual tracking[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 2574-2583.[DOI:10.1109/ICCV.2017.279]
  • [11] Lukezic A, Vojir T, Zajc L C, et al. Discriminative correlation filter with channel and spatial reliability[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, Hawaii: IEEE, 2017: 4847-4856.[DOI:10.1109/CVPR.2017.515]
  • [12] Bertinetto L, Valmadre J, Golodetz S, et al. Staple: complementary learners for real-time tracking[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 1401-1409.[DOI:10.1109/CVPR.2016.156]
  • [13] Xiong C Z, Zhao L L, Guo F H. Kernelized correlation filters tracking based on adaptive feature fusion[J]. Journal of Computer-Aided Design & Computer Graphics, 2017, 29(6): 1068–1074. [熊昌镇, 赵璐璐, 郭芬红. 自适应特征融合的核相关滤波跟踪算法[J]. 计算机辅助设计与图形学学报, 2017, 29(6): 1068–1074. ] [DOI:10.3969/j.issn.1003-9775.2017.06.012]
  • [14] Danelljan M, Robinson A, Khan F S, et al. Beyond correlation filters: learning continuous convolution operators for visual tracking[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016: 472-488.[DOI:10.1007/978-3-319-46454-1_29]
  • [15] Danelljan M, Bhat G, Khan F S, et al. ECO: efficient convolution operators for tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, Hawaii: IEEE, 2017: 6931-6939.[DOI:10.1109/CVPR.2017.733]
  • [16] Rifkin R M, Yeo G, Poggio T. Regularized least-squares classification[C]//Advances in Learning Theory: Methods, Model and Applications. NATO Science Series: Ⅲ: Computer and Systems Sciences. Amsterdam: IOS Press, 2003, 190: 131-154.
  • [17] Qi Y K, Zhang S P, Qin L, et al. Hedged deep tracking[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 4303-4311.[DOI:10.1109/CVPR.2016.466]
  • [18] Ning J F, Yang J M, Jiang S J, et al. Object tracking via dual linear structured SVM and explicit feature map[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 4266-4274.[DOI:10.1109/CVPR.2016.462]