Print

发布时间: 2019-07-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190111
2019 | Volume 24 | Number 7




    学者观点    




  <<上一篇 




  下一篇>> 





近年目标跟踪算法短评——相关滤波与深度学习
expand article info 孟琭, 李诚新
东北大学信息科学与工程学院, 沈阳 110004

摘要

目的 目标跟踪是计算机视觉领域的重要组成部分。近年来,基于相关滤波和深度学习的目标跟踪算法层出不穷,本文拟对经典的若干目标跟踪算法进行阐述与分析。方法 首先,对基于相关滤波跟踪算法的基础理论进行介绍,针对相关滤波算法在特征改进类、尺度改进类、消除边界效应类、图像分块类与目标响应自适应类方面进行总结;接下来,从3个方面对基于深度学习的目标跟踪算法进行阐述与分析:目标分类、结构化回归、孪生网络,并对有代表性的跟踪算法的优势与缺陷进行较深层次的解读。结果 通过列举跟踪算法在相关滤波阶段、深度学习阶段针对不同的改进机制的改进算法,总结各阶段算法的优缺点。对目标跟踪算法的最新进展进行阐述,最终对目标跟踪算法的未来发展方向进行总结。结论 基于相关滤波的目标算法在实时性方面表现优秀,但对于复杂背景干扰、相似物遮挡等情况仍然需要优化。深层的卷积特征对于目标有强大的表示力,通过使相关滤波算法与深度学习结合,大幅度提升了算法表现力。基于深度学习的跟踪算法则更侧重于跟踪的性能,大多无法满足实时性。孪生神经网络的使用对于基于深度学习类目标跟踪算法产生了很大的推动,兼顾了算法的性能和实时性。

关键词

目标跟踪; 相关滤波; 深度学习; 孪生神经网络

Brief review of object tracking algorithms in recent years: correlated filtering and deep learning
expand article info Meng Lu, Li Chengxin
College of Information Science and Engineering, Northeastern University, Shenyang 110004, China
Supported by: National Natural Science Foundation of China(61601213)

Abstract

Objective Target tracking is an important part of computer vision. In recent years, target tracking algorithms based on correlation filtering and deep learning have been emerging in endlessly. This paper will elaborate on and analyze some classical target tracking algorithms. Method First, this paper introduces the basic theory of the tracking algorithms based on correlation filtering. And it will also give a summary in terms of the feature improvement, scale improvement, elimination boundary effect, image segmentation, and target response adaptive classes of the correlation filtering algorithms are summarized. Next, the target tracking algorithms based on deep learning are expounded and analyzed from three aspects: target classification, structured regression, and Siamese neural network. An in-depth interpretation of the advantages and defects of representative tracking algorithms is also provided. Result The advantages and disadvantages of each phase algorithm are summarized through an enumeration of the enhanced tracking algorithms for different improved mechanisms in the correlation filtering and deep learning phases. This paper expounds on the latest progress of target tracking algorithms and summarizes their future development direction. Conclusion The target algorithm based on correlation filtering performs well in real-time performance but still requires optimization for complex background interference and similar object occlusion. The deep convolution feature has a strong representation of the target, and when the correlation filtering algorithm is combined with deep learning, the performance of the algorithm is greatly improved. Tracking algorithms based on deep learning objectives are highly focused on tracking performance, and most of them cannot achieve real-time performance. The use of the Siamese neural network has greatly promoted the deep tracking-based target tracking algorithm by taking into account the performance and real-time performance of the algorithm.

Key words

object tracking; correlation filtering; deep learning; siamese neural network

0 引言

目标跟踪在计算机领域扮演重要的角色[1],其应用范围十分广泛,包括:交通、医疗、军事等各个方面。目标跟踪就是在缺少目标先验知识的前提下,只在视频序列的第1帧给定目标位置与目标尺寸,并在后续的视频帧中确定待跟踪目标的位置与尺寸,可以将跟踪过程分为目标的特征提取、目标的模型建立以及模型自适应更新3部分。根据目标的外观模型将目标跟踪算法分为生成式算法与判别式跟踪算法,早期(2010年之前)的目标跟踪算法[2]大部分属于生成式算法,本文重点关注判别式跟踪算法。依据网络结构差异将判别式跟踪算法分为基于相关滤波的跟踪算法[3]和基于深度学习的跟踪算法[4]

1 基于相关滤波的目标跟踪

相关滤波算法的引进使得目标跟踪算法产生了很大变革。简而言之,相关滤波算法就是建立一个相关滤波器,使其与目标的相关响应最大。该算法最大的特点就是速度快,这是其他方法无法比拟的。相关滤波算法通过循环样本增加样本丰富性,其缺点在于边界效应问题,导致判别器不稳定。截止到2019年,基于相关滤波的目标跟踪算法的改进主要在5个方面:特征、尺度、边界效应、目标分块、响应自适应。

1.1 特征提取的改进

特征提取是目标跟踪的首要步骤,相关滤波跟踪算法在特征提取方面的改进主要体现在3个方面:浅层特征、深度特征、多特征共用。

浅层特征主要由灰度特征、纹理特征、颜色特征组成。灰度特征使用目标的灰度像素信息作为特征,但是灰度特征包含的有效信息少,很容易受到光照改变的影响。纹理特征是对目标边缘的方向密度分布进行描述,方向梯度直方图特征用于跟踪算法中,提升了算法的几何不变性与光照不变性,但是特征生成的描述子过程冗长复杂,降低了算法的速度,并且该特征对噪点敏感,容易导致模型漂移。颜色特征利用目标的颜色显著不变性,Color Name利用主成分分析技术将颜色空间从11维降低到自适应的2维颜色空间,提升了算法的光照不变性,通过降低颜色空间维数提升速度,将会导致部分有效信息的丢失。多颜色通道的颜色梯度信息的引入,缓解了遮挡等干扰引起的模型漂移问题。

深度特征是利用卷积神经网络的不同深度卷积特征作为特征提取方式。浅层卷积特征包含更多的纹理信息,有利于目标的定位,深层卷积特征包含更加高级的语义信息,有助于分辨目标类别。基于深度特征的相关滤波算法,通过计算不同深度卷积层特征的相关置信响应来确定目标位置。虽然深度卷积特征对目标有较强的辨识能力,但是也引入了较高的计算复杂度,导致算法无法满足实时性。

多特征共用方法将浅层特征与深度特征进行自适应融合,相互弥补各自缺点。纹理特征可以提升跟踪算法的几何不变性,颜色特征可以提升算法光照不变性等,深度卷积特征对目标有着较高的判别力。MCCT(multi-cue correlation tracking)[5]算法提出了特征池概念,特征池中包含低级特征(HOG(histograms of oriented gradients)特征)、中级特征(VGG-19(visual geometry group 19)中的conv4-4)、高级特征(VGG-19中的conv5-4),特征池是由初级、中级、高级特征随机组合成7种特征组成,在每一帧中选择最优的特征。

1.2 尺度的改进

目标跟踪算法中精确预估尺度有助于提高算法的鲁棒性,相关滤波算法与尺度相关的改进主要体现在3个方面:尺度池、候选域提出、显著特征。

尺度池是利用由等差数列组成的尺度缩放因子对目标尺度进行缩放,组成目标块的尺度池。尺度池的方法对目标在局部小范围的尺度变化有效,尺度池的预估尺度的网络可以独立于对目标位置估计的网络,移植性好,但是尺度池不能改变尺度的纵横比,如果目标发生形变导致纵横比改变,或者由于运动视角的改变导致目标的纵横比发生改变,尺度池的方法都不能准确预估尺度。

候选域提出方法改善了尺度池策略不能适应目标纵横比改变的情况,利用结构化边缘检测方式在候选区域中获得一系列预选图像块,通过计算预选图像块的置信响应确定目标位置。例如引入EdgeBoxes检测预选框生成技巧,适应目标的尺度纵横比变化,但引进检测预选框生成的策略,增加了计算复杂性,并且候选框的生成会受到光照改变的影响。

显著性特征方法是利用不随目标尺度变化的特征,目标的显著性特征不易受到外界因素干扰。例如使用特征点分布对目标尺度进行估计。但是对于如何准确利用特征点对的空间关系对目标尺度进行估计仍未解决。特征点的提取容易受到复杂背景的干扰,还需要寻找更加鲁棒的显著性特征去预估尺度。

1.3 边界效应的改进

各种基于相关滤波的目标算法主要是通过引进样本周期假设,来扩充样本集数量,但是样本周期假设也引入了不必要的边界效应,即在非目标区域也存在响应。相关滤波算法消除边界效应主要体现在两个方面:加入空间正则化与加入掩膜矩阵。

空间正则化方法是在算法模型中添加正则化项(倒置的高斯标签),对滤波器系数进行惩罚。以SRDCF(spatially regularized discriminative correlation filters)[6]算法为代表,在目标函数中加入正则系数矩阵,对相关滤波器相对于背景区域的参数进行较大的惩罚,降低了非目标区域的响应,有效抑制背景干扰。后续的C-COT(continuous convolution operators for tracking)、ECO(efficient convolution operators)算法都是基于SRDCR样本净化的思想。

掩膜矩阵方法是将目标搜索区域扩充到整张图片,利用由0、1元素组成的二值矩阵在整张图片中提取目标位置。以DCF-CSR[7]算法为代表,利用前景背景的颜色直方图建立掩膜,最终得到的滤波器参数集中在置信响应最高的位置。通过对背景进行抑制,突出了目标信息,针对复杂背景的场景有很好的跟踪效果,但是由于引进了空间正则化项或者掩膜矩阵都会使得新的算法模型没有闭合解,只能通过迭代的方式求解,极大地增加了算法的计算复杂度,导致算法不能满足实时性,还需要进一步优化。

1.4 目标分块的改进

基于相关滤波的目标跟踪算法无法很好地解决跟踪目标的遮挡问题,可以采用多个相关滤波器对目标进行跟踪,直观地说,将目标分成若干个小部分,并独立地跟踪这些部分,当目标发生遮挡或者形变时,仍然可以依靠其他部分正确定位整个目标,对于目标分块方法对目标的全局性信息利用得较少,且缺少全局信息对局部信息的整合机制,容易导致跟踪模型发生漂移。LGCF(local-global correlation filter)[8]算法提出了新的基于局部信息与全局信息相结合的相关滤波器,通过全局目标块和局部目标块的循环移位模型来体现待跟踪目标的内部结构,提高了跟踪算法对遮挡问题的鲁棒性。对于分块算法的分块的数量确定、分块如何确立、独立置信响应如何利用、全局信息与局部信息的一致性,仍然需要优化。

1.5 响应自适应的改进

基于相关滤波的跟踪算法很少关注跟踪过程中的目标响应的动态变化,例如目标平面内旋转、非刚性形变等使得目标的外观模型发生改变,容易导致模型漂移。相关响应的输出符合高斯分布,通过利用高斯分布先验约束对相关滤波器的输出进行建模减少噪音的分布。利用原始数据的分布作为优化响应输出的约束,使得相关滤波器容易找到特定分布的响应输出,确定目标位置。CF-PS[9]算法在滤波器上添加了弹性网络,自适应消除相关滤波器中的干扰特征。针对响应自适应的方法改善相关滤波算法,对相关置信响应直接或间接去噪,提升了目标跟踪算法的稳定性与针对性。

2 基于深度学习的目标跟踪

基于深度学习的方法是利用深度卷积网络对目标进行特征提取、分类的跟踪算法,该算法的特点是精准度高,针对复杂场景表现优越,但是基于深度学习的跟踪算法存在训练样本不足、在线微调机制导致跟踪速度慢等问题。基于深度学习的目标跟踪算法主要包含3种思路:将目标跟踪转化为分类问题;将目标跟踪转化为概率图问题;通过孪生网络来实现跟踪。

2.1 二分类

基于深度学习的分类方法将每一帧图像分为目标和背景两类,也称“二分类”,从而解决跟踪问题。这一思路面临的最大问题就是基于卷积神经网络(CNN)的分类网络是通过大量的数据训练得到的深度模型,然而在目标跟踪中,只提供了视频序列的第1帧作为训练数据,因此如何在只有少量数据的前提下进行训练是首要问题。首先通过离线训练、在线微调的训练模式缓解样本缺失的问题,利用共享层学习不同目标的通用表示,然后根据目标所在的特定域属性进行微调。但是该方法得到的分类器对目标过于强调类的属性,对于相似的物体很难区分。SANet(structure aware network)[10]算法通过采用对象的自我结构信息区分相似干扰目标。作者在CNN框架的基础上添加了递归神经网络(RNN),并通过跳跃式连接策略将多层的CNN特征和RNN特征进行融合。当类似的干扰发生时,该算法模型能够捕获目标和干扰之间的细微差异。

2.2 概率图

除了将目标跟踪转化为二分类问题,很多深度学习算法还将跟踪转化为求解概率图的问题。FCNT(fully convolutional network tracking)[11]算法的作者发现, 不同深度的卷积特征可以表达待跟踪目标的不同层次的特征,例如:顶层的卷积特征包含更高级、更抽象的语义信息,可以充当类别检测器;而底层的卷积特征携带更多的类内识别信息,可以很好地将目标与相似的干扰物区分开。作者通过使用不同深度的卷积特征分别输出各自的待跟踪目标概率图。利用双网络“由粗到细”的定位过程,很好地解决了复杂背景与相似干扰物对目标跟踪的干扰问题。C-COT[12]算法使用VGG-Net的第1个卷积特征与最后一个卷积层特征,然后通过三次样条插值算法将不同分辨率的特征图插值到连续的空间域中,利用连续卷积滤波器对不同深度层的特征图进行卷积操作,得出多层置信响应,通过对多层置信响应图进行加权平均,确定最终的置信响应函数。后续算法针对C-COT过高的计算复杂度与样本过拟合的问题进行了改善,对冗余滤波器进行了削减(保留贡献较高的滤波器),从而减少提取特征的维度以降低算法的计算复杂度,同时精简了算法的训练集,减少相近样本导致的过拟合问题。将目标跟踪转化为求解概率图的算法,通过利用不同层的深度卷积特征、结合互补网络、引入核相关判别器等策略,有效地克服了复杂背景和相似背景的干扰。

2.3 孪生网络

孪生网络是一种特殊的神经网络框架,由包含两个或者更多相同权重参数的子网络组成,各个子网络共享权值。SiamFC(fully-convolutional siamese networks)[13]算法首次将孪生神经网络引入到目标跟踪领域中,提出了一种新型的全卷积孪生神经网络,通过计算待检测候选域与目标区域的相关性程度,确定相似度值最高的位置就是待跟踪目标的预测位置。该算法完全满足实时性的要求,打破了基于深度神经网络的目标跟踪算法无法满足实时性的局限,同时该算法还具有较高的鲁棒性。SiamFC算法只能通过相似度矩阵预测待跟踪目标的中心位置,无法得到目标的确切尺寸,仅仅通过规定好的尺度进行硬性尺度估计。SiamRPN(siamese region proposal network)[14]算法将孪生网络与Faster-RCNN算法中所提出的候选域生成网络(RPN)相结合,得益于这些改良,传统的多尺度测试和在线微调可以被舍弃,这样做也大大提高了进行速度。

基于孪生神经网络的目标跟踪算法,渐渐发展成了目标跟踪领域的“领头羊”,例如CIR(cropping inside residual)[15]算法、SiamMask[16]算法等在目标跟踪算法综合性能评估中表现出色,不仅表现在实时的跟踪速度方面,而且还体现出很好的跟踪鲁棒性。

3 总结与展望

本文对近年来的目标跟踪算法进行了综述,主要关注了基于相关滤波方法和深度学习方法两大类型,并根据主要改进内容对各个算法进行了分类。通过对各个算法的阐述、分析、对比,本文认为以下几个方面需要进一步关注:

1) 提升特征提取的有效性。特征提取是目标跟踪算法的关键,跟踪过程中所提取的特征由最初灰度特征逐步过渡到纹理特征、颜色特征、深度卷积特征、多特征融合,其表现力虽然得到了很大的提升,但随着特征提取由简单到复杂,其冗余信息也在增加,因此在关注待跟踪目标的特征提取的代表性和针对性的同时,也要关注特征提取的有效性和实时性。尽可能减少特征提取过程中较高的计算复杂度,保证特征信息的独特代表力。虽然现在的特征非常丰富,但是对目标空间关系表述的特征相对较少,可以考虑将空间关系特征引入到跟踪算法中,提升算法对目标运动的感知力。

2) 提高正样本丰富性。基于深度学习的目标分类的跟踪算法,通过迁移学习的方式极大地减少了基于深度学习的目标跟踪算法对训练样本集的需求,提升了算法的鲁棒性。但是利用在线微调的形式,仍然需要调节训练大量的参数,无法满足算法的实时性要求。实际情况中只能提供视频序列的第1帧正样本,由于正样本缺失问题直接导致分类器性能较差,类内目标辨识度低。可以继续关注利用生成对抗网络丰富正样本,训练更加鲁棒的分类器。同时可以考虑向弱监督或者无监督方向发展。

3) 端对端网络的持续探索。随着基于孪生网络引入到跟踪算法,提高了基于深度学习的跟踪算法的计算效率,在保证算法高精度、高成功率的情况下,提升了算法的速度,因此对于孪生网络的改进是有必要的。可以考虑将新的结构引入孪生网络中,提升孪生神经网络的在线学习的效率。探索新型的孪生神经结构,提升轻量级的孪生网络架构的高效性。

虽然目前的跟踪算法在网络、模型、特征提取等方面的优化已经取得了显著的成效,但是在一些特定的场景中仍然存在不足:

1) 长时遮挡(或长时完全遮挡)。如果目标被长时间遮挡或目标超出视角时,直接导致错误的模型更新,最终跟踪失败,如果采用降低学习速率方式减少模型的错误更新,可能会导致算法的模型无法适应模型的变化。当目标重现时,如何快捷高效的寻回目标,仍然是一个难题。

2) 相似背景干扰。在目标的背景环境复杂、目标周围有相似颜色或者纹理的干扰物、背景杂斑的情况下,非常容易导致分类器做出错误的决定。

3) 快速尺度变化。待跟踪目标在短时间内尺度大幅度改变的时候,尺度池策略只适用目标在局部小范围的尺度变化,无法适应目标的大幅度尺度变换。以目标分块的方式估计目标的尺度变化,缺少全局信息对局部信息的整合机制,将会导致目标定位不准确。

参考文献

  • [1] Zhang T Z, Xu C S, Yang M H. Multi-task correlation particle filter for robust object tracking[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, Hawaii, USA: IEEE, 2017: 4819-4827.[DOI: 10.1109/CVPR.2017.512]
  • [2] Zhang K H, Zhang L, Yang M H. Real-time compressive tracking[C]//Proceedings of 2012 European Conference on Computer Vision. Florence, Italy: Springer, 2012: 864-877.[DOI: 10.1007/978-3-642-33712-3_62]
  • [3] Sun C, Wang D, Lu H C, et al. Correlation tracking via joint discrimination and reliability learning[C]//Proceedings of 2017 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 489-497.[DOI: 10.1109/CVPR.2018.00058]
  • [4] Li B, Wu W, Wang Q, et al. SiamRPN++: evolution of Siamese visual tracking with very deep networks[C]//Proceedings of 2019 IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, CA, USA: IEEE, 2019.
  • [5] Wang N, Zhou W G, Tian Q, et al. Multi-cue correlation filters for robust visual tracking[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 4844-4853.[DOI: 10.1109/CVPR.2018.00509]
  • [6] Danelljan M, Häger G, Khan F S, et al. Learning spatially regularized correlation filters for visual tracking[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2016: 4310-4318.[DOI: 10.1109/ICCV.2015.490]
  • [7] Lukežic A, Vojír T, Zajc L C, et al. Discriminative correlation filter with channel and spatial reliability[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 4847-4856.[DOI: 10.1109/CVPR.2017.515]
  • [8] Fan H, Xiang J H. Robust visual tracking via local-global correlation filter[C]//Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco: AAAI, 2017: 4025-4031.
  • [9] Sui Y, Wang G H, Zhang L. Correlation filter learning toward peak strength for visual tracking[J]. IEEE Transactions on Cybernetics, 2018, 48(4): 1290–1303. [DOI:10.1109/TCYB.2017.2690860]
  • [10] Fan H, Ling H B. SANet: Structure-aware network for visual tracking[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 2217-2224.[DOI: 10.1109/CVPRW.2017.275]
  • [11] Wang L J, Ouyang W L, Wang X G, et al. Visual tracking with fully convolutional networks[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 3119-3127.[DOI: 10.1109/ICCV.2015.357]
  • [12] Danelljan M, Robinson A, Khan F S, et al. Beyond correlation filters: learning continuous convolution operators for visual tracking[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016: 472-488.[DOI: 10.1007/978-3-319-46454-1_29]
  • [13] Bertinetto L, Valmadre J, Henriques J F, et al. Fully-convolutional siamese networks for object tracking[C]//Proceedings of European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016: 850-865.[DOI: 10.1007/978-3-319-48881-3_56]
  • [14] Li B, Yan J J, Wu W, et al. High performance visual tracking with Siamese region proposal network[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 8971-8980.[DOI: 10.1109/CVPR.2018.00935]
  • [15] Zhang Z P, Peng H W. Deeper and wider Siamese networks for real-time visual tracking[C]//Proceedings of 2019 IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, CA: IEEE, 2019.
  • [16] Wang Q, Zhang L, Bertinetto L, et al. Fast online object tracking and segmentation: a unifying approach[EB/OL].[2019-03-10] https://arxiv.org/pdf/1812.05050.pdf.