发布时间: 2018-12-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180237
2018 | Volume 23 | Number 12

图像分析和识别

遮挡判别下的多尺度相关滤波跟踪算法

刘万军¹, 张壮², 姜文涛¹, 张晟翀³

1. 辽宁工程技术大学软件学院, 葫芦岛 125105;

2. 辽宁工程技术大学研究生院, 葫芦岛 125105;

3. 光电信息控制和安全技术重点实验室, 天津 300308

收稿日期: 2018-04-09; 修回日期: 2018-07-17

基金项目: 国家自然科学基金项目（61172144）；辽宁省自然科学基金项目（20170540426）；辽宁省教育厅基金项目（LJ2017QL034，LJ2017ZL003）；辽宁省教育厅一般基金项目（LJYL049）；重点实验室基金项目（61421070101162107002）

第一作者简介: 刘万军, 1959年生, 男, 教授, 主要研究方向为软件工程理论、图像与视觉信息计算、模式识别与人工智能。E-mail:liuwanjun@lntu.edu.cn;
姜文涛, 男, 博士, 副教授, 主要研究方向为图像与视觉信息计算、模式识别与人工智能。E-mail:lntuwulue@sina.com;
张晟翀, 男, 高级工程师, 主要研究方向为图像处理与模式识别、视频目标跟踪。E-mail:zsc417@126.com.

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2018)12-1789-12

摘要

目的复杂环境下，运动目标在跟踪过程中受尺度变换以及遮挡因素的影响，跟踪准确率较低。针对这一问题，提出一种遮挡判别下的多尺度相关滤波跟踪方法。方法首先选取第1帧图像的前景区域，训练目标的位置、尺度滤波器和GMS（grid-based motion statistics）检测器。然后，通过位置滤波器估计目标位置，尺度滤波器计算目标尺度，得到初选目标区域。最后，利用相关滤波响应情况对初选目标区域进行评估，通过相关滤波响应值的峰值和峰值波动情况判断是否满足遮挡和更新条件。若遮挡，启动检测器检测目标位置，检测到目标位置后，更新目标模型；若更新，则更新位置、尺度滤波器和GMS检测器，完成跟踪。结果本文使用多尺度相关滤波方法作为算法的基本框架，对尺度变化目标跟踪具有较好的适应性。同时，利用目标模型更新机制和GMS检测器检索目标，有效地解决了遮挡情况下的目标丢失问题。在公开数据集上的测试结果表明，本文算法平均中心误差为5.58，平均跟踪准确率为94.2%，跟踪速度平均可达27.5帧/s，与当前先进的跟踪算法相比，本文算法兼顾了跟踪速度和准确率，表现出更好的跟踪效果。结论本文提出一种新的遮挡判别下的多尺度相关滤波跟踪算法。实验结果表明，本文算法在不同的尺度变换及遮挡条件下能够快速准确跟踪目标，具有较好的跟踪准确率和鲁棒性。

关键词

目标跟踪; 安全监控; 遮挡判别; 尺度变换; 相关滤波

Multi-scale correlation filter tracking algorithm based on occlusion discrimination

Liu Wanjun¹, Zhang Zhuang², Jiang Wentao¹, Zhang Shengchong³

1. School of Software, Liaoning Technical University, Huludao 125105, China;

2. Graduate School, Liaoning Technical University, Huludao 125105, China;

3. Science and Technology on Electro-Optical Information Security Control Laboratory, Tianjin 300308, China

Supported by: National Natural Science Foundation of China (61172144);Natural Science Foundation of Liaoning Province, China (20170540426)

Abstract

Objective Visual target tracking has become a popular research topic locally and globally in the field of artificial intelligence, which is widely used in national defense security, industry, and people's daily life, such as military recognition, security monitoring, pilotless automobile, and human-computer interaction. Although great progress has been realized in the past decade, model-free tracking remains a tough problem due to illumination changes, geometric deformation, partial occlusion, fast motions, and background clutters. The traditional methods of target tracking generally track the target through visual features. In the case of the simple environment, these trackers can perform well for specific targets. Recently, visual object tracking has been widely applied to object tracking field due to its efficiency and robustness of correlation filter theory. A series of new advances of target tracking have been introduced and much attention has been achieved. A novel approach to predictive tracking, which is based on occlusion discriminant multi-scale correlation filter tracking algorithm, is proposed to overcome the problems of low accuracy caused by occlusion, which are scale changes in the tracking processin complex environments. Method On the basis of the basic framework of DSST (discriminated scale space tracker), a multi-scale correlation filter tracking algorithm is proposed. Reliability discrimination for the results of the correlation filter response, which contributes to long-term stable tracking, refers to occlusion and update discrimination by the peak and multiple peak fluctuation of the response map. The proposed algorithm in this paper can be summarized as two main points:1) Two types of calculation models were designed for the maximum and multiple peak fluctuation. By evaluating the tracking results according to the two abovementioned models, we can determine the occlusion of the target, and whether the target should be updated. 2) Redetect the missing target using the detector based on GMS (grid-based motion statistics). When the target is occluded, the GMS detector has been trained start to detect the target and locate it again. Concrete tracking is conducted as follows:First, the foreground area of the first frame image is selected, and the target position and scale filters and GMS detector are trained. Then, the target location is estimated by the translation filter, and the target scale is calculated by the scale filter. Performing a correlation between the candidate samples that are obtained using different scales center on the new position, and the scale correlation filter derives the primary target area. The maximum response scale is the current frame image scale. Finally, the primary target area is evaluated by the correlation filter response, and occlusion and update conditions are determined by the peak and multiple peak fluctuation of the correlation filter response values. The mutation of the peak and multiple peak fluctuation indicated that the target is occluded at the moment. The greater the mutation, the greater the degree of occlusion. In this case, update should be avoided to prevent tracking drift. If the target is occluded, then the detector detects the target position and updates the target model after detecting the target location. When the peak value of the correlation filter response is greater than the historical value, and the peak fluctuation does not mutate, then the target information at the moment is complete than that at time t-1, and the correlation filter should be updated. If the target is updated, then this update should focus on the location and scale filters and the GMS detector to complete tracking. Result The multi-scale correlation filtering method is used as the basic framework in our algorithm, which displays good adaptability to the target tracking of scale transformation. At the same time, the target model updating mechanism and GMS detector are used to retrieve the target and effectively solve the target loss problem in the occlusion. This paper selected nine challenging video sequences namely, Box, Bird1, Lemming, Panda, Basketball, DragonBaby, CarScale, Bird2, Girl2 from the public dataset OTB-2013 and OTB-2015, and video data car_Xvid, to conduct the experiments. The test results from using the public datasets show that the algorithm has a lower average center error of 5.58 and has a better tracking accuracy of 0.942 and tracking speed of 27.5 frames per second, compared with state-of-the-art tracking algorithms DSST, KCF (kernel correlation filter), LCT (long-term correlation tracking), Staple, GOTUTN (generic object tracking by using regression networks), and FCNT (fully convolutional networks tracking). Thus, the algorithm shows improved tracking performance with higher tracking speed and accuracy. Conclusion Based on DSST correlation filtering tracking, a multi-scale correlation filtering method based on occlusion discrimination is proposed. The results show that the algorithm solved the problems of losing goals due to occlusion and error accumulation because of the continuously and effectively updated strategy and achieved stable tracking under occlusion and multi-scale changes. Compared with current popular tracking algorithms, this algorithm has the following remarkable advantages:Solves the problem of losing goals due to occlusion in DSST algorithm and detects occlusion and determines whether updates can mitigate the tracking drift problem via frame update. Doing so can not only reduce unnecessary update time, but also substantially improve the tracking speed and accuracy. This paper presents a new multi-scale correlation filtering tracking algorithm based on occlusion discrimination. Experiments show that the proposed algorithm can track the target rapidly and accurately under conditions of varying scale transformation and occlusion, and it has enhanced tracking accuracy and robustness.

Key words

target tracking; security monitoring; occlusion discrimination; scale transformation; correlation filter

0 引言

随着人工智能的发展, 视觉目标跟踪已成为国内外人工智能领域中的一个研究热点^[1-4]。广泛应用在国防安全、工业以及人们的日常生活当中, 如军事识别、安防监控、无人驾驶、人机交互等。

传统的目标跟踪方法一般利用视觉特征对目标进行跟踪, 在简单环境下, 对特定目标具有良好的跟踪效果^[5-7], 但是当背景复杂, 目标发生尺度变换, 以及障碍物遮挡时, 视觉特征变化较大, 跟踪效果不甚理想。

近年来, 国内外目标跟踪领域的主流方法包括深度学习^[8-10]和相关滤波^[11-13]两类。基于深度学习的目标跟踪方法在跟踪精度方面有一定的优势。Held等人^[14]提出了一种深度回归网络的目标跟踪算法(GOTURN), 将前一帧的目标和当前帧的搜索区域同时经过卷积神经网络的卷积层, 然后将卷积层的输出通过全连接层, 用于回归当前帧目标的位置, 该方法与其他深度学习方法相比具有较快的跟踪速度。Wang等人^[15]提出了一种全卷积神经网络目标跟踪方法(FCNT), 利用卷积神经网络两个层次上的特征来进行跟踪, 同时提出了一种特征图谱选择的方法去除噪声和不相关的特征图谱, 在一定程度上降低了计算复杂度。以上两种深度学习跟踪方法在跟踪精度、跟踪稳定性方面具有一定的优势, 但是深度学习计算过程较为复杂, 实时性较差。

基于相关滤波的目标跟踪方法同时具备跟踪精度高和速度快的优势, 在视觉跟踪领域中受到诸多研究学者的青睐。相关滤波器的设计是对图像中感兴趣的目标区域响应峰值, 对其他区域响应低值。Bolme等人^[16]于CVPR 2010提出一种最小误差平方和滤波跟踪器(MOSSE), 首次将相关滤波应用到跟踪领域; Rui等人^[17]提出核循环结构跟踪器(CSK), 采用循环移位的稠密采样方式, 使整张图像的特征得到有效利用, 同时引入核函数, 将MOSSE中线性二分类器转化为非线性二分类器, 使得分类器在丰富的高维特征中起作用。核相关滤波(KCF)跟踪方法^[18]是作者对CSK跟踪器的完善, 使用多通道的梯度直方图(HOG)特征代替单通道的灰度特征, 提高了跟踪精度。以上几种方法具有较好的跟踪效果和跟踪稳定性, 但当目标发生尺度变化时, 不具备尺度适应性。

针对尺度变化问题, Danelljan等人^[19]在MOSSE的基础上加入了快速尺度空间滤波器, 提出了一种多尺度空间滤波跟踪算法(DSST), 有效地解决了跟踪过程中的尺度变换问题, 但是该方法缺乏对训练样本的学习和更新机制, 在目标发生遮挡时, 无法保留目标信息, 当目标再次出现时, 无法重新锁定目标, 导致跟踪失败。Bertinetto等人^[20]提出了一种基于互补学习的跟踪方法(Staple), 该方法利用DSST算法中的尺度相关滤波器解决尺度变化问题, 同时将HOG特征和颜色特征进行融合, 有效地解决了全局形变下HOG特征鲁棒性较差和光照变化条件下颜色特征表达效果较差的问题, 跟踪准确性较高, 但其需要针对两种特征的滤波器进行计算, 计算复杂度较高。

针对遮挡问题, Ma等人^[21]提出一种长时间相关跟踪算法(LCT), 该算法在DSST算法基础上, 加入了一个负责检测目标跟踪置信度的相关滤波器和负责检测目标的随机蕨分类器, 将跟踪置信度滤波器的最大响应值与两个阈值的比较结果作为判定条件, 判断跟踪是否可靠, 以及更新是否可行, 若跟踪不可靠, 调用检测器检测目标, 若更新可行, 更新跟踪置信度滤波器和随机蕨分类器。该方法在一些图像序列上可做到长时间稳定跟踪, 在遮挡环境下具有较好的跟踪效果, 且将相关滤波响应结果作为目标跟踪可靠性判定依据, 具有较好的跟踪效果。

本文在相关滤波跟踪的基本框架上, 提出一种遮挡判别下的多尺度相关滤波跟踪算法。该方法对相关滤波响应结果进行可靠性判别, 即通过响应图的峰值以及多峰响应的波动情况对跟踪进行遮挡判别和更新判别, 实现长时间稳定跟踪。主要工作如下:

1) 在DSST跟踪器的基础上对跟踪结果进行评估, 提出了两种计算模型, 相关滤波响应最大峰值模型和峰值波动模型。通过对这两种计算模型判定目标遮挡情况, 同时判定目标是否需要更新。

2) 采用基于GMS(grid-based motion statistics)算法的检测器^[22]对丢失目标进行再检测。当目标发生遮挡时, 启动训练好的GMS检测器检测目标, 重新对目标进行定位。

经验证, 本文算法具有以下优势:

1) 有效解决了DSST算法中障碍物遮挡导致的目标跟踪丢失问题。

2) 通过对遮挡和更新的判定避免了逐帧更新中的跟踪漂移问题, 减少不必要的更新时间, 提高了算法跟踪速度和跟踪准确率。

1 算法概述

本文提出了一种遮挡判别下的多尺度相关滤波跟踪算法, 在DSST的基础上, 对跟踪结果进行评估, 判定目标是否发生遮挡以及是否需要更新。整体算法实现过程如图 1所示。为了清晰表述算法流程, 将其分为建模和跟踪两个阶段:

图 1 遮挡判别下的多尺度相关滤波跟踪算法示意图

Fig. 1 The diagram of multi-scale correlation filtering algorithm based on occlusion discrimination

1) 建模阶段。在图像第1帧中手动选取目标区域, 训练用来估计目标位置的2维位置相关滤波器和用来估计目标尺度的1维尺度相关滤波器, 由于目标在发生遮挡时, 目标表达能力有限, 位置滤波器无法完成目标位置锁定, 本文在训练相关滤波器的同时训练目标GMS检测器, 在目标发生遮挡及目标丢失时, 起到快速检测的作用。

2) 跟踪阶段。首先, 使用训练好的位置相关滤波器估计目标位置, 然后利用尺度相关滤波器在估计位置计算最大响应尺度值。然后通过对跟踪结果进行判定, 判定目标是否发生遮挡以及目标是否需要更新, 若遮挡, 启动GMS检测器检测目标, 检测到目标后, 更新目标模型; 若更新, 则对目标模型中的两个相关滤波器和一个检测器进行更新, 反复执行此过程, 完成目标跟踪。

2 相关滤波跟踪

由于相关滤波跟踪方法具有精确度高、速度快等优势, 采用相关滤波跟踪方法作为本文算法的基本框架。相关滤波跟踪是针对样本图像训练相关滤波器, 使其在图像的目标位置产生相关响应峰值, 在跟踪过程中, 利用训练好的相关滤波器对跟踪图像做滤波响应, 最大响应位置为候选目标位置。

2.1 位置滤波

DSST多尺度相关滤波跟踪方法是基于MOSSE算法的改进, 本文借鉴该方法对目标进行跟踪。针对跟踪图像的目标区域提取$d-1$维的HOG特征和1维的灰度特征作为输入${f^l}, l = 1, 2, \ldots, d$, 建立最小化代价函数, 构造最优的相关滤波器${h^l}$, 计算

$ \varepsilon = {\left\| {\sum\limits_{l = 1}^d {{h^l} * {f^l} - g} } \right\|^2} + \lambda \sum\limits_{l = 1}^d {{{\left\| {{h^l}} \right\|}^2}} $

(1)

式中, *为相关运算, $g$为响应输出, 由高斯函数产生, $\lambda $为正则项系数, 消除特征频谱中的零频分量, 峰值在${f^l}$中心位置产生。将式(1)进行傅里叶变换(FFT)可得

$ {H^l} = \frac{{\bar G{F^l}}}{{\sum\limits_{k = 1}^d {{{\bar F}^k}{F^k} + \lambda } }} = \frac{{A_t^l}}{{{B_t}}} $

(2)

为了方便后文描述, 令

$ A_t^l = \bar G{F^l},{B_t} = \sum\limits_{k = 1}^d {{{\bar F}^k}{F^k} + \lambda } $

式中, $t$为图像帧数。

更新目标模型, 可快速得到鲁棒的近似结果, 即

$ A_t^l = \left( {1 - \eta } \right)A_{t - 1}^l + \eta {{\bar G}_t}F_t^l $

(3)

$ {B_t} = \left( {1 - \eta } \right){B_{t - 1}} + \eta \sum\limits_{k = 1}^d {\bar F_t^kF_t^l} $

(4)

式中, $\eta $为学习率, 作为样本模型的更新参数。

参照目标在$t-1$帧中的位置, 在图像第$t$帧中, 按照$t-1$帧目标尺度的2倍大小提取目标不同维度的特征$z_t^l$, 通过傅里叶逆变换(IFFT)得到$Z_t^l$, 代入求解相关滤波响应值${r_t}$, 最大响应值位置为目标位置

$ {R_t} = \frac{{\sum\limits_{k = 1}^d {\bar A_{t - 1}^lZ_t^l} }}{{{B_{t - 1}} + \lambda }} $

(5)

$ {r_t} = {F^{ - 1}}\left( {{R_t}} \right) $

(6)

式中, ${F^{-1}}$为傅里叶逆变换函数。

2.2 多尺度滤波

针对目标跟踪过程中的尺度变化问题, 在位置滤波器的基础上加入尺度相关滤波器, 用来估计目标运动过程中的尺度变化。尺度池定义为

$ {a^n}w \times {a^n}h,n \in \left\{ { - \frac{{S - 1}}{2}, \cdots ,\frac{{S - 1}}{2}} \right\} $

(7)

式中, $w$和$h$分别为前一帧目标的宽和高, $a=1.02$为尺度因子, $S=33$为尺度数。

多尺度滤波使用2维位置滤波器确定目标新位置, 以新位置为中心点, 获取$S$个不同尺度的候选样本, 尺度估计过程与位置估计过程一致, 利用式(5)计算尺度相关滤波器响应值, 以最大响应尺度为当前目标尺度。

3 遮挡判别与模型更新策略

DSST多尺度相关滤波跟踪方法在跟踪过程中对每一帧图像均采取更新策略, 并没有对跟踪结果进行可靠性判别, 当目标样本中掺杂背景信息, 尤其当目标发生遮挡时, 更新模型会导致跟踪器逐渐偏离目标, 造成跟踪漂移。本文从相关滤波跟踪响应图入手, 通过对响应图的峰值以及多峰响应的波动情况与历史值比对, 进行遮挡判别和更新判别, 达到长时间稳定跟踪效果。

不同状态下相关滤波响应如图 2所示。图 2(a)为理想状态下的相关滤波响应图, 为单峰响应, 且在目标中心处响应值最大; 图 2(b)为正常跟踪状态下的相关滤波响应情况, 响应图为多峰, 最大响应位置为目标位置, 其他位置响应值较低, 为背景杂波干扰响应, 可以有效跟踪目标; 图 2(c)为局部遮挡条件下相关滤波的响应情况, 响应图为多峰, 最大响应位置仍为目标位置, 但最大响应值低于正常跟踪状态下的响应值, 且多峰之间波动情况较大, 说明检测区域包含大量的背景信息, 可以较为有效地跟踪, 但已不具备模型更新条件; 图 2(d)为完全遮挡情况下的相关滤波响应图, 最大响应值远低于历史值, 且多峰之间波动较均匀, 若此时继续更新模型, 则会产生跟踪漂移。本文设计了两种计算模型来评估跟踪结果进行遮挡判别和更新判别, 分别为最大响应值${r_{t\_\max }}$和平均峰值

图 2 不同状态下相关滤波响应图

Fig. 2 The response diagram of correlation filter in different states

((a) ideal state; (b) normal tracking state; (c) part occlusion state; (d) full occlusion state)

$ {r_{t\_\max }} = \max r\left( {x,y} \right) $

(8)

$ P{V_t} = \frac{{{\rm{mean}}\left( {\sum\limits_{t\_x,t\_y} {{{\left( {{r_{x,y}} - {r_{t\_\min }}} \right)}^2}} } \right)}}{{{{\left| {{r_{t\_\max }} - {r_{t\_\min }}} \right|}^2}}} $

(9)

${r_{t\_\max }}$描述检测区域中的候选位置, $P{V_t}$描述多峰响应的峰值波动情况, 可以有效地刻画$t$时刻候选区域的响应情况。

由相关滤波响应结果分析可知, 当目标发生遮挡以及受相似目标干扰时, 相关滤波响应的峰值可能是相似目标或者是障碍物遮挡导致, 其峰值波动变化幅度较小, 仅使用${r_{t\_\max }}$和$P{V_t}$不足以对跟踪结果进行有效评估, 本文根据目标运动具有连续渐变的特性, 利用${r_{t\_\max }}$和$P{V_t}$变化情况与历史变化情况的关系对跟踪结果进行评估, 即

$ \Delta {r_{t\_\max }} = \left| {{r_{t\_\max }} - {r_{t - 1\_\max }}} \right| $

(10)

$ \Delta {r_{{\rm{mean}}}} = {\rm{mean}}\left| {\sum\limits_{k = 2}^{t - 1} {{r_{k\_\max }} - {r_{k - 1\_\max }}} } \right| $

(11)

$ \Delta P{V_t} = \left| {P{V_t} - P{V_{t - 1}}} \right| $

(12)

$ \Delta P{V_{{\rm{mean}}}} = {\rm{mean}}\left| {\sum\limits_{k = 2}^{t - 1} {P{V_k} - P{V_{k - 1}}} } \right| $

(13)

式中, ${r_{t\_\max }}$为最大响应值变化情况, 当其发生突变, 说明最大响应位置可能为非目标位置; $\Delta {r_{{\rm{mean}}}}$为最大响应历史均差值, 描述的是目标位置的响应均差值; $\Delta P{V_{{\rm{mean}}}}$为历史平均峰值变化的均差值, 可以有效描述目标区域峰值波动变化情况, $P{V_t}$为当前帧图像候选区域与前一帧目标区域峰值波动变化情况, 当其发生突变, 说明该候选区域中掺杂了大量背景信息, 已经不具备目标模型更新条件。

当${r_{t\_\max }}$大于历史值, 且$\Delta P{V_t}$未发生突变时, 判定此刻目标信息较$t-1$时刻完整, 需要对相关滤波器进行更新; 当$\Delta {r_{t\_\max }}$和$\Delta P{V_t}$同时发生突变时, 判定此刻目标发生遮挡, 突变越大, 遮挡程度越大, 此时需要避免更新, 防止跟踪漂移, 同时启动检测器, 重新锁定目标。

4 GMS目标检测

本文采用GMS检测器, 对丢失目标进行再检测。当目标丢失时, 启动检测器快速检测目标, 当目标遮挡后再出现时, 可以通过检测器检测目标局部特征, 实现对目标的重新锁定, 达到长时间稳定跟踪的目的。

GMS算法是Bian等人^[22]于CVPR 2017提出的一种基于网格运动统计的快速、超鲁棒特征匹配算法。该算法首先进行ORB(oriented fast and rotated BRIEF)特征匹配, 得到匹配成功的特征点对, 然后利用网格运动统计方法对ORB匹配结果进行过滤, 消除错误匹配结果。

两幅图像${\mathit{\boldsymbol{I}}_{\rm{1}}}、{\mathit{\boldsymbol{I}}_{\rm{2}}}$经过ORB特征匹配得到的部分点对如图 3所示。区域$a$和区域$b$为正确匹配。区域$c$和区域$d$为错误匹配。

图 3 ORB部分匹配结果

Fig. 3 The result of ORB partial match

记事件$f_a^t$为正确匹配, 事件$f_a^f$为错误匹配, 事件$f_a^b$为区域$a$中的特征点匹配至区域$b$, 且$p\left( {f_a^t} \right) = t$, 则$p\left( {f_a^f} \right){\rm{ = }}1-t$。

GMS算法提出了一个假设, 区域$a$中的一个特征点匹配错误, 且匹配至区域$b$中的概率$p\left( {f_a^b|f_a^f} \right) = \beta m/M$, 其中$m$是区域$b$中特征点的个数, $M$是整幅图像中特征点个数, $\beta $为弥补违反假设而设定的参数, 当$\beta = 1$时假设成立。

计算概率${p_t}$和${p_f}$

$ \begin{array}{l} {p_t} = p\left( {f_a^t} \right) + p\left( {f_a^t} \right)p\left( {f_a^b\left| {f_a^f} \right.} \right) = \\ \;\;\;\;\;\;\;t + \left( {1 - t} \right)\beta m/M \end{array} $

(14)

$ \begin{array}{l} {p_f} = p\left( {f_a^f} \right)p\left( {f_a^b\left| {f_a^f} \right.} \right) = \\ \;\;\;\;\;\;\;\;\;\beta \left( {1 - t} \right)m/M \end{array} $

(15)

为了增大特征匹配结果的差异, 构造如图 4所示的基本平滑运动核, 则每个网格中的匹配统计值${S_i}$服从二项分布

图 4 GMS基本运动平滑核

Fig. 4 GMS basic motion kernel

$ {S_i} \sim \left\{ {\begin{array}{*{20}{c}} \begin{array}{l} B\left( {Kn,{p_t}} \right)\\ B\left( {Kn,{p_f}} \right) \end{array}&\begin{array}{l} {x_i}\;为正确匹配点\\ {x_i}\;为错误匹配点 \end{array} \end{array}} \right. $

(16)

式中, $K=9$为网格个数。

此刻每个核的匹配统计值${S_{a, b}}$为

$ {S_{a,b}} = \sum\limits_{k = 1}^K {\left| {{X_{{a^k}{b^k}}}} \right|} $

(17)

式中, $\left| {{X_{{a^k}{b^k}}}} \right|$为区域$a$成功匹配区域$b$的点对数量。

根据经验每个网格大小为20×20像素, 判定阈值$\tau = {m_f} + \alpha {s_f} \approx \alpha {s_f} \approx \alpha \sqrt n \left( {\alpha = 6} \right)$时, 统计效果较好、特征匹配精度高, 其${m_f}$为均值, ${s_f}$为方差。每个核的匹配结果为

$ {R_{{\rm{cell}}}}\left\{ {a,b} \right\} \in \left\{ {\begin{array}{*{20}{c}} \begin{array}{l} T\\ F \end{array}&\begin{array}{l} {S_{a,b}} > {\tau _a} = \alpha \sqrt {{n_a}} \\ 其他 \end{array} \end{array}} \right. $

(18)

式中, $T$为正确匹配, $F$为错误匹配。

GMS检测器检测效果如图 5所示。

图 5 GMS检测器检测效果

Fig. 5 GMS detector test renderings

5 算法步骤

遮挡判别下的多尺度相关滤波跟踪算法步骤描述如下:

1) 建立样本模型。用矩形框选取首帧图像中的目标区域, 分别训练2维位置滤波器、1维尺度滤波器和GMS检测器。

2) 位置估计。以$t-1$的位置为中心, 2倍$t-1$帧矩形框大小采集候选样本${z_t}$, 经过FFT变换后代入式(5)(6), 计算响应值${r_t}$, 最大响应位置为目标的估计位置。

3) 尺度估计。以$t$时刻位置为中心, 提取不同尺度下的候选样本, 根据式(5)(6)计算尺度响应值, 最大响应尺度为当前尺度。

4) 模型更新。当最大响应值${r_{t\_\max }}$大于历史值, 且$\Delta P{V_t} \le \Delta P{V_{{\rm{mean}}}}$时, 利用式(3)(4)更新位置滤波器, 同时更新目标区域GMS检测器, 否则执行步骤5)。

5) 遮挡判别。当$\Delta {r_{t\_\max }} > \Delta {r_{{\rm{mean}}}}$且$\Delta P{V_t} > \Delta P{V_{{\rm{mean}}}}$时, 启动GMS检测器检测目标, 检测到目标后执行步骤2), 否则执行步骤6)。

6) 输出跟踪结果。输出跟踪窗口, 执行步骤2)。

6 实验与对比分析

本文遮挡判别下的多尺度相关滤波跟踪算法在Visual Studio 2013环境下完成实验, 实验平台为Inter酷睿i5 3317U处理器, 双核1.70 GHz, win7, 32位操作系统。为验证本文算法在尺度变化, 遮挡条件下具有长时间稳定的跟踪性能, 在目前较为流行的OTB-2013和OTB-2015上选取9个具有挑战的图像序列以及1个视频数据进行实验, 实验图像序列信息见表 1。

表 1 实验图像序列信息
Table 1 The information of the test image sequences

下载CSV

图像序列	序列信息	帧数
Box	遮挡, 尺度变化	1 161
Bird1	遮挡, 形变, 快速运动	408
Lemming	遮挡, 尺度变化, 旋转	1 336
Panda	遮挡, 尺度变化, 旋转	1 000
Basketball	遮挡, 背景干扰	725
DragonBaby	尺度变化, 快速运动	113
car_Xvid	遮挡, 尺度变化	1050
CarScale	遮挡, 尺度变化	252
Bird2	遮挡, 快速运功	99
Girl2	遮挡, 尺度变化	1 500

为验证遮挡判别下的多尺度相关滤波跟踪算法的有效性, 本文采用3种评估方法对跟踪结果进行评定, 分别为平均中心误差、跟踪准确率和跟踪速度。其中, 平均中心误差CLE为算法运行过程中观测中心($t{x_i}, t{y_i}$)与真实目标中心($r{x_i}, r{y_i}$)的距离, 描述算法跟踪的精确程度, 即

$ CLE = \frac{1}{n}\sum\limits_{i = 1}^n {\sqrt {{{\left( {t{x_i} - r{x_i}} \right)}^2} + {{\left( {t{y_i} - r{y_i}} \right)}^2}} } $

(19)

6.1 对比实验分析

选取当下较为流行的6种目标跟踪算法在同一个实验平台下对10组尺度变化、遮挡、快速运动等条件下的跟踪数据集进行对比实验, 6种算法分别为DSST^[19]、KCF^[18]、LCT^[21]、Staple^[20]、GOTUTN^[14]、FCNT^[15]。表 2和表 3分别给出了6种算法与本文算法的平均中心误差和跟踪准确率, 图 6为表 2和表 3数据的折线图, 通过对比可以看出, 本文遮挡判别下的多尺度相关滤波跟踪方法在测试图像序列中均取得了理想的跟踪效果。部分测试图像序列跟踪效果如图 7所示。

表 2 不同算法在实验图像序列上的平均中心误差
Table 2 Average center error of different algorithms in experimental image sequence

下载CSV

图像序列	DSST	KCF	LCT	Staple	GOTURN	FCNT	本文算法
Box	6.865	6.299	5.983	6.719	6.195	5.632	5.375
Bird1	9.845	4.958	6.924	4.598	8.497	6.029	4.374
Lemming	6.203	6.533	5.971	6.874	5.972	4.984	4.532
Panda	5.263	3.257	6.968	3.094	3.064	2.605	2.481
Basketball	13.039	10.201	9.764	7.385	7.351	7.268	7.197
DragonBaby	8.935	9.774	10.985	9.865	9.265	8.928	8.876
car_Xvid	4.047	4.735	4.032	4.92	4.355	4.016	3.948
CarScale	10.876	9.271	6.926	6.509	6.279	5.974	5.917
Bird2	7.233	6.796	5.947	5.982	5.892	5.865	5.815
Girl2	10.418	9.917	7.849	8.384	8.124	7.943	7.295
注:加粗字体表示每行最优结果。

表 3 不同算法在实验图像序列上的跟踪准确率
Table 3 Tracking accuracy of different algorithms on experimental image sequences

下载CSV

/%
图像序列	DSST	KCF	LCT	Staple	GOTURN	FCNT	本文算法
Box	56.761	65.375	86.123	39.589	65.817	67.083	94.746
Bird1	62.745	31.618	87.255	45.746	45.984	47.509	93.627
Lemming	76.722	85.521	88.174	27.769	26.047	92.737	97.156
Panda	61.84	57.86	69.21	50.92	59.14	62.84	88.74
Basketball	42.482	100.0	47.034	85.414	86.572	88.878	100.0
DragonBaby	57.522	63.717	61.062	80.947	82.615	84.105	86.726
car_Xvid	54.762	54.762	80.081	55.958	52.187	54.541	98.247
CarScale	61.508	63.095	89.286	68.968	91.243	92.760	94.841
Bird2	71.712	74.745	85.859	79.798	87.395	89.446	94.949
Girl2	73.467	77.133	88.133	82.867	83.598	84.161	93.2
注:加粗字体表示每行最优结果。

图 6 不同算法跟踪效果分析

Fig. 6 The analysis of tracking effects in different algorithms

图 7 不同算法跟踪效果图

Fig. 7 The tracking results of different algorithms

Box图像序列测试的是目标(盒子)发生小范围尺度变化、遮挡时的算法跟踪效果。第461帧目标发生大范围遮挡时, DSST、Staple、GOTURN和FCNT算法将背景特征学习到目标特征中, 不具有较好的跟踪稳定性, 逐渐跟踪错误产生跟踪漂移; KCF和Staple算法受与目标具有相似特征的障碍物遮挡的影响, 产生错误跟踪; LCT算法取得了较好的跟踪效果。本文算法在目标发生尺度变化时, 利用尺度相关滤波器计算目标尺度, 有效地解决该图像序列上的小尺度变化问题, 同时本文算法对跟踪结果进行遮挡判定, 当目标发生遮挡时, 启动检测器, 直到重新锁定目标, 对目标进行有效跟踪, 且跟踪平均中心误差较LCT算法低。

Bird1图像序列测试的是目标(鸟1)发生全局遮挡, 且遮挡时间较长的算法跟踪效果。KCF算法从第1帧跟踪至第67帧过程中, 受背景信息干扰, 逐渐产生漂移, 最后跟踪丢失; DSST当目标发生全局遮挡时, 没有停止目标模型的更新, 学习了大量的背景信息, 逐渐累积造成跟踪漂移; LCT遮挡后受相似目标干扰, 跟踪错误; Staple算法因为目标快速运动以及相似目标干扰, 导致跟踪错误; GOTURN和FCNT算法在目标丢失过程中逐渐产生漂移, 跟踪失败。本文算法在目标遮挡时禁止更新目标模型, 通过检测器重新定位目标, 继续跟踪, 具有较好的跟踪效果。

Lemming图像序列测试的是目标(旅鼠)发生小范围尺度变化, 局部遮挡和短时间全局遮挡时的算法跟踪效果。在第347帧图像中, 目标发生短时间的全局遮挡, DSST和KCF算法在遮挡时更新了少量背景信息, 但由于遮挡时间短暂, 当目标重新出现后仍然可以继续跟踪, 但跟踪中心误差较大, 而在第1 252帧图像中, DSST算法由于目标旋转, 目标模型更新错误, 导致跟踪漂移; 从图像的第1 175帧开始, 目标逐渐缩小, KCF方法由于目标尺度发生较大变化, 跟踪框发生漂移, 跟踪失败; Staple算法在目标发生遮挡时, 受背景信息干扰, 跟踪错误; GOTURN算法对遮挡问题较为敏感, 当目标发生遮挡时, 稳定性较差, 跟踪产生漂移; LCT和FCNT算法具有较好的跟踪效果。本文在目标发生旋转时通过对跟踪结果进行更新判断, 根据滤波器响应情况决策目标模型是否更新, 有效防止模型更新过程中产生的跟踪漂移。

Panda图像序列测试的是目标(熊猫)发生大范围尺度变化、旋转以及局部遮挡时的算法跟踪效果。KCF算法在目标发生旋转后只对目标原有特征进行跟踪, 没有对目标新产生的特征进行更新, 在目标不断缩减尺寸过程中, KCF算法跟踪窗口中的目标信息逐渐消失, 产生跟踪漂移; DSST算法在目标尺度缩小至尺度相关滤波器无法响应的状态时, 仍对目标模型进行更新, 最后导致跟踪错误; Staple算法在目标第1次旋转时, 跟踪逐渐漂移, 目标模型中只包含Panda头部信息, 在目标第2次发生旋转时, 跟踪失败; GOTURN和FCNT算法跟踪精度较高, 但因为尺度变化和背景杂波干扰导致目标丢失; LCT方法由于没有考虑目标跟踪过程的响应变化信息, 判定阈值没有较好的适应性, 跟踪丢失。本文算法通过对跟踪结果的变化信息进行判定, 有效地避免了非理想状态下的目标更新。

Basketball和DragonBaby两组图像序列测试的是目标在遮挡情况下目标快速运动时算法的跟踪效果。DSST算法由于目标快速运动, 跟踪器对错误的跟踪结果没有有效评定, 逐渐跟踪错误; KCF算法在Basketball图像序列中具有较好的跟踪准确率, 但跟踪平均中心误差较高, 在DragonBaby图像序列中由于目标视觉特征变化迅速, 跟踪效果较差; GOTURN和FCNT算法在Basketball图像序列中, 正确跟踪时, 跟踪精度较高, 但当目标受相似目标干扰时, 不具有较好的跟踪稳定性, 最后错误跟踪, 在DragonBaby图像序列中可以有效完成目标跟踪, 但跟踪误差较大; LCT算法受相似目标的干扰, 极易产生跟踪错误; 本文算法通过对目标跟踪结果与历史结果的变化情况进行判定, 当目标在跟踪窗口中丢失时, 启动检测器, 重新定位目标, 具有较好的跟踪稳定性。

car_Xvid视频序列测试的是目标(车)在复杂背景下长时间全局遮挡, 以及大范围尺度变化下的算法跟踪效果。当目标发生遮挡时, DSST、KCF、GOTURN和FCNT算法因复杂背景影响, 逐渐产生漂移, 当目标再次出现时无法锁定目标; Staple算法因相似背景信息干扰, 跟踪窗口的中心误差随着时间的增大而增大, 最后跟踪丢失; LCT算法由于目标消失视野后相似目标干扰的影响, 导致跟踪错误; 本文算法通过对跟踪结果进行判定, 利用检测器快速检测目标, 在目标发生遮挡以及背景干扰时, 有较好的跟踪性能。

CarScale、Bird2和Girl2 3组图像序列测试的是目标在遮挡、尺度变换和快速运动状态下算法的跟踪效果。DSST、KCF、GOTURN和FCNT算法在目标发生遮挡时, 跟踪窗口中的特征发生较大变化, 跟踪效果较差; Staple算法在目标发生快速运动时跟踪丢失; LCT算法取得了较好的跟踪效果。本文算法通过对跟踪结果的评估, 判断跟踪是否有效, 并在遮挡时重新检测目标, 在更理想的目标出现时及时更新目标模型, 具有较好的跟踪性能。

6.2 算法跟踪效率分析

为了验证本文算法的实时性, 通过不同的相关滤波跟踪算法对上述图像序列测试。不同算法的平均数据见表 4。

表 4 不同算法在实验图像序列上的平均跟踪速度
Table 4 Average tracking speed of different algorithms in experimental image sequences

下载CSV

/(帧/s)
图像序列	DSST	KCF	LCT	Staple	GOTURN	FCNT	本文算法
Box	25.308	26.047	20.625	17.187	2.628	2.017	29.098
Bird1	20.322	21.199	17.963	15.985	1.529	1.105	26.82
Lemming	24.969	25.016	19.826	16.332	2.617	1.957	28.51
Panda	22.501	23.973	19.71	15.948	1.982	1.129	26.792
Basketball	27.485	17.905	18.647	14.876	1.758	1.095	26.981
DragonBaby	23.632	24.246	17.306	13.847	1.367	0.981	25.094
car_Xvid	25.781	26.764	22.958	15.637	2.561	1.918	28.206
CarScale	26.648	27.716	23.648	18.937	2.594	1.987	28.361
Bird2	24.145	23.596	22.357	18.254	1.524	0.815	26.731
Girl2	26.597	24.973	23.847	19.568	2.047	1.754	28.411

本文算法通过跟踪结果判定目标模型是否更新, 避免了DSST算法中每帧图像更新时间, 同时基于GMS算法训练的检测器利用基本运动平滑核的网格运算优势, 将时间复杂度降至O(1), 保证了目标跟踪的实时性。在测试图像序列中, 平均中心误差较低, 跟踪准确率较高, 具有良好的跟踪性能。

7 结论

在DSST相关滤波跟踪的基础上, 提出了一种遮挡判别下的多尺度相关滤波方法。通过对跟踪结果进行评估和判别, 有效地解决了目标遮挡导致的目标丢失问题和持续更新策略中的错误累积问题, 实现了遮挡和多尺度变化下的稳定跟踪。

与目前较流行的跟踪方法相比, 本文算法具有以下优势:1)采用跟踪结果可靠性判定的方式, 对目标遮挡以及目标更新做出有效判定, 使本文方法在目标发生遮挡时, 具有较高的准确率和稳定性。2)在目标发生遮挡导致相关滤波响应不理想时, 采用检测器检测目标的方式, 对目标位置重新锁定, 达到长时间稳定跟踪的效果。3)通过对目标模型的更新判别, 缩短了目标逐帧更新的时间, 提高了跟踪算法的实时性。

实验结果表明, 本文算法具有较强的稳定性和较高的跟踪准确率, 且跟踪速度快, 平均可达27.5帧/s。本文今后将对遮挡, 尺度变化条件下的多目标跟踪方法做进一步探索和研究。

参考文献

[1] Zhang T Z, Xu C S, Yang M H. Multi-task correlation particle filter for robust object tracking[C]//Proceeding of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, Hawaii, USA: IEEE Computer Society, 2017: 4819-4827.[DOI: 10.1109/CVPR.2017.512]

[2] Tian P, Lü J H, Ma S L, et al. Robust object tracking based on local discriminative analysis[J]. Journal of Electronics & Information Technology, 2017, 39(11): 2635–2643. [田鹏, 吕江花, 马世龙, 等. 基于局部差别性分析的目标跟踪算法[J]. 电子与信息学报, 2017, 39(11): 2635–2643. ] [DOI:10.11999/JEIT170045]

[3] Xie Y, Zhang W S, Li C H, et al. Discriminative object tracking via sparse representation and online dictionary learning[J]. IEEE Transactions on Cybernetics, 2014, 44(4): 539–553. [DOI:10.1109/TCYB.2013.2259230]

[4] Liu Y T, Wang K F, Wang F Y. Tracklet association-based visual object tracking:the state of the art and beyond[J]. Acta Automatica Sinica, 2017, 43(11): 1869–1885. [刘雅婷, 王坤峰, 王飞跃. 基于踪片Tracklet关联的视觉目标跟踪:现状与展望[J]. 自动化学报, 2017, 43(11): 1869–1885. ]

[5] Danelljan M, Bhat G, Khan F S, et al. ECO: efficient convolution operators for tracking[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, Hawaii, USA: IEEE Computer Society, 2017: 6931-6939.[DOI: 10.1109/CVPR.2017.733]

[6] Jiang W T, Liu W J, Yuan H. Research of object tracking based on soft feature theory[J]. Chinese Journal of Computers, 2016, 39(7): 1334–1355. [姜文涛, 刘万军, 袁姮. 基于软特征理论的目标跟踪研究[J]. 计算机学报, 2016, 39(7): 1334–1355. ] [DOI:10.11897/SP.J.1016.2016.01334]

[7] Xu Y L, Wang J B, Li Y, et al. One-step backtracking for occlusion detection in real-time visual tracking[J]. Electronics Letters, 2017, 53(5): 318–320. [DOI:10.1049/el.2016.4183]

[8] Zhu S G, Du J P, Ren N. A novel simple visual tracking algorithm based on hashing and deep learning[J]. Chinese Journal of Electronics, 2017, 26(5): 1073–1078. [DOI:10.1049/cje.2016.06.026]

[9] Guo W, You S S, Gao J Y, et al. Deep relative metric learning for visual tracking[J]. Scientia Sinica (Informationis), 2018, 48(1): 60–78. [郭文, 游思思, 高君宇, 等. 深度相对度量学习的视觉跟踪[J]. 中国科学:信息科学, 2018, 48(1): 60–78. ] [DOI:10.1360/N112017-00124]

[10] Fan H, Ling H B. SANet: structure-aware network for visual tracking[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu, HI, USA: IEEE, 2017: 2217-2224.[DOI: 10.1109/CVPRW.2017.275]

[11] Danelljan M, Robinson A, Khan F S, et al. Beyond correlation filters: learning continuous convolution operators for visual tracking[C]//14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016: 472-488.

[12] Zhang W, Kang B S. Recent advances in correlation filter-based object tracking:a review[J]. Journal of Image and Graphics, 2017, 22(8): 1017–1033. [张微, 康宝生. 相关滤波目标跟踪进展综述[J]. 中国图象图形学报, 2017, 22(8): 1017–1033. ] [DOI:10.11834/jig.170092]

[13] Lukezic A, Vojir T, Zajc L C, et al. Discriminative correlation filter with channel and spatial reliability[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, Hawaii, USA: IEEE Computer Society, 2017: 4847-4856.[DOI: 10.1109/CVPR.2017.515]

[14] Held D, Thrun S, Savarese S, et al. Learning to track at 100 FPS with deep regression networks[C]//Proceedings of 14th European Conference on Computer Vision. Amsterdam, Netherlands: Springer, 2016: 749-765.[DOI: 10.1007/978-3-319-46448-0_45]

[15] Wang L J, Ouyang W L, Wang X G, et al. Visual tracking with fully convolutional networks[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 3119-3127.[DOI: 10.1109/ICCV.2015.357]

[16] Bolme D S, Beveridge J R, Draper B A, et al. Visual object tracking using adaptive correlation filters[C]//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, CA, USA: IEEE, 2010: 2544-2550.[DOI: 10.1109/CVPR.2010.5539960]

[17] Henriques J F, Caseiro R, Martins P, et al. Exploiting the circulant structure of tracking-by-detection with kernels[C]//Proceedings of the 12th European Conference on Computer Vision. Florence, Italy: Springer, 2012: 702-715.[DOI: 10.1007/978-3-642-33765-9_50]

[18] Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583–596. [DOI:10.1109/TPAMI.2014.2345390]

[19] Danelljan M, Häger G, Khan F S, et al. Discriminative Scale Space Tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(8): 1561–1575. [DOI:10.1109/TPAMI.2016.2609928]

[20] Bertinetto L, Valmadre J, Golodetz S, et al. Staple: complementary learners for real-time tracking[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 1401-1409.[DOI: 10.1109/CVPR.2016.156]

[21] Ma C, Yang X K, Zhang C Y, et al. Long-term correlation tracking[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 5388-5396.[DOI: 10.1109/CVPR.2015.7299177]

[22] Bian J W, Lin W Y, Matsushita Y, et al. GMS: grid-based motion statistics for fast, ultra-robust feature correspondence[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, Hawaii, USA: IEEE Computer Society, 2017: 2828-2837.[DOI: doi:10.1109/CVPR.2017.302]