发布时间: 2019-08-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180684
2019 | Volume 24 | Number 8

图像分析和识别

高置信度互补学习的实时目标跟踪

郭伟, 邢宇哲, 曲海成

辽宁工程技术大学软件学院, 葫芦岛 125105

收稿日期: 2018-12-21; 修回日期: 2019-02-22

基金项目: 国家自然科学基金项目(41701479);辽宁省自然科学基金项目(20180550529);第六批生产技术问题创新研究基金项目(20160092T)

第一作者简介: 郭伟, 1970年生, 女, 副教授, 主要研究方向为图像与视觉信息计算、智能数据处理。E-mail:guow9966@163.com;
曲海成, 男, 副教授, 主要研究方向为智能目标识别与跟踪、遥感高性能计算技术。E-mail:quhaicheng@lntu.edu.cn.

中图法分类号: TP301.6

文献标识码: A

文章编号: 1006-8961(2019)08-1315-12

摘要

目的判别式目标跟踪算法在解决模型漂移问题时通常都是在预测结果的基础上构建更可靠的样本或采用更健壮的分类器，从而忽略了高效简洁的置信度判别环节。为此，提出高置信度互补学习的实时目标跟踪算法（HCCL-Staple）。方法将置信度评估问题转化为子模型下独立进行的置信度计算与互补判别，对相关滤波模型计算输出的平均峰值相关能量（APCE），结合最大响应值进行可靠性判定，当二者均以一定比例大于历史均值时，判定为可靠并进行更新，将颜色概率模型的输出通过阈值处理转化为二值图像，并基于二值图像形态学提取像素级连通分量属性（PCCP），综合考虑连通分量数量、最大连通分量面积及矩形度进行可靠性判别，当置信度参数多数呈高置信度形态时，判定为可靠，进行更新；否则，判定为不可靠，降低该模型的融合权重并停止更新。结果在数据集OTB-2015上的实验结果表明，HCCL-Staple算法与原算法相比，距离精度提高了3.2%，成功率提高了2.7%，跟踪速度为32.849帧/s，在颜色特征适应性较弱的场景和目标被遮挡的复杂场景中均能有效防止模型漂移，与当前各类主流的跟踪算法相比具有较好的跟踪效果。结论两种子模型的置信度判别方法均能针对可能产生低置信度结果的敏感场景进行有效估计，且对输出形式相同的其他模型在置信度判别上具有一定的适用性。互补使用上述判别策略的HCCL-Staple算法能够有效防止模型漂移，保持高速的同时显著提升跟踪精度。

关键词

模型漂移; 置信度; 互补学习; 实时目标跟踪; 图像形态学

Real-time object tracking based on high-confidence complementary learning

Guo Wei, Xing Yuzhe, Qu Haicheng

College of Software, Liaoning Technical University, Huludao 125105, China

Supported by: National Natural Science Foundation of China (41701479)

Abstract

Objective Object tracking is an important research subject in the computer vision area. It has a wide range of applications in surveillance and human-computer interaction. Recently, trackers based on the correlation filter have shown excellent performance because of their great robustness and high efficiency. According to correlation filter theory, an increasing number of trackers improve performance through feature fusion, such as introducing color features to strengthen the trackers' recognition ability. However, color features in some scenes with the problems of similar color objects or background clutter existing are not robust, and they can be used to evaluate the confidence of color models. In addition, traditional methods based on the correlation filter usually update the model every frame without confidence evaluation, which can lead to model drift when the target is occluded or the trackers predict an incorrect position in the last frame. Many trackers solve the above problems by conducting more reliable samples or adopting stronger classifiers, which sacrifices tracking speed. Our work focuses on incorrect samples by applying confidence evaluation because we do not need to take note of their internal details and feature structures. However, defining a comprehensive and robust evaluation index that satisfies the requirement of high speed is difficult. Therefore, a real-time object tracking method based on high-confidence complementary learning strategy is proposed. Method Our method divides the confidence problem into computing confidence independently and complementary reliability judging in the scenes with specific attributes easily leading to unreliable learning and sensitive to confidence evaluation in the sub-model. First, the average peak-to-correlation energy (APCE) for the correlation filter model is computed in Staple, which constitutes the confidence evaluation criteria with the maximum of the model response map. The result is considered high confidence only if the two criteria of the current frame are greater than their historical average values with certain ratios. Then, the correlation filter model is updated, including the translation filter and the scale filter. Next, the output of the color probability model, called the pixel-wise color probability graph in Staple, is transformed into a binary image by using the classic threshold processing method Otus, and the connected components are extracted from the binary image open operation in advance. We regard the connected component that contains the most pixels as the main connected component of the binary image. With an overall consideration of the PCCP properties, including the area of the main connected component, the amount of all connected components, and the rectangularity about the main connected component, the result is considered high-confidence. The color probability model is then updated when most of the property values take on the forms that stand for high confidence. Otherwise, the result is considered low confidence. Thus, the fusion weight is reduced, and updates to the model are terminated. Result As shown in the experiment results for the dataset OTB-2015, the distance precision of the HCCL(High confidence complementary learning)-Staple adopted high-confidence complementary learning strategy increased by 3.2%, and the success rate increased by 2.7% in comparison with the primary algorithm Staple. These improvements were achieved at a high speed of 32.849 frames per second. In the particular scenes where color features are weak to some attributes such as poor illumination condition, similar objects, background clutter, and in complex scenes where occlusion or out-of-view occurs frequently, HCCL-Staple can avoid the problem of model drift efficiently. Moreover, HCCL-Staple outperforms sophisticated trackers according to the OTB benchmark. Conclusion HCCL-Staple, which adopts the high-confidence complementary learning strategy, is an efficient scheme for addressing the problem of model drift under the traditional learning strategy in challenging scenes with occlusion and interference of similar objects. The method is enhanced by translating the tracker's learning need for reliable samples to reduce or suppress correct samples. The experimental data show that confidence computing methods and the condition for high-confidence judging work well in the correlation filter model and the color probability model and have good applicability for confidence evaluations whose model outputs the same-form result. HCCL-Staple pays less attention to feature details of the target appearance under illumination change, scale change, or deformation and focuses on confidence evaluation. Thus, HCCL-Staple achieves the same tracking effect as tracking algorithms that use complex deep features or machine learning methods and outperforms some state-of-the-art tracking algorithms even without using any sophisticated formulas and optimistic models.

Key words

model drift; confidence; complementary learning; real-time object tracking; image morphology

0 引言

目标跟踪是计算机视觉中的重要研究课题，在视频监控、人机交互等领域有着广泛应用。近年来，该领域取得了显著的进展，其中相关滤波(CF)类方法因稳健高效的特性成为当前解决目标跟踪问题的研究热点^[1]。CF类方法是基于检测判别的跟踪方法，在训练阶段通过最优化方法构建对目标特征响应强烈的相关滤波器，在检测阶段用相关滤波器和待检测特征图像进行相关计算，将最大响应值处判断为目标中心，并更新相关滤波器。基于这一框架，主流的跟踪算法进行了梯度方向直方图(HOG)特征与颜色特征的融合改进，其中Staple^[2]算法融合HOG特征和颜色直方图(CH)^[3]特征，取得了不错的效果提升，但是对于存在目标遮挡和相似干扰的复杂场景仍然容易产生模型漂移。

目前多数跟踪算法仍然采用固定学习率的密集学习策略，在不确定每帧预测结果置信度的情况下进行学习，这意味着滤波器一旦长期学习低置信度的跟踪结果就会产生严重的模型漂移。为得到高置信度的学习样本，Babenko等人^[4]使用多示例学习代替传统的监督学习，减少了由跟踪误差引起的错误样本。Kalal等人^[5]提出了TLD (tracking learning detection)算法，加入检测器估计跟踪器的误差，在误差很大时改正结果，提高了样本的可靠性。这些算法都致力于构建更可靠的跟踪结果来更新模型，需要额外引入复杂的方法，提高跟踪精度的同时大幅牺牲了跟踪速度。

加入置信度判别环节能够简化上述问题，因为对于低置信度的跟踪结果，无需进行复杂计算，仅需将其判别出来并停止学习就能够让滤波器专注于学习高置信度的跟踪结果，从而有效防止模型漂移。然而在可能存在遮挡、形变、背景干扰、快速运动等多个随机问题的不同场景下，量化出某种指标来对算法的预测结果进行全面而鲁棒的评估是十分困难的。为解决上述问题，MOSSE(minimum output sum of squared error)^[6]算法采用峰值旁瓣比(PSR)反映跟踪结果的置信度，该指标通过相关滤波峰值与11×11峰值窗口以外旁瓣的均值与标准差计算得到，但该评价指标并不鲁棒，不能准确反映跟踪结果的可靠性。Ma等人^[7]提出LCT (long-term correlation tracking)算法，加入单独的相关滤波器检测目标的置信度，对遮挡和出视野的问题表现较好，但需要额外添加滤波器，影响跟踪速度，并且对多特征融合的跟踪器不适用。本文将算法整体的置信度评价拆分为子特征模型下的置信度计算与判别，并基于Staple算法中的相关滤波模型和颜色概率模型分别提出平均峰值相关能量^[8]和像素级连通分量属性两个简洁高效的置信度评价指标，针对各模型敏感的容易产生低置信度结果的场景进行互补判别，以高置信度形态而非某一阈值作为可靠性判定的标准，降低了构建置信度评价指标的复杂度，增强了判别的容错性和鲁棒性。基于上述置信度评价策略的HCCL-Staple算法与原算法在数据集OTB-2015^[9]上的实验结果相比，距离精度和成功率都有较大提升，不但能够抑制颜色特征极易引入干扰信息的缺陷，克服遮挡和相似干扰情况下的模型漂移问题，而且对形变、旋转、尺度变化、快速运动等问题仍然鲁棒，速度保持实时。

1 Staple算法原理

Staple算法在CF框架下引入CH特征，实质上是相关滤波模型和颜色概率模型的联合估计。

1.1 相关滤波模型

Staple算法下的相关滤波模型与DSST (discriminative scale space tracking)^[10]类似，由平移滤波器$\boldsymbol{h}_{\mathrm{t}}$和尺度滤波器$\boldsymbol{h}_{\mathrm{s}}$组成。在训练阶段，$\boldsymbol{h}_{\mathrm{t}}$学习目标的HOG特征，其优化求解可以转化为$d$通道特征图像$\boldsymbol{m}$下的岭回归问题，即

$ \boldsymbol{h}_{\mathrm{t}}=\arg \min\limits_{\boldsymbol{h}}\left\|\sum\limits_{l=1}^{d} \boldsymbol{h}_{\mathrm{t}}^{l} * \boldsymbol{m}^{l}-\boldsymbol{g}\right\|^{2}+\lambda \sum\limits_{l=1}^{d}\left\|\boldsymbol{h}_{\mathrm{t}}^{l}\right\|^{2} $

(1)

式中，“*”表示相关运算，$l∈\{0, 1, …, d\}$为特征通道索引值，$\boldsymbol{g}$是峰值在目标中心位置处的2维高斯理想输出，$λ≥0$是正则项参数。

由文献[11]可知，将式(1)转换到傅里叶域能够快速求得闭合解，即

$ \boldsymbol{H}^{l}=\frac{\overline{\boldsymbol{G}} \boldsymbol{M}^{l}}{\sum\limits_{l=1}^{d} \overline{\boldsymbol{M}}^{l} \boldsymbol{M}^{l}+\boldsymbol{\lambda}} $

(2)

式中，$\boldsymbol{H、G、M}$分别表示经过傅里叶变换的滤波器$\boldsymbol{h}$、理想输出$\boldsymbol{g}$和图像$\boldsymbol{m}$，“-”表示复共轭。

在检测阶段，用新一帧的待检测特征图像块$\boldsymbol{z}$和$\boldsymbol{h}_{\mathrm{t}}$进行相关运算，由式(2)(3)得到响应图$\boldsymbol{f}_{\mathrm{cf}}(\boldsymbol{z})$为$\boldsymbol{h}_{\mathrm{t}}$的输出，即

$ \boldsymbol{f}_{\mathrm{cf}}(\boldsymbol{z})=\boldsymbol{h}_{\mathrm{t}} * \boldsymbol{z} \Rightarrow \boldsymbol{f}_{\mathrm{cf}}(\boldsymbol{z})=\boldsymbol{F}^{-1}\{\overline{\boldsymbol{H}} \boldsymbol{Z}\} $

(3)

式中，$\boldsymbol{Z}$为经过傅里叶变换的待检测特征图像。$\boldsymbol{h}_{\mathrm{s}}$为1维相关尺度滤波器，大小为$S×1$。在训练阶段，$\boldsymbol{h}_{\mathrm{s}}$在目标初始中心位置周围提取不同尺度的图像块$\boldsymbol{J}_n$，尺度为$\left\{[p, r] | p=n^{k} M, r=n^{k} N\right\}$，$[M, N]$为目标的初始尺度，$k$为尺度因子，实验中取$k=1.02，n∈\{-(S-1)/2, …, (S-1)/2\}$。对$\boldsymbol{J}_n$提取$d$维HOG特征描述子作为训练样本，构造与$\boldsymbol{h}_{\mathrm{s}}$大小相同的高斯型期望输出，以式(2)的计算方法求解得到$\boldsymbol{h}_{\mathrm{s}}$。在检测阶段，采用与训练阶段同样的方法截取不同尺度的图像块组成待检测样本$\boldsymbol{z}$，与$\boldsymbol{h}_{\mathrm{s}}$做相关运算，由式(3)得到响应图，响应值最大处对应的尺度即为预测结果。最后以固定学习率$\boldsymbol{\eta}_{\mathrm{cf}}$更新相关滤波模型$\boldsymbol{F}$，即

$\boldsymbol{F}_{\mathrm{t}}=\left(1-\eta_{\mathrm{ef}}\right) \boldsymbol{F}_{t-1}+\boldsymbol{\eta}_{\mathrm{cf}} \boldsymbol{F}_{\mathrm{t}}$

(4)

式中，$\boldsymbol{F}=\left[\boldsymbol{h}_{{\rm t}}, \boldsymbol{h}_{\mathrm{s}}\right], \boldsymbol{F}_{t}$和$\boldsymbol{F}_{t-1}$分别表示第$t$帧和第$t-1$帧得到的相关滤波模型，$\boldsymbol{\eta}_{\mathrm{cf}}$=[$\eta_{\mathrm{t}}$, $\eta_{\mathrm{s}}$]，其中$\eta_{\mathrm{t}}$和$\eta_{\mathrm{s}}$分别表示平移滤波器和尺度滤波器的学习率，即平移滤波器$\boldsymbol{h}_{\mathrm{t}}$和尺度滤波器$\boldsymbol{h}_{\mathrm{s}}$同时更新。

1.2 颜色概率模型

在训练阶段，颜色概率模型统计前景目标和背景区域的颜色直方图并归一化。在检测阶段，颜色概率模型采用基于颜色直方图的贝叶斯分类器将属于目标区域$\boldsymbol{O}$的像素$x$从背景区域$\boldsymbol{S}$中判别出来，计算为

$ \begin{array}{c}{P\left(x \in \boldsymbol{O} | \boldsymbol{O}, \boldsymbol{S}, b_{x}\right)=} \\ {\frac{P\left(b_{x} | x \in \boldsymbol{O}\right) P(x \in \boldsymbol{O})}{\sum\limits_{\Omega \{ \boldsymbol{O}, \boldsymbol{S} \}} P\left(b_{x} | x \in \mathit{\boldsymbol{ \boldsymbol{\varOmega} }}\right) P(x \in \mathit{\boldsymbol{ \boldsymbol{\varOmega} }})}=} \\ {\frac{P\left(b_{x} | x \in \boldsymbol{O}\right) P(x \in \boldsymbol{O})}{P\left(b_{x} | x \in \boldsymbol{O}\right) P(x \in \boldsymbol{O})+P\left(b_{x} | x \in \boldsymbol{S}\right) P(x \in \boldsymbol{S})}}\end{array} $

(5)

式中，$b_{x}$表示像素点$x$在颜色直方图$\boldsymbol{H}$中所属颜色区间对应的直方条，$P\left(b_{x} | x \in \boldsymbol{O}\right) \approx$$H_{O}^{I}\left(b_{x}\right) /|\boldsymbol{O}|$和$P\left(b_{x} | x \in \boldsymbol{S}\right) \approx H_{S}^{I}\left(b_{x}\right) /|\boldsymbol{S}|$分别表示$x$属于前景目标和背景区域的先验概率，可以由$\boldsymbol{H}$直接估计得到, |·|表示基数。由上述估计，式(5)可进一步简化为

$ \begin{array}{c}{P\left(x \in \boldsymbol{O} | \boldsymbol{O}, \boldsymbol{S}, b_{x}\right)=} \\ {\left\{\begin{array}{ll}{\frac{H_{o}^{I}\left(b_{x}\right)}{H_{O}^{\prime}\left(b_{x}\right)+H_{S}^{\prime}\left(b_{x}\right)}} & {\boldsymbol{I}(x) \in \boldsymbol{I}(\boldsymbol{O} \cup \boldsymbol{S})} \\ {0.5}&{其他}\end{array}\right.}\end{array} $

(6)

式中，$\boldsymbol{I}$表示颜色概率模型的输入图像，即待检测样本图像。根据式(6)可以判断$\boldsymbol{I}$前景目标的概率，从而得到$\boldsymbol{I}$的像素级颜色概率图。然后采用积分图的方法快速计算像素级颜色概率图中所有大小等于预测尺度的矩形框内像素概率之和，并赋值给矩形框的中心位置，就能快速得到颜色概率模型的中心位置响应图$\boldsymbol{f}_{\mathrm{cp}}(x)$。最后，加权融合相关滤波模型和颜色概率模型输出的响应图，则

$\boldsymbol{f}(x)=\gamma \boldsymbol{f}_{\mathrm{cp}}(x)+(1-\gamma) \boldsymbol{f}_{\mathrm{cp}}(x)$

(7)

式中，$γ$为融合系数。取响应图最大值处及以该点为中心的最优尺度为当前帧的预测结果$\boldsymbol{r}$，即

$\boldsymbol{r}=(p, s)=\left(\max [\boldsymbol{f}(x)], \arg\limits_{n} \max\left[\boldsymbol{f}_{\mathrm{cfs}}(x)\right]\right)$

(8)

式中，$p$表示目标的中心位置，$s$表示目标的尺度，$f_{\mathrm{cfs}}(x)$为$\boldsymbol{h}_{s}$的响应值。最后以固定学习率$\eta_{\mathrm{cp}}$更新颜色概率模型$C$，可得

$C_{t}=\left(1-\eta_{\mathrm{cp}}\right) C_{t-1}+\eta_{\mathrm{cp}} C_{t}$

(9)

式中，$C_{t}$、$C_{t-1}$分别表示第$t$帧和第$t-1$帧的颜色概率模型。

2 HCCL-Staple算法

HCCL-Staple算法使用本文提出的置信度评价指标对相关滤波模型和颜色概率模型计算置信度并进行互补判别，仅对判定为高置信度的结果进行学习。当相关滤波模型置信度低时，响应图峰值减小，在线性加权的融合方式下，对整体结果的影响得到自然弱化。当颜色概率模型置信度低时，对颜色概率模型的融合参数加入惩罚因子，增强相关滤波模型对最终预测结果的影响。本文定义置信度为衡量跟踪结果可靠程度的一组评价参数；定义可靠性判别为置信度满足高置信度形态时则判定为可靠的标准, 置信度计算是可靠性判定的前提。

2.1 高置信度相关滤波模型学习策略

本文在经过大量实验的基础上发现相关滤波模型响应图的波动情况能够有效预测目标的遮挡。当跟踪正常时，响应图接近于理想的2维高斯分布，在目标中心位置处峰值明显，在周围区域分布平缓，如图 1(a)(b)所示。当发生遮挡时，响应图剧烈震荡，不再具有明显峰值，如图 1(c)(d)所示。响应图 1(b)(d)中的$z$轴表示响应值，$x、y$轴表示响应值对应像素点的坐标。

图 1 跟踪状态及其对应响应图

Fig. 1 Tracking states and corresponding response maps

((a)normal tracking; (b)response map under normal tracking; (c)occlusion happened; (d)response map under occlusion)

文献[10]在用支持向量机解决跟踪问题时提出一种平均峰值相关能量($APCE$)判据，能够较好地度量响应图的震荡程度，在正常跟踪状态(图 1(b))下，$APCE$=32.806 7，在遮挡状态(图 1(d))下，$APCE$=3.448 0，相对于$APCE$的历史峰值大幅减小。值得注意的是，目标的剧烈形变和旋转也会引起响应图的波动，因此综合考虑响应图的峰值和波动情况，定义置信度评价指标为

$c I=(A P C E, \max f(x))$

(10)

式中，$APCE$的计算为

$A P C E=\frac{f_{\max }-f_{\min }}{\operatorname{mean}\left(\left(\sum\limits_{u, v} f_{u, v}-f_{\min }\right)^{2}\right)}$

(11)

式中，$f_{\max }$、$f_{\min }$和$f_{u, v}$分别表示$\boldsymbol{f}_{\mathrm{cf}}(x)$的最大响应值、最小响应值和在$(u, v)$处的响应值。当$f_{\max }$和$APCE$同时满足可靠性判定条件式(12)时，更新相关滤波模型和颜色概率模型；否则，两模型均不进行更新。在实验中，$\beta_{1}$取值0.45，$\beta_{2}$取值0.7。

$\left\{\begin{array}{l}{A P C E_{t}>\beta_{1} \frac{1}{t-1} \sum\limits_{i=1}^{t-1} A P C E_{i}} \\ {\max \left(\boldsymbol{f}_{\mathrm{cf}}(x)\right)_{t}>\beta_{2} \frac{1}{t-1} \sum\limits_{i=1}^{t-1} \max \left(\boldsymbol{f}_{\mathrm{cf}}(x)_{i}\right)}\end{array}\right.$

(12)

式中，$A P C E_{t}$为第$t$帧的平均相关峰值能量，$A P C E_{i}$表示第$i$帧的平均峰值相关能量。

2.2 高置信度颜色概率模型学习策略

颜色概率模型判别为前景目标的像素点在颜色概率图中表现为高亮点，能够有效感知颜色特征适应性较弱的场景，显然这类场景颜色概率模型的预测结果置信度较低。图 2是不同状态下的跟踪图像、颜色概率图和二值图像。当跟踪正常(图 2(a))时，高亮区域呈密度大、区域数量少的特点。在受到相似颜色物体(图 2(b))或背景干扰(图 2(c))时，高亮区域呈数量多、密度小(无明显聚集高亮区域)、孔洞多或高亮区域面积过大的特点。在上述情况下，颜色概率模型均无法将目标从背景中判别出来，如果此时仍与相关滤波模型正常融合并进行模型更新，就会产生模型污染和模型漂移。

图 2 不同状态下的跟踪图像、像素级颜色概率图及对应的二值图像

Fig. 2 Tracking images, color probability images and binary images in different states ((a) images of normal tracking; (b) images with similiar objects interference; (c) images with background interference)

针对这一问题，本文在大量实验的基础上，对颜色概率模型提出基于二值图像形态学^[12]的置信度评价指标($PCCP$)，该指标定义为

$P C C P=(a, n, r)$

(13)

式中，$(a, n, r)$是一组参数值，$a$表示主域面积即最大连通分量包含的像素数量，$n$表示连通分量数量，$r$表示主域的矩形度

$r=\frac{a}{{rect}(a)}$

(14)

式中，$rect(a)$表示主域的正交外接矩形包含的像素数量。矩形度$r$在直观上体现了连通分量对邻接矩形的填充度和形状的相似度，这里更关注填充度大小反映的连通分量的聚集分散程度和孔洞数量。从图 2的第3行可以看出，目标在正常跟踪时，值为1的像素点分布聚集，孔洞数量少，对邻接矩形的填充度较高；当出现干扰时，值为1的像素点分布零散，孔洞数量增多。综合考虑$PCCP$的参数值，能够评估出当前场景对颜色特征的适用性和颜色概率模型输出结果的可靠性。对图像进行二值化是因为形态学的描述基于集合，而二值图像仅有像素值为1和像素值为0两个集合，更易得到完整的形态学描述，又因为像素级颜色概率图表示像素属于前景目标的概率，像素值均属于[0, 1]，这样的灰度图像能够通过阈值处理轻松地转换为二值图像，保证算法的实时性。本文采用最大类间方差法(Otus)^[12]计算阈值，计算过程如下：假设当前颜色概率图的直方图成分为$p_{q}=n_{q} / n, q=[0, L-1]$。式中，$n$是像素总数，$n_{q}$是具有灰度级$q$的像素数量，$L$是灰度级总数。选定一个阈值$k$将直方图成分划分为$\boldsymbol{C}_{1}=[0, 1, \cdots, k]$和$\boldsymbol{C}_{2}=[k+1, \cdots, L-1]$两个灰度集合，则集合间的方差计算为

$\sigma^{2}(k)=P_{1}(k)\left[m_{1}(k)-m_{G}\right]^{2}+\\~~~~ P_{2}(k)\left[m_{2}(k)-m_{G}\right]^{2}$

(15)

式中，$P_{1}(k)=\sum\limits_{i=0}^{k} p_{i}$是集合$\boldsymbol{C}_{1}$发生的概率，$P_{2}(k)=\sum\limits_{i=k+1}^{L-1} p_{i}=1-P_{1}(k)$是集合$\boldsymbol{C}_{2}$发生的概率，灰度级$l$的平均灰度为$m=\sum\limits_{i=0}^{l} i p_{i}, m_{G}=\sum\limits_{i=0}^{L-1} i p_{i}$为全局平均灰度，因此式(15)可以简化为

$\sigma^{2}(k)=\frac{\left[m_{G} P_{1}(k)-m(k)\right]^{2}}{P_{1}(k)\left(1-P_{1}(k)\right)}$

(16)

取$\max \left\{\sigma^{2}(k)\right\}$下的$k$为阈值划分集合$\boldsymbol{C}_{1}$、$\boldsymbol{C}_{2}$, 并分别为其中的像素赋值为0、1，转换为二值图像$\boldsymbol{B}$，对$\boldsymbol{B}$进行形态学开运算^[13]，即先腐蚀后膨胀，具体为

$\boldsymbol{B} \odot \boldsymbol{S}=\left\{(x, y) | \boldsymbol{S}_{x y} \subseteq \boldsymbol{B}\right\}$

(17)

$\boldsymbol{B} \oplus \boldsymbol{S}=\left\{(x, y) | \boldsymbol{B}_{x y} \cap \boldsymbol{S} \neq \varnothing\right\}$

(18)

式中，$\boldsymbol{S}$表示进行运算的基本结构元素，本文取像素数量为4的正方形，⊙表示腐蚀运算，⊕表示膨胀运算。这样做的好处是能够断开细小狭窄的连接，去掉毛刺，平滑轮廓而不明显改变图像的面积和轮廓，使得主域更易计算和对比。对处理好的图像$\boldsymbol{B}$采用Two-Pass连通区域标记法^[12]对集合$\boldsymbol{C}_{2}$中的所有前景像素点按照8连接规则进行标记。设与二值图像$\boldsymbol{B}$大小相等的标定矩阵$\boldsymbol{L}$，标记初始值$l_{1}=1$，标记步骤如下：

1) 第1次遍历。对矩阵$\boldsymbol{B}$按照从上到下、从左到右的顺序进行遍历，直至遇到像素点$p∈\boldsymbol{C}_{2}$，即在矩阵$\boldsymbol{L}$的对应位置$L(p)$处标记$l_{1}$，开始标记工作。判断当前像素$p$的邻域像素$p_{1} \sim p_{8}$中已遍历过的点在矩阵$\boldsymbol{L}$的对应位置是否有标记值，若仅有1个标记值$l_{i}$，则在矩阵$\boldsymbol{L}$的对应位置$L(p)$处标记$l_{i}$；若有2个及以上标记值，则在矩阵$\boldsymbol{L}$的对应位置$L(p)$处标记$\min \left(l_{i}\right)$；若无标记值，则在矩阵$\boldsymbol{L}$的对应位置$L(p)$处标记$l+1$。同时记录标记值之间的相等关系，即具有相等关系的集合$\boldsymbol{l}_{S}=\left\{l_{1}, l_{2}, \cdots, l_{n}\right\}$同属一个连通区域。

2) 第2次遍历。对标记矩阵$\boldsymbol{L}$按照从上到下、从左到右的顺序进行遍历，对于具有标记值的像素点$p$，在其相等关系集合$\boldsymbol{l}_{S}$中寻找最小值$\min \left(l_{n}\right)$，使得$L(p)=l_{\min }$。遍历完成后，具有相同标记值的元素就组成了连通分量。

通过对具有相同标记值的像素数量和标记值数量进行统计和筛选，得到主域面积$a$和连通分量数量$n$。根据主域中的像素点位置，求得$x、y$轴上的最大和最小值点，过点做平行于$x、y$轴的直线，得到主域的正交外接矩形，用四元数组表示为

${rect}(a)=[x, y, w, h]$

(19)

式中，$(x, y)$表示矩形左上角顶点位置坐标，$w, h$表示矩形的宽和长。再根据式(14)计算矩形度$r$就能得到$PCCP$的所有参数值。当$PCCP$中的任一参数满足下列参数项判定条件时，则认为预测结果在该项上置信度较高。具体为

$\left\{\begin{array}{l}{a \in\left(t s \pm \beta_{3} \mu\right)} \\ {n=1} \\ {r \geqslant\left(\beta_{4} /(t-1)\right) \sum\limits_{i=1}^{t-1} r_{i}}\end{array}\right.$

(20)

式中，第1项定义了相关滤波模型下尺度滤波器能检测到的最大近似尺度变化范围，用于判断主域$a$是否接近目标尺度，$ts$为上一帧的目标尺度大小，$\mu = (\left\lfloor {{{((S - 1)/2)}^k} - 1} \right\rfloor )ts$为松弛因子，大小由相关滤波模型下的尺度因子$k$决定，$\beta_{3}$为经验值，实验中取1.2；第2项表示连通分量数量为1，判断主域是否突出；第3项表示当前主域的矩形度以一定比例不小于历史均值，实验中，$\beta_{4}$取值为0.7。根据上述判定条件，$PCCP$的3个属性分别对颜色概率模型的置信度进行投票，$c$表示高置信度条件。满足高置信度条件时，$v(c)=1$；不满足高置信度条件时，$v(c)=0$。当$num~ (v=1)≥2$时，判定预测结果为可靠，予以学习，其中$num$表示满足高置信度条件的数量；否则判定为不可靠，对模型输出的融合权重加入惩罚因子$ξ$并停止学习，此时两模型的融合计算为

$f(x)=(\gamma-\xi) f_{\mathrm{cp}}(x)+\\~~~~~(1-\gamma+\xi) f_{\mathrm{cp}}(x)$

(21)

3 实验结果分析

实验采用文献[14]中的一次性评估方法，对文献[9]在公开数据集OTB-2015上构造的100个视频序列进行测试，对高置信度颜色概率模型学习策略与高置信度相关滤波模型学习策略进行验证分析，并与各类代表性的跟踪算法(如表 1所示)进行比较，包括KCF^[11]、DSST^[10]、SAMF^[13](特征融合的尺度自适应核相关滤波跟踪)、SRDCF^[15](空间正则化相关滤波视觉跟踪)、Staple^[2]、CF2^[16](分层卷积特征视觉跟踪)。

表 1 与本文对比的算法
Table 1 Algorithms that comparing with our mothod

下载CSV

算法	特征方法	多尺度
KCF^[11]	HOG	否
DSST^[10]	HOG	是
SAMF^[13]	HOG+CN+Raw pixel	是
SRDCF^[15]	HOG+CN+Raw pixel	是
Staple^[2]	HOG+CH	是
CF2^[16]	CNN features	是

3.1 实验环境及算法参数配置

实验的硬件环境为2.6 GHz Intel(R) Core(TM) i5-3230M CPU, 4 GB RAM；操作系统Windows 10，64位操作系统；软件环境为MATLAB R2016a。对比算法的参数与原文一致，HCCL-Staple算法的参数设置如表 2所示。

表 2 参数配置
Table 2 Parameters configuration

下载CSV

参数	参数值
相关滤波模型学习率	[0.015, 0.025]
颜色概率模型学习率	0.045
融合参数	0.3
惩罚因子	0.05

3.2 评价标准

本文从距离精度(DP)、成功率(SR)和速度3个方面衡量算法的性能。DP是目标中心位置误差小于给定阈值的帧数占总帧数的百分比，其中目标中心位置误差定义为算法估计值与标记真实值的欧氏距离，取$t_{d}=20$时DP的值为对比值，计算为

$f_{\mathrm{DP}}=\frac{m\left(\sqrt{\left(y-y_{\mathrm{gt}}\right)^{2}+\left(x-x_{\mathrm{gt}}\right)^{2}}\right)}{n}$

(22)

式中，$(x, y)$表示算法预测的目标中心位置，$(x_{\mathrm{gt}}, y_{\mathrm{gt}} )$表示目标中心位置的真实值，$m$表示中心位置误差小于等于阈值$t_{d}$的帧数，$n$表示视频序列的总帧数。SR是预测跟踪框与真实跟踪框的重叠率大于等于给定阈值$t_{o}\left(t_{o} \in[0, 1]\right)$的帧数占总帧数的百分比，即重叠率大于等于阈值的帧视为跟踪成功，取曲线下面积为对比值，计算为

$f_{\mathrm{SR}}=\frac{l\left(\left|\frac{r_{t} \cap r_{g}}{r_{t} \cup r_{g}}\right| \geqslant t_{o}\right)}{n}$

(23)

式中，$r_{t}$表示算法预测的跟踪框，$r_{g}$表示真实的跟踪框，|·|表示跟踪框内的像素数量，$l$表示跟踪成功的帧数。

3.3 高置信度模型学习策略的对比实验

为了验证本文提出的两种评价指标和高置信度互补学习策略的有效性，在数据集OTB-2015上对不采用任何学习策略的Staple算法、仅采用高置信度相关滤波模型学习策略的HCCF-Staple算法、仅采用高置信度颜色概率模型学习策略的HCCP-Staple算法和互补采用两种学习策略的HCCL-Staple算法进行对比实验，结果如表 3所示。HCCF和HCCP分别表示高置信度相关滤波模型学习策略和高置信度颜色概率模型学习策略。

表 3 高置信度学习策略的对比实验数据
Table 3 Comparative experiments data of different high-confidence learning strategies

下载CSV

算法	HCCF	HCCP	精度	成功率	速度/(帧/s)
Staple	否	否	0.784	0.578	45.356
HCCP-Staple	否	是	0.802	0.591	28.305
HCCF-Staple	是	否	0.796	0.596	36.988
HCCL-Staple	是	是	0.816	0.605	32.849
注：加粗字体为最优结果。

从表 3可以看出，HCCP-Staple算法的精度和成功率分别比Staple提升了1.8%和1.3%，平均速度下降了17帧/s左右。HCCF-Staple算法的精度和成功率分别提升了1.2%和1.8%，平均速度下降9帧/s左右。HCCL-Staple算法在精度和成功率上均表现最佳，比不采用高置信度互补学习策略的Staple算法距离精度提升了3.2%，成功率提升了2.7%，并且运行速度保持实时，甚至比仅采用单种策略的HCCP-Staple算法快了4.544帧/s，可见两种更新策略均有效且同时采用两种策略能够利用特征优势高效互补判别置信度，且速度更快。

4种算法在Basketball序列上的跟踪结果如图 3(a)所示。在第638帧，HCCF-Staple最先漂移到了干扰目标上，其余3种算法跟踪正常。因为HCCF策略检测到遮挡便停止学习预测结果中新的梯度特征，所以无法跟上目标的形状变化，同时非常相似的颜色特征使得颜色概率模型将干扰判别为目标，学习到了错误信息，旧的梯度特征模型融合学习到错误信息的新颜色特征模型，必然不能正确跟踪目标。在第640帧，Staple和HCCP-Staple都仅能跟踪到目标的部分，HCCL-Staple跟踪效果较好。在第645帧，目标被相似物体严重遮挡，Staple和HCCF-Staple已经完全漂移到了相似物体上，HCCP-Staple产生了轻微漂移。因为目标被遮挡时，相关滤波模型学习到了一部分干扰信息，只有HCCL-Staple能够准确跟踪目标。在第666帧，目标和干扰物体脱离遮挡干扰状态后，HCCP-Staple再次跟上目标，HCCL-Staple跟踪效果最佳。

图 3 采用不同学习策略的算法在视频序列上的跟踪结果

Fig. 3 Tracking results of algorithms adopting different learning strategies in sequences((a) Basketball; (b) Box)

4种算法在序列Box上的跟踪结果如图 3(b)所示。在第168帧，4种算法均能正常跟踪目标。从第453帧开始，目标被遮挡且遮挡状态持续了30帧左右，可以看到在第471帧即遮挡过程中，HCCP-Staple最先发生了漂移，直到跟踪结束再也没能跟上目标。因为遮挡过程中，颜色概率模型继续学习新的外观信息，已经不能正确识别跟踪目标，且仍然以固定权重融合到跟踪结果中，这种错误的学习和预测循环累积导致模型完全漂移到遮挡物体上。此时其余3种算法都能够正常跟踪，但HCCF-Staple和HCCL-Staple的尺度估计更准确。在第488帧，目标结束遮挡状态，由于HCCF-Staple和HCCL-Staple均通过置信度判别对遮挡时的跟踪结果停止学习，模型仍能识别遮挡前的目标特征，所以能够继续正确跟踪，而Staple由于每帧都对模型进行更新，已经完全漂移到了遮挡的物体上，直到跟踪结束都一直停在遮挡位置处，跟踪失败。由实验结果分析可见，HCCL-Staple算法能够有效防止相似干扰和遮挡情况下的模型漂移，跟踪效果最佳。

3.4 与其他算法的对比实验

表 4展示了HCCL-Staple算法及6个对比跟踪算法在数据集OTB-2015上的跟踪结果。

表 4 不同跟踪算法的性能比较
Table 4 Performance comparison of different tracking algorithms

下载CSV

算法	距离精度	成功率	速度/(帧/s)
HCCL-Staple	0.816	0.605	32.849
DSST^[10]	0.693	0.520	25.975
KCF^[11]	0.693	0.477	146.007
SAMF^[13]	0.743	0.535	11.149
Staple^[2]	0.784	0.578	45.356
SRDCF^[15]	0.789	0.598	3.607
CF2^[16]	0.837	0.562	0.492
注：加粗字体为最优结果。

从表 4可以看出，本文提出的HCCL-Staple算法在成功率上表现最佳，在距离精度上表现次佳，且速度保持实时，与Staple算法相比，距离精度提升了3.2%，成功率提升了2.7%。CF2算法采用更复杂的卷积特征，距离精度表现最佳，但成功率表现一般且速度很慢，比HCCL-Staple算法的速度慢了65倍以上，无法满足实时的要求。SRDCF算法主要从解决边界效应入手提升跟踪性能，距离精度和成功率均表现次佳，与HCCL-Staple算法表现相当，但是平均速度仅为3.607帧/s，也达不到实时的要求。

HCCL-Staple主要解决的问题是模型漂移，而算法在颜色特征适应性较差的存在光照变化和相似干扰的场景中以及应对形变、遮挡、出视野和出平面旋转等问题时容易发生漂移。图 4是所有对比算法在包含上述属性视频序列上的跟踪结果。

图 4 算法在不同属性序列上的性能对比

Fig. 4 Performance comparison of algorithms in different attribute sequences

((a) background clutter; (b) deformation; (c) illumination variation; (d) occlusion; (e) out-of-plane rotation; (f) out of view)

实验结果表明，HCCL-Staple在处理复杂场景时均有不同程度的效果提升，能够有效防止模型漂移。HCCL-Staple除了解决上述特定问题时表现出色外，对快速运动、运动模糊、尺度变化、目标旋转等常见问题也表现出了一定的鲁棒性。7种对比算法在视频序列Shaking、Soccer、Tiger2和Couple上的跟踪结果如图 5所示。

图 5 对比算法在OTB-50上的部分跟踪效果

Fig. 5 Partial tracking effects on OTB-50 ((a) Shaking; (b) Soccer; (c) Tiger2; (d) Couple)

从图 5可以看出，在光照条件较差的Shaking场景中，当目标低头、抬头和被帽子遮挡时，HCCL-Staple仍能准确地跟上目标的晃动，且尺度检测效果在7种算法里表现最佳。CF2和DSST虽然能够跟上目标的位置变化，但是尺度检测不够准确，而Staple、KCF、SRDCF和SAMF均发生了严重的漂移。

序列Soccer中存在严重的背景相似干扰和遮挡，且具有尺度变化、快速运动和运动模糊问题，在第78帧，当跟踪目标上下快速运动时，DSST和KCF无法跟上目标的运动；在第116帧，目标被短暂遮挡，且产生背景相似干扰，此时由于Staple中的颜色特征不能有效区分前景目标和背景，融合后的跟踪结果存在较大误差，这种误差的累积导致模型永久漂移，跟踪失败。其余算法除了KCF和SRDCF有轻微的短暂漂移外均能正常跟踪目标。在第218帧，除了已经漂移的Staple外，其余算法均能较好地处理运动模糊问题。在第326帧，目标发生了剧烈的尺度变化，KCF、CF2、DSST、SAMF和SRDCF虽然都能捕捉到目标，但跟踪效果不佳，而HCCL-Staple能够更好地适应目标的尺度变化。可见相关滤波模型采用的可靠性判定对平移滤波器和尺度滤波器均能有效作用，较好地处理跟踪过程中的尺度问题。

序列Tiger2中目标频繁发生旋转、遮挡和尺度变化。在第81帧，目标轻度旋转时，DSST和CF2的跟踪框有轻微漂移。在第256帧，目标大部分被遮挡，KCF算法表现较差，只能跟踪到目标的一小部分。在第275帧，目标发生剧烈的尺度变化，DSST和KCF均无法适应尺度变化，SAMF和CF2跟踪框轻微漂移。在第347帧，目标再次经历旋转且幅度较大时，KCF、DSST和CF2已经不能正常跟踪目标。整个跟踪过程中，SRDCF、Staple和HCCL-Staple表现稳定，能够适应目标的旋转、遮挡和尺度变化问题。

序列Couple中存在较多的相似特征干扰物体和相机抖动引起的快速运动和运动模糊问题，且跟踪目标频繁因不规则运动而变形变色。在第49帧，目标的颜色呈前白后黑分布，由于快速运动与运动模糊，DSST、KCF先后偏离目标并跟踪失败。随着目标的运动，其颜色分布变为大面积黑色，此时除了SRDCF外其余算法都漂移到了具有相似特征的物体上，其中Staple因为以固定权重相信颜色概率模型的预测结果累积了较多误差，跟踪框完全漂移。在117帧，HCCL-Staple和CF2再次跟上了目标。在第122帧，目标的颜色呈前黑后白分布，此时，SAMF由于采用模板类颜色特征CN^[17]，不能识别相对于模板信息变化剧烈的颜色分布特征，跟踪失败，而HCCL-Staple、CF2和SRDCF均能正常跟踪目标，其中HCCL-Staple因为采用统计类颜色特征，在一定程度上缓解了相关滤波类方法是模板类方法的固有缺陷，能够较好适应颜色分布的变化。在第140帧，跟踪结束，只有SRDCF、CF2和HCCL-Staple能够完成跟踪，HCCL-Staple跟踪框标定的目标大小更准确，效果最佳。

4 结论

本文在Staple算法的基础上提出了一种采用高置信度互补学习策略的实时目标跟踪算法HCCL-Staple，针对传统模型学习策略在遮挡、相似物体干扰等复杂场景下的模型漂移问题给出了一种简单高效的解决方案，加入置信度判别环节，将模型对可靠预测结果的学习需求转化为对不可靠预测结果的剔除和抑制，又将置信度判别环节拆分为子模型下置信度的独立计算和可靠性互补判别，使得跟踪器更加专注于学习高置信度的预测结果。实验数据表明，两种子模型的置信度评价指标均能有效反映预测结果的可靠程度，且对具有相同输出形式的其他模型具有一定的适用性。互补使用两种置信度评价指标的HCCL-Staple算法能够在保持速度实时的情况下，达到与采用复杂的深度特征或机器学习方法的跟踪算法相当的跟踪效果，性能甚至超过一些前沿的优秀跟踪算法。但是本文算法仍未解决相关滤波类方法对于目标超出搜索区域时跟踪不准确的问题，因此下一步的研究将重点放在目标重检测和运动状态估计上。

参考文献

[1] Zhang W, Kang B S. Recent advances in correlation filter-based object tracking:a review[J]. Journal of Image and Graphics, 2017, 22(8): 1017–1033. [张微, 康宝生. 相关滤波目标跟踪进展综述[J]. 中国图象图形学报, 2017, 22(8): 1017–1033. ] [DOI:10.11834/jig.170092]

[2] Bertinetto L, Valmadre J, Golodetz S, et al. Staple: complementary learners for real-time tracking[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 1401-1409.[DOI: 10.1109/CVPR.2016.156]

[3] Possegger H, Mauthner T, Bischof H. In defense of color-based model-free tracking[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 2113-2120.[DOI: 10.1109/CVPR.2015.7298823]

[4] Babenko B, Yang M H, Belongie S. Robust object tracking with online multiple instance learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1619–1632. [DOI:10.1109/TPAMI.2010.226]

[5] Kalal Z, Mikolajczyk K, Matas J. Tracking-learning-detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(7): 1409–1422. [DOI:10.1109/TPAMI.2011.239]

[6] Bolme D S, Beveridge J R, Draper B A, et al. Visual object tracking using adaptive correlation filters[C]//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE, 2010: 2544-2550.[DOI: 10.1109/CVPR.2010.5539960]

[7] Ma C, Yang X K, Zhang C Y, et al. Long-term correlation tracking[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 5388-5396.[DOI: 10.1109/CVPR.2015.7299177]

[8] Wang M M, Liu Y, Huang Z Y. Large margin object tracking with circulant feature maps[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 4800-4808.[DOI: 10.1109/CVPR.2017.510]

[9] Wu Y, Lim J, Yang M H. Object tracking benchmark[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1834–1848. [DOI:10.1109/TPAMI.2014.2388226]

[10] Danelljan M, Häger G, Khan F S, et al. Accurate scale estimation for robust visual tracking[C]//Proceedings of 2014 British Machine Vision Conference. Nottingham: BMVA Press, 2014: 65.1-65.11.[DOI: 10.5244/C.28.65]

[11] Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583–596. [DOI:10.1109/TPAMI.2014.2345390]

[12] Gonzalez R C, Woods R E. Digital Image Processing[M]. Ruan Q Q, Ruan Y Z, trans. Beijing: Publishing House of Electronics Industry, 2011: 407-416. [冈萨雷斯, 伍兹.数字图像处理[M].阮秋琦, 阮宇智, 译.北京: 电子工业出版社, 2011: 407-416.]

[13] Li Y, Zhu J K. A scale adaptive kernel correlation filter tracker with feature integration[C]//Proceedings of 2014 European Conference on Computer Vision. Zurich, Switzerland: Springer, 2015: 254-265.[DOI: 10.1007/978-3-319-16181-5_18]

[14] Wu Y, Lim J, Yang M H. Online object tracking: a benchmark[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE, 2013: 2411-2418.[DOI: 10.1109/CVPR.2013.312]

[15] Danelljan M, Häger G, Khan F S, et al. Learning spatially regularized correlation filters for visual tracking[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2016: 4310-4318.[DOI: 10.1109/ICCV.2015.490]

[16] Ma C, Huang J B, Yang X K, et al. Hierarchical convolutional features for visual tracking[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 3074-3082.[DOI: 10.1109/ICCV.2015.352]

[17] Danelljan M, Khan F S, Felsberg M, et al. Adaptive color attributes for real-time visual tracking[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE, 2014: 1090-1097.[DOI: 10.1109/CVPR.2014.143]