发布时间: 2017-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.20170303
2017 | Volume 22 | Number 3

图像分析和识别

结合相位一致性的度量学习跟踪

霍其润^1,2, 陆耀¹, 刘羽², 巢进波¹

1. 北京理工大学计算机学院, 北京 100081;

2. 首都师范大学信息工程学院, 北京 100048

收稿日期: 2016-07-04; 修回日期: 2016-10-26

基金项目: 国家自然科学基金项目（61273273）；教育部博士点专项基金项目（20121101110043）

第一作者简介: 霍其润(1976-), 女, 讲师, 现为北京理工大学计算机专业博士研究生, 主要研究方向为计算机视觉、图像处理。E-mail:huoqirun@ie.cnu.edu.cn

中图法分类号: TP391.4

文献标识码: A

文章编号: 1006-8961(2017)03-0297-08

摘要

目的目标跟踪在实际应用中通常会遇到一些复杂的情况，如光照变化、目标变形等问题，为提高跟踪的准确性和稳定性，提出了一种基于相位一致性特征的度量学习跟踪方法。方法首先对目标区域提取相位一致性特征，其次结合集成学习和支持向量机的优点，利用度量学习的思想进行区域的相似性判别，以此来确定目标所在位置。跟踪的同时在线更新目标模型和度量矩阵从而实现自适应性。结果算法的有效性在有外观、光照变化及遮挡等具有挑战性的视频序列上得到了验证，并与当前几种主流方法进行了跟踪成功率和跟踪误差的定量比较，实验结果显示本文算法在4组视频上的跟踪误差平均为15个像素，跟踪成功率最低的也达到了80%，优于其他算法，具有更好的跟踪准确性和稳定性。结论本文设计并实现了一种基于度量学习的跟踪新方法，利用较少的训练样本即可学习到有判别力的度量矩阵。该跟踪方法对目标特征的维数没有限制，在高维特征空间的判别中更有优势，具有较好的通用性，在有外观、光照变化及遮挡等复杂情况下，均能获取较为准确和稳定的跟踪效果。

关键词

视觉跟踪; 相位一致性; 度量学习; 外观变化; 自适应

Metric learning for tracking utilizing phase congruency

Huo Qirun^1,2, Lu Yao¹, Liu Yu², Chao Jinbo¹

1. School of Computer Science, Beijing Institute of Technology, Beijing 100081, China;

2. college of Information Engineering, Capital Normal University, Beijing 100048, China

Supported by: National Natural Science Foundation of China (61273273)

Abstract

Objective Object tracking is an important research area in computer vision and has been widely adopted both in military and civilian applications. Improving tracking accuracy and stability in realistic scenarios that involve appearance change, occlusion, and illumination change is still difficult for practical application. A tracking method based on the phase congruency transformation and metric learning was presented to solve the aforementioned problem. Methods This study formulates object tracking as a matching task to find a candidate, which is most similar to the target model, over the subsequent image frames. This process is largely controlled by two factors:the selected features that characterize objects and the distance metric used to determine the closest match in the selected feature space. First, the features were extracted by phase congruency transformation. Combining the advantages of ensemble learning and support vector machine (SVM), we then introduce a type of ensemble metric learning to obtain a distance metric matrix utilizing a small number of training data extracted from the fore sequence of images. Most approaches directly solve the optimal metric matrix and induce a large increase in the calculation as the feature dimension increases. In contrast, our method indirectly obtains the projection matrix by learning multiple projection vectors; thus, it is simple and efficient even with high-dimension features. Candidates are obtained by Markov chain Monte Carlo sampling and calculate the distance from the target model utilizing the learned metric matrix in the tracking process. The candidate with the smallest distance value is regarded as the target. Moreover, the object model and metric matrix are constantly updated with new training data extracted during tracking for adaptability. Results The effectiveness of the algorithm has been verified on several challenging video sequences that contain a dynamic background, appearance changes, and occlusions. The AEMTrack algorithm proposed in this study is clearly smaller on both the mean and standard deviation of the location error than those from three mainstream methods. Together with the quantitative assessment of tracking a successful rate, experimental results show that the accuracy of our proposed method even exceeds several mainstream methods in existing tracking studies and has appropriate stability. Conclusion This study designs and realizes a new tracking method based on metric learning. A metric matrix is learned and tends to maximize the distance between samples of different classes using a small amount of training data sampled from an image sequence during tracking. The metric learning process is decomposed into multiple independent linear SVM, which can be executed in parallel implementation. This method can also result in dimension reduction; thus, it is efficient even in high-dimensional space. New targets and background samples are also applied to update the model in the tracking process; hence, the algorithm is adaptive. This tracking method has suitable generality because no limitation on the feature dimension of the target exists. Experimental results show that the proposed method can obtain an accurate and stable tracking effect in the complex scene, including appearance and illumination changes.

Key words

visual tracking; phase congruency; metric learning; appearance change; adaptive

0 引言

目标跟踪是计算机视觉领域中一个重要的研究方向，无论在军事方面还是民用方面都有着广泛的应用。近年来，针对跟踪目标出现运动不确定、光照变化、背景噪声、目标干扰、被遮挡或目标发生变形等复杂情况，学术界开展了大量的研究工作。Adam等人^[1]利用分块目标表示的外观模型来解决跟踪中的局部遮挡问题，Collins等人^[2]提出一种基于在线特征选择的自适应跟踪方法，Grabner等人^[3]将半监督学习引入到视觉跟踪问题，基于SemiBoost算法^[4]提出了一个基于半监督学习的在线分类器实现鲁棒的目标跟踪，Barbenko等人^[5]提出了基于多示例学习(MIL) 的外观模型更新算法实现对目标的稳健跟踪。但跟踪结果的准确性和可靠性方面均还有待进一步提高，复杂目标跟踪仍是跟踪领域的难点。

跟踪目标就是在后续图像帧中找到与目标模型最匹配的区域，这个过程很大程度上受两个因素制约：目标表示的特征空间选取和用来确定在该特征空间是否匹配的距离度量。Wang等人^[6]指出特征提取在跟踪中起到了最为重要的作用，故如何提取更加稳定和精确的特征是跟踪主要的研究方向之一。目前，很多研究人员直接将灰度值特征作为目标区域的特征向量，忽略了图像的边缘和纹理信息，从而影响了跟踪的效果。为了保留边缘信息同时抵抗光照变化的影响，本文将相位一致性引入到跟踪的目标表示中。

此外由于多数视频很难事先确定理想的特征空间，故优化距离度量对目标跟踪结果的改善也是至关重要的。受文献[7]的启发，本文将目标跟踪看作一个度量学习问题，引入一种自适应的集成度量学习方法来实现复杂情况下的目标跟踪，基本跟踪流程如图 1所示，首先，在初始帧中手动获得初始目标，采集训练样本集进行度量学习得到一个距离度量矩阵，下一帧中，通过马氏链蒙特卡罗(MCMC) 采样得到若干候选目标，使用度量矩阵计算候选目标与正样本集合的距离，把距离最小的候选目标作为当前的跟踪结果，随后更新训练样本集，重新学习度量矩阵继续跟踪直至结束。

图 1 基于度量学习的跟踪流程

Fig. 1 Tracking process based on metric learning

1 相位一致性特征提取

相位一致性的提出是基于科学家发现人感知图像信息时主要是靠图像信号的相位而非幅度，与基于灰度级的边缘特征提取方法不同，它是通过计算图像的相位一致性来检测图像中的边缘，不受图像局部光线明暗变化的影响，能包含图像中的角、线、纹理等信息。因此，在图像边缘对比度低的情形下更有利于保留边缘信息。相位一致性在图像特征提取中的这些优势使得近年来在图像分析中有了一定的应用^[8-9]。因此，本文引入相位一致性来进行目标跟踪的特征提取。

Kovesi^[10]提出的2维信号的相位一致性计算公式为

$ \mathit{\boldsymbol{P}}{\mathit{\boldsymbol{C}}_2}\left( x \right) = \frac{{\sum\limits_n {W\left( x \right)\left[ {{\mathit{\boldsymbol{A}}_n}\left( x \right)\Delta {\mathit{\boldsymbol{\varphi }}_n}\left( x \right) - T} \right]} }}{{\sum\limits_n {{\mathit{\boldsymbol{A}}_n}\left( x \right) + \varepsilon } }} $

(1)

式中，$ \Delta \mathit{\boldsymbol{\varphi }}\left( x \right) = (cos({\mathit{\boldsymbol{\varphi }}_n}\left( x \right)-\mathit{\boldsymbol{\bar \varphi }}\left( x \right))-|sin({\mathit{\boldsymbol{\varphi }}_n}\left( x \right)-{\rm{ }}\mathit{\boldsymbol{\varphi }}\left( x \right))|) $，$ {\mathit{\boldsymbol{A}}_n}\left( x \right) $和$ {\mathit{\boldsymbol{\varphi }}_n}\left( x \right) $分别为第$ n $个傅里叶分量在$x $处的幅值和相位值；$ \mathit{\boldsymbol{W}}(x) $表示频率展开的权重因子，ε是一个小常数来避免分母为零，T表示噪声。将一幅大小为$ m \times n $的图像进行相位一致计算，得到相位一致性PC图像，PC的取值范围为[0,1]，表示从无特征到显著特征，颜色从黑色过度为白色, 所以变换后的值可以生成新的灰度图，保留并更加突出了原图的特征，特征点得到增强、噪声得到抑制。图 2分别给出了原图和相位一致性变换图像的效果，可见变换后的图像即使在光线较暗时纹理信息也十分明显，故本文将相位一致性变换后的图像直接用于后续跟踪中进行基于区域的匹配。

图 2 原图像与相位一致性图像

Fig. 2 Original image and phase congruency image ((a) original image; (b) phase congruency image)

2 度量学习

距离度量学习的目标是使同类样本之间的距离尽量缩小，不同类样本之间的距离尽量扩大。二次形式的距离度量公式为

$ {d_\mathit{\boldsymbol{M}}}\left( {{\mathit{\boldsymbol{x}}_i},{\mathit{\boldsymbol{x}}_j}} \right) = {\left( {{\mathit{\boldsymbol{x}}_i} - {\mathit{\boldsymbol{x}}_j}} \right)^{\rm{T}}}\mathit{\boldsymbol{M}}\left( {{\mathit{\boldsymbol{x}}_i} - {\mathit{\boldsymbol{x}}_j}} \right) $

(2)

式中，$ {d_\mathit{\boldsymbol{M}}}({\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j}) $为$ {\mathit{\boldsymbol{x}}_i} $和${\mathit{\boldsymbol{x}}_j} $间的距离，M为度量矩阵。

不同于离线学习，在跟踪过程中不断地进行度量矩阵的学习。在跟踪过程中，通常在线收集的训练样本数较少，考虑到支持向量机(SVM)^[11]在高维特征空间也具有较好的性能，在分类时能找到最大分类间隔的超平面，即使利用较少的训练数据也很少会出现过拟合，故在此选用SVM来进行学习。

目前也有很多与度量相关的学习方法，如linear discriminant analysis (LDA) ^[12]、large margin nearest neighbor (LMNN) ^[13]、information theoretic metric learning (ITML)^[14]以及logistic discriminant metric learning (LDML) ^[15]，但这些方法大多随着样本特征维数的增加，其优化会趋向过拟合。为避免过拟合需要先引入降维技术来提取有效的低维特征，可是传统的降维方法如主成分分析(PCA) 和随机映射(random projection)^[16]等不能保证提取出有判别力的低维特征。为了确保判别更加准确，受ensemble tracking ^[17], bootstrap aggregating (bagging) ^[18]等启发，在度量学习过程中引入了集成学习的思想。Ensemble tracking是将若干个弱分类器组合起来可以得到一个强分类器获得更好的判别性，bagging通过随机抽取样本构造一个预测函数系列，然后以一定的方式将它们组合成一个预测函数，从而提高学习算法的精度和鲁棒性。借鉴这两种方法，本文不是一次性地在整个训练数据中训练全局最优矩阵，而是每次从整个训练集合中下采样生成部分正负样本作为训练数据，通过SVM学习生成相应的投影向量，反复该过程多次便得到多个投影向量，将这多个投影向量组合起来作为度量矩阵用以判别样本间的相似性。

假设训练集L中包含N个样本$ \{ \left( {{\mathit{\boldsymbol{X}}_i}, {y_i}} \right), i = 1, \cdots, N\} $，其中$ {{\mathit{\boldsymbol{X}}_i}} $是D维的特征向量，$ {{y_i}} $∈{0, 1}代表类别指示其为正样本还是负样本。首先，从训练集中下采样出部分正负样本生成一个训练子集，然后利用SVM学习生成一个投影向量$ \mathit{\boldsymbol{v}} = {(\mathit{\boldsymbol{w}}, -\mathit{\boldsymbol{b}})^{\rm{T}}} $，根据SVM的特性可知该训练子集中的样本在利用投影向量v进行转换后的特征空间中可达到类间距最大化，其中$ \mathit{\boldsymbol{w}} $和$ \mathit{\boldsymbol{b}} $都是标准向量。

重复以上过程T次，就可以得到多个投影向量$({\mathit{\boldsymbol{v}}_1}, {\mathit{\boldsymbol{v}}_2}, \cdots, {\mathit{\boldsymbol{v}}_T}) $，组合起来即形成了一个投影矩阵$ \mathit{\boldsymbol{V}} = ({\mathit{\boldsymbol{v}}_1}, {\mathit{\boldsymbol{v}}_2}, \cdots, {\mathit{\boldsymbol{v}}_T}) $。显然，该投影矩阵可使整个样本集达到类间距最大化。

这样，对于每一个输入样本$\mathit{\boldsymbol{x}} $，可以对它利用投影矩阵V进行特征转换，即

$ \begin{array}{l} g\left( \mathit{\boldsymbol{x}} \right) = {V^{\rm{T}}}\mathit{\boldsymbol{\tilde x}}\\ \mathit{\boldsymbol{\tilde x}} = \left( {\mathit{\boldsymbol{x}},1} \right) \end{array} $

(3)

在转换后的特征空间中计算两个样本$ {\mathit{\boldsymbol{x}}_i} $和$ {\mathit{\boldsymbol{x}}_j} $间的距离

$ \begin{array}{*{20}{c}} {d_g^2\left( {{\mathit{\boldsymbol{x}}_i},{\mathit{\boldsymbol{x}}_j}} \right) = {{\left\| {g\left( {{\mathit{\boldsymbol{x}}_i}} \right) - g\left( {{\mathit{\boldsymbol{x}}_j}} \right)} \right\|}^2} = }\\ {{{\left( {{{\mathit{\boldsymbol{\tilde x}}}_i} - {{\mathit{\boldsymbol{\tilde x}}}_j}} \right)}^{\rm{T}}}\mathit{\boldsymbol{V}}{\mathit{\boldsymbol{V}}^{\rm{T}}}\left( {{{\mathit{\boldsymbol{\tilde x}}}_i} - {{\mathit{\boldsymbol{\tilde x}}}_j}} \right)} \end{array} $

(4)

由于该距离可使属于不同类的样本间距最大，因此就得到了所需要的度量矩阵

$ \mathit{\boldsymbol{M}} = \mathit{\boldsymbol{V}}{\mathit{\boldsymbol{V}}^{\rm{T}}} $

(5)

显然，矩阵V的大小取决于学习的投影向量个数T，如果学习了足够多的向量，即T≥D，则V为D×T的矩阵，M则为D×D的矩阵，样本间的距离度量定义为式(2) 的形式。但通常学习得到的向量比较少，即T < D，故可以把矩阵V当作可投影到T维空间的投影矩阵，相似性度量可利用V转换特征向量后再计算距离，即

$ d_g^2\left( {{\mathit{\boldsymbol{x}}_i},{\mathit{\boldsymbol{x}}_j}} \right) = {\left\| {{\mathit{\boldsymbol{V}}^{\rm{T}}}{{\mathit{\boldsymbol{\tilde x}}}_i} - {\mathit{\boldsymbol{V}}^{\rm{T}}}{{\mathit{\boldsymbol{\tilde x}}}_j}} \right\|^2} $

(6)

显然，该方法可以通过控制矩阵向量的数目来达到任意低维的投影特征空间，即在度量学习的同时还可实现降维的效果，因此在相对较少训练数据的情况下可以生成合适的投影矩阵而不用去考虑降维的问题。

3 实现跟踪

基于贝叶斯滤波跟踪框架实现目标跟踪，设目标在$ k $时刻的状态为$ {\mathit{\boldsymbol{x}}_k} = ({u_k}, {v_k}) $，其中$ ({u_k}, {v_k}) $表示目标的位置，图像观测表示为$ {z_k} $，在贝叶斯框架下，目标跟踪问题就是从初始到当前时刻$ k $的所有观测信息$ {z_{1:k}} $中推理出$ k $时刻状态变量${\mathit{\boldsymbol{x}}_k} $的后验概率分布，即

$ \begin{array}{*{20}{c}} {p\left( {{\mathit{\boldsymbol{x}}_k}\left| {{\mathit{\boldsymbol{z}}_{1:\mathit{k}}}} \right.} \right) \propto p\left( {{\mathit{\boldsymbol{z}}_\mathit{k}}\left| {{\mathit{\boldsymbol{x}}_k}} \right.} \right) \times }\\ {\int {p\left( {{\mathit{\boldsymbol{x}}_k}\left| {{\mathit{\boldsymbol{x}}_{k - 1}}} \right.} \right)p\left( {{\mathit{\boldsymbol{x}}_{k - 1}}\left| {{\mathit{\boldsymbol{z}}_{1:\mathit{k} - 1}}} \right.} \right){\rm{d}}{\mathit{\boldsymbol{x}}_{k - 1}}} } \end{array} $

(7)

式中，$ p({\mathit{\boldsymbol{z}}_k}|{\mathit{\boldsymbol{x}}_k}) $为系统的观测模型，表示的是由${\mathit{\boldsymbol{x}}_{k-1}} $转移到$ \mathit{\boldsymbol{x_k}} $后，系统状态的预测值和量测值之间的似然程度；$ p({\mathit{\boldsymbol{x}}_k}|{\mathit{\boldsymbol{x}}_{k-1}}) $为系统的运动模型，显示了状态随着时间的变化呈现的演变规律。通过采样，利用最大似然估计求出$ k $时刻的目标状态值。

3.1 目标模型的建立

度量学习是基于监督的，需要包含正负标记的训练数据。当一帧图像中定位好了目标位置，就可以选取目标所在区域，提取相位一致性特征向量，标记为正的训练样本，相差一两个像素的位置区域也可选取作为正样本加入训练集中，在偏离目标一定距离的周围区域选取一些样本作为负的训练数据。同样方法用于序列中的各帧图像，这样选取的训练数据非常有助于判别学习，训练数据分布于真正的分类面周围，如图 3所示，故能够学习得到更为准确的度量矩阵。在此训练集中的所有正样本构成了目标模型。

图 3 特征空间中的样本选取示例

Fig. 3 Illustration of selection sample in feature space

3.2 MCMC采样

为了使用较少的粒子来近似目标分布，实现对目标的状态估计，采用了基于MCMC采样的Metropolis-Hastings算法^[19]。设在第$ k $帧中初始样本点$ x_{_k}^{^{(0)}} = {\mathit{\boldsymbol{\hat x}}_{k-1}} $，迭代地从提议分布抽取一系列样本点，构成一条马氏链，具体算法描述如下：

假设提议分布为q，在第$ i $次迭代链的状态$ {\mathit{\boldsymbol{x}}^{(i)}} $，Metropolis-Hastings算法经过一次迭代产生一个新样本$\mathit{\boldsymbol{x}}\prime $，在此提议分布q采用最常用的高斯函数转换模型

$ q\left( {\mathit{\boldsymbol{x'}};{\mathit{\boldsymbol{x}}^{\left( i \right)}}} \right) = G\left( {{\mathit{\boldsymbol{x}}^{\left( i \right)}},{\sigma ^2}} \right) $

(8)

然后按照一定的概率

$ \alpha \left( {\mathit{\boldsymbol{x'}};{\mathit{\boldsymbol{x}}^{\left( i \right)}}} \right) = \min \left\{ {1,\frac{{f\left( {\mathit{\boldsymbol{x'}}} \right)q\left( {{\mathit{\boldsymbol{x}}^{\left( i \right)}};\mathit{\boldsymbol{x'}}} \right)}}{{f\left( {{\mathit{\boldsymbol{x}}^{\left( i \right)}}} \right)q}}} \right\} $

(9)

接收新样本作为$ {\mathit{\boldsymbol{x}}^{(i + 1)}} $，或是拒绝新样本，即$ {\mathit{\boldsymbol{x}}^{(i + 1)}} = {\mathit{\boldsymbol{x}}^{(i)}} $。

为了实现更为准确的跟踪，将距离作为判断采样点接收与否的一个参数，令

$ f\left( \mathit{\boldsymbol{x}} \right) = 1/\mathop {\min }\limits_{{\mathit{\boldsymbol{x}}^ + }} d\left( {\mathit{\boldsymbol{x}},{\mathit{\boldsymbol{x}}^ + }} \right) $

(10)

式中，$ {\mathit{\boldsymbol{x}}^ + } $表示正样本集合，$ d({\boldsymbol{x}_1}, {\boldsymbol{x}_2}) $代表两个采样点之间的距离，这里使用的是如前所述学习得到的距离度量。

3.3 状态估计

在采集到N个采样点后，通过最大似然估计准则对马氏链上的样本点进行状态变量的估计为

$ \begin{array}{l} {{\mathit{\boldsymbol{\hat x}}}_k} = \arg \;\mathop {\max }\limits_{{\mathit{\boldsymbol{x}}_k}} p\left( {{\mathit{\boldsymbol{x}}_k}\left| {{\mathit{\boldsymbol{z}}_{1:\mathit{k}}}} \right.} \right)\\ {\mathit{\boldsymbol{x}}_k} \in \left\{ {\mathit{\boldsymbol{x}}_k^{\left( i \right)}} \right\}_{i = 1}^N \end{array} $

(11)

式中，$ \{ \mathit{\boldsymbol{x}}_k^{(i)}\} _{i = 1}^N $为$ k $时刻得到的候选样本集合，从中选择与模板最相近的采样点$ {{\mathit{\boldsymbol{\hat x}}}_k} $即为$ k $时刻的状态估计。在此利用学习得到的度量矩阵来测量候选样本与目标模型的似然，距离最小的候选区域认为与跟踪目标的相似性最大，即可认为是目标所在位置。在训练集中的所有正样本构成了目标模型。

3.4 目标模型的更新

为了使度量矩阵具有更好的自适应性，训练样本集需要在跟踪过程中不断更新。随着跟踪不断增加新的样本，同时设定一个时间区间，遗忘超出该区间的过时样本，保证当前用于学习的样本集合最有效，从而实现了不断自适应的跟踪效果。

与此同时，也不得不面对通过更新训练样本集带来的漂移问题，每次数据的更新都可能引入错误而产生后续的跟踪误差，随着时间的积累导致跟踪失败。为了减轻漂移问题，在更新训练数据集的同时始终保留初始帧的正负样本，基于这样的目标模型，能够有效地从多个错误匹配中区分出真正与目标匹配的对象。

综上所述，基于自适应集成度量学习的目标跟踪算法(AEMTrack) 描述如下：

输入:初始状态估计${{\mathit{\boldsymbol{\hat x}}}_{k-1}} $；训练样本集$ \boldsymbol{L} = {\boldsymbol{L}^ + } \cup {\boldsymbol{L}^-} = \{ \left( {{\boldsymbol{X}_i}, {\boldsymbol{y}_i}} \right), i = 1, \cdots, N\} $

1) For $ t $=1 to T do

(1) 从训练数据集L中抽取一定数量的正负样本构成一个训练子集S；

(2) 利用线性支持向量机在训练子集S上进行学习，得到投影向量$ {\mathit{\boldsymbol{v}}_t} = {(\mathit{\boldsymbol{w}}, -\mathit{\boldsymbol{b}})^{\rm{T}}} $。

End for

2) 将步骤1) 得到的向量组合起来构成矩阵$ \boldsymbol{V} = ({\boldsymbol{v}_1}, {\boldsymbol{v}_2}, \cdots, {\boldsymbol{v}_T}) $，计算度量矩阵M=VV^T。

3) 在当前第$ k $帧中，以前一帧的目标状态为起点，利用MCMC采样得到该帧的候选目标集合$ \{ \mathit{\boldsymbol{x}}_k^{(i)}\} _{i = 1}^N $。

4) 利用式(11)，求得该帧的目标估计$ {{\mathit{\boldsymbol{\hat x}}}_k} $。

5) 更新训练集L，在该帧$ {{\mathit{\boldsymbol{\hat x}}}_k} $周围提取新的正样本和负样本放入训练数据中，替换掉除第1帧外的较早数据以保持训练数据总量不变。

输出:目标状态估计$ {{\mathit{\boldsymbol{\hat x}}}_k} $。

4 实验结果

为方便与其他方法对比来验证算法的有效性，在此选取了一些曾在公开发表的文献[1, 5, 20-23]中使用过的具有挑战性的视频序列。实验中保存10帧图像的正负样本作为度量学习的训练数据，所有视频序列都先转换为灰度图像，在图像的目标位置抽取的一个正样本，偏离目标中心一定距离抽取4个负样本，提取相位一致性特征构成的训练数据集共包含50个样本。将样本统一缩放为32×32像素的目标模版尺寸，这样得到的样本特征为1 024维。随机提取5个正样本和20个负样本利用线性SVM来训练投影向量，反复30次最终由生成的30个投影向量构成了一个投影矩阵。为了适应目标的变化，跟踪过程中训练集中的样本不断更新，除第1帧的样本数据长久保留外，其他的数据为当前最近9帧图像跟踪结果的采样数据。

根据实验结果及文献[24]中给出的几种主流方法的实验结果数据，在此对SemiTrack^[3]、FragTrack ^[1]、MILTrack^[5]及本文给出的AEMTrack这4种算法的跟踪成功率进行了定量的比较。与文献[5]中的分析类似，计算跟踪成功率时选择像素差的阈值为20，视频序列中某帧的跟踪结果与目标真实位置的距离在20像素以内时认为该帧跟踪成功，这个阈值大概对应跟踪框与实际目标区域至少重叠50%。算法跟踪成功率则为一个视频序列中被跟踪成功帧所占的百分比。表 1给出了本文算法AEMTrack在测试视频上的跟踪成功率和其他3种跟踪方法的结果，可以看出，本文算法具有较高的成功率和较好的稳定性。

表 1 不同算法的跟踪成功率(20个像素差以内)
Table 1 Tracking successful rate of different algorithms (threshold :20 pixels)

下载CSV

/%
算法	David	Sylvester	Occluded face1	Occluded face2
SemiTrack	0.21	0.65	0.97	0.61
FragTrack	0.03	0.70	0.95	0.45
MILTrack	0.38	0.80	0.43	0.58
AEMTrack	0.97	0.98	0.80	0.85
注：粗斜体表示最优结果。

此外，逐帧比较了这几种算法在测试视频上的的跟踪误差。图 4给出了4种跟踪算法在测试视频上的逐帧跟踪误差比较，平均跟踪误差的统计见表 2。从中可以看到，无论是跟踪误差的均值还是标准差，本文AEMTrack算法都明显较小，同样表明了本文算法能够获得更准确和稳定的跟踪性能。

图 4 跟踪误差

Fig. 4 Tracking error ((a) David; (b) Sylvester; (c) Occluded face1;(d) Occluded face2)

表 2 不同算法的平均跟踪误差
Table 2 Average location error of different algorithms

下载CSV

/像素
算法	David	Sylvester	Occluded face1	Occluded face2
SemiTrack	52	19	29	45
FragTrack	108	16	22	42
MILTrack	31	15	38	32
AEMTrack	9	10	23	20
注：粗斜体表示最优结果。

测试视频中，David、Sylvester视频序列包含了光照、尺寸及姿势变化，从表 2和图 4中可以看到，对这两个视频序列的跟踪，MILTrack和AEMTrack跟踪成功率较高表现较好，但具体到每帧图像的实际目标跟踪位置来说，AEMTrack较MILTrack具有更高的准确性，对比实验结果显示本文算法取得了较好的跟踪效果，序列图像跟踪示例如图 5(a)(b) 所示。

图 5 视频部分跟踪结果

Fig. 5 Part of tracking results (a) David; (b) Sylvester; (c) Occluded face1;(d) Occluded face2

Occluded face1视频序列主要显示了遮挡问题，FragTrack本身就是基于分块外观模型来解决遮挡问题，因此表现出了较好的结果，但它不能较好地处理外观变化，因此当Occluded face2中还涉及了外观变化，其效果欠佳。SemiTrack在处理遮挡问题方面也表现出了较好的性能，基于半监督学习技术，从跟踪过程获得的未标记样本集能够帮助跟踪器学习一个在线自适应的外观模型，仅从先验信息中构

建标记样本集则能够有效地克服跟踪漂移问题，但标记样本只来自于初始的第1帧图像，而后续训练样本不被标记，在帧间运动较小的情况下，一些有用的信息，例如运动连续性信息并没有得到很好的利用。与FragTrack类似，对Occluded face1的跟踪结果较好，Occluded face2的效果就差一些。MILTrack算法在Occluded face视频上的效果没有优势，而本文的算法在这两个视频中均展现了更为稳定跟踪效果，序列图像跟踪示例如图 5(c)(d) 所示。

5 结论

提出了一种结合相位一致性特征的度量学习跟踪方法，度量学习的过程中结合集成学习和SVM方法，生成了有效的度量矩阵，为目标的判别提供了可靠的保障。该跟踪方法对目标特征的维数没有限制，具有较好的通用性，学习过程由多个独立的线性SVM构成，它们在实现时可并行执行。当前大多数方法都是直接求解最优度量矩阵，随着特征维数的增加计算量是非常大的，本文算法通过多个投影向量的学习间接的得到了投影矩阵，因此和其他方法比较起来简单而高效。此外，在跟踪过程中，新的目标和背景样本不断被用于模型更新，实现了算法的自适应性。在几个包含光照变化、外观形变、遮挡等图像序列上的实验结果表明，本文算法跟踪的准确性达到甚至超越了当前跟踪研究中的一些主流方法，同时具有较好的稳定性。

需要指出的是，本文的目标状态及转移模型比较简单，仅涉及位置信息和平移转换，下一步工作可在此基础上进一步加入旋转、尺度等更精细的状态及转换模型^[20]来提高复杂场景中的跟踪性能。

参考文献

[1] Adam A, Rivlin E, Shimshoni I. Robust fragments-based tracking using the integral histogram[C]//Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York:IEEE, 2006:798-805.[DOI:10.1109/CVPR.2006.256]

[2] Collins R T, Liu Y X, Leordeanu M. Online selection of discriminative tracking features[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(10): 1631–1643. [DOI:10.1109/TPAMI.2005.205]

[3] Grabner H, Leistner C, Bischof H. Semi-supervised on-line boosting for robust tracking[C]//Proceedings of the 10th European Conference on Computer Vision. Berlin Heidelberg:Springer, 2008:234-247.[DOI:10.1007/978-3-540-88682-2_19]

[4] Mallapragada P K, Jin R, Jain A K, et al. Semiboost:Boosting for semi-supervised learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(11): 2000–2014. [DOI:10.1109/TPAMI.2008.235]

[5] Babenko B, Yang M H, Belongie S. Robust object tracking with online multiple instance learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1619–1632. [DOI:10.1109/TPAMI.2010.226]

[6] Wang N Y, Shi J P, Yeung D Y, et al. Understanding and diagnosing visual tracking systems[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago:IEEE, 2015:3101-3109.[DOI:10.1109/ICCV.2015.355]

[7] Kozakaya T, Ito S, Kubota S. Random ensemble metrics for object recognition[C]//Proceedings of 2011 IEEE International Conference on Computer Vision. Barcelona:IEEE, 2011:1959-1966.[DOI:10.1109/ICCV.2011.6126466]

[8] Wang H H, Lu S N. An automatic registration method of CBERS-02B remote sensing image based on phase congruency feature[J]. Remote Sensing Information, 2009(5): 47–52, 76. [王洪海, 陆书宁. 基于相位一致特征的CBERS-02B遥感图像自动配准[J]. 遥感信息, 2009(5): 47–52, 76. DOI:10.3969/j.issn.1000-3177.2009.05.011]

[9] Xiao P F, Feng X Z, Zhao S H, et al. Segmentation of high-resolution remotely sensed imagery based on phase congruency[J]. Acta Geodaetica et Cartographica Sinica, 2007, 36(2): 146–151, 186. [肖鹏峰, 冯学智, 赵书河, 等. 基于相位一致的高分辨率遥感图像分割方法[J]. 测绘学报, 2007, 36(2): 146–151, 186. DOI:10.3321/j.issn:1001-1595.2007.02.006]

[10] Kovesi P. Image features from phase congruency[J]. Videre:Journal of Computer Vision Research, 1999, 1(3): 2–27.

[11] Cortes C, Vapnik V. Support-vector networks[J]. Machine Learning, 1995, 20(3): 273–297. [DOI:10.1007/BF00994018]

[12] Fisher R A. The use of multiple measurements in taxonomic problems[J]. Annals of Eugenics, 1936, 7(2): 179–188. [DOI:10.1111/j.1469-1809.1936.tb02137.x]

[13] Weinberger K Q, Saul L K. Distance metric learning for large margin nearest neighbor classification[J]. The Journal of Machine Learning Research, 2009, 10: 207–244.

[14] Davis J V, Kulis B, Jain P, et al. Information-theoretic metric learning[C]//Proceedings of the 24th International Conference on Machine Learning. New York:ACM, 2007:209-216.[DOI:10.1145/1273496.1273523]

[15] Guillaumin M, Verbeek J, Schmid C. Is that you? Metric learning approaches for face identification[C]//Proceedings of IEEE the 12th International Conference on Computer Vision. Kyoto:IEEE, 2009:498-505.[DOI:10.1109/ICCV.2009.5459197]

[16] Bingham E, Mannila H. Random projection in dimensionality reduction:applications to image and text data[C]//Proceedings of the 7th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York:ACM, 2001:245-250.[DOI:10.1145/502512.502546]

[17] Avidan S. Ensemble tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(2): 261–271. [DOI:10.1109/TPAMI.2007.35]

[18] Breiman L. Bagging predictors[J]. Machine Learning, 1996, 24(2): 123–140. [DOI:10.1007/BF00058655]

[19] Khan Z, Balch T, Dellaert F. MCMC-based particle filtering for tracking a variable number of interacting targets[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(11): 1805–1819. [DOI:10.1109/TPAMI.2005.223]

[20] Ross D A, Lim J, Lin R S, et al. Incremental learning for robust visual tracking[J]. International Journal of Computer Vision, 2008, 77(1-3): 125–141. [DOI:10.1007/s11263-007-0075-7]

[21] Helmut G, Michael G, Horst B. Real-time tracking via on-line boosting[C]//Proceedings of the British Machine Vision Conference. Edinburgh:BMVA, 2006, 1:47-56.

[22] Lin R S, Ross D A, Lim J, et al. Adaptive discriminative generative model and its applications[C]//Advances in Neural Information Processing Systems 17:Proceedings of the 2004 Conference. Vancouver:MIT Press, 2004:801-808.

[23] ehovin L, Leonardis A, Kristan M. Visual object tracking performance measures revisited[J]. IEEE Transactions on Image Processing, 2016, 25(3): 1261–1274. [DOI:10.1109/TIP.2016.2520370]

[24] Wu Y, Lim J, Yang M H. Online object tracking:A benchmark[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland:IEEE, 2013:2411-2418.[DOI:10.1109/CVPR.2013.312]