Print

发布时间: 2016-06-25
摘要点击次数: 288
全文下载次数: 39
DOI: 10.11834/jig.20160611
2016 | Volumn 21 | Number 6




    图像理解和计算机视觉    




  <<上一篇 




  下一篇>> 





张量核范数回归的目标跟踪
expand article info 亚森江·木沙1,2, 木合塔尔·克力木1, 赵春霞2
1. 新疆大学机械工程学院, 乌鲁木齐 830046;
2. 南京理工大学计算机科学与工程学院, 南京 210094

摘要

目的 视觉目标跟踪中,不同时刻的目标状态是利用在线学习的模板数据线性组合近似表示。由于跟踪中目标受到自身或场景中各种复杂干扰因素的影响,跟踪器的建模能力很大程度地依赖模板数据的概括性及其误差的估计精度。很多现有算法以向量形式表示样本信号,而改变其原始数据结构,使得样本数据各元素之间原有的自然关系受到严重破坏;此外,这种数据表述机制会提高数据的维度,而带来一定的计算复杂度和资源浪费。本文以多线性分析的角度更进一步深入研究视频跟踪中的数据表示及其建模机制,为其提供更加紧凑有效的解决方法。 方法 本文跟踪框架中,候选样本及其重构信号以张量形式表示,从而保证其数据的原始结构。跟踪器输出候选样本外观状态时,以张量良好的多线性特性来组织跟踪系统的建模任务,利用张量核范数及L1范数正则化其目标函数的相关成分,在多任务状态学习假设下充分挖掘各候选样本外观表示任务的独立性及相互依赖关系。 结果 用结构化张量表示的数据原型及其多任务观测模型能够较为有效地解决跟踪系统的数据表示及计算复杂度难题。同时,为候选样本外观模型的多任务联合学习提供更加简便有效的解决途径。这样,当跟踪器遇到破坏性较强的噪声干扰时,其张量核范数约束的误差估计机制在多任务联合学习框架下更加充分挖掘目标全面信息,使其更好地适应内在或外在因素所引起的视觉信息变化。在一些公认测试视频上的实验结果表明,本文算法在候选样本外观模型表示方面表现出更为鲁棒的性能。因而和一些优秀的同类算法相比,本文算法在各测试序列中跟踪到的目标图像块平均中心位置误差和平均重叠率分别达到4.2和0.82,体现出更好的跟踪精度。 结论 大量实验验证本文算法的张量核范数回归模型及其误差估计机制能够构造出目标每一时刻状态更接近的最佳样本信号,在多任务学习框架下严格探测每一个候选样本的真实状态信息,从而较好地解决模型退化和跟踪漂移问题。

关键词

多线性分析, 张量核范数回归, 模型表示, 误差估计, 目标跟踪

Robust object tracking via tensor nuclear-norm matrix regression
expand article info Yasin Musa1,2, Muhtar Kerim1, Zhao Chunxia2
1. School of Mechanical Engineering, Xinjiang University, Urumqi 830046, China;
2. School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, China
Supported by: National Natural Science Foundation of China (51365052, 61272220)

Abstract

Objective In visual object tracking, the state of the target in every video frame is linearly represented using several online learned templates. The modeling ability of the tracker greatly depends on the generalizability of the template data and its error estimation precision because of the complex interference factors that are caused by the target itself or the scenes. Many existing algorithms have been used to represent the samples in vector form and to change factitiously the original data structure such that the natural relationship between each data pixel of a sample is extremely damaged. In addition, such data expression mechanism may enlarge the data dimensionality that significantly intensifies the computational complexity and wastes much resources. This paper investigates the data representation and observation modeling mechanism of the video tracking framework and provides a more compact and effective solution based on multilinear analysis. Method In our framework, the candidate samples and their reconstructed signals are expressed in tensor form to maintain the original structure of the data. When the tracker outputs the candidate appearance models, the modeling tasks of the tracking system are organized using the excellent multilinear characteristics of the tensor structures. The objective function is regularized using the tensor nuclear norm and the L1 norm in order to excavate fully the independences and interdependences of the observation models with a multitask state learning assumption. Result The structured tensor form used in the data prototypes and observation models can effectively address the data representation problems and computational complexities in the tracking system. This form also provides a more simple and effective solution for the multitask joint learning of the candidate appearance models. When the tracker meets any destructive noise interferences, its tensor nuclear norm constraint mechanism of error estimation in a multitask joint learning framework fully excavates the most comprehensive information of the target, thereby allowing the tracker to adapt to various visual information changes that result from intrinsic or extrinsic factors. The experiment results on several challenging image sequences demonstrate that the proposed method achieves more robust performance in object model representation. Therefore, the average center location error and the average overlap rate of tracked image patches in all image sequences is reached better results (4.2 and 0.82 respectively) compared with several state-of-the-art tracking algorithms. Conclusion Extensive experiments are performed to validate our algorithm. The tensor nuclear norm regression model and the error estimation mechanism of our algorithm can achieve the most desired candidate states that are greatly similar to actual object states in real time. The tracker strictly detects the true state of each candidate in the multitask learning framework, thereby providing a better solution to the model degradation and drifting problems.

Key words

multilinear analysis, tensor nuclear-norm regression, model representation, error estimation, object tracking

0 引 言

视频跟踪作为模式识别及计算机视觉领域里的一个研究热点,越来越广泛应用到工业、农业、社会安全,以及人们日常生活中。典型应用案例有人机交互、视频监控、交通控制、社会安保等多个方面[1-4]

目标跟踪虽然经历了一段曲折的发展历程并获得了很多卓越的成绩与进展,但是在其研究领域依然存在着一些需要更进一步深入研究的难题。例如,目标处在局部或严重遮挡、强烈光照、运动突变等破坏性较大的干扰条件下如何学习并生成更为精准的目标模板?如何建立更为有效的候选样本外观模型表示机制?如何处理构造观测模型中的误差等。

在过去的研究中,虽然很多学者在目标跟踪领域里对其整体框架或局部的优化问题提出了不少优秀算法,并取得了乐观的成绩,但是其在各种实际应用场合中实现或普及依然遇到一些困难。因此,视频跟踪中的这些热点研究课题始终吸引着模式识别、计算机视觉、计算机图形学、机器学习以及人工智能等不同领域研究人员的广泛关注。

候选样本外观模型表示是视频跟踪中极其重要的环节,是跟踪器在每一时刻所采样的若干候选样本中正确估计目标真实状态的关键。虽然模型表示在很大程度上依赖模板数据的精度和有效性,若其表示机制采用不当,跟踪器可能会错误估计视频场景中目标的准确状态信息,而带来一些不可预测的严重后果。因此,研究人员为了解决模型表示中的难题,试图采用很多方法,并获得了良好的效果。例如,基于模板的方法[5],基于字典的方法[6],光流法[7],统计法[8]以及它们的组合形式[9]等。更多相关内容请参考文献[10-11],不管采用什么样的策略,视频跟踪框架里的模型表示方法大体上可以分为以下3个大类:

1)全局匹配法。如通过增量PCA(principal component analysis)学习的目标模板基向量线性拟合的观测模型。

2)基于外观匹配的方法。如点、轮廓、几何形状、形体结构以及颜色直方图等特征作为依据的模型表示方法。

3)结合方法。如局部特征和全局特征的有机结合而进行的模型表示方法。可以肯定,这种不同特征共同协作的表示方法比其他方法能够表现出更为鲁棒的性能。

视频跟踪框架中,除了一些具有较为代表意义的目标模板能够为模型表示提供决定性的视觉信息外,采取一些更为有效的方法对候选样本外观信息进行建模是提高跟踪性能的另一个主要保障。由于视觉数据所包含的信息量庞大、维度高,计算复杂度大等特点,使得模型表示具有较高的挑战性。很多相关研究工作显示,在一些视觉感知任务(如相似度判别)中,研究人员为了提高算法的效率,都倾向于用低维特征数据来表示高维视觉信息。因此,研究人员往往对高维数据进行降维处理,这对数据的精度带来一些不可避免的损失。视频跟踪也不例外,其数据处理量比其他视觉问题更加复杂,同样采取数据降维方法来平衡计算复杂度。例如,目标模板的学习正是一种降维及特征提出过程。这里比较典型的数据降维方法是PCA或LDA(linear discriminant analysis)等。它们先将原始信号一个个向量化,并以矩阵的形式映射到高维数据空间中,然后用数学算法对其进行降维,消除数据中相关性较强的成分,从而生成其相关低维子空间。由于这些子空间里的特征向量很好地保留了原始数据的主能量,利用它们的线性组合就可以近似构造高维数据空间里的原始信号。

1 相关研究背景

视觉图像的信息量丰富,数据维度庞大,其中包含着色彩纹理、亮度、对比度、形状、轮廓等很多有利于分析其内容的特征信息。充分分析与挖掘有关特征为各类视觉问题的有效解决提供十分宝贵的参考依据。视频跟踪作为计算机视觉领域里的重要分支,其数据比静态图像更具有研究挑战性。由于视频数据是由一系列随时间而变化的动态图像数据组成,它除了包含单幅图像所包含的视觉信息外,在时间维度上包含着信息的动态变化及声音等更多复杂特征信息。虽然这种特殊的信息载体为视觉系统提供单张图像无法赋予的更多可利用信息,但从中挖掘真正意图所需要的特征信息比单幅图像更加困难。

1.1 观测模型及其常用表示方法

至今,虽然学者们为视频跟踪技术提出了很多优秀的算法,解决了不少视觉难题,但是其依然存在一些需要研究的内容。一是如何更好地分析和研究随时间而变化的庞大视觉信息,从其高维的数据结构中挖掘出维度低、精度高、代表性强的特征信息,从而组建更为有效的模板数据并定期更新其内容;二是如何利用已获得的模板数据更加精确有效地表示视频帧中每一时刻不断变化的目标状态信息。至今为止,很多热心研究者在视频跟踪领域里不断探索并已结出累累硕果。虽然一些比较优秀的算法已经解决了视频跟踪中的部分难题,但是算法整体框架和细节的更进一步优化依然存在待研究的问题。

2008年,Ross等人[12]提出了一种增量学习视频跟踪算法IVT(incremental learning for robust visual tracking),为视频跟踪提供较为一般化的理论框架。框架中经典主成分分析工具PCA成功应用到目标模板学习中,在线学习一些关于目标的代表性特征数据,并将其作为后续跟踪所需的目标模板。由于这些模板数据具有较好的正交特性,能够较为全面地概括目标在不同时刻的各种特殊状态信息,其在后续跟踪作业中对目标候选样本外观模型的精确表示起到关键作用。IVT还采用较好的模板更新机制,定期更新其模板数据,从而更好地适应后续跟踪中所发生的目标状态变化。虽然他们的研究为视频跟踪提供了较好的框架,能够较为有效地应对目标的各种状态变化,但对局部遮挡及背景混乱等干扰因素较为敏感。主要是因为在模型中,重构误差的构造未得到充分的研究。另外,IVT算法在模板更新时,直接将新观察到的目标信息作为更新依据,并未充分考虑离群值对模板精度的影响。Wang等人[13]在IVT的基础上更进一步研究跟踪中的误差项,并提出了一种基于最小软阈值二乘回归模型的视频跟踪算法LSST(least soft-threshold squares tracking)。LSST的跟踪框架中,重构误差的构造比IVT更加合理。他们将候选样本外观模型表示中的重构误差分解为独立同分布的高斯小噪声成分和目标遇到遮挡或强烈光照等干扰所引起的离群大噪声成分,合理分析误差的产生途径及性质,并一定程度地提高模型表示的精度,从而有效缓解跟踪器在各种严重干扰因素下的模型退化及跟踪漂移问题。

视频跟踪框架中,虽然候选样本是根据前一时刻的目标状态稠密采样获得,但是表示其外观模型时都利用同一个模板集合。很多现有的跟踪算法将候选样本的外观模型表示问题都假设为它们之间是相互独立的。2014年,Zhang等人[14]提出了一种基于多任务稀疏学习的视频跟踪算法框架MTT(multi-task tracking),将粒子滤波框架下的视频跟踪问题重新定义为多任务稀疏学习问题。他们认为在观测模型中,每一个候选样本的外观模型都是采用同一个模板集合里的数据来线性拟合,虽然它们的状态是独立的,但是学习它们的模型可能相互共享一些模板信息,从而彼此之间产生一定的关联性。因此,采用比较典型的Lp,q复合范数(p∈{2,∞},q=1)稀疏诱导模型来正则化描述候选样本的外观模型,并将所有候选样本的外观模型放在一起学习。这样,MTT跟踪框架能够保证各候选样本粒子状态的独立性之外,充分挖掘它们之间的关联性,在一定程度上提高跟踪器的性能并减轻整体计算复杂度,从而比单任务跟踪模型显现出其算法的优越性。同样,Zhang等人[15]利用候选样本外观模型联合表示的方法挖掘各候选样本之间的潜在联系,在外观模型中充分保留各样本独有信息之外,相互分享一些公用信息。研究中将跟踪问题视为低秩矩阵学习问题,以联合学习的方式充分挖掘模型表示系数固有的内在低秩结构,更加体现目标模板对候选样本外观表示的稀疏性,从而提出一种基于低秩稀疏学习的视频跟踪算法LRST(low-rank sparse tracker),得出了较令人满意的实验结果。

众所周知,图像数据本质上是一个矩阵,其各像素之间存在着某种潜在的联系,保持这种自然联系,它们才能提供符合人类视觉逻辑的直观信息。因此,在很多视觉处理任务中,特征映射时,先将图像数据作向量化处理,并以矩阵形式映射到维度较高的数据空间中。这样做,不但引起高计算量和不必要的资源消耗,还会严重破坏图像数据原始的自然结构及其像素之间的潜在联系。因此,最近一些研究人员逐渐开始利用多线性分析方法,将张量引入视觉图像分析领域。文献[16]提出一种基于张量的数据降维算法TSA(tensor subspace analysis)。他们利用二阶张量表示高维图像数据,并学习出其相关低维张量子空间,他们的算法能够保持原始图像数据的同时充分挖掘其固有的几何结构,比起PCA、LDA及LPP(locality preserving projection)等传统的数据降维方法得到了更好的特征提取精度。文献[17]中比较全面地介绍了多线性子空间学习(MSL)方法,并详细分析了现有的各种高维张量数据的降维方法及其性能。他们从多线性映射的角度去讨论MSL算法的性能,对监督和无监督MSL算法给出了详细的分类和评价,最后对MSL算法的应用及其将来的发展方向提出了观点。

总之,张量作为一种良好的结构化数据载体,一方面为样本数据的原始信息提供更好的描述机制,而在另一方面为观测模型的多任务学习提供更加便捷的解决途径,为整体跟踪框架提供一种增强系统泛化性能的归纳式经验转移机制。值得注意的是,这种所有候选样本外观模型放在一起表示的多任务学习框架除了能够从模板数据中为各候选样本的个体性提炼出一些潜在特征信息,突显外观模型学习任务的独立性外,还能够一起分享模板数据的共同信息,反映出各样本彼此之间的依赖关系。

本文将多线性分析工具张量应用到目标跟踪中观测模型的多任务外观学习,以张量形式组织信号数据,保证样本数据原有几何结构的同时,充分发挥多任务模型学习框架的优越性,为视频跟踪的观测模型提供更加紧凑的算法框架。

1.2 张量基本运算及其SVD分解

在日常生活及生产中,常会处理各种视觉信息。虽然这些数据信息量广、表现力充足,但其数据维度庞大,利用起来十分具有挑战性。这使得研究人员从不同的角度去梳理和探究这些海量数据,从中找出解决问题的更加有效途径。

最近,研究人员在视觉信息处理领域里的高维数据处理工作中引入多线性计算概念,利用张量来描述各种信号数据的原始结构。这样,很多问题模型结构比传统方法变得更加简洁,使得信息处理更加简单有效。下面简短概括张量分析的定义及其运算法则。

在很多领域里张量是多线性分析问题的数学基础,其紧凑的数据结构能够表示各种复杂的问题模型。在图形图像处理中,张量可以简单理解为多维矩阵或多维数组。一个n阶张量可记作$A \in {{\mathbb{R}}^{{I_1} \times {I_2} \times \cdots \times {I_n}}}$,其中每一个元素可记作$\{ {a_{{i_1} \cdots {i_n} \cdots {i_N}}}|1 < {i_n} < {I_n}\} $,每一个in代表着An-模。在同构意义下,零阶张量是一个标量,一阶张量是向量,二阶张量是矩阵,三阶或更高的张量则是高阶张量。本文问题模型将联系到的张量最高维数不超过三阶。如某一时刻候选样本粒子张量如图 1所示。

图 1 候选样本三阶张量表示
Fig. 1 Third order tensor representation of candidates

定义1 张量的加减。凡是同阶的两个或几个张量可以相互加减,得到同阶张量,它的分量等于原来张量中标号相同的诸分量之代数和,即

$ A \pm B = C $ (1)

其各对应分量元素为

$ {a_{{i_1}{i_2} \cdots {i_n}}} \pm {b_{{i_1}{i_2} \cdots {i_n}}} = {c_{{i_1}{i_2} \cdots {i_n}}} $ (2)

定义2[18] k-模展开。将n阶张量$A \in {{\mathbb{R}}^{{n_1} \times {n_2} \times \cdots \times {n_n}}}$进行k-模展开的矩阵${A^k} \in {{\mathbb{R}}^{{n_k} \times \prod\limits_{i \ne k} {{n_i}} }}$可以定义为$A_{{i_k},j}^k = {a_{{i_1}{i_2} \cdots {i_{n,j}}}} = 1 + \sum\limits_{l = 1,l \ne k}^n {({i_l} - 1)} \prod\limits_{r = l + 1,r \ne k}^n {{n_r}} $。张量的k-模展开如图 2所示。

图 2 三阶张量展开示意图
Fig. 2 Unfolding 3rd order tensor

定义3[18] k-模乘积。根据张量的数学定义,张量$A \in {{\mathbb{R}}^{{n_1} \times {n_2} \times \cdots \times {n_k} \times \cdots \times {n_n}}}$和矩阵$B \in {{\mathbb{R}}^{{n_k} \times {m_k}}}$的乘积是个映射,即:$A\xrightarrow{B}C \in {{\mathbb{R}}^{{n_1} \times {n_2} \times \cdots \times {m_k} \times \cdots \times {n_n}}}$,其可记为C=A×kB,其元素为

$ {c_{{i_1}{i_2} \cdots {i_{k - 1}}i{'_k}{i_{k + 1}} \cdots {i_n}}} = \sum\limits_{j = 1}^{{n_k}} {{a_{{i_1}{i_2} \cdots {i_{k - 1}}j{i_{k + 1}} \cdots {i_n}}}{b_{ji{'_k}}}} $ (3)

定义4 二阶张量(矩阵)范数。假设三阶张量$A \in {{\mathbb{R}}^{{n_1} \times {n_2} \times {n_3}}}$正向展开后得到一组二阶张量$\{ {A_i} \in {{\mathbb{R}}^{{n_1} \times {n_2}}}|i = 1,2 \cdots {n_3}\} $,且${A_i}\xrightarrow{{SVD}}{U_i}{S_i}V_i^T$,那么Ai的F-范数可定义为

$ {\left\| {{A_i}} \right\|_F} = \sqrt {{\rm{tr}}({A_i}* \cdot {A_i})} = \sqrt {\sum\limits_{j = 1}^r {s_j^{i2}} } $ (4)

式中,Ai*Ai的共轭转置,sjiAi的奇异值(Si对角线上的元素),tr(·)是迹运算,r≤min(n1,n2)是Ai的秩。

同样,Ai的核范数可定义为

$ {\left\| {{A_i}} \right\|_*} = \sum\limits_{j = 1}^r {s_j^i} $ (5)

式中,sjiAi的奇异值(Si对角线上的元素),r≤min(n1,n2)是Ai的秩。

定理1[19] 假设$A \in {{\mathbb{R}}^{{n_1} \times {n_2} \times {n_3}}}$是一个三阶张量,那么A可以分解为

$ A = U*S*{V^T} $ (6)

式中,$U \in {{\mathbb{R}}^{{n_1} \times {n_2} \times {n_3}}}$$V \in {{\mathbb{R}}^{{n_2} \times {n_2} \times {n_3}}}$分别是正交张量,$S \in {{\mathbb{R}}^{{n_1} \times {n_2} \times {n_3}}}$f-对角张量。

定义5 假设给定三阶张量$A \in {{\mathbb{R}}^{{n_1} \times {n_2} \times {n_3}}}$,则其L1范数定义为

$ {\left\| A \right\|_1} = \sum\limits_{\begin{array}{*{20}{c}} {1 \le i \le {n_1}}\\ {\begin{array}{*{20}{c}} {1 \le j \le {n_2}}\\ {1 \le k \le {n_3}} \end{array}} \end{array}} {|{a_{ijk}}|} $ (7)

定义6 假设给定三阶张量$A \in {{\mathbb{R}}^{{n_1} \times {n_2} \times {n_3}}}$,则其F-范数[19]定义为

$ {\left\| A \right\|_{\rm{F}}} = \sqrt {\sum\limits_{\begin{array}{*{20}{c}} {1 \le i \le {n_1}}\\ {\begin{array}{*{20}{c}} {1 \le j \le {n_2}}\\ {1 \le k \le {n_3}} \end{array}} \end{array}} {a_{ijk}^2} } $ (8)

定义7 假设给定三阶张量$A \in {{\mathbb{R}}^{{n_1} \times {n_2} \times {n_3}}}$,则其核范数定义为

$ {\left\| A \right\|_*} = \sum\limits_{k = 1}^{{n_3}} {\sum\limits_{i,j = 1}^r {s_{ij}^k} } $ (9)

式中,sijkSk对角线上的相应元素,r≤min(n1,n2)。

2 基于张量核范数回归的目标跟踪

视频跟踪中,观测模型输出候选样本外观状态时往往采用以向量形式表示其样本信号,并在某一确定的约束条件下用目标模板的线性组合来近似构造目标某一时刻的隐式状态。虽然这样做能够满足跟踪系统的要求,但是系统的建模能力不一定是最优的。因为图像信号的这种量化方式会一定程度地破坏数据的原始结构,从而其像素值失去直观意义上的视觉特征。这样做一方面弱化数据的概括性,而对正确分析信号数据的潜在结构带来一定的影响。在另一方面增大数据维度,从而增加计算复杂度和资源浪费。这不但影响跟踪器的信号复原能力并引起不可避免的误差,而且使观测模型的结构复杂化。张量作为矩阵的更高阶数据表示形式,为多幅图像的一起量化提供更为简洁的建模途径。用张量来描述视频跟踪中的候选样本外观模型,不但能够保留原始数据的自然肌理特征,而且为观测模型提供更加紧凑的表示框架。因此,下面在粒子滤波框架下结合多线性分析方法详细介绍基于张量核范数回归模型的视频跟踪算法。

2.1 严重遮挡及激烈光照影响下的误差估计

视频跟踪中捕捉每一时刻的目标状态是建立在随时间变化的概率模型之上,信号的预测与处理难免出现一些噪声的干扰。跟踪作业中发生的很多干扰因素中,局部遮挡、光照变化及运动模糊等干扰对跟踪性能的影响比较大。由于有时候这些干扰因素严重破坏目标区域的肌理特征,使跟踪器难以捕捉有助于识别目标真实状态的有用信息,而陷入跟踪失败的困境。虽然用增量PCA学习出的基向量存在较好的性质,能够反映目标在不同时刻的特殊状态,但只是在无干扰因素下的目标跟踪表现出良好的性能。当目标一旦处于严重遮挡及激烈光照变化等干扰因素之下时,观测模型构造的样本信号与实际目标之间产生较大的距离。此时跟踪器正确估计候选样本的最大似然度还一定程度上依赖误差估计的精度。如果此时重构误差的构造不精确,系统的建模精度可能达不到要求,使得跟踪器决策能力急速退化,从而陷入跟踪失败。一方面原因是目标模板的精度无法达到保障;另一方面是因为构造信号及其误差源的处理不当所引起的。虽然现有的很多算法[13, 20]利用独立同分布的拉普拉斯噪声能够有效缓解遮挡对跟踪精度的影响,但由于他们对重构误差的假设是建立在残差数据的独立像素之上,而忽视其原始的几何结构。其实,实际噪声的分布与高斯分布或拉普拉斯分布有一定的偏差,这使得很多跟踪算法对遮挡或激烈光照变化表现弱稳定性。不难发现,目标处在遮挡、激烈光照及运动模糊等噪声之下,其受到干扰的相关图像区域可能失去目标原有的肌理特征,从而导致目标受干扰的局部或全局范围内各像素之间产生一定的相似性,从而产生与目标真实机理无关的块形噪声区域。因此,在这种干扰下要提高模型的表示精度,保证目标模板概括能力的前提下,充分挖掘残差数据的潜在结构来构造最小重构误差。这有助于增强观测模型的建模能力。

实验发现,跟踪中遮挡或强烈光照引起的离群噪声各像素间相似性较大,其数据矩阵一定程度上表现出低秩特性。例如,目标处在严重遮挡下目标大部分区域的肌理特征被遮挡物遮盖,使目标失去其原始的肌理特征信息,而产生与目标真实状态无关的大面积噪声区域(见表 1图 3)。假设t是目标模板图像块(图 3(a)),p1p2分别是从某一视频帧里采样的相似度特别高的两个候选样本图像块(图 3(b)(c))。其中,p1是离目标最近的候选样本,而p2是离目标稍远的候选样本。表 1中给出的测度距离(D1D2)显示,L1范数和L2范数约束的测度距离都与离目标远的候选样本p2较近,而核范数约束的测度距离与真实候选样本p1较近。可知,核范数正则化的测度距离更能充分挖掘残差数据的结构特征,正确估计出重构信号中的误差,从而为候选样本外观模型的表示作更多的贡献。这使得跟踪器能够有效克服光照、遮挡等严重噪声的干扰,快速正确估计真实的目标状态,从而有效防止跟踪飘移问题。

表 1 目标在严重遮挡下的不同测度距离
Table 1 Different distance metrics with heavy occlusion

下载CSV
范数 D1(t,p1) D2(t,p2)
L1范数 2 581.44 2 571.53
L2范数 1 850.86 1 840.10
核范数 6 218.55 6 272.35
图 3 严重遮挡下的真候选样本和假候选样本
Fig. 3 True and false candidates under heavy occlusion
((a) template t; (b) candidate p1; (c) candidate p2)

实验结果表明,观测模型中对误差项的核范数正则化在多任务模型表示框架下应该更能发挥其优越性能。因此,本文采用类似文献[14]和文献[21]的方法,跟踪框架中候选样本外观模型的学习任务放到张量空间里,以张量来描述观测模型的数据结构,提出一种新的张量核范数正则化观测模型。在本文回归模型中,采用类似文献[12]的方法,先通过增量PCA在线学习一组较为精准的子空间基向量(目标模板),然后以多任务学习方式线性构造各候选样本外观信息。在目标函数中采用张量核范数和L1范数约束来构造最小重构误差,使得跟踪框架得到更好的模型表示及误差估计机制。这样,一方面能够保证样本数据原始几何结构及其建模精度的同时,另一方面观测模型的误差估计机制更加发挥其潜能,使跟踪器能够灵活应对跟踪中的各种干扰因素,体现出更好的鲁棒性能。

2.2 张量核范数回归模型

视频跟踪中,目标在视频序列中的状态变化是一种随机现象。因此,利用马尔可夫概率模型来推理跟踪中目标的隐式状态信息。假设在tth视频帧中,$P = [{p_1},{p_2},\cdots {p_n}] \in {{\mathbb{R}}^{d \times n}}$是至t-1时刻获得的目标图像块,利用增量PCA生成一组与其相关的特征子空间$U = [{u_1},{u_2},\cdots {u_n}] \in {{\mathbb{R}}^{d \times k}}$,使得UTU=I。那么,可以用Uμ(目标模板及其均值)能够线性表示tth帧中的候选样本。这样,本文跟踪系统的多任务观测模型可以表示为

$ Y = {M_\mu } + ts(UX) + {\varepsilon _1} + {\varepsilon _2} $ (10)

式中,$Y \in {{\mathbb{R}}^{{n_1} \times {n_2} \times {n_3}}}$是当前帧中稠密采样构造的候选样本张量,${M_\mu } \in {{\mathbb{R}}^{{n_1} \times {n_2} \times {n_3}}}$是由模板均值μ组成的张量,$UX = [U({x_1}),U({x_2}),\cdots ,U({x_{{n_3}}})] \in {{\mathbb{R}}^{d \times {n_3}}}$是重构样本矩阵,$X = [{x_1},{x_2},\cdots ,{x_{{n_3}}}] \in {{\mathbb{R}}^{k \times {n_3}}}$是系数矩阵,ts(·)是张量构造运算符,${\varepsilon _1} \in {{\mathbb{R}}^{{n_1} \times {n_2} \times {n_3}}}$是块噪声张量,${\varepsilon _2} \in {{\mathbb{R}}^{{n_1} \times {n_2} \times {n_3}}}$是随机噪声张量。本文算法的观测模型如图 4所示。从图 4中可以看出,首先利用增量PCA在线生成的目标模板基向量和核范数最小化的重构误差对当前帧的候选样本外观模型进行线性表示,然后估计出其具有最大似然度的候选样本,最后使其作为当前帧的跟踪结果。

图 4 基于张量核范数误差估计的外观模型表示
Fig. 4 Appearance model representation with tensor nuclear norm based error estimation

在回归模型式(10)中,Xε1ε2是未知参数,跟踪中需要估计,其求解精度一定程度上影响到观测模型的表示能力。因此,这3个参数需要合理优化。其中,ε1是从残差数据中构造的块噪声,根据其数据结构显示,它们的像素值之间存在较大的相关性,故其较符合核范数约束,即${\left\| {{\varepsilon _1}} \right\|_*}$;而ε2是随机噪声,目标受到遮挡或强烈光照等破坏干扰时出现,根据其稀疏性,它较为符合用L0范数约束,即${\left\| {{\varepsilon _2}} \right\|_0}$;最后对系数X,使用L2范数约束。这样,本文跟踪算法的目标函数可以表示为

$ \begin{array}{l} \mathop {\min }\limits_{{\varepsilon _1},{\varepsilon _2},X} {\left\| {{\varepsilon _1}} \right\|_*} + {\lambda _1}{\left\| {{\varepsilon _2}} \right\|_0} + {\lambda _2}{\left\| X \right\|_{2,1}}\\ {\rm{s}}{\rm{.t}}{\rm{.}}\;\;\bar Y = ts(UX) + {\varepsilon _1} + {\varepsilon _2} \end{array} $ (11)

式中,λ1是随机噪声平衡参数,λ2是表示系数正则化参数,Y=Y-Mμ是中心化的候选样本张量。因为模型中的L0范数最小化是NP(non-deterministic polynomial)难题,所以用L1范数来近似代替其约束项。这样,式(11)可以转化为

$ \begin{array}{l} \mathop {\min }\limits_{{\varepsilon _1},{\varepsilon _2},X} {\left\| {{\varepsilon _1}} \right\|_*} + {\lambda _1}{\left\| {{\varepsilon _2}} \right\|_1} + {\lambda _2}{\left\| X \right\|_{2,1}}\\ {\rm{s}}{\rm{.t}}{\rm{.}}\;\;\bar Y = ts(UX) + {\varepsilon _1} + {\varepsilon _2} \end{array} $ (12)

这样,本文算法回归模型得到良好的参数估计策略,使得跟踪器从各种噪声干扰中精确构造出基于最小重构误差的样本信号。特别地,其误差估计机制在目标遇到遮挡或强烈光照等恶劣干扰下对模型表示的贡献更为显著。

2.3 回归模型的优化

视频跟踪中,由于目标模板是在线学习获得,其记录着目标各种代表性的特征信息。通过它们的线性组合就可以能够较为准确地预测当前时刻的目标信息。但是,这种线性组合意味着只能近似还原某一时刻的目标状态,如果模型相关参数的选取及误差项的构造处理不当,还原的信号与实际信号之间可能产生较大的偏差。所以跟踪系统中,对目标函数相关参数进行合理优化是极其重要的,并且优化模型应具有可靠的理论保障,其好坏直接影响着整个系统的性能和稳定性。本文利用交替变量乘子法[22](ADMM)进行模型优化。ADMM算法是具有良好收敛性质的凸优化算法,在多变量拉格朗日乘子优化框架下,对目标函数的各参数进行逐个交替优化,能够保证模型的完美收敛。

由式(12)可以看出,本文模型是在标准的线性约束条件下组合而成的凸优化,完全满足ADMM算法的要求,所以ADMM算法能够求得其最优解。首先按照ADMM算法的要求将式(12)转化为

$ \begin{array}{l} \mathop {\min }\limits_{{\varepsilon _1},{\varepsilon _2},Z,X} {\left\| {{\varepsilon _1}} \right\|_*} + {\lambda _1}{\left\| {{\varepsilon _2}} \right\|_1} + {\lambda _2}{\left\| Z \right\|_{2,1}}\\ {\rm{s}}{\rm{.t}}{\rm{.}}\;\;\bar Y = ts(UX) + {\varepsilon _1} + {\varepsilon _2},X = Z \end{array} $ (13)

为了方便求解,将式(13)转化为相应的增广拉格朗日乘子函数的最小化问题。即

$ \begin{array}{l} {{\mathcal{L}}_\mu }({\varepsilon _1},{\varepsilon _2},X,Z,{\Phi _1},{\Phi _2}) = {\left\| {{\varepsilon _1}} \right\|_*} + {\lambda _1}{\left\| {{\varepsilon _2}} \right\|_1} + \\ {\lambda _2}{\left\| Z \right\|_{2,1}} + {\rm{tr}}[\Phi _1^{\rm{T}}(Y - ts(UX) - {\varepsilon _1} - {\varepsilon _2})] + \\ {\rm{tr}}[\Phi _2^{\rm{T}}(X - Z)] + \frac{\mu }{2}\left\| {\bar Y - ts(UX) - {\varepsilon _1} - {\varepsilon _2}} \right\|_{\rm{F}}^2 \end{array} $ (14)

整理式(14)可得

$ \begin{array}{l} {{\mathcal{L}}_\mu }({\varepsilon _1},{\varepsilon _2},X,Z,{\Phi _1},{\Phi _2}) = {\left\| {{\varepsilon _1}} \right\|_*} + {\lambda _1}{\left\| {{\varepsilon _2}} \right\|_1} + \\ {\lambda _2}{\left\| Z \right\|_{2,1}} + \frac{\mu }{2}\left\| {\bar Y - ts(UX) - {\varepsilon _1} - {\varepsilon _2} + \frac{{{\Phi _1}}}{\mu }} \right\|_{\rm{F}}^2 - \\ \frac{1}{{2\mu }}\left( {\left\| {{\Phi _1}} \right\|_{\rm{F}}^2 + \left\| {{\Phi _2}} \right\|_{\rm{F}}^2} \right) \end{array} $ (15)

式中,μ>0是惩罚系数,${\Phi _1} = [\phi _1^1,\phi _1^2,\cdots \phi _1^{{n_3}}] \in {{\mathbb{R}}^{{n_1} \times {n_2} \times {n_3}}}$${\Phi _2} \in {{\mathbb{R}}^{m \times {n_3}}}$则是拉格朗日乘子。这样,式(15)是标准的拉格朗日乘子问题。因此本文模型式(12)就可转化为无约束凸优化问题,即

$ \mathop {\min }\limits_{{\varepsilon _1},{\varepsilon _2},X,{\Phi _1},{\Phi _2}} {{\mathcal{L}}_\mu }({\varepsilon _1},{\varepsilon _2},X,{\Phi _1},{\Phi _2}) $ (16)

这样,优化变量分别为ε1ε2XΦ1Φ2,求解时交替固定其他参数,求解其中一个参数。利用ADMM框架交替的迭代更新并分别求出式(16)中每一个参数的最优解,最后达到停机准则后结束即可。关于优化模型的详细步骤请参考算法1。

算法1 交替乘子法求解模型(ADMM)

输入:PCA基向量矩阵U,候选样本张量Y,参数λ1λ2,查准率ξ=10-3,最大迭代次数kmax=100。

输出:X=Xk+1ε1=ε1k+1ε2=ε2k+1k

1) 初始化:X0=0,Z0=0,ε10=0,ε20=0,Φ10=0,Φ20=0,μ=0.1,μmax=106ρ=10,k=0。

2) 迭代开始。

3) 令其他变量固定不变,求解X

$ {X^{k + 1}} = \frac{1}{2}\left[{{U^T}*mat\left( {y - \varepsilon _1^k - \varepsilon _2^k + \frac{{\Phi _1^k}}{\mu }} \right) + Z - \frac{{\Phi _2^k}}{\mu }} \right] $

4) 令其他变量固定不变,求解Z

$ {Z^{k + 1}} = \arg \mathop {\min }\limits_Z \frac{{{\lambda _2}}}{\mu }{\left\| {{Z^k}} \right\|_{2,1}} + \frac{1}{2}\left\| {{Z^k} - \left( {X + \frac{{\Phi _2^k}}{\mu }} \right)} \right\|_{\rm{F}}^2 $

5) 令其他变量固定不变,求解ε1

$ \varepsilon _1^{k + 1} = \mathop {\min }\limits_{{\varepsilon _1}} \frac{1}{\mu }{\left\| {\varepsilon _1^k} \right\|_*} + \frac{1}{2}\left\| {\varepsilon _1^k - \left[{\bar Y - ts(U{X^{k + 1}}) - \varepsilon _2^k + \frac{{\Phi _1^k}}{\mu }} \right]} \right\|_{\rm{F}}^2 $

6) 令其他变量固定不变,对ε2求解

$ \varepsilon _2^{k + 1} = \mathop {\min }\limits_{{\varepsilon _2}} \frac{{{\lambda _1}}}{\mu }{\left\| {\varepsilon _2^k} \right\|_1} + \frac{1}{2}\left\| {\varepsilon _2^k - \left[{\bar Y - ts(U{X^{k + 1}}) - \varepsilon _1^{k + 1} + \frac{{\Phi _1^k}}{\mu }} \right]} \right\|_{\rm{F}}^2 $

7) 令其他变量固定不变,求解拉格朗日乘子Φ1Φ2

$ \left\{ {\begin{array}{*{20}{l}} {\Phi _1^{k + 1} = \Phi _1^k + \mu \left[{\bar Y - ts(U{X^{k + 1}}) - \varepsilon _1^{k + 1} - \varepsilon _2^{k + 1}} \right]}\\ {\Phi _2^{k + 1} = \Phi _2^k + \mu ({X^{k + 1}} - {Z^{k + 1}})} \end{array}} \right. $

8) 更新参数μμ=min(ρμμmax)

9) 检查收敛条件:

$ \left\{ {\begin{array}{*{20}{l}} {{{\left\| {\bar Y - ts(U{X^{k + 1}}) - \varepsilon _1^{k + 1} - \varepsilon _2^{k + 1}} \right\|}_\infty } < \xi }\\ {{{\left\| {{X^{k + 1}} - {Z^{k + 1}}} \right\|}_\infty } < \xi } \end{array}} \right. $

10) 更新k=k+1;若k<kmax,则返回步骤2),否则迭代结束。

算法1中,mat(·)是张量转矩阵运算,步骤5)是利用算法2求解,而步骤6)是利用定理2解。

定理2[28]给定张量Q,假设

$ \mathop {\min }\limits_P \eta {\left\| P \right\|_1} + \frac{1}{2}\left\| {P - Q} \right\|_{\rm{F}}^2 $ (17)

的最优解是P*,那么P*ijkth元素值

$ P* = {S_\rho }(P*) = \left\{ {\begin{array}{*{20}{l}} {{P_{ijk}}* - \rho \;\;{P_{ijk}}* > \eta }\\ {{P_{ijk}}* + \rho \;\;{P_{ijk}}* < \eta }\\ {0\;\;其他} \end{array}} \right. $ (18)

式中,Sρ(·)是软阈值收缩算子。

由于张量SVD分解与矩阵SVD分解本质上有一定的区别,在各研究领域里出现了很多不同的张量SVD分解算法。其中比较常见的有CP模型[23-24](canonical decomposition or parallel factors model),TUCKER模型[25],HOSVD[26](higher-order SVD)及其延展。更多关于张量SVD分解问题请参考文献[27]。

本文算法中计算张量核范数时,考虑到算法的快速收敛性及其计算复杂度,采用类似文献[19]的快速SVD分解方法,并对其算法进行相应的改进,以符合本文算法的具体优化要求。其详细步骤如算法2所示。

算法2 张量SVD分解及其核范数计算(T-SVD)

输入:三阶张量ε1k$Q = \bar y - ts(U{X^{k + 1}}) - \varepsilon _2^k + \frac{{\Phi _1^k}}{\mu }$

输出:三阶张量$\varepsilon _1^{k + 1} \in {{\mathbb{R}}^{{n_1} \times {n_2} \times {n_3}}}$

1) 对张量Q正面方向进行快速傅里叶正变换,即

Q=fft(Q,3)

2) 对Q正向展开逐个进行SVD分解,并累积各分量,k=1,…,n3,则

$ \begin{gathered} {Q^k}\xrightarrow{{{\text{SVD}}}}{u_k}{s_k}v_k^{\text{T}} \hfill \\ U(:,:,k) = {u_k} \hfill \\ V(:,:,k) = {v_k} \hfill \\ S(:,:,k) = {s_k} \hfill \\ \end{gathered} $

3)对UVS正面方向进行快速傅里叶逆变换,即

$ \begin{array}{l} U = ifft(U,3)\\ V = ifft(V,3)\\ S = ifft(S,3) \end{array} $

4) 对S进行奇异值修正,即

$ \tilde S = \Psi (S) = \left\{ {\begin{array}{*{20}{l}} {{S_{ijk}} - \frac{1}{\mu }\;\;{S_{ijk}} \ge \frac{1}{\mu }}\\ {0\;\;\;其他} \end{array}} \right. $

5)逐个计算ε1的每一个正向分量,k=1,…,n3,则

$ \varepsilon _1^{k + 1}(:,:,k) = U(:,:,k)*\tilde S(:,:,k)*{V^{\rm{T}}}(:,:,k) $

算法2中,fft(·)表示快速傅里叶正变换,ifft(·)表示快速傅里叶逆变换。

2.4 计算复杂度分析

子空间输入矩阵$U \in {{\mathbb{R}}^{({n_1} \times {n_2}) \times k}}$,系数矩阵$X \in {{\mathbb{R}}^{k \times {n_3}}}$,候选样本张量$Y \in {{\mathbb{R}}^{{n_1} \times {n_2} \times {n_3}}}$,噪声项${\varepsilon _1} \in {{\mathbb{R}}^{{n_1} \times {n_2} \times {n_3}}}$${\varepsilon _2} \in {{\mathbb{R}}^{{n_1} \times {n_2} \times {n_3}}}$,且rε1ε1的秩,那么张量ε1的奇异值分解计算复杂度为O(rε1n1n2n3);矩阵UX之乘积计算复杂度为O(n1n2n3),三阶张量一次加减复杂度为O(n1n2n3)。${U^{\rm{T}}} \in {{\mathbb{R}}^{k \times ({n_1} \times {n_2})}}$$mat\left( {\bar Y - \varepsilon _1^k - \varepsilon _2^k + \frac{{\Phi _1^k}}{\mu }} \right) \in {{\mathbb{R}}^{({n_1} \times {n_2}) \times {n_3}}}$乘积为O(kn3),张量一次fft(或ifft)变化计算复杂度为O(n1n2n32)。因此,算法1的总计算复杂度应为${\rm{O}}\{ N[({n_1}{n_2}{n_3})(k + {r_{\varepsilon 1}} + 18 + {n_3}) + 6(k{n_3})]\} $。式中,N是迭代次数,其值依赖于参数ρ的值。ρ取值越大,那么N越小,算法越快,反之亦然。虽然选择大一些的ρ可以减少迭代次数,而提高收敛速度,但性能会受影响。实验中,设ρ=10,此时迭代次数小于10(大概35左右),同时性能也比较令人满意。

3 视频跟踪算法框架

3.1 粒子滤波

粒子滤波是基于经典的蒙特卡罗随机模拟方法推理系统状态空间的一种概率模型,将系统状态假设为随时间的变化而演化。其核心思想是通过从后验概率中抽取的随机状态数据来模拟当前时刻的状态分布。因此,其可应用在任何形式的状态空间模型上。当样本数量足够大时,可以逼近任何形式的概率密度分布。由于其对非线性非高斯系统有很强的建模能力,在视觉系统建模中也表现出了优越的特性。

本文跟踪算法采用贝叶斯模型结合隐马尔可夫模型的粒子滤波框架[12]。假设在跟踪过程中,${R_{1:t}} = [{r_1},{r_2},\cdots {r_t}] \in {{\mathbb{R}}^{d \times t}}$是从跟踪开始一直到t时刻所获得的目标信号,算法是根据已观察到的目标信息估计出当前视频帧里隐式的目标状态变量S,这可通过贝叶斯推论表示为

$ \begin{array}{l} p({S_t}|{R_{1:t}}) \propto \\ p({R_t}|{S_t})\int {p({S_t}|{S_{t - 1}})p({S_{t - 1}}|{R_{1:t - 1}})} {\rm{d}}{S_{t - 1}} \end{array} $ (19)

式中,p(St|St-1)是相邻视频帧之间目标的状态转移概率(动力学模型),p(Rt|St)是在观察变量中需要估计其最大似然概率的观测模型。流程图 5显示了本文跟踪算法的整体框架。

图 5 本跟踪算法总体框架
Fig. 5 Tracking framework of our algorithm

3.2 动力学模型

目标在视频序列中的位置一般可用仿射图像运动模型表示,其各参数反映着目标图像块在仿射坐标系中的各种状态信息。目标图像块在t时刻的变化可以用6个仿射变换参数来描述[12],即:${S_t} = {[{x_t},{y_t},{\theta _t},{s_t},{a_t},{\phi _t}]^{\rm{T}}}$。其中xtyt是目标图像块在xy方向的变化,而θtstatφt分别是旋转角、缩放、纵横比以及斜切率。在不同时刻的状态转变中,St中的每一参数是在前一时刻的状态St-1的基础上独立高斯分布采样获得,即

$ p({S_t}|{S_{t - 1}}) = N({S_t};{S_{t - 1}},\sum ) $ (20)

式中,Σ是对角协方差矩阵,其元素反映着6个仿射参数的变化情况。

3.3 观测模型

当跟踪器跟踪到第t帧时,根据前一时刻的目标状态信息稠密采样得出n个候选样本Yt,其观测模型可以通过目标模板U的线性组合加上相关噪声项来表示,即

$ {\bar Y^t} = mat(U{X^t}) + \varepsilon _1^t + \varepsilon _2^t $ (21)

式中,${{\bar Y}^t} = {{\bar Y}^t} - {M_\mu }$是去掉均值后的候选样本,Xt是模型表示系数,ε1tε2t分别是t时刻重构的块噪声及随机噪声。

3.4 测度距离及最大似然度估计

跟踪中要充分保证观测模型的有效性,应在重构误差最小的前提下,精确表示当前视频帧中的候选样本外观模型。即,进一步发挥模板数据表示能力的同时,尽可能地去挖掘各种干扰下的最小重构误差,从而确认候选样本Y与子空间(Uμ)之间的最小距离。本文采取测度距离

$ d(\bar Y;{\varepsilon _1},{\varepsilon _2}) = {\left\| {{\varepsilon _1}} \right\|_*} + {\lambda _1}{\left\| {{\varepsilon _2}} \right\|_1} $ (22)

将式(22)的测度距离最小化问题转化为观测似然度最大化问题,即

$ p({{\bar Y}_t}|{S_t}) = \max {{\rm{e}}^{ - \gamma d(\bar Y;{\varepsilon _1},{\varepsilon _2})}} $ (23)

式中,γ是高斯核参数(常数),实验中取γ=1。

3.5 目标模板更新

目标跟踪中目标模板是从每一时刻的跟踪结果中不断学习而得。这意味着,视频跟踪系统所用到的目标模板也是一种动态变化的数据。因为相对固定的模板数据是不能满足时刻发生变化的候选样本外观模型表示需求,所以应要对其模板数据进行定期的更新。合适的更新有助于强化模板数据的概括能力,但更新节奏不能太频繁,以免产生病态模板数据并导致模型退化。同样,如果不按时更新模板数据,跟踪器同样无法正确描述各种干扰下的目标外观变化。因此,采用类似文献[13]的方法处理本文跟踪框架中目标模板更新问题。

文献[13]中提出重构误差中拉普拉斯约束获得的噪声项不为零处为遮挡所在,因此在模板更新时其相应位置像素值应该用均值中的相应像素值来替代。在每一帧跟踪中,捕捉似然度最大的目标图像块和其相应的噪声项。若t时的目标Yk出现遮挡现象,可以根据其相关噪声项ε2k的像素非零值,用模板均值μ的相应位置像素值来替换Yk相应位置的像素值,从而得到新的复原目标

$ \begin{array}{l} \bar Y_{ij}^k = \left\{ {\begin{array}{*{20}{c}} {Y_{ij}^k\;\;\varepsilon _{2ij}^k < \tau }\\ {{\mu _{ij}}\;\varepsilon _{2ij}^k \ge \tau \;} \end{array}} \right.\\ i,j = 1,2,\cdots ,{n_1} \end{array} $ (24)

式中,${{\bar Y}^k} \in {R^{{n_1} \times {n_2}}}$是当前修复的无遮挡目标,τ=0.3是影响阈值,μ是当前模板均值。然后从跟踪到的目标数据中,通过增量PCA生成新的目标模板并更新其子空间基向量集合U并生成新的均值μ。本文遮挡模板恢复和更新策略如图 6所示。

图 6 数据恢复及模板更新策略
Fig. 6 Data recovery & template update strategy

在模板更新中,采用了遗忘策略,保证模板数量保持不变的前提下,始终处于最佳的状态。在每次更新模板时,先按照模板数据对外观模型表示的贡献,为其分配相应的权重。如其数量超过规定数值,那么按照其权重大小,保留贡献大的模板数据,而舍去贡献小的模板,从而满足观测模型对模板的精度要求。

4 实验与分析

为了验证本文跟踪算法的有效性,挑选出视频跟踪领域里公认的8种具有代表性的测试视频序列,对其进行目标跟踪实验。这些视频序列中包含着姿态变化、光照变化、严重遮挡、尺度变化、运动突变以及运动模糊等各种挑战性干扰因素,其如图 7所示。然后将跟踪结果与IVT[12]、LSST[13]、MTT[14]、SCM[28](sparsity-based collaborative model)、ASLAM[29](adaptive structural local sparse appearance model)及OSPT[30](object tracking with sparse prototype)等目前认为比较优秀的跟踪算法进行定量和定性比较。在Matlab环境中利用各文献提供的代码来实现跟踪算法,并用几乎同样的参数对这8种视频序列进行对比实验。

图 7 视频中的挑战性干扰因素
Fig. 7 Tracking challenges in video sequences
((a) illumination; (b) scale; (c) occlusion; (d) pose change; (e) motion blur; (f) camera shake; (g) rotation; (h) background scattering)

实验在一台处理器为i5-2450M 2.50 GHz(4核)、8 GB内存,装有 Windows7系统的笔记本上利用Matlab 2013b完成。目标函数的参数设为λ1=0.1,λ2=0.01,跟踪目标图像块标准化后尺寸为32×32像素。为了保持跟踪算法的效率和运行速度,PCA基向量数目设为16,采样粒子数目为600,目标模板更新间隔为每5帧更新一次。

4.1 实验结果定量比较

由于进行实验的各测试视频包含着一些复杂的干扰因素,其为各种算法的鲁棒性实验提供公平公正的实验环境。另外,这些视频还包含着所要跟踪目标的实际手动标注信息,通过比较算法跟踪结果与手动标注的实际目标信息之间的中心位置误差和重叠率来验证不同算法在同一个测试视频中对各种干扰因素的鲁棒性。

1)设Tx,y表示目标在每一帧中跟踪到的中心位置,Gx,y表示手动标注的实际中心位置,那么每一帧中的目标中心位置误差为

$ E = \frac{1}{2}{\left\| {{T_{x,y}} - {G_{x,y}}} \right\|_1} $ (25)

表 2中给出本文算法与其他算法在各视频序列上的平均中心位置误差,表 2中不同算法所表现出的最小误差以黑体显示,误差越小表明跟踪算法精度越高,最下方给出平均值用来评估各算法的总体性能指标,数字显示本文算法排在前列。

表 2 目标在视频序列中的平均中心位置误差
Table 2 Average center location error of object in video frames

下载CSV
视频序列 IVT SCM MTT ASLAM OSPT LSST 本文
Occlusion2 5.14 4.54 7.79 3.06 4.04 3.30 3.17
Caviar3 62.75 62.15 66.92 2.17 4.36 3.07 3.00
Singer1 12.77 2.94 21.51 6.33 4.75 3.51 3.40
DavidIndoorNew 2.83 30.44 12.48 2.81 3.21 3.15 4.27
DavidOutdoor 50.66 77.12 376.12 87.51 5.76 6.44 5.27
Owl 126.66 6.81 179.20 7.96 47.44 6.20 6.49
Car4 2.99 78.29 8.82 5.80 3.03 2.87 2.77
Football 5.76 11.06 6.87 17.24 33.71 7.57 4.95
平均 33.7 34.2 85.0 16.6 13.3 4.51 4.2
注:黑体表示最好的跟踪结果。

2)设RT表示每一帧中的跟踪结果所表示的目标像素区域,RG表示手动标注的实际目标像素区域,那么重叠率为

$ S = \frac{{area({R_T} \cap {R_G})}}{{area({R_T} \cup {R_G})}} $ (26)

表 3给出本文算法和其他算法在各视频序列上的跟踪结果与实际信息的重叠率,重叠率越大表明跟踪性能越好。表 3平均值显示,本文算法总体精度最高。

表 3 目标区域在视频序列中的平均重叠率
Table 3 Average overlap rate of object area in video frame

下载CSV
视频序列 IVT SCM MTT ASLAM OSPT LSST Ours
Occlusion2 0.80 0.82 0.72 0.82 0.84 0.84 0.86
Caviar3 0.14 0.15 0.14 0.85 0.81 0.85 0.85
Singer1 0.57 0.89 0.40 0.77 0.82 0.80 0.88
DavidIndoorNew 0.76 0.45 0.54 0.75 0.76 0.72 0.74
DavidOutdoor 0.56 0.51 0.10 0.45 0.77 0.76 0.77
Owl 0.22 0.80 0.09 0.76 0.48 0.81 0.80
Car4 0.92 0.36 0.63 0.87 0.92 0.92 0.92
Football 0.74 0.69 0.73 0.60 0.62 0.69 0.77
平均 0.59 0.58 0.42 0.73 0.75 0.80 0.82
注:黑体表示最好的跟踪结果。

总之,表 2表 3显示的各算法在不同测试视频上的中心位置误差平均值和重叠率平均值表明,本文算法对各视频序列中的种种干扰因素表现出更为鲁棒的性能。

4.2 实验结果定性比较

从8种测试视频中展示出部分跟踪结果,其如图 8所示。

图 8 不同算法在8种不同测试序列上的对比实验结果
Fig. 8 Tracking results on eight challenging image sequences using difference algorithms
((a) Occlusion2; (b) Caviar3; (c) Singer; (d) David Indoor New; (e) David Indar; (f) Owl; (g) Car4; (h) Football)

图 8(a)所示的是算法在视频序列Occlusion2的测试结果。其中目标遇到严重局部遮挡、旋转以及尺度变化等干扰,其中遮挡的破坏性最大。实验结果显示,所有的跟踪算法都能够从头到尾较好地跟踪到目标,但是从表 3及跟踪结果展示图(#166、#271、#351、#421、#586、#731)中可以看出,目标处在严重遮挡或旋转时,IVT和MTT稳定性较弱一些,特别是目标出现旋转和遮挡的时候MTT无法正确适应目标的状态变化,其表现较差。SCM和ASLAM表现出稍微不稳定现象,但总体性能好。本文算法表现最好,其次是OSPT和LSST。

图 8(b)所示的视频序列Caviar3中目标会受到姿态、位置、尺度以及严重遮挡等的干扰。由于本序列中被跟踪的目标区域较小,目标信息的轻微变化可能会引起较大的差异,特别是遮挡的影响很大。因此,以上所述的障碍对跟踪器带来极大的挑战。本序列上的测试结果(#78、#96、#129、#443、#478)显示,目标从画面左侧交换到右侧的过程中被其旁边的两个人物完全遮挡两次。从第1次的遮挡开始IVT、SCM和MTT等算法严重流失目标,而错误地跟踪到其他人物。MTT除了丢失目标之外,无法正确应对目标的尺度变化。其他算法始终能够准确跟踪目标。其中,ASLAM、LSST和本文算法表现最好,其次是OSPT算法。

图 8(c)所示的视频序列Singer中,目标受到强烈光照、摄影机镜头的推动而产生的尺度变化以及频繁闪亮的舞台灯光产生背景混乱等干扰。此视频序列上的测试结果(#96,#151,#181,#256,#321)显示,MTT和IVT依然对目标的尺度变化适应度明显较差,ASLAM有时候也出现稍不稳定现象,只有SCM、OSPT、LSST和本文算法能够陆续地跟踪到混乱背景中的目标,SCM表现出最好的鲁棒性能,其次是本文算法表现出较好的跟踪结果。

图 8(d)所示的视频序列DavidIndoorNew中,目标受到光照、姿态、位置、尺度以及轻微遮挡等复杂变化的干扰。在初始帧中,目标处在较暗的地方,再跟随摄影机进入较亮的区域。这一过程中目标受到内在或外在因素的影响,而引起较明显的状态变化。本序列上的测试结果(#223、#253、#353、#493,#606)显示,SCM和MTT等算法跟踪持续到#353帧开始产生不稳定现象,#383开始SCM流失目标,#399开始MTT流失目标,而其他算法基本表现出良好性能。LSST有时候出现稍微不稳定现象,ASLAM和本文算法相对比较稳定,而IVT和OSPT表现更为突出。

图 8(e)所示的视频序列DavidOutdoor中目标在走动,其姿态、位置、视角都在发生较明显的变化,而且两处存在局部或完全的遮挡物,目标在来回走动中被遮挡物严重干扰。从图(#42、#84、#130、#179、#189、#225)中可以看到,目标在一开始被小柱子遮挡时MTT失去目标,到#84帧被一棵树遮挡时,SCM、ASLAM及LSST出现轻微的偏移,但不丢目标。目标继续前进一段路程后往回走动时SCM和ASLAM开始丢失目标。目标再次被树遮挡时LSST又出现稍微偏离目标现象,但不丢失目标,而IVT开始流失目标。只有OSPT,LSST和我们的算法能够陆续准确跟踪到目标,其中OSPT和本文算法表现最好。

图 8(f)所示的视频序列Owl中存在摄影机的严重抖动而产生的位置、视角、旋转以及严重运动模糊等干扰,目标在大部分视频帧中都是非常模糊的。摄影机的晃动引起目标严重丢失其真实肌理特征,使目标区域像素产生明显的相似性,而目标与模板之间产生较大的差距。这对正确识别目标状态带来较大的挑战。从实验结果看,跟踪持续到#56帧时MTT就开始丢失目标,到#178帧时IVT开始流失目标,到#367时OSPT开始丢失目标,ASLAM有时候出现轻微的漂移现象,但能够始终跟踪到目标。表现最好的是LSST,其次是SCM和本文算法。

图 8(g)所示的视频序列Car4中,随着目标的快速运动,摄影机也跟随运动。其中存在目标轻微运动模糊、强烈光照以及尺度变化等干扰。跟踪中随着目标的状态变化,到#136帧时SCM开始产生跟踪漂移现象,并且目标进入阴影区域其开始丢失目标。同时,MTT也出现轻微漂移,并失去尺度适应能力,跟踪延续到快结束时SCM和MTT又重新回复到目标区域,但跟踪精度较低。其他算法始终能够较为准确地跟踪到目标。

图 8(h)所示的视频序列Football中主要存在姿态、位置、尺度、运动模糊、遮挡以及背景混乱等多种复杂干扰因素。本序列中目标与场景中其他对象的相似度非常高。特别是目标出现遮挡时,其与遮挡物极其相似。这使跟踪器很容易误判目标。本序列上的测试结果(#138,#154,#170,#293,#362)显示,依次ASLAM、OSPT和SCM等算法出现暂时性飘动现象,目标受到严重遮挡后就开始流失目标,而其他算法基本从头到尾跟踪到目标。虽然SCM出现轻微漂移或流失目标现象,依然达到和LSST同等的跟踪水平。特别是本文算法性能最好,其次是IVT和MTT。

总地来讲,本文算法在以上8种测试视频中的姿态、位置、运动模糊、遮挡、光照、尺度及背景混乱等种种干扰因表现出较为鲁棒的性能,与一些同类算法达到同样的跟踪水平或超越它们。表 2表 3中给出的各算法详细实验数据及其相关视频序列图显示,IVT对局部遮挡、运动模糊及运动突变表现较差,MTT对尺度变化及局部遮挡不够鲁棒,SCM对光照变化较为敏感,OSPT对运动模糊与运动突变的适应能力稍弱,LSST对运动突变稍微敏感,但相对比较稳定,而其他算法基本表现出良好的跟踪性能。在不同视频序列的分别测试结果足以证明,本文算法成功克服各测试视频序列中的种种干扰因素,从头到尾能够连续地跟踪到目标的准确状态信息,并表现出更为鲁棒的性能。

5 结 论

从实验分析的角度提出了一种更为精确的基于张量的观测模型及其有效的误差估计机制。利用张量从多线性分析的角度重新描述跟踪框架中的观测模型,保持样本数据原有的自然特征的同时,将它们映射到数据维度较为紧凑的张量空间中,以多任务的形式充分挖掘候选样本外观的独立性及其潜在的依赖关系。同时,其核范数和L1范数正则化的误差估计机制能够快速识别目标区域受到遮挡或激烈光照等严重破坏时的目标状态,以充分挖掘残差数据中各像素间的相关性特征来构造最小的重构误差,从而提高跟踪算法的快速定位和辨认能力。实验结果表明,基于张量核范数正则化的候选样本观测模型,更加能够充分发挥其多任务模型学习特性,使得跟踪器具有较强的自纠能力。这样的模型表示机制能够一定程度地增强跟踪系统的建模和泛化能力,以至于良好地适应场景中的各种干扰,从而减轻由不确定因素所引起的模型退化及跟踪漂移问题。

实验结果表明,虽然本文算法在各种测试视频中对影响跟踪性能的种种挑战性因素(遮挡、光照变化、姿态变化、尺度变化、背景扰乱、突变以及运动模糊等)表现出良好的适应性,但以张量表示的多维数据结构及其计算过程还需要更进一步优化。今后的工作中,希望对跟踪算法更加深入研究,优化调整其整体模型及其相关参数,更进一步提高其建模能力。

参考文献

  • [1] Cacciabue P C, Mancini G, Bersini U. A model of operator behaviour for man-machine system simulation[J]. Automatica, 1990 ,26 (6) : 1025 –1034. [DOI:10.1016/0005-1098(90)90086-W]
  • [2] Wang X G, Wang M, Li W. Scene-specific pedestrian detection for static videosurveillance[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014 ,36 (2) : 361 –374. [DOI:10.1109/TPAMI.2013.124]
  • [3] Li L, Wen D, Yao D Y. A survey of traffic control with vehicularcommunications[J]. IEEE Transactions on Intelligent Transportation Systems, 2014 ,15 (1) : 425 –432. [DOI:10.1109/TITS.2013.2277737]
  • [4] Zhu J D, Lao Y W, Zheng Y F. Object tracking in structured environments for video surveillance applications[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2010 ,20 (2) : 223 –235. [DOI:10.1109/TCSVT.2009.2031395]
  • [5] Olson C F. Maximum-likelihood template matching[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Hilton Head Island, SC: IEEE, 2000, 2: 52-57. [DOI: 10.1109/CVPR.2000.854735]
  • [6] Wang N Y, Wang J D,Yeung D Y. Online robust non-negative dictionary learning for visual tracking[C]//Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney,NSW: IEEE, 2013: 657-664. [DOI: 10.1109/ICCV.2013.87]
  • [7] Shin J, Kim S, Kang S, et al. Optical flow-based real-time object tracking using non-prior training active featuremodel[J]. Real-Time Imaging, 2005 ,11 (3) : 204 –218. [DOI:10.1016/j.rti.2005.03.006]
  • [8] Comaniciu D, Ramesh V, Meer P. Real-time tracking of non-rigid objects using mean shift[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Hilton Head Island, SC: IEEE, 2000, 2: 142-149. [DOI: 10.1109/CVPR.2000.854761]
  • [9] Zhong W, Lu H C, Yang M H. Robust object tracking via sparse collaborative appearance model[J]. IEEE Transactions on Image Processing, 2014 ,23 (5) : 2356 –2368. [DOI:10.1109/TIP.2014.2313227]
  • [10] Yilmaz A, Javed O, Shah M. Object tracking: A survey[J]. ACM Computing Surveys, 2006 ,38 (4) : #13 . [DOI:10.1145/1177352.1177355]
  • [11] Wu Y, Lim J, Yang M H. Online object tracking: A benchmark[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR: IEEE, 2013: 2411-2418. [DOI: 10.1109/CVPR.2013.312]
  • [12] Ross D A, Lim J, Lin R S, et al. Incremental learning for robust visual tracking[J]. International Journal of Computer Vision, 2008 ,77 (1-3) : 125 –141. [DOI:10.1007/s11263-007-0075-7]
  • [13] Wang D, Lu H C, Yang M H. Least soft-threshold squares tracking[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR: IEEE, 2013: 2371-2378. [DOI: 10.1109/CVPR.2013.307]
  • [14] Zhang T Z,Ghanem B, Liu S, et al. Robust visual tracking via multi-task sparse learning[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2012: 2042-2049. [DOI: 10.1109/CVPR.2012.6247908]
  • [15] Zhang T Z,Ghanem B, Liu S, et al. Low-rank sparse learning for robust visual tracking[C]// Proceedings of the 12th European conference on Computer Vision-Volume Part VI. Berlin Heidelberg: Springer, 2012: 470-484. [DOI: 10.1007/978-3-642-33783-3_34]
  • [16] He X F,Cai D, Niyogi P. Tensor subspace analysis[C]//Proceedings of the 2005 Conference on Advances in Neural Information Processing Systems 18. Vancouver, Canada: NIPS, 2005: 499-506.
  • [17] Lu H P, Plataniotis K N, Venetsanopoulos A N. A survey of multilinear subspace learning for tensor data[J]. Pattern Recognition, 2011 ,44 (7) : 1540 –1551. [DOI:10.1016/j.patcog.2011.01.004]
  • [18] Mohseni H, Kasaei S. Tensor-based face representation and recognition using multi-linear subspace analysis[C]//Proceedings of the 14th International CSI Computer Conference. Tehran: IEEE, 2009: 658-663. [DOI: 10.1109/CSICC.2009.5349654]
  • [19] Kilmer M E, Martin C D,Perrone L. A third-order generalization of the matrix SVD as a product of third-order tensors[R]. Medford, Massachusetts, USA: Tufts University, Department of Computer Science, 2008.
  • [20] Mei X, Ling H B. Robust visual tracking using [XCLL.tif,JZ]1 minimization[C]//Proceedings of the IEEE 12th International Conference on Computer Vision. Kyoto: IEEE, 2009: 1436-1443. [DOI: 10.1109/ICCV.2009.5459292]
  • [21] Luo L, Yang J, Qian J J, et al. Nuclear norm regularized sparse coding[C]//Proceedings of the 22nd International Conference on Pattern Recognition. Stockholm: IEEE, 2014: 1834-1839. [DOI: 10.1109/ICPR.2014.321]
  • [22] Boyd S, Parikh N, Chu E, et al. Distributed optimization and statistical learning via the alternating direction method of multipliers[J]. Foundations and Trends® in Machine Learning, 2010 ,3 (1) : 1 –122. [DOI:10.1561/2200000016]
  • [23] Carroll J D, Chang JJ. Analysis of individual differences in multidimensional scaling via an n-way generalization of "Eckart-Young" decomposition[J]. Psychometrika, 1970 ,35 (3) : 283 –319. [DOI:10.1007/BF02310791]
  • [24] Harshman R A. Foundations of the PARAFAC procedure: Models and conditions for an "explanatory" multi-modal factor analysis[J]. UCLA Working Papers in Phonetics, 1970 ,16 : 1 –84.
  • [25] Tucker L R. Some mathematical notes on three-mode factoranalysis[J]. Psychometrika, 1966 ,31 (3) : 279 –311. [DOI:10.1007/BF02289464]
  • [26] DeLathauwer L, De Moor B, Vandewalle J. A multilinear singular value decomposition[J]. SIAM journal on Matrix Analysis and Applications, 2000 ,21 (4) : 1253 –1278. [DOI:10.1137/S0895479896305696]
  • [27] Kolda T G, Bader B W. Tensor decompositions and applications[J]. SIAM Review, 2009 ,51 (3) : 455 –500. [DOI:10.1137/07070111X]
  • [28] Lin Z C, Chen MM, Ma Y Q. The augmented lagrange multiplier method for exact recovery of corrupted low-rank matrices[J]. Eprint Arxiv, 2010, 9, 1009.5055. [DOI: 10.1016/j.jsb.2012.10.010]
  • [29] Zhong W, Lu H C, Yang M H. Robust object tracking via sparsity-based collaborative model[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2012: 1838-1845. [DOI: 10.1109/CVPR.2012.6247882]
  • [30] Jia X, Lu H C, Yang M H. Visual tracking via adaptive structural local sparse appearance model[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2012: 1822-1829. [DOI: 10.1109/CVPR.2012.6247880]
  • [31] Wang D, Lu H C, Yang M H. Online object tracking with sparse prototypes[J]. IEEE Transactions on Image Processing, 2013 ,22 (1) : 314 –325. [DOI:10.1109/TIP.2012.2202677]