Print

发布时间: 2016-11-25
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.20161105
2016 | Volumn 21 | Number 11




    图像处理和编码    




  <<上一篇 




  下一篇>> 





联合模板先验概率和稀疏表示的目标跟踪
expand article info 田猛1,2, 路成1,2, 周健1,2, 施汉琴1, 陶亮1
1. 安徽大学计算智能与信号处理教育部重点实验室, 合肥 230039;
2. 安徽大学媒体计算研究所, 合肥 230601

摘要

目的 虽然基于稀疏表示的目标跟踪方法表现出了良好的跟踪效果,但仍然无法彻底解决噪声、旋转、遮挡、运动模糊、光照和姿态变化等复杂背景下的目标跟踪问题。针对遮挡、旋转、姿态变化和运动模糊问题,提出一种在粒子滤波框架内,基于稀疏表示和先验概率相结合的目标跟踪方法。 方法 通过先验概率衡量目标模板的重要性,并将其引入到正则化模型中,作为模板更新的主要依据,从而获得一种新的候选目标稀疏表示模型。 结果 在多个测试视频序列上,与多种流行算法相比,该算法可以达到更好的跟踪性能。在5个经典测试视频下的平均中心误差为6.77像素,平均跟踪成功率为97%,均优于其他算法。 结论 实验结果表明,在各种含有遮挡、旋转、姿态变化和运动模糊的视频中,该算法可以稳定可靠地跟踪目标,适用于视频监控复杂场景下的目标跟踪。

关键词

目标跟踪; 稀疏表示; 先验概率; 粒子滤波; 模板更新; 正则化模型

Target tracking based on a priori probability of template and sparse representation
expand article info Tian Meng1,2, Lu Cheng1,2, Zhou Jian1,2, Shi Hanqin1, Tao Liang1
1. Key Laboratory of Intelligent Computingand Signal Processing of Ministry of Education, Anhui University, Hefei 230039, China;
2. Institute of Media Computing, Anhui University, Hefei 230601, China
Supported by: National Natural Science Foundation of China(61372137, 61301295); Natural Science Foundation of Anhui Province, China(1308085QF100, 1408085MF113)

Abstract

Objective Although sparse representation-based tracking approaches show good performance, they usually fail to observe the object motion because of noise, rotation, partial occlusion, motion blur, and illumination or pose variation. This study proposes an algorithm based on sparse representation and a priori probability of object template to improve tracking capability under partial occlusion, rotation, pose change, and motion blur conditions.An L1 tracker is also developed, which runs in real time and possesses better robustness than other L1 trackers. Method The importance of the target template is measured by a priori probability and is considered in the proposed algorithm when updating the object template. Combined with the regularization model, a novel sparse representation model of the object is presented. Based on the proposed target appearance model, an effective template update scheme is designed by adjusting the weighs of the target templates. The tracking particles of the current frame are generated by the last tracking result according to the Gaussian distribution. The sparse representation of each particle to the template subspace is obtained by solving the L1-regularized least square problem, and a target searching strategy is employed to find the particle that well matches the template as the tracking result. The particle filter is then used to propagate sample distribution in the next tracking frame. Result Compared with existing popular tracking algorithms, the proposed algorithm can achieve better tracking performance in diverse test video datasets.Experimental results demonstrate that the proposed algorithm can handle appearance changes, such as pose variation, rotation, illumination, motion blur, and occlusion. Compared with state-of-the-art methods, the proposed algorithm performs well and obtains the best results in the sequences of FaceOcc1, Girl, BlurBody, and Singer1, with average center location errors of 6.8, 4.0, 16.3, and 3.5 pixels, respectively. The average tracking success rate of the proposed algorithm is high. The tracking accuracy is improved with the proposed minimization model for finding the sparse representation of the target, and the real-time performance is achieved by a new APG-based numerical solver for the resulting L1 norm-related minimization problems. Conclusion The proposed algorithm can track target robustly and reliably under partial occlusion, rotation, pose variation, and motion blur conditions.A very fast numerical solver based on the accelerated proximal gradient approach is developed to solve the resulting L1 norm-related minimization problem. Qualitative and quantitative evaluations demonstrate that the performance of the proposed algorithm is comparable to that of the state-of-the-art tracker on challenging benchmark video sequences. The proposed method can therefore be used for engineering applications.

Key words

target tracking; sparse representation; priori probability; particle filter; template update; regularization model

0 引言

目标跟踪是当前计算机视觉领域的研究热点,并且有着广泛的实际应用,比如自动监控、智能导航、人机交互、军事防御等。尽管目标跟踪经过几十年的发展已经有了很大的进步,但是仍然有很多问题没有彻底解决,比如因噪声、旋转、遮挡、运动模糊、光照和姿态变化等引起的目标外观变化使得目标跟踪的准确性和鲁棒性受到了极大的挑战[1-3]

目标跟踪算法一般可分为基于判别模型的跟踪算法和基于生成模型的跟踪算法。基于判别模型的跟踪算法将跟踪问题转化为分类问题,跟踪过程就是将图像中目标和背景分开,因此如何设计鲁棒的分类器是这类算法的关键。Avidan[4]提出一种基于支持向量机分类器的单目标跟踪算法,但是该算法直接从当前跟踪结果中提取正负样本,误差容易累积,无法解决目标被遮挡问题。2011年,Babenkod等人[5]提出了多实例学习跟踪算法(MIL),该算法的训练样本是通过“包”的形式给出的,正样本包中至少包含一个正样本实例,负样本包中全部是负样本实例。通过多实例学习的算法判定样本的类别,该算法很好地解决了样本更新问题。

基于生成模型的跟踪算法是通过学习到的外观模型来对目标进行表示,具有最小重构误差的图像区域被判定为所要跟踪的目标。2008年,Ross等人[6]提出增量子空间学习跟踪算法(IVT),利用主成分分析(PCA)对目标进行线性表示。该方法利用增量学习的方式对子空间进行更新,可以实时有效地适应目标外观的变化,而且每次更新是在原来基础上改变部分特征基和均值。该算法较好地解决了光照变化、姿态变化等带来的跟踪漂移问题,但对目标遮挡和旋转比较敏感。2009年,Mei等人[7]首次将稀疏表示引入到目标跟踪领域,提出了基于L1正则化的跟踪方法,该方法将目标模板和琐碎模板作为字典来线性表示每一个候选目标(粒子),当前帧的候选目标由前一帧的跟踪结果按高斯分布产生。由于琐碎模板描述目标遮挡部分,这样就比较好地解决了目标部分遮挡的问题,但是每一个候选目标都要求解一次L1正则化问题,因此基于内点法的L1跟踪方法无法满足实时性。随后很多学者开始探索基于稀疏表示的目标跟踪,其中Chen等人[8]利用多个PCA子空间代替灰度像素作为目标模板,该算法虽然能够更好地反映目标外观的变化,但是算法的时间复杂度仍然高。

2011年,Mei等人又提出了最小误差边界策略[9],由于L2正则化的重构误差是L1正则化重构误差的下确界,Mei等人使用L2正则化对L1跟踪器中的采样粒子进行一次预选择,减少L1正则化的次数,以此降低计算量,提高算法的实时性。在文献[10]中,Liu提出了一种通过降低外观模板或候选目标的特征向量维数方法,来降低计算复杂度,同样提高了运算速度。Li等人[11]利用L0最小化来快速求解稀疏表示,并且使用基于块状的遮挡模板,以此来降低字典的尺寸,最终提高了跟踪速度。2012年,Bao等人[12]利用加速邻近梯度法[13]求解L1正则化问题,即L1-APG(L1 tracker using accelerated proximal gradient approach),实现快速的目标跟踪,因为并没有改变正则化模型,所以跟踪效果与L1跟踪器相当。

观察表明,在基于L1正则化的跟踪器中,琐碎模板均包含在外观模板中,其主要用于线性表示目标遮挡部分和图像噪声,但是文献[14]认为琐碎模板可能会线性表示目标的一部分,因此会降低跟踪结果的精度。此外,在跟踪过程中,早期的跟踪结果相对比较精确,所以应该更多保留这些跟踪目标模板。例如,Xu等人[15]采用一种更新概率序列来平衡新旧模板,但该方法依然会产生跟踪误差。

为了平衡新旧模板并反映关键模板的作用,本文提出一种新的正则化模型和模板更新策略。首先基于累积选择的方法来选取高概率模板,利用模板不同的先验概率进行模板更新,同时将模板的重要性引入到正则化模型中来进一步反映关键模板对跟踪结果的重要性。此外,为了提高算法的实时性,使用加速近端梯度法求解上述L1正则化模型。

1 基于L1正则化的目标跟踪算法

基于L1正则化的目标跟踪方法最早由Mei等人[7]提出,下面先简要介绍粒子滤波框架,然后给出L1跟踪器算法。

1.1 粒子滤波框架

粒子滤波本质上是通过非参数化的蒙特卡罗模拟来实现贝叶斯滤波,即利用一组带有权重的随机样本近似描述系统状态的后验概率密度,包括预测和更新两部分。设t-1时刻之前的观测集为$\mathit{\pmb{z}}$1:t-1={$\mathit{\pmb{z}}$1, $\mathit{\pmb{z}}$2, …, $\mathit{\pmb{z}}$t-1},用$\mathit{\pmb{x}}_{t}^{i}$表示t时刻的第$i$个采样粒子的系统状态,目标在t时刻的最佳状态可由最大近似后验概率求解,即

$\mathit{\pmb{x}}_{t}^{*}=\underset{x_{t}^{i}}{\mathop{\arg \max }}\,p\left( \mathit{\pmb{x}}_{t}^{i}|{{\mathit{\pmb{z}}}_{1:t}} \right)$ (1)

后验概率$p\left( {{\mathit{\pmb{x}}}_{t}}|{{\mathit{\pmb{z}}}_{1:t}} \right)$可由贝叶斯理论进行预测和更新,即

$\begin{align} & \ \ \ \ \ \ \ \ \ \ p\left( {{\mathit{\pmb{x}}}_{t}}|{{\mathit{\pmb{z}}}_{1:t-1}} \right)= \\ & \int{p\left( {{\mathit{\pmb{x}}}_{t}}|{{\mathit{\pmb{x}}}_{t-1}} \right)p\left( {{\mathit{\pmb{x}}}_{t-1}}|{{\mathit{\pmb{z}}}_{1:t-1}} \right)}\text{d}{{\mathit{\pmb{x}}}_{t-1}} \\ \end{align}$ (2)

$p\left( {{\mathit{\pmb{x}}}_{t}}|{{\mathit{\pmb{z}}}_{1:t}} \right)=\frac{p\left( {{\mathit{\pmb{z}}}_{t}}|{{\mathit{\pmb{x}}}_{t}} \right)p\left( {{\mathit{\pmb{x}}}_{t}}|{{\mathit{\pmb{z}}}_{1:t-1}} \right)}{p\left( {{\mathit{\pmb{z}}}_{t}}|{{\mathit{\pmb{z}}}_{1:t-1}} \right)}$ (3)

式中,p(${{\mathit{\pmb{x}}}_{t}}$|$\mathit{\pmb{x}}$t-1)是状态转移概率用来表示目标在连续状态之间的运动模型,p($\mathit{\pmb{x}}$t-1|$\mathit{\pmb{z}}$1:t-1)假设是已知的上一时刻的后验概率,p(${{\mathit{\pmb{z}}}_{t}}$|${{\mathit{\pmb{x}}}_{t}}$)表示状态${{x}_{t}}$的似然概率。

应用图像仿射变换来建模连续帧之间的目标运动,定义${{x}_{t}}$=(σ1, σ2, σ3, σ4, ${{t}_{x}}$, ${{t}_{y}}$)为状态矢量,(σ1, σ2, σ3, σ4)是形变参数,(${{t}_{x}}$, ${{t}_{y}}$)是位置参数。假设状态转移模型符合独立的高斯分布,即

$p\left( {{\mathit{\pmb{x}}}_{t}}|{{\mathit{\pmb{x}}}_{t-1}} \right)=N\left( {{\mathit{\pmb{x}}}_{t}};{{\mathit{\pmb{x}}}_{t-1}},\mathit{\pmb{\Psi}} \right)$ (4)

式中,Ψ是对角协方差矩阵,其元素对应6个不同仿射参数的方差,这些参数刻画了目标状态变化的可能性,并且这些参数在跟踪过程中是固定的。

1.2 稀疏表示理论

稀疏表示已广泛应用于各个领域,其基本思想是在合适的过完备字典下寻找信号的尽可能稀疏而准确的表示。稀疏表示模型旨在计算候选目标的可能性,利用一个过完备字典对候选目标进行稀疏表示,并用稀疏系数表示目标。已知t时刻的外观模板集Tt={Tt1, Tt2, …, Ttn}和候选目标集Yt={${{\mathit{\pmb{y}}}_{t}}$1, ${{\mathit{\pmb{y}}}_{t}}$2, …, $\mathit{\pmb{y}}_{t}^{m}$},n为模板个数,m为候选目标个数。求任意候选目标$\mathit{\pmb{y}}_{t}^{i}$的稀疏系数的模型可表示为

$\mathit{\pmb{y}}_{t}^{i}=\left[ \mathit{\pmb{T}},\mathit{\pmb{I}} \right]\left[ \begin{matrix} \mathit{\pmb{a}}_{T}^{i} \\ \mathit{\pmb{a}}_{I}^{i} \\ \end{matrix} \right],\forall \mathit{\pmb{y}}_{t}^{i}\in {{\mathit{\pmb{Y}}}_{t}}$ (5)

式中,I是琐碎模板(即单位矩阵),$\mathit{\pmb{a}}=\left[ \mathit{\pmb{a}}_{T}^{i},\mathit{\pmb{a}}_{I}^{i} \right]$为求解的稀疏系数,考虑到非负约束,可以通过求解L1最小化问题来得到候选目标$\mathit{\pmb{y}}_{t}^{i}$的稀疏解,即

$\underset{a}{\mathop{\min }}\,\frac{1}{2}\left\| \mathit{\pmb{y}}_{t}^{i}-\mathit{\pmb{Aa}} \right\|_{2}^{2}+\lambda {{\left\| \mathit{\pmb{a}} \right\|}_{1}},\mathit{\pmb{a}}\ge 0$ (6)

式中,过完备字典A=[T, I]既考虑到了正常的目标模板,也考虑了存在部分遮挡和噪声的情况,参数λ平衡L1正则化项和重构误差之间的重要性,求解结果就是在重构误差小且稀疏双重约束下的稀疏系数。

观测概率p(${{\mathit{\pmb{z}}}_{t}}$|$\mathit{\pmb{x}}_{t}^{i}$)反映了候选目标与目标模板之间的相似性,其由重构误差得出,即

$p\left( {{\mathit{\pmb{z}}}_{t}}|\mathit{\pmb{x}}_{t}^{i} \right)=\frac{1}{\mathit{\Gamma} }\exp \left\{ -\alpha \left\| \mathit{\pmb{y}}_{t}^{i}-{{\mathit{\pmb{T}}}_{t}}\mathit{\pmb{a}}_{T}^{i} \right\|_{2}^{2} \right\}$ (7)

式中,Γ是正则因子,α是用来控制高斯核形状的常数,$\mathit{\pmb{a}}_{T}^{i}$是式(6)所求得的最优解。

原始L1跟踪器用内点法求解式(6),速度较慢,为此文献[7]对粒子进行一次预处理,即计算每个粒子观测概率前筛选出重要粒子集。事实上该算法的提出基于

$\left\| {{\mathit{\pmb{T}}}_{t}}\mathit{\pmb{a}}-\mathit{\pmb{y}} \right\|_{2}^{2}\ge \left\| {{\mathit{\pmb{T}}}_{t}}\hat{\mathit{\pmb{a}}}-\mathit{\pmb{y}} \right\|_{2}^{2},\forall \mathit{\pmb{a}}\in {{\pmb{\text{R}}}^{N}}$ (8)

$\hat{\mathit{\pmb{a}}}=\underset{a}{\mathop{\arg \min }}\,\left\| {{\mathit{\pmb{T}}}_{t}}\mathit{\pmb{a}}-\mathit{\pmb{y}} \right\|_{2}^{2}$ (9)

因此,对于任意一个采样粒子$\mathit{\pmb{x}}_{t}^{i}$,它的观测似然概率都存在上界,即

$\begin{align} & p\left( {{\mathit{\pmb{z}}}_{t}}|\mathit{\pmb{x}}_{t}^{i} \right)\le \frac{1}{\mathit{\Gamma} }\exp \left\{ -\alpha \left\| {{\mathit{\pmb{T}}}_{t}}\hat{\mathit{\pmb{a}}}-\mathit{\pmb{y}}_{t}^{i} \right\|_{2}^{2} \right\}\triangleq \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ q\left( {{\mathit{\pmb{z}}}_{t}}\left. \left| \mathit{\pmb{x}}_{t}^{i} \right. \right\| \right) \\ \end{align}$ (10)

基于以上分析,首先对观测似然概率上界q(${{\mathit{\pmb{z}}}_{t}}$|$\mathit{\pmb{x}}_{t}^{i}$)进行降序排列,如果q(zt|xti) < $\frac{1}{2N}\sum\limits_{j=1}^{i-1}{p\left( {{\mathit{\pmb{z}}}_{t}}|\mathit{\pmb{x}}_{t}^{j} \right)}$,则对应的采样粒子$\mathit{\pmb{x}}_{t}^{i}$将不会放在重要粒子集中,换言之,将不会对此采样粒子进行观测概率计算,因此该方法大大减少了需要计算L1正则化的粒子个数,提高了算法的实时性。

2 改进的稀疏跟踪算法

2.1 算法总体流程

本文提出一种基于模板先验概率和稀疏表示的目标跟踪算法,算法的总体跟踪流程如图 1所示,在跟踪初始化阶段,目标模板集是由第一个模板通过高斯扰动仿射参数来产生,再结合琐碎模板,进而构造超完备字典。在跟踪阶段,根据动态转移模型和目标当前位置预测目标在下一时刻的位置(候选目标),利用观测模型对候选目标进行稀疏表示,并计算出重构误差,由此得到跟踪结果。跟踪结果对应系数最大分量的模板的是本次的优秀模板,更新模板的权重。最后根据模板更新策略进行模板更新。

图 1 算法的总体流程
Fig. 1 The diagram of the proposed algorithm

2.2 L1正则化模型

外观模型刻画目标的能力在目标跟踪中起关键作用,外观模板包括目标模板和琐碎模板,目标模板在跟踪过程中动态地表示目标,而遮挡和噪声由琐碎模板表示。当不存在遮挡时,候选目标可由目标模板有效的表示,琐碎模板对应的系数应趋于零。当目标被遮挡时,目标模板不能有效地对候选目标进行表示,琐碎模板对应的系数应有较多的非零元素,导致其所占的能量增大。原始L1跟踪器并未对这两种情况进行区分,所以存在琐碎模板表示目标部分的可能[14],这样就造成了对候选目标线性表示的不准确性。

为了更好地利用琐碎模板,采用文献[12]提出的思路自适应控制琐碎模板的能量,即将基本正则化模型进行如下修正,即

$\min \frac{1}{2}\left\| \mathit{\pmb{y}}_{t}^{i}-\mathit{\pmb{Aa}} \right\|_{2}^{2}+\lambda {{\left\| \mathit{\pmb{a}} \right\|}_{1}}+\frac{{{u}_{t}}}{2}\left\| {{\mathit{\pmb{a}}}_{I}} \right\|_{2}^{2}\ \ \mathit{\pmb{a}}\ge 0$ (11)

式中,A=[T, I]是外观模板,$\mathit{\pmb{a}}=\left[ {{\mathit{\pmb{a}}}_{T}},{{\mathit{\pmb{a}}}_{I}} \right]$是目标模板和琐碎模板对应的系数,ut则是控制琐碎模板能量的参数,通过遮挡检测来确定。当检测到遮挡时,ut=0;否则ut为预设常数。

2.3 基于先验概率的正则化模型

当遇到遮挡、目标旋转和运动模糊问题时,基于L1最小化的跟踪算法[7-9, 12]不稳定且容易发生漂移,因此引入先验概率来求解L1正则化问题。在求解稀疏系数$\mathit{\pmb{a}}$时,为了使关键模板能有更大的贡献,提出正则化模型

$\min \frac{1}{2}\left\| \mathit{\pmb{y}}_{t}^{i}-\mathit{\pmb{Aa}} \right\|_{2}^{2}+\lambda {{\left\| \mathit{\pmb{wa}} \right\|}_{1}}+\frac{{{u}_{t}}}{2}\left\| {{\mathit{\pmb{a}}}_{I}} \right\|_{2}^{2}\ \ \mathit{\pmb{a}}\ge 0$ (12)

式中,$\mathit{\pmb{w}}$的取值反比于模板的权重W。首先对W做归一化处理,并在归一化过程中幅度消减,即设置归一化后模板的最大权重阈值δ(本文取值0.3),目的是防止优秀模板权重过高,即

$\mathit{\pmb{w}}=\frac{1}{\mathit{\pmb{W}}+\varepsilon }$ (13)

式中,ε是一个极小值,取值为1E-6。将式(12)转化为无约束最优化问题,即

$\min \frac{1}{2}\left\| \mathit{\pmb{y}}_{t}^{i}-\mathit{\pmb{Aa}} \right\|_{2}^{2}+\lambda {{\left\| \mathit{\pmb{wa}} \right\|}_{1}}+\frac{{{u}_{t}}}{2}\left\| {{\mathit{\pmb{a}}}_{I}} \right\|_{2}^{2}+{{\pmb{1}}_{\pmb{\text{R}}_{+}^{n}}}\left( {{\mathit{\pmb{a}}}_{T}} \right)$ (14)

式中,${{\pmb{1}}_{\pmb{\text{R}}}}\left( {{\mathit{\pmb{a}}}_{T}} \right)$定义为

${{\pmb{1}}_{\pmb{\text{R}}_{+}^{n}}}\left( {{\mathit{\pmb{a}}}_{T}} \right)=\left\{ \begin{matrix} 0 & {{\mathit{\pmb{a}}}_{T}}\ge 0 \\ +\infty & {{\mathit{\pmb{a}}}_{T}}<0 \\ \end{matrix} \right.$ (15)

为了快速求解式(14),将其转化为无约束最优化问题

$\min F\left( \mathit{\pmb{a}} \right)+G\left( \mathit{\pmb{a}} \right)$ (16)

式中

$F\left( \mathit{\pmb{a}} \right)=\frac{1}{2}\left\| \mathit{\pmb{y}}-\mathit{\pmb{Aa}} \right\|_{2}^{2}+\lambda \pmb{1}_{T}^{\text{T}}\mathit{\pmb{w}}{{\mathit{\pmb{a}}}_{T}}+\frac{{{u}_{t}}}{2}\left\| {{\mathit{\pmb{a}}}_{I}} \right\|_{2}^{2}$ (17)

$G\left( \mathit{\pmb{a}} \right)={{\left\| {{\mathit{\pmb{a}}}_{I}} \right\|}_{1}}+{{\pmb{1}}_{\pmb{\text{R}}_{+}^{n}}}\left( {{\mathit{\pmb{a}}}_{T}} \right)$ (18)

式中,F($\mathit{\pmb{a}}$)是满足利普希茨连续梯度条件的可微凸函数,G($\mathit{\pmb{a}}$)是连续的凸函数。可以利用加速近端梯度法[13]快速求解式(14)。

${{\mathit{\pmb{g}}}_{k+1}}={{\mathit{\pmb{\beta}} }_{k+1}}-\frac{\nabla F\left( {{\mathit{\pmb{\beta}} }_{k+1}} \right)}{L}$

式中,L是Δ F的利普希茨常数,则式(14)的求解算法如下:

输入:候选目标图像块y,字典A

输出:稀疏系数$\mathit{\pmb{a}}$。

1)初始化$\mathit{\pmb{a}}$0=$\mathit{\pmb{a}}$-1=0, t0=t-1=1;

2) k=0;

3) ${{\mathit{\pmb{\beta}} }_{k+1}}={{\mathit{\pmb{a}}}_{k}}+\frac{{{t}_{k-1}}-1}{{{t}_{k}}}\left( {{\mathit{\pmb{a}}}_{k}}-{{\mathit{\pmb{a}}}_{k-1}} \right)$;

4) ${{\mathit{\pmb{g}}}_{k+1}}\text{ }\!\!|\!\!\text{ }T={{\mathit{\pmb{\beta}} }_{k+1}}|T-\frac{\left( {{\mathit{\pmb{A}}}^{\text{T}}}\left( \mathit{\pmb{A}}{{\mathit{\pmb{\beta}} }_{k+1}}-\mathit{\pmb{y}} \right) \right)T}{L}-\lambda \mathit{\pmb{w}}{{\pmb{1}}_{T}}$;

5) ${{\mathit{\pmb{g}}}_{k+1}}\text{ }\!\!|\!\!\text{ }I={{\mathit{\pmb{\beta}} }_{k+1}}|I-\frac{\left( {{\mathit{\pmb{A}}}^{\text{T}}}\left( \mathit{\pmb{A}}{{\mathit{\pmb{\beta}} }_{k+1}}-\mathit{\pmb{\beta}} \right) \right)|I}{L}-\frac{{{u}_{t}}{{\beta }_{k+1}}|I}{L}$;

5) ${{\mathit{\pmb{g}}}_{k+1}}\text{ }\!\!|\!\!\text{ }I={{\mathit{\pmb{\beta}} }_{k+1}}|I-\frac{\left( {{\mathit{\pmb{A}}}^{\text{T}}}\left( \mathit{\pmb{A}}{{\mathit{\pmb{\beta}} }_{k+1}}-\mathit{\pmb{y}} \right) \right)|I}{L}-\frac{{{u}_{t}}{{ }_{k+1}}|I}{L}$;

6) ${{\mathit{\pmb{a}}}_{k+1}}\text{ }\!\!|\!\!\text{ }T=\max \left( 0,{{\mathit{\pmb{g}}}_{k+1}}|T \right)$;

7) ${{\mathit{\pmb{a}}}_{k+1}}\text{ }\!\!|\!\!\text{ }T={{\Upsilon }_{\lambda /L}}\left( {{\mathit{\pmb{g}}}_{k+1}}|T \right)$;

8) ${{t}_{k+1}}=\left( 1+\sqrt{1+4t_{k}^{2}} \right)/2$;

9) k=k+1;

10)如果$\mathit{\pmb{a}}$收敛,迭代结束,否则转到步骤3)。

算法中,Υ是软阈值操作算子, 即

${{\mathit{\Upsilon} }_{\lambda }}\left( \mathit{\pmb{x}} \right)=\text{sgn } \left( \mathit{\pmb{x}} \right)\max \left( \left| \mathit{\pmb{x}} \right|-\lambda ,0 \right)$ (19)

2.4 模板更新策略

通常情况下,目标的外观模型只会在一定时间内保持不变,当遇到光照变化、遮挡、姿态变化等挑战性因素时,外观模型不再是当前目标的精确模型。若不更新模板,外观模板将不能适应当前目标的外观变化。外观模型也不宜更新过于频繁,因为每次更新模板都有可能引入小的误差,而这些误差的积累就会造成外观模型的失真,会导致漂移问题。为此,采用一种新的模板更新策略。

设模板集T={T1, T2, …, Tn}, 为每一个模板T$i$引入一个权值W$i$,权值越大,则对应的模板越重要。初始时,模板集是由第1个模板(即手动选定的目标)通过高斯扰动仿射参数来产生,初始时规定模板集中所有模板权值均为1。在后续每一帧的目标跟踪过程中,都对模板权值进行更新,这与只在目标模板被替换时更新所有模板的权值的传统模板更新方法不同。

常规的模板更新选择最小系数分量对应的模板为最不重要的模板,然后在模板更新时被替换掉。通过实验观察发现,遮挡发生前的优秀模板,会在遮挡时被优先替换掉,所以在遮挡消失后,外观模板集线性表示候选目标时,会更容易发生漂移。为了防止优秀模板在目标外观发生变化时被替换掉,设置优秀模板标志。在每帧跟踪结束后进行的更新步骤如下

1)更新模板集中优秀模板的权重。设$\mathit{\pmb{a}}$为当前帧目标在模板集上的线性表示系数向量,在模板集中选取线性表示时系数最大的模板T$j$为当前优秀模板,将此目标模板权值增1。

2)计算当前帧跟踪到的目标$\mathit{\pmb{y}}$与当前优秀模板的相似度g,采用两个归一化向量之间的夹角(angle)表示g,即

$g=angle\left( \mathit{\pmb{y}},{{\mathit{\pmb{T}}}_{j}} \right)$ (20)

3)当g大于相似度阈值时,表明跟踪结果$\mathit{\pmb{y}}$与外观模板集T有偏差,需要进行模板的更新,但如果存在严重遮挡时,直接将跟踪结果添加到模板集中较易导致跟踪失败。故采用遮挡检测[9, 12]预判断,当目标未被遮挡时进行模板更新,具体步骤如下:

(1)将权值${{W}_{j}}>\rho \frac{1}{n}\sum\limits_{i=1}^{n}{{{W}_{i}}}$的模板Tj的线性表示系数${{a}_{j}}$重置为1,ρ是预设阈值,根据实验结果取值为1.5;表示系数${{a}_{j}}$置1的目的是使优秀模板对应的稀疏系数取较高值,避免下一步被替换掉。

(2)对系数向量$\mathit{\pmb{a}}$中的值最小的分量对应的模板Tk进行更新,即

${{\mathit{\pmb{T}}}_{k}}=\alpha \mathit{\pmb{y}}+\left( 1-\alpha \right)\sum\limits_{i=1}^{n}{\frac{{{\mathit{\pmb{T}}}_{i}}}{n}}$ (21)

式中,α∈(0.5, 1)。

3 实验结果与分析

为了评估本文提出的目标跟踪算法的有效性,在IntelCore 3.2 GHz,4 GB内存,MATLAB2010a平台对算法进行仿真实验,分别选取5个有代表性的视频进行实验。所采用的视频为Girl、Car4、FaceOcc1、BlurBody、Singer1。其中FaceOcc1、Girl来自MIL算法[5], 其余视频集都可以在ObjectTrackingBenchmark[16]提供的下载地址中找到。上述6类视频集采集地点包括室内环境和室外环境,其中包括了不同程度的光照、姿态变化、尺度变化、运动模糊、平面内外旋转、遮挡等复杂情况。

实验中所涉及的常数λ=0.01,ut=10。对于上述测试视频集,被跟踪的目标在第1帧的初始位置是手动标识的,首先将初始目标模板通过高斯扰动得到其他目标模板并组成初始字典。字典模板的更新根据上文模板更新策略来进行实时检测更新。

为了衡量算法的性能,同时利用经典的5种跟踪方法进行目标跟踪实验,这5类方法分别是:incremental visual tracking(IVT)[6],visual tracking decomposition(VTD)[17],locally orderless tracking(LOT)[18],L1 tracker using accelerated proximal gradient approach (L1-APG)[12]和multiple instances learning tracking(MIL)[5]

3.1 定性评估

第1个实验视频为Car4,主要用于测试算法对光照的鲁棒性,在Car4视频中,被跟踪的室外车辆发生了明显的光照变化。如图 2(a),在第202帧、233帧和第307帧,光线的明暗变化比较突然和剧烈,特别是在第233帧,车辆从天桥出来,光照恢复后,只有IVT、L1-APG以及本文算法能对目标进行跟踪。VTD算法、LOT算法和MIL算法由于长时间的光照变化导致出现跟踪漂移。

图 2 不同算法的跟踪结果
Fig. 2 Tracking results of different algorithms ((a) Car4; (b) FaceOcc1; (c) Girl; (d) BlurBody; (e) Singer1)

第2个实验视频为FaceOcc1,主要测试算法对不相似目标遮挡的鲁棒性。从图 2(b)可以看出,当跟踪目标被频繁遮挡时,MIL算法、VTD算法以及LOT算法最终丢失了目标。本文建立的正则化模型考虑了遮挡因素,所以能够稳定连续的对被严重遮挡的目标进行跟踪。本文算法、IVT算法以及L1-APG可以较好处理目标被遮挡问题,并且本文算法精确度更高。

第3个实验用于测试算法处理相似物遮挡的性能,测试视频Girl。如图 2(c)所示,在第246帧,目标第1次旋转以及遮挡时,IVT、MIL、VTD、LOT都发生了不同程度的漂移。在第422帧时,L1-APG突然发生跳跃漂移,而本文算法一直有效地跟踪目标。因为本文算法蕴含了遮挡检测,并且外观发生变化前后,模板更新策略可以很好地依据先验重要性来更新模板,不会仅仅依据某一次的稀疏系数来判别。该实验结果表明,本文的正则化模型提高了重要模板的作用,可以很好地处理反复遮挡等情况。

第4个实验考虑到目标快速运动等造成的运动模糊,测试视频为BlurBody。从图 2(d)可以看出,在第43帧,目标位置变动不大、未开始模糊,6种算法都未出现较大的漂移。在第106帧、222帧,运动模糊比较剧烈,L1-APG算法、LOT算法、IVT算法、VTD算法都出现明显的跟踪漂移。到了280帧,MIL算法也完全跟丢了目标,只有本文算法表现出了对此类视频序列的高精确度。

为了评价算法处理目标姿态变化的性能,在视频序列Singer1上进行实验。该序列的特点是目标姿态变化、光照变化、摄像机位置移动、由近到远的拍摄方式。如图 2(e)所示,在第35帧时,目标与初始位置有较小位移,此时6种算法都能很好地进行跟踪。到第90帧时图像变亮,目标变小,此时LOT有略微的漂移。之后目标持续向右相对移动并持续变小,在后续帧中LOT、MIL、VTD出现明显的跟踪漂移。L1-APG和IVT算法可以跟踪到目标,本文算法能准确跟踪且精确度较高。

3.2 定量评估

为了客观地对本文算法与其他5种算法性能进行评估,选用中心点误差作为衡量标准,其计算公式为

$e=\sqrt{{{\left( {{x}_{t}}-{{x}_{g}} \right)}^{2}}+{{\left( {{y}_{t}}-{{y}_{g}} \right)}^{2}}}$ (22)

式中,$x$t$y$t代表不同跟踪算法的跟踪结果在两个坐标轴上的值;$x$g$y$g则是代表真实位置对应的坐标值。

图 3所示为中心误差的曲线图,从图 3可以看出,本文算法在前4种不同挑战因素的视频序列中都有很好的表现,相对于另外5种跟踪算法有一定的优势。表 1统计了各个算法的平均跟踪误差,从表 1中可以看出,本文算法在各个视频序列中均能取得较低的平均中心误差,验证了该算法的准确性。

图 3 不同算法的跟踪误差曲线
Fig. 3 Tracking error curves of different algorithms ((a) Car4; (b) FaceOcc1; (c) Girl; (d) BlurBody)

表 1 不同算法的平均中心误差
Table 1 Center errors of different algorithms

下载CSV
视频 本文算法 IVT L1APG VTD MIL LOT
Car4 3.22 2.55 3.24 36.73 39.97 140.58
FaceOcc1 6.82 7.32 9.50 10.20 9.85 24.46
Girl 4.02 18.50 19.04 8.56 13.66 22.78
BlurBody 16.25 125.14 168.84 85.56 44.38 76.71
Singer1 3.54 11.31 10.97 4.18 16.35 121.38
平均值 6.77 32.96 42.32 29.05 24.84 77.18
注:加粗字体表示最佳结果。

为了进一步分析本文算法的性能,依据PASCALVOC[19]检测标准,采用了重叠率值,即$score=\frac{area\left( {{\mathit{\pmb{R}}}_{t}}\cap {{\mathit{\pmb{R}}}_{g}} \right)}{area\left( {{\mathit{\pmb{R}}}_{t}}\cup {{\mathit{\pmb{R}}}_{g}} \right)}$,式中Rt是算法在某帧的跟踪框覆盖的区域,Rg是测试序列提供的真实位置所在区域,重叠率值大于0.5则视为该帧跟踪成功,否则认为跟踪失败。跟踪成功的帧数除以总帧数即为跟踪成功率。表 2统计了各个算法的跟踪成功率,从表 2中可以看出,本文算法在各个视频序列中的跟踪成功率较高,验证了该算法的稳定性。

表 2 不同算法的成功率
Table 2 Success rates of different algorithms

下载CSV
视频 本文算法 IVT L1APG VTD MIL LOT
Car4 0.99 1.00 0.99 0.37 0.28 0.04
FaceOcc1 1.00 1.00 0.99 0.97 0.77 0.31
Girl 0.91 0.19 0.52 0.65 0.29 0.54
BlurBody 0.97 0.06 0.15 0.09 0.36 0.26
Singer1 1.00 0.48 0.46 0.43 0.28 0.24
平均值 0.97 0.55 0.62 0.50 0.40 0.28
注:加粗字体表示最佳结果。

4 结论

针对目标跟踪易受遮挡、外观反复变化等影响,提出了一种基于模板先验概率和稀疏表示相结合的目标跟踪算法。算法在粒子滤波器框架下,根据改进的正则化模型求出候选目标的对应外观模型的线性表示,由最小重构误差确定当前帧的目标。根据目标稀疏表达系数的分布,对遮挡进行判断,并自适应的选择正则化模型。此外基于先验概率的权值更新策略,在对目标外观发生较大改变和遮挡面积较大的情况,同样具有较高适应性。

实验结果表明本文算法具有较好的有效性和鲁棒性,尤其是在目标被相似物遮挡的情况下,也能较准确的跟踪到目标,同时在一定程度上降低了计算的复杂性。

本文算法可以很好地应对视频监控场景中遮挡、尺度变化、光照变化、旋转等干扰。但是,长时间的遮挡仍然可能使得跟踪失败,因此需要采用更合理的目标表示模型。目前跟踪没有考虑背景信息,未来会考虑融合判别模型来提升算法的鲁棒性和精确度。

参考文献

  • [1] Tian X L, Jiao L C, Zhao F D, et al. Tracking with spatial constrained coding[J]. IET Computer Vision , 2015, 9 (1) : 63–74. DOI:10.1049/iet-cvi.2014.0017
  • [2] Qi M B, Yang X, Yang Y F, et al. Real-time object tracking based on L2-norm minimization[J]. Journal of Image and Graphics , 2014, 19 (1) : 36–44. [ 齐美彬, 杨勋, 杨艳芳, 等. 基于L2范数最小化的实时目标跟踪[J]. 中国图象图形学报 , 2014, 19 (1) : 36–44. DOI:10.11834/jig.20140105 ]
  • [3] Zhang T Z, Liu S, Xu C S, et al. Structural sparse tracking[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA: IEEE, 2015: 150-158. [DOI: 10.1109/CVPR.2015.7298610]
  • [4] Avidan S. Support vector tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2001, 26 (8) : 1064–1072. DOI:10.1109/TPAMI.2004.53
  • [5] Babenko B, Yang M H, Belongie S. Visual tracking with online multiple instance learning[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition.Miami, FL: IEEE, 2009: 983-990.[DOI: 10.1109/CVPR.2009.5206737]
  • [6] Ross D A, Lim J, Lin R S, et al. Incremental learning for robust visual tracking[J]. International Journal of Computer Vision , 2008, 77 (1-3) : 125–141. DOI:10.1007/s11263-007-0075-7
  • [7] Mei X, Ling H B. Robust visual tracking using l 1 minimization[C]//Proceedings of 2009 IEEE 12th International Conference on Computer Vision. Kyoto, Japan: IEEE, 2009: 1436-1443.[DOI: 10.1109/ICCV.2009.5459292]
  • [8] Chen F, Wang Q, Wang S, et al. Object tracking via appearance modeling and sparse representation[J]. Imageand Vision Computing , 2011, 29 (11) : 787–796. DOI:10.1016/j.imavis.2011.08.006
  • [9] Mei X, Ling H B, Wu Y, et al. Minimum error bounded efficient l 1 tracker with occlusion detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2011: 1257-1264.[DOI: 10.1109/CVPR.2011.5995421]
  • [10] Liu B Y, Yang L, Huang J Z, et al. Robust and fast collaborative tracking with two stage sparse optimization[C]//Proceedings of the 11th European Conference on Computer Vision: Part IV. Berlin Heidelberg: Springer-Verlag, 2010: 624-637.[DOI: 10.1007/978-3-642-15561-1_45]
  • [11] Li H X, Shen C H, Shi Q F. Real-time visual tracking using compressive sensing[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2011: 1305-1312.[DOI: 10.1109/CVPR.2011.5995483]
  • [12] Bao C L, Wu Y, Ling H B, et al. Real time robust L1 tracker using accelerated proximal gradient approach[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2012: 1830-1837.[DOI: 10.1109/CVPR.2012.6247881]
  • [13] Tseng P. On accelerated proximal gradient methods for convex-concave optimization[J/OL].Siam Journal on Optimization, 2008. http://www.csie.ntu.edu.tw/~b97058/tseng/papers/apgm.pdf
  • [14] Fu J R. Study on object detection and tracking of video sequences via sparserepresentation[D]. Beijing: Beijing University of Technology, 2013. [傅金融.基于稀疏表示的视频序列目标检测与跟踪方法研究[D].北京:北京工业大学, 2013.] http://cdmd.cnki.com.cn/article/cdmd-10731-1014262743.htm
  • [15] Jia X, Lu H C, Yang M H. Visual tracking via adaptive structural local sparse appearance model[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2012: 1822-1829.[DOI: 10.1109/CVPR.2012.6247880]
  • [16] Wu Y, Lim J, Yang M H. Object tracking benchmark[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2015, 37 (9) : 1834–1848. DOI:10.1109/TPAMI.2014.2388226
  • [17] Kwon J, Lee K M.Visual tracking decomposition[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, CA: IEEE, 2010: 1269-1276.[DOI: 10.1109/CVPR.2010.5539821]
  • [18] Oron S, Bar-Hillel A, Dan L, et al. Locally orderlesstracking[J]. International Journal of Computer Vision , 2015, 111 (2) : 213–228. DOI:10.1007/s11263-014-0740-6
  • [19] Everingham M, Van Gool L, Williams C K I, et al. The Pascal visual object classes (VOC) challenge[J]. International Journal of Computer Vision , 2010, 88 (2) : 303–338. DOI:10.1007/s11263-009-0275-4