发布时间: 2018-05-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170083
2018 | Volume 23 | Number 5

图像分析和识别

矩阵低秩表示的目标跟踪算法

亚森江·木沙, 木合塔尔·克力木

新疆大学机械工程学院, 乌鲁木齐 830046

收稿日期: 2017-03-22; 修回日期: 2017-11-14

基金项目: 国家自然科学基金项目（51365052）

第一作者简介: 亚森江·木沙(1972-), 男, 讲师, 2017年于南京理工大学获计算机应用技术博士学位, 主要研究方向为计算机视觉与模式识别、数字图象处理。E-mail:yasin.xjedu@gmail.com.

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2018)05-0674-14

摘要

目的目标跟踪中，遮挡、强烈光照及运动模糊等干扰对跟踪精度的影响较大，其为目标外观的观测建模精度带来一定的困难。此外，很多现有算法在观测建模中都以向量形式表示样本数据，使得样本数据原有结构及其各像素的潜在关系被有意改变，从而导致观测模型数据维度及计算复杂度的提高。方法本文通过深入研究跟踪框架的观测建模问题，提出一种新颖的基于矩阵低秩表示的观测建模方法及其相应的似然度测度函数，使得跟踪算法能够充分挖掘样本数据的潜在特征结构，从而更加精确探测目标在遮挡或强烈光照等各种复杂干扰下的外观变化。同时，以矩阵形式表述样本信号的数据格式，使得其视觉特征的空间分布保留完好，并有效降低数据维度和计算复杂度。结果本文跟踪算法在富有挑战性干扰因素的跟踪环境中体现出更为鲁棒的跟踪性能，能够较好地解决跟踪中遮挡或强烈光照所引起的模型退化和漂移等问题。在10个经典测试视频中，本文跟踪算法的平均中心点误差为5.29像素，平均跟踪重叠率为78%，平均跟踪成功率为98.28%，均优于其他同类算法。结论本文以2维矩阵数据原型为载体，提出了一种新的多任务观测建模框架和最大似然度估计模型。实验数据的定性与定量分析结果表明，本文算法与一些优秀的同类算法相比，其跟踪建模精度达到相同甚至更高的水平。

关键词

数据原型; 矩阵低秩表示; 多任务; 观测建模; 似然度估计; 目标跟踪

Object tracking algorithm based on matrix low-rank representation

Yasin Musa, Muhtar Kerim

School of Mechanical Engineering, Xinjiang University, Urumqi 830046, China

Supported by: National Natural Science Foundation of China (51365052)

Abstract

Objective Visual object tracking is a significant computer vision task that can be applied to many domains, such as military, robotics, intelligent visual surveillance, human-computer interaction, and medical diagnosis. A large variety of trackers that have been proposed in the literature in the past decades have delivered satisfactory performances. Despite the success of researching on this topic, visual object tracking still suffers from difficulties in handling complex object appearance changes caused by factors such as illumination, partial occlusion, shape deformation, background clutter, low contrast, specularities, camera motion, and at least seven more aspects. Generally, visual tracking is a search (or classification) problem that continuously infers the state of a target in video sequences, aims to identify the candidate while it matches to the target template accurately, and returns it as a tracking result. Constructing an effective and high-performance tracker has two core issues. The first is the issue of representative feature learning and high-level modeling. The second is the problem of filtering and efficient searching. Given that the target states in every video frame are represented using several online learned feature templates, the modeling capability of the tracker will significantly depend on the generalizability of template data and accurate model representation with error estimation precision because of the complex interference factors caused by the target itself or the scene conditions. In addition, the relationship between each data pixel is significantly damaged while its original data structures are being changed because the sample data are intentionally forced into vector form in most existing algorithms. Moreover, the computational complexity with high data dimensionality must be increased. Therefore, designing an effective model representation mechanism of the 2D appearance of moving objects with the appropriate data expression is the key issue for the success of a visual tracker. Method In this study, the appearance model representation problem of generative-model-based visual object tracking algorithm is investigated in depth. In a prior work, we formulated the observation model via tensor (3D array) nuclear norm regularization. The tracker is called tensor nuclear norm regression-based tracker (TNRT) and has achieved favorable results in many tracking environments. However, the TNRT requires high hardware conditions and graphics processing unit computing demands, which will lead to slow tracking speeds if some practical uses require low hardware conditions. Therefore, we redesign a novel matrix low-rank representation-based observation model and its corresponding likelihood measurement function, as well as maintain several good properties of the TNRT algorithm, such as multitask joint learning, nuclear norm regularization-based model representation, and original data structures of sample signals. In the proposed tracking framework, several critical feature templates (dictionary or subspace) are learned from online data using the incremental principal component analysis algorithm. Then, in accordance with the appearance information of an incoming video frame, the proposed appearance modeling mechanism will use the feature templates to represent the target candidate linearly with independent and identically distributed Gaussian-Laplacian mixture noise by adopting the multitask joint learning strategy. Subsequently, the matrix nuclear norm and weighted $ {\rm L}_1$-norm-based joint maximum likelihood function measure the distances between target candidates and feature subspace scrupulously. Given that the intrinsic data structures of samples are guaranteed using the matrix form and the spatial distributions of visual features remain intact, the proposed multitask observation modeling via matrix low-rank regularization-based objective function will construct more accurate and flexible sample signals than $ {\rm L}_1$, $ {\rm L}_2$, or other hybrid regularization-based model representation methods. Then, in every frame, the identical likelihood measurement function of our algorithm measures each candidate sample with obvious comparability. Finally, the tracker is able to explore the potential characteristics of the sample data fully and further detect the complex appearance changes of the target with some challenging disturbances, such as occlusion or strong illuminations. Meanwhile, the observation model, which formulates matrix-form-based data prototypes, can improve the tracking speed remarkably with its distinctly reduced data dimensionality and low computational complexity. Result Although the pixels of residual data always show similar grayscale intensities and share some spatial information with 2D data prototypes, such as block-shaped linking areas, the conventional observation model using $ {\rm L}_1$, $ {\rm L}_2$, or other hybrid regularization-based model representation methods cannot fully examine the potential structure of residual data. In comparison to these traditional methods, the matrix low-rank regression model (MLRM) more precisely explores the residual data and further detects the spatial characteristics of reconstruction error. In other words, the MLRM significantly discovers the low-rank characteristics of the residual matrix. In this study, we aim to evaluate our proposed tracking algorithm systematically and experimentally on 10 public video fragments that cover the previously mentioned challenging noisy factors and compare it with several state-of-the-art algorithms commonly cited in influential literature. We indicate that each tracker can be evaluated objectively using survival curves, such as average center point error (ACE), average overlap rate (AOR), and average success rate (ASR). Our tracking algorithm reflects the favorable robustness in these noisy environments and obtains the best results in each video sequence, with ACE, AOR, and ASR of 5.29 pixels, 78%, and 98.28%, respectively. Conclusion In this study, a novel multitask matrix low-rank model representation method and its corresponding maximum likelihood estimation function are designed. The analysis of a large variety of circumstances in several public video sequences provides objective insight into the strengths and weaknesses of each tracker. The appearance modeling mechanism and maximum likelihood estimation function of the proposed MLRM algorithm play critical roles and achieve favorable tracking results in several challenging video sequences. Qualitative and quantitative experimental evaluations of a number of challenging noisy environments indicate that the proposed MLRM algorithm can reflect the best robustness to elevate the model degradation or drifting problem caused by occlusion and strong illumination and can achieve the same or even better results when compared with several state-of-the-art algorithms.

Key words

data prototypes; matrix low-rank representation; multi-task; observation modeling; likelihood estimation; object tracking

0 引言

近几年来，随着计算机视觉、模式识别、人工智能等技术的快速发展，视觉目标跟踪领域纷纷出现了很多优秀算法。例如，IVT^[1](incremental learning for robust visual tracking)良好的生成式目标跟踪算法框架、LSST^[2](least soft-threshold squares tracking)鲁棒的观测误差估计模型、SCM^[3](sparsity-based collaborative model)稀疏诱导的观测建模方法，以及MTT^[4](multi-task tracking)以$ L_{p, q}$复合范数构架的多任务观测建模框架等。

虽然现有很多跟踪算法在回归信号的稀疏构造、最小重构误差的估计、目标似然度判决等方面取得一些令人满意的效果，一定程度地提高跟踪算法对姿态变化、尺度变化、旋转、局部遮挡、光照以及运动模糊等干扰噪声的鲁棒性，但被跟踪对象的自身条件及其所在环境较为复杂，其对跟踪建模的准确性带来很大的挑战(如图 1所示)。

图 1 视觉目标跟踪的挑战因素及其产生途径

Fig. 1 The challenging factors and its routes of occurrences in visual tracking

通常，大部分跟踪算法的观测模型中将重构误差假设为其服从高斯或拉普拉斯分布等，使得重构误差的理论分布与实际分布之间产生差异。这种假设可能会更多地强调样本数据各像素的独立性，忽视其特征的原始空间分布规律。这正是那些跟踪算法无法更好地抑制一些异常噪声的主要原因。除此之外，观测建模中常采用样本数据向量化策略。这不但提高数据维度和算法复杂度，还会失去样本数据各像素的潜在联系和视觉意义。

最近，有些研究人员在样本信号的观测建模有新的见解。例如，Yang等人^[5]深入研究信号构造中残差数据的分布特征，并注意到噪声的实际分布与高斯或拉普拉斯分布之间的差异。他们认为观测建模中的重构误差是独立同分布的。因此，他们利用更为一般化的概率模型假设来量化信号重构中的残差数据，提出一种正规化的鲁棒编码算法(RRC)，并应用在人脸识别中得到了良好的效果。Luo等人^[6]深入研究遮挡或光照所引起的残差数据分布特征，并注意到残差数据矩阵的低秩特性。因此，他们将核范数(矩阵低秩凸近似)作为重构样本与类间距离的测度准则，应用在人脸识别和模式分类等问题上取得了良好的效果。王海军等人^[7]利用主成分分析法求解观测模型的低秩特征，并用在跟踪中的特征学习中取得了良好的跟踪效果。陈芸等人^[8]也同样利用低秩矩阵恢复和稀疏表示方法构建一种高精度字典学习机制和鲁棒观测建模框架，一定程度上提高了跟踪精度。文献[7-8]只利用目标在连续帧中的状态相似性来构建基于矩阵低秩分解的特征字典，但均未考虑观测建模中残差数据的分布规律。本文在前期的研究工作中也采用类似文献[6]的正则化策略，从目标外观的多任务观测建模角度实现一种张量核范数回归模型^[9](TNRM)，并用在目标跟踪中取得了良好的跟踪效果。虽然TNRM模型在样本数据的结构化表述、候选样本外观的多任务联合建模，以及目标似然度判决等方面表现出良好的性能，为目标跟踪算法提供较为紧凑的观测建模框架，但其基于张量的观测模型相关参数的求解过程比较复杂，导致跟踪算法的连续建模速度受到一定的影响。这使得跟踪算法对计算机硬件配置要求有所提高。为了解决TNRM模型参数优化的复杂性，本文在充分保留TNRM模型优秀建模特点的前提下，结合文献[2, 5-6]的算法设计思想，针对TNRM模型的数据表述框架进行优化，设计一种基于2维矩阵低秩表示的回归模型(MLRM)。本文工作主要贡献如下几个方面：

1) 将观测建模常见的样本数据向量化表示机制转化为2维矩阵，使得观测信号与候选样本的原始数据结构保持一致。这比三阶张量的数据结构简单，且还能简化算法复杂度和资源开销；

2) 设计一种矩阵低秩回归观测模型及其相应的目标似然度估计函数，完美保留TNRM模型优秀的多任务观测建模特性；

3) 利用优秀的交替方向乘子法^[10](ADMM)，设计一种求解观测模型相关参数的迭代算法框架，提高跟踪建模速度的同时，还能够达到良好的收敛精度。

下面重点展开讨论本文跟踪算法的观测建模方法及其相应似然度估计模型。跟踪算法框架的动力学模型、特征学习与更新，以及跟踪结果评估等其他相关内容类似于文献[9]，有兴趣的读者请参考文献相关内容。

1 目标运动的观测建模

一般，完整的目标跟踪系统是由信号采集模块、目标初始化模块(目标检测)、跟踪模块及深层语义分析模块等四大部分组成(如图 2所示)。目标跟踪模块作为其中重要组成部分，其框架又由特征学习模块(目标模板)、运动模型(动力学模块)、观测模型(外观模型)，以及决策机制(目标似然估计模块)等4个部分组成。

图 2 跟踪系统总体框架

Fig. 2 The complete framework of tracking system

目标跟踪中，跟踪器先从目标初始化模块获取跟踪对象的初始状态信息，然后渐进循环地进行状态预测、观测建模、似然度估计，以及特征学习等一系列工作，并时刻为后续的深层语义分析模块提供数据。其中，观测模型是跟踪框架最为核心的组件，其建模的有效性和精度是连续准确跟踪目标的重要保障。

1.1 基于矩阵低秩回归的观测模型

考虑到目标外观变化的随机性，其每一时刻的状态推理问题可假设为隐马尔可夫模型结合的贝叶斯估计问题。假设在$ t^{th}$视频帧中，$ \mathit{\boldsymbol{P}}\rm{=}\left[{{\mathit{\boldsymbol{p}}}_{\rm{1}}}\rm{, }{{\mathit{\boldsymbol{p}}}_{2}}\rm{, }\cdots, {{\mathit{\boldsymbol{p}}}_{\mathit{m}}} \right]\in {{\mathbb{R}}^{\mathit{d}\times \mathit{m}}}$是至$ t$-1时刻所获得的目标图像块，可以利用IPCA生成与其相关的特征子空间$ \mathit{\boldsymbol{U}}\rm{=}\left[{{\mathit{\boldsymbol{u}}}_{\rm{1}}}\rm{, }{{\mathit{\boldsymbol{u}} }_{\rm{2}}}\rm{, }\cdots \rm{, }{{\mathit{\boldsymbol{u}}}_{\mathit{k}}} \right]\in {{\mathbb{R}}^{\mathit{d}\times \mathit{k}}}$，使得$ {{\mathit{\boldsymbol{U}}}^{\rm{T}}}\mathit{\boldsymbol{U}}\rm{=}\mathit{\boldsymbol{I}}$。那么，$ t$时刻的候选样本外观是用$ \mathit{\boldsymbol{U}}$和其均值$ \mathit{\boldsymbol{\mu }}$线性表示。文献[9]中，以多线性分析的角度实现一种张量低秩回归的多任务联合观测建模机制，其回归函数表示为

$ \mathit{\boldsymbol{\bar y}} = ts\left( {\mathit{\boldsymbol{UX}}} \right) + {\varepsilon _1} + {\varepsilon _2} $

(1)

式中，$ \overline{\mathit{\boldsymbol{y}}}\in {{\mathbb{R}}^{{{\mathit{n}}_{\rm{1}}}\times {{\mathit{n}}_{\rm{2}}}\times {{\mathit{n}}_{\rm{3}}}}}\left( \overline{\mathit{\boldsymbol{y}}}\rm{=}\mathit{\boldsymbol{y-}}{{\mathcal{M}}_{\mathit{\mu }}} \right)$是当前帧中心化的候选样本张量，$ {{\mathcal{M}}_{\mathit{\mu }}}\in {{\mathbb{R}}^{{{\mathit{n}}_{\rm{1}}}\times {{\mathit{n}}_{\rm{2}}}\times {{\mathit{n}}_{\rm{3}}}}}$是由子空间均值$ \mathit{\boldsymbol{\mu }}$构造的均值张量，$ \mathit{\boldsymbol{UX}}\rm{=}\left[\mathit{\boldsymbol{U}}\rm{(}{{\mathit{\boldsymbol{x}}}_{\rm{1}}}\rm{), }\mathit{\boldsymbol{U}}\rm{(}{{\mathit{\boldsymbol{x}}}_{\rm{2}}}\rm{), }\cdots \rm{, }\mathit{\boldsymbol{U}}\rm{(}{{\mathit{\boldsymbol{x}}}_{{{\mathit{n}}_{\rm{3}}}}}\rm{)} \right]\in {{\mathbb{R}}^{\mathit{d}\times {{\mathit{n}}_{\rm{3}}}}}$是重构样本矩阵，$ \mathit{\boldsymbol{X}}\rm{=}\left[{{\mathit{\boldsymbol{x}}}_{\rm{1}}}\rm{, }{{\mathit{\boldsymbol{x}}}_{\rm{2}}}\rm{, }\cdots \rm{, }{{\mathit{\boldsymbol{x}}}_{{{\mathit{n}}_{\rm{3}}}}} \right]\in {{\mathbb{R}}^{\mathit{k}\times {{\mathit{n}}_{\rm{3}}}}}$是系数矩阵，$ ts$(·)是张量构造运算符，$ {{\mathit{\boldsymbol{\varepsilon }}}_{\rm{1}}}\in {{\mathbb{R}}^{{{\mathit{n}}_{\rm{1}}}\times {{\mathit{n}}_{\rm{2}}}\times {{\mathit{n}}_{\rm{3}}}}}$是块噪声张量，$ {{\mathit{\boldsymbol{\varepsilon }}}_{\rm{2}}}\in {{\mathbb{R}}^{{{\mathit{n}}_{\rm{1}}}\times {{\mathit{n}}_{\rm{2}}}\times {{\mathit{n}}_{\rm{3}}}}}$是随机噪声张量。其目标函数为

$ \begin{array}{*{20}{c}} {\mathop {\min }\limits_{{\varepsilon _1},{\varepsilon _2},\mathit{\boldsymbol{X}}} {{\left\| {{\mathit{\boldsymbol{\varepsilon }}_1}} \right\|}_ * } + {\lambda _1}{{\left\| {{\mathit{\boldsymbol{\varepsilon }}_2}} \right\|}_1} + {\lambda _2}{{\left\| \mathit{\boldsymbol{X}} \right\|}_{2,1}}}\\ {{\rm{s}}.\;{\rm{t}}.\;\mathit{\boldsymbol{\bar y}} = ts\left( {\mathit{\boldsymbol{UX}}} \right) + {\mathit{\boldsymbol{\varepsilon }}_1} + {\mathit{\boldsymbol{\varepsilon }}_2}} \end{array} $

(2)

式中，$ {{\mathit{\lambda }}_{\rm{1}}}$是随机噪声平衡参数，$ {{\mathit{\lambda }}_{\rm{2}}}$是表示系数正则化参数。

显然，式(1)是一种多任务观测建模框架，其目标函数式(2)要联系到从多线性分析的角度优化相关参数，且其核范数正则项还关系到较复杂的张量SVD分解操作。虽然这种结构化的多线性回归方法为观测模型提供较为紧凑的多任务联合建模框架，并一定程度上提高跟踪建模的精度和有效性，但其时间复杂度和空间复杂度都略大，而影响模型的收敛速度。由于多任务观测建模是一种并行的候选样本外观学习过程，这种模型一般在具备GPU计算能力的计算机中更能发挥作用。这就说明跟踪算法对硬件配置要求略高一些。

考虑到张量核范数观测模型在以上几个方面的不足，本文将其模型降到2维矩阵空间中，充分保证回归模型优秀建模性质的前提下，简化其观测建模和参数优化上的复杂性。这样，式(1)所示的张量模型转化为

$ {{\mathit{\boldsymbol{\bar Z}}}_i} = mat\left( {\mathit{\boldsymbol{Ux}}} \right) + \mathit{\boldsymbol{E}}_1^i + \mathit{\boldsymbol{E}}_2^i $

(3)

式中，$ {{\overline{\mathit{\boldsymbol{Z}}}}_{\mathit{i}}}\in {{\mathbb{R}}^{\mathit{p}\times \mathit{q}}}\left( \mathit{i}\rm{=1, }\rm{.2, }\cdots \rm{, }\mathit{n} \right)$是中心化的第$ i$个候选样本矩阵，即：$ {{\overline{\mathit{\boldsymbol{Z}}}}_{\mathit{i}}}\rm{=}{{\mathit{\boldsymbol{Z}}}_{\mathit{i}}}\rm{-}{{\mathit{\boldsymbol{M}}}_{\mathit{\boldsymbol{ \mu}} }}\rm{, }{{\mathit{\boldsymbol{M}}}_{\mathit{\boldsymbol{ \mu}} }}\in {{\mathbb{R}}^{\mathit{p}\times \mathit{q}}}$是子空间均值矩阵，$ \mathit{\boldsymbol{Ux}}\rm{=}\sum{{{\mathit{\boldsymbol{x}}}_{\mathit{j}}}{{\mathit{\boldsymbol{u}}}_{\mathit{j}}}}\left( \mathit{j}\rm{=1, 2, }\cdots \rm{, }\mathit{k} \right)$是由子空间$ \mathit{\boldsymbol{U}}$线性构造的重构信号，$ \mathit{\boldsymbol{x}}\rm{=}{{\left[{{\mathit{\boldsymbol{x}}}_{\rm{1}}}\rm{, }{{\mathit{\boldsymbol{x}}}_{\rm{2}}}\rm{, }\cdots \rm{, }{{\mathit{\boldsymbol{x}}}_{\mathit{k}}} \right]}^{\rm{T}}}\in {{\mathbb{R}}^{\mathit{k}}}$是模型表示系数，$ mat$(·)是向量转矩阵操作，$ \mathit{\boldsymbol{E}}_{1}^{\mathit{i}}\in {{\mathbb{R}}^{\mathit{p}\times \mathit{q}}}$是块噪声矩阵，$ \mathit{\boldsymbol{E}}_{2}^{\mathit{i}}\in {{\mathbb{R}}^{\mathit{p}\times \mathit{q}}}$是随机噪声矩阵(为了便于讨论，后续内容中省略样本索引号$ i$)。观测模型示意图如图 3所示。

图 3 基于矩阵低秩表示的观测模型

Fig. 3 Matrix low-rank representation based appearance model

由图 3和式(3)可以看出，虽然每一个候选样本外观建模是一种单任务外观学习过程，但是由于样本信号保持着其2维数据原型，其自身的全局像素之间依然是一种多任务联合学习模式。因为跟踪中候选样本的外观建模任务是独立进行的，所以式(2)所示的目标函数也相应地转化为

$ \begin{array}{*{20}{c}} {\mathop {\min }\limits_{{\mathit{\boldsymbol{E}}_1},{\mathit{\boldsymbol{E}}_2},\mathit{\boldsymbol{x}}} {{\left\| {{\mathit{\boldsymbol{E}}_1}} \right\|}_ * } + {\lambda _1}{{\left\| {{\mathit{\boldsymbol{E}}_2}} \right\|}_1} + \frac{{{\lambda _2}}}{2}{{\left\| \mathit{\boldsymbol{x}} \right\|}_2^2}}\\ {{\rm{s}}.\;{\rm{t}}.\;\mathit{\boldsymbol{\bar Z}} = mat\left( {\mathit{\boldsymbol{Ux}}} \right) + {\mathit{\boldsymbol{E}}_1} + {\mathit{\boldsymbol{E}}_2}} \end{array} $

(4)

式中，$ {{\mathit{\lambda }}_{\rm{1}}}$是随机噪声平衡参数，$ {{\mathit{\lambda }}_{\rm{2}}}$是表示系数正则化参数。

1.2 目标函数参数的优化

本文观测模型的数据表述框架依然保留着样本数据空间的原始格式，且同样能够表现出文献[9]回归模型的优秀性质。但是其模型已从三阶张量空间降级到2维矩阵空间，其目标函数的优化过程也随着发生显然的区别。因此，按照其2维矩阵数据表述框架下的观测建模特点，设计其目标函数的相应优化算法。本文采用优秀的多变量交替迭代优化算法ADMM^[10]来求解其相关参数。

首先，将式(4)转化为相应的无约束增广拉格朗日乘子函数，即

$ \begin{array}{*{20}{c}} {{L_\mu }\left( {{\mathit{\boldsymbol{E}}_1},{\mathit{\boldsymbol{E}}_2},\mathit{\boldsymbol{x}},\mathit{\boldsymbol{\varphi }}} \right) = }\\ {{{\left\| {{\mathit{\boldsymbol{E}}_1}} \right\|}_ * } + {\lambda _1}{{\left\| {{\mathit{\boldsymbol{E}}_2}} \right\|}_1} + \frac{{{\lambda _2}}}{2}\left\| \mathit{\boldsymbol{x}} \right\|_2^2 + }\\ {{\rm{tr}}\left[ {{\mathit{\boldsymbol{\varphi }}^{\rm{T}}}\left( {\mathit{\boldsymbol{\bar Z}} - {\rm{mat}}\left( {\mathit{\boldsymbol{Ux}}} \right) - {\mathit{\boldsymbol{E}}_1} - {\mathit{\boldsymbol{E}}_2}} \right)} \right] + }\\ {\frac{{\rm{ \mathsf{ μ} }}}{2}\left\| {\mathit{\boldsymbol{\bar Z}} - {\rm{mat}}\left( {\mathit{\boldsymbol{Ux}}} \right) - {\mathit{\boldsymbol{E}}_1} - {\mathit{\boldsymbol{E}}_2}} \right\|_{\rm{F}}^2} \end{array} $

(5)

整理式(5)可得式(6)，即

$ \begin{array}{*{20}{c}} {{L_\mu }\left( {{\mathit{\boldsymbol{E}}_1},{\mathit{\boldsymbol{E}}_2},\mathit{\boldsymbol{x}},\mathit{\boldsymbol{\varphi }}} \right) = {{\left\| {{\mathit{\boldsymbol{E}}_1}} \right\|}_ * } + {\lambda _1}{{\left\| {{\mathit{\boldsymbol{E}}_2}} \right\|}_1} + \frac{{{\lambda _2}}}{2}\left\| \mathit{\boldsymbol{x}} \right\|_2^2 + }\\ {\frac{\mu}{2}\left\| {\mathit{\boldsymbol{\bar Z}} - {\rm{mat}}\left( {\mathit{\boldsymbol{Ux}}} \right) - {\mathit{\boldsymbol{E}}_1} - {\mathit{\boldsymbol{E}}_2} + \frac{\mathit{\boldsymbol{\varphi }}}{\mu }} \right\|_{\rm{F}}^2 - \frac{{\left\| \mathit{\boldsymbol{\varphi }} \right\|_{\rm{F}}^2}}{{2\mu }}} \end{array} $

(6)

式中，$\rm{ \mathsf{ μ}}$＞0是惩罚系数，$ \mathit{\boldsymbol{\varphi }}$是拉格朗日乘子项，tr(·)是迹运算。可知，式(6)是标准的拉格朗日乘子求解问题。因此，模型的目标函数就可归纳为如下形式的无约束凸优化问题，即

$ \mathop {\min }\limits_{{\mathit{\boldsymbol{E}}_1},{\mathit{\boldsymbol{E}}_2},\mathit{\boldsymbol{x}},\mathit{\boldsymbol{\varphi }}} {L_\mu }\left( {{\mathit{\boldsymbol{E}}_1},{\mathit{\boldsymbol{E}}_2},\mathit{\boldsymbol{x}},\mathit{\boldsymbol{\varphi }}} \right) $

(7)

这样，模型的优化变量分别为$ {{\mathit{\boldsymbol{E}}}_{\rm{1}}}\rm{, }{{\mathit{\boldsymbol{E}}}_{2}}\rm{, }\mathit{\boldsymbol{x}}\rm{, }\mathit{\boldsymbol{ \varphi}} $，求解时利用ADMM算法交替迭代更新，达到收敛条件就可以分别得到各参数的最优解，其优化详细步骤如算法1所示。其中，步骤4)5)分别用定理1和定理2求得，$ vec$(·)是矩阵向量化操作。

定理1^[11]：设矩阵$ \mathit{\boldsymbol{Q}}$的奇异值分解是$ \mathit{\boldsymbol{Q}}\rm{=}\mathit{\boldsymbol{US}}{{\mathit{\boldsymbol{V}}}^{\rm{T}}}$，那么式子$ \underset{\mathit{X}}{\mathop{\rm{min}}}\, \ \mathit{\mu }{{\left\| \mathit{\boldsymbol{X}} \right\|}_{\rm{*}}}\rm{+}\frac{1}{2}\left\| \mathit{\boldsymbol{X}}\rm{-}\mathit{\boldsymbol{Q}} \right\|_{\rm{F}}^{\rm{2}}$的最优解应是

$ \mathit{\boldsymbol{X}} * = {D_\mu }\left( \mathit{\boldsymbol{Q}} \right) = \mathit{\boldsymbol{U}}\left[ {\max \left( {\mathit{\boldsymbol{S}} - \mu \mathit{\boldsymbol{I}},0} \right)} \right]{\mathit{\boldsymbol{V}}^{\rm{T}}} $

(8)

式中，$ {{\mathit{D}}_{\mathit{\mu }}}$(·)是奇异值收缩算子。

定理2^[12]：给定矩阵$ \mathit{\boldsymbol{Q}}$，假设$ \underset{\mathit{X}}{\mathop{\rm{min}}}\, \ \mathit{\mu }{{\left\| \mathit{\boldsymbol{X}} \right\|}_{1}}\rm{+}\frac{1}{2}\left\| \mathit{\boldsymbol{X}}\rm{-}\mathit{\boldsymbol{Q}} \right\|_{\rm{F}}^{\rm{2}}$的最优解是$ \mathit{\boldsymbol{X}}^*$，那么$ \mathit{\boldsymbol{X}}^*$的$ {ij}^{th}$元素值为

$ {\left[ {{\mathit{\boldsymbol{X}}^ * }} \right]_{ij}} = {S_\mu }{\left[ \mathit{\boldsymbol{X}} \right]_{ij}} = \left\{ \begin{array}{l} {\mathit{\boldsymbol{X}}_{ij}} - \mu \;\;\;\;{\mathit{\boldsymbol{X}}_{ij}} > \mu \\ {\mathit{\boldsymbol{X}}_{ij}} + \mu \;\;\;\;{\mathit{\boldsymbol{X}}_{ij}} < - \mu \\ 0\;\;\;\;\;\;\;\;\;\;\;\;\;其他 \end{array} \right. $

(9)

式中，$ {{\mathit{S}}_{\mathit{\mu }}}$[·]是软阈值收缩算子。

算法1利用多变量交替方向乘子法求解观测模型^[10]

输入：特征子空间$ \mathit{\boldsymbol{U}}$，候选样本矩阵$ \mathit{\boldsymbol{Z}}_i$，正则化参数$ {{\mathit{\lambda }}_{\rm{1}}}$，$ {{\mathit{\lambda }}_{\rm{2}}}$，查准率$ \mathit{\xi }=10^{-3}$，最大迭代次数$ k_{\rm max}$=100。

输出：$ \mathit{\boldsymbol{x}}\rm{=}{{\mathit{\boldsymbol{x}}}^{\rm{k+1}}}\rm{, }{{\mathit{\boldsymbol{E}}}_{\rm{1}}}\rm{=}\mathit{\boldsymbol{E}}_{1}^{\rm{k}+1}\rm{, }{{\mathit{\boldsymbol{E}}}_{\rm{2}}}\rm{=}\mathit{\boldsymbol{E}}_{2}^{\rm{k}+1}\rm{, }\mathit{k}$。

1) 初始化：$ {{\mathit{\boldsymbol{x}}}^{\rm{0}}}\rm{=0, }{{\mathit{\boldsymbol{ \varphi}} }^{\rm{0}}}\rm{=0, }\mathit{\boldsymbol{E}}_{1}^{\rm{0}}\rm{=0, }\mathit{\boldsymbol{E}}_{2}^{\rm{0}}\rm{=0, \mathsf{ μ}} \rm{ =0}\rm{.1}, {{\mathit{\mu }}_{\rm{max}}}\rm{=1}{{\rm{0}}^{\rm{6}}}\rm{, }\mathit{\rho }\rm{=10, }\mathit{k}\rm{=0}$

2) 迭代开始：

While not converged and $ k<k_{\rm max}$ do

3) 令其他变量固定不变，求解$ \mathit{\boldsymbol{x}}$

$ {\mathit{\boldsymbol{x}}^{k + 1}} = \frac{1}{{1 + \frac{{{\lambda _2}}}{\mu }}}{\mathit{\boldsymbol{U}}^{\rm{T}}} \cdot vec\left( {{{\mathit{\boldsymbol{\bar Z}}}_i} - \mathit{\boldsymbol{E}}_1^{\rm{k}} - \mathit{\boldsymbol{E}}_2^{\rm{k}} + \frac{{{\mathit{\boldsymbol{\varphi }}^{\rm{k}}}}}{\mu }} \right) $

4) 令其他变量固定不变，求解$ \mathit{\boldsymbol{E}}_1$

$ \begin{array}{*{20}{c}} {\mathit{\boldsymbol{E}}_1^{{\rm{k}} + 1} = \mathop {\min }\limits_{{\mathit{\boldsymbol{E}}_1}} \frac{1}{\mu }{{\left\| {\mathit{\boldsymbol{E}}_1^{\rm{k}}} \right\|}_ * } + }\\ {\frac{1}{2}\left\| {\mathit{\boldsymbol{E}}_2^{\rm{k}} - \left[ {{{\mathit{\boldsymbol{\bar Z}}}_i} - mat\left( {\mathit{\boldsymbol{U}}{\mathit{\boldsymbol{x}}^{{\rm{k}} + 1}}} \right)} \right] - \mathit{\boldsymbol{E}}_1^{\rm{k}} + \frac{{{\mathit{\boldsymbol{\varphi }}^{\rm{k}}}}}{\mu }} \right\|_{\rm{F}}^2} \end{array} $

5) 令其他变量固定不变，对$ \mathit{\boldsymbol{E}}_2$求解

$ \begin{array}{*{20}{c}} {\mathit{\boldsymbol{E}}_2^{{\rm{k}} + 1} = \mathop {\min }\limits_{{\mathit{\boldsymbol{E}}_2}} \frac{{{\lambda _1}}}{\mu }{{\left\| {\mathit{\boldsymbol{E}}_2^{\rm{k}}} \right\|}_1} + }\\ {\frac{1}{2}\left\| {\mathit{\boldsymbol{E}}_2^{\rm{k}} - \left[ {{{\mathit{\boldsymbol{\bar Z}}}_i} - mat\left( {\mathit{\boldsymbol{U}}{\mathit{\boldsymbol{x}}^{{\rm{k}} + 1}}} \right)} \right] - \mathit{\boldsymbol{E}}_1^{\rm{k}} + \frac{{{\mathit{\boldsymbol{\varphi }}^{\rm{k}}}}}{\mu }} \right\|_{\rm{F}}^2} \end{array} $

6) 令其他变量固定不变，求解拉格朗日乘子

$ {\mathit{\boldsymbol{\varphi }}^{{\rm{k + 1}}}} = {\mathit{\boldsymbol{\varphi }}^{\rm{k}}} + \mu \left[ {\left( {{{\mathit{\boldsymbol{\bar Z}}}_i} - \mathit{\boldsymbol{U}}{\mathit{\boldsymbol{x}}^{{\rm{k}} + 1}}} \right) - \mathit{\boldsymbol{E}}_1^{{\rm{k + 1}}} - \mathit{\boldsymbol{E}}_2^{{\rm{k + 1}}}} \right] $

7) 更新参数$ \mathit{\mu }\ \rm{:}\ \mathit{\mu }\rm{=min(}\mathit{\rho \mu }\rm{, }{{\mathit{\mu }}_{\rm{max}}}\rm{)}$。

8) 检查收敛条件

$ {\left\| {{{\mathit{\boldsymbol{\bar Z}}}_i} - mat\left( {\mathit{\boldsymbol{U}}{\mathit{\boldsymbol{x}}^{{\rm{k}} + 1}}} \right) - \mathit{\boldsymbol{E}}_1^{k + 1} - \mathit{\boldsymbol{E}}_2^{k + 2}} \right\|_\infty } < \xi $

9) 更新$ k:k=k+1$

end while

10)迭代结束。

1.3 计算复杂度及参数影响分析

假设$ \mathit{\boldsymbol{A}}\in {{\mathbb{R}}^{\mathit{m}\times \mathit{n}}}$，$ \mathit{\boldsymbol{B}}\in {{\mathbb{R}}^{\mathit{n}\times \mathit{k}}}$和$ \mathit{\boldsymbol{C}}\in {{\mathbb{R}}^{\mathit{n}\times \mathit{k}}}$，且$ {{\mathit{r}}_{\mathit{B}}}$是矩阵$ \mathit{\boldsymbol{B}}$的秩，那么$ \mathit{\boldsymbol{B}}$的SVD分解复杂度为$ {\rm O}({{\mathit{r}}_{\mathit{B}}} nk)$；$ \mathit{\boldsymbol{A}}$和$ \mathit{\boldsymbol{B}}$之乘积计算复杂度为$ {\rm O}(mnk)$，$ \mathit{\boldsymbol{B}}$和$ \mathit{\boldsymbol{C}}$之和的计算复杂度为$ {\rm O}(nk)$。本文中$ {{\mathit{\boldsymbol{U}}}_{\mathit{k}}}\in {{\mathbb{R}}^{\mathit{m}\times \mathit{n}}}$，$ {{\mathit{Z}}_{\mathit{i}}}\in {{\mathbb{R}}^{\mathit{m}\times \mathit{n}}}$，而$ \mathit{\boldsymbol{x}}\in {{\mathbb{R}}^{\mathit{k}}}$。因此，算法1的计算复杂度应为

$ {\rm{O}}\left\{ {N\left( {12nk + 2{r_B}nk + kmn} \right)} \right\} $

(10)

式中，$ N$为迭代次数，其依赖于$ \mathit{\rho }$的大小。

本文观测模型中有$ {{\mathit{\lambda }}_{\rm{1}}}$、$ {{\mathit{\lambda }}_{\rm{2}}}$及$ \mathit{\rho }$等几个参数会影响算法计算复杂度。其中，$ {{\mathit{\lambda }}_{\rm{1}}}$是平衡高斯噪声和拉普拉斯噪声对观测建模的影响。如果$ {{\mathit{\lambda }}_{\rm{1}}}$过小，则回归函数拉普拉斯噪声项也相对小，这将会下降跟踪算法适应各种异常噪声的能力；相反，如果$ {{\mathit{\lambda }}_{\rm{1}}}$过大，那么观测信号引入不必要的拉普拉斯噪声，同样会降低观测模型对目标正常外观变化的容忍能力。这就说明，不合理的$ {{\mathit{\lambda }}_{\rm{1}}}$将会引起模型的收敛变得不稳定，所以参数$ {{\mathit{\lambda }}_{\rm{1}}}$的选择应该要适中。参数$ {{\mathit{\lambda }}_{\rm{2}}}$则是控制表示系数的稀疏性，选择大一点的$ {{\mathit{\lambda }}_{\rm{2}}}$能够保证表示系数足够稀疏，但会降低模板特征的利用率，而模型的精度受到影响，选择小一些的$ {{\mathit{\lambda }}_{\rm{2}}}$会使各特征基充分参与外观建模，但会引起较高的计算复杂度和不必要的误差。由于本文跟踪算法采用的PCA子空间特征数量不多，且各特征基彼此之间也保持着良好的正交性质，所以回归函数表示系数的稀疏性基本稳定，其对模型收敛性的影响相对小。文献[2]的相关研究中指出，当$ {{\mathit{\lambda }}_{\rm{1}}}$=0.1，$ {{\mathit{\lambda }}_{\rm{2}}}$=1时跟踪算法表现出良好的性能。如图 4所示的是当$ {{\mathit{\lambda }}_{\rm{2}}}$=1，而$ {{\mathit{\lambda }}_{\rm{1}}}$取不同值时的跟踪中心点误差(ACE)、跟踪重叠率(AOR)及跟踪成功率(ASR)变化曲线图。从图中可以看出，$ {{\mathit{\lambda }}_{\rm{1}}}$的取值靠近0.1(竖虚线附近)时，模型表现出最好的水平，即：取得最小中心点误差、最大跟踪重叠率及最好的跟踪成功率。因此，依据文献[2]的经验，本文算法实验中取$ {{\mathit{\lambda }}_{\rm{1}}}$=0.1、$ {{\mathit{\lambda }}_{\rm{2}}}$=1时，观测模型的收敛性和精度比较令人满意。

图 4 参数$ {{\mathit{\lambda }}_{\rm{1}}}$、$ {{\mathit{\lambda }}_{\rm{2}}}$对观测模型的影响

Fig. 4 The influences of $ {{\mathit{\lambda }}_{\rm{1}}}$、$ {{\mathit{\lambda }}_{\rm{2}}}$ on observation modeling

另外，参数$ \mathit{\rho }$是控制算法1收敛速度(或迭代次数$ N$)的重要参数。图 5和表 1是本文MLRM模型和TNRM模型在某一视频帧中取不同的$ \mathit{\rho }$值时，迭代次数和收敛速度的变化情况。

图 5 参数$ \mathit{\rho }$对迭代次数和收敛速度的影响

Fig. 5 The influences of $ \mathit{\rho }$ on iterations & convergence speeds

表 1 取不同$ \mathit{\rho }$值时的迭代次数与收敛速度
Table 1 Iterations & convergence speeds with different $ \mathit{\rho }$

下载CSV

$ \mathit{\rho }$取值	TNRM^[9]		MLRM
$ \mathit{\rho }$取值	$ N$	速度/s	$ N$	速度/s
2	12	9.256	13	5.406
3	9	6.879	9	3.651
4	7	5.339	8	2.952
5	7	5.346	7	2.673
6	6	4.652	7	2.665
7	6	4.455	6	2.279
8	6	4.536	6	2.279
9	5	3.701	6	2.312
10	5	3.892	6	2.243
11~20	5	3.837	5	2.092

图 5显示，$ \mathit{\rho }$取值越大，那么$ N$越小，算法容易收敛，反之亦然。虽然大一些的$ \mathit{\rho }$可以提高收敛速度，但观测模型精度会下降。实验中取$ \mathit{\rho }$=10时，迭代次数$ N$＜10，且建模精度也令人满意。另外，MLRM模型和TNRM模型在同样迭代次数(取相同的$ \mathit{\rho }$值)的情况下，MLRM模型的收敛速度明显小于TNRM模型。因此，这一点也充分说明MLRM模型的算法速度比TNRM明显提高。

2 目标似然度估计模型

上面已对跟踪算法的观测建模问题进行了详细讨论，并给出了观测模型相关参数的详细优化步骤。下面讨论跟踪算法的目标似然度估计模型。

当跟踪到$ t$时刻时，利用已掌握的状态转移参数在当前视频帧中采样$ n$个候选样本，其中第$ i$个候选粒子$ \mathit{\boldsymbol{Z}}_i^t$可以通过特征子空间$ \mathit{\boldsymbol{U}}$的线性组合加以相关误差项表示，即

$ \mathit{\boldsymbol{\bar Z}}_i^t = mat\left( {\mathit{\boldsymbol{U}}{\mathit{\boldsymbol{x}}^i}} \right) + \mathit{\boldsymbol{E}}_1^i + \mathit{\boldsymbol{E}}_2^i $

(11)

式中，$ {\overline{\mathit{\boldsymbol{Z}}}}_{\mathit{i}}^{\mathit{t}}$是$ t$时刻的$ i^{th}$候选样本，$ \mathit{\boldsymbol{x}}^i$是表示系数，$ \mathit{\boldsymbol{E}}_{1}^{\mathit{i}}\rm{、}\mathit{\boldsymbol{E}}_{2}^{\mathit{i}}$分别是其相关噪声项。

跟踪中，要建立有效观测模型的同时，还要设计可靠的测度函数来搜索候选样本$ \mathit{\boldsymbol{Z}}$与目标模板(特征子空间)之间的最小测度距离。在本文中采取如下所示的测度距离函数，即

$ d\left( {\mathit{\boldsymbol{\bar Z}};{\mathit{\boldsymbol{E}}_1},{\mathit{\boldsymbol{E}}_2}} \right) = {\left\| {{\mathit{\boldsymbol{E}}_1}} \right\|_ * } + {\lambda _1}{\left\| {{\mathit{\boldsymbol{E}}_2}} \right\|_1} $

(12)

将上述式(12)所示的测度距离最小化问题转化为观测似然度最大化概率模型，即

$ p\left( {{\mathit{\boldsymbol{Z}}_t}\left| {{\mathit{\boldsymbol{S}}_t}} \right.} \right) = \max \ {{\rm{e}}^{ - \gamma d\left( {\mathit{\boldsymbol{\bar Z}};{\mathit{\boldsymbol{E}}_1},{\mathit{\boldsymbol{E}}_2}} \right)}} $

(13)

式中，$ \mathit{\gamma }$是高斯核参数(常数)，实验中取$ \mathit{\gamma }$=1。

3 实验与分析

为了验证本文跟踪算法设计的有效性，本文挑选出目标跟踪领域的10个代表性测试视频数据库，并对其中的目标进行跟踪实验。然后将跟踪结果与IVT^[1]、SCM^[3]、MTT^[4]、ASLAS^[13](adaptive structural local sparse appearance)、OSPT^[14](online sparse prototypes tracker)、LSST^[2]及TNRM^[9]等一些经典跟踪算法进行定量和定性比较。表 2列出本文采用的视频数据库及其所包含的挑战性干扰因素。

表 2 评测视频序列及其所包含的挑战因素
Table 2 Testing video sequences and it's challenging factors

下载CSV

视频名称	干扰因素
视频名称	目标遮挡	光照变化	尺度变化	姿态变化	旋转变化	视角变化	画面晃动	运动模糊	运动突变	相似目标	背景杂乱
Occlusion2	重	轻		轻	中	轻
Caviar3	重		中			微				有
Deer				轻	轻	轻		重	重	有	重
Jumping							重	重	重		轻
DavidIndoorNew	轻	重	中	重	中	轻	轻		轻
DavidOutdoor	重			中		轻	轻
Owl							重	重	重		重
Face				中	轻		中	重
Car4		重	中				轻	轻			轻
Football	重		轻	中	中				中	有	重

3.1 实验条件及评估准则

实验环境：i5-2450M 2.50 GHz(四核)CPU、8 GB内存，Windows7系统，Matlab 2013b。实验中，回归函数正则项为$ {{\mathit{\lambda }}_{\rm{1}}}$=0.1，$ {{\mathit{\lambda }}_{\rm{2}}}$=1，标准化后的样本图像为32×32像素，每一帧粒子采样数为600，模板特征向量为16个，特征更新间隔为每5帧一次。

1) 假设某一测试视频的总长为$ T$，其每一帧的索引号用$ t$表示($ t=1, 2, \cdots , T$)，测试视频某一帧中目标区域实际中心点为$ \mathit{G}_{\mathit{x}, \mathit{y}}^{\mathit{t}}$，跟踪中心点为$ \mathit{O}_{\mathit{x}, \mathit{y}}^{\mathit{t}}$，那么在t时刻的跟踪中心点误差(CE)可以用这两点之间的欧氏距离来度量，即

$ C{E_t} = {\left\| {O_{x,y}^t - G_{x,y}^t} \right\|_2} $

(14)

那么，跟踪算法在此测试视频的平均跟踪中心点误差(ACE)可以用如下公式计算，即

$ ACE = \frac{1}{T}\sum\limits_{t = 1}^T {C{E_t}} $

(15)

2) 假设$ R_t^O$是某一视频帧中t时刻所跟踪到的目标像素区域，$ R_t^G$是目标在此帧中的实际像素区域，那么t时刻的跟踪重叠率为

$ O{R_t} = \frac{{\mathit{\boldsymbol{R}}_t^G \cap \mathit{\boldsymbol{R}}_t^O}}{{\mathit{\boldsymbol{R}}_t^G \cap \mathit{\boldsymbol{R}}_t^O}} $

(16)

这样，跟踪算法在该测试视频中的平均跟踪重叠率为

$ AOR = \frac{1}{T}\sum\limits_{t = 1}^T {O{R_t}} $

(17)

与跟踪中心点评估准则相比，跟踪重叠率更能体现跟踪算法在某一测试视频上的跟踪准确率。但是，目标跟踪不需要像目标分割那样比较准确的重叠率计算，也不能严格作为跟踪性能评价的重要指标。因此，有些研究人员将算法在某一测试视频上的跟踪成功率作为评价其性能的第3种评估准则。例如，当算法在$ t^{th}$帧的重叠率$ OR_t$≥0.5时，认为算法在$ t^{th}$帧的跟踪成功，否则认为跟踪失败。

3) 假设跟踪算法在长度为$ T$的某一测试视频中成功跟踪到的总帧数记为$ M$，那么算法在此视频的平均跟踪成功率计算公式为

$ ASR = M/T $

(18)

本文采用上述3种评估准则，从实验分析的角度分类说明目标遮挡、姿态和光照变化、背景混乱与相似目标，以及运动突变与运动模糊等几种干扰噪声对各跟踪算法性能的影响。

3.2 实验结果定量分析

表 3给出各跟踪算法在不同视频所取得的平均中心点误差，跟踪结果越小表明跟踪算法的精度越高。本文跟踪算法在Occlusion2、DavidIndoorNew、DavidOutdoor、Owl、Car4等几个视频中赢取了最好的跟踪精度，而在其余的视频中ASLAS、SCM及TNRM等算法跟踪精度略高一些。这说明本文算法对小尺寸目标和运动突变的适应能力还需要进一步研究和优化。这表明本文跟踪算法处理光照和遮挡的能力有所提高。表 3给出的总平均值显示本文跟踪算法跟踪精度仅次于TNRM算法，但优于其他跟踪算法，基本在可接受的范围内。

表 3 各跟踪算法在一些视频中的平均中心点误差
Table 3 Average center point error of each algorithms in some video sequences

下载CSV

视频	IVT^[1]	SCM^[3]	MTT^[4]	OSPT^[14]	ASLAS^[13]	LSST^[2]	TNRM^[9]	本文
Occlusion2	5.14	4.54	7.79	4.04	3.06	3.3	3.17	3.05
Caviar3	62.75	62.15	66.92	4.36	2.17	3.07	3.00	4.03
DavidOutdoor	50.66	77.12	376.12	5.76	87.51	6.44	5.27	4.67
DavidIndoorNew	2.83	30.44	12.48	3.21	2.81	3.15	4.27	2.78
Car4	2.99	78.29	8.82	3.03	5.80	2.87	2.77	2.68
Owl	126.66	6.81	179.2	47.44	7.96	6.2	6.49	5.64
Jumping	10.61	3.88	53.76	5.01	6.02	4.77	4.38	4.48
Face	13.67	11.88	150.18	24.11	11.58	12.34	9.37	12.07
Deer	16.46	10.41	9.80	8.60	6.35	10.03	7.93	8.23
Football	5.76	11.06	6.87	33.71	17.24	7.57	4.95	5.31
总平均值	29.75	29.66	87.19	13.93	15.05	5.97	5.16	5.29
注：加粗字体为最优结果。

表 4给出各跟踪算法在不同视频上的平均跟踪重叠率，数值越大表明跟踪性能越好。本文跟踪算法同样在Occlusion2、DavidIndoorNew、DavidOutdoor、Owl、Car4等视频中赢取了最好的跟踪性能，而在其余的视频中基本达到了其他跟踪算法同等的水平。表 4给出的平均值显示，本文跟踪算法总体性能达到TNRM的水平，且高于其他跟踪算法。

表 4 各跟踪算法在一些视频中的平均跟踪重叠率
Table 4 Average overlap rate of each algorithms in some video sequences

下载CSV

视频	IVT^[1]	SCM^[3]	MTT^[4]	OSPT^[14]	ASLAS^[13]	LSST^[2]	TNRM^[9]	本文
Occlusion2	0.80	0.82	0.72	0.84	0.82	0.84	0.86	0.86
Caviar3	0.14	0.15	0.14	0.81	0.85	0.85	0.85	0.84
DavidOutdoor	0.56	0.51	0.10	0.77	0.45	0.76	0.77	0.78
DavidIndoorNew	0.76	0.45	0.54	0.76	0.75	0.72	0.74	0.77
Car4	0.92	0.36	0.63	0.92	0.87	0.92	0.92	0.93
Owl	0.22	0.80	0.09	0.48	0.76	0.81	0.80	0.82
Jumping	0.57	0.72	0.07	0.69	0.69	0.65	0.67	0.70
Face	0.74	0.77	0.24	0.68	0.75	0.76	0.80	0.78
Deer	0.54	0.60	0.61	0.61	0.66	0.57	0.62	0.60
Football	0.74	0.69	0.73	0.62	0.60	0.69	0.77	0.75
总平均值	0.60	0.59	0.39	0.72	0.72	0.76	0.78	0.78
注：加粗字体为最优结果。

表 5给出各跟踪算法在不同视频上的平均跟踪成功率(以百分比表示)，数值越大表明算法生命力越长。本文跟踪算法在Occlusion2、Caviar3、Owl、Face、Car4、Football等测试视频中取得了最高的跟踪成功率，而其余的视频中也发挥出了与其他算法基本相同的水平。表 5的总平均值显示，本文跟踪算法基本达到TNRM算法的水平，差异可忽略不计，但明显优于其他跟踪算法。

表 5 各跟踪算法在一些视频中的平均跟踪成功率
Table 5 Averagesuccess rate of each algorithms in some video sequences

下载CSV

视频	IVT^[1]	SCM^[3]	MTT^[4]	OSPT^[14]	ASLAS^[13]	LSST^[2]	TNRM^[9]	本文
Occlusion2	98.79	98.79	92.12	99.7	98.23	98.79	100	100
Caviar3	15.80	15.80	15.20	99.60	99	99.80	98.87	99.80
DavidOutdoor	71.83	65.08	10.71	97.22	51.19	95.63	98.43	96.43
DavidIndoorNew	96.86	51.87	58.74	96.86	96.86	96.41	97.71	96.71
Car4	100	40.15	65.15	100	100	100	100	100
Owl	27.62	97.62	9.21	57.46	97.78	99.52	99.52	99.72
Jumping	82.75	98.72	5.11	95.53	94.25	93.93	98.72	98.40
Face	100	100	26.22	91.87	100	99.80	99.80	100
Deer	66.20	88.73	85.92	84.51	90.14	80.28	92.51	91.73
Football	97.51	83.15	97.24	76.52	75.69	88.12	100	100
总平均值	75.74	73.99	46.56	89.93	90.31	95.23	98.56	98.28
注：加粗字体为最优结果。

表 3—表 5给出的平均中心点误差、平均重叠率、平均跟踪成功率，以及它们的总平均值表明，本文跟踪算法虽然在部分测试视频中未能取得最好的跟踪精度和性能，但取得良好的跟踪成功率。这就说明跟踪算法简单有效的观测模型及其相应似然度估计机制能够收敛到较高的精度，使得跟踪器能够有效克服视频中的各种干扰因素，表现出令人满意的跟踪效果。

3.3 实验结果定性分析

与定量分析方法相比，定性比较方法较为直观地展示和评估跟踪算法在场景中遇到各种干扰噪声时所表现的跟踪性能。下面按照跟踪中常见的几种噪声，进一步分类说明各跟踪算法在这些噪声干扰下的性能表现。

1) 局部或完全遮挡。遮挡对跟踪算法性能的影响非常严重，所以在此挑选如图 6所示的富有挑战性测试视频，并展示目标在经历局部或完全遮挡时的跟踪结果。其中，目标除了遭受不同程度的遮挡干扰，还会遇到目标旋转、轻微光照变化、尺度变化、姿态变化、视角变化，以及小尺寸目标等多种干扰。

图 6 跟踪算法在严重遮挡干扰下的实验结果展示

Fig. 6 Experimental results on heavy occlusions

如图 6(a)所示的视频Occlusion2中，目标遭受严重遮挡干扰的同时，还会受到旋转和斜切等噪声的干扰。此视频中，各跟踪算法从头到尾都能够成功跟踪到目标并取得较小的跟踪中心点误差，但跟踪重叠率都偏低一些。这是因为跟踪算法在目标遇到遮挡或旋转时所获取的旋转角度和跟踪区域大小不一所导致的(#356、#496、#581、#726)。跟踪中，MTT算法对遮挡和目标旋转的鲁棒性较差，多次出现暂时性跟踪漂移或无法正确适应目标旋转的情况。LSST有时候也偶尔出现轻微不稳定情况。此视频中，本文算法MLRM赢取最小平均中心点误差、最大的跟踪重叠率及完全跟踪成功率。这就说明本文算法对目标遮挡和旋转的应对能力较强。这是因为样本数据的原始数据结构及其各像素的潜在联系起到一定的作用。此外，TNRM算法也比其他跟踪算法达到同等或更高的水平。

如图 6(b)所示的视频Caviar3中，目标交换其位置或其他人物走入场景等原因，多次被严重遮挡。另外，由于目标图像区域较小，且还不断缩小等原因，其外观发生很复杂的变化。此视频中，目标从第#54帧开始首次被遮挡，到#79帧时完全被遮挡。从此开始IVT、SCM及MTT等算法严重流失目标(#88、#98、#112)。从#93帧开始目标第二次被遮挡，到#112帧时完全被遮挡，此时的目标与遮挡人物的大小、颜色等特别相似，但其他跟踪算法都能通过干扰。跟踪持续到#430帧时，一个新的人物从画面右侧走入。此时，目标第3次被遮挡，到#441帧的时候严重遮挡。这一过程中，除了IVT、SCM、MTT等算法持续流失目标外，其他跟踪算法都能够顺利地克服遮挡，并成功完成跟踪。其中，ASLAS赢取最小的中心点误差，ASLAS、LSST、TNRM等算法赢取最大的跟踪重叠率，而LSST和本文算法赢取最好的跟踪成功率。本文算法跟踪性能基本接近了最好的跟踪水平，但其平均中心点误差略大一些。这就说明，本文算法对小尺寸目标的外观变化比较敏感，需进一步研究和优化。

如图 6(c)所示的视频DavidOutdoor中，目标在来回行驶中一共被遭受到两种遮挡物的四次干扰。此外，视频中还存在目标的姿态变化、摄影机视角变化及晃动等干扰。跟踪结果显示，MTT算法遇到第1次的遮挡物(铁杆)就流失目标，而其他跟踪算法在第2次被大树遮挡的时候出现轻微的漂移现象(#83)，通过遮挡物后又恢复正常。目标在转身准备回去的那一时刻开始SCM和ASLAS算法丢失目标(#136、#175)。目标第3次被大树遮挡时，IVT也流失目标(#207)，其他跟踪算法从头到尾能够顺利地跟踪到目标。实验中，本文算法取得最小平均中心点误差和最大跟踪重叠率，并表现出良好的跟踪性能。其跟踪成功率仅次于TNRM和OSPT，也基本达到最好的水平。

2) 姿态和光照变化。图 7展示了目标在几款测试视频中受到光照变化或姿态变化时的跟踪结果。光照变化是跟踪建模中影响跟踪性能的第二大干扰噪声。由于其有时候严重破坏目标图像区域的原有机理，从中学习具有代表意义的特征显得十分困难，这对目标外观的有效观测建模带来极大的挑战。这3种测试视频除了包含不同程度的光照噪声干扰外，还有目标旋转、尺度及姿态变化等噪声。其中，DavidIndoorNew主要考核跟踪算法对光照变化、姿态及旋转等变化的适应性，而Car4则考察跟踪算法在室外环境下对光照和尺度变化的鲁棒性。

图 7 跟踪算法在姿态和光照变化下的实验结果展示

Fig. 7 Experimental results on pose and illumination variations

在图 7(a)所示的视频序列DavidIndoorNew中，目标从黑暗中走进光线很亮的房间里。在此过程中，被跟踪的对象脸部发生剧烈的光照变化。此视频中的跟踪结果显示，本文跟踪算法取得最小的中心点误差和最大跟踪重叠率，从而表现出最好的跟踪性能。IVT和OSPT也取得良好的跟踪重叠率，而TNRT取得最高跟踪成功率。但是SCM和MTT等算法在跟踪过程中出现稍微不稳定情况(#290、#354、#395、#405)，而表现出弱鲁棒性。这就说明SCM虽然对遮挡目标具有良好的建模能力，但对光照稍微敏感。其他跟踪算法基本发挥同等水平。

在图 7(b)所示的视频序列Car4中，目标在户外较强的日照下行驶，这一过程中目标有时候受到路边树阴和运动速度的影响，其外观发生光照变化和尺度变化。特别是其通过高架桥下方的通道时发生严重的光照变化和尺度变化(#1、#211、#231、#261)。各跟踪算法在此视频的跟踪结果显示，SCM和MTT算法依然对光照引起的目标外观变化表现出较差的鲁棒性能。这一过程中，SCM从#106帧开始出现漂移目标图像区域，也没有能够适应目标的尺度变化，跟踪到#186帧目标进入高架桥阴影区域开始就严重丢失目标，一直持续到#556帧才开始慢慢恢复到目标身上，但尺度变化的适应性依然没有恢复正常。MTT算法从跟踪开始至#186帧时出现轻微的漂移和尺度不适应情况，目标通过高架桥下方阴影区域期间开始发生明显的尺度不适应。这一过程中，虽然MTT的跟踪框始终落在目标图像区域，但比目标图像区域明显大，且持续到跟踪结束为止。此视频中，本文算法取得最小中心点误差和最大跟踪重叠率，并赢取最好的跟踪性能。除SCM和MTT以外，其他所有跟踪算法取得了完全的跟踪成功率，并表现出同等的跟踪水平。实验验证，本文跟踪算法在各种光照挑战下良好适应目标的尺度变化、旋转、姿态变化及运动模糊等干扰，能够表现出良好的跟踪水平。这就充分证明，对观测模型的重构误差进行核范数约束比其他正则化方法更正确量化残差数据的潜在分布特点，构造出更加准确的观测信号，使跟踪器能够正确捕捉强烈光照条件下的目标。

3) 背景混乱与相似目标。图 8展示了目标在几款测试视频中受到背景混乱等噪声干扰时的跟踪结果。

图 8 跟踪算法在背景杂乱或相似目标时的实验结果展示

Fig. 8 Experimental results on background clutter and similar objects

跟踪中，背景混乱的产生途径非常复杂，其中有些现象对跟踪的影响不大，但有些现象可能为目标外观的有效建模带来一定的挑战。这种挑战性背景混乱噪声主要由目标自身或摄影机的快速运动、场景中存在与目标的形貌、纹理、颜色等特征特别相似的对象，以及闪光的灯光或风吹的树叶等很多自由变化的对象所引起。这测试视频中，Deer主要考核跟踪算法能否捕捉到快速变化的混乱背景中的目标，而Football则评估跟踪算法能否将目标从和它一起运动的诸多相似对象中辨别出来。

图 8(a)所示的测试序列Deer中，小鹿在水中快速奔跑。由于摄影机镜头跟随小鹿而运动，其产生较为严重的运动模糊和背景混乱效果。此外，场景还存在与目标特别相似的另一个小鹿。因此，此视频比较适合于评估跟踪算法对快速运动、运动模糊、背景混乱，以及相似目标等噪声的适应能力。本测试视频的跟踪结果显示，所有跟踪算法都能够从头到尾跟踪到目标，但是跟踪性能普遍偏低。其中，IVT和MTT算法的性能稍差，跟踪中出现几次轻微漂移现象(#29、#38、#46、#70)，但很快又恢复到目标身上。ASLAS算法赢取最小中心点误差和最大跟踪重叠率，TNRT赢取最好的跟踪成功率。本文跟踪算法的跟踪精度次于ASLAS和TNRT算法，跟踪成功率在第2位，但平均跟踪重叠率排在第4位。

图 8(b)所示的测试序列Football中，目标与场景中的其他人物都穿着纹理和颜色极其相似的服饰，且目标的运动速度也会发生突然的变化。此外，跟踪中目标还被其他相似人物遮挡。此视频是背景混乱和相似目标等噪声的典型案例。此视频中的跟踪结果显示，所有算法表现出略低的跟踪性能，基本在60%至79%之间。实验中，TNRT算法取得最小中心点误差、最大跟踪重叠率及完全的跟踪成功率，表现出良好的跟踪性能并排在第一位，而本文算法是排在第二位，仅次于TNRT。其次是IVT、MTT、LSST等跟踪算法表现良好，而OSTP、ASLAS及SCM等算法在跟踪中从#282帧开始出现漂移现象(#292、#335、#362)，并持续到跟踪结束为止。

实验结果表明，本文算法对目标的快速运动、相似目标以及运动模糊等干扰具有良好的适应性，跟踪性能基本接近TNRM算法，超过其他6款跟踪算法的水准。

4) 运动突变与运动模糊。图 9展示了目标在几款测试视频中受到快速运动、摄影机晃动及运动模糊等噪声干扰时的跟踪结果。这些测试视频中，目标自身快速运动或摄影机晃动等原因目标图像区域普遍产生十分模糊的情况。由于这种噪声往往严重破坏目标的有用特征，这使得跟踪中在线学习良好的目标特征并对不断变化的目标外观有效建模变得十分困难。

图 9 跟踪算法在运动突变和运动模糊时的实验结果展示

Fig. 9 Experimental results on rapid action and motion blur

图 9(a)所示的测试视频Owl中，目标同样受到摄影机的大幅度晃动引起的严重运动模糊和运动突变等噪声干扰。此视频的大部分帧中目标是非常模糊的，且目标的运动速度也是很无规律。此视频的实验结果显示，首先还是MTT算法出现跟踪漂移现象(#56)，直至#91帧多次来回漂移，之后就完全跟踪失败；从#178帧开始IVT算法出现跟踪漂移；从#361帧开始OSPT算法也出现丢失目标的情况，并持续到跟踪结束(#278、#383、#628)为止。ASLAS有时候也出现轻微漂移(#278)，但很快恢复正常。其余算法都能够较好地应对运动突变和运动模糊。

本文算法赢取最小中心点误差、最大跟踪重叠率及最大跟踪成功率，而争夺最好的跟踪性能。其次是LSST、TNRM、SCM等算法。

图 9(b)所示的测试视频Jumping中，人物的跳绳动作和摄影机的晃动引起目标图像区域的严重模糊。同时，还产生跟踪场景的背景混乱效果。其中的跟踪结果显示，MTT算法从#16帧开始产生极其不稳定的情况，并严重流失目标(#21、#36、#97、#224)，直到跟踪结束。IVT算法也多次出现跟踪漂移现象，但很快恢复正常。ASLAS算法也出现一次暂短的流失目标情况，也很快恢复正常。其他跟踪算法基本良好地适应快速运动和运动模糊等噪声干扰引起的目标外观变化。此视频的实验中，SCM赢取最小的中心点误差、最大的跟踪重叠率及最大跟踪成功率。其次是本文算法和TNRM算法，它们基本表现出同等的水平。

图 9(c)所示的测试视频Face中，摄影机的大幅度晃动引起目标图像区域的快速运动及严重模糊。此视频中的跟踪结果显示，MTT算法多次出现跟踪漂移情况(#103、#158)，从#230开始其跟踪框严重脱离目标区域(#304、#340)，并完全流失目标，直到跟踪结束。OSPT算法也从#302帧开始出现流失目标情况(#304)，持续到#341帧时才恢复目标身上。其他跟踪算法都较好地应对目标的不规律运动速度和运动模糊，而表现出较好地跟踪效果。其中，TNRM取得最小中心点误差和最大跟踪重叠率。本文算法平均中心点误差排在第四位，平均跟踪重叠率排在第二位，但跟踪成功率优于TNRM。除MTT外，其他所有跟踪算法基本取得了良好的跟踪成功率，本文算法比其他6种经典算法表现出更好的跟踪性能。

总之，本文跟踪算法在以上8个测试视频中，针对目标的姿态、位置、运动模糊、遮挡、光照、尺度及背景混乱等种种干扰因素进行鲁棒性实验。表 2和表 3显示，本文跟踪算法与TNRM算法基本在同一个跟踪水平上，其对各种挑战性干扰因素的适应性强，特别是对目标遮挡、复杂光照变化以及运动模糊等破坏性干扰噪声的鲁棒性较为突出。

4 结论

本文从实验分析的角度去研究目标跟踪框架中样本信号的数据表述格式、目标特征提取、候选样本外观的观测建模，以及目标最大似然估计等问题，提出了一种基于矩阵低秩表示的观测建模方法及其相应的最大似然度评估模型。实验验证本文跟踪算法的数据表述格式和基于矩阵低秩表示的观测建模机制比较准确地探测样本数据的潜在结构，能够充分挖掘信号重构中残差数据的分布特征，精确构造出基于最小重构误差的候选样本外观信号。同时，其最大似然估计函数能够更准确地评估目标重构信号与各候选样本之间的最小测度距离，使跟踪器良好适应各种跟踪环境，从而有效避免由不确定噪声所引起的模型退化和跟踪漂移问题。实验结果表明，本文跟踪算法能够达到或战胜一些同类跟踪算法的跟踪水平。今后的研究中，更进一步参考一些同类算法优越的跟踪建模特性，不断优化本文算法整体模型和细节中的不足，在更多实验环境中评测其性能和有效性。

参考文献

[1] Ross D A, Lim J, Lin R S, et al. Incremental learning for robust visual tracking[J]. International Journal of Computer Vision, 2008, 77(1-3): 125–141. [DOI:10.1007/s11263-007-0075-7]

[2] Wang D, Lu H C, Yang M H. Least soft-threshold squares tracking[C]//Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR: IEEE, 2013: 2371-2378. [DOI:10.1109/CVPR.2013.307]

[3] Zhong W, Lu H C, Yang M H. Robust object tracking via sparsity-based collaborative model[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2012: 1838-1845. [DOI:10.1109/CVPR.2012.6247882]

[4] Zhang T Z, Ghanem B, Liu S, et al. Robust visual tracking via multi-task sparse learning[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2012: 2042-2049. [DOI:10.1109/CVPR.2012.6247908]

[5] Yang M, Zhang L, Yang J, et al. Regularized robust coding for face recognition[J]. IEEE Transactions on Image Processing, 2013, 22(5): 1753–1766. [DOI:10.1109/TIP.2012.2235849]

[6] Luo L, Yang J, Qian J J, et al. Nuclear norm regularized sparse coding[C]//Proceedings of the 201422nd International Conference on Pattern Recognition. Stockholm, Sweden: IEEE, 2014: 1834-1839. [DOI:10.1109/ICPR.2014.321]

[7] Wang H J, Ge H J, Zhang S Y, et al. Object tracking via online low rank representation[J]. Journal of Xidian University:Natural Science, 2016, 43(5): 98–104. [王海军, 葛红娟, 张圣燕, 等. 在线低秩表示的目标跟踪算法[J]. 西安电子科技大学学报:自然科学版, 2016, 43(5): 98–104. ] [DOI:10.3969/j.issn.1001-2400.2016.05.018]

[8] Chen Y, Wu F, Jing X Y. Online object tracking with robust low-rank sparse representation[J]. Computer Engineering and Design, 2016, 37(4): 1062–1066. [陈芸, 吴飞, 荆晓远, 等. 鲁棒低秩稀疏表示的在线目标跟踪[J]. 计算机工程与设计, 2016, 37(4): 1062–1066. ] [DOI:10.16208/j.issn1000-7024.2016.04.041]

[9] Yasin M, Muhtar K, Zhao C X. Robust object tracking via tensor nuclear-norm matrix regression[J]. Journal of Image and Graphics, 2016, 21(6): 781–795. [亚森江·木沙, 木合塔尔·克力木, 赵春霞. 张量核范数回归的目标跟踪[J]. 中国图象图形学报, 2016, 21(6): 781–795. ] [DOI:10.11834/jig.20160611]

[10] Boyd S, Parikh N, Chu E, et al. Distributed optimization and statistical learning via the alternating direction method of multipliers[J]. Foundations and Trends in Machine Learning, 2010, 3(1): 1–122. [DOI:10.1561/2200000016]

[11] Cai J F, Candès E J, Shen Z W. A singular value thresholding algorithm for matrix completion[J]. SIAM Journal on Optimization, 2010, 20(4): 1956–1982. [DOI:10.1137/080738970]

[12] Lin Z C, Chen M M, Ma Y. The augmented lagrange multiplier method for exact recovery of corrupted low-rank matrices[J]. arXiv e-print, 2010: arXiv:1009.5055v1.

[13] Jia X, Lu H C, Yang M H. Visual tracking via adaptive structural local sparse appearance model[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: 2012: 1822-1829. [DOI:10.1109/CVPR.2012.6247880]

[14] Wang D, Lu H C, Yang M H. Online object tracking with sparse prototypes[J]. IEEE Transactions on Image Processing, 2013, 22(1): 314–325. [DOI:10.1109/TIP.2012.2202677]