发布时间: 2017-10-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.160619
2017 | Volume 22 | Number 10

图像理解和计算机视觉

自适应紧致特征的超像素目标跟踪

田健^1,2, 王开军^1,2

1. 福建师范大学数学与信息学院, 福州 350007;

2. 福建省网络安全与密码技术重点实验室, 福州 350007

收稿日期: 2016-12-22; 修回日期: 2017-06-29

基金项目: 国家自然科学基金项目（61672157）；福建师范大学网络与信息安全关键理论和技术创新团队基金项目（IRTL1207）

第一作者简介: 田健(1990-), 男, 2016年于福建师范大学获计算机应用技术专业工学硕士学位, 主要研究方向为视觉跟踪、模式识别与机器学习。E-mail:wkjwang@gmail.com.

中图法分类号: TP301.6

文献标识码: A

文章编号: 1006-8961(2017)10-1409-10

摘要

目的针对现有的超像素目标跟踪算法（RST）对同一类中分别属于目标和相似干扰物体的超像素块赋予相同特征置信度，导致难以区分目标和相似干扰物的问题，为此提出自适应紧致特征的超像素目标跟踪算法（ACFST）。方法该方法在每帧的目标搜索区域内构建适合目标大小的自适应紧致搜索区域，并将该区域内外的特征置信度分别保持不变和降低。处于背景中的相似干扰物体会被该方法划分到紧致搜索区域外，其特征置信度被降低。当依据贝叶斯推理框架求出对应最大后验概率的目标时，紧致搜索区域外的特征置信度低，干扰物体归属目标的程度也低，不会被误判为目标。结果在具有与目标相似干扰物体的两个视频集进行测试，本文ACFST跟踪算法与RST跟踪算法相比，平均中心误差分别缩减到5.4像素和7.5像素，成功率均提高了11%，精确率分别提高了10.6%和21.6%，使得跟踪结果更精确。结论本文提出构建自适应紧致搜索区域，并通过设置自适应的参数控制紧致搜索区域变化，减少因干扰物体与目标之间相似而带来的误判。在具有相似物体干扰物的视频集上验证了本文算法的有效性，实验结果表明，本文算法在相似干扰物体靠近或与目标部分重叠时，能够保证算法精确地跟踪到目标，提高算法的跟踪精度，具有较强的鲁棒性，使得算法更能适应背景杂乱、目标遮挡、形变等复杂环境。

关键词

目标跟踪; 相似干扰物; 贝叶斯推理; 超像素; 紧致特征

Superpixel object tracking with adaptive compact feature

Tian Jian^1,2, Wang Kaijun^1,2

1. College of Mathematics and Informatics, Fujian Normal University, Fuzhou 350007, China;

2. Fujian Provincial Key Laboratory of Network Security and Cryptographic Technology, Fuzhou 350007, China

Supported by: National Natural Science Foundation of China(61672157)

Abstract

Objective Object tracking is the basic theory of computer vision that has been given increasing attention.Object tracking encounters several natural challenges, such as illumination change, scale variations, occlusion, deformable, fast motion, random movement, object presence, analogues or busy background, and low resolution.Recently, superpixel to model object appearance has been employed for object tracking.However, existing superpixel object tracking algorithms(RST) have provided uniform feature confidence to superpixel blocks belonging to the object and similar interference objects in same category, which is difficultly distinguished between object and similar interference objects.A superpixel tracking algorithm with adaptive compact feature(ACFST) is proposed to solve similar interference objects. Method In every frame, the surrounding region of the target is segmented to many superpixels and each superpixel has feature confidence due to the objective model in the last frame.The new method creates a smaller compact search scope to adapt to the object size, and then the feature confidence corresponding to superpixels inside the scope remained unchanged, and the outside scope had decreased.The size of the compact region is controlled by a set of parameters whose values adapt with every change of each frame.The similar interference objects in the background around the object are partitions into the outside of compact search scope and marked as inadequate objective.As such, the feature confidence of the superpixels in interference objects is decreased to reduce miscalculation.Object is composed of multiple superpixels with different feature confidence.When tracking an object in every frame, the candidate sample around the target location of last frame have different confidence.Then, the Bayesian inference is used to find the sample that correspond to the maximum a posteriori probability estimation in the current frame to be regarded as an object.The feature confidence outside of the scope decreases because of the compact search scope, which means that the degree of interference objects is low so that misjudgment did not occur. Result The proposed tracking algorithm is verified using two video sequences with a background similar to the object, namely, Basketball and Girl.The new superpixel object tracking algorithm(i.e., ACFST) is compared with the original superpixel tracking algorithm(RST) from three aspects, namely, mean center location error, success rate, and precision ratio.In terms of mean center location error, the proposed algorithm can be significantly reduced to 5.4 pixels and 7.5 pixels in the two sequences.In terms of success rate, the ACFST is 11% higher than the RST.With the location threshold limit, the precision ratio of the ACFST is better than that of the RST in the two sequences, an improvement of 10.6% and 21.6%, respectively.Compared with the RST that do not distinguish similar interference objects, the proposed tracking algorithm produces more accurate tracking results. Conclusion The proposed method creates an adaptive compact region and set adaptive parameters to control the size of the compact region, thereby reducing the misjudgment between the real object and the similar interference objects during tracking, resulting in excellent robustness.The effectiveness of this algorithm is verified in video sets with similar interference objects.Experiment showed that when the similar interference objects disturb the object or overlap the object, the existing superpixel object tracking algorithms fail to track object and the new method could track accurately.The tracking precision of the algorithm is improved and the robustness is strong, which is more suitable for complex environments, such as background clutter, target occlusion, and deformation.

Key words

object tracking; similar interference objects; Bayesian inference; superpixel; compact feature

0 引言

目标跟踪是计算机视觉领域中重要的研究方向之一，已经在视频监控和运动识别等场合中得到广泛应用。要实现成功的目标跟踪仍面临着诸多因素，例如光照变化、目标形变、快速运动、尺度变化和遮挡等^[1-2]。通过初始时刻给定的目标状态(位置、方向)，目标跟踪在随后视频序列图像中使用有效的跟踪方法求出目标当前时刻的状态。

现有的目标跟踪方法比较多，大致包含3个组成部分，即运动模型、表示模型以及更新模型。依据表示模型可将目标跟踪方法分为两类：生成式、分辨式^[3-4]。生成式跟踪方法利用目标特征构建模板，在视频序列图像中找到与模板最相似的候选样本作为目标。分辨式跟踪方法将跟踪任务当作分类问题，利用训练样本集学习得到分类模型，并依据该分类模型在跟踪阶段分离目标与背景，再通过新的训练样本集进行学习来更新分类模型。

像素作为构成图像的基础，提供了颜色、梯度等低层视觉线索，由这些线索构建的目标模板可被生成式跟踪方法应用到简单的场景分析中，但不适用于复杂环境下处理目标尺度变化和遮挡的情况。通过低层视觉线索变换得到高层表示模型，再构建出分类模型可区分目标和背景，然而这种方式会丢失目标细节信息。与低层视觉线索和高层表示模型相比，中层视觉线索兼备两者的优势。超像素作为中层视觉线索，将图像细分割为多个不规则的图像子区域^[5]，这些子区域包含的目标边界信息能够被用来构造目标表示模型，因而基于超像素分割的算法适用于目标跟踪。

文献[6]用超像素的中层视觉线索构造分辨式表示模型，在贝叶斯推理框架下结合目标表示模型和运动模型进行跟踪，同时提出遮挡检测机制减少遮挡对模型更新的影响。为应对漂移现象的发生，文献[7]提出在粒子滤波框架下采用超像素构造样本字典的方法建立目标模型，并通过最小化L₁范数求得目标当前状态。文献[8]结合基于超像素的局部分辨式模型和基于梯度全局信息的生成式模型来建立鲁棒性的目标表示模型，并利用稀疏主成分分析方法更新特征字典以减少噪声的影响。文献[9]通过k-means方法对超像素聚类后构造密码词包，并在贝叶斯框架下找到与密码词包相似度最高的样本作为目标，可减少遮挡和目标变形的影响。文献[10]将加权的多示例学习方法引入到超像素目标跟踪算法中，计算出目标与背景的置信度，这些置信度的总和作为样本权重筛选出目标，并且抑制权重低的样本。文献[11]从部件级观点出发对目标与背景的部件进行描述，然后对部件库的超像素特征集进行聚类来构建表示模型，并提出一种基于部件库特征补集的更新方法来对目标表示模型进行在线更新以便缓解聚类不好时的影响。

超像素目标跟踪算法^[6]分割目标搜索区域内的图像获得超像素块，并提取超像素块内的颜色特征进行聚类，计算出每个特征类别的置信度(每个特征类别对应多个超像素块)，再由候选样本内的特征类别所对应的特征置信度之和作为样本置信度，最后结合贝叶斯推理框架从候选样本中找出目标。若图像中包含了与目标相似的干扰物体，目标搜索区域内被分割后，分属于目标和干扰物体的超像素块相似时，经过聚类后容易将它们归类到同一类别中，从而使得属于干扰物体的超像素块拥有与目标超像素块相同的特征置信度。若这种属于干扰物体的超像素块出现在真实目标附近的某个区域内，上述算法搜索候选样本时就会认为该区域属于目标，从而导致跟踪失败。为解决这一问题，在文献[6]的基础上提出自适应紧致特征的超像素目标跟踪算法(简称ACFST)，即在固有的目标搜索区域内构造出一个适合目标的紧致搜索区域，采用保持-抑制的方法保持紧致搜索区域内的特征置信度不变，抑制紧致搜索区域外的特征置信度，以减少因干扰物体与目标之间相似而带来的误判。

1 超像素跟踪算法

本节对超像素目标跟踪算法^[6](简称RST)进行简介。RST算法利用贝叶斯推理框架将目标跟踪问题转化为：给定从初始时刻到$ t $时刻的观测值$ {\mathit{\boldsymbol{Y}}_{1:t}} $，求候选目标样本的状态$ {\mathit{\boldsymbol{X}}_t} $的后验概率。其概率形式化表达为^[6]

$ \begin{array}{l} \;\;\;\;\;p\left( {{\mathit{\boldsymbol{X}}_t}|{Y_{1:t}}} \right) = p\left( {{\mathit{\boldsymbol{Y}}_t}|{\mathit{\boldsymbol{X}}_t}} \right) \times \\ \int {p\left( {{\mathit{\boldsymbol{X}}_t}|{\mathit{\boldsymbol{X}}_{t - 1}}} \right)} p\left( {{\mathit{\boldsymbol{X}}_{t - 1}}|{Y_{1:t - 1}}} \right){\rm{d}}{\mathit{\boldsymbol{X}}_{t - 1}} \end{array} $

(1)

式中，$ p\left( {{\mathit{\boldsymbol{Y}}_t}|{\mathit{\boldsymbol{X}}_t}} \right) $表示观察模型，$ {p\left( {{\mathit{\boldsymbol{X}}_t}|{\mathit{\boldsymbol{X}}_{t - 1}}} \right)} $表示运动模型且符合随机高斯分布。在多个候选样本中，获得最大后验概率所对应的候选样本为目标。设$ t $时刻候选样本$ l $的状态$ \mathit{\boldsymbol{X}}_t^{\left( l \right)} $，则最大后验概率为$ p\left( {{{\mathit{\boldsymbol{\hat X}}}_t}} \right) $，即

$ \begin{array}{l} p\left( {{{\mathit{\boldsymbol{\hat X}}}_t}} \right) = \mathop {\arg \;{\rm{max}}}\limits_{X_t^{\left( l \right)}} p\left( {\mathit{\boldsymbol{X}}_t^{\left( l \right)}|{\mathit{\boldsymbol{Y}}_{1:t}}} \right)\\ \;\;\;\;\;\;\;\;\;\;\;\forall l = 1, \cdots, N \end{array} $

(2)

对于式(2)，取得最大后验概率$ p\left( {{{\mathit{\boldsymbol{\hat X}}}_t}} \right) $时所对应的候选样本为目标。

RST算法引入置信度$ C\left( {{\mathit{\boldsymbol{X}}_t}} \right) $来求解观察模型。在第$ t $帧对观察模型进行训练时，RST算法将目标搜索区域分割^[12]为 $ {N_t} $个超像素块 $ {p_{\rm{s}}}\left( {t,r} \right),r = 1, \cdots ,{N_t} $，提取超像素块的HSI颜色特征$ \mathit{\boldsymbol{f}}_t^r $。然后将这些特征放入到保存了前$ m $帧所有特征的特征池$ \mathit{\boldsymbol{F}} = \left\{ {\mathit{\boldsymbol{f}}_{{t_b}}^r|{t_b} = 1, \cdots, m;r = 1, \cdots, {N_{{t_b}}}} \right\} $中($ \mathit{\boldsymbol{f}}_{{t_b}}^r|{t_b} $表示t_b时刻图像内的第$ r $个超像素块的特征值)，利用mean shift聚类方法^[13]对F内的特征进行聚类，获得$ n $个不同的特征类别。每个类别c(i)，$ i $=1，…，$ n $，由类中心f_c($ i $)、类半径r_c($ i $)和类内特征元素$ \left\{ {\mathit{\boldsymbol{f}}_{{t_b}}^r|\mathit{\boldsymbol{f}}_{{t_b}}^r \in c\left( i \right)} \right\} $表示。当一帧图像的所有超像素块被聚类方法^[13]划分到$ n $个类时，这些超像素块就被分为$ n $种特征类别。F中聚集了前$ m $帧中所有属于目标和背景的特征，聚类后得到的类别同时包含了属于背景和目标的特征。当候选样本由超像素块的特征表示时，需要计算特征所对应类别属于目标的可能性，即类别归属于目标的置信度。考虑到有些超像素块的部分区域在目标内，RST算法通过统计超像素块内归属于目标或背景的像素个数来计算类别置信度，即

$ C_i^c = \frac{{{S^ + }\left( i \right) - {S^ - }\left( i \right)}}{{{S^ + }\left( i \right) + {S^ - }\left( i \right)}}, \forall i = 1, \cdots, n $

(3)

式中，$ {C_i^c} $表示第$ i $个类别$ c $($ i $)的置信度，$ {S^ + } $和$ {S^ - } $分别表示该类别下的超像素块中属于目标或背景的像素个数。至此，由类别置信度、类中心、类半径和类内特征元素4个因素构成了基于超像素的分辨式表示模型。

在新帧$ {t'} $中进行目标跟踪时，需求出每个候选样本的置信度。RST算法将目标搜索区域分割成$ N $个超像素块并提取特征，通过空间距离判断特征的归属类别。距离越近，$ \mathit{\boldsymbol{f}}_{t'}^r $属于类别$ c $($ i $)的可能性越大。因此，超像素特征$ \mathit{\boldsymbol{f}}_{t'}^r $和其对应的类中心$ {\mathit{\boldsymbol{f}}_c}\left( i \right) $之间的距离来定义权重$ w\left( {r, i} \right) $，从而调节超像素特征置信度

$ w\left( {r, i} \right) = \exp \left( { - \lambda \times \frac{{{{\left\| {f_{t'}^r - {f_c}\left( i \right)} \right\|}_2}}}{{{r_c}\left( i \right)}}} \right) $

(4)

$ \forall r = 1, \cdots, N;i = 1, \cdots, n;\lambda = 2 $

计算新帧内超像素块$ {p_{\rm{s}}}\left( {t', r} \right) $的特征置信度

$ C_r^{{p_s}} = w\left( {r, i} \right) \times C_r^c;\forall r = 1, \cdots, N $

(5)

新帧内的候选样本置信度可按如下方式计算：目标搜索区域外的置信度值为-1，超像素块$ {p_s}\left( {t', r} \right) $内的每个像素位上赋值$ C_r^{{p_s}} $，候选样本置信度$ {C_l} $为该样本内所有像素位上的特征置信度之和。

在帧$ {t'} $跟踪时，目标随机运动且大小也会发生改变，则令运动模型服从随机高斯分布，即

$ p\left( {{\mathit{\boldsymbol{X}}_t}|{\mathit{\boldsymbol{X}}_{t - 1}}} \right) = \mathit{\boldsymbol{N}}\left( {{\mathit{\boldsymbol{X}}_t};{\mathit{\boldsymbol{X}}_{t - 1}}, \mathit{\boldsymbol{\psi }}} \right) $

(6)

式中，$ \mathit{\boldsymbol{\psi }} $是对角协方差矩阵，矩阵上的元素分别是目标位置和尺度的标准方差。

目标经过高斯运动后，RST算法将所有候选样本的面积进行标准化，使得前后两帧的样本大小一致，依此应对目标尺度变化。经过标准化后的候选样本置信度$ {C_l} $为

$ \begin{array}{l} {{\hat C}_l} = {C_l} \times \left[{S\left( {\mathit{\boldsymbol{X}}_t^{\left( l \right)}} \right)/S\left( {{\mathit{\boldsymbol{X}}_{t-1}}} \right)} \right]\\ \;\;\;\;\;\;\;\;\;\;\;\forall l = 1, \cdots, N \end{array} $

(7)

式中，$ {S\left( {{\mathit{\boldsymbol{X}}_{t - 1}}} \right)} $是状态$ {{\mathit{\boldsymbol{X}}_{t - 1}}} $下目标的面积，$ {S\left( {\mathit{\boldsymbol{X}}_t^{\left( l \right)}} \right)} $是状态$ {\mathit{\boldsymbol{X}}_t} $下第$ l $个候选样本的面积。

进一步对所有候选样本置信度进行归一化处理，即$ {\underline {\hat C} _l} \in \left[{0, 1} \right] $，则$ {\underline {\hat C} _l} $可看做是第$ l $个候选样本在$ {\mathit{\boldsymbol{X}}_t} $下的观察模型的似然值即

$ p\left( {{\mathit{\boldsymbol{Y}}_t}|\mathit{\boldsymbol{X}}_t^{\left( l \right)}} \right) = {\underline {\hat C} _l};\forall l = 1, \cdots, N $

(8)

获得观察模型$ p\left( {{\mathit{\boldsymbol{Y}}_t}|\mathit{\boldsymbol{X}}_t^{\left( l \right)}} \right) $和运动模型$ p\left( {\mathit{\boldsymbol{X}}_t^{\left( l \right)}|{\mathit{\boldsymbol{X}}_{t - 1}}} \right) $后，使用式(1)(2) 计算最大后验概率$ p\left( {{{\hat X}_t}} \right) $，并选择最大后验概率对应的候选样本作为第$ {t'} $帧内的目标。

为使目标表示模型具有鲁棒性，RST算法采用了保存-删除的更新方法：跟踪阶段，保存$ H $个帧图像序列到集$ {\mathit{\boldsymbol{a}}_H} $；每隔$ U $个帧，在$ {\mathit{\boldsymbol{a}}_H} $中增加1个新的帧图像，删除最早的1个帧。训练阶段，每隔$ W $个帧，进行超像素分割和聚类，并重新计算类别置信度和特征置信度。为处理遮挡，通过判断检测遮挡发生器的值来进行。具体更新方式可参见文献[6]。

2 自适应紧致特征的超像素目标跟踪算法

2.1 基于自适应紧致特征的置信度

本文提出的自适应紧致特征的超像素目标跟踪算法(ACFST)是以RST算法^[6]为基础，设计自适应紧致特征来改进RST算法不易应对背景中干扰物体与目标相似的问题。

在一帧图像内搜索目标时，需对多个候选样本进行筛选。每个候选样本(即搜索框内的图像块)需要计算出归属目标的置信度。目标搜索区域分割为多个超像素块，提取超像素块的特征，对这些特征进行聚类。若背景中存在相似干扰物体，分别属于目标和干扰物体的超像素块的特征会被聚类到同一类别中，造成了分属目标与干扰物体的特征具有相同的特征置信度。这种相似干扰物体就会被RST算法误判为目标，误判较多时会使被跟踪的目标丢失。

为解决这种因相似干扰物体引起的误判情况，提出使用自适应紧致特征的方法来改进。在目标搜索区域$ \mathit{\boldsymbol{ \boldsymbol{\varOmega} }} $(如图 1所示)内构建适合目标大小的自适应紧致搜索区域${\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_{{\rm{in}}}}$，使其尽量少包含干扰物体。目标搜索区域$ \mathit{\boldsymbol{ \boldsymbol{\varOmega} }} $的大小是目标面积的3倍^[6]。自适应紧致特征采用保持-抑制的方法对目标搜索区域内的特征置信度进行操作，保持${\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_{{\rm{in}}}}$内的特征置信度(由置信度公式计算得到)不变，降低${\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_{{\rm{in}}}}$外的特征置信度，以减少因干扰物体特征置信度拉低候选样本置信度而带来的误判。干扰物体一般位于目标的外围背景区域，降低干扰物体的特征置信度意味着候选样本中心区域的特征置信度起主要作用，从而减少干扰物体对包含真实目标的候选样本置信度取值的干扰，有利于筛选目标。当依据贝叶斯推理框架求出对应最大后验概率的目标时，${\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_{{\rm{in}}}}$外的干扰物体特征置信度低，该部分干扰物体归属目标的程度也低，在候选样本是否为目标的判别中几乎不起作用，目标判别由候选样本的紧致搜索区域决定。

图 1 目标搜索区域$ \mathit{\boldsymbol{ \boldsymbol{\varOmega} }} $(${\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_{{\rm{in}}}}$是紧致搜索区域，${\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_{{\rm{out}}}}$是紧致搜索区域与目标搜索区域之间的范围)

Fig. 1 The object search scope $ \mathit{\boldsymbol{ \boldsymbol{\varOmega} }} $(${\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_{{\rm{in}}}}$ is the compact search scope, ${\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_{{\rm{out}}}}$ is the scope between $ \mathit{\boldsymbol{ \boldsymbol{\varOmega} }} $ and ${\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_{{\rm{in}}}}$)

假设真实目标区域之外有干扰物体聚集，令紧致搜索区域${\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_{{\rm{in}}}}$的大小是目标搜索区域$ \mathit{\boldsymbol{ \boldsymbol{\varOmega} }} $的$ \alpha $倍，即

$ {\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_{{\rm{in}}}} = \alpha \cdot \mathit{\boldsymbol{ \boldsymbol{\varOmega} }}, \alpha \in \left[ {0.4,0.8} \right] $

(9)

$ \alpha $的取值使${\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_{{\rm{in}}}}$尽可能多包含目标，少包含干扰物体。

同时抑制紧致搜索区域与目标搜索区域之间的范围${\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_{{\rm{out}}}}$内的特征置信度，使之降低$ \beta $倍来减少干扰物体对候选样本置信度的影响。$ \mathit{\boldsymbol{ \boldsymbol{\varOmega} }} $内的特征置信度为

$ \left\{ \begin{array}{l} C_l^{{\rm{in}}}\left( {i, j} \right) = C_r^{{p_s}}\;\;\;\;\;\;\;\;\;\left( {i, j} \right) \in {\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_{{\rm{in}}}}\\ C_l^{{\rm{out}}}\left( {i, j} \right) = \beta \cdot C_r^{{p_s}}\;\;\;\;\left( {i, j} \right) \in {\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_{{\rm{out}}}}, \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\beta \in \left[{0.1, 0.5} \right] \end{array} \right. $

(10)

第$ t $帧跟踪时，目标搜索区域内就构建了一个较小的紧致搜索区域。当以面积$ \mathit{\boldsymbol{S}}\left( \mathit{\boldsymbol{X}} \right) $大小在目标搜索区域内进行随机采样^[6]时，每个候选样本的置信度由两部分组成：${\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_{{\rm{in}}}}$内的特征置信度$ C_l^{{\rm{in}}}\left( {i, j} \right) $和${\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_{{\rm{out}}}}$内的特征置信度$ C_l^{{\rm{out}}}\left( {i, j} \right) $。计算候选样本置信度

$ {C_l} = \sum\limits_{\left( {i, j} \right) \in {\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_{{\rm{in}}}}} {C_l^{{\rm{in}}}\left( {i, j} \right) + } \sum\limits_{\left( {i, j} \right) \in {\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_{{\rm{out}}}}} {C_l^{{\rm{out}}}\left( {i, j} \right)} $

(11)

在确定的参数$ \alpha $和$ \beta $下，使用式(7) 对已得到的候选样本置信度进行归一化处理。再结合式(1)(2)(6)(8) 计算第$ t $帧时的最大后验概率，并选择对应最大后验概率时的候选样本作为目标。

2.2 紧致特征参数的自适应确定

紧致搜索区域的大小由参数$ \alpha $和$ \beta $控制。为了利用在紧致搜索区域提取的紧致特征找出当前帧$ t $中的最佳目标，需要设置合理的$ \alpha $和$ \beta $值。为此，在求解具有最大后验概率的候选样本的同时自适应地确定最优$ \alpha $、$ \beta $组合参数值，具体的参数自适应确定方法设计如下：

1) 以相邻两帧为周期，设置参数网格$ \alpha $={0.4，0.425，0.45，…，0.8}，$ \beta $={0.1，0.125，0.15，…，0.5}。

2) 在不同参数组合下，使用式(9) 建立紧致搜索区域以及使用式(10) 对紧致搜索区域内外的特征置信度进行保持—抑制操作。在目标搜索区域内采样得到候选样本，利用式(11) 计算出候选样本置信度。

3) 对每种参数组合情况，使用式(1)(2)(6)(8) 求得每个候选样本的后验概率，并保存取得最大后验概率时的($ {{\alpha '}_c} $，$ {{\beta '}_c} $)作为最佳参数组合。

4) 将前一帧中得到的最佳参数组合作为后一帧中参数$ \alpha $和$ \beta $的值，并重新构建紧致搜索区域，计算候选样本置信度，再求出此帧中的最大后验概率，找到目标。使用最佳参数组合的最大后验概率

$ p\left( {\mathit{\boldsymbol{X}}_t^{\left( {\alpha, \beta } \right)}} \right) = \mathop {\max }\limits_{\left( {\alpha, \beta } \right)} \left( {p\left( {\mathit{\boldsymbol{X}}_t^{\left( l \right)}|{\mathit{\boldsymbol{Y}}_{1t}}} \right)} \right) $

(12)

式中，$ {\mathit{\boldsymbol{X}}_t^{\left( {\alpha, \beta } \right)}} $表示$ t $帧时最佳参数组合下的目标状态。

5) 每两帧重复上述步骤。

2.3 算法步骤

ACFST算法总体步骤如下：

1) 初始化。初始时刻，给定目标位置和大小。从初始时刻到第$ m $帧，将目标搜索区域$ \mathit{\boldsymbol{ \boldsymbol{\varOmega} }} $ =分割成超像素块，提取它们的特征。随后将所有的特征放入特征池$ \mathit{\boldsymbol{F}} $中，并对$ \mathit{\boldsymbol{F}} $中的特征进行聚类，得到$ n $个不同的特征类别，使用式(3) 求出类别置信度。从$ m $+1帧开始以相邻两帧为周期进行跟踪，设前一帧为上半周期，后一帧为下半周期。周期具体设置为{($ m $+1，$ m $+2)，($ m $+3，$ m $+4)，($ m $+5，$ m $+6)，…}，一个括号表示一个周期，括号内左边的值表示上半周期，右边的值表示下半周期。

2) 跟踪阶段：

(1) 在第$ t $($ t $≥$ m $+1) 帧内，以第$ t $-1帧的目标位置为中心建立一个较大的矩形目标搜索区域$ \mathit{\Omega } $，将此区域分割为多个超像素块^[6]，用颜色直方图提取这些块的HSI特征。

(2) 通过空间距离判断每个超像素块特征的归属类别，使用式(4) 得到特征置信度的权值$ w $，利用式(5) 求出每个超像素块的特征置信度。

(3) 若$ t $为上半周期时，依据$ \alpha $和$ \beta $的参数网格，构建不同组合下的紧致搜索区域，使用式(9) 计算特征置信度；若$ t $为下半周期，固定$ \alpha $和$ \beta $的值，重新构建紧致搜索区域，使用式(9) 计算特征置信度。

(4) 在目标搜索区域内利用式(6) 得到候选样本的面积S(X)，并以此面积进行随机采样^[6]；根据式(11) 计算候选样本置信度，并利用式(7) 进行归一化处理。

(5) 根据式(12) 求得候选样本的状态$ {\mathit{\boldsymbol{X}}_t} $的最大后验概率，将对应最大后验概率的候选样本作为目标；若$ t $为上半周期，保存此时的参数组合作为下半周期的固定组合参数；若$ t $为下半周期，丢弃跟踪完成后的$ \alpha $和$ \beta $值。

(6) 采用与RST算法相同的更新方式，每隔$ W $个帧重新聚类，使用式(3) 计算类别置信度。

(7)$ t $=$ t $+1，返回步骤(1)。

3 实验结果与分析

3.1 环境设置

为评估自适应紧致特征的超像素跟踪算法的性能，选用具有与目标相似干扰物体的视频集Basketball^[14]和Girl^[14]进行实验，并与RST算法^[6]进行性能比较。实验环境是在Intel i5-3470 CPU 3.2 GHz和4 GB RAM的Window7系统电脑，本文ACFST算法采用MATLAB语言编制，RST算法采用原始程序。实验中，初始跟踪位置均设置为第1帧中包含跟踪目标的矩形；本文ACFST算法参数设置为$ m $=4，$ \lambda $=2，$ H $=25，$ U $=1，$ W $=10；参数组合($ \alpha $，$ \beta $)在跟踪过程中进行自适应选择；其他参数设置与RST算法保持一致。

3.2 实验结果

视频集Basketball描述目标在运动过程中周围经常出现与之相似的干扰物体。如图 2(a)所示，在目标搜索区域中出现与目标相似的干扰物体，即青色的目标搜索区域内有两个形体相似的运动员，使得跟踪过程中容易出现误判的情况。从图 2(a)中可看出，RST算法(第1行)在跟踪过程中出现误判，导致红色方框逐渐移动到非目标上；在帧642中，发生漂移，跟踪失败；这表明RST算法在处理干扰物体与目标相似的能力上较弱，不易区分出干扰物体。本文提出的ACFST算法(第2行)在同样条件下，通过采用自适应的紧致特征降低干扰物体特征置信度，使得合适的候选样本保持相对较高的置信度，因而能成功跟踪目标；如图 2(a)第2行，在帧639~642的跟踪过程中，当干扰物体与真实目标有重叠时，ACFST算法也能准确地跟踪到目标。这说明采用自适应的紧致特征能够处理干扰物体与目标相似的情况，使得算法能稳定地找到合适的目标。

图 2 各算法的跟踪结果

Fig. 2 Tracking result of two algorithms ((a)Basketball; (b)Girl)

视频集Girl中目标较大，周围的相似干扰物体逐渐靠近目标并发生遮挡。如图 2(b)所示，在目标搜索区域内两张人脸逐渐靠近，此过程中相似干扰物体遮挡住目标。从图 2(b)(第1行)可以看出，RST算法在跟踪过程中将非目标人脸判断为目标，致使跟踪失败；在帧457中非目标人脸与目标重叠，使得跟踪结果出现误判，导致在随后的跟踪中持续跟踪失败(帧469)。这表明在目标与干扰物体颜色相似且相互靠近的情况下，RST算法不能准确地跟踪到目标。ACFST算法遇到同样情况时能准确地跟踪到目标，例如在帧457时目标被相似干扰物体遮挡，仍可成功地找到目标；在帧469时，ACFST算法可继续跟踪到目标(参见图 2(b)(第2行))。这表明在有相似干扰物体靠近或重叠部分目标时，ACFST算法采用自适应紧致特征能够抑制颜色相似的干扰物体，比较准确地跟踪到目标，从而使得目标与干扰物体相似问题得以解决。

算法性能的分析采用平均中心位置误差、精确率和成功率3个评价指标。中心位置误差是指求出的目标位置与真实位置的平均欧几里得距离误差。精确率是计算出每一帧内目标与真实目标之间的欧几里得距离，并统计图像序列内中心位置误差小于某个阈值(本文设为20像素)的帧个数占比；成功率是指目标与真实目标之间的重叠度大于某个阈值(本文设为0.5) 时在序列上帧的个数占比。

在视频集上执行算法RST与ACFST，进行完整跟踪，得到中心位置误差、精确率和成功率3个方面的指标数据，如表 1所示。此外通过比较在每帧上的位置误差(图 3)和不同阈值下的精确率(图 4)来进一步分析算法性能。

表 1 RST和ACFST算法的性能对比
Table 1 Performance comparison between the RST and the ACFST

下载CSV

算法	Basketball			Girl
算法	平均中心误差/像素	成功率/%	精确率/%	平均中心误差/像素	成功率/%	精确率/%
RST	18.2	88.0	88.0	13.2	88.4	57.0
ACFST	5.4	99.0	98.6	7.5	99.4	78.6

图 3 各算法的位置误差

Fig. 3 The tracking error of two algorithms

图 4 各算法的精确率

Fig. 4 Precision rate of two algorithms

结合表 1、图 3和图 4可以看出，本文算法性能优于RST算法。ACFST算法在两个视频集上的平均中心误差分别为5.4像素、7.5像素，比RST算法明显要小，跟踪结果更精确；ACFST算法通过自适应的紧致搜索区域区分了目标与干扰物体，能够保证整个跟踪过程成功跟踪到目标，成功率均提高了11 %。从精确率来比较，本文ACFST算法比RST算法分别提高了10.6 %和21.6 %；在不同阈值下的精确率上(如图 4)，ACFST算法都要高于RST算法，表明采用紧致特征来降低相似干扰物体置信度，能够保证算法准确地跟踪到更合适的目标，提高算法跟踪精度。

综上所述，与原始超像素跟踪算法相比，采用自适应紧致特征的超像素跟踪算法更能够处理干扰物体与目标相似的问题，提高了算法的性能。

4 结论

针对现有超像素跟踪算法不易处理目标与干扰物体相似的问题，本文提出自适应紧致特征的超像素目标跟踪算法。该算法构建自适应紧致搜索区域，保持区域内的特征置信度不变，降低区域外的特征置信度，从而减少了干扰物体的特征置信度对计算候选样本置信度的干扰；同时通过设置自适应的参数控制紧致搜索区域变化，减少了因干扰物体与目标之间相似而带来的误判，从而准确地跟踪到目标。在具有相似物体干扰物的视频集上进行测试，实验结果表明，本文算法在相似干扰物体靠近或与目标部分重叠时，能够保证算法精确地跟踪到目标，提高算法的跟踪精度，具有较强的鲁棒性，使得算法更能适应背景杂乱、目标遮挡、形变等复杂环境。当然，本文ACFST算法存在的不足之处是计算量大，实时性较差，主要原因：一是目标表示模型更新时需要提取较多的超像素块特征用于聚类；二是使用自适应参数设置紧致搜索范围时，需要对大量的候选目标进行计算，今后将对算法的实时性进一步研究。

参考文献

[1] Yilmaz A, Javed O, Shah M. Object tracking:a survey[J]. ACM Computing Surveys(CSUR), 2006, 38(4): #13. [DOI:10.1145/1177352.1177355]

[2] Yang H X, Shao L, Zheng F, et al. Recent advances and trends in visual tracking:a review[J]. Neurocomputing, 2011, 74(18): 3823–3831. [DOI:10.1016/j.neucom.2011.07.024]

[3] Zhang T Z, Ghanem B, Liu S, et al.Robust visual tracking via multi-task sparse learning[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence, RI:IEEE, 2012:2042-2049.[DOI:10.1109/CVPR.2012.6247908]

[4] Zhang L, Dibeklioglu H, van der Maaten L.Speeding up tracking by ignoring features[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus, OH:IEEE, 2014:1266-1273.[DOI:10.1109/CVPR.2014.165]

[5] Ren X F, Malik J.Learning a classification model for segmentation[C]//Proceeding of the 9th IEEE International Conference on Computer Vision.Nice, France:IEEE, 2003, 1:10-17.[DOI:10.1109/ICCV.2003.1238308]

[6] Yang F, Lu H C, Yang M H. Robust superpixel tracking[J]. IEEE Transactions on Image Processing, 2014, 23(4): 1639–1651. [DOI:10.1109/TIP.2014.2300823]

[7] Cheng X, Li N J, Zhou T C, et al. Online tracking via superpixel and sparse representation[J]. Journal of Electronics & Information Technology, 2014, 36(10): 2393–2399. [程旭, 李拟珺, 周同驰, 等. 稀疏表示的超像素在线跟踪[J]. 电子与信息学报, 2014, 36(10): 2393–2399. ] [DOI:10.3724/SP.J.1146.2013.01784]

[8] Qi Y C, Wu C D, Chen D Y, et al. Superpixel tracking based on sparse representation[J]. Journal of Electronics & Information Technology, 2015, 37(3): 529–535. [齐苑辰, 吴成东, 陈东岳, 等. 基于稀疏表达的超像素跟踪算法[J]. 电子与信息学报, 2015, 37(3): 529–535. ] [DOI:10.11999/JEIT140374]

[9] Fan H, Xiang J H, Zhao L, et al. Robust visual tracking via bag of superpixels[J]. Multimedia Tools and Applications, 2016, 75(14): 8781–8798. [DOI:10.1007/s11042-015-2790-3]

[10] Cheng X, Li N J, Zhou T C, et al. Robust superpixel tracking with weighted multiple-instance learning[J]. IEICE Transactions on Information and Systems, 2015, 98(4): 980–984. [DOI:10.1587/transinf.2014EDL8176]

[11] Wang M H, Liang Y, Liu F M, et al. Object tracking based on component-level appearance model[J]. Journal of Software, 2015, 26(10): 2733–2747. [王美华, 梁云, 刘福明, 等. 部件级表观模型的目标跟踪方法[J]. 软件学报, 2015, 26(10): 2733–2747. ] [DOI:10.13328/j.cnki.jos.004737]

[12] Achanta R, Shaji A, Smith K, et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(11): 2274–2282. [DOI:10.1109/TPAMI.2012.120]

[13] Comaniciu D, Meer P. Mean shift:a robust approach toward feature space analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(5): 603–619. [DOI:10.1109/34.1000236]

[14] Wu Y, Lim J, Yang M H.Online object tracking:a benchmark[C]//Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland, OR:IEEE, 2013:2411-2418.[DOI:10.1109/CVPR.2013.312]