Print

发布时间: 2016-08-25
摘要点击次数: 288
全文下载次数: 39
DOI: 10.11834/jig.20160811
2016 | Volumn 21 | Number 8




    图像理解和计算机视觉    




  <<上一篇 




  下一篇>> 





粒子群优化的压缩跟踪算法
expand article info 李杰1,2, 周浩1,2, 张晋2, 高赟1, 叶津2
1. 云南大学信息学院, 昆明 650091;
2. 昆明物理研究所, 昆明 650223

摘要

目的 针对基于压缩感知理论的跟踪算法跟踪效率不高和难以抗遮挡的问题,提出一种结合压缩感知和粒子群优化的跟踪算法。 方法 将粒子群优化算法结合到压缩跟踪算法中,提出了采用粒子群优化的搜索方法替代在确定候选目标时,采用每隔一个像素选取一个候选目标的搜索策略;在目标发生遮挡时,采用粒子群优化的方法进行整幅图全局搜索。 结果 20个视频序列数据库的目标跟踪结果表明,本文算法极大地提高了跟踪效率,并有很强的抗目标遮挡和形变的能力从而提高了跟踪的成功率。20个视频数据库进行了定量的分析,平均成功率达到了65.2%,平均中心位置偏差为33.4,平均每秒运行155.5帧。 结论 提出的跟踪算法优化了搜索目标的计算次数,提高了算法的运行效率,当在目标发生遮挡时,采用粒子群优化进行全局搜索直到目标重新出现,从而提高了跟踪算法的跟踪成功率,本文算法能适用于不同场景,能够提高智能视频监控系统的智能监控性能。

关键词

计算机视觉; 目标跟踪; 压缩感知; 粒子群优化; 特征提取; 朴素贝叶斯

Compressive tracking algorithm based on particle swarm optimization
expand article info Li Jie1,2, Zhou Hao1,2, Zhang Jin2, Gao Yun1, Ye Jin2
1. College of Information, Yunnan University, Kunming 650091, China;
2. Kunming Institute of Physics, Kunming 650223, China
Supported by: National Natural Science Foundation of China(61163024,61262067)

Abstract

Objective Object tracking is a key issue in computer vision. A tracking algorithm based on compressive sensing theory has a high success rate. However, the efficiency of this algorithm requires further improvement. In addition, this algorithm has to deal with target occlusion. A tracking algorithm based on compressed sensing and particle swarm optimization (PSO) was proposed by focusing on the aforementioned issues. Method To improve the efficiency of a tracking algorithm based on compressed sensing, the PSO algorithm is incorporated into compression tracking. Furthermore, PSO was chosen over the method that required every other pixel to select target candidates. When a target is occluded, the proposed tracking algorithm can search the total image using PSO. The global search capability of PSO can be efficiently used by the proposed algorithm. This feature can significantly reduce the time required to find the target while improving the anti-occlusion capability of the tracking algorithm based on compressed sensing. Result The proposed algorithm is implemented on 20 publicly available challenging video sequences, and its performance is evaluated through a comparison with 7 state-of-art methods. The time-consuming process of tracking each frame, the average success rate, and the average deviation of the center position are obtained from the experiment. Experimental results on the 20 video frames show that the proposed algorithm significantly improves tracking efficiency and can adapt to both appearance changes and occlusion. Thus, the tracking success rate is significantly improved. The experimental data indicated that the average success rate reached 65.2 percent at an average of 155.5 frames per second, with an average center position deviation of 33.4. The tracking success rate of the proposed tracking algorithm reached over 85 percent in 9 video sequences, and the center position deviation reached 16 pixels or less in 11 video sequences. Compared with similar algorithms, the average success rate, average center position deviation, and average frames per second of the proposed tracking algorithm are relatively superior. Conclusion In the compressive tracking algorithm that uses PSO to optimize the calculation of the number of search targets, the calculation count of target classification and recognition is reduced from the original 1 750 times to 120 times. The efficiency of the algorithm is significantly improved. Furthermore, when the target is occluded, the proposed algorithm uses PSO to search the entire image until the target reappears; once the target reappears, the proposed tracking algorithm resumes partial target search. Thus, the search capability of the tracking algorithm when the target is covered is improved. The proposed algorithm can find the reproduction target rapidly and accurately.

Key words

computer vision; object tracking; compressive sensing; particle swarm optimization; feature extraction; naive Bayesian

0 引 言

目标跟踪是指对连续的视频序列中的运动目标进行跟踪,是计算机视觉的重要研究内容。通过视频目标的跟踪可以跟踪到目标的运动状态和相关参数,进而为智能视频监控、运动目标分析、目标行为识别方面提供重要基础[1]

目前跟踪的热点模型是将视频目标跟踪的问题看做二元分类问题,其主要任务就是将视频内容分类背景元素和目标元素两类,一类属于背景,一类属于目标。这样目标跟踪问题就转化为二元分类问题,很多原本用来做分类的算法将可以被用来实现目标跟踪算法,例如应用广泛的在线学习跟踪[2],基于在线Boosting的视频目标跟踪[3],结合了先验知识的在线Boosting算法的目标跟踪[4]

2006年Candes和Donoho[5]正式提出压缩感知的理论,基本原理是先采用投影矩阵得到压缩后的数据,然后根据相应的重构算法重构原始信号。直接采集压缩后的数据相比采集全部数据耗费的时间要少很多,因此得到广泛的应用。应用之一就是分类,同时在目标跟踪中得到广泛的应用,文献[6]根据数据在投影矩阵中不同类别轴上的测量值来进行分类的分类方法运用到跟踪中,将目标的正负样本模版库构造成一个投影矩阵,在投影矩阵中寻找到正样本所对应的投影系数最大的候选位置,将其作为新的目标位置。文献[7]通过一定的宽松规则,生成一个系数的投影矩阵,然后直接将压缩后的数据作为特征来使用。该算法的优点在于快速的提取特征,提高了跟踪算法的效率,但由于该算法在搜索候选目标时采用每隔一个像素的办法,使得其搜索目标的过程耗时仍然相当大,并且抗目标遮挡的能力较差。最终阻碍该算法的进一步的发展和应用。文献[8]提出了粗精搜索的策略实现了快速的压缩跟踪算法,但是减少的跟踪时间有限,且没有提升抗目标遮挡的能力。

鉴于压缩跟踪算法耗时较大的缺陷,对压缩跟踪算法做进一步的改进,通过综合分析压缩跟踪算法,得出压缩跟踪算法跟踪耗时大的主要原因是由于搜索候选目标的策略问题。为解决此问题,提出了基于粒子群优化的压缩跟踪算法。采用粒子群优化的办法代替每隔一个像素的搜索策略,使得算法可以更加快速地寻找到真实目标,在目标发生遮挡时,采用粒子群优化的办法进行全局的搜索,当目标复现时,快速重新跟踪上目标。

1 压缩跟踪算法基本原理

1.1 压缩感知基本原理

压缩感知理论通过将信号投影到某个合适的变换域得到稀疏的变换系数,通过设计一个高效的观测矩阵获得隐藏在稀疏信号中的有用观测值,通过少量的有用的观测值就可以与信号相关联,最后通过设计有效的重构算法,根据观测值求解信号的最优逼近。

基本原理是用测量矩阵A对信号x进行测量运算,得到测量向量y。具体指的是:设一个离散信号为xm×n的测量矩阵为Ay=Ax,称y为测量信号。

如果一个信号是可以压缩的,那么当测量矩阵A满足Johnson-Lindenstrauss准则时,那么经压缩后,y保留了x的大部分信息,并且y能以最小误差重构x

1.2 基于压缩感知的特征提取

从文献[9]中可以得出,直接提取样本的特征将耗费更多的时间,采用在现有的特征提取办法的基础上,提取满足压缩感知理论条件的新特征。具体提取特征为

$v=Rx$ (1)

式中,x为原始的样本特征,矩阵Rn×m(n<<m)为测量矩阵,v为满足压缩感知理论条件的特征。在该压缩感知算法中,测量矩阵R是压缩感知理论中非常重要的部分,假如R是稠密矩阵,即使满足约束等距性条件,但是这样做并没有取到真正的压缩信号的效果,因此通常采用稀疏的随机的测量矩阵[8]R的定义为

${{r}^{ij}}=\sqrt{s}\times \left\{ \begin{matrix} 1 & p=1/2s \\ 0 & p=1-1/s \\ -1 & p=1/2s \\ \end{matrix} \right.$ (2)

式中,p为产生概率,s通过随机概率得出,一般为34。由式(2)可知直接采集的新特征v是由原始的特征以rij为权值的加权和得到。

1.3 基于贝叶斯分类器的目标检测

分类器采用基于贝叶斯的分类器。具体过程是在目标确定之后,通过式(3)贝叶斯准则构造分类器[9],把确定的目标区域的临近区域作为搜索区域,每隔一个像素选取一个候选目标,最终经过分类器分类得出真实目标。式(3)中假设所有的特征是相互独立的。

$\begin{align} & H\left( v \right)=\log \left( \frac{\prod\nolimits_{i=1}^{n}{p\left( {{v}_{i}}|y=1 \right)p\left( y=1 \right)}}{\prod\nolimits_{i=1}^{n}{p\left( {{v}_{i}}|y=0 \right)p\left( y=0 \right)}} \right)= \\ & \sum\limits_{i=1}^{n}{\log }\left( \frac{p\left( {{v}_{i}}|y=1 \right)}{p\left( {{v}_{i}}|y=0 \right)} \right) \\ \end{align}$ (3)

通常情况下认为[7],条件分布p(vi|y=1)、p(vi|y=0)大多情况下符合高斯分布,即

$\begin{align} & p\left( {{v}_{i}}|y=1 \right)\tilde{\ }N\left( \mu _{i}^{1},\sigma _{i}^{1} \right) \\ & p\left( {{v}_{i}}|y=0 \right)\tilde{\ }N\left( \mu _{i}^{0},\sigma _{i}^{0} \right) \\ \end{align}$ (4)

式中,μ1σ1μ0σ0分别为真实目标和候选背景样本的均值与标准差。

通过选取最大的H(v)所在的候选区域作为新的目标区域,即

$Conf\left( {{H}_{i+}} \right)=\arg \max \left( {{H}_{i}} \right)$ (5)

式中,Conf(Hi+)为所有H(v)为最大值的所在区域,Hi+为所有H(v)的最大值,Hi为第iH(v)值。之后选取正负样本用来更新分类器,即

$\begin{align} & {{D}^{\alpha }}=\left\{ z|l\left( z \right)-{{l}_{t}}|<a \right\} \\ & {{D}^{\xi ,\beta }}=\left\{ z|\xi <|l\left( z \right)-{{l}_{t}}|<\beta \right\} \\ \end{align}$ (6)

式中,z为样本,Da为正样本,以区域中心为圆心,a为半径的区域内选取正样本;Dξ,β 为负样本,a<ξ<β,以区域中心为圆心,分别以ξβ为半径得到的圆环的区域中选取负样本;l(z),lt分别为样本位置和目标区域位置。

最后通过选好的正样本和负样本更新分类器,即

$\begin{align} & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ u_{i}^{1}\leftarrow \lambda u_{i}^{1}+\left( 1-\lambda \right){{u}^{1}} \\ & \sigma _{i}^{1}\leftarrow \sqrt{\lambda {{\left( \sigma _{i}^{1} \right)}^{2}}+\left( 1-\lambda \right){{\left( {{\sigma }^{1}} \right)}^{2}}+\lambda \left( 1-\lambda \right){{\left( {{\sigma }^{1}} \right)}^{2}}\left( u_{i}^{1}-{{u}^{1}} \right)} \\ \end{align}$ (7)

式中,u1为样本灰度均值,σi1 为样本灰度方差,λ>0,λ为更新速率,λ越小目标模型更新的速度就越快,本文定λ为0.85。ui0σi0采用类似规则更新。

2 PSD优化的压缩跟踪算法

压缩跟踪算法具有快速提取特征等优点,能适应各种复杂场景下的目标检测和目标跟踪,具有较强的抗干扰能力。但是该算法计算量仍然较大,仅能在高性能计算机上达到实时跟踪的目的,从而影响该算法进一步的推广应用,如果压缩跟踪算法的计算量能够大大减少,但又不影响该算法的跟踪准确率,那么该目标跟踪算法将大大提高适应性,满足实际的工程应用的需要。

将压缩感知理论应用于视频跟踪问题,是通过压缩感知理论对目标特征进行表述,在此基础上对目标进行分类判别。因此直观的思路是通过借助观测矩阵将目标特征变换为有效的观测值以进行降维,再采用稀疏分解将观测值变换为稀疏向量,通过稀疏向量来表征目标特征并对其进行分类判别。另一思路是通过观测矩阵将目标特征变换为有效的观测值,即压缩向量,直接对降维后的压缩向量进行分析,从而对目标进行分类判别(如压缩跟踪算法(CT)[7],快速压缩跟踪算法(FCT)[8] 算法),本文算法也采用这一思路。

在视频跟踪过程中,压缩感知理论提供了对目标进行表述的一种方法,跟踪算法关心的是表征目标的特征向量对目标跟踪判别的有效性,而并不关心这些特征向量是否为稀疏向量。而要获得描述目标的稀疏向量,还需要进行复杂的稀疏分解,因此直接利用压缩向量作为跟踪目标的判据可减少跟踪算法的计算复杂度(如CT[7],FCT[8])。

在压缩跟踪算法的基础上,本文采用了粒子群优化的方法通过优化压缩跟踪算法中候选模版的搜索策略来达到减少计算量的目的,在目标被遮挡时,采取粒子群优化的方法进行全局搜索目标,从而提高了本文所提跟踪算法的抗遮挡的能力。

2.1 粒子群优化算法

Kennedy和Eberhart[10]在受到鸟群研究理论的影响之后,模拟鸟群觅食的过程中的相聚以及分散行为,得出一种基于大群体智能的全局的随机搜索目标的算法,称为粒子群优化算法(PSO)。粒子群优化算法是一种容易理解,并且参数比较少又容易实现的一种优化算法,而且具有非常强的全局搜索目标的能力,特别是在处理多峰的问题上效果很好,广泛应用于各类的学术研究和工程项目。

假设在N维搜索区域中,存在某个粒子群X={x1,x2,…,xm}由m个粒子(候选目标)构成,第t步时,xi(t)=[xi1,xi2,…,xin]T是指粒子(候选目标)i的位置,粒子(候选目标)i的移动速度为vi=(vi1,vi2,…,vin)T,当前搜索的过程中粒子(候选目标)的个体最优值为pi=[pi1,pi2,…,pin]T,当前在全部粒子群中的全局最优值为pg=[pg1,pg2,…,pgn]T。粒子(候选目标)的速度和位置[11]迭代更新公式为

$\begin{align} & {{v}_{id}}\left( t+1 \right)=w\times {{v}_{id}}\left( t \right)+{{c}_{1}}{{r}_{1}}\left( {{p}_{id}}\left( t \right)-{{x}_{id}}\left( t \right) \right)+ \\ & {{c}_{2}}{{r}_{2}}\left( {{p}_{gd}}\left( t \right)-{{x}_{td}}\left( t \right) \right) \\ \end{align}$ (8)

${{x}_{id}}\left( t+1 \right)={{x}_{id}}\left( t \right)+{{v}_{id}}\left( t+1 \right)$ (9)

式中,d=1,2,…,ni=1,2,…,mt为时间,表示迭代次数,惯性权值[12]w表示上一次迭代粒子的速度对本次的粒子的速度的影响;在[0,1]范围内的均匀随机数r1r2,指的是上一次的个体最优候选目标和全局最优候选目标对本次的粒子速度的随机性影响。c1c2为学习因子,表示上一次迭代的个体最优候选目标和全局最优候选目标对当前的粒子速度的影响权重,由于候选目标在每次迭代之后都会更加接近个体最优候选目标和全局最优候选目标,所以粒子的速度就会越来越小,所以在本算法中采用随着迭代次数的增加而减小的办法给出学习因子和惯性权值的值。

此外,为避免粒子速度由于过大而可能超出了搜索的范围。设置了粒子速度的上限vmax,当vid(t+1)>vmax时则vid(t+1)=vmax,以及粒子速度的下限,当vid(t+1)<-vmax时则vid(t+1)=-vmax,这里粒子的速度上限的选取需要随跟踪框的大小变化而变化。

在通过压缩感知理论获得目标的压缩向量,建立目标模型之后,跟踪算法通过朴素贝叶斯算法在表征目标位置以及范围的状态空间中搜寻目标的最大似然以获得跟踪结果。CT[7]以及FCT[8]算法采用了遍历或由粗及精的方法在状态空间中寻找最大似然以得到跟踪结果。将目标的位置(x,y)或范围(hx,hy),作为粒子群优化搜索的状态空间,采用粒子群优化策略在状态空间中寻找目标的最大似然以得到跟踪结果,算法根据上一帧的目标状态随机初始化粒子群,朴素贝叶斯算法得到的似然值作为各粒子优劣的判据,各粒子的运动取决于其惯性、个体经验以及群体经验,经过多次迭代满足收敛条件后,粒子群算法搜索全局最优粒子所代表的状态即为当前目标跟踪的结果。

2.2 算法步骤

1)在首帧图像中确定跟踪目标T(s,t),在跟踪目标周围选取100个正样本,在正样本外选取100个负样本,训练分类器。

2)在第2帧中,搜索区域S内随机的采集20个候选目标(粒子)G(s+x,t+y),根据分类器计算每个候选目标G(s+x,t+y)似然值,并找出似然值最大的样本作为首次全局最优候选目标Pg,其余19个候选目标作为各自的首次个体最优候选目标Pb

3)开始迭代,根据式(8)(9)更新每个个体最优候选目标的速度和位置,得到新的19个候选目标,全局最优在其周围随机游动6次,获得7个候选目标。再通过分类器求出这26个候选目标的似然值,并找出似然值最大的候选目标作为新的全局最优候选目标Pg。并通过比较这次计算的似然值与上一次计算的似然值,得到本次迭代的每个个体最优候选目标Pb

4)当满足相邻两次全局最优候选目标对应的似然值之差小于0.1,并且距离相差小于1个像素时,迭代结束。最后一次迭代的全局最优候选目标即为当前帧中的目标。

5)当分类器得出的最大值小于给定阈值时,返回步骤1)进行整幅图全局搜索,直到满足条件。

6)更新分类器。

7)重复步骤1)—6)进行视频的实时跟踪。

3 实验结果与分析

为了验证提出的基于粒子群优化的压缩跟踪算法(CTP)的实时性,选择了与 CT[7]、FCT [8]、tracking learning detection (TLD) [13]、l1-tracker (L1T)[14]、CT using cosine similarity metric (CS_CT)[15]、multitask tracker (MTT)[16]以及real-time object tracking via the online discriminative feature selection (ODFS)[17]进行比较,所有算法都使用统一的视频序列和初始跟踪位置。采用了20种常用的视频序列。这些视频序列的目标准确位置都采用人工画出。用于比较的所有跟踪算法都是按照原作者的参数设置方法设置参数,所有实验结果数据都采用运行10次取平均值的结果。实验环境为MATLAB R2010a 酷睿i7-4510U 3.0 GHz CPU和8 GB RAM。

3.1 实验数据

为了有效地比较本文算法与其他跟踪算法的跟踪效果,选择20个经典常用的视频序列进行测试,如表 1。这20个视频序列都来自于各大经典的算法提供的视频序列。这些视频序列各有跟踪特点,例如animal、cliffbar及David视频序列有目标尺度、姿态变化及背景干扰的情况;faceocc、football及shaking视频序列目标有遮挡、相似目标干扰及复杂背景干扰;singer1、tiger2及twinnings视频序列有旋转、遮挡及缩放的情况。

表 1 视频帧
Table 1 Experimental frames

下载CSV
视频序列 帧数
animal 71
basketball 725
biker 180
box 1 161
cliffbar 472
David 462
dollar 327
faceocc 888
football 362
girl 502
liquor 1 741
shaking 365
singer1 351
singer2 366
skating1 400
skating2 700
Sylv 1 345
tiger1 354
tiger2 365
twinnings 471

3.2 参数设置

用来做比较的7种跟踪算法都是按照原作者的参数设置方法设置参数。本文算法中,由于目标帧间移动距离不大,候选目标的选取区域设定为以r=(1.5w+1.5h)/4为半径(wh分别为图像宽度和高度),以上一帧目标的中心坐标为圆心的圆中。定义粒子群优化中,经过多次实验得出,随机采集的候选目标20个,全局最优候选目标随机游动6次,可以产生最佳的跟踪效果。惯性权值w为1/(2n),候选目标朝向个体最优候选目标的加速常数c1为1.5/(1.5×n),粒子朝向全局最优候选目标的加速常数c2为2.5/(0.5×n),式中n为迭代次数。为了使候选目标更快地移向全局最优候选目标,所以c2取值较大,为了提高跟踪的精度,两种加速常数以及惯性权值都随迭代的增加而减小。为使所有移动的粒子都在搜索区域中移动,x速度上限vmaxx为0.3×hy速度上限vmaxy为0.3×w

3.3 数据分析

为了评价跟踪算法的各种跟踪性能,采用跟踪成功率[18] (SR)来评价目标跟踪的准确程度。首先,计算每一帧跟踪目标位置与真实目标位置的重合率

$score=\frac{area\left( RO{{I}_{\text{T}}}\cap RO{{I}_{\text{G}}} \right)}{area\left( RO{{I}_{\text{T}}}\cup RO{{I}_{\text{G}}} \right)}$ (10)

式中,ROIT表示跟踪算法得出的目标位置的矩形框;ROIG表示真实的目标所在位置的矩形框;area表示求面积运算。式(10)表示ROITROIG相交部分的面积除以相并部分的面积即为当前帧的重合率score,其值表示跟踪目标位置的准确度的高低。规定重合率score≥0.5则当前帧跟踪成功,否则跟踪失败。最后将跟踪成功的帧数除以总的帧数得出各算法的跟踪某一视频序列的成功率。

采用中心位置偏差 (CLE)来评价跟踪的偏移情况,计算真实目标的中心坐标和算法跟踪目标的中心坐标的欧氏距离,求取所有帧的欧氏距离的平均值即为该视频序列的中心位置偏差。

采用每秒运行的帧数(AFPS)来评价算法的跟踪耗时情况,每次结果都采取运行10次取平均值得出。

将所有跟踪算法在20个视频序列上跟踪成功率(CLE)绘制成表 2。从表 2中的实验结果数据可以看出,本文算法在20个序列上跟踪成功率最高的有8个,跟踪成功率其次的有6个,共14个,跟踪效果较好的视频序列比例达到70%。另外,在singer1视频序列和Twinnings视频序列中,本文算法的成功率分别达到85.2%和89.6%。实验结果表明,结合了粒子群优化的压缩跟踪算法很好地改进了压缩跟踪算法的跟踪效果。

表 2 跟踪成功率
Table 2 The success rate of tracking

下载CSV
视频序列 CTP FCT CT TLD L1T CS_CT MTT ODFS
animal 0.972 3 0.979 0 0.951 4 0.361 3 0.061 2 0.041 2 0.861 2 0.832 1
basketball 0.291 4 0.263 2 0.251 8 0.964 5 0.031 2 0.961 2 0.321 5 0.761 6
biker 0.381 2 0.043 5 0.231 7 0.000 0 0.030 1 0.230 1 0.091 2 0.162 1
box 0.391 3 0.248 5 0.361 9 0.681 3 0.211 6 0.313 1 0.156 1 0.376 0
cliffbar 0.963 2 0.966 2 0.861 9 0.405 3 0.231 2 0.951 8 0.531 2 0.938 1
David 0.981 2 0.975 2 0.951 6 0.950 9 0.822 1 0.381 4 0.412 3 0.924 1
dollar 0.963 5 0.952 3 0.921 3 0.410 3 0.423 6 0.405 3 0.436 7 0.813 6
faceocc 0.861 0 0.723 9 0.871 6 0.774 1 0.757 6 0.856 1 0.651 3 0.672 4
football 0.763 2 0.584 6 0.841 3 0.754 5 0.351 2 0.761 5 0.671 2 0.627 3
girl 0.385 6 0.314 2 0.351 3 0.491 1 0.321 8 0.921 6 0.231 5 0.341 2
liquor 0.281 8 0.215 3 0.211 4 0.211 3 0.167 3 0.211 2 0.135 6 0.214 1
shaking 0.948 9 0.914 0 0.134 7 0.002 1 0.031 2 0.563 1 0.021 4 0.912 3
singer1 0.852 3 0.297 6 0.913 0 0.318 6 0.841 3 0.862 1 0.651 3 0.981 1
singer2 0.391 8 0.301 0 0.310 6 0.004 1 0.153 1 0.030 2 0.312 6 0.406 3
skating1 0.376 8 0.361 5 0.125 4 0.360 7 0.036 2 0.341 9 0.022 4 0.090 3
skating2 0.192 0 0.040 1 0.167 2 0.020 1 0.351 2 0.335 7 0.231 4 0.051 3
Sylv 0.861 3 0.507 8 0.579 1 0.861 2 0.403 3 0.608 1 0.671 2 0.546 0
tiger1 0.583 2 0.553 1 0.618 5 0.414 3 0.184 5 0.611 3 0.241 3 0.042 0
tiger2 0.691 3 0.670 1 0.541 6 0.232 1 0.112 1 0.486 3 0.347 8 0.351 2
twinnings 0.895 9 0.970 5 0.713 6 0.906 4 0.831 5 0.431 5 0.771 5 0.671 3
平均值 0.651 5 0.544 0 0.545 5 0.456 2 0.377 7 0.515 2 0.388 5 0.535 7
注:加粗为最优结果,斜体次之。

表 3为中心位置偏差及平均每秒运行帧数,表 3中,加组字体数据代表中心位置偏差最小的算法数据,斜体为中心位置偏差次小的算法数据。从表 3中给出了每个视频序列下跟踪实验的中心位置偏差(CLE),以及20个视频序列的平均中心位置偏差(ACLE)和平均每秒运行帧数(AFPS),本文提出的算法跟踪中心位置偏差(CLE)最小的视频序列有6个,跟踪效果偏差次小的有8个,合计占总的视频序列的70%。其中cliffbar视频序列和shaking视频序列平均中心位置偏差为6.78和8.96。最后,为了分析各种目标跟踪算法跟踪耗时的情况,采用的每一秒运行的帧数(AFPS)作为对比的依据,各种算法在20种不同视频序列上跟踪耗时情况如表 3

表 3 中心位置偏差及平均每秒运行帧数
Table 3 Centre location error and average frames per second

下载CSV
视频序列 CTP FCT CT TLD L1T CS_CT MTT ODFS
animal 12.31 16.32 16.87 125.33 124.87 271.11 17.87 19.21
basketball 75.36 89.61 67.25 213.32 125.31 8.07 75.21 12.36
biker 46.21 51.56 96.87 118.23 87.13 108.31 67.12 42.93
box 76.45 106.35 32.81 11.25 88.15 123.83 19.13 134.15
cliffbar 6.78 6.38 9.32 12.68 42.45 6.76 24.32 6.62
David 11.32 11.01 14.21 11.33 17.45 42.55 125.65 11.32
dollar 13.93 15.98 18.46 66.41 46.31 43.64 45.91 18.32
faceocc 15.31 31.48 18.61 15.55 16.21 16.23 25.12 26.45
football 13.12 15.38 8.15 11.93 39.18 12.32 9.65 16.32
girl 39.97 41.87 36.85 29.32 45.21 17.98 29.31 36.41
liquor 126.14 156.31 181.56 92.23 85.12 151.33 80.15 111.95
shaking 8.96 8.99 104.32 3.86 73.64 17.55 116.87 11.21
singer1 18.61 23.51 22.45 19.28 17.22 18.91 39.12 16.17
singer2 35.32 58.21 86.15 201.13 19.21 165.18 85.21 55.56
skating1 51.37 69.84 97.32 72.23 73.98 126.43 79.32 148.73
skating2 63.31 127.51 72.98 8.32 69.18 66.73 80.12 192.64
Sylv 13.94 17.32 14.45 14.32 51.32 22.45 19.65 11.98
tiger1 15.18 22.12 23.88 4.87 38.46 20.34 61.89 78.01
tiger2 12.35 15.32 14.62 15.32 48.32 24.61 24.13 13.31
twinnings 11.53 10.56 16.89 12.21 123.65 45.32 13.65 16.12
ACLE 33.37 44.78 47.70 52.96 61.62 65.48 51.97 48.99
AFPS 155.53 89.12 69.15 21.15 19.16 52.12 26.15 56.32
注:加粗为最优结果,斜体次之。

以animal视频序列为例,animal视频序列目标大小为100×70,设定算法在搜索候选目标的范围都采用宽1.5×100和高1.5×70的区域,即150×105的区域。压缩跟踪算法的搜索策略是,在150×105的区域内,每隔一个像素采集一个候选目标进行分类器分类,最终在这150×105的区域中将要采集1 750个样本,进行1 750次分类器分类。而基于粒子群优化的压缩跟踪算法的搜索策略采用的是粒子群优化算法的方法,首选在150×105的搜索区域中随机的采集30个候选目标进行分类器分类,找出全局最优候选目标和个体最优候选目标,之后进行粒子群的迭代运算,其中全局最优随机游动6次,根据实验可以得出,平均每次迭代2.5次可以找到目标。即每帧需要运行(30+36×2.5)次,即仅120次分类器分类运算。分类器分类运算的运算量仅为其他跟踪算法的0.07。加上粒子群优化算法本身所需要的运算量,所以本文算法比其他跟踪算法在跟踪animal视频序列上显著减少跟踪所费时间。

3.4 图示分析

为了更加直观地分析本文算法的实验效果,从20个视频序列中,列出了9个不同场景不同干扰情况下的跟踪实验实图。

图 1中3个视频序列包括尺度、姿态变化及背景干扰的影响。在经常发生姿态变化的animal视频序列中,L1T和CS_CT从一开始就没能跟踪上目标,之后也没能找回目标。而TLD算法在第55帧之后开始丢失目标,之后也没能找回目标。其余算法跟踪效果都很好,本文算法从始至终都能稳定地跟踪上目标。在cliffbar视频序列中,主要是尺度发生变化并伴有旋转,MTT算法容易受背景的干扰,在第55帧时就已经丢失目标,并在之后没能找回目标。L1T算法也受背景的干扰没能跟踪到目标的精确位置。而CTP能够一直跟踪上目标。但是本文算法仍然能够稳定地跟踪目标。David视频序列在开始时有光线偏暗的影响,其中MTT算法和CS_CT算法受此影响比较大而发生跟踪偏移的现象,随着偏移逐帧的累积最后丢失目标。CTP算法不受这些干扰的影响,一直能良好地跟踪目标。

图 1 尺度、姿态变化及背景干扰对跟踪结果的影响
Fig. 1 The change of scale、posture and background affected the result of tracking ((a) animal; (b) cliffbar; (c) David)

图 2中3个视频序列主要有遮挡及复杂背景干扰的影响。其中faceocc视频序列有较多的半遮挡的情况,ODFS算法、MTT算法和L1T算法受次影响比较大而发生偏移,其余算法跟踪情况比较好,CTP和FCT跟踪效果最好。football视频序列中,TLD从第56帧开始就丢失了目标,之后一直跟踪错误的目标,L1T算法在第153帧开始产生跟踪偏差,累积到第336帧发生了目标遮挡后丢失了目标。CTP算法开始跟踪较好,并在第153帧中有目标发生部分遮挡的情况下仍然能够稳定的跟踪上目标。

图 2 遮挡及复杂背景干扰对跟踪结果的影响
Fig. 2 Sheltered and the change of background affected the result of tracking ((a) faceocc; (b) football; (c) shaking)

shaking视频序列背景比较复杂,多数跟踪算法都没能跟踪上目标,第11帧中,MTT算法偏移情况最大,也最早的丢失目标,第78帧中,TLD算法、CT算法、L1T算法和MTT算法都丢失了目标,到第237帧中CS_CT也丢失了目标,最后到345帧FCT也发生了跟踪偏移,相较下CTP算法偏移最小。

图 3中主要是旋转、遮挡的影响,singer1视频序列中,拍摄角度经常发生变化造成目标发生旋转形变,其中FCT算法跟踪效果最差,从第16帧开始发生偏移最后逐渐丢失目标。TLD算法跟踪框缩放的精度不高,最后完全丢失目标。MTT算法在第332帧开始丢失目标。其余算法跟踪效果都很好。tiger2视频序列经常发生旋转并有部分遮挡的情况,属于比较难跟踪的视频序列,在第101帧时ODFS和L1T都向目标的左上角发生偏移,CT和MTT都向目标的下方发生偏移,TLD向目标的上方偏移,到第261帧时L1T和TLD彻底的丢失了目标。Twinnings视频序列主要旋转和缩放的影响,在前91帧以内所有算法都跟踪较好,到131帧后,ODFS发生了明显的偏移,在到221帧后MTT算法和CS_CT算法也发生了明显的偏移。最后到356帧,CT算法跟踪丢失目标。只有CTP和FCT能一直跟踪上目标。

图 3 旋转、遮挡对跟踪结果的影响
Fig. 3 Revolve and sheltered affected the result of tracking ((a) singer1; (b) tiger2; (c) twinnings)

4 结 论

本文将粒子群优化算法与压缩跟踪算法相结合,提出一种更加快速准确的压缩跟踪算法,并通过对结合了粒子群优化的压缩跟踪算法的跟踪效果进行分析,得到了若干有指导意义的结论。与常见的7种跟踪算法相比,本文提出在搜索区域进行搜索候选目标时,采用粒子群优化算法代替每隔一个像素采集一个候选目标的方式,达到减少分类器分类运算次数的目的,从而提高了算法的效率。在跟踪发生遮挡时,采取粒子群优化算法进行全局搜索,这样可以更加的发挥粒子群优化算法的全局搜索的能力,从而提高了算法的抗遮挡能力和准确性。本文算法能用于智能视频监控系统中提高监控系统的智能化性能,今后将重点研究分类方法,用于改善贝叶斯分类方法的性能,提高分类的精度和效率,从而提高跟踪算法的性能。

参考文献

  • [1] Yang H X, Shao L, Zheng F, et al. Recent advances and trends in visual tracking: a review[J].Neurocomputing,2011,74(18): 3823–3831. [DOI:10.1016/j.neucom.2011.07.024]
  • [2] Kalal Z, Matas J, Mikolajczyk K. Online learning of robust object detectors during unstable tracking[C]//Proceedings of the IEEE 12th International Conference on Computer Vision Workshops. Kyoto: IEEE, 2009: 1417-1424. [DOI: 10.1109/ICCVW.2009.5457446]
  • [3] Grabner H, Grabner M, Bischof H. Real-time tracking via on-line boosting[C]//Proceedings of British Machine Vision Conference. Edinburgh, UK: Institute for Computer Graphics and Vision, 2006, 1: 47-56.
  • [4] Cheng Y L, Li B, Zhang W C, et al. An adaptive pedestrian tracking algorithm with prior knowledge[J].Pattern Recognition and Artificial Intelligence,2009,22(5): 704–708. [ 程有龙, 李斌, 张文聪, 等. 融合先验知识的自适应行人跟踪算法[J].模式识别与人工智能,2009,22(5): 704–708.] [DOI:10.3969/j.issn.1003-6059.2009.05.005]
  • [5] Donoho D L. Compressed sensing[J].IEEE Transactions on Information Theory,2006,52(4): 1289–1306. [DOI:10.1109/TIT.2006.871582]
  • [6] Li H, Shen C, Shi Q. Real-time visual tracking using compressive sensing[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2011: 1305-1312. [DOI: 10.1109/CVPR.2011.5995483]
  • [7] Zhang K H, Zhang L, Yang M H. Real-time compressive tracking[C]//Proceedings of the 12th European Conference on Computer Vision. Berlin Heidelberg: Springer, 2012: 864-877. [DOI: 10.1007/978-3-642-33712-3_62]
  • [8] Zhang K, Zhang L, Yang M H. Fast compressive tracking[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(10): 2002–2015. [DOI:10.1109/TPAMI.2014.2315808]
  • [9] Stauffer C, Grimson W E L. Learning patterns of activity using real-time tracking[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(8): 747–757. [DOI:10.1109/34.868677]
  • [10] Kennedy J, Eberhart R. Particle swarm optimization[C]//Proceedings of IEEE International Conference on Neural Networks. Perth, WA: IEEE, 1995, 4: 1942-1948. [DOI: 10.1109/ICNN.1995.488968]
  • [11] Bratton D, Kennedy J. Defining a standard for particle swarm optimization[C]//IEEE Swarm Intelligence Symposium. Honolulu, HI: IEEE, 2007: 120-127. [DOI: 10.1109/SIS.2007.368035]
  • [12] Ratnaweera A, Halgamuge S K, Watson H C. Self-organizing hierarchical particle swarm optimizer with time-varying acceleration coefficients[J].IEEE Transactions on Evolutionary Computation,2004,8(3): 240–255. [DOI:10.1109/TEVC.2004.826071]
  • [13] Kalal Z, Matas J, Mikolajczyk K. P-N learning: bootstrapping binary classifiers by structural constraints[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, CA: IEEE, 2010: 49-56. [DOI: 10.1109/CVPR.2010.5540231]
  • [14] Mei X, Ling H. Robust visual tracking and vehicle classification via sparse representation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(11): 2259–2272. [DOI:10.1109/TPAMI.2011.66]
  • [15] Jenkins M D, Barrie P, Buggy T, et al. An extended real-time compressive tracking method using weighted multi-frame cosine similarity metric[C]//Proceedings of the 6th European Embedded Design in Education and Research Conference. Milano: IEEE, 2014: 147-151. [DOI: 10.1109/EDERC.2014.6924377]
  • [16] Zhang T, Ghanem B, Liu S, et al. Robust visual tracking via multi-task sparse learning[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2012: 2042-2049. [DOI: 10.1109/CVPR.2012.6247908]
  • [17] Zhang K, Zhang L, Yang M H. Real-time object tracking via online discriminative feature selection[J].IEEE Transactions on Image Processing,2013,22(12): 4664–4677. [DOI:10.1109/TIP.2013.2277800]
  • [18] Everingham M, Gool L, Williams C K, et al. The pascal visual object classes (VOC) challenge[J].International Journal of Computer Vision,2010,88(2): 303–338. [DOI:10.1007/s11263-009-0275-4]