论文引用格式:Wang F S, Yin S S, He B and Sun F M. 2023. A Gaussian mask-based correlation filter tracking algorithm. Journal of Image and Graphics, 28(10):3092-3106(引用格式:王法胜, 尹双双, 贺冰, 孙福明. 2023. 引入高斯掩膜的相关滤波目标跟踪算法. 中国图象图形学报, 28(10):3092-3106)[0 引 言目标跟踪在现实世界中有着广泛的应用,已经成为计算机视觉领域的一个重要研究方向(Abbass等,2021)。近年来,目标跟踪技术在国内外学者的努力下取得了长足的进步,但在复杂场景中,由于缺失目标信息,导致传统的跟踪方法很难同时满足跟踪精度和实时性两个方面的要求。相关滤波算法(correlation filter,CF)由Bolme等人(2010)首次引入目标跟踪领域后,在多种挑战场景中表现出良好的精确度和实时性,成为一种解决目标跟踪问题的主流方法(强壮和石繁槐,2020)。在经典的相关滤波跟踪算法中,训练集是利用基础图像的循环移位来生成正负样本,并且利用循环矩阵在傅里叶域中进行计算,显著提高了学习效率。但由于傅里叶变换是周期性的,并没有考虑到图像的边界,使得跟踪物体样本的边界不连续,引发了边界效应(Liu等,2021)。边界效应会导致错误样本的产生,降低样本的质量,从而严重影响滤波器的判别能力。为解决边界效应问题,早期的相关滤波算法使用余弦窗与目标区域相乘使目标边缘像素接近于零。由于滤波器训练时分类器要学习背景信息,训练阶段加入余弦窗后,在目标框中能学习的背景信息变得很有限,进一步降低了滤波器的判别能力。为了抑制边界效应,提升滤波器的性能,研究者提出了一些改进相关滤波跟踪算法。例如,背景感知相关滤波(background aware correlation filter,BACF)算法(Galoogahi等,2017)使用扩大搜索范围裁剪小样本的方法增加真实负样本的数量,在一定程度上缓解了边界效应。背景与方向感知相关滤波(姜文涛 等,2021)在BACF基础上利用卡尔曼滤波预测目标运动方向,并提取运动方向上的背景信息,增加滤波器的判别能力。畸变抑制相关滤波(aberrance repressed correlation filters,ARCF)算法(Huang等,2019)在BACF的基础之上通过添加限制响应图变化率的正则化项,在缓解边界效应的同时有效抑制畸变。时间正则化背景感知相关滤波(temporal regularized correlation filters,TRBACF)算法(Yuan等,2020)在BACF算法的基础之上引入时间正则化项,提高算法适应复杂跟踪场景的能力;空间正则化相关滤波跟踪(spatially regularized discriminative correlation filter,SRDCF)算法(Danelljan等,2015)引入空间正则化来解决边界效应问题,有效地抑制背景区域的响应;自适应空间正则化相关滤波(adaptive spatial regularized correlation filter,ASRCF)算法(Dai等,2019)使用自适应空间正则化,进一步缓解了边界效应,在复杂场景下获得了更好的性能;自适应时空正则化相关滤波算法(automatic spatio-temporal regularization tracker,AutoTrack)(Li等,2020b)利用响应图的局部和全局信息实现自适应时空正则化,在速度和精度上得到进一步的提升;畸变抑制时空相关滤波算法(aberrance suppressed spatio-temporal correlation filters,ASTCF)(Elayaperumal和Joo,2021)为抑制边界效应在ARCF算法基础之上引入时间正则化项;长短时空注意相关滤波(spatial and long-short temporal attention correlation filters,STTCF)算法(Zhao等,2022)为抑制边界效应在传统空间正则化项中加入权值矩阵,并且分别设计了两个长短时间正则化项进一步提高跟踪器性能。基于深度学习正则化的相关滤波跟踪算法(蒲磊 等,2020)通过对损失函数的改进来缓解边界效应,有效应对多种复杂场景。而基于注意力学习的正则化相关滤波跟踪算法(仇祝令 等,2020)将掩膜视为注意力权重与滤波器联合求解, 能够有效应对边界效应,实现实时准确的跟踪。上述改进算法虽然在一定程度上抑制了边界效应问题,但是在训练过程中仍然采用了余弦窗操作。而余弦窗会导致提取目标物体的范围缩小,获取的信息有限,大量过滤掉原本需要学习的背景信息,甚至会引入周围噪声导致样本污染(Li等,2020a)。为解决该问题,1)本文在正则化相关滤波框架中嵌入高斯形状掩膜,重新定义中心和边界的样本权重,在有效降低边界效应的同时,降低余弦窗可能带来的样本污染;2)使用交替方向乘子算法迭代优化算法模型,求得滤波器和空间权重的闭合解;3)在多个基准数据集上进行了大量的对比实验,结果表明嵌入高斯形状掩膜的相关滤波跟踪算法表现出更好的跟踪性能,能有效应对各种具有挑战的场景。本文算法源代码发布于https://github.com/doubleYB2/GSASRCF。1 相关基线工作经典的相关滤波跟踪算法使用目标区域循环移位来增加训练样本数目,以此来提高跟踪性能。但是目标区域作为正样本不能范围过大,范围过大会引入不必要的背景信息,导致正样本中无法准确获取有用的目标物体信息,降低跟踪性能。引入空间正则化是解决边界效应的有效手段。SRDCF跟踪算法(Danelljan等,2015)在相关滤波器中应用正则化的方式加入了惩罚项,同时使用不同尺寸搜索解决了尺度变化的问题,在大范围运动等复杂场景中获得较好的性能。算法的目标函数为Ew=12∑k=1Kxk* wk-y22+λ2∑k=1K h˜⊙wk22 (1)式中,*为卷积运算,⊙为逐元素点乘运算,xk∈RT、wk∈RD分别为训练样本和滤波器的第k个通道,K为特征通道数,T表示采样空间维度,D表示滤波器维度。h˜为滤波器的正则化系数矩阵。y∈RT表示期望的相关响应,λ为正则化参数。为了有效利用背景信息训练滤波器,BACF算法(Galoogahi等,2017)提取了更大的搜索区域,将整个大的搜索区域进行循环移位之后,用二值掩码矩阵对非目标区域进行裁剪操作。通过该操作得到了大量的真实的负样本,在扩大搜索区域的同时提高了样本的质量和数量,正样本中包含目标物体和周围少数环境信息,而负样本中包含了较多的背景信息。BACF算法的目标函数为E(w)=12∑j=1D∑k=1KwkTPxk[Δτj]-y(j)22+λ2∑k=1Kwk22 (2)式中,P是D×T的二值裁剪矩阵,裁剪xk中的D个像素。y(j)是y的第j个元素,[Δτj]是循环移位算子,xk[Δτj]表示对xk采用j步循环移位。在跟踪过程中,BACF和SRDCF对不同的目标物体其正则化项保持不变,不能很好地反映目标物体的特征,因此ASRCF算法(Dai等,2019)引入自适应空间正则化,同时优化滤波器系数和空间正则化权值,可以更有效地学习目标物体的特征和更新特定的对象,在跟踪过程中获得可靠的滤波系数。ASRCF同时利用了两个相关滤波模型进行跟踪,使用一个复杂的相关滤波器对目标物体进行定位的同时,再使用另一个具有多尺度手工特征的相关滤波器进行尺度估计,跟踪效果明显提升,优于其他先进的跟踪算法。自适应空间正则化相关滤波算法的目标计算为E(W, h)=12∑k=1Kxk*(PTwk)-y22+λ12∑k=1Kh⊙wk22+λ22h-hq22 (3)式中,等号右侧第1项为岭回归项,X=[x1,x2,⋯,xk]为训练数据,W=[w1,w2,⋯,wk]为滤波器。第2项在滤波器上引入自适应空间正则化,h为空间权重。第3项为了防止模型退化引入了h的先验信息hq作为参考权值。λ1和λ2分别为第2项和第3项的正则化参数。将目标公式转换至频域,得到E(W, G^, h)=12∑k=1Kx^k⊙g^k-y^22+λ12∑k=1Kh⊙wk22+λ22∑k=1Kh-hq22s.t. g^k=TFPTwk, k=1,⋯, K (4)式中,G^为辅助变量矩阵,G^=g^1,g^2,⋯,g^K。F是复基向量的正交T×T矩阵,可以将任何T维向量化信号映射到傅里叶域。2 本文算法2.1 算法模型相关滤波算法经常在一个样本不平衡的情况下进行学习,能学习到的负样本有限。余弦窗的使用虽然很好地应对了边界效应,但是进一步限制了学习样本的区域,甚至引入不必要的信息造成样本污染。同时,中心样本的重要性要大于周围样本,目标中心相对于边缘应获取更高的响应,而余弦窗简单地使边缘样本为零。因此,本文引入高斯形状掩膜来重新定义目标区域的权重。高斯形状掩膜定义为S(m, n)=e-(maβ)2-(nbβ)2|m| ≤A2-a2, n ≤B2-b20其他 (5)式中,A×B是基础图像的大小,a×b是目标边界框的大小,(m,n)是实际图像样本中心的位置,β是控制训练样本权值衰减速度的参数。在自适应空间正则化相关滤波算法中嵌入高斯形状掩膜(Gaussian shape mask adaptive spatial regularization correlation filter,GSASRCF),对边界效应进一步抑制,在训练时重新对样本的权重进行更新。本文算法目标计算为E(W, G^, h)=12S⊙∑k=1Kx^k⊙g^k-y^22+λ12∑k=1Kh⊙wk22+λ22h-hq22s.t. g^k=TFPTwk, k=1,⋯, K (6)将高斯形状掩膜引入自适应空间正则化相关滤波算法,避免边界不连续,降低余弦窗带来的样本污染问题。如图1所示,图1(a)绿色框中的区域为基础图像区域(即搜索区域),大小为A×B,红色框区域为目标区域,大小为a×b,在基础图像区域获取训练样本时,收集的样本可能会超出基础图像区域,引起边界不连续问题(即边界效应),如图中青色虚线框所示的样本,覆盖了边界部分,出现边界不连续问题。图1(b)中余弦窗和目标区域相乘使边缘像素为零,压缩了提取样本的区域,使得训练样本受到周围噪声的污染(样本中的黑色区域),且靠近中心的样本和边缘的样本的权重均相同。图1(c)中高斯形状掩膜抑制边界负样本的同时,对靠近目标中心和基础图像区域边缘的样本的权重重新分配,增加了中心样本的重要性,同时降低远离中心的边缘样本的重要性,增加中心样本的响应,从而降低样本污染的影响,增强滤波器的判别能力。10.11834/jig.220856.F001图1高斯形状掩膜重新分配权重可视化Fig.1Visualization of the Gaussian shape mask for redistributing the sample weight((a)boundary effect;(b)cosine window;(c)Gaussian mask)2.2 模型求解对本文算法的目标公式使用增广拉格朗日方法进行求解,式(6)利用增广拉格朗日法,可得LW, G^, h, V^=DW, G^, h+∑k=1Kv^KTg^k-TFPTwk+μ2∑k=1Kg^k-TFPTwk22 (7)式中,V=[v1,v2,⋯,vk]∈RT×K是拉格朗日乘子,μ为交替方向乘子法(alternating direction of multiplier method,ADMM)惩罚因子。通过引入变量uk=1μvk,k=1,2,⋯,K,式(7)可转换为LW, G^, h, U^=12S⊙∑k=1Kx^k⊙g^k-y^22+λ12∑k=1Kh⊙wk22+λ22∑k=1Kh-hq22+μ2∑k=1Kg^k-TFPTwk+u^k22 (8)式中,U^=u^1,u^2,⋯,u^K∈RT×K。使用ADMM对算法进行优化,将原问题转化为关于滤波器W和辅助变量G的两个子问题,并且所有的子问题都有封闭解。1) 求解子问题W。W的最优解为wk*=argminwkλ12h⊙wk22+μ2g^k-TFPTwk+u^k22=[λ1HTH+μTPTP]-1μTP(uk+gk) (9)式中,H=diag(h)表示一个对角矩阵,将h中所有元素进行对角化。2) 求解子问题G^*。G的最优解为G^*=argminG^12S⊙∑k=1Kx^k⊙g^k-y^22+μ2∑k=1Kg^k-TFPTwk+u^k22 (10)由于该式计算比较复杂,将问题进行拆分,对每个像素的所有通道进行处理,对问题进行优化,具体为vj*(G^)=argminνj(G^)12S⊙(vjT(X^)vj(G^)-y^j)22+μ2∑k=1Kvj(G^)+vj(M^)22 (11)式中,vj(M^)=vj(U^)-vj(TFPTW)。由于求得的解中带有求逆运算,求解的计算量依旧庞大,因此使用Sherman-Morrison公式(A+uvT)-1= A-1-A-1uvTA-11+vTA-1u对计算进行加速,求得最后的闭合解为vj*(G^)=1μTI-vj(X^)STSvjT(X^)μT+vjT(X^)SSTvj(X^)×y^jSSTvj(X^)+μvj(TFPTW)-μvj(U^) (12)得到上述两个子问题的解之后,W、G^和U^固定,可求得权重h的闭合解为h*=argminhλ12∑k=1KRkh22+λ22h-hb22=λ1∑k=1KRkTRk+λ2I-1λ2hb (13)式中,Rk=diag(wk)。拉格朗日乘子更新为U^i+1=U^i+G^i+1-W^i+1 (14)式中,U^i为第i次迭代的拉格朗日乘子的傅里叶变换,G^i+1和 W^i+1 是上面两个子问题的迭代i+1次的当前解。2.3 目标位置与尺度估计将相关滤波器的响应定义为z,在频域中确定z的最大值即为目标的估计位置,即z^m=∑k=1Kx^k⊙g^k (15)本文使用手工特征与深度特征的集成特征来训练目标位置估计的相关滤波器(位置估计CF)。其中,使用的手工特征是方向梯度直方图(histogram of gradient, HOG)特征,深度特征来自VGG-M网络Norm1层和VGG-16的Conv4-3层,跟踪过程仅在一个尺度搜索区域提取这些特征。与经典的相关滤波跟踪算法一样,模板更新方法为X^mnew=1-ηX^mold+ηX^* (16)式中,X^mold是旧的模板模型,X^mnew是更新的模板模型,X^*是当前帧的模板,η是在线学习率。对于目标的尺度估计,本文单独训练一个尺度估计相关滤波器(尺度CF)。尺度估计滤波器使用手工HOG特征进行训练,跟踪过程中使用5个尺度进行尺度估计,根据5个响应图的最高分数确定最佳的目标尺度。GSASRCF算法整体流程如图2所示,其中实线箭头代表训练过程,虚线箭头代表跟踪过程,FFT(fast Fourier transform)表示快速傅里叶变换,IFFT(inverse FFT)表示逆快速傅里叶变换。算法的步骤如下:10.11834/jig.220856.F002图2GSASRCF算法图示Fig.2Illustration of GSASRCF算法1:GSASRCF算法输入:视频序列,第1帧初始目标位置及尺度(宽度、高度)。输出:序列每帧中目标的位置及尺度。1)初始化:根据初始目标位置及尺度,确定搜索区域,计算高斯掩膜、正则化权重、定位CF和尺度CF,确定初始滤波器模板。2)对于序列的第2帧至最后一帧:(1)根据上一帧目标位置及尺度估计结果,确定搜索区域。(2)提取不同尺度的HOG特征及深度特征,构建目标描述。(3)将上一帧的定位CF和尺度CF与当前帧的目标描述做相关运算,求得最大响应,确定目标位置及尺度,输出估计目标位置及尺度。(4)根据当前帧的跟踪结果,确定搜索区域。(5)提取训练样本,并提取5个尺度的HOG特征,使用高斯掩膜参与ADMM训练尺度CF。(6)提取训练样本,并提取单尺度HOG特征及深度特征,使用高斯掩膜参与ADMM方法训练定位CF。(7)根据学习率更新滤波器模板。3)结束。3 实验结果与分析3.1 实验细节本文使用MATLAB 2018a实现GSASRCF算法,所有实验均在64位Windows10平台下完成。计算机处理器参数为 Intel(R) Core (TM) i7-9700 3.00 GHz CPU,内存为48 GB,图形显卡为NVIDIA Quadro P400。正则化参数λ1 = 1.2,λ2 = 0.001。使用VGG(Visual Geometry Group)网络特征(VGG-M的Norm1,VGG-16的Conv4-3)和HOG特征进行目标定位,使用5个尺度的HOG特征进行尺度估计。控制训练样本权值衰减速度的参数β = 4,在线学习率η = 0.018 5。ADMM迭代次数设置为2,惩罚因子μ = 1。本文使用OTB2013(online object tracking benchmark)(Wu等,2013)、TC128(temple color)(Liang等,2015)、UAV123(unmanned aerial vehicle)(Mueller等,2016)和Got-10k(general object tracking 10 000)(Huang等,2021) 4个公开基准数据集进行跟踪器评测。除Got-10k数据集外,将本文提出的GSASRCF算法与其他相关滤波跟踪算法采用一遍评估法(one pass evaluation,OPE)进行评估,使用精确度和成功率对算法进行测评。使用中心误差作为精确度的评价指标,即跟踪目标物体的中心位置与手动标记的目标物体真实值之间的平均欧氏距离。使用序列所有帧的中心误差的平均值作为标准,评价本文算法在整个序列上的跟踪性能。定义阈值为20像素,预测值与真实值差距在阈值范围内的帧数占总帧数的百分比可以绘制出一条曲线,从而生成精度曲线。跟踪预测的边界框定义为rt,真实标定的边界框定义为ra,重叠率定义为O=rt⋂rart⋃ra,这里的⋂和⋃分别代表这两个区域的交集和并集。当O大于给定阈值时即视为成功,计算跟踪成功的帧数占总帧数的比率即为成功率。但是在一个特定的阈值上计算成功率不具有代表性,采用曲线下面积(area under curve,AUC)来对跟踪算法进行排序。3.2 定量分析3.2.1 OTB2013数据集OTB2013数据集中包含50个视频序列,其中包含部分灰度视频序列。该数据集包含了11种挑战因素,包括快速运动(fast motion,FM)、背景杂波(background clutter,BC)、运动模糊(motion blur,MB)、形变(deformation,DEF)、光照变化(illumination variation,IV)、平面内旋转(in-plane rotation,IPR)、低分辨率(low resolution,LR)、尺度变化(scale variation,SV)、平面外旋转(out-of-plane rotation,OPR)、遮挡(occlusion,OCC)和移出视野(out of view,OV)。对比算法包括ARCF(Huang 等,2019)、SRDCF(Danelljan等,2015)、AutoTrack(Li等,2020b)、ECO(efficient convolution operators)(Danelljan等,2017a)、ACSDCF_HC(adaptive channel selection discriminative CF with hand-crafted feature)(Xu等,2021)、RHCF(robust hierachical CF)(曾梦媛 等,2020)、MSCF(mutation sensitive CF)(Zheng等,2021)、MACF(motion-aware CF)(Zhang等,2018)、 ECO_HC(ECO with hand-crafted feature)(Danelljan等,2017a)、DSARCF(dynamic saliency aware regularized CF)(Feng等,2019)、LADCF(learning adaptive discriminative CF)(Xu等,2019)、CRSRCF(content-related spatial regularization CF)(Han等,2018)、fDSST(fast discriminative scale space tracking)(Danelljan等,2017b)、Staple(sum of template and pixel-wise learners)(Bertinetto等,2016)和ASRCF(adaptive spatial regularized CF)(Dai等,2019)。图3展示了本文算法与其他对比相关滤波跟踪算法的OPE结果。在精度曲线图中,本文算法GSASRCF排在第1位。与基准算法ASRCF相比提高0.5%。GSASRCF精度得分0.902,超过第3名ECO算法(0.856)4.6%。ACSDCF_HC(0.804)和LADCF(0.804)以相同分数排在第4位,使用显著性特征的DSASRCF(0.786)排在精度算法对比的第6位。在成功率得分中,GSASRCF算法AUC得分0.652,排名第2,比ASRCF算法低0.1%,相比ECO算法(0.618)获得了3.4%的增益,同时相比排名第3的ACSDCF_HC(0.598)和LADCF(0.598)高出了5.4%。相比MSCF(0.574)、ARCF(0.555)、RHCF(0.544)等也取得了极具竞争力的结果。本文算法GSASRCF达到了最好的精度,引入高斯形状掩膜的算法在算法精度对比中展现了良好的跟踪性能。10.11834/jig.220856.F003图3OTB2013数据集的对比结果Fig.3Comparison results on OTB2013 dataset ((a) precision plots; (b) success plots)表1展示了本文算法GSASRCF与其他相关滤波算法在11个不同挑战场景中的AUC得分结果。在快速运动(0.644)、背景杂波(0.659)、形变(0.632)、尺度变化(0.632)、平面外旋转(0.646)、遮挡(0.640)、超出视野(0.649)等7个场景中,本文算法AUC得分排名第1。其他4个挑战场景均排在第2位。使用深度特征的ECO算法在9个挑战场景中排名第3位,在运动模糊场景(0.648)取得高分数。GSASRCF算法在11种不同挑战场景中展现了其优越性,加入高斯形状掩膜的相关滤波器可以有效地应对边界效应,降低引入余弦窗所导致的样本污染的影响,更好地处理目标形变、遮挡和尺度变化等挑战,提高跟踪器的跟踪性能。10.11834/jig.220856.T001表1OTB2013数据集中11个不同挑战场景的对比结果(AUC)Table 1Comparisons of the 11 challenging attributes on OTB2013(AUC)跟踪算法FMBCMBDEFIVIPRLRSVOPROCCOVASRCF (Dai等,2019)0.6410.6570.6330.6280.6650.6270.5950.6290.6410.6320.637ECO (Danelljan等,2017a)0.6390.5920.6480.5540.6120.5740.5670.6170.5880.6210.599LADCF (Xu等,2019)0.5760.5760.5720.5290.5510.5450.5460.5900.5610.5830.560DSARCF (Feng等,2019)0.5720.6020.5680.5250.5830.5470.5490.5860.5570.5520.506ECO_HC (Danelljan等,2017a)0.5760.5620.5350.5100.5230.5060.5660.5570.5290.5490.514ACSDCF_HC (Xu等,2021)0.5960.6040.5950.5170.5770.5590.5450.5980.5730.5960.545RHCF (曾梦媛 等,2020)0.5490.5150.5560.4990.5420.5400.5130.5210.5120.5090.460MSCF (Zheng等,2021)0.5650.5620.5670.5490.5610.5530.4960.5330.5410.5210.530AutoTrack (Li等,2020b)0.5360.5050.5340.5140.5250.4790.5290.4860.4930.5060.521MACF (Zhang等,2018)0.4960.5550.5100.4180.5650.4680.4770.4770.4450.4440.456ARCF (Huang等,2019)0.5560.5350.5450.5480.5360.5050.5120.5080.5040.5180.488CRSRCF (Han等,2018)0.5950.5680.5830.4960.5500.5190.5010.5640.5190.5340.484SRDCF (Danelljan等,2015)0.5620.5300.5390.4660.5340.4860.4950.5190.4850.4980.431fDSST (Danelljan等,2017b)0.5320.5430.5420.4340.5490.4900.4580.4830.4530.4460.454Staple (Bertinetto等,2016)0.4830.4760.4760.5110.5160.4620.3990.4600.4630.4890.455GSASRCF (本文)0.6440.6590.6350.6320.6620.6250.5930.6320.6460.6400.649注:加粗字体表示各列最优结果。3.2.2 TC128数据集TC128数据集由128个彩色序列组成,包含的11个挑战因素与OTB数据集相同。本文算法与其他先进的目标跟踪算法进行OPE测评,包括ARCF、ACSDCF_HC、MSCF(Zheng等,2021)、ECO_HC、STRCF(Li等,2018)、MRCF(Ye等,2022)、 AutoTrack(Li等,2020b)、RHCF、DSARCF、Staple、DRCF(Fu等,2020)、SRDCF、DSST(Danelljan等,2017b)和ASRCF。图4展示了在TC128数据集中各跟踪算法的精确度排名和根据AUC得分生成的成功率排名。GSASRCF算法在平均精度得分中排名第2,排名第1的是ASRCF(0.780),本文算法与ASRCF算法差距仅为0.001。相比其他跟踪算法取得了比较好的结果。本文算法在总的成功率图中得分0.577,排在对比算法的第1名。基准算法ASRCF(0.573)排在第2位,比本文算法低0.4%。ECO-HC算法AUC得分0.547和STRCF算法AUC得分0.543,分别排在第3名和第4名,分别比GSASRCF算法低3%和3.4%。综合精度和成功率排名,嵌入高斯形状掩膜的算法可以更好抵抗物体的形变等挑战因素,本文算法在TC128数据集中也表现出很强的竞争力。10.11834/jig.220856.F004图4TC128数据集的对比结果Fig.4Comparison results on TC128 dataset ((a) precision plots; (b) success plots)3.2.3 UAV123数据集UAV123数据集中包含无人机拍摄的123个彩色序列,与OTB2013和TC128一样采用精确度和重叠率对算法进行排名,但无人机数据集挑战场景与其他两个数据集不相同,包含12种挑战场景:纵横比变换(aspect ratio change,ARC)、背景杂波(BC)、相机运动(camera motion,CM)、快速运动(FM)、全遮挡(full occlusion,FOC)、光照变化(IV)、低分辨率(LR)、移出视野(OV)、部分遮挡(partial occlusion,POC)、相似物体(similar object,SOB)、尺度变化(SV)和视角变化(viewpoint change,VC)。本文算法在UAV123数据集与AutoTrack、ACSDCF_HC、ECO_HC、ADTrack_v2(Li等,2023)、DRCF、MSCF、STRCF、SRDCF、ARCF、Staple、CRSRCF、MACF、MRCF和ASRCF等14个先进的CF跟踪算法进行对比。图5显示了算法在UAV123无人机数据集上的精度和成功率对比结果。该数据集中算法对比结果与前两个数据集排名有所不同。本文算法GSASRCF得分0.741,在精度对比中排名第1。基础算法ASRCF(0.738)排在第2位,比GSASRCF算法低0.3%。ECO_HC得分0.725,排在第3位,低于GSASRCF算法1.6%。专门针对无人机目标的跟踪算法ADTrack_v2(0.701)、DRCF(0.700)、MRCF(0.693)、MSCF(0.690)和AutoTrack(0.689)分别排在第4~8名。而在OTB2013排名第4位表现相对良好的ACSDCF_HC算法在UAV123数据集中仅排名第12位,精度得分0.670,说明该算法难以应对无人机目标跟踪中的挑战。成功率AUC得分排名与精度排名略有差距,本文算法AUC得分0.508排名第1,与ASRCF取得相同的分数。ECO-HC算法以0.506排在第2名,MRCF(0.485)和MSCF(0.483)分列第3、4位。精度排名第4位的ADTrack_v2算法的AUC得分为0.472,排在第7位。本文算法在UAV数据集中仍表现良好,较前两个数据集没有明显波动,在精度和AUC得分中排在15个算法的第1名,取得了相当具有竞争力的结果,说明引入高斯形状掩膜能够提高算法处理无人机目标跟踪挑战的能力。10.11834/jig.220856.F005图5UAV123数据集的对比结果Fig. 5Comparison results on UAV123 dataset ((a) precision plots; (b) success plots)4.2.4 Got-10k数据集Got-10k数据集包含了84类移动物体和32种运动模式,具有较强的挑战性。该数据集使用平均重叠率(average overlap,AO)和成功率(success rate,SR)指标与其他14个算法进行对比测评,其中AO表示真实值和估计边界框之间重叠的平均值。SR为重叠超过阈值的成功跟踪帧的百分比。如图6所示,本文算法在AO分数上优于其他对比算法,排名第1。RHCF算法(0.314)排在对比算法第2位。本文所依托的基础算法ASRCF(0.313)排在第3位,MRCF(0.299)和MSCF(0.292)分列第4、5位。本文算法使用自适应空间正则化算法嵌入高斯形状掩膜,在AO指标上有明显的提升。表2列出了所有对比算法的AO和SR值。在成功率SR方面,阈值为0.5时,GSASRCF算法成功率为0.319,位列第1,ASRCF和RHCF分列2、3位。上述结果充分表明,本文引入高斯形状掩膜,提高了相关滤波跟踪算法处理不同运动模式挑战的能力。10.11834/jig.220856.F006图6Got-10k数据集的对比结果Fig. 6Comparison results on Got-10k dataset10.11834/jig.220856.T002表2Got-10k数据集测评结果Table 2Evaluation results on Got-10k dataset跟踪算法AOSR(阈值 = 0.5)帧率/(帧/s)DSST (Damelljan等,2017b)0.2470.22318.25fDSST (Damelljan等,2017b)0.2060.18730.43SRDCF (Damelljan等,2015)0.2360.2275.58Staple (Damelljan等,2016)0.2460.23928.87ASRCF (Dai等,2019)0.3130.3175.43ECO_HC (Daneujan等,2017a)0.2860.27644.55MSCF (Zheng等,2021)0.2920.29420.65AutoTrack (Li等,2020b)0.2860.27735.83DRCF (Fu等,2020)0.2720.26718.65ARCF (Huang等,2019)0.2860.28216.33ACSDCF_HC (Xu等,2021)0.2810.27029.08DSARCF (Feng等,2019)0.2270.2155.88LADCF (Xu等,2019)0.2850.27916.33MRCF (Ye等,2022)0.2990.29414.62RHCF (曾梦媛 等,2020)0.3140.3101.80GSASRCF (本文)0.3150.3195.20注:加粗字体表示各列最优结果。在该实验中同时对算法的帧率(frame per second, FPS)进行了对比,如表2所示,使用手工特征的ECO_HC算法速度最快44.55帧/s,其他采用手工特征的算法,如fDSST(30.43帧/s)和ACSDCF_HC(29.08帧/s),也具有较高的计算效率。而使用深度网络特征的目标跟踪算法虽然成功率较高,但速度略有不足,AO表现较好的RHCF算法仅为1.80帧/s。本文算法GSARCF的速度为5.2帧/s,比基础算法ASRCF(5.43帧/s)速度下降约0.2帧/s,其原因在于引入高斯掩膜后,增加了部分计算时间。3.3 消融实验本文GSASRCF跟踪算法在基准算法自适应空间正则化相关滤波算法(ASRCF)基础上引入高斯形状掩膜,训练位置滤波器和尺度滤波器进行跟踪,本节首先在TC128数据集上对在基准算法的不同滤波器中引入高斯形状掩膜的跟踪结果进行了消融实验,对比基线算法ASRCF、在位置滤波器加入高斯掩膜的算法L-GSASRCF、在尺度滤波器加入高斯掩膜的算法S-GSASRCF以及在两个滤波器同时加入高斯掩膜的算法B-GSASRCF,实验结果如表3所示。10.11834/jig.220856.T003表3TC128数据集上的消融实验结果(成功率)Table 3Ablation experimental results on TC128 dataset(success)算法OCCOPROVIVFMIPR总成功率ASRCF0.5350.5690.5020.5810.5280.5330.573L-GSASRCF0.5150.5620.4770.5680.5180.5250.562S-GSASRCF0.5330.5700.5150.5880.5330.5360.572B-GSASRCF0.5390.5730.5220.5900.5350.5370.577注:加粗字体表示各列最优结果。表3中的总体成功率结果显示,对于仅在尺度滤波器或位置滤波器上加入高斯掩膜的改进算法,成功率AUC与基准算法相比出现了不同幅度的下降。而在两个滤波器中同时引入高斯形状掩膜(B-GSASRCF)取得了更好的结果,其总体成功率AUC为0.577,比基准算法ASRCF高0.4%。表3同时对比了不同挑战因素上的成功率数据,对于OPR、OV、IV、FM、IPR等挑战因素,S-GSASRCF算法的结果都高于基准算法,而同时加入高斯掩膜的B-GSASRCF在这6种挑战因素中获得了最高的AUC结果。其原因在于尺度滤波器和位置滤波器都使用了HOG特征,很难处理遮挡问题,当加入高斯形状掩膜时,可以降低边缘像素的权重,因此在两个滤波器中都加入高斯形状掩膜可以提升算法在TC128的全彩序列中的表现。图7所示为本文算法GSASRCF与基准算法ASRCF在TC128数据集上的定性比较结果。第1行中的目标为快速运动的小球,结果显示小球运动方向和速度发生剧烈变化时,ASRCF算法出现了漂移,而GSASRCF算法则持续地捕获小球。第2行所示场景中发生剧烈光照变化,目标人脸外观发生剧烈变化,第95、96帧ASRCF逐渐丢失目标,GSASRCF仍然能够跟踪到目标。第3行序列中包含目标遮挡的挑战,ASRCF在第73帧开始逐渐漂移,GSASRCF能够较好地捕获目标运动员。第4行为平面外旋转的跟踪挑战,第488帧目标发生旋转前,ASRCF和GSASRCF均能精确定位目标,但在第495帧目标发生旋转后,ASRCF开始逐步丢失目标,在第504帧目标几乎完全丢失。最后一行目标球移出视野后重新进入视野(第519帧),可以看到重新进入视野后本文算法重新捕获目标并稳定跟踪,而基准算法ASRCF则跟踪失败。10.11834/jig.220856.F007图7本文算法与基准算法在TC128数据集上的定性比较Fig.7Qualitative results of our method and baseline method on TC128 dataset上述定量和定性分析结果表明,在基准算法ASRCF中引入高斯形状掩膜后,有效提高了算法处理诸如遮挡、移出视野、平面外旋转和快速运动等挑战的能力。3.4 定性分析为直观地展示本文算法与其他算法的跟踪能力的对比,进行了可视化的定性分析。如图8所示。第1行视频序列为Bird1序列,本文算法与其他5个表现良好的算法进行对比。Bird1序列中包含形变、遮挡和超出视野的挑战因素。由图8可以看出,第32帧时ARCF算法开始偏离跟踪物体的中心位置。从第32帧到第191帧时,跟踪物体被云完全遮挡且超出视野,目标物体完全丢失。在第191帧中,当目标物体再次出现时,本文算法可以继续对目标进行跟踪,而其他算法完全丢失跟踪物体,跟踪器发生漂移。在第276帧中,LADCF算法再次跟踪物体,但跟踪的物体框相比本文算法不够精确且偏离中心位置。可以直观地看出,本文算法相比其他算法具有更强的跟踪能力。第2行Skating序列中包含尺度变换、遮挡、形变、快速运动和平面外旋转。当两位滑冰运动员快速运动时,在第24帧中其他算法已经偏移跟踪中心。在第45帧中,运动员的形变导致CRSRCF和ECO算法偏移严重,引入过多的背景信息。第92帧中,本文算法仍能对目标物体进行精准跟踪。第3行Skiing序列中包含光照变化、尺度变换、形变和平面内外旋转的挑战。在第23帧中,跟踪物体受光照变化、旋转和形变的影响后,除本文算法和ECO算法,其余的4个算法都发生了漂移,失去了跟踪物体。在第36帧和第49帧中,物体尺度发生变化。可以看出,本文算法可以更好地进行尺度变化,而ECO跟踪框过大引入了过多的背景信息。第4行Biker序列中当运动发生尺度变化和变形时,在第80帧CRSRCF算法完全丢失物体,LADCF、DSARCF、ARCF也发生了不同程度的跟踪漂移。在第99帧时,对比的4个算法都丢失了物体,虽然ECO算法依旧跟踪目标物体,但是跟踪已经偏离物体中心。在第142帧中可以看出本文算法跟踪的良好表现。本文引入高斯形状掩膜改进的算法相比其他算法有更精确的预测。应对变形等挑战高斯形状掩膜有更强的能力,对于物体的突变和环境变化,在算法中引入高斯形状掩膜可以增强跟踪能力,降低边缘响应,对物体更准确地跟踪。10.11834/jig.220856.F008图8在OTB2013数据集上本文算法与其他算法定性对比Fig.8Qualitative comparison results of our algorithm and other methods on OTB2013 dataset4 结论本文针对边界效应问题和样本污染问题,在自适应空间正则化相关滤波框架中嵌入高斯形状掩膜,对靠近目标中心和基础图像区域边缘的样本的权重重新分配,增加了中心样本的重要性,同时降低了远离中心的边缘样本的重要性,在抑制边界效应的同时降低样本污染的影响。建立了基于高斯形状掩膜的相关滤波跟踪算法模型,并通过ADMM方法优化模型,求得滤波器及空间权重的闭合解。在OTB2013、TC128、UAV123和Got-10k等4个基准数据集上进行了大量的对比实验。在OTB2013数据集上,本文算法精度比基准算法提高0.5%;在TC128数据集上成功率提高0.4%;在UAV123数据集上精度提高0.3%;在Got-10k数据集上成功率提高了0.2%。实验结果表明,与基准算法相比,嵌入高斯掩膜提高了算法的跟踪性能。同时,与其他先进的相关滤波跟踪算法对比也获得了有竞争力的结果。由于本文算法嵌入了高斯形状掩膜,并且训练滤波器时使用了VGG深度特征,增加了算法的计算耗费,使得本文算法的帧率降低。另一方面,针对不同挑战属性的评估结果表明,本文算法在处理运动模糊挑战方面落后于当前先进算法。在下一步的工作中,将在本文跟踪算法框架中采用时间正则化方法,进一步提升算法的跟踪性能,同时考虑采用轻量级深度神经网络提取目标特征,降低算法的时间耗费。
使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,
确定继续浏览么?
复制成功,请在其他浏览器进行阅读