Print

发布时间: 2021-11-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200094
2021 | Volume 26 | Number 11




    遥感图像处理    




  <<上一篇 




  下一篇>> 





融合特征的卫星视频车辆单目标跟踪
expand article info 韩鸣飞1,2, 李盛阳1,2,3, 万雪1,2, 轩诗宇1,2, 赵子飞1,2,3, 谭洪1,2, 张万峰1,2
1. 中国科学院空间应用工程与技术中心, 北京 100094;
2. 中国科学院太空应用重点实验室, 北京 100094;
3. 中国科学院大学, 北京 100049

摘要

目的 卫星视频作为新兴遥感数据,可以提供观测区域高分辨率的空间细节信息与丰富的时序变化信息,为交通监测与特定车辆目标跟踪等应用提供了不同于传统视频视角的信息。相较于传统视频数据,卫星视频中的车辆目标分辨率低、尺度小、包含的信息有限。因此,当目标边界不明、存在部分遮挡或者周边环境表观模糊时,现有的目标跟踪器往往存在严重的目标丢失问题。对此,本文提出一种基于特征融合的卫星视频车辆核相关跟踪方法。方法 对车辆目标使用原始像素和方向梯度直方图(histogram of oriented gradient,HOG)方法提取包含互补判别能力的特征,利用核相关目标跟踪器分别得到具备不变性和判别性的响应图;通过响应图融合的方式结合两种特征的互补信息,得到目标位置;使用响应分布指标(response distribution criterion,RDC)判断当前目标特征的稳定性,决定是否更新跟踪器的表征模型。本文使用的相关滤波方法具有计算量小且运算速度快的特点,具备跟踪多个车辆目标的拓展能力。结果 在8个卫星视频序列上与主流的6种相关滤波跟踪器进行比较,实验数据涵盖光照变化、快速转弯、部分遮挡、阴影干扰、道路颜色变化和相似目标临近等情况,使用准确率曲线和成功率曲线的曲线下面积(area under curve,AUC)对车辆跟踪的精度进行评价。结果表明,本文方法较好地均衡了使用不同特征的基础跟踪器(性能排名第2)的判别能力,准确率曲线AUC提高了2.9%,成功率曲线AUC下降了4.1%,成功跟踪车辆目标,不发生丢失,证明了本文方法的先进性和有效性。结论 本文提出的特征融合的卫星视频车辆核相关跟踪方法,均衡了不同特征提取器的互补信息,较好解决了卫星视频中车辆目标信息不足导致的目标丢失问题,提升了精度。

关键词

目标跟踪; 卫星视频; 核化相关滤波; 特征融合; 车辆跟踪

Integrating multiple features for tracking vehicles in satellite videos
expand article info Han Mingfei1,2, Li Shengyang1,2,3, Wan Xue1,2, Xuan Shiyu1,2, Zhao Zifei1,2,3, Tan Hong1,2, Zhang Wanfeng1,2
1. Technology and Engineering Center for Space Utilization, Chinese Academy of Sciences, Beijing 100094, China;
2. Key Laboratory of Space Utilization, Chinese Academy of Sciences, Beijing 100094, China;
3. University of Chinese Academy of Sciences, Beijing 100049, China
Supported by: National Natural Science Foundation of China (41701468, 41971329)

Abstract

Objective Satellite video is a new type of remote sensing system, which is capable of dynamic video and conventional image capturing. Compared with conventional very-high-resolution (VHR) remote sensing systems, a video satellite observes the Earth with a real-time temporal resolution, which has led to studies in the field of traffic density estimation, object detection, and 3D reconstruction. Satellite video has a strong potential in monitoring traffic, animal migration, and ships entering and leaving ports due to its high temporal resolution. Despite much research in the field of conventional video, relatively minimal work has been performed in object tracking for satellite video. Existing object tracking methods primarily emphasize relatively large objects, such as trains and planes. Several researchers have explored replacing or fusing the motion feature for a more accurate prediction of object position. However, few studies have focused on solving the problem caused by the insufficient amount of information of smaller objects, such as vehicles. Tracking vehicles in satellite video has three main challenges. The main challenge is the small size of the target. While the size of a single frame can be as large as 12 000×4 000 pixels, moving targets, such as cars, can be very small and only occupy 10~30 pixels. The second challenge is the lack of clear texture because the vehicle targets contain limited and/or confusing information. The third challenge is that unlike aircraft and ships, vehicles are more likely to appear in situations where the background is complex, which makes tracking the vehicle more challenging. For instance, a vehicle may make quick turns, appear partially to the vehicle, or be marked by instant changes in illumination. Selecting or constructing a single image feature that can handle all the situations mentioned above is difficult. Using multiple complementary image features is proposed by merging them into a unified framework based on a lightweight kernelized correlation filter to tackle these challenges. Method First, two complementary features with certain invariance and discriminative ability, histogram of gradients (HOG) and raw pixels, are used as descriptors of the target image patch. HOG is tied to edge information of vehicles, such as orientations, offering some discriminative ability. A HOG-based tracker can distinguish targets even when partial occlusion occurs or when illumination or road color changes. However, it would be unable to correctly classify the target from similar shapes in its surroundings, suffering from the problems caused by insufficient information. However, the raw pixel feature describes all contents in the image patch without processing, and more information can be kept without post-processing considering the smaller size of vehicles. It is invariant to the plane motion of a rigid object under low-texture information and to tracking vehicles in terms of orientation changes. However, it fails to track vehicles that are partially occluded or in changes of road color and illumination. A response map merging strategy is proposed to fuse the complementary image features by maintaining two trackers, one using the HOG feature to discriminate the target and the other using the raw pixel feature to improve invariance. In this manner, a peak response may arise at a new position, representing invariance and discriminative ability. Finally, restricted by the insufficient information of the target and the discriminative ability of the observation model, responses usually show a multipeak pattern when a disturbance exists. A response distribution criterion-based model updater is exploited to measure the distribution of merged responses. Using a correlation filter facilitates multiple vehicle tracking due to its calculation speed and online training mechanism. Result Our model is compared with six state-of-the-art correlation filter-based models. Experiments are performed on eight satellite videos captured in different locations worldwide under challenging situations, such as illumination variance, quick turn, partial occlusion, and road color change. Precision plot and success plot are adopted for evaluation. Ablation experiments are performed to demonstrate the efficiency of the method proposed, and quantitative assessments show that our method leads to an effective balance between two trackers. Moreover, visualization results of three videos show how our method achieves a balance between the two trackers. Our method outperforms all the six state-of-the-art methods and achieves a balance between the base trackers. Conclusion In this paper, a new tracker fused with complementary image features for vehicle tracking in satellite videos is proposed. To overcome the difficulties posed by the small size of the target and the lack of texture and complex background in satellite video tracking, combining the use of HOG and raw pixel features is proposed by merging the response maps of the two trackers to increase their discriminative and invariance abilities. Experiments on eight satellite videos under challenging circumstances demonstrate that our method outperforms other state-of-the-art algorithms in precision plots and success plots.

Key words

object tracking; satellite video; kernelized correlation filter; feature fusion; vehicle tracking

0 引言

视频卫星是一种新型的遥感观测系统,具有时序动态观测和常规图像采集功能,与传统的高分辨率遥感系统相比,可以对地面区域进行实时的时序观测,在交通密度估计(Yang等,2016)、目标检测(Li和Man,2016)、3维重建(Wan等,2016)及动物迁徙、船舶进出口监测等领域有很强的应用潜力。目标跟踪通过使用边界框估计视频序列中某个对象的运动轨迹,是应用中的关键技术。

目标跟踪在视频安防(Piciarelli等,2008)、自动驾驶(Chen等,2016)及其他相关领域(Ríos等,2019Uzkent等,2017)有着广泛应用。其中,相关滤波因较快的计算速度和在线训练机制(Bolme等,2010Henriques等,2012, 2015)成为目标跟踪领域的关键技术之一。另一方面,深度卷积神经网络(convolutional neural networks,CNN)用于许多挑战性的计算机视觉任务。Ma等人(2015)Danelljan等人(2017)将深度卷积特征引入基于相关滤波的跟踪器中。基于CNN的目标跟踪方法,Bertinetto等人(2016a)Bertinetto等人(2016b)Tao等人(2016)Zhu等人(2018)使用孪生网络,Valmadre等人(2017)Yao等人(2018)使用相关滤波进行图像匹配。Danelljan等人(2016, 2017)、Wang和Yeung(2014)Bertinetto等人(2016a)Qi等人(2019)提出融合多种特征和多个跟踪器用于目标跟踪。Wang和Yeung(2014)使用隐马尔可夫模型结合5个独立跟踪器对目标轨迹和置信度进行建模。Bertinetto等人(2016a)使用相关滤波跟踪器,结合方向梯度直方图(histogram of gradients,HOG)特征和全局颜色直方图克服目标颜色变化和变形带来的问题。Qi等人(2019)提出一个使用自适应对冲方法的CNN跟踪框架,通过对冲多个CNN跟踪器构建一个性能更强的跟踪器。

目标跟踪在传统视频领域得到了广泛研究和应用,但在卫星视频领域的研究相对较少。Du等人(2018)融合使用核相关滤波器(kernalized correlation filter,KCF)和三帧差分算法克服了目标融入相似环境带来的挑战。Shao等人(2018)提出使用速度特征和惯性机制替换KCF中的图像特征,更好地区分目标和背景。但是由于使用了三帧差分算法和光流,这些方法受限于目标的尺寸大小和图像质量。Xuan等人(2020)将运动平滑信息融合进入KCF,更加精准地预测目标位置,并且使用卡尔曼滤波器克服遮挡带来的目标丢失问题。在复杂情况下,更多的目标信息可以带来更好的表现。

现有的卫星视频目标跟踪算法主要关注尺寸较大的目标,如火车和飞机(Du等,2018Shao等,2018)。其中一些方法仅使用或融合使用运动特征获得更为准确的目标位置(Shao等,2018Xuan等,2020)。然而,鲜有研究关注更小尺寸目标,如车辆信息不足带来的问题。

对卫星视频的车辆目标跟踪主要存在3个挑战:1)卫星视频单帧图像分辨率高达12 000×4 000像素,而移动物体(如车辆)的尺寸非常小,仅占10~30像素;2)目标缺少清晰纹理,导致车辆目标包含极少信息,甚至是模糊和迷惑性的信息;3)不同于飞机和船舶,车辆更有可能出现在复杂背景下,使车辆跟踪更富有挑战性。如车辆可能会因为快速转弯、交通信号灯部分遮挡或与目标车辆相似的背景物体导致表观特征突变,而单一特征很难具备同时解决这些挑战的能力。

本文使用KCF作为基础模型和两种互补的图像特征。利用HOG特征解决部分遮挡和光照变化带来的挑战,利用原始像素特征解决快速转弯带来的问题。通过融合互补特征跟踪器的响应图,本文方法可以解决目标信息不足问题,在大部分复杂场景中成功跟踪目标。响应图融合可以利用不同响应图中的每个响应值得到鲁棒的结果,然后利用预测的目标位置分别更新两个模型。同时,利用响应分布指标(response distribution criterion,RDC)(Zhou等,2018)评价响应值的分布特性,控制跟踪器模型的更新。本文方法仅使用相关滤波方法,计算代价小,具备跟踪多个车辆目标的拓展能力。

1 特征融合的核相关跟踪方法

本文方法由特征提取、观测模型、响应图融合和基于RDC的模型更新4部分组成,如图 1所示。首先利用图像块的原始像素和HOG特征分别构建基于核化岭回归(Henriques等,2015)的目标跟踪器。然后使用对应元素相加融合两个跟踪器的响应图,均衡两种特征跟踪器的判别性(discriminative ability)和不变性(invariance)。使用融合后的响应图可以预测当前帧中目标的位置。最后通过RDC评价响应图分布特性决定是否使用预测得到的目标特征来更新模型。

图 1 当前帧中$ {\boldsymbol{f}_t} $目标位置的预测流程图
Fig. 1 Workflow to obtain target position from the input current frame $ {\boldsymbol{f}_t} $

1.1 特征提取

在目标跟踪中,图像特征表示的两个重要因素是判别性和不变性(Danelljan,2018)。不变性对于目标外观发生突变(如旋转)时,在连续帧之间重新识别目标很重要;而判别性是区分目标和背景的关键信息。这两个因素往往相互矛盾,而由于卫星视频中目标包含信息不足,一种特征表达通常很难在两者之间找到一个合适的平衡点。因此,本文使用两种包含互补信息的图像特征提取器:HOG和原始像素。

HOG是基于局部区域的梯度方向直方图信息,与车辆的边缘信息描述(如车辆方向)密切相关。而可以捕捉目标梯度特征信息的尺度不变特征变换(scale-invariant feature transform,SIFT)特征,由于计算耗时,且对模糊图像提取角点的能力有限,不适用于卫星视频目标跟踪。HOG具有一定的判别性,但存在信息不足问题。例如,在视频中车辆目标突然改变方向后,HOG无法从周围形状与朝向相似的物体中正确区分目标。但是,HOG特征的跟踪器可以在发生部分遮挡、光照变化或道路颜色变化时,正确区分目标与背景干扰。

考虑到车辆尺寸较小,原始像素特征可以在不进行后处理的情况下保存更多信息,图像块中的所有特征保持原有尺度和颜色信息,对低纹理信息下刚体的平面运动具有不变性。因此,原始像素特征具有足够的不变性来跟踪车辆的方向变化;然而,由于目标自身分辨率的限制,原始像素在存在道路颜色变化、光照变化和部分遮挡时,还不具有足够的判别性对目标和背景进行正确区分。例如,当车辆被交通指示牌或立交桥部分遮挡时,原始像素特征跟踪器可能会跟丢目标。

本文分别使用两个目标跟踪器结合局部运动平均(Xuan等,2020)预测目标的中心位置,然后结合循环矩阵(Henriques等,2012)对目标进行大量的正负样本采样。

1.2 观测模型

大部分基于相关滤波的跟踪器可以看做判别分类器,通过在目标与背景样本间优化决策边界实现跟踪。本文使用核化岭回归(Henriques等,2012)作为观测模型,并结合循环矩阵在傅里叶域下,使用离散傅里叶变化算子$ \boldsymbol{F} $进行快速检测。其使用高斯函数模拟标签分布,记作$ \boldsymbol{y} $。输入当前帧$ {\boldsymbol{f}_t} $的目标所在图像块$ \boldsymbol{x} $,以及上一帧$ {\boldsymbol{f}_{t-1}} $中的目标位置$ {pos_{t-1}} $,对偶空间中的相关滤波器$ \boldsymbol{a} $可以通过优化如下函数得到,具体为

$ \mathop {\min }\limits_a {\left({\boldsymbol{y} - \boldsymbol{Ka}} \right)^{\rm{T}}}\left({\boldsymbol{y} - \boldsymbol{Ka}} \right) + \lambda {\boldsymbol{a}^{\rm{T}}}\boldsymbol{Ka} $ (1)

式中,$ \lambda $为防止过拟合的正则化参数,$ \boldsymbol{K}=C\left(\boldsymbol{k}^{x x}\right) $是核矩阵。Henriques等人(2012)给出了式(1)在傅里叶域的闭式解,即

$ \boldsymbol{F}(\boldsymbol{a})=\frac{\boldsymbol{F}(\boldsymbol{y})}{\boldsymbol{F}\left(\boldsymbol{k}^{x x}\right)+\boldsymbol{\lambda}} $ (2)

式中,$ {\boldsymbol{k}^{xx}} $表示$ \boldsymbol{x} $自身之间的核相关操作。在跟踪过程中,可以计算得到2维响应图$ \boldsymbol{m} $,具体为

$ \boldsymbol{m} = {\boldsymbol{F}^{ - 1}}\left({\boldsymbol{F}\left({{\boldsymbol{k}^{\tilde xz}}} \right) \cdot \boldsymbol{F}\left(\boldsymbol{a} \right)} \right) $ (3)

式中,$ {\boldsymbol{F}^{ - 1}} $定义为逆傅里叶变换,表示学习得到的目标表征模型,通过$ {\boldsymbol{F}^{ - 1}} $表示每个位置处的候选样本与目标之间的相似度。

1.3 响应图融合

本文提出一种响应图融合方法,通过维护两个独立的目标跟踪器来融合两种互补的图像特征。其中一个跟踪器使用HOG特征,利用其判别性优势判断目标,另一个跟踪器使用原始像素特征来提升跟踪器的不变性,最终得到均衡了判别性和不变性能力的响应图结果。

在得到第$ i $帧图像的原始像素特征跟踪器响应图$ {\boldsymbol{m}_{\rm{G}}} $和HOG特征跟踪器响应图$ {\boldsymbol{m}_{\rm{H}}} $后,可以计算得到融合后的响应图$ {\boldsymbol{m}_{\rm{M}}} $,具体为

$ \boldsymbol{m}_{\mathrm{M}}(\boldsymbol{x}, \boldsymbol{y})=\frac{\left(\boldsymbol{m}_{\mathrm{H}}(\boldsymbol{x}, \boldsymbol{y})+\boldsymbol{m}_{\mathrm{G}}(\boldsymbol{x}, \boldsymbol{y})\right)}{2} $ (4)

从1.2节可知观测模型的在线训练需要循环采样(circularly sampling),即在每个位置采集正负样本,并使用高斯响应标签作为优化目标。响应图中的每个响应值的范围为0~1,代表当前位置作为目标中心的可能性大小。所以,$ {\boldsymbol{m}_{\rm{G}}} $$ {\boldsymbol{m}_{\rm{H}}} $中的每个响应值可以代表每个跟踪器的不变性和判别性能力,$ {\boldsymbol{m}_{\rm{G}}} $的峰值点代表该跟踪器的最强判别性能力,$ {\boldsymbol{m}_{\rm{H}}} $的峰值点代表该跟踪器的最强不变性能力。

两个特征图通过融合,峰值响应可能出现在不同于$ {\boldsymbol{m}_{\rm{G}}} $$ {\boldsymbol{m}_{\rm{H}}} $中的任一个峰值处,表示同时具有较强的不变性和判别性。如图 1所示,当车辆转弯,其边缘方向发生变化时,HOG跟踪器的响应呈“长尾状”,会在当前帧中得到与上一帧目标形状相似的误检目标;而原始像素跟踪器在这种情况下,可以避免方向突变带来的干扰,正确跟踪目标,而其中心点相对应地位于$ {\boldsymbol{m}_{\rm{H}}} $响应区域的拖尾处,且有较大的响应值。当两个响应图融合后,跟踪器可以进一步得到矫正后的目标位置,具体为

$ po{s_t} = \max \left({{\boldsymbol{m}_{\rm{M}}}} \right) $ (5)

式中,$ pos_t $表示当前帧预测得到的目标中心点位置,可以进一步用此矫正后的信息来更新两个跟踪器的表征模型。

1.4 模型更新

当存在光照和朝向变化时,正确跟踪目标具有较大难度。为了解决该问题,在预测得到当前帧目标位置$ pos_t $后,本文对观测模型和表征模型进行更新,具体方法为

$ \boldsymbol{F}\left(\boldsymbol{a}_{t}\right)= \eta \frac{\boldsymbol{F}(\boldsymbol{y})}{\boldsymbol{F}\left(\boldsymbol{k}^{2 z}\right)+\lambda}+(1-\eta) \boldsymbol{F}\left(\boldsymbol{a}_{t-1}\right) $ (6)

$ \tilde{\boldsymbol{x}}_{t}=\eta \tilde{\boldsymbol{x}}_{t-1}+(1-\eta) \boldsymbol{z} $ (7)

式中,$ \eta $用来控制跟踪器更新的速度和幅度,$ {\boldsymbol{a}_t} $表示当前帧$ {\boldsymbol{f}_t} $的相关滤波器$ \boldsymbol{a},\boldsymbol{z} $为表征模型模板。在跟踪过程中,理想状态下的响应图应为单峰,且最大值处为目标所在位置。实际情况下,由于观测模型的性能限制,或者在目标周围存在与相似的地物,响应图会呈多峰特性。所以,在响应图融合后,进一步使用RDC(Zhou等,2018)来评价响应图的峰值分布特性,具体为

$ RDC = \sqrt {\sum\limits_{i = 1}^t {{{\left({{S_m}(i) - \mu } \right)}^2}} } $ (8)

式中,$ S_m $表示响应图$ \boldsymbol{m} $中的$ T $个最大响应峰值,$ \mu $表示响应值的期望。在得到融合后的响应图和其RDC值后,对式(6)和式(7)中的学习率$ \eta $重新定义为

$ \eta = \left\{ \begin{array}{l} \zeta \;\;\;RDC > r\\ 0\;\;\;\;其他 \end{array} \right. $ (9)

式中,$ r $代表响应图$ {\boldsymbol{m}_{\rm{M}}} $的RDC阈值, $ \zeta $为人工设定的学习率。然后跟踪器分别使用式(6)和式(7)更新模型。如果RDC值不高于阈值,则认为观测模型的判别能力不足以解决目标与周围环境混淆带来的误判,不将其更新进入模型。可以避免给表征模型代入噪声,或者削弱观测模型的判别性能。

2 实验结果与分析

2.1 数据集

目前没有公开的卫星视频目标跟踪数据集,本文使用自建的8个卫星视频序列的跟踪数据集对提出的方法进行评价。视频数据由长光卫星有限公司在希腊雅典港、美国塔科马港市、美国明尼苏达州和西班牙马德里上空拍摄,空间分辨率为1.1 m,帧率为10~25帧/s,缩略图如图 2所示,每个视频跟踪目标的细节展示在缩略图右下角。为保证使用数据的代表性,实验均匀选取了不同的数据类别,如表 1所示。

图 2 实验用视频序列缩略图
Fig. 2 Thumbnail of videos evaluated in the experiment
((a) Athens port; (b) Tacoma 1;(c) Minnesota 1;(d) Tacoma 2;(e) Madrid; (f) Minnesota 2;(g) Tacoma 3;(h) Tacoma 4)

表 1 图 2各视频数据类别一览
Table 1 List of data in various situation of Fig. 2

下载CSV
视频 光照变化 快速转弯 部分遮挡 阴影 路面变色 相似车辆
图 2(a)
图 2(b)
图 2(c)
图 2(d)
图 2(e)
图 2(f)
图 2(g)
图 2(h)
注:“√”表示包含此类型。

2.2 参数设置

实验使用Python语言、Opencv和Numpy工具箱,平台为Intel® Xeon®E5-2620 v3,40核主频为2.4 GHz的服务器,仅使用第1帧提供的标注位置和尺寸,跟踪失败后不会进行初始化。实验中,跟踪器的目标搜索区域是目标大小的2.5倍,正则化参数$ \lambda $为10-4,RDC阈值按经验值设置为0.23,原始颜色特征和HOG特征跟踪器的响应值阈值$ \alpha $分别为0.2和0.6,学习率$ \eta $分别为0.075和0.02。HOG和原始特征下采样尺度分别为4和1。

2.3 结果与分析

本文使用准确率曲线和成功率曲线作为评价标准(Wu等,2013, 2015),依据中心定位误差(center location error,CLE)和重叠面积比(Pascal VOC overlap ratio,VOR)在不同阈值设置下的跟踪成功帧数的比例绘制。在中心定位误差指标中,当跟踪目标与标注目标距离小于阈值即为跟踪成功;在重叠面积比指标中,当跟踪目标与标注目标重叠比大于阈值即为跟踪成功。

在KCF运动模型中,通过融入运动特征(Xuan等,2020)将上一帧中的目标位置作为当前帧中目标搜索的先验信息,标记为MoFusion,表示运动平滑特征融合。通过融合原始像素特征(Raw)跟踪器MoFusion-Raw和梯度直方图特征(HOG)跟踪器MoFusion-HOG的响应图,跟踪器同时具有其不变性和判别性能力。

为进一步验证本文方法的有效性,进行消融实验,结果如表 2所示。表 2中,将所有数据的准确率曲线和成功率曲线的曲线下面积(area under curve,AUC)作为比较标准。从表 2的定量实验结果可以看出,与MoFusion-Raw和MoFusion-HOG相比,本文提出的表观特征融合方法在两个跟踪器间达到了较好的平衡。

表 2 不同方法的精度比较
Table 2 Comparison of accuracy among different methods

下载CSV
方法 AUC/%
CLE VOR
MoFusion-HOG 91.42 68.38
MoFusion-Raw 63.99 48.21
本文 94.35 64.26
注:加粗字体表示各列最优结果。

从跟踪结果看,MoFusion-HOG在视频图 2(a)(e)(f))中跟踪失败,MoFusion-Raw在视频图 2(b)(c)(e)(f)(g))中失败,但是在特征融合之后,本文方法在所有视频中均跟踪成功,说明不变性和判别性得到较好的融合和平衡。为进一步说明本文方法的有效性,以视频图 2(a)(c)(g)为例,将跟踪结果对比可视化,如图 3所示。在视频图 2(a)中,当车辆快速转弯时,MoFusion-HOG跟踪失败;在视频图 2(c)中,当车辆部分遮挡时,MoFusion-Raw跟踪失败;在视频图 2(g)中,当道路路面颜色发生变化时,MoFusion-Raw跟踪失败,而本文提出的特征融合方法全部跟踪成功。

图 3 不同跟踪器下视频的可视化车辆跟踪结果
Fig. 3 Visualization result of videos with different trackers
((a) video of Fig. 2 (a); (b) video of Fig. 2(c); (c) video of Fig. 2(g))

需要注意的是,特征融合跟踪器的VOR准确率相比MoFusion-HOG下降了4%,原因是在复杂背景情况下,两个跟踪器中的一个会发生跟踪框抖动与矫正。以图 3(b)所示视频为例,MoFusion-Raw需要更多视频帧的表征模型更新来避免将新一帧的负样本判别为正样本目标。在进行融合后,新的目标位置会偏离MoFusion-HOG预测的目标位置一定的像素距离,导致VOR准确率下降。这也是两个跟踪器间的平衡问题。

图 4是本文方法与KCF和其他性能优异的相关滤波目标跟踪器的结果对比。可以看出,通过成功率曲线和准确率曲线的对比,本文方法优势明显。图 4同时提供了每个方法对应曲线的AUC值作为参考。在准确率曲线指标中,本文方法的AUC达到了94.35%,AUC数值在原始像素的KCF为45.15,HOG的KCF为73.82%,ECO(efficient convolution operators)(Danelljan等,2016)为79.17%,Staple(Bertinetto等,2016aBertinetto等,2016b)为69.43%,HDT(hedge deep tracker)(Qi等,2019)为24.66%。在成功率曲线指标中,本文方法的AUC为64.26%,AUC数值在原始像素的KCF为32.96%,HOG的KCF为54.27%,ECO为60.89%,Staple为54.70%,HDT为21.35%,经典的TLD(tracking-learning-detection)(Kalal等,2012)方法由于受限于数据质量,在所有8个视频中均跟踪失败,本文方法均高于其他方法,且是唯一在所有8个视频中均可成功跟踪目标的跟踪器,证明了本文方法的鲁棒性和灵活性。

图 4 不同方法在全部8个视频上的成功率曲线和准确率曲线对比
Fig. 4 Comparison of success rate curves and precision rate curves among different methods on all eight videos
((a) success rate curves; (b) precision rate curves)

3 结论

为了克服卫星视频目标跟踪中目标尺寸小、缺乏纹理信息和背景复杂的难题,本文提出通过响应图融合的方法来结合原始像素和HOG特征,以融合其互补的不变性和判别能力,实现目标在快速转弯、部分遮挡、光照变化或道路颜色变化等复杂情况下的有效跟踪。

通过在典型场景的8个卫星视频数据实验,准确率曲线和成功率曲线表明基于响应图的互补特征融合方法可以有效解决目标尺寸小带来的信息不足和帧间特征不一致问题,能够在复杂情况下成功跟踪目标。对比实验表明,本文方法相较于其他算法具有明显优势。

但是,本文方法尚存在一定的局限性,主要表现为无法解决车辆目标完全遮挡和高相似度目标抵近时的目标重识别问题。由于目标特征缺失或者相近目标间的特征混淆,通常需要基于运动信息来预测目标的运动轨迹,并对目标进行特征更新和重新识别。这一问题将是今后的研究方向。

参考文献

  • Bertinetto L, Valmadre J, Golodetz S, Miksik O and Torr P H S. 2016a. Staple: complementary learners for real-time tracking//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 1401-1409[DOI: 10.1109/CVPR.2016.156]
  • Bertinetto L, Valmadre J, Henriques J F, Vedaldi A and Torr P H S. 2016b. Fully-convolutional siamese networks for object tracking//Proceedings of the European Conference on Computer Vision. Amsterdam, the Netherlands: Springer Verlag: 850-865[DOI: 10.1007/978-3-319-48881-3_56]
  • Bolme D S, Beveridge J R, Draper B A and Lui Y M. 2010. Visual object tracking using adaptive correlation filters//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE: 2544-2550[DOI: 10.1109/CVPR.2010.5539960]
  • Chen T T, Wang R L, Dai B, Liu D X, Song J Z. 2016. Likelihood-field-model-based dynamic vehicle detection and tracking for self-driving. IEEE Transactions on Intelligent Transportation Systems, 17(11): 3142-3158 [DOI:10.1109/tits.2016.2542258]
  • Danelljan M, Bhat G, Khan F S and Felsberg M. 2017. ECO: efficient convolution operators for tracking//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 6931-6939[DOI: 10.1109/CVPR.2017.733]
  • Danelljan M, Robinson A, Khan F S and Felsberg M. 2016. Beyond correlation filters: learning continuous convolution operators for visual tracking//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer Verlag: 472-488[DOI: 10.1007/978-3-319-46454-1_29]
  • Danelljan M. 2018. Learning Convolution Operators for Visual Tracking. Linköping: Linköping University Electronic Press: 49-51[EB/OL]. [2020-04-03]. https://www.google.com.au/books/edition/Learning_Convolution_Operators_for_Visua/nSFdDwAAQBAJ?hl=en&gbpv=0&kptab=publisherseries
  • Du B, Sun Y J, Cai S H, Wu C, Du Q. 2018. Object tracking in satellite videos by fusing the kernel correlation filter and the three-frame-difference algorithm. IEEE Geoscience and Remote Sensing Letters, 15(2): 168-172 [DOI:10.1109/LGRS.2017.2776899]
  • Henriques J F, Caseiro R, Martins P and Batista J. 2012. Exploiting the circulant structure of tracking-by-detection with kernels//Proceedings of the 12th European Conference on Computer Vision. Florence, Italy: Springer Verlag: 702-715[DOI: 10.1007/978-3-642-33765-9_50]
  • Henriques J F, Caseiro R, Martins P, Batista J. 2015. High-speed tracking with kernelized correlation filters. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(3): 583-596 [DOI:10.1109/TPAMI.2014.2345390]
  • Kalal Z, Mikolajczyk K, Matas J. 2012. Tracking-learning-detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(7): 1409-1422 [DOI:10.1109/TPAMI.2011.239]
  • Li H C and Man Y Y. 2016. Moving ship detection based on visual saliency for video satellite//Proceedings of 2016 IEEE International Geoscience and Remote Sensing Symposium. Beijing, China: IEEE: 1248-1250[DOI: 10.1109/IGARSS.2016.7729316]
  • Ma C, Huang J B, Yang X K and Yang M H. 2015. Hierarchical convolutional features for visual tracking//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 3074-3082[DOI: 10.1109/ICCV.2015.352]
  • Piciarelli C, Micheloni C, Foresti G L. 2008. Trajectory-based anomalous event detection. IEEE Transactions on Circuits and Systems for Video Technology, 18(11): 1544-1554 [DOI:10.1109/TCSVT.2008.2005599]
  • Qi Y K, Zhang S P, Qin L, Huang Q M, Yao H X, Lim J, Yang M H. 2019. Hedging deep features for visual tracking. IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(5): 1116-1130 [DOI:10.1109/TPAMI.2018.2828817]
  • Ríos H, Falcón R, González O A, Dzul A. 2019. Continuous sliding-mode control strategies for quadrotor robust tracking: real-time application. IEEE Transactions on Industrial Electronics, 66(2): 1264-1272 [DOI:10.1109/TIE.2018.2831191]
  • Shao J, Du B, Wu C, Wu J, Hu R M and Li X L. 2018. VCF: velocity correlation filter, towards space-borne satellite video tracking//Proceedings of 2018 IEEE International Conference on Multimedia and Expo. San Diego, USA: IEEE: 1-6[DOI: 10.1109/ICME.2018.8486451]
  • Tao R, Gavves E and Smeulders A W M. 2016. Siamese instance search for tracking//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 1420-1429[DOI: 10.1109/CVPR.2016.158]
  • Uzkent B, Rangnekar A and Hoffman M J. 2017. Aerial vehicle tracking by adaptive fusion of hyperspectral likelihood maps//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu, USA: IEEE: 233-242[DOI: 10.1109/CVPRW.2017.35]
  • Valmadre J, Bertinetto L, Henriques J, Vedaldi A and Torr P H S. 2017. End-to-end representation learning for correlation filter based tracking//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 5000-5008[DOI: 10.1109/CVPR.2017.531]
  • Wan X, Liu J G, Yan H S, Morgan G L K and Sun T. 2016. 3D super resolution scene depth reconstruction based on SkySat video image sequences//2016 IEEE International Geoscience and Remote Sensing Symposium. Beijing, China: IEEE: 6653-6656[DOI: 10.1109/IGARSS.2016.7730737]
  • Wang N Y and Yeung D Y. 2014. Ensemble-based tracking: aggregating crowdsourced structured time series data//Proceedings of the 31st International Conference on International Conference on Machine Learning. Beijing, China: JMLR: 2807-2817
  • Wu Y, Lim J and Yang M H. 2013. Online object tracking: a benchmark//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA: IEEE: 2411-2418[DOI: 10.1109/CVPR.2013.312]
  • Wu Y, Lim J, Yang M H. 2015. Object tracking benchmark. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(9): 1834-1848 [DOI:10.1109/TPAMI.2014.2388226]
  • Xuan S Y, Li S Y, Han M F, Wan X, Xia G S. 2020. Object tracking in satellite videos by improved correlation filters with motion estimations. IEEE Transactions on Geoscience and Remote Sensing, 58(2): 1074-1086 [DOI:10.1109/TGRS.2019.2943366]
  • Yang T, Wang X W, Yao B W, Li J, Zhang Y N, He Z N, Duan W C. 2016. Small moving vehicle detection in a satellite video of an urban area. Sensors, 16(9): #1528 [DOI:10.3390/s16091528]
  • Yao Y J, Wu X H, Zhang L, Shan S G and Zuo W M. 2018. Joint representation and truncated inference learning for correlation filter based tracking//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer Verlag: 560-575[DOI: 10.1007/978-3-030-01240-3_34]
  • Zhou J L, Wang R and Ding J W. 2018. Online learning of spatial-temporal convolution response for robust real-time tracking//Proceedings of the 24th International Conference on Pattern Recognition. Beijing, China: IEEE: 1821-1826[DOI: 10.1109/ICPR.2018.8545048]
  • Zhu Z, Wang Q, Li B, Wu W, Yan J J and Hu W M. 2018. Distractor-aware siamese networks for visual object tracking//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer Verlag: 103-119[DOI:10.1007/978-3-030-01240-3_7]