网刊加载中。。。

0引言视频卫星是一种新型的遥感观测系统，具有时序动态观测和常规图像采集功能，与传统的高分辨率遥感系统相比，可以对地面区域进行实时的时序观测，在交通密度估计(Yang等，2016)、目标检测(Li和Man，2016)、3维重建(Wan等，2016)及动物迁徙、船舶进出口监测等领域有很强的应用潜力。目标跟踪通过使用边界框估计视频序列中某个对象的运动轨迹，是应用中的关键技术。目标跟踪在视频安防(Piciarelli等，2008)、自动驾驶(Chen等，2016)及其他相关领域(Ríos等，2019；Uzkent等，2017)有着广泛应用。其中，相关滤波因较快的计算速度和在线训练机制(Bolme等，2010；Henriques等，2012, 2015)成为目标跟踪领域的关键技术之一。另一方面，深度卷积神经网络(convolutional neural networks，CNN)用于许多挑战性的计算机视觉任务。Ma等人(2015)与Danelljan等人(2017)将深度卷积特征引入基于相关滤波的跟踪器中。基于CNN的目标跟踪方法，Bertinetto等人(2016a)、Bertinetto等人(2016b)、Tao等人(2016)和Zhu等人(2018)使用孪生网络，Valmadre等人(2017)和Yao等人(2018)使用相关滤波进行图像匹配。Danelljan等人(2016, 2017)、Wang和Yeung(2014)、Bertinetto等人(2016a)和Qi等人(2019)提出融合多种特征和多个跟踪器用于目标跟踪。Wang和Yeung(2014)使用隐马尔可夫模型结合5个独立跟踪器对目标轨迹和置信度进行建模。Bertinetto等人(2016a)使用相关滤波跟踪器，结合方向梯度直方图(histogram of gradients，HOG)特征和全局颜色直方图克服目标颜色变化和变形带来的问题。Qi等人(2019)提出一个使用自适应对冲方法的CNN跟踪框架，通过对冲多个CNN跟踪器构建一个性能更强的跟踪器。目标跟踪在传统视频领域得到了广泛研究和应用，但在卫星视频领域的研究相对较少。Du等人(2018)融合使用核相关滤波器(kernalized correlation filter，KCF)和三帧差分算法克服了目标融入相似环境带来的挑战。Shao等人(2018)提出使用速度特征和惯性机制替换KCF中的图像特征，更好地区分目标和背景。但是由于使用了三帧差分算法和光流，这些方法受限于目标的尺寸大小和图像质量。Xuan等人(2020)将运动平滑信息融合进入KCF，更加精准地预测目标位置，并且使用卡尔曼滤波器克服遮挡带来的目标丢失问题。在复杂情况下，更多的目标信息可以带来更好的表现。现有的卫星视频目标跟踪算法主要关注尺寸较大的目标，如火车和飞机(Du等，2018；Shao等，2018)。其中一些方法仅使用或融合使用运动特征获得更为准确的目标位置(Shao等，2018；Xuan等，2020)。然而，鲜有研究关注更小尺寸目标，如车辆信息不足带来的问题。对卫星视频的车辆目标跟踪主要存在3个挑战：1)卫星视频单帧图像分辨率高达12 000×4 000像素，而移动物体(如车辆)的尺寸非常小，仅占10~30像素；2)目标缺少清晰纹理，导致车辆目标包含极少信息，甚至是模糊和迷惑性的信息；3)不同于飞机和船舶，车辆更有可能出现在复杂背景下，使车辆跟踪更富有挑战性。如车辆可能会因为快速转弯、交通信号灯部分遮挡或与目标车辆相似的背景物体导致表观特征突变，而单一特征很难具备同时解决这些挑战的能力。本文使用KCF作为基础模型和两种互补的图像特征。利用HOG特征解决部分遮挡和光照变化带来的挑战，利用原始像素特征解决快速转弯带来的问题。通过融合互补特征跟踪器的响应图，本文方法可以解决目标信息不足问题，在大部分复杂场景中成功跟踪目标。响应图融合可以利用不同响应图中的每个响应值得到鲁棒的结果，然后利用预测的目标位置分别更新两个模型。同时，利用响应分布指标(response distribution criterion，RDC)(Zhou等，2018)评价响应值的分布特性，控制跟踪器模型的更新。本文方法仅使用相关滤波方法，计算代价小，具备跟踪多个车辆目标的拓展能力。1特征融合的核相关跟踪方法本文方法由特征提取、观测模型、响应图融合和基于RDC的模型更新4部分组成，如图 1所示。首先利用图像块的原始像素和HOG特征分别构建基于核化岭回归(Henriques等，2015)的目标跟踪器。然后使用对应元素相加融合两个跟踪器的响应图，均衡两种特征跟踪器的判别性(discriminative ability)和不变性(invariance)。使用融合后的响应图可以预测当前帧中目标的位置。最后通过RDC评价响应图分布特性决定是否使用预测得到的目标特征来更新模型。图1 当前帧中$ {\boldsymbol{f}_t} $目标位置的预测流程图 Workflow to obtain target position from the input current frame $ {\boldsymbol{f}_t} $Fig 11.1特征提取在目标跟踪中，图像特征表示的两个重要因素是判别性和不变性(Danelljan，2018)。不变性对于目标外观发生突变(如旋转)时，在连续帧之间重新识别目标很重要；而判别性是区分目标和背景的关键信息。这两个因素往往相互矛盾，而由于卫星视频中目标包含信息不足，一种特征表达通常很难在两者之间找到一个合适的平衡点。因此，本文使用两种包含互补信息的图像特征提取器：HOG和原始像素。HOG是基于局部区域的梯度方向直方图信息，与车辆的边缘信息描述(如车辆方向)密切相关。而可以捕捉目标梯度特征信息的尺度不变特征变换(scale-invariant feature transform，SIFT)特征，由于计算耗时，且对模糊图像提取角点的能力有限，不适用于卫星视频目标跟踪。HOG具有一定的判别性，但存在信息不足问题。例如，在视频中车辆目标突然改变方向后，HOG无法从周围形状与朝向相似的物体中正确区分目标。但是，HOG特征的跟踪器可以在发生部分遮挡、光照变化或道路颜色变化时，正确区分目标与背景干扰。考虑到车辆尺寸较小，原始像素特征可以在不进行后处理的情况下保存更多信息，图像块中的所有特征保持原有尺度和颜色信息，对低纹理信息下刚体的平面运动具有不变性。因此，原始像素特征具有足够的不变性来跟踪车辆的方向变化；然而，由于目标自身分辨率的限制，原始像素在存在道路颜色变化、光照变化和部分遮挡时，还不具有足够的判别性对目标和背景进行正确区分。例如，当车辆被交通指示牌或立交桥部分遮挡时，原始像素特征跟踪器可能会跟丢目标。本文分别使用两个目标跟踪器结合局部运动平均(Xuan等，2020)预测目标的中心位置，然后结合循环矩阵(Henriques等，2012)对目标进行大量的正负样本采样。1.2观测模型大部分基于相关滤波的跟踪器可以看做判别分类器，通过在目标与背景样本间优化决策边界实现跟踪。本文使用核化岭回归(Henriques等，2012)作为观测模型，并结合循环矩阵在傅里叶域下，使用离散傅里叶变化算子$ \boldsymbol{F} $进行快速检测。其使用高斯函数模拟标签分布，记作$ \boldsymbol{y} $。输入当前帧$ {\boldsymbol{f}_t} $的目标所在图像块$ \boldsymbol{x} $，以及上一帧$ {\boldsymbol{f}_{t-1}} $中的目标位置$ {pos_{t-1}} $，对偶空间中的相关滤波器$ \boldsymbol{a} $可以通过优化如下函数得到，具体为1$\mathop {\min }\limits_a {\left({\boldsymbol{y} - \boldsymbol{Ka}} \right)^{\rm{T}}}\left({\boldsymbol{y} - \boldsymbol{Ka}} \right) + \lambda {\boldsymbol{a}^{\rm{T}}}\boldsymbol{Ka}$ 式中，$ \lambda $为防止过拟合的正则化参数，$ \boldsymbol{K}=C\left(\boldsymbol{k}^{x x}\right) $是核矩阵。Henriques等人(2012)给出了式(1)在傅里叶域的闭式解，即2$\boldsymbol{F}(\boldsymbol{a})=\frac{\boldsymbol{F}(\boldsymbol{y})}{\boldsymbol{F}\left(\boldsymbol{k}^{x x}\right)+\boldsymbol{\lambda}}$ 式中，$ {\boldsymbol{k}^{xx}} $表示$ \boldsymbol{x} $自身之间的核相关操作。在跟踪过程中，可以计算得到2维响应图$ \boldsymbol{m} $，具体为3$\boldsymbol{m} = {\boldsymbol{F}^{ - 1}}\left({\boldsymbol{F}\left({{\boldsymbol{k}^{\tilde xz}}} \right) \cdot \boldsymbol{F}\left(\boldsymbol{a} \right)} \right)$ 式中，$ {\boldsymbol{F}^{ - 1}} $定义为逆傅里叶变换，表示学习得到的目标表征模型，通过$ {\boldsymbol{F}^{ - 1}} $表示每个位置处的候选样本与目标之间的相似度。1.3响应图融合本文提出一种响应图融合方法，通过维护两个独立的目标跟踪器来融合两种互补的图像特征。其中一个跟踪器使用HOG特征，利用其判别性优势判断目标，另一个跟踪器使用原始像素特征来提升跟踪器的不变性，最终得到均衡了判别性和不变性能力的响应图结果。在得到第$ i $帧图像的原始像素特征跟踪器响应图$ {\boldsymbol{m}_{\rm{G}}} $和HOG特征跟踪器响应图$ {\boldsymbol{m}_{\rm{H}}} $后，可以计算得到融合后的响应图$ {\boldsymbol{m}_{\rm{M}}} $，具体为4$\boldsymbol{m}_{\mathrm{M}}(\boldsymbol{x}, \boldsymbol{y})=\frac{\left(\boldsymbol{m}_{\mathrm{H}}(\boldsymbol{x}, \boldsymbol{y})+\boldsymbol{m}_{\mathrm{G}}(\boldsymbol{x}, \boldsymbol{y})\right)}{2}$ 从1.2节可知观测模型的在线训练需要循环采样(circularly sampling)，即在每个位置采集正负样本，并使用高斯响应标签作为优化目标。响应图中的每个响应值的范围为0~1，代表当前位置作为目标中心的可能性大小。所以，$ {\boldsymbol{m}_{\rm{G}}} $和$ {\boldsymbol{m}_{\rm{H}}} $中的每个响应值可以代表每个跟踪器的不变性和判别性能力，$ {\boldsymbol{m}_{\rm{G}}} $的峰值点代表该跟踪器的最强判别性能力，$ {\boldsymbol{m}_{\rm{H}}} $的峰值点代表该跟踪器的最强不变性能力。两个特征图通过融合，峰值响应可能出现在不同于$ {\boldsymbol{m}_{\rm{G}}} $和$ {\boldsymbol{m}_{\rm{H}}} $中的任一个峰值处，表示同时具有较强的不变性和判别性。如图 1所示，当车辆转弯，其边缘方向发生变化时，HOG跟踪器的响应呈“长尾状”，会在当前帧中得到与上一帧目标形状相似的误检目标；而原始像素跟踪器在这种情况下，可以避免方向突变带来的干扰，正确跟踪目标，而其中心点相对应地位于$ {\boldsymbol{m}_{\rm{H}}} $响应区域的拖尾处，且有较大的响应值。当两个响应图融合后，跟踪器可以进一步得到矫正后的目标位置，具体为5$po{s_t} = \max \left({{\boldsymbol{m}_{\rm{M}}}} \right)$ 式中，$ pos_t $表示当前帧预测得到的目标中心点位置，可以进一步用此矫正后的信息来更新两个跟踪器的表征模型。1.4模型更新当存在光照和朝向变化时，正确跟踪目标具有较大难度。为了解决该问题，在预测得到当前帧目标位置$ pos_t $后，本文对观测模型和表征模型进行更新，具体方法为6$\boldsymbol{F}\left(\boldsymbol{a}_{t}\right)= \eta \frac{\boldsymbol{F}(\boldsymbol{y})}{\boldsymbol{F}\left(\boldsymbol{k}^{2 z}\right)+\lambda}+(1-\eta) \boldsymbol{F}\left(\boldsymbol{a}_{t-1}\right)$ 7$\tilde{\boldsymbol{x}}_{t}=\eta \tilde{\boldsymbol{x}}_{t-1}+(1-\eta) \boldsymbol{z}$ 式中，$ \eta $用来控制跟踪器更新的速度和幅度，$ {\boldsymbol{a}_t} $表示当前帧$ {\boldsymbol{f}_t} $的相关滤波器$ \boldsymbol{a},\boldsymbol{z} $为表征模型模板。在跟踪过程中，理想状态下的响应图应为单峰，且最大值处为目标所在位置。实际情况下，由于观测模型的性能限制，或者在目标周围存在与相似的地物，响应图会呈多峰特性。所以，在响应图融合后，进一步使用RDC(Zhou等，2018)来评价响应图的峰值分布特性，具体为8$RDC = \sqrt {\sum\limits_{i = 1}^t {{{\left({{S_m}(i) - \mu } \right)}^2}} } $ 式中，$ S_m $表示响应图$ \boldsymbol{m} $中的$ T $个最大响应峰值，$ \mu $表示响应值的期望。在得到融合后的响应图和其RDC值后，对式(6)和式(7)中的学习率$ \eta $重新定义为9$\eta = \left\{ \begin{array}{l}\zeta \;\;\;RDC r\\0\;\;\;\;其他 \end{array} \right.$ 式中，$ r $代表响应图$ {\boldsymbol{m}_{\rm{M}}} $的RDC阈值, $ \zeta $为人工设定的学习率。然后跟踪器分别使用式(6)和式(7)更新模型。如果RDC值不高于阈值，则认为观测模型的判别能力不足以解决目标与周围环境混淆带来的误判，不将其更新进入模型。可以避免给表征模型代入噪声，或者削弱观测模型的判别性能。2实验结果与分析2.1数据集目前没有公开的卫星视频目标跟踪数据集，本文使用自建的8个卫星视频序列的跟踪数据集对提出的方法进行评价。视频数据由长光卫星有限公司在希腊雅典港、美国塔科马港市、美国明尼苏达州和西班牙马德里上空拍摄，空间分辨率为1.1 m，帧率为10~25帧/s，缩略图如图 2所示，每个视频跟踪目标的细节展示在缩略图右下角。为保证使用数据的代表性，实验均匀选取了不同的数据类别，如表 1所示。图2 实验用视频序列缩略图 Thumbnail of videos evaluated in the experimentFig 2 ((a) Athens port; (b) Tacoma 1;(c) Minnesota 1;(d) Tacoma 2;(e) Madrid; (f) Minnesota 2;(g) Tacoma 3;(h) Tacoma 4) 表1 图 2各视频数据类别一览视频光照变化快速转弯部分遮挡阴影路面变色相似车辆图 2(a) √ 图 2(b) √ √ √ 图 2(c) √ √ 图 2(d) √ √ 图 2(e) √ √ 图 2(f) √ √ 图 2(g) √ √ √ 图 2(h) √ √ List of data in various situation of Fig. 2Table 1 “√”表示包含此类型。2.2参数设置实验使用Python语言、Opencv和Numpy工具箱，平台为Intel® Xeon®E5-2620 v3，40核主频为2.4 GHz的服务器，仅使用第1帧提供的标注位置和尺寸，跟踪失败后不会进行初始化。实验中，跟踪器的目标搜索区域是目标大小的2.5倍，正则化参数$ \lambda $为10-4，RDC阈值按经验值设置为0.23，原始颜色特征和HOG特征跟踪器的响应值阈值$ \alpha $分别为0.2和0.6，学习率$ \eta $分别为0.075和0.02。HOG和原始特征下采样尺度分别为4和1。2.3结果与分析本文使用准确率曲线和成功率曲线作为评价标准(Wu等，2013, 2015)，依据中心定位误差(center location error，CLE)和重叠面积比(Pascal VOC overlap ratio，VOR)在不同阈值设置下的跟踪成功帧数的比例绘制。在中心定位误差指标中，当跟踪目标与标注目标距离小于阈值即为跟踪成功；在重叠面积比指标中，当跟踪目标与标注目标重叠比大于阈值即为跟踪成功。在KCF运动模型中，通过融入运动特征(Xuan等，2020)将上一帧中的目标位置作为当前帧中目标搜索的先验信息，标记为MoFusion，表示运动平滑特征融合。通过融合原始像素特征(Raw)跟踪器MoFusion-Raw和梯度直方图特征(HOG)跟踪器MoFusion-HOG的响应图，跟踪器同时具有其不变性和判别性能力。为进一步验证本文方法的有效性，进行消融实验，结果如表 2所示。表 2中，将所有数据的准确率曲线和成功率曲线的曲线下面积(area under curve，AUC)作为比较标准。从表 2的定量实验结果可以看出，与MoFusion-Raw和MoFusion-HOG相比，本文提出的表观特征融合方法在两个跟踪器间达到了较好的平衡。表2 不同方法的精度比较方法 AUC/% CLE VOR MoFusion-HOG 91.42 68.38 MoFusion-Raw 63.99 48.21 本文 94.35 64.26 Comparison of accuracy among different methodsTable 2 加粗字体表示各列最优结果。从跟踪结果看，MoFusion-HOG在视频图 2(a)(e)(f))中跟踪失败，MoFusion-Raw在视频图 2(b)(c)(e)(f)(g))中失败，但是在特征融合之后，本文方法在所有视频中均跟踪成功，说明不变性和判别性得到较好的融合和平衡。为进一步说明本文方法的有效性，以视频图 2(a)(c)(g)为例，将跟踪结果对比可视化，如图 3所示。在视频图 2(a)中，当车辆快速转弯时，MoFusion-HOG跟踪失败；在视频图 2(c)中，当车辆部分遮挡时，MoFusion-Raw跟踪失败；在视频图 2(g)中，当道路路面颜色发生变化时，MoFusion-Raw跟踪失败，而本文提出的特征融合方法全部跟踪成功。图3 不同跟踪器下视频的可视化车辆跟踪结果 Visualization result of videos with different trackersFig 3 ((a) video of Fig. 2 (a); (b) video of Fig. 2(c); (c) video of Fig. 2(g)) 需要注意的是，特征融合跟踪器的VOR准确率相比MoFusion-HOG下降了4%，原因是在复杂背景情况下，两个跟踪器中的一个会发生跟踪框抖动与矫正。以图 3(b)所示视频为例，MoFusion-Raw需要更多视频帧的表征模型更新来避免将新一帧的负样本判别为正样本目标。在进行融合后，新的目标位置会偏离MoFusion-HOG预测的目标位置一定的像素距离，导致VOR准确率下降。这也是两个跟踪器间的平衡问题。图 4是本文方法与KCF和其他性能优异的相关滤波目标跟踪器的结果对比。可以看出，通过成功率曲线和准确率曲线的对比，本文方法优势明显。图 4同时提供了每个方法对应曲线的AUC值作为参考。在准确率曲线指标中，本文方法的AUC达到了94.35%，AUC数值在原始像素的KCF为45.15，HOG的KCF为73.82%，ECO(efficient convolution operators)(Danelljan等，2016)为79.17%，Staple(Bertinetto等，2016a；Bertinetto等，2016b)为69.43%，HDT(hedge deep tracker)(Qi等，2019)为24.66%。在成功率曲线指标中，本文方法的AUC为64.26%，AUC数值在原始像素的KCF为32.96%，HOG的KCF为54.27%，ECO为60.89%，Staple为54.70%，HDT为21.35%，经典的TLD(tracking-learning-detection)(Kalal等，2012)方法由于受限于数据质量，在所有8个视频中均跟踪失败，本文方法均高于其他方法，且是唯一在所有8个视频中均可成功跟踪目标的跟踪器，证明了本文方法的鲁棒性和灵活性。图4 不同方法在全部8个视频上的成功率曲线和准确率曲线对比 Comparison of success rate curves and precision rate curves among different methods on all eight videosFig 4 ((a) success rate curves; (b) precision rate curves) 3结论为了克服卫星视频目标跟踪中目标尺寸小、缺乏纹理信息和背景复杂的难题，本文提出通过响应图融合的方法来结合原始像素和HOG特征，以融合其互补的不变性和判别能力，实现目标在快速转弯、部分遮挡、光照变化或道路颜色变化等复杂情况下的有效跟踪。通过在典型场景的8个卫星视频数据实验，准确率曲线和成功率曲线表明基于响应图的互补特征融合方法可以有效解决目标尺寸小带来的信息不足和帧间特征不一致问题，能够在复杂情况下成功跟踪目标。对比实验表明，本文方法相较于其他算法具有明显优势。但是，本文方法尚存在一定的局限性，主要表现为无法解决车辆目标完全遮挡和高相似度目标抵近时的目标重识别问题。由于目标特征缺失或者相近目标间的特征混淆，通常需要基于运动信息来预测目标的运动轨迹，并对目标进行特征更新和重新识别。这一问题将是今后的研究方向。