发布时间: 2022-08-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210155
2022 | Volume 27 | Number 8

图像分析和识别

融合视觉词与自注意力机制的视频目标分割

季传俊^1,2, 陈亚当^1,2, 车洵³

1. 南京信息工程大学计算机学院、软件学院、网络空间安全学院，南京 210044;

2. 数字取证教育部工程研究中心，南京 210044;

3. 南京众智维信息科技有限公司，南京 210006

收稿日期: 2021-03-16; 修回日期: 2021-06-08; 预印本日期: 2021-06-15

基金项目: 国家自然科学基金项目(61802197)

作者简介: 季传俊，1995年生，男，硕士研究生，主要研究方向为计算机视觉。E-mail: jichuanjun0215@163.com
陈亚当，通信作者，男，副教授，主要研究方向为视频分割、视频场景重建、视频编辑、深度学习。E-mail: cyd4511632@126.com
车洵，男，硕士研究生，主要研究方向为网络安全理论研究、机器学习安全与隐私问题、机器学习攻击方法。E-mail: chexun@openxorg.com
*通信作者: 陈亚当 cyd4511632@126.com

中图法分类号: TP391.4

文献标识码: A

文章编号: 1006-8961(2022)08-2444-14

摘要

目的视频目标分割(video object segmentation, VOS)是在给定初始帧的目标掩码条件下，实现对整个视频序列中感兴趣对象的分割，但是视频中往往会出现目标形状不规则、背景中存在干扰信息和运动速度过快等情况，影响视频目标分割质量。对此，本文提出一种融合视觉词和自注意力机制的视频目标分割算法。方法对于参考帧，首先将其图像输入编码器中，提取分辨率为原图像1/8的像素特征。然后将该特征输入由若干卷积核构成的嵌入空间中，并将其结果上采样至原始尺寸。最后结合参考帧的目标掩码信息，通过聚类算法对嵌入空间中的像素进行聚类分簇，形成用于表示目标对象的视觉词。对于目标帧，首先将其图像通过编码器并输入嵌入空间中，通过单词匹配操作用参考帧生成的视觉词来表示嵌入空间中的像素，并获得多个相似图。然后，对相似图应用自注意力机制捕获全局依赖关系，最后取通道方向上的最大值作为预测结果。为了解决目标对象的外观变化和视觉词失配的问题，提出在线更新机制和全局校正机制以进一步提高准确率。结果实验结果表明，本文方法在视频目标分割数据集DAVIS(densely annotated video segmentation)2016和DAVIS 2017上取得了有竞争力的结果，区域相似度与轮廓精度之间的平均值J&F-mean(Jaccard and F-score mean)分别为83.2%和72.3%。结论本文提出的算法可以有效地处理由遮挡、变形和视点变化等带来的干扰问题，实现高质量的视频目标分割。

关键词

视频目标分割(VOS); 聚类算法; 视觉词; 自注意力机制; 在线更新机制; 全局校正机制

Visual words and self-attention mechanism fusion based video object segmentation method

Ji Chuanjun^1,2, Chen Yadang^1,2, Che Xun³

1. School of Computer Science, Nanjing University of Information Science and Technology, Nanjing 210044, China;

2. Engineering Research Center of Digital Forensics, Ministry of Education, Nanjing 210044, China;

3. Nanjing OpenX Technology Co., Ltd., Nanjing 210006, China

Supported by: National Natural Science Foundation of China (61802197)

Abstract

Objective Video object segmentation (VOS) involves foreground objects segmentation from the background in a video sequence. Its applications are relevant to video detection, video classification, video summarization, and self-driving. Our research is focused on a semi-supervised setting, which estimates the mask of the target object in the remaining frames of the video based on the target mask given in the initial frame. However, current video object segmentation algorithms are constrained of the issue of irregular shape, interference information and super-fast motion. Hence, our research develops a video object segmentation algorithm based on the integration of visual words and self-attention mechanism. Method For the reference frame, the reference frame image is first fed into the encoder to extract features of those resolutions are 1/8 of the original image. Subsequently, the extracted features are fed into the embedding space composed of several 3 × 3 convolution kernels, and the result is up-sampled to the original size. During the training process, the pixels from the same target in the embedding space are close to each other, while the pixels from different targets are far apart. Finally, the visual words representing the target objects are formed by combining the mask information annotated in the reference frames and clustering the pixels in the embedding space using a clustering algorithm. For the target frame, its image is first fed into the encoder and passed through the embedding space, and then a word matching operation is performed to represent the pixels in the embedding space with a certain number of visual words to obtain similarity maps. However, learning visual words is a challenging task because there is no real information about their corresponding object parts. Therefore, a meta-training algorithm is used to alternate between unsupervised learning of visual words and supervised learning of pixel classification given these visual words. The application of visual vocabulary allows for more robust matching because an object may be obscured, deformed, changed perspective, or disappear and reappear from the same video, and its partial appearance may remain the same. Then, the self-attention mechanism is applied to the generated similarity map to capture the global dependency, and the maximum value is taken in the channel direction as the predicted result. To resolve significant appearance changes and global mismatch issues, an efficient online update and global correction mechanism is adopted to improve the accuracy further. For the online update mechanism, the updated timing has an impact on the performance of the model. When the update interval is shorter, the dictionary is updated more frequently, which aids the network to adapt dynamic scenes and fast-moving objects better. However, if the interval is too short, it is possible to cause more noisy visual words, which will affect the performance of the algorithm. Therefore, it is important to use an appropriate update frequency. Here, the visual dictionary is set to be updated every 5 frames. Furthermore, to ensure that the prediction masks used to update visual words in the online update mechanism are reliable, a simple outlier removal process is applied to the prediction masks. Specifically, given a region with the same prediction annotation, the prediction region is accepted only if it intersects the object mask predicted in the previous frame. If there is no intersection, this prediction mask is discarded and the prediction is made directly on it based on the previous result. Result We validate the effectiveness and robustness of our method on the challenging DAVIS 2016(densely annotated video segmentation) and DAVIS 2017 datasets. Our method is compared to state-of-the-art methods, with J&F-mean(Jaccard and F-score mean) score of 83.2% on DAVIS 2016, with J&F-mean score of 72.3% on DAVIS 2017. We achieved comparable accuracy to the fine-tuning-based method, and reached a competitive level in terms of the speed/accuracy trade-off of the two video object segmentation datasets. Conclusion The proposed algorithm can effectively deal with the interference problems caused by occlusion, deformation and viewpoint change, and achieve high quality video object segmentation.

Key words

video object segmentation (VOS); clustering algorithm; visual words; self-attention mechanism; online update mechanism; global correction mechanism

0 引言

视频目标分割(video object segmentation，VOS)是计算机视觉中的一项重要任务，目的是将视频序列中的前景目标对象从背景中分离出来，广泛应用于视频检测、视频分割、机器人和自动驾驶等领域。本文工作主要关注半监督VOS任务，即将视频序列第1帧中目标掩码标注作为参考信息，然后分割出视频后续帧中感兴趣的目标对象。虽然提供了第1帧的目标掩码，但由于目标物体在运动过程中可能产生失真、遮挡和相似物体的干扰，半监督VOS仍然具有挑战性。

由于深度卷积神经网络(deep convolution neural networks，DCNNs)在图像分割(Li等，2018)、视觉跟踪(Zhang和Peng，2019)和目标检测(Shen等，2020；郝腾龙和李熙莹，2021)等方面的优异性能，目前大多数高精度的半监督VOS方法都依赖在线微调DCNNs来学习目标物体的外观。虽然这些方法具有较高的预测精度和对遮挡的鲁棒性，但在线微调过程需要大量时间和计算成本，故其分割速度较慢，在很大程度上限制了其在实际场景的应用。为了解决上述依赖在线微调的方法的问题，最近的研究集中在设计无需微调的网络模型，旨在避免在线学习并获得更快的运行速度。基于掩码传播的方法主要依赖前一帧的预测结果来推断当前帧，虽然这些方法简单、快速、分割精度好，但对遮挡、变形和传播过程中的快速运动都很敏感，并且可能会出现误差累积。另外一种方法采用基于匹配的网络模型来完成分割任务，该方法通过在学习的度量空间中将参考帧与目标帧进行像素级匹配来预测分割结果。这些方法需要大量数据训练网络，因此通常依赖大型图像数据集进行复杂的预训练，在一定程度上限制了实用性。上述方法的优缺点显而易见，基于在线学习的方法以牺牲速度为代价获得精确的分割结果，需要几秒钟的时间来分割每帧。相反，简单的基于匹配或传播的方法速度更快，但分割精度欠佳。综上所述，现有的大多数方法无法同时满足VOS任务的精度和速度要求，而二者在实际应用中都是必不可少的。对于半监督VOS任务，仍然需要更有效的方法来达到更好的速度与精度权衡。

基于以上考虑，本文提出一种结合视觉词和自注意力机制的视频目标分割算法。通过在嵌入空间中用固定数量的视觉词表示感兴趣的对象，即使当目标对象受到遮挡、变形或视点变化等影响，但某些局部外观仍会保持一致，因此视觉词的使用可以实现更鲁棒的匹配。并且将自注意力机制用于单词匹配生成的相似图可以捕获全局依赖关系。为了解决目标对象在运动过程中的外观变化和视觉词失配问题，提出了一种在线更新和全局校正机制以进一步提高准确率。由于没有任何关于视觉词对应物体的真实信息，因此在整个训练过程中采用元训练思想确保训练目标与推理过程一致。为了验证本文方法的有效性，在视频目标分割数据集DAVIS 2016(densely annotated video segmentation)和DAVIS 2017上进行了测试，本文方法取得了有竞争力的结果，区域相似度与轮廓精度之间的平均值J&F-mean(Jaccard and F-score mean)分别为83.2%和72.3%，在没有耗时的微调、光流或预处理/后处理情况下，精度与基于在线学习的方法相当，但速度快了若干个量级。

1 相关工作

1.1 基于在线学习的方法

基于在线学习的方法通常使用给定的视频第1帧的目标掩膜微调一个通用的语义分割网络，以指导网络识别其余视频帧中目标对象的外观(Caelles等，2017)。这类方法使用在线适应(Voigtlaender等，2017)、实例分割信息(Maninis等，2019)、数据增强技术(Khoreva等，2019)或多种技术的集成(Luiten等，2018)。许多方法表明在线学习的过程可以提高其模型的性能(Li和Chang，2018；Wang等，2019；Meinhardt和Leal-Taixé，2020)。尽管这些方法可以获得高质量的分割结果，并对遮挡有着很好的鲁棒性，但在测试阶段需要对每个视频进行在线学习，因此有着很高的计算成本且速度较慢，这在很大程度上限制了它们的实用性。

1.2 基于掩码传播的方法

基于掩码传播的方法为了获得更好的分割性能，额外使用了先前帧的信息。Perazzi等人(2017)提出了Masktrack算法，将图像与前一帧的分割掩码结合作为输入来处理VOS。该策略也应用于其他VOS方法中。Oh等人(2018)提出RGMP(reference-guided mask propagation)算法，试图将第1帧、前1帧和当前帧的特征进行堆叠，并通过孪生网络传播来完成分割任务。Yang等人(2018)提出OSMN(object segmentation via network modulation)算法，引入了一个调制器，利用视觉和空间引导操纵分割网络的中间层。汤润发等人(2019)在OSMN基础上引入特征注意金字塔模块，以应对不同尺寸的目标分割。在许多方法中，光流(Dosovitskiy等，2015；Ilg等，2017)也用来指导传播过程，但是它无法将非刚性对象与背景的静止部分区分开。虽然这些策略都是有效的，但仍然受到漂移问题的困扰，因此无法获得理想的预测精度。

1.3 基于匹配的方法

近年基于匹配的方法由于性能优异受到了学者关注。这类方法首先在参考帧与目标帧之间进行像素级匹配，然后直接从匹配结果中分割目标帧的每个像素。Chen等人(2018)提出了PML(blazingly fast video object segmentation with pixel-wise metric learning)算法，通过在像素空间中对目标帧与参考帧中的像素执行最近邻匹配来完成预测。Hu等人(2018)提出一种软匹配机制，使用全局匹配策略生成前景和背景相似度图，并通过对相似度图应用softmax函数生成最终预测。Wang等人(2019)使用全局匹配和一个排序注意模组，根据重要性对特征图进行排序和选择。然而，由于外观的变化和时间信息的缺乏，它们仍然存在错误匹配问题。为了解决此问题，Voigtlaender等人(2019)提出了FEELVOS(fast end-to-end embedding learning for video object segmentation)算法，通过使用全局和局部匹配实现更稳定的像素级匹配。Yang等人(2020)则提出通过协调前景和背景的综合匹配来提高匹配效果。这些方法表明使用更多匹配有利于获得更高的分割精度。

因此，一些最新方法尝试将视频中的每个帧都用于分割任务。Oh等人(2019)使用一个记忆网络存储历史帧的信息，并在目标帧与记忆间执行像素级匹配。Li等人(2020)提出了GC(fast video object segmentation using the global context module)算法，通过设计一个全局上下文模块，以减少在记忆中执行像素级匹配所带来的时间复杂性。Seong等人(2020)通过引入高斯核减少误匹配的像素。Lu等人(2020)采用情景记忆网络以节点的形式存储帧，并通过边缘捕获跨帧的相关性。Liang等人(2020)提出自适应特征库更新方案、新的置信损失和细粒度分割模块以提高分割精度和效率。虽然这些方法通过充分利用历史帧的信息取得了最先进的性能，但一个共同的缺点是需要大量数据训练网络模型。因此，它们通常依赖大规模图像数据集进行复杂的预训练，而这并不适合大多数实际应用。

1.4 自注意力机制

自注意力机制最初是由有关机器翻译的研究(Vaswani等，2017)提出的，旨在将每个位置的上下文计算为所有位置的加权总和。由于其在获取上下文依赖关系方面的优越性，因此适用于计算机视觉中的各种图像和视频任务。在语义分割方面，Fu等人(2019)提出了位置注意模块和通道注意模块，自适应地将局部特征与其全局依赖性相结合。Zhang等人(2019)提出以自我注意的方式汇总空间位置上的共现情境及其共现概率。Huang等人(2019)将交叉注意模块应用于每个像素，以获取其交叉路径上所有像素的上下文信息。郝晓宇等人(2020)提出将双注意力机制用于图像分割，以提高分割精度。本文方法对由单词匹配生成的相似图应用自注意力机制，从而捕获全局依赖关系。

1.5 元学习

元学习(meta learning)又称学会学习(learning to learn)，是深度学习中的一种学习方法，可以替代使用大型通用数据集(Deng等，2009)对网络进行预训练，然后使用特定问题数据集进行微调。元学习旨在通过训练具有一定可塑性的网络替代在线学习阶段，以快速适应新任务。在新任务样本很少的情况下，元学习可以帮助机器进行快速学习。

由于半监督VOS任务本身可以看做是使用少量样本进行学习的问题，因此可以使用元学习(Finn等，2017；Bertinetto等，2019；Lee等，2019)的技术解决。Liu等人(2020)使用参考实例，通过封闭式岭回归预测分割网络的最后一层。目前，元学习的技术已在视觉跟踪领域得到广泛应用。Park和Berg(2018)提出Meta-tracker算法，对当前目标进行基于梯度的自适应。Choi等人(2019)提出结合基于孪生架构的匹配网络来学习目标的特征空间。Bhat等人(2019)提出一种基于优化的元学习策略，使目标模型直接输出分类得分。与之前的方法相反，本文采用元学习的方法从视频参考帧的目标掩码中自适应地生成视觉词。

2 本文方法

2.1 总体结构

由于视频中往往会出现目标形状不规则、帧间运动存在干扰信息和运动速度过快等情况，而已有的视频目标分割算法很难处理好这些问题。因此，本文提出了一种融合视觉词和自注意力机制的视频目标分割算法，整体网络结构如图 1所示，输入图像尺寸为480×854像素。

图 1 网络总体结构

Fig. 1 An overview of network architecture

对于参考帧，将其图像输入基于ResNet-101(He等，2016)的DeepLabV3+(去除了输出层)的编码器中，以提取分辨率为原图像1/8的像素特征。然后将提取的像素特征输入由若干个3×3卷积核构成的嵌入空间中，并将其结果上采样至原始尺寸。之后结合参考帧标注的目标掩码信息，通过聚类算法对嵌入空间中的像素特征进行聚类分簇，从而形成用于表示目标对象的视觉词。

对于目标帧，首先将目标帧的图像通过编码器并输进嵌入空间中。随后利用由参考帧生成的视觉词，通过单词匹配操作，以固定数量的视觉词表示嵌入空间中的像素并获得多个相似图。然后对生成的相似图应用自注意力机制以捕获全局依赖关系，并取通道方向上的最大值作为预测结果。最后，为了解决目标对象的外观变化和视觉词失配的问题，通过在线更新和全局校正机制进一步提高分割精度。

2.2 视频目标分割的元学习问题

元学习通常定义为从大量任务中学习一种通用的学习算法，该算法可以很好地适应不同的任务，因此在测试阶段能够更好地处理新任务。元学习中的训练和推理过程分别称为元训练和元测试。

在半监督VOS任务中，分割网络从视频参考帧(支持集)的目标掩码中学习，进而分割和跟踪视频其余帧(查询集)中的同一目标对象。为了使训练得到的分割网络能够更好地适应新任务，本工作从元训练集中采样生成各种训练任务，每个训练任务都由支持集和查询集构成，如图 2所示。通过在这些任务上训练学习，其训练目标为

$ \boldsymbol{\omega}^{*}=\underset{\omega}{\operatorname{argmin}} \sum\limits_{T_{n} \sim p(T)} L_{T_{n}}(\boldsymbol{\omega}) $

(1)

图 2 视频目标分割的元学习问题

Fig. 2 Meta-learning problem of video object segmentation

式中，$\boldsymbol{\omega}^{*}$表示处理特定任务的网络模型参数，$\boldsymbol{\omega}$表示处理各种任务的网络模型参数，$\boldsymbol{T}_{n}$表示第$n$个训练任务，$\boldsymbol{p}(\boldsymbol{T})$表示元训练数据集，$L_{T_{n}}$表示训练$\boldsymbol{T}_{n}$任务的模型损失。

2.3 视觉词的生成与匹配

首先将参考帧通过深度神经网络$f(\omega)$进行特征提取，并将提取的特征输入嵌入空间来计算每个像素$\boldsymbol{x}_{i}$的嵌入特征$f_{\omega}\left(\boldsymbol{x}_{i}\right)$。然后采用聚类算法为每个对象类中的所有像素计算一组视觉词。令$\boldsymbol{R}_{c}$为参考帧中类标签为$c$的像素集合。每个集合$\boldsymbol{R}_{c}$被划分为$K$个簇$\boldsymbol{R}_{c 1}, \cdots, \boldsymbol{R}_{c K}$，且以$\mu^{c k}$为各自的聚类质心。计算为

$ \begin{gathered} \boldsymbol{R}_{c k}=\operatorname{argmin} \sum\limits_{k=1}^{K} \sum\limits_{\boldsymbol{x}_{i} \in \boldsymbol{R}_{c k}}\left\|f_{\omega}\left(\boldsymbol{x}_{i}\right)-\mu^{c k}\right\|_{2}^{2} \\ k=1, \cdots, K \end{gathered} $

(2)

$ \mu^{c k}=\frac{1}{\left|\boldsymbol{R}_{c k}\right|} \sum\limits_{\boldsymbol{x}_{i} \in \boldsymbol{R}_{c k}} f_{\omega}\left(\boldsymbol{x}_{i}\right) $

(3)

式中，$i$为参考帧中像素的位置索引，$K$表示聚类生成的单词数量。此时，可以用一组视觉词$\boldsymbol{M}_{c}=\left\{\mu^{c 1}, \cdots, \mu^{c k}\right\}$来表示参考帧在嵌入空间中的分布。

对于单词匹配操作，为每个目标对象构造视觉词后就可以使用相似度函数来计算将像素$\boldsymbol{x}_{j}$与来自第$c$个对象类别的第$k$个视觉词的相似度得分。最后，计算目标帧上所有像素与每个视觉词的相似度得分，从而得到具有$K$个通道的相似图。单词匹配得分的计算为

$ s\left(c_{k} \mid \boldsymbol{x}_{j}\right)=\cos \left(f_{\omega}\left(\boldsymbol{x}_{j}\right), \mu^{c k}\right) $

(4)

式中，$j$表示参考帧中像素的位置索引。

2.4 自注意力机制

自注意力是一种有效的计算机视觉技术，具有捕获全局依赖关系的能力，在最新的语义分割方法中有着广泛应用。本工作对单词匹配操作生成的相似度图应用自注意力。首先将相似度图划分为前景图和背景图，然后对每一组图使用空间和通道注意力捕获空间和通道维度上的全局依赖关系，如图 3所示。

图 3 自注意力机制架构

Fig. 3 The structure of self-attention

2.4.1 空间注意力模块

空间注意力模块在局部特征上建立丰富的上下文关系，计算方式如图 4所示。首先，对相似度图$\boldsymbol{A}$进行重塑形并转置得到$\boldsymbol{B}$，尺寸变为$N \times C$，其中$N$的大小为$H \times W$。然后，对相似度图$\boldsymbol{A}$进行重塑形得到$\boldsymbol{Q}$，将$\boldsymbol{B}$与$\boldsymbol{Q}$相乘，再通过softmax函数得到$\boldsymbol{S}$，此时$\boldsymbol{S}$的尺寸为$N \times N$。随后，将$\boldsymbol{A}$进行尺寸变化，得到$\boldsymbol{D}$。这时$\boldsymbol{D}$的尺寸为$C \times N$。之后与$\boldsymbol{S}$相乘得到空间注意图$\boldsymbol{E}$，再乘以系数$\alpha$，之后将维度变换为$C \times H \times W$，其中$\alpha$的初始化为0，并在训练过程中不断学习。最后，$\boldsymbol{E}$与$\boldsymbol{A}$相加得到$\boldsymbol{F}$，$\boldsymbol{F}$即为空间注意力模块的输出。

图 4 空间注意力架构

Fig. 4 The structure of spatial attention

2.4.2 通道注意力模块

通道注意力模块用于建立不同通道之间的相互依赖关系，计算方式如图 5所示。首先对特征图$\boldsymbol{A}$分别进行重塑形、重塑形、重塑形和转置，得到$\boldsymbol{B}$、$\boldsymbol{Q}$和$\boldsymbol{D}$，其中$\boldsymbol{B}$和$\boldsymbol{Q}$的尺寸为$C \times N$，$\boldsymbol{D}$是尺寸为$N \times C$的特征图，然后在$\boldsymbol{Q}$和$\boldsymbol{D}$之间进行逐像素相乘并且通过softmax得到$\boldsymbol{X}$，$\boldsymbol{X}$的大小为$C \times C$。将$\boldsymbol{B}$与$\boldsymbol{X}$相乘得到通道注意图$\boldsymbol{E}$，再将其与系数$\beta$相乘后，重塑形为$C \times H \times W$，其中$\beta$初始化为0，并通过训练学习。最后$\boldsymbol{E}$与$\boldsymbol{A}$相加得到$\boldsymbol{F}$，$\boldsymbol{F}$为通道注意力模块的输出。

图 5 通道注意力架构

Fig. 5 The structure of channel attention

2.5 在线更新与全局校正机制

由于来自视频参考帧的目标对象以及背景经常经历变形、遮挡和视点变化等情况，因此在整个推理过程中调整网络模型对于获得良好性能至关重要。本文使用一种在线更新机制对网络模型进行调整。具体而言，通过更新用于表示目标对象的视觉词来优化网络模型。给定一个由视频第$t_{l}$帧生成的视觉字典$\boldsymbol{M}_{l}$，由此预测了第$t_{l+δ}$帧的掩膜。此时将第$t_{l+δ}$帧图像作为新的支持集，将其输入网络模型中计算出该帧的嵌入特征。接着，以第$t_{l+δ}$帧的预测掩膜为指导，根据式(3)计算新的视觉词$\boldsymbol{\mu}_{t+\delta}=\left\{\mu_{t+\delta}^{1}, \cdots, \right.\left.\mu_{t+\delta}^{k}\right\}$。为了过滤掉不正确的预测，并防止错误加剧，此处只添加与现有单词相似的新词汇。经过实验，设定更新频率$\delta=5$，此时算法的综合性能最优。这是基于这样的假设：在一个时间间隔内，视频中的目标对象会缓慢变化，则它们的像素级嵌入也不会变化很大。

此外，为了确保在线更新机制中用来更新视觉词的预测掩膜可靠，对预测掩码应用了一个简单的异常值去除过程。具体而言，给定一个具有相同预测标注的区域，只有当该预测区域与前一帧预测的对象掩膜相交时才接受该预测。如果没有交集，则放弃该预测掩膜并根据先前的结果直接对其进行预测。

3 实验结果分析

3.1 数据集

DAVIS 2016是广泛用于单目标视频对象分割任务的一个基准数据集，包含50个全高清视频，所有帧都有密集的像素级准确度的目标掩膜注释。其中30个视频用于训练，20个视频用于验证，每个视频中只有1个目标对象有掩膜注释。DAVIS 2017数据集是DAVIS 2016的多目标对象扩展，共有150个高清视频，每个视频包括1个或多个目标对象。

3.2 评价指标

为了评估本文方法的性能，将区域相似度J(Jaccard)、轮廓精度F(F-score)以及二者的平均值J&F-mean(Jaccard and F-score mean)作为评价指标。区域相似度主要用来衡量基于区域的分割相似度，定义为预测的分割掩膜与真实的分割结果之间的交并比。轮廓精度用于衡量边界分割的准确率，定义为轮廓准确率和召回率的调和平均数。此外，采用算法每秒处理的视频帧数作为额外的评价指标，用来衡量算法的运行速度。

3.3 训练细节

本文的网络模型采用基于ResNet-101(He等，2016)的Deeplab-v2架构作为编码器，提取步幅为8的像素特征。将像素特征输入由128个3×3卷积核构成的嵌入层中，用来提取像素的嵌入特征。为了提高效率，采用双线性插值对嵌入特征进行上采样，以达到原始图像大小。随后结合参考帧标注的掩膜信息，通过聚类算法对嵌入空间中的像素特征进行聚类分簇以构成视觉词。前景部分用50个视觉词表示，而背景通常包含更多变化，用4倍于前景即200个视觉词表示。在线更新机制为每5帧更新一次视觉字典。

训练过程中，首先使用ResNet-101的权重初始化网络模型，使用Adam优化器进行优化，动量默认设置为$\beta_{1}=0.9$、$\beta_{2}=0.999$，并使用交叉熵作为损失函数。使用已在COCO(common objects in context)数据集上训练的公共Deeplab-v2模型初始化网络的编码器，并将编码器的权重固定，使其不参与训练。随后根据元训练方法对网络模型进行训练，即首先在训练数据集中随机抽取一个视频，将视频第1帧的像素视为支持集，然后从视频其余帧中随机选择3帧作为查询集，以此构建整个训练过程。由于在线更新与训练无关，所以在训练过程中没有模拟。在训练过程中，先用学习率为10^-3在半分辨率图像上训练50 000次。然后，对完整的网络即包括编码器使用10^-4学习率在全分辨率图像上训练10 000次。最后，以学习率为10^-5进行另一轮训练，训练20 000次。

3.4 单目标视频对象分割

为验证模型性能，在单目标对象数据集DAVIS 2016上与其他方法进行实验对比，评估结果如表 1所示。可以看出，基于在线微调的方法PReMVOS(proposal-generation，refinement and merging for video object segmentation)与e-OSVOS(make one-shot video object segmentation efficient again)获得了较高的准确率。但考虑到在测试阶段需要大量时间进行微调，其计算成本巨大且运行速度非常慢，因此这个准确率相对较低。在无需微调的方法中，本文方法获得了优异的性能，甚至实现了与基于在线微调方法相当的精度，但速度快了若干个量级。准确度较高的STM(video object segmentation using space-time memory networks)、CFBI(collaborative video object segmentation by foreground-background integration)和KMN(kernelized memory network for video object segmentation)等算法，虽然综合性能优于本文方法，但是这些方法严重依赖使用大规模图像数据集进行复杂的预训练，而本文性能是在有限数据上训练获得的，无需依赖使用大规模数据。

表 1 不同方法在DAVIS 2016数据集(验证集)的评估结果
Table 1 Evaluation results of different methods on DAVIS 2016 dataset (validation set)

下载CSV

算法	在线微调	J&F-mean/%	J/%	F/%	速度/(帧/s)
PReMVOS(Luiten等，2018)	使用	86.8	84.9	88.6	0.03
e-OSVOS(Meinhardt和Leal-Taixé，2020)	使用	86.8	86.6	87.0	0.29
RGMP(Oh等，2018)	不使用	81.8	81.5	82.0	7.7
FEELVOS(Voigtlaender等，2019)	不使用	81.7	81.1	82.2	1.9
STM(Oh等，2019)	不使用	89.4	88.7	90.1	6.3
CFBI(Yang等，2020)	不使用	89.4	88.3	90.5	5.6
GC(Li等，2020)	不使用	86.7	87.6	85.7	25
KMN(Seong等，2020)	不使用	90.5	89.5	91.5	5.8
本文	不使用	83.2	82.5	83.8	6.8
注：加粗字体表示各列最优结果。

3.5 多目标视频分割

为进一步展现本文模型性能，在场景更为复杂的DAVIS 2017数据集上进行了实验，评估结果如表 2所示。可以看出，虽然RGMP算法在DAVIS 2016数据集上获得了与本文方法相当的性能，但在DAVIS 2017数据集上只获得了66.8%的J&F-mean得分，且速度只有3.3帧/s，而本文方法的J&F-mean达到了72.3%，且速度几乎不变。相比STM与CFBI算法，虽然精度优于本文方法，但本文方法的速度更快，而原本在DAVIS 2016数据集上它们的速度相当。这是因为它们独立地处理每个对象实例，最后将每个对象结果组合在一起，因此在目标对象更多的DAVIS 2017数据集上速度较慢。而本文方法可以一次性分割出多个目标。由此可以推断，随着目标对象数量的增多，它们的速度会随之下降。图 6展示了本文方法的部分结果。

表 2 不同方法在DAVIS 2017数据集(验证集)的评估结果
Table 2 Evaluation results of different methods on DAVIS 2017 dataset (validation set)

下载CSV

算法	在线微调	J&F-mean/%	J/%	F/%	速度/(帧/s)
PReMVOS(Luiten等，2018)	使用	77.9	73.9	81.8	0.03
e-OSVOS(Meinhardt和Leal-Taixé，2020)	使用	77.2	74.4	80.0	0.29
RGMP(Oh等，2018)	不使用	66.8	64.8	68.8	3.3
FEELVOS(Voigtlaender等，2019)	不使用	71.6	69.1	74.0	1.9
STM(Oh等，2019)	不使用	81.8	79.2	84.3	3.1
CFBI(Yang等，2020)	不使用	81.9	79.1	84.6	2.8
GC(Li等，2020)	不使用	71.4	69.3	73.5	25
KMN(Seong等，2020)	不使用	82.8	80.0	85.6	5.8
本文	不使用	72.3	69.9	74.7	6.8
注：加粗字体表示各列最优结果。

图 6 本文方法在DAVIS 2017数据集上的分割结果

Fig. 6 Segmentation results of our method on DAVIS 2017 dataset

((a) parkour; (b) libby; (c) kite-surf; (d) horse jump-high; (e) moto cross-jump; (f) bike-packing)

此外，为了更好地展现算法的性能，将本文方法与其他方法在DAVIS 2017验证集上的一些结果进行了可视化。为了验证本文方法区分相似目标的能力，选取了背景中存在相似物体干扰的视频，如图 7所示(图中右上角的序号表示视频帧的序数)。可以看出，相比RGMP算法，本文方法可以较好地分割出感兴趣的目标，背景中相似的物体并没有产生过多影响。而RGMP算法不仅分割出了目标对象，而且将背景中相似的物体分割了出来。

图 7 本文方法与其他方法的可视化结果对比

Fig. 7 Comparison of the visualization results of our method with other methods

((a) original images; (b) ground-truth; (c) RGMP; (d) STM; (e) CFBI; (f) ours)

图 8展现了本文方法适应视频目标运动过快及发生尺度变化的能力。可以看出，本文方法能够很好地应对快速运动且发生尺度变化的目标。效果最好的是STM和CFBI算法，它们需要依赖大量的图像数据或合成数据进行训练才可达到此效果。而本文方法性能是在有限数据训练下得到的。此外，对于多目标的视频，STM与CFBI等算法需要单独分割出每个对象并合成，而本文方法只需一次推理就可分割出所有对象，因此本文方法在速度上要快得多。

图 8 本文方法与其他方法在视频目标运动过快及发生尺度变化时的结果对比

Fig. 8 Comparison of the results of our method with other methods when the video target moves too fast and changes in scale

((a) original images; (b) ground-truth; (c) RGMP; (d) STM; (e) CFBI; (f) ours)

3.6 消融研究

为了研究算法中不同模块选择对整体性能的影响，在DAVIS 2016数据集上对本文算法关键部件进行消融分析，结果如表 3所示。其中，实验1是不使用任何额外辅助机制的模型，J&F-mean得分为73.4%。实验2是只使用自注意力机制进行预测的模型，此时J&F-mean得分增加了1.8%。实验3是同时使用自注意力机制和在线更新机制，此时的J&F-mean提高了4.6%。实验4是最终模型，同时使用自注意力机制、在线更新机制和全局校正机制，额外使用全局校正机制使模型的J&F-mean得分提高了3.4%。

表 3 每个部件的消融实验
Table 3 Ablation study for each component

下载CSV

/%
实验	自注意力机制	在线更新机制	全局校正机制	J&F-mean
1	-	-	-	73.4
2	√	-	-	75.2
3	√	√	-	79.8
4	√	√	√	83.2
注：加粗字体表示最优结果，“√”表示采用，“-”表示未采用。

3.7 视觉词数量和更新时机对模型性能的影响

本文通过实验评估了视觉词数量$K$对模型性能的影响。图 9和图 10分别展示了视觉词数量对准确率和运行时间的影响。可以看出，视觉词数量$K$从50增加到250时，准确率随之提高；$K$取值在250~350之间时，准确率趋于平稳；$K=400$时，准确率略有下降，此时虽然没有发生显著性改变，但增加了运行时间。可以想象，更多的视觉词会带来更大的内存开销，也容易在少量信息下过度拟合，而且耗时很多。因此本文使用视觉词数量$K=250$与现有方法进行对比。

图 9 视觉词数量对准确率的影响

Fig. 9 The effect of the number of visual words on accuracy

图 10 视觉词数量对速度的影响

Fig. 10 The effect of the number of visual words on speed

图 11展示了视觉词数量$K$对分割结果的影响。从图 11给出的定性结果可以看出，增加视觉词的数量$K$可以改善目标对象的表示，从而改善分割结果，这是因为增加视觉词的数量可以更好地捕捉物体内部的差异。

图 11 视觉词数量$K$对分割结果的影响

Fig. 11 The effect of the number of visual words on segmentation results

((a) $K$ = 50; (b) $K$ = 250; (c) $K$ = 400)

对于在线更新机制，更新的时机选择也会对模型性能产生影响，本文通过实验评估了字典更新频率$δ$对准确率的影响，结果如图 12所示。较小的间隔意味着更频繁的更新，这增加了系统更平滑地适应动态场景和异常值的能力。然而，过小的值(如$\delta=1$)也会增加出现噪声的概率，对预测性能产生不利影响。因此，采用合适的更新频率至关重要。根据实验，设定$\delta=5$，即每5帧更新一次视觉字典，此时算法的综合性能最好。值得注意的是，提出的在线更新机制具有较小的计算成本，并且在线更新机制仅更新现有的视觉词，因此几乎没有增加任何开销。

图 12 字典更新频率对准确率的影响

Fig. 12 The effect of update frequency

3.8 定性结果

本文方法对挑战性的场景具有鲁棒性，包括目标对象的外观变化、各种相机运动、快速运动以及遮挡。图 13展示了本文算法在DAVIS 2017验证集上的一些定性结果。可以看出，即使在困难的情况下，如弯道漂移(第1行)、直线漂移(第2行)、摩托车越野赛(第4行)中的外观大规模变化且运动速度较快、“利比”序列(第3行)的遮挡以及跑酷(第5行)中大的动作变化，本文算法都能够准确地分割物体。

图 13 DAVIS 2017验证集上的一些定性结果

Fig. 13 Some results on the DAVIS 2017 validation sets

4 结论

本文利用视频第1帧标注的对象掩膜信息，在无监督情况下构建用于表示感兴趣目标对像的视觉词，提出一种融合视觉词和自注意力机制的视频目标分割算法。为了应对训练数据集不足情况，使用了一种新颖的学习方法——元学习。元学习通常定义为从大量任务中学习一种通用的学习算法，可以很好地适应不同的任务，因此在测试阶段能够更好地适应新任务。并且受注意力机制的启发，通过应用自注意力捕获多个相似图中的全局依赖关系。此外，为了更好地处理目标对象在运动过程中的外观变化和视觉词失配问题，提出了在线更新和全局校正机制，进一步提高了准确率。本文方法在复杂场景下获得了较好结果，特别是在处理运动中发生形变和速度过快的问题上达到了很好的效果。但本文方法的分割精度和速度还无法满足实际场景的应用需求。针对该问题，下一步工作拟加入之前所有帧信息对目标帧进行预测，并解决其带来的计算成本与内存占用问题，以进一步提高预测精度和运行速度。

参考文献

Bertinetto L, Henriques J F, Torr P H S and Vedaldi A. 2019. Meta-learning with differentiable closed-form solvers[EB/OL]. [2021-03-03]. https://arxiv.org/pdf/1805.08136.pdf

Bhat G, Danelljan M, van Gool L and Timofte R. 2019. Learning discriminative model prediction for tracking//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea (South): IEEE: 6181-6190[DOI: 10.1109/ICCV.2019.00628]

Caelles S, Maninis K K, Pont-Tuset J, Leal-Taixé L, Cremers D and van Gool L. 2017. One-shot video object segmentation//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 5320-5329[DOI: 10.1109/CVPR.2017.565]

Chen Y H, Pont-Tuset J, Montes A and van Gool L. 2018. Blazingly fast video object segmentation with pixel-wise metric learning//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 1189-1198[DOI: 10.1109/CVPR.2018.00130]

Choi J, Kwon J and Lee K M. 2019. Deep meta learning for real-time target-aware visual tracking//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea (South): IEEE: 911-920[DOI: 10.1109/ICCV.2019.00100]

Deng J, Dong W, Socher R, Li L J, Li K and Li F F. 2009. ImageNet: a large-scale hierarchical image database//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA: IEEE: 248-255[DOI: 10.1109/CVPR.2009.5206848]

Dosovitskiy A, Fischer P, Ilg E, Häusser P, Hazirbas C, Golkov V, van der Smagt P, Cremers D and Brox T. 2015. FlowNet: learning optical flow with convolutional networks//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 2758-2766[DOI: 10.1109/ICCV.2015.316]

Finn C, Abbeel P and Levine S. 2017. Model-agnostic meta-learning for fast adaptation of deep networks[EB/OL]. [2021-03-03]. https://arxiv.org/pdf/1703.03400.pdf

Fu J, Liu J, Tian H J, Li Y, Bao Y J, Fang Z W and Lu H Q. 2019. Dual attention network for scene segmentation//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 3141-3149[DOI: 10.1109/CVPR.2019.00326]

Hao T L, Li X Y. 2021. Video object detection method for improving the stability of bounding box. Journal of Image and Graphics, 26(1): 113-122 (郝腾龙, 李熙莹. 2021. 提升预测框定位稳定性的视频目标检测. 中国图象图形学报, 26(1): 113-122) [DOI:10.11834/jig.200417]

Hao X Y, Xiong J F, Xue X D, Shi J, Wen K, Han W T, Li X Y, Zhao J, Fu X L. 2020. 3D U-Net with dual attention mechanism for lung tumor segmentation. Journal of Image and Graphics, 25(10): 2119-2127 (郝晓宇, 熊俊峰, 薛旭东, 石军, 文可, 韩文廷, 李骁扬, 赵俊, 傅小龙. 2020. 融合双注意力机制3D U-Net的肺肿瘤分割. 中国图象图形学报, 25(10): 2119-2127) [DOI:10.11834/jig.200282]

He K M, Zhang, X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 770-778[DOI: 10.1109/CVPR.2016.90]

Hu T Y, Huang J B and Schwing A G. 2018. VideoMatch: matching based video object segmentation//Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany: Springer: 56-73[DOI: 10.1007/978-3-030-01237-3_4]

Huang Z L, Wang X G, Huang L C, Huang C, Wei Y C and Liu W Y. 2019. CCNet: criss-cross attention for semantic segmentation//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea (South): IEEE: 603-612[DOI: 10.1109/ICCV.2019.00069]

Ilg E, Mayer N, Saikia T, Keuper M, Dosovitskiy A and Brox T. 2017. FlowNet 2.0: evolution of optical flow estimation with deep network//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 1647-1655[DOI: 10.1109/CVPR.2017.179]

Khoreva A, Benenson R, Ilg E, Brox T, Schiele B. 2019. Lucid data dreaming for video object segmentation. International Journal of Computer Vision, 127(2): 1175-1197 [DOI:10.1007/s11263-019-01164-6]

Lee K, Maji S, Ravichandran A and Soatto S. 2019. Meta-learning with differentiable convex optimization//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 10649-10657[DOI: 10.1109/CVPR.2019.01091]

Li X X and Change Loy C. 2018. Video object segmentation with joint re-identification and attention-aware mask propagation//Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany: Springer: 93-110[DOI: 10.1007/978-3-030-01219-9_6]

Li Y, Shen Z R and Shan Y. 2020. Fast video object segmentation using the global context module//Proceedings of the 16th European Conference on Computer Vision (ECCV). Glasgow, UK: Springer: 735-750[DOI: 10.1007/978-3-030-58607-2_43]

Li Z W, Chen Q F and Koltun V. 2018. Interactive image segmentation with latent diversity//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 577-585[DOI: 10.1109/CVPR.2018.00067]

Liang Y Q, Li X, Jafari N and Chen Q. 2020. Video object segmentation with adaptive feature bank and uncertain-region refinement[EB/OL]. [2021-03-03]. https://arxiv.org/pdf/2010.07958.pdf

Liu Y, Liu L Q, Zhang H K, Rezatofighi H and Reid I. 2020. Meta learning with differentiable closed-form solver for fast video object segmentation//Proceedings of 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems. Las Vegas, USA: IEEE: 8439-8446[DOI: 10.1109/IROS45743.2020.9341282]

Lu X K, Wang W G, Danelljan M, Zhou T F, Shen J B and van Gool L. 2020. Video object segmentation with episodic graph memory networks//Proceedings of the 16th European Conference on Computer Vision (ECCV). Glasgow, UK: Springer: 661-679[DOI: 10.1007/978-3-030-58580-8_39]

Luiten J, Voigtlaender P and Leibe B. 2018. PReMVOS: proposal-generation, refinement and merging for video object segmentation//Proceedings of the 14th Asian Conference on Computer Vision (ACCV). Perth, Australia: Springer: 565-580[DOI: 10.1007/978-3-030-20870-7_35]

Maninis K K, Caelles S, Chen Y, Pont-Tuset J, Leal-Taixé L, Cremers D, van Gool L. 2019. Video object segmentation without temporal information. IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(6): 1515-1530 [DOI:10.1109/TPAMI.2018.2838670]

Meinhardt T and Leal-Taixé L. 2020. Make one-shot video object segmentation efficient again[EB/OL]. [2021-03-03]. https://arxiv.org/pdf/2012.01866.pdf

Oh S W, Lee J Y, Sunkavalli K and Kim S J. 2018. Fast video object segmentation by reference-guided mask propagation//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 7376-7385[DOI: 10.1109/CVPR.2018.00770]

Oh S W, Lee J Y, Xu N and Kim S J. 2019. Video object segmentation using space-time memory networks//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea (South): IEEE: 9225-9234[DOI: 10.1109/ICCV.2019.00932]

Park E and Berg A C. 2018. Meta-tracker: fast and robust online adaptation for visual object trackers//Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany: Springer: 587-604[DOI: 10.1007/978-3-030-01219-9_35]

Perazzi F, Khoreva A, Benenson R, Schiele B and Sorkine-Hornung A. 2017. Learning video object segmentation from static images//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 3491-3500[DOI: 10.1109/CVPR.2017.372]

Seong H, Hyun J and Kim E. 2020. Kernelized memory network for video object segmentation//Proceedings of the 16th European Conference on Computer Vision (ECCV). Glasgow, UK: Springer: 629-645[DOI: 10.1007/978-3-030-58542-6_38]

Shen Z Q, Liu Z, Li J G, Jiang Y G, Chen Y R, Xue X Y. 2020. Object detection from scratch with deep supervision. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42(2): 398-412 [DOI:10.1109/TPAMI.2019.2922181]

Tang R F, Song H H, Zhang K H, Jiang S H. 2019. Video object segmentation via feature attention pyramid modulating network. Journal of Image and Graphics, 24(8): 1349-1357 (汤润发, 宋慧慧, 张开华, 姜斯浩. 2019. 特征注意金字塔调制网络的视频目标分割. 中国图象图形学报, 24(8): 1349-1357) [DOI:10.11834/jig.180661]

Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez A N, Kaiser Ł and Polosukhin I. 2017. Attention is all you need[EB/OL]. [2021-03-03]. https://arxiv.org/pdf/1706.03762.pdf

Voigtlaender P, Chai Y N, Schroff F, Adam H, Leibe B and Chen L C. 2019. FEELVOS: fast end-to-end embedding learning for video object segmentation//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 9473-9482[DOI: 10.1109/CVPR.2019.00971]

Voigtlaender P and Leibe B. 2017. Online adaptation of convolutional neural networks for video object segmentation[EB/OL]. [2021-03-03]. https://arxiv.org/pdf/1706.09364.pdf

Wang Z Q, Xu J, Liu L, Zhu F and Shao L. 2019. RANet: ranking attention network for fast video object segmentation//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea (South): IEEE: 3977-3986[DOI: 10.1109/ICCV.2019.00408]

Yang L J, Wang Y R, Xiong X H, Yang J C and Katsaggelos A K. 2018. Efficient video object segmentation via network modulation//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 6499-6507[DOI: 10.1109/CVPR.2018.00680]

Yang Z X, Wei Y C and Yang Y. 2020. Collaborative video object segmentation by foreground-background integration[EB/OL]. [2021-03-03]. https://arxiv.org/pdf/2003.08333.pdf

Zhang H, Zhang H, Wang C G and Xie J Y. 2019. Co-occurrent features in semantic segmentation//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 548-557[DOI: 10.1109/CVPR.2019.00064]

Zhang Z P and Peng H W. 2019. Deeper and wider Siamese networks for real-time visual tracking//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 4586-4595[DOI: 10.1109/CVPR.2019.00472]