发布时间: 2021-02-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190658
2021 | Volume 26 | Number 2

图像分析和识别

孪生导向锚框RPN网络实时目标跟踪

尚欣茹^1,2, 温尧乐^1,2, 奚雪峰^1,3, 胡伏原^1,3

1. 苏州科技大学电子与信息工程学院, 苏州 215009;

2. 苏州科技大学苏州市大数据与信息服务重点实验室, 苏州 215009;

3. 苏州科技大学苏州市虚拟现实智能交互及应用技术重点实验室, 苏州 215009

收稿日期: 2019-12-16; 修回日期: 2020-04-11; 预印本日期: 2020-04-18

基金项目: 国家自然科学基金项目(61876121);江苏省重点研发计划项目(BE2017663);江苏省教育厅高等学校自然科学研究面上项目(19KJB520054)

作者简介: 尚欣茹, 1996年生, 女, 硕士研究生, 主要研究方向为计算机视觉。E-mail:shangxinru1996@163.com;
温尧乐, 男, 硕士研究生, 主要研究方向为计算机视觉。E-mail:wenyaole@163.com;
奚雪峰, 男, 副教授, 主要研究方向为自然语言处理、计算机视觉。E-mail:104256420@qq.com;
胡伏原, 通信作者, 男, 教授, 主要研究方向为机器学习及计算机视觉。E-mail:fuyuanhu@mail.usts.edu.cn

中图法分类号: TP301.6

文献标识码: A

文章编号: 1006-8961(2021)02-0415-10

摘要

目的区域推荐网络（region proposal network，RPN）与孪生网络（Siamese）相结合进行视频目标跟踪，显示了较高的准确性。然而，孪生RPN网络（Siamese region proposal network，SiamRPN）目标跟踪器依赖于密集的锚框策略，会产生大量冗余的锚框并影响跟踪的精度和速度。为了解决该问题，本文提出了孪生导向锚框RPN网络（Siamese-guided anchor RPN，Siamese GA-RPN）。方法 Siamese GA-RPN的主要思想是利用语义特征来指导锚框生成。其中导向锚框网络包括位置预测模块和形状预测模块，这两个模块分别利用孪生网络中CNN（convolutional neural network）产生的语义特征预测锚框的位置和长宽尺寸，减少了冗余锚框的产生。然后，进一步设计了特征自适应模块，利用每个锚框的形状信息，通过可变卷积层来修正跟踪目标的原始特征图，降低目标特征与锚框信息的不一致性，提高了目标跟踪的准确性。结果在3个具有挑战性的视频跟踪基准数据集VOT（video object tracking）2015、VOT2016和VOT2017上进行了跟踪实验，测试了算法在目标快速移动、遮挡和光照等复杂场景下的跟踪性能，并与多种优秀算法在准确性和鲁棒性两个评价指标上进行定量比较。在VOT2015数据集上，本文算法与孪生RPN网络相比，准确性提高了1.72%，鲁棒性提高了5.17%；在VOT2016数据集上，本文算法与孪生RPN网络相比，准确性提高了3.6%，鲁棒性提高了6.6%；在VOT2017数据集上进行实时实验，本文算法表现出了较好的实时跟踪效果。结论通过孪生导向锚框RPN网络提高了锚框生成的有效性，确保了特征与锚框的一致性，实现了对目标的精确定位，较好地解决了锚框尺寸对目标跟踪精度的影响。在目标尺度发生变化、遮挡、光照条件变化和目标快速运动等复杂场景下仍然表现出了较强的鲁棒性和适应性。

关键词

目标跟踪; 孪生网络; RPN网络; 导向锚框; 特征适应

Target tracking system based on the Siamese guided anchor region proposal network

Shang Xinru^1,2, Wen Yaole^1,2, Xi Xuefeng^1,3, Hu Fuyuan^1,3

1. School of Electronic and Information Engineering, Suzhou University of Science and Technology, Suzhou 215009, China;

2. Suzhou Key Laboratory for Big Data and Information Service, Suzhou University of Science and Technology, Suzhou 215009, China;

3. Virtual Reality Key Laboratory of Intelligent Interaction and Application Technology of Suzhou, Suzhou University of Science and Technology, Suzhou 215009, China

Supported by: National Natural Science Foundation of China(61876121)

Abstract

Objective After combining the region proposal network (RPN) with the Siamese network for video target tracking, improved target trackers have been consecutively proposed, all of which have demonstrated relatively high accuracy. Through analysis and comparison, we found that the anchor frame strategy of the RPN module of a Siamese RPN (SiamRPN) generates a large number of anchor frames generated through a sliding window. We then calculate the intersection over union (IOU) between anchor frames to generate candidate regions. Subsequently, we determine the position of target through the classifier and optimize the position of the frame regression. Although this method improves the accuracy of target tracking, it does not consider the semantic features of the target image, resulting in inconsistencies between the anchor frame and the features. It also generates a large number of redundant anchor frames, which exert a certain effect on the accuracy of target tracking, leading to a considerable increase in calculation amount. Method To solve this problem, this study proposes a Siamese guided anchor RPN (Siamese GA-RPN). The primary idea is to use semantic features to guide the anchoring and then convolve with the frame to be detected to obtain the response score figure. Lastly, end-to-end training is achieved on the target tracking network. The guided anchoring network is designed with location and shape prediction branches. The two branches use the semantic features extracted by the convolutional neural network (CNN) in the Siamese network to predict the locations wherein the center of the objects of interest exist and the scales and aspect ratios at different locations, reducing the generation of redundant anchors. Then, a feature adaptive module is designed. This module uses the variable convolution layer to modify the original feature map of the tracking target on the basis of the shape information of the anchor frame at each position, reducing the inconsistency between the features and the anchors and improving target tracking accuracy. Result Tracking experiments were performed on three challenging video tracking benchmark datasets: VOT(viedo object tracking)2015, VOT2016, and VOT2017. The algorithm's tracking performance was tested on complex scenes, such as fast target movement, occlusion, and lighting. A quantitative comparison was made on two evaluation indexes: accuracy and robustness. On the VOT2015 dataset, the accuracy of the algorithm was improved by 1.72% and robustness was increased by 5.17% compared with those of the twin RPN network. On the VOT2016 dataset, the accuracy of the algorithm was improved by 3.6% compared with that of the twin RPN network. Meanwhile, robustness was improved by 6.6%. Real-time experiments were performed on the VOT2017 dataset, and the algorithm proposed in this study demonstrates good real-time tracking effect. Simultaneously, this algorithm was compared with the full convolutional Siam (Siam-FC) and Siam-RPN on four video sequences: rainy day, underwater, target occlusion, and poor light. The algorithm developed in this study exhibits good performance in the four scenarios in terms of tracking effect. Conclusion The anchor frame RPN network proposed in this study improves the effectiveness of anchor frame generation, ensures the consistency of features and anchor frames, achieves the accurate positioning of targets, and solves the problem of anchor frame size target tracking accuracy influences. The experimental results on the three video tracking benchmark data sets show better tracking results, which are better than several top-ranking video tracking algorithms with comprehensive performance, and show good real-time performance. And it can still track the target more accurately in complex video scenes such as change in target scale, occlusion, change in lighting conditions, fast target movement, etc., which shows strong robustness and adaptability.

Key words

target tracking; Siamese network; region proposal network(RPN); guided anchoring; feature adaptation

0 引言

视频目标跟踪受到越来越多的关注，并且一直是一个非常活跃的研究方向，在视觉监控、人机互交和增强现实等领域有着广泛应用。尽管取得了很大进展，但由于光照变化、遮挡和杂乱背景等众多因素的影响，视频目标跟踪仍然是一项非常具有挑战性的任务(Wu等，2015；Zhang和Peng，2019)。

受图像分类的启发，深度卷积神经网络(deep convolutional neural network，DCNN)已经引入到视频跟踪中，并表现了出色的性能。Wang等人(2015)引入了全卷积神经网络跟踪(fully convolutional network track，FCNT)方法。Ma等人(2015)用深层特征代替相关滤波器跟踪中的手工特征，获得了较好的跟踪结果。Nam和Han(2016)提出了一种具有在线微调功能的轻型CNN架构，以学习用于跟踪目标的通用特征。Fan和Xiang(2017)通过引入递归神经网络(recurrent neural network，RNN)捕获对象结构来扩展这种方法。Song等人(2018)在CNN中应用对抗学习来学习更丰富的表示形式以进行跟踪。Danelljan等人(2016)提出了用于相关滤波器跟踪的连续卷积滤波器，并且之后对该方法进行了优化(Danelljan等，2017)。

基于孪生网络的目标跟踪器(Tao等，2016；Bertinetto等，2016a；王宇义等，2017)因为其跟踪精度和效率受到极大关注。这些孪生目标跟踪器通过学习目标模板和搜索区域特征表示之间的互相关，将视觉目标跟踪问题描述为学习一个通用的相似性映射。为了从两个分支的互相关中生成一个相似图，Bertinetto等人(2016a)训练了一个连接两个网络分支的Y形神经网络，一个用于目标模板，另一个用于搜索区域。此外，这两个分支可以在跟踪阶段保持不变或在线更新以适应目标的外观变化。为了保证跟踪效率，离线学习的孪生相似度函数在运行时经常是固定的。CFNet跟踪器(Valmadre等，2017)和DSiam(dynamic Siamese)跟踪器(Guo等，2017)分别通过运行平均模板和快速转换模块更新跟踪模型。SiamRPN跟踪器(Li等，2018)在Siame网络之后引入区域推荐网络(region proposal network，RPN)，将分类和回归合并用来跟踪。DaSiamRPN(distractor-aware SiamRPN)跟踪器(Zhu等，2018)进一步引入了一个干扰感知模块，并提高了模型的识别能力。上述基于孪生网络的跟踪器已经取得了突出的跟踪性能，特别是在平衡精度和速度方面表现优异。但即使是性能最好的区域推荐孪生跟踪器(如SiamPRN在性能上有了很大提高，产生了良好的结果)在OTB(object tracker Benchmark)基准上，跟踪精度仍然与最先进的深层跟踪算法(如ECO(efficient convolution operators)和MDNet(multi-domain network))存在较大差距。

通过对SiamPRN进行分析，发现其RPN模块中的锚框策略是通过滑动窗口产生的大量锚框来生成候选区域，然后再进行分类和边界框回归优化位置。该方法没有考虑目标图像的语义特征，造成锚框与特征的不一致，并且产生大量冗余的锚框，导致计算量大幅增加。为了解决上述问题，本文基于孪生RPN网络引入导向锚框网络(guided anchoring)(Wang等，2019a)，通过语义特征来指导生成稀疏的锚框。首先利用孪生网络中CNN提取得到的语义特征来预测锚框位置和不同位置锚框的长宽尺寸，然后通过一个导向锚框自适应模块来降低目标特征和锚框信息的不一致性，从而提高了视频中目标跟踪的精确度和网络性能。

1 孪生导向锚框RPN网络

1.1 孪生导向锚框RPN网络框架

锚框的设计通常要满足对齐和一致性两个规则。对齐指的是锚框的中心要与特征图中目标像素点的中心有比较好的对齐。一致性指的是不同位置的锚框大小和尺寸要保持一致。滑动窗口机制是遵循上述规则的一种简单而广泛应用的锚框机制，但这种机制存在两个问题：1)需要对不同的目标物设计不同尺寸比例的锚框，若设计错误将会影响检测的精度和速度；2)为了保证对候选区域有较高的召回率，需要生成大量的锚框，但大部分锚框是与目标物无关的假样本，同时这些锚框的计算也会占用大量的计算资源。

为了得到与目标物体形状和位置匹配的锚框，需要增强网络对极大极小或宽高比悬殊物体跟踪的鲁棒性，并提高视频跟踪网络的速度。如图 1所示，本文的孪生导向锚框RPN网络由用于特征提取的孪生网络和用于提取候选区域的导向锚框RPN网络组成。导向锚框RPN网络上部分为分类分支，用于区分目标和背景；下部分为边框回归分支，用于对候选区域进行微调。导向锚框模块通过孪生网络提取得到的语义特征对模板帧进行锚框预测，然后与待检测帧进行卷积得到响应分数图，实现端到端的训练。

图 1 孪生导向锚框RPN网络图

Fig. 1 Siamese-guided anchor region proposal network

1.2 导向锚框预测

锚框是孪生RPN网络实现视频跟踪的基础，但该框架依赖于锚框的统一设置，即将一组预设长宽比的锚框以步长S在大小为W × S的特征图上通过滑动窗口的方式得到大量锚框，但由于许多锚框会放置在不太可能存在目标的区域中，导致出现大量冗余的锚框，所以该方案的效率不高。为此，本文引入一种高效率的导向锚框方案，根据孪生网络中CNN提取得到的高层语义特征中目标物体位置和形状的分布来学习锚框的形状。假设目标物体的位置和形状用$\left({x, y, w, h} \right)$来表示，其中$\left({x, y} \right)$是目标物体的中心坐标，$w$为宽度，$h$为高度，则在图像$\mathit{\boldsymbol{I}}$中，目标物的位置和形状的分布为

$ p\left({x, y, w, h|\mathit{\boldsymbol{I}}} \right){\rm{ = }}p\left({x, y|\mathit{\boldsymbol{I}}} \right)p\left({x, h|x, h, \mathit{\boldsymbol{I}}} \right) $

(1)

位置预测模块的目标是预测哪些区域应该作为中心点来生成锚框，这是一个二分类问题。如图 2所示，锚框位置预测分支通过N_L网络，使用1 × 1的卷积核与输入特征图F₁进行卷积，得到关于目标位置信息的分数图，再通过sigmoid函数得到每一点的概率值，最后输出一个与输入特征图F₁相同大小的概率图。概率图上点(i，j)表示该位置可能出现检测目标的可能性，与原图$\mathit{\boldsymbol{I}}$上位置((i+0.5)s，(j+0.5)s)相对应，其中s表示特征图的步幅，即相邻锚框之间的距离。根据概率图的结果，通过设置的阈值可以确定检测目标可能存在的位置，该方法可以在保持召回率的条件下过滤掉90%的区域，大幅提高了网络的效率。

图 2 导向锚框网络

Fig. 2 Guided anchor network

形状预测模块的目标是通过给定锚框的中心点学习最佳的高度$h$和宽度$w$，这是一个回归问题。通过分析发现，由于高度$h$和宽度$w$的取值范围较大，直接预测存在一定难度，所以形状预测分支通过一个1 × 1 × 2的卷积网络N_S预测得到${\rm{d}}h$和${\rm{d}}w$，然后通过变换得到预测的高度$h$和宽度$w$，具体为

$ h = \sigma \cdot s \cdot {{\rm{e}}^{{\rm{d}}h}} $

(2)

$ w = \sigma \cdot s \cdot {{\rm{e}}^{{\rm{d}}w}} $

(3)

式中，$s$为步长，$\sigma$为经验系数，在本文的实验中设为8，该非线性变换将训练目标范围从约[0, 1 000]缩小到了[-1, 1]。与以前每个位置预测一系列不同形状锚框的方法相比，该方法每个位置只预测一个动态变换的锚框，具有更高的召回率，并且对于极大或极小形状的物体能够更好地捕捉其信息。

1.3 导向锚框自适应调整

在基于滑动窗口机制的RPN网络中，特征图上每个位置共享的锚框尺寸都是相同的。但在本文引入的导向锚框方法中，特征图上每个位置锚框的大小和形状都不相同，为了保证特征与锚框的形状大小保持一致，即较大的锚框编码较大区域的特征，较小的锚框编码较小区域的特征，又增加了一个特征自适应模块，特征自适应模块的目的是解决不同形状锚框与特征图中感受野不匹配问题，将锚框的形状信息直接融入到特征图中，使得输出新的特征图$\mathit{\boldsymbol{F'}}$中每个特征点都代表一个锚框信息。首先形状预测分支通过一个1 × 1的卷积得到其偏移量，然后将该偏移量与原始特征图${{\mathit{\boldsymbol{F}}_i}}$通过一个3 × 3可变卷积结构网络${N_T}$得到新的特征图$\mathit{\boldsymbol{F'}}$，并在新的特征图上进行后续操作。特征图上每个位置的变换为

$ {\mathit{\boldsymbol{F'}}_i} = {N_T}\left({{\mathit{\boldsymbol{F}}_i}, {w_i}, {h_i}} \right) $

(4)

式中，${{\mathit{\boldsymbol{F}}_i}}$表示第$i$个位置的特征，$\left({{w_i}, {h_i}} \right)$为第$i$个位置对应的锚框形状。

2 实验结果分析

2.1 实验环境及算法参数配置

本文算法的具体实现使用的是深度学习框架PyTorch，实验环境为ubantu14.04操作系统，使用4块NVIDIA 1080Ti图形处理器(GPU)加速运算。以ResNet-50-FPN网络作为基准网络，在视频目标跟踪检测数据集ILSVRC(ImageNet Large Scale Visual Recognition Challenge)上进行训练。ILSVRC数据集包含4 500个视频序列，并且有大约130万个人工标注的边界框，广泛应用在视频跟踪领域。本文在3个具有挑战性并广泛使用的VOT(video object tracking)2015、VOT2016和VOT2017视频基准库上进行测试实验，并与基准算法SiamFC和几个经典算法进行比较实验。

本文实验使用随机梯度下降法进行训练，其中设置动量系数为0.9，权重衰减系数为0.000 5，学习率以指数方式从0.01衰减到0.000 01。视频数据预处理时，若某帧中目标物的大小为(w，h)，则将该帧裁剪为大小为A × A的模板补丁，具体方式为

$ \left({w + p} \right) \times \left({h + p} \right) = {A^2} $

(5)

式中，P=(w+h)/2, 将其调整为127 × 127像素。并以相同的方式裁剪检测补丁，其大小为模板补丁的两倍，然后将其调整为225 × 225像素。

2.2 评价标准

VOT系列数据集是一个认可度比较高并且在视频目标跟踪领域使用频率非常高的单目标追踪标准数据集。VOT系列数据集有两个重要的评价指标：准确性和鲁棒性。

1) 准确性是用来评价跟踪器跟踪目标的准确度，指跟踪器在一个序列上重复跟踪${N_{{\rm{rep}}}}$次的平均准确跟踪率，定义为

$ {\rho _R}\left(i \right) = \frac{1}{{{N_{{\rm{val}}}}}}\sum\limits_{t = 1}^{{N_{{\rm{val}}}}} {{\mathit{\Phi }_t}\left(i \right)} $

(6)

式中，${{N_{{\rm{val}}}}}$表示某个序列中有效帧的数量，${{\mathit{\Phi }_t}\left(i \right)}$表示跟踪器在某个序列上重复${N_{{\rm{rep}}}}$次在第$t$帧上的准确性，定义为

$ {\mathit{\Phi }_t}\left(i \right) = \frac{1}{{N{\rm{rep}}}}\sum\limits_{i = 1}^{N{\rm{rep}}} {{\phi _t}} \left({i, k} \right) $

(7)

式中，${\phi _t}\left({i, k} \right)$表示第$i$个跟踪器在某序列上第$k$次重复时在第$t$帧上的准确性，定义为

$ {\phi _t} = \frac{{\mathit{\boldsymbol{A}}_t^{\rm{G}} \cap \mathit{\boldsymbol{A}}_t^{\rm{T}}}}{{\mathit{\boldsymbol{A}}_t^{\rm{G}} \cup \mathit{\boldsymbol{A}}_t^{\rm{T}}}} $

(8)

式中，${\mathit{\boldsymbol{A}}_t^{\rm{G}}}$表示ground truth对应的目标框，${\mathit{\boldsymbol{A}}_t^{\rm{T}}}$表示第$t$帧跟踪器预测到的目标框。

2) 鲁棒性是用来评价跟踪器跟踪目标的稳定性，指跟踪器在一个序列上重复跟踪${N{\rm{rep}}}$次的平均鲁棒性，定义为

$ {\rho _R}\left(i \right) = \frac{1}{{{N_{{\rm{rep}}}}}}\sum\limits_{k = 1}^{{N_{{\rm{rep}}}}} {F\left({i, k} \right)} $

(9)

式中，${F\left({i, k} \right)}$表示第$i$个跟踪器在某序列上第$k$次重复时失败的次数，即ground truth对应的目标框与跟踪器预测的目标框交集为0。

2.3 实验结果分析

为了验证本文算法的有效性，分别在3个具有挑战性的视频跟踪基准数据集VOT2015、VOT2016、VOT2017和不同场景视频序列上进行了跟踪测试实验，并与多种优秀算法进行定量比较。

2.3.1 VOT2015数据集实验结果

在VOT2015数据集中，主要根据准确性和鲁棒性来评估算法的性能，并使用EAO(expect average overlap)评估整体性能。本文算法与在VOT2015数据集上排名靠前的算法的实验结果比较如表 1所示。可以看出，本文算法与SiamRPN相比，准确性提高了1.72%，鲁棒性提高了5.17%，表明本文算法在性能方面有比较好的表现。在跟踪速率上，本文算法的跟踪速率为142.76帧/s，与SiamRPN相比有所下降，但是远快于其他算法，并且满足实时跟踪的要求。

表 1 本文算法与其他算法在VOT2015数据集中的实验结果对比
Table 1 Comparison of the experimental results of this algorithm and other algorithms on the VOT2015 dataset

下载CSV

算法	EAO	准确性	鲁棒性	速率/(帧/s)
Deep SRDCF(Danelljan等，2015a)	0.318 1	0.57	0.279 7	0.38
EBT(Zhu等，2016)	0.313 0	0.48	0.227 8	1.76
SRDCE(Danelljan等，2015b)	0.287 7	0.56	0.330 9	1.99
RAJSSC(Zhang等，2015)	0.242 0	0.57	0.489 4	2.12
Siam FC(Bertinetto等，2016a)	0.291 5	0.54	-	86
Siam RPN(Li等，2018)	0.358 0	0.58	0.332 6	160
Siam GA-RPN(本文)	0.376 2	0.59	0.349 8	142.76
注：加粗字体表示各列最优结果, “-”表示没有该项指标。

图 3为本文算法与对比算法在VOT2015数据集上的实验结果。序列gymnastics中，目标发生频繁旋转和尺度变换，从第178帧开始由于目标快速旋转和前面跟踪误差的累积, 导致EBT、SRDCF和Deep SRDCF算法的跟踪框都出现了不同程度的漂移，其余算法均能正常跟踪。序列octopus中，目标发生了尺度变化并受到光照影响，在第168帧目标发生尺度变化时，RAJSSC算法的表现较差，只跟踪到目标的一小部分；在第246帧和第286帧目标再一次发生尺度变化时，Deep SRDCF和EBT算法已不能正常跟踪。序列tiger中，目标发生频繁旋转、遮挡和尺度变化，在第97帧目标发生旋转时，RAJSSC算法的表现较差，只跟踪到目标的一小部分；在第184帧目标发生尺度变化时，EBT和SRDCF算法均无法适应目标的尺度变化，出现了轻微的漂移；在第357帧目标出现了大面积的遮挡，EBT、SRDCF和Deep SRDCF算法无法正常跟踪。

图 3 本文算法与对比算法在VOT2015数据集上的实验结果

Fig. 3 Tracking results between the comparative algorithms and ours on VOT2015 dataset ((a) gymnastics; (b) octopus; (c) tiger)

2.3.2 VOT2016数据集实验结果

VOT2016数据集和VOT2015数据集具有一样的序列集，不一样的是VOT2016数据集通过自动的方法对样本进行了重新标注边框。本文算法与在VOT2016数据集上排名靠前的视频目标跟踪算法的比较结果如表 2所示。可以看出，本文算法与SiamRPN算法相比，准确性提高了3.6%，鲁棒性提高了6.6%。跟踪速率为136.28帧/s，虽然不及SiamRPN算法，但是也远快于其他算法，达到了实时跟踪的要求。图 4为本文算法与对比算法在VOT2016数据集上的实验结果。序列basketball中，目标发生了快速移动、尺度变化和遮挡，在第12帧时目标发生了遮挡，MDNet算法的表现较差，只跟踪到了目标的一小部分；在第41帧和第96帧时目标快速移动，CCTO和EBT算法出现了轻微的漂移，不能很好地跟踪目标。序列butterfly中，目标发生了尺度变化和光照影响，在第35帧时目标发生了尺度变换，Staple算法的表现较差，只跟踪到目标的一小部分；在第100帧和第139帧时目标发生了尺度变换并受到光照影响，由于前面误差的累积导致CCTO、EBT和MDNet算法的跟踪框出现了漂移，不能很好地进行跟踪。

表 2 本文算法与其他算法在VOT2016数据集中的实验结果对比
Table 2 Comparison of the experimental results of this algorithm and other algorithms on the VOT2016 dataset

下载CSV

算法	EAO	准确性	鲁棒性	速率/(帧/s)
CCOT(Danelljan等，2016)	0.331 0	0.53	0.237 7	58.24
Staple(Bertinetto等，2016b)	0.286 2	0.54	0.368 2	45.36
EBT(Zhu等，2016)	0.291 3	0.47	0.251 7	1.76
MDNet(Nam和Han，2016)	0.257 2	0.54	0.336 8	1.02
Siam RPN(Li等，2018)	0.331 6	0.55	0.342 7	160
Siam GA-RPN(本文)	0.382 4	0.57	0.365 4	136.28
注：加粗字体表示各列最优结果。

图 4 本文算法与对比算法在VOT2016数据集上的实验结果

Fig. 4 Tracking results between the comparative algorithms and ours on the VOT2016 dataset ((a) basketball; (b) butterfly)

2.3.3 VOT2017数据集实验结果

VOT2017数据集中包含60个更精细的人工标注的视频序列，与VOT2016数据集相比更加具有挑战性，近几年也广泛用于目标跟踪领域。除此之外，在VOT2017数据集上增加了一项新的实时实验，要求所有的跟踪器必须以超过实时的25帧/s的速度处理视频流。如果跟踪算法处理完当前帧的检测，则显示当前帧的跟踪结果；如果没有处理完当前帧的检测，评估器则将上一帧的预测结果作为当前帧的跟踪结果。这样导致速度慢的跟踪算法在处理结果后已经失去了很多帧，无法再找到目标，从而跟踪失败。

将本文算法与在VOT2017数据集上排名靠前的几个实时跟踪器进行比较，结果如图 5所示。本文算法Siam GA-RPN增加了网络的复杂度，在实时跟踪时，跟踪效果稍差于排名第1的SiamRPN，但与排名第3的CSRDCF++相比却提高了17%，表现出了较好的跟踪效果。实验结果足以表明本文孪生导向锚框RPN网络能够很好地适应基于孪生网络的跟踪器。

图 5 本文算法与对比算法在VOT2017数据集上的实时实验结果

Fig. 5 Tracking results of real-time between the comparative algorithms and ours on the VOT2017 dataset

2.3.4 不同场景视频序列实验结果

对本文算法在受雨水影响的rainy day视频序列、受水中光线影响的under water视频序列、存在严重遮挡的occlusion视频序列以及光照条件较差的shaking视频序列上进行了测试对比实验，实验结果如图 6所示。

图 6 本文算法与对比算法在不同场景视频序列中的实验结果

Fig. 6 Tracking results between the comparative algorithms and ours in different video sequences

((a) rainy day; (b) occlusion (cat); (c) underwater (fish); (d) shaking)

在雨天视频序列rainy day中，目标的尺度不断变化，并且受到下雨天光线的影响，当背景出现公交车时，SiamRPN和本文算法能够正常跟踪到目标，SiamFC算法不能正常跟踪，出现了轻微的漂移现象。与SiamRPN算法相比，本文算法的目标框长宽比例效果更好，准确率更高。

在水下视频序列under water中，目标尺度不断变化并受到水中光线和其他鱼群的干扰，SiamFC、SiamRPN和本文算法都能够成功跟踪并监测到目标，但是本文算法检测到的目标框具有更好的长宽比例，并且准确性更好。

在目标遮挡视频序列occlusion中，目标的尺度不断变化，并且存在背景干扰和遮挡问题，SiamFC、SiamRPN和本文算法都能够跟踪监测到目标，但是在出现目标遮挡时，SiamFC算法的表现较差，只能跟踪到目标的一小部分；与SiamRPN算法相比，本文算法可以生成长宽比例更好的目标框。

在光线较差视频序列shaking中，光照条件较差，并存在严重的背景相似干扰和目标模糊问题，SiamRPN和本文算法能够正常跟踪到目标，但是SiamFC算法出现了轻微的漂移，不能正常跟踪目标；与SiamRPN算法相比，本文算法具有更高的准确率。

从实验结果可以看出，本文提出的孪生导向锚框RPN网络得到的锚框与孪生RPN网络相比，具有更好的长宽比例，以及更好的准确性和鲁棒性。

3 结论

针对基于滑动窗口的锚框策略中固定尺寸比例的锚框影响检测精度和生成大量冗余锚框占据计算资源等问题，本文在SiamRPN网络的基础上提出了一种导向锚框策略，利用特征图上的语义信息来指导生成锚框。首先通过位置预测模块和形状预测模块分别预测锚框的位置和长宽尺寸；然后通过锚框自适应模块降低跟踪目标特征与预测锚框的不一致性，使得跟踪器对小目标物体跟踪的准确性大幅提高。在VOT2015、VOT2016和VOT2017公开数据集以及雨天、水下、目标受遮挡和光线较差场景视频序列上进行实验，并与多种跟踪器进行了比较分析。结果表明，所提出的孪生导向锚框RPN网络的准确性和鲁棒性等指标都优于几种综合性能排名靠前的视频跟踪算法，并表现出了较好的实时性。虽然本文提出的算法表现出了优秀的检测结果，但是在对多目标跟踪中的表现并不突出，因此这将成为下一步的研究工作。

参考文献

Bertinetto L, Valmadre J, Golodetz S, Miksik O and Torr P H S. 2016b. Staple: complementary learners for real-time tracking//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 1401-1409[DOI:10.1109/CVPR.2016.156]

Bertinetto L, Valmadre J, Henriques J F, Vedaldi A and Torr P H S. 2016a. Fully-convolutional Siamese networks for object tracking//Proceedings of European Conference on Computer Vision. Amsterdam, the Vetherlands: Springer: 850-865[DOI:10.1007/978-3-319-48881-3_56]

Danelljan M, Bhat G, Khan F S and Felsberg M. 2017. ECO: efficient convolution operators for tracking//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 6931-6939[DOI:10.1109/CVPR.2017.733]

Danelljan M, Häger G, Khan F S and Felsberg M. 2015a. Convolutional features for correlation filter based visual tracking//Proceedings of 2015 IEEE International Conference on Computer Vision Workshop. Santiago, Chile: IEEE: 621-629[DOI:10.1109/ICCVW.2015.84]

Danelljan M, Häger G, Khan F S and Felsberg M. 2015b. Learning spatially regularized correlation filters for visual tracking//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 4310-4318[DOI:10.1109/ICCV.2015.490]

Danelljan M, Robinson A, Khan F S and Felsberg M. 2016. Beyond correlation filters: learning continuous convolution operators for visual tracking//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 472-488[DOI:10.1007/978-3-319-46454-1_29]

Fan H and Xiang J. 2017. Robuot Vsual Tacking via Local-Global Correlation Filter//Proceedings of the Association for the Advance of Artificial Intelligence. Menlo Park, USA: AAAI: 4025-4031[DOl: 10.5555/3298023.3298153]

Guo Q, Feng W, Zhou C, Huang R, Wan L and Wang S. 2017. Learning dynamic Siamese network for visual object tracking//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 1781-1789[DOI:10.1109/ICCV.2017.196]

Li B, Yan J J, Wu W, Zhu Z and Hu X L. 2018. High performance visual tracking with Siamese region proposal network//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 8971-8980[DOI:10.1109/CVPR.2018.00935]

Ma C, Huang J B, Yang X K and Yang M H. 2015. Hierarchical convolutional features for visual tracking//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 3074-3082[DOI:10.1109/ICCV.2015.352]

Nam H and Han B. 2016. Learning multi-domain convolutional neural networks for visual tracking//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 4293-4302[DOI:10.1109/CVPR.2016.465]

Song Y B, Ma C, Wu X H, Gong L J, Bao L C, Zuo W M, Shen C H, Lau R W H and Yang M H. 2018. Vital: visual tracking via adversarial learning//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 8990-8999[DOI:10.1109/CVPR.2018.00937]

Tao R, Gavves E and Smeulders A W M. 2016. Siamese instance search for tracking//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 1420-1429[DOI:10.1109/CVPR.2016.158]

Valmadre J, Bertinetto L, Henriques J, Vedaldi A and Torr P H S. 2017. End-to-end representation learning for correlation filter based tracking//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 5000-5008[DOI:10.1109/CVPR.2017.531]

Wang J Q, Chen K, Yang S, Loy C C and Lin D H. 2019a. Region proposal by guided anchoring//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 2960-2969[DOI:10.1109/CVPR.2019.00308]

Wang L J, Ouyang W L, Wang X G and Lu H C. 2015. Visual tracking with fully convolutional networks//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 3119-3127[DOI:10.1109/ICCV.2015.357]

Wang S Y, Zhou H Y, Yang Y. 2017. Kernel correlation adaptive target tracking based on convolution feature. Journal of Image and Graphics, 22(9): 1230-1239 (王守义, 周海英, 杨阳. 2017. 基于卷积特征的核相关自适应目标跟踪. 中国图象图形学报, 22(9): 1230-1239) [DOI:10.11834/jig.170009]

Wu Y, Lim J, Yang M H. 2015. Object tracking benchmark. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(9): 1834-1848 [DOI:10.1109/TPAMI.2014.2388226]

Zhang M D, Xing J L, Gao J, Shi X C, Wang Q and Hu W M. 2015. Joint scale-spatial correlation tracking with adaptive rotation estimation//Proceedings of 2015 IEEE International Conference on Computer Vision Workshop. Santiago, Chile: IEEE: 595-603[DOI:10.1109/ICCVW.2015.81]

Zhang Z P and Peng H W. 2019. Deeper and wider Siamese networks for real-time visual tracking//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 4586-4595[DOI:10.1109/CVPR.2019.00472]

Zhu G, Porikli F and Li H D. 2016. Beyond local search: tracking objects everywhere with instance-specific proposals//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 943-951[DOI:10.1109/CVPR.2016.108]

Zhu Z, Wang Q, Li B, Wu W, Yan J J and Hu W M. 2018. Distractor-aware Siamese networks for visual object tracking//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 103-119[DOI:10.1007/978-3-030-01240-3_7]