发布时间: 2021-09-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200413
2021 | Volume 26 | Number 10

NCIG 2020

双光流网络指导的视频目标检测

尉婉青, 禹晶, 史薪琪, 肖创柏

北京工业大学信息学部, 北京 100124

收稿日期: 2020-08-10; 修回日期: 2020-11-23; 预印本日期: 2020-11-30

基金项目: 北京市教育委员会科技发展计划项目（KM201910005029）；北京市自然科学基金项目（4212014）

作者简介: 尉婉青, 1995年生, 女, 硕士研究生, 主要研究方向为计算机视觉和深度学习。E-mail: 1454072136@qq.com
禹晶, 女, 副教授, 硕士生导师, 主要研究方向为图像逆处理、稀疏表示和深度学习。E-mail: jing.yu@bjut.edu.cn
史薪琪, 女, 硕士研究生, 主要研究方向为计算机视觉和深度学习。E-mail: 353842346@qq.com
肖创柏, 通信作者, 男, 教授, 博士生导师, 主要研究方向为数字信号处理、音视频信号处理和网络通信。E-mail: cbxiao@bjut.edu.cn
*通信作者: 肖创柏 cbxiao@bjut.edu.cn

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2021)10-2473-12

摘要

目的卷积神经网络广泛应用于目标检测中，视频目标检测的任务是在序列图像中对运动目标进行分类和定位。现有的大部分视频目标检测方法在静态图像目标检测器的基础上，利用视频特有的时间相关性来解决运动目标遮挡、模糊等现象导致的漏检和误检问题。方法本文提出一种双光流网络指导的视频目标检测模型，在两阶段目标检测的框架下，对于不同间距的近邻帧，利用两种不同的光流网络估计光流场进行多帧图像特征融合，对于与当前帧间距较小的近邻帧，利用小位移运动估计的光流网络估计光流场，对于间距较大的近邻帧，利用大位移运动估计的光流网络估计光流场，并在光流的指导下融合多个近邻帧的特征来补偿当前帧的特征。结果实验结果表明，本文模型的mAP（mean average precision）为76.4%，相比于TCN（temporal convolutional networks）模型、TPN+LSTM（tubelet proposal network and long short term memory network）模型、D（&T loss）模型和FGFA（flow-guided feature aggregation）模型分别提高了28.9%、8.0%、0.6%和0.2%。结论本文模型利用视频特有的时间相关性，通过双光流网络能够准确地从近邻帧补偿当前帧的特征，提高了视频目标检测的准确率，较好地解决了视频目标检测中目标漏检和误检的问题。

关键词

目标检测; 卷积神经网络(CNN); 运动估计; 运动补偿; 光流网络; 特征融合

Dual optical flow network-guided video object detection

Yu Wanqing, Yu Jing, Shi Xinqi, Xiao Chuangbai

Faculty of Information Technology, Beijing University of Technology, Beijing 100124, China

Supported by: Scientific Research Common Program of Beijing Municipal Commission of Education (KM201910005029); Beijing Municipal Natural Science Foundation (4212014)

Abstract

Objective Object detection is a fundamental task in computer vision applications, and it provides support for subsequent object tracking, instance segmentation, and behavior recognition. The rapid development of deep learning has facilitated the wide use of convolutional neural network in object detection and shifted object detection from the traditional object detection method to the recent object detection method based on deep learning. Still image object detection has considerably progressed in recent years. It aims to determine the category and the position of each object in an image. The task of video object detection is to locate moving object in sequential images and assign the category label to each object. The accuracy of video object detection suffers from degenerated object appearances in videos, such as motion blur, multi-object occlusion, and rare poses. The methods of still image object detection have achieved excellent results. However, directly applying them to video object detection is challenging because still-image detectors may generate false negatives and positives caused by motion blur and object occlusion. Most existing video object detection methods incorporate temporal consistency across frames to improve upon single-frame detections. Method We propose a video object detection method guided by dual optical flow networks, which precisely propagate the features from adjacent frames to the feature of the current frame and enhance the feature of the current frame by fusing the features of the adjacent frames. Under the framework of two-stage object detection, the deep convolutional network model is used for the feature extraction to produce the feature in each frame of the video. According to the optical flow field, the features of the adjacent frames are used to compensate the feature of the current frame. According to the time interval between the adjacent frames and the current frame, two different optical flow networks are applied to estimate optical flow fields. Specifically, the optical flow network used for small displacement motion estimation is utilized to estimate the optical flow fields for closer adjacent frames. Moreover, the optical flow network used for large displacement motion estimation is utilized to estimate the optical flow fields for further adjacent frames. The compensated feature maps of multiple frames, as well as the feature map of the current frame, are aggregated according to adaptive weights. The adaptive weights indicate the importance of all compensated feature maps to the current frame. Here, the similarity between the compensated feature map and the feature map extracted from the current frame is measured using the cosine similarity metric. If the compensated feature map gets close to the feature map of the current frame, then the compensated feature map is assigned a larger weight; otherwise, it is assigned a smaller weight. An embedding network that consists of three convolutional layers is also applied on the compensated feature maps and the current feature map to produce the embedding feature maps. Then, we utilize the embedding feature maps to compute the adaptive weights. Result Experimental results show that the mean average precision (mAP) score of the proposed method on the ImageNet for video object detection (VID) dataset can achieve 76.42%, which is 28.92%, 8.02%, 0.62%, and 0.24% higher than those of the temporal convolutional network, the method combining tubelet proposal network(TPN) with long short memory network, the method of D(& T loss), and flow-guided feature aggregation (FGFA), respectively. We also report the mAP scores over the slow, medium, and fast objects. Our method combining the two optical flow networks improve the mAP scores of slow, medium, and fast objects by 0.2%, 0.48% and 0.23%, respectively, compared with the method of FGFA. Furthermore, that dual optical flow networks can improve the estimation of optical flow field between the adjacent frames and the current frame. Then, the feature of the current frame can be compensated more precisely using adjacent frames. Conclusion Considering the special temporal correlation of video, the proposed model improves the accuracy of video object detection through the feature aggregation guided by dual optical flow networks under the framework of the two-stage object detection. The usage of dual optical flow networks can accurately compensate the feature of the current frame from the adjacent frames. Accordingly, we can fully utilize the feature of each adjacent frame and reduce false negatives and positives through temporal feature fusion in video object detection.

Key words

object detection; convolutional neural network(CNN); motion estimation; motion compensation; optical flow network; feature fusion

0 引言

静态图像目标检测旨在识别一幅图像中目标所属的类别，并定位到其所在的位置。视频目标检测的任务是在序列图像中对运动目标进行分类和定位，检测结果是时空一致的，不随时间推移发生显著变化。目前，静态图像目标检测的准确率已经取得了显著进步，并广泛应用于多个领域(罗会兰和陈鸿坤，2020)。然而与静态图像目标检测相比，视频目标检测的性能会受到运动目标遮挡、模糊等因素的影响，因此视频目标检测仍然存在很大的挑战。

深度卷积神经网络(convolutional neural networks, CNN)能够通过对图像数据的学习自适应提取特征并对特征进行分类或识别。深度卷积神经网络迅速发展并广泛应用于目标检测领域。Liu等人(2020)、张慧等人(2017)以及赵永强等人(2020)分析总结了基于深度卷积神经网络的静态图像目标检测方法，主要包含单阶段检测和两阶段检测两类。单阶段检测在图像中密集采样并在各采样位置上直接预测目标类别和位置边框。Redmon等人(2016)提出了YOLO(you only look once)模型，将图像输入卷积神经网络(Krizhevsky等，2012)提取特征并直接预测出目标类别和位置。Liu等人(2016)提出了单阶段多框检测(single shot multibox detector, SSD)模型，在多尺度特征图上的每个位置设置不同长宽比的先验框进行预测。裴伟等人(2019)在SSD模型的基础上进行改进，并将其应用于航拍目标检测。单阶段检测提高了检测速度，但是检测准确率有所下降。两阶段检测包括候选区域生成和检测阶段，第1阶段提取大量候选区域，第2阶段对最可能包含目标的候选区域进一步检测。Girshick等人(2014)提出了一种基于区域的卷积神经网络(region based convolutional neural network, R-CNN)，使用选择性搜索(selective search)(Uijlings等，2013)生成大量的候选区域，并分别输入卷积神经网络提取特征，最后使用支持向量机(support vector machine, SVM)和目标框回归方法对候选区域特征进行分类和回归。Fast R-CNN(Girshick，2015)对整幅图像进行特征提取，通过感兴趣区域(region of interest, ROI)池化为候选区域生成固定尺寸的特征图，并提出多任务损失函数对分类和回归进行联合训练。Ren等人(2017)提出了Faster R-CNN，使用候选区域生成网络(region proposal network, RPN)替换选择性搜索的方法，生成少量且准确的候选区域，与检测阶段共享特征提取网络的参数，极大减少了计算量。Dai等人(2016)提出了基于候选区域的全卷积网络(region-based fully convolutional networks, R-FCN)，利用位置敏感得分图(position-sensitive score map)使模型对目标的不同空间位置敏感。两阶段目标检测的候选区域生成阶段增加了时间开销，但是提高了检测准确率。

视频目标检测通常在逐帧应用静态图像目标检测器的基础上考虑时空一致性来提高检测性能。后处理方法首先在单帧图像上进行检测，然后通过不同策略将每帧图像中同一目标的检测结果串联成管道，并对管道中的结果重新计算置信度来保持时间一致。Kang等人(2016)提出了训练时域卷积网络(temporal convolutional networks, TCN)对结合目标跟踪模型生成的管道中的候选区域重新计算置信度，但是模型复杂，计算量大。Kang等人(2017)提出了管道候选网络(tubelet proposal network, TPN)，在静态图像目标检测基础上获取数百个不同的管道，然后用长短时记忆网络(long short term memory network, LSTM)进行分类。Feichtenhofer等人(2017)提出了D (& T loss)模型，构建静态图像目标检测和跨帧跟踪回归的多任务目标函数用于训练模型，可以联合解决检测和跟踪问题。这类通过后处理利用时间一致性的方法是次优的，在训练阶段，检测器并未融合时间和运动信息。端到端的处理方法在训练检测器时利用视频中的时间信息以提高检测的准确率。Zhu等人(2017)提出了光流指导的特征融合(flow-guided feature aggregation, FGFA)模型，该模型将光流场作为运动信息，对多帧图像特征进行自适应加权融合。Xiao和Lee(2018)利用时空记忆模块(spatial-temporal memory module, STMM)从前后相邻帧中递归地传递视频中的时间信息来补偿当前帧的特征。

本文提出了一种双光流网络指导的视频目标检测模型，在两阶段目标检测中R-FCN的框架下，利用视频的时间相关性，通过两种光流网络估计的光流场融合多帧图像特征。为了准确利用近邻帧特征补偿当前帧特征，该模型对于与当前帧间距较小的近邻帧，利用小位移运动估计的光流网络估计光流场，对于间距较大的近邻帧，利用大位移运动估计的光流网络估计光流场，并在光流的指导下融合多个近邻帧的特征来补偿当前帧的特征。实验结果表明，该模型能够减弱视频中运动目标遮挡、模糊等因素对视频目标检测的影响，提高检测准确率。

1 R-FCN和光流网络

1.1 R-FCN模型

卷积神经网络提取的特征具有平移不变性，然而目标检测要求特征是平移可变的。He等人(2016)在Faster R-CNN目标检测的框架下，采用ResNet101作为特征提取网络，利用ResNet101的前4组(91层)卷积层提取整幅图像的特征，并基于此生成候选区域，然后利用第5组卷积层对各个候选区域提取特征，这是因为第4组卷积层提取的特征具有位置细节信息，第5组卷积层对各个候选区域单独提取特征使模型对目标的位置敏感，但是对每个候选区域的卷积操作产生重复计算，增加了时间开销。

在R-FCN模型中，Dai等人(2016)在ResNet101的全部卷积层提取整幅图像的特征之后，增加一组卷积层生成对目标不同空间位置敏感的位置敏感得分图(特征图)。图 1给出了R-FCN的模型结构，该模型主要包括特征提取、候选区域生成和检测3个部分。在特征提取部分，将第5组中的第1个卷积层的步长由2改为1，使最后提取的特征比原始特征的分辨率扩大一倍，有利于对目标进行定位，并在第5组卷积层的后面增加一个膨胀率为2的膨胀卷积层，扩大感受域以增强语义信息，形成Dilated_conv特征。在候选区域生成部分，RPN在前4组卷积层提取的conv4特征上生成候选区域。

图 1 R-FCN模型结构

Fig. 1 R-FCN model structure

在检测部分，将RPN生成的候选区域映射到位置敏感得分图上，将其划分为多个子区域。检测包括分类和定位两个任务，对于分类任务，位置敏感得分图的通道数为$k^2(C+1)$，$k^2$表示每个候选区域所划分的子区域数，$C$为目标的类别数，加上背景类共$C+1$个类。对于每个候选区域，找到各个子区域在对应位置敏感得分图上子区域的特征，并对该子区域中的特征进行池化操作，形成通道数为$C+1$，分辨率为$k×k$的特征图，然后将每一类的特征求平均形成一个$C+1$维向量，并通过softmax计算可得每个候选区域所属类别的置信度。而对于定位任务，位置敏感得分图的通道数为$4k^2$，网络结构与分类任务相同，输出的是每个候选区域位置的4维向量，即中心横、纵坐标以及宽和高。在R-FCN模型中，卷积操作本身不能形成具有空间位置敏感性的得分图，而是通过模型训练，使位置敏感得分图中各组特征对不同的空间位置敏感。

1.2 FlowNetS与FlowNet-SD光流网络

视频中两帧图像之间像素的运动轨迹称为光流场。光流场是一个2维运动向量场，从光流场中可以估计目标运动方向和强度。卷积神经网络逐渐应用于光流估计中。

Dosovitskiy等人(2015)提出了一种基于CNN的光流网络FlowNetS，通过卷积神经网络提取每幅图像的特征并估计光流场，该网络由收缩(contracting)和扩张(expanding)两个阶段构成，其中，收缩阶段利用卷积层提取图像特征，扩张阶段利用转置卷积层恢复特征的空间分辨率。FlowNetS能够较好地解决图像序列中的大位移运动估计。图 2(a)为FlowNetS的模型结构，首先输入沿通道方向堆叠的两幅图像，然后输出$x$方向和$y$方向上的光流场。如图 2 (a)所示，FlowNetS的收缩阶段由6组卷积层构成，第1组和第2组分别包含一个卷积核为$7×7$和$5×5$的卷积层，步长均为2，其余4组包含两个卷积层，其中第3组中第1个卷积层的卷积核为$5×5$，余下卷积层的卷积核均为$3×3$，并且每组的第2个卷积层的步长为2，每经过一组卷积层，特征的尺寸缩小为原来的二分之一；扩张阶段包含4个转置卷积层，每个转置卷积层的输入由上一层的输出、收缩阶段中相同尺寸的特征以及根据上一层特征估计的光流场构成，其目的在于提供局部细节信息。

图 2 光流网络

((a) FlowNetS model structure; (b) FlowNet-SD model structure)

Fig. 2 Optical flow networks

Ilg等人(2017)提出了一种基于CNN的光流网络FlowNet-SD(FlowNet small displacement)，该网络同样由卷积层和转置卷积层构成。FlowNet-SD能够较好地解决图像序列中的小位移运动估计。图 2(b)为FlowNet-SD的模型结构，首先输入沿通道方向堆叠的两幅图像，然后输出$x$方向和$y$方向上的光流场。FlowNet-SD的收缩阶段由7组卷积层构成，第1组包含一个卷积核为$3×3$的卷积层，步长为2，其余6组分别包含两个卷积层，卷积核均为$3×3$，并且每组中第2个卷积层的步长为2，每经过一组卷积层，特征的尺寸缩小为原来的二分之一；扩张阶段包含4个转置卷积层，每个转置卷积层的输入由上一层的输出、收缩阶段中同样尺寸的特征以及根据上一层特征估计的光流场构成，在输入特征图与光流场之间增加一个卷积操作，其目的是使光流场更加平滑。

2 双光流网络指导的视频目标检测模型

本文模型根据视频特有的时间相关性，结合两种光流网络融合多帧图像特征来实现视频目标检测。

2.1 时间特征融合

视频帧间具有时间相关性，FGFA模型(Zhu等，2017)提出利用基于CNN的光流网络估计光流场，根据光流场融合多个近邻帧的特征来补偿当前帧的特征，从而减弱视频中运动目标遮挡、模糊等因素对视频目标检测的影响。为了准确利用近邻帧的特征，本文提出了双光流网络指导的特征融合模块(dual optical flow network-guided feature aggregation, DFGFA)，对于与当前帧间距不同的近邻帧，利用两种不同的光流网络估计光流场，利用小位移运动估计的光流网络FlowNet-SD估计较近的近邻帧与当前帧之间的光流场，而利用大位移运动估计的光流网络FlowNetS估计较远的近邻帧与当前帧之间的光流场，根据相应的光流场从近邻帧对当前帧的特征进行补偿。

设当前帧为${\mathit{\boldsymbol{I}}}^t∈ {{\bf{R}}} ^{H×W×C}$，近邻帧为${\mathit{\boldsymbol{I}}}^{t+τ}∈ {{\bf{R}}} ^{H×W×C}$，其中，$H$、$W$和$C$分别表示当前帧和近邻帧的高、宽和通道数。对于与当前帧间距不同的近邻帧，分别使用光流网络FlowNet-SD和FlowNetS估计光流场，表示为

$ \boldsymbol{M}^{t+\tau \rightarrow t}= \begin{cases}F_{\mathrm{SD}}\left(\boldsymbol{I}^{t}, \boldsymbol{I}^{t+\tau}\right) & |\tau| \leqslant T_{1} \\ F_{S}\left(\boldsymbol{I}^{t}, \boldsymbol{I}^{t+\tau}\right) & T_{1} <|\boldsymbol{\tau}| \leqslant T_{2}\end{cases} $

(1)

式中，$F_{\rm {SD}}(·)$表示光流网络FlowNet-SD，$F_{\rm{S}}(·)$表示光流网络FlowNetS，${\mathit{\boldsymbol{M}}}^{t+τ→t}∈ {\bf{R}} ^{m×n×2}$表示当前帧与近邻帧之间的光流场，包含$x$和$y$两个方向的光流场, $m$和$n$分别为光流场的高和宽；$τ$表示近邻帧与当前帧的间距，$T_{\rm {1}}$和$T_{\rm {2}}$表示近邻帧与当前帧间距的阈值, $T_{\rm {2}}$即为近邻帧与当前帧融合允许的最大间距。

通过特征提取网络提取当前帧${\mathit{\boldsymbol{I}}} ^{t}$和近邻帧${\mathit{\boldsymbol{I}}} ^{t+τ}$ 的Dilated_conv特征，分别表示为${\mathit{\boldsymbol{F}}} ^{t}∈ {\bf{R}} ^{m×n×c}$和${\mathit{\boldsymbol{F}}} ^{t+τ}∈ {\bf{R}} ^{m×n×c}$，$m$、$n$和$c$分别为当前帧特征和近邻帧特征的高、宽和通道数。依据光流场，利用近邻帧特征${\mathit{\boldsymbol{F}}}^{t+τ}$补偿当前帧特征，表示为${\mathit{\boldsymbol{F}}}^{t+τ→t}$，可定义为

$ \boldsymbol{F}^{t+\tau \rightarrow t}=\operatorname{warp}\left(\boldsymbol{F}^{t+\tau}, \boldsymbol{M}^{t+\tau \rightarrow t}\right) $

(2)

式中，$warp(·)$表示变换函数。

根据视频的时间相关性，利用多个运动补偿当前帧线性预测当前帧特征，同时，计算近邻帧补偿的当前帧特征与当前帧特征的余弦相似度作为线性预测的权重。参照Zhu等人(2017)的方法，构建一个由3个$1×1$卷积核的卷积层构成的嵌入卷积神经网络，并将补偿的当前帧特征${\mathit{\boldsymbol{F}}}^{t+τ→t}$与当前帧特征${\mathit{\boldsymbol{F}}} ^{t}$输入到嵌入神经网络中，提取嵌入特征，即${\mathit{\boldsymbol{E}}}^{t+τ→t}=ε({\mathit{\boldsymbol{F}}}^{t+τ→t})$和${\mathit{\boldsymbol{E}}} ^{t}=ε({\mathit{\boldsymbol{F}}} ^{t})$，利用${\mathit{\boldsymbol{E}}}^{t+τ→t}$和${\mathit{\boldsymbol{E}}} ^{t}$计算余弦相似度作为线性预测的权重，这里$ε(·)$表示嵌入卷积神经网络。为了便于描述，将${\mathit{\boldsymbol{E}}}^{t+τ→t}$和${\mathit{\boldsymbol{E}}} ^{t}$表示为2维矩阵的形式，即${\mathit{\boldsymbol{E}}}^{t+τ→t}=[{\mathit{\boldsymbol{e}}}^{t+τ→t}_{\rm {1}}, …, {\mathit{\boldsymbol{e}}}^{t+τ→t}_{mn}]∈ {\bf{R}} ^{c×mn}$和${\mathit{\boldsymbol{E}}} ^{t}=[{\mathit{\boldsymbol{e}}} ^{t}_{\rm {1}}, …, {\mathit{\boldsymbol{e}}} ^{t}_{mn}]∈ {\bf{R}} ^{c×mn}$，利用余弦相似度计算权重$w_{i}^{t+\tau \rightarrow t}$的表达式为

$ w_{i}^{t+\tau \rightarrow t}=\frac{\left\langle\boldsymbol{e}_{i}^{t+\tau \rightarrow t}, \boldsymbol{e}_{i}^{t}\right\rangle}{\left\|\boldsymbol{e}_{i}^{t+\tau \rightarrow t}\right\|\left\|\boldsymbol{e}_{i}^{t}\right\|} $

(3)

式中，〈·〉表示内积运算，${\mathit{\boldsymbol{e}}}^{t+τ→t}_{i}∈ {\bf{R}} ^{c}$和${\mathit{\boldsymbol{e}}} ^{t}_{i}∈ {\bf{R}} ^{c}$分别为${\mathit{\boldsymbol{E}}}^{t+τ→t}$和${\mathit{\boldsymbol{E}}} ^{t}$的第$i$个向量，表示空间位置$i$沿通道方向的特征，$i=1, …, mn$。由式(3)可知，不同空间位置的特征对应不同的权重，权重为近邻帧补偿的当前帧特征与当前帧特征的相似程度，相似度越大，权重越大，即在空间位置$i$处，如果${\mathit{\boldsymbol{e}}}^{t+τ→t}_{i}$接近${\mathit{\boldsymbol{e}}} ^{t}_{i}$，那么给予近邻帧补偿的当前帧特征较大的权重，否则，给予其较小的权重。对式(3)中的权重进行归一化处理，可表示为

$ \tilde{w}_{i}^{t+\tau \rightarrow t}=\frac{\exp \left(w_{i}^{t+\tau \rightarrow t}\right)}{\sum\limits_{\tau=-T_{2}}^{T_{2}} \exp \left(w_{i}^{t+\tau \rightarrow t}\right)} $

(4)

将近邻帧补偿的当前帧特征${\mathit{\boldsymbol{F}}}^{t+τ→t}$也表示为2维矩阵形式，即${\mathit{\boldsymbol{F}}}^{t+τ→t}=[{\mathit{\boldsymbol{f}}}^{t+τ→t}_{\rm {1}}, …, {\mathit{\boldsymbol{f}}}^{t+τ→t}_{mn}]∈ {\bf{R}} ^{c×mn}$，利用归一化后的权重$\tilde{w}_{i}^{t+\tau \rightarrow t}$对多个近邻帧补偿的当前帧特征进行加权平均，可表示为

$ \hat{\boldsymbol{f}}_{i}^{t}=\sum\limits_{\tau=-T_{2}}^{T_{2}} \tilde{w}_{i}^{t+\tau \rightarrow t} \boldsymbol{f}_{i}^{t+\tau \rightarrow t} $

(5)

式中，$\hat{\boldsymbol{F}}^{t}=\left[\hat{\boldsymbol{f}}_{1}^{t}, \cdots, \hat{\boldsymbol{f}}_{m n}^{t}\right] \in {\bf{R}}^{c \times m n}$为时间特征融合的当前帧特征。

2.2 整体模型的构建

在两阶段目标检测的R-FCN框架下，本文构建的双光流网络指导的视频目标检测模型如图 3所示。

图 3 网络模型的结构图

Fig. 3 Structure of the network model

在时间特征融合模块中，利用光流网络估计当前帧与不同间距的近邻帧之间的光流场，对于较近的近邻帧，利用光流网络FlowNet-SD(Ilg等，2017)估计光流场，对于较远的近邻帧，利用FlowNetS(Dosovitskiy等，2015)估计光流场；通过特征提取网络提取当前帧和近邻帧的Dilated_conv特征，根据光流场使用近邻帧的Dilated_conv特征补偿当前帧的Dilated_conv特征，并通过多个近邻帧补偿的当前帧特征对当前帧的Dilated_conv特征进行线性预测，形成时间特征融合的Dilated_conv_mc特征。然后，在Dilated_conv_mc特征上，进行RPN候选区域的生成，以及位置敏感得分图的检测。

2.3 模型的具体实现

对于不同间距的近邻帧，分别使用光流网络FlowNet-SD和FlowNetS估计光流场。模型训练过程分为两个阶段。第1阶段对于每幅训练图像，从间距$ τ ≤T_{\rm {2}}$的近邻帧中随机选取两帧图像作为近邻帧，训练由R-FCN和FlowNetS构建的模型。第2阶段固定除光流网络以外的参数，仅对光流网络部分的参数进行训练，分别利用不同间距的近邻帧对两种光流网络进行训练。对于每幅训练图像，从间距$ τ ≤T_{\rm {1}}$的近邻帧中随机选取两帧图像作为近邻帧，训练由R-FCN和FlowNet-SD构建的模型；从间距$τ$在$T_{\rm {1}}$和$T_{\rm {2}}$之间的近邻帧中随机选取两帧图像作为近邻帧，训练由R-FCN和FlowNetS构建的模型。

在模型测试过程中，计算当前帧与$2T_{\rm {2}}+1$个近邻帧的光流场，并根据光流场，利用近邻帧的特征对当前帧的特征进行运动补偿，从而利用多帧图像进行时间特征融合。算法1给出了本文双光流网络指导的视频目标检测实现的伪代码，对于视频中的每帧图像，融合$2T_{2}+1$个近邻帧的特征补偿当前帧的特征，对于间距$ |\tau| \leqslant T_{1} $的近邻帧，利用FlowNet-SD估计光流场，对于间距$τ$在$T_{\rm {1}}$和$T_{\rm {2}}$之间的近邻帧，利用FlowNetS估计光流场。

算法1 双光流网络指导的视频目标检测算法

输入：视频中的图像序列${{\mathit{\boldsymbol{I}}}_{t}}, t=0, …, ∞$。

1) 提取视频中前$T_{2}+1$帧图像${\mathit{\boldsymbol{I}}} ^{t}$的特征${\mathit{\boldsymbol{F}}} ^{t}$，$t=0, …, T_{2}。$

2) 迭代过程：

初始化：若$t-T_{\rm {2}} ≤0$，间距$τ=-t$；若$t-T_{2}>0$，间距$\tau=-T_{2}$。

(1) 迭代过程：

① 估计光流场，当$ τ ≤T_{\rm {1}}$时，${\mathit{\boldsymbol{M}}}^{t+τ→t}=F_{\rm {SD}}({\mathit{\boldsymbol{I}}} ^{t}, {\mathit{\boldsymbol{I}}}^{t+τ})$；当$T_{1} < |\tau| \leqslant T_{2}$时，${\mathit{\boldsymbol{M}}}^{t+τ→t}=F_{\rm {S}}({\mathit{\boldsymbol{I}}} ^{t}, {\mathit{\boldsymbol{I}}}^{t+τ})$

② 根据光流场和近邻帧的特征形成光流补偿特征${\mathit{\boldsymbol{F}}}^{t+τ→t}=warp({\mathit{\boldsymbol{F}}}^{t+τ}, {\mathit{\boldsymbol{M}}}^{t+τ→t})$

③ 提取嵌入卷积神经网络的特征${\mathit{\boldsymbol{E}}} ^{t}=ε({\mathit{\boldsymbol{F}}} ^{t})$和${\mathit{\boldsymbol{E}}}^{t+τ→t}=ε({\mathit{\boldsymbol{F}}}^{t+τ→t})$

④ 计算${\mathit{\boldsymbol{E}}}^{t+τ→t}$和${\mathit{\boldsymbol{E}}} ^{t}$的余弦相似度作为线性预测的权重${\mathit{\boldsymbol{W}}}^{t+τ→t}∈ {\bf{R}} ^{m×n}$

⑤ 对${\mathit{\boldsymbol{W}}}^{t+τ→t}$进行归一化处理得到$\widetilde{\boldsymbol{W}}^{t+\tau \rightarrow t}$

⑥ 更新间距$τ=τ+1$

(2) 停止：达到最大间距$T_{2}。$

(3) 对当前帧特征进行线性预测$\hat{\boldsymbol{F}}^{t}=\sum\limits_{\tau=-T_{2}}^{T_{2}} \widetilde{\boldsymbol{W}}^{t+\tau \rightarrow t \circ} \boldsymbol{F}^{t+\tau \rightarrow t}$, °表示权重矩阵与特征的各个通道做点乘。

(4) 利用预测的当前帧特征进行检测，得到当前帧的检测类别$R ^{t}∈R^{s×c}$, $s$表示图像中目标的个数和定位$L ^{t}∈R^{s×4}$

(5) 提取与当前帧间隔$T_{2}+1$的图像${\mathit{\boldsymbol{I}}}^{t+T_{2}+1}$的特征${\mathit{\boldsymbol{F}}}^{t+T_{2}+1}$，用于下一帧图像的检测

3) 停止：全部图像检测完成。

输出：视频中图像序列的检测结果$\left\{R^{t}, L^{t}\right\}, t=0, …, ∞$。

3 实验结果与分析

为了验证本文提出的DFGFA模型的性能，使用ImageNet VID(ImageNet for video object detection)和ImageNet DET(ImageNet for object detection)数据集进行实验，并采用平均准确率的均值(mean average precision, mAP)作为评价指标。本文模型在深度学习框架MXNet的基础上，利用Python语言开发，并且所有实验均在单频为2.10 GHz、内存为64 GB的至强ES-2620 v4 CPU，两块显存为11 GB的NVIDIA Geforce RTX 2080Ti GPU上实现。

3.1 参数设置

本文采用ImageNet VID和ImageNet DET数据集的训练集训练模型。ImageNet VID是视频目标检测数据集，训练集由3 862个视频片段构成，验证集由555个视频片段构成，每个视频片段的帧率是25帧/s或30帧/s，视频中的所有图像帧均有标注，包括30个类别。ImageNet DET是图像目标检测数据集，训练集由456 567幅图像构成，包括200个类别。由于ImageNet VID中的类别是ImageNet DET中的类别的子集，因此本文使用ImageNet DET中与ImageNet VID的类别相对应的图像进行训练。

本文采用增加动量项的批量梯度下降法对模型进行训练，动量系数设为0.9，设置近邻帧与当前帧间距的阈值$T_1=3$以及$T_{2}=10$。使用训练集的全部数据对模型进行一次完整训练，称为一轮(epoch)训练。在第1阶段的模型训练中，使用ImageNet DET和ImageNet VID的训练集训练由R-FCN和FlowNetS构建的模型，设置每批的数据量为2幅图像，初始学习率为5.0×10^-4，模型共经过4轮迭代，在前2轮迭代后，学习率降为5.0×10^-5，保存模型参数。在第2阶段的模型训练中，对于FlowNet-SD的训练，设置每批的数据量为2幅图像，初始学习率为4.0×10^-5，当模型迭代1.333轮后，学习率降为4.0×10^-6，共迭代2轮，保存模型参数；对于FlowNetS的训练，设置每批的数据量为2幅图像，初始学习率为2.0×10^-5，当模型迭代1.333轮后，学习率降为2.0×10^-6，共迭代2轮，保存模型参数。

3.2 定量与定性比较

在ImageNet VID验证集上，将本文提出的DFGFA模型与TCN模型(Kang等，2016)、TPN+LSTM模型(Kang等，2017)、D(& T loss)模型(Feichtenhofer等，2017)和FGFA模型(Zhu等，2017)进行比较，其中，TCN模型、TPN+LSTM模型和D(& T loss)模型的结果均是由原作者直接提供，FGFA模型的结果是在相同训练集和验证集的设置下重新运行作者提供的代码得到。表 1给出了各个模型在每一类目标上的平均准确率(average precision, AP)以及mAP，目标包括飞机、羚羊、熊等30个类别。观察表 1可以看出，DFGFA模型的mAP达到了76.4%，相比于TCN模型、TPN+LSTM模型、D(& T loss)模型和FGFA模型分别提高了28.9 %、8.0 %、0.6 %和0.2 %。其中，TCN模型和TPN+LSTM模型均属于后处理方法，与这两种模型相比，DFGFA模型端到端的方式能够更好地学习图像的特征，从而减弱运动模糊和遮挡等因素对视频目标检测的影响；而与FGFA模型相比，DFGFA模型对于不同间距的近邻帧利用不同的光流网络估计光流场，更充分地利用各个近邻帧的特征补偿当前帧的特征，进而提高了检测准确率。

表 1 各模型在ImageNet VID上的AP和mAP
Table 1 The AP and mAP of various models on ImageNet VID

下载CSV

/%
模型	airplane	antelope	bear	bicycle	bird	bus	car	cattle	dog	domestic cat	elephant
TCN(Kang等，2016)	72.7	75.5	42.2	39.5	25.0	64.1	36.3	51.1	24.4	48.6	65.6
TPN+LSTM (Kang等，2017)	84.6	78.1	72.0	67.2	68.0	80.1	54.7	61.2	61.6	78.9	71.6
D(& T loss) (Feichtenhofer等，2017)	89.4	80.4	83.8	70.0	71.8	82.6	56.8	71.0	71.8	76.6	79.3
FGFA(Zhu等，2017)	88.1	85.0	82.5	68.1	72.8	82.3	58.6	71.7	73.3	81.5	78.0
DFGFA(本文)	88.4	84.6	82.4	69.3	73.1	82.8	58.9	71.0	72.2	82.5	77.9

模型	fox	giant panda	hamster	horse	lion	lizard	monkey	motorbike	rabbit	red panda	sheep
TCN(Kang等，2016)	73.9	61.7	82.4	30.8	34.4	54.2	1.6	61.0	36.6	19.7	55.0
TPN+LSTM (Kang等，2017)	83.2	78.1	91.5	66.8	21.6	74.4	36.6	76.3	51.4	70.6	64.2
D(& T loss) (Feichtenhofer等，2017)	89.9	83.3	91.9	76.8	57.3	79.0	54.1	80.3	65.3	85.3	56.9
FGFA(Zhu等，2017)	90.6	82.3	92.4	70.3	66.9	79.3	53.9	84.3	66.7	82.2	57.2
DFGFA(本文)	90.7	83.2	92.6	71.0	67.2	79.5	53.7	84.2	67.5	81.8	59.3

模型	snake	squirrel	tiger	train	turtle	watercraft	whale	zebra	mAP
TCN(Kang等，2016)	38.9	2.6	42.8	54.6	66.1	69.2	26.5	68.6	47.5
TPN+LSTM (Kang等，2017)	61.2	42.3	84.8	78.1	77.2	61.5	66.9	88.5	68.4
D(& T loss) (Feichtenhofer等，2017)	74.1	59.9	91.3	84.9	81.9	68.3	68.9	90.9	75.8
FGFA(Zhu等，2017)	74.7	56.5	91.0	82.4	80.2	65.7	75.6	91.3	76.2
DFGFA(本文)	74.5	57.1	91.1	82.6	80.6	65.7	76.3	91.0	76.4
注：加粗字体表示每列最优结果。

为了更好地分析结果，依据Zhu等人(2017)方法，将所有目标划分为慢速、中速和快速目标，目标的运动速度根据当前目标与其近邻帧(±10帧)中相对应目标的交并比(intersection-over-union, IoU)的平均值来划分，IoU的平均值越小，目标运动越快，反之亦然。设IoU的平均值大于0.9的目标属于慢速目标，小于0.7的目标属于快速目标，在0.7与0.9之间的目标属于中速目标。表 2列出了FGFA模型和DFGFA模型在慢速、中速、快速目标上的mAP，其中，mAP(慢)表示在慢速目标上的mAP，mAP(中)在中速目标上的mAP，mAP(快)表示在快速目标上的mAP。观察表 2可以看出，DFGFA模型在慢速目标、中速目标和快速目标上的mAP相比于FGFA模型分别提高了0.2 %、0.48 %和0.23 %，表明FlowNet-SD的结合使模型更准确地利用较近的近邻帧特征补偿了当前帧的特征。

表 2 在慢、中、快速目标上的mAP
Table 2 The mAP of the slow object, middle object and fast object

下载CSV

/%
模型	mAP(慢)	mAP(中)	mAP(快)
FGFA(Zhu等，2017)	85.05	74.74	54.92
DFGFA	85.35	75.22	55.15
注：加粗字体表示每列最优结果。

从视觉效果上，图 4、图 5和图 6分别比较了在ImageNet VID验证集中编号为27000、10000和43001的视频上FGFA模型(Zhu等，2017)与DFGFA模型的检测结果。当视频中目标之间存在遮挡时，如图 4(a)所示，FGFA模型的检测结果中出现了目标误检和漏检的现象，当目标被障碍物遮挡时，图 5(a)中FGFA模型未能准确定位第2帧中的目标，而如图 4(b)和图 5(b)所示，DFGFA模型结合两种光流网络估计光流场，更准确利用近邻帧的特征来补偿当前帧，从而检测出被遮挡的目标。从图 6可以看出，当视频中存在模糊的情况时，FGFA模型未能检测出前两帧中的运动目标，而DFGFA模型准确地检测出视频中的运动目标。

图 4 不同模型在ImageNet VID验证集中编号为27000视频上的结果比较

Fig. 4 Comparison results of different models on the video #27000 from ImageNet VID validation set

((a) FGFA; (b) DFGFA(ours))

图 5 不同模型在ImageNet VID验证集中编号为10000视频上的结果比较

Fig. 5 Comparison results of different models on the video #10000 from ImageNet VID validation set

((a) FGFA; (b) DFGFA(ours))

图 6 不同模型在ImageNet VID验证集中编号为43001视频上的结果比较

Fig. 6 Comparison results of different models on the video #43001 from ImageNet VID validation set

((a) FGFA; (b) DFGFA(ours))

3.3 $T_{\rm {1}}$和$T_{\rm {2}}$对准确率的影响

本节分析$T_{\rm {1}}$和$T_{\rm {2}}$的取值对实验准确率的影响，本文模型融合近邻帧的特征来增强当前帧，$T_{\rm {1}}$为区分较近和较远的近邻帧的阈值，$T_{\rm {2}}$为近邻帧与当前帧融合允许的最大间距。

表 3列出了在ImageNet VID数据集上$T_{\rm {1}}$取值为2、3、4和5对应的mAP。$T_{\rm {1}}$的取值偏小或偏大时均会造成mAP的下降，当$T_{\rm {1}}$较小时，一些较近的近邻帧使用FlowNetS估计光流场，而当$T_{\rm {1}}$较大时，一些较远的近邻帧使用FlowNet-SD估计光流场，在这两种情况下，运动场估计的不准确导致近邻帧不能准确地对当前帧进行特征补偿。从表 3可以看出，$T_{\rm {1}}$的取值为3达到最高的mAP。

表 3 $T_{\rm {1}}$的不同取值对应的mAP
Table 3 The mAP of different $T_{\rm {1}}$

下载CSV

/%
	$T_{\rm {1}}$
	2	3	4	5
mAP	76.40	76.42	76.36	76.34
注：加粗字体表示最优结果。

表 4列出了在ImageNet VID数据集上$T_{\rm {2}}$取值为8、10和12对应的mAP。观察表 4可以看出，$T_{\rm {2}}$取值从8到10时，mAP升高，表明使用更多的近邻帧补偿当前帧能够提高检测准确率；但是，随着$T_{\rm {2}}$的继续增大，当使用更远的近邻帧补偿当前帧时，大位移光流估计的准确率有所下降，进而造成mAP的下降。此外，$T_{\rm {2}}$的增大表示模型融合的近邻帧更多，时间开销也随之增大。因此，本文中$T_{\rm {2}}$取值为10。

表 4 $T_{\rm {2}}$的不同取值对应的mAP
Table 4 The mAP of different $T_{\rm {2}}$

下载CSV

/%
	$T_{\rm {2}}$
	8	10	12
mAP	76.29	76.42	76.31
注：加粗字体表示最优结果。

4 结论

本文提出了一种双光流网络指导的视频目标检测模型。在两阶段检测中R-FCN的框架下，结合两种光流网络估计当前帧与近邻帧之间的光流场。根据近邻帧与当前帧的间距，利用小位移运动估计的光流网络FlowNet-SD估计较近的近邻帧与当前帧之间的光流场，利用大位移运动估计的光流网络FlowNetS估计较远的近邻帧与当前帧之间的光流场，从而准确融合多帧图像特征以补偿当前帧的特征。在ImageNet VID数据集上的实验结果表明，本文提出的视频目标检测模型的mAP为76.4 %，相比于TCN模型、TPN+LSTM模型、D(& T loss)模型和FGFA模型分别提高了28.9 %、8.0 %、0.6 %和0.2 %。

本文主要通过光流网络估计的光流场进行多帧图像特征融合，光流场的准确性决定了融合时间特征的准确性，后续的研究工作将进一步专注于运动补偿和特征融合的方法。

参考文献

Dai J F, Li Y, He K M and Sun J. 2016. R-FCN: object detection via region-based fully convolutional networks//Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: NIPS: 379-387[DOI: 10.5555/3157096.3157139]

Dosovitskiy A, Fischer P, Ilg E, Häusser P, Hazirbas C, Golkov V, van der Smagt P, Cremers D and Brox T. 2015. FlowNet: learning optical flow with convolutional networks//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 2758-2766[DOI: 10.1109/ICCV.2015.316]

Feichtenhofer C, Pinz A and Zisserman A. 2017. Detect to track and track to detect//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 3057-3065[DOI: 10.1109/ICCV.2017.330]

Girshick R. 2015. Fast R-CNN//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 1440-1448[DOI: 10.1109/ICCV.2015.169]

Girshick R, Donahue J, Darrell T and Malik J. 2014. Rich feature hierarchies for accurate object detection and semantic segmentation//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE: 580-587[DOI: 10.1109/CVPR.2014.81]

He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 770-778[DOI: 10.1109/CVPR.2016.90]

Ilg E, Mayer N, Saikia T, Keuper M, Dosovitskiy A and Brox T. 2017. FlowNet 2.0: evolution of optical flow estimation with deep networks//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 1647-1655[DOI: 10.1109/CVPR.2017.179]

Kang K, Li H S, Xiao T, Ouyang W L, Yan J J, Liu X H and Wang X G. 2017. Object detection in videos with tubelet proposal networks//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 889-897[DOI: 10.1109/CVPR.2017.101]

Kang K, Ouyang W L, Li H S and Wang X G. 2016. Object detection from video tubelets with convolutional neural networks//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 817-825[DOI: 10.1109/CVPR.2016.95]

Krizhevsky A, Sutskever I and Hinton G E. 2012. ImageNet classification with deep convolutional neural networks//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, USA: NIPS: 1097-1105[DOI: 10.5555/2999134.2999257]

Liu L, Ouyang W L, Wang X G, Fieguth P, Chen J, Liu X W, Pietikäinen M. 2020. Deep learning for generic object detection: a survey. International Journal of Computer Vision, 128(2): 261-318 [DOI:10.1007/s11263-019-01247-4]

Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C Y and Berg A C. 2016. SSD: single shot multibox detector//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 21-37[DOI: 10.1007/978-3-319-46448-0_2]

Luo H L, Chen H K. 2020. Survey of object detection based on deep learning. Acta Electronica Sinica, 48(6): 1230-1239 (罗会兰, 陈鸿坤. 2020. 基于深度学习的目标检测研究综述. 电子学报, 48(6): 1230-1239) [DOI:10.3969/j.issn.0372-2112.2020.06.026]

Pei W, Xu Y M, Zhu Y Y, Wang P Q, Lu M Y, Li F. 2019. The target detection method of aerial photography images with improved SSD. Journal of Software, 30(3): 738-758 (裴伟, 许晏铭, 朱永英, 王鹏乾, 鲁明羽, 李飞. 2019. 改进的SSD航拍目标检测方法. 软件学报, 30(3): 738-758) [DOI:10.13328/j.cnki.jos.005695]

Redmon J, Divvala S, Girshick R and Farhadi A. 2016. You only look once: unified, real-time object detection//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 779-788[DOI: 10.1109/CVPR.2016.91]

Ren S Q, He K M, Girshick R, Sun J. 2017. Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(6): 1137-1149 [DOI:10.1109/TPAMI.2016.2577031]

Uijlings J R R, van de Sande K E A, Gevers T, Smeulders A W M. 2013. Selective search for object recognition. International Journal of Computer Vision, 104(2): 154-171 [DOI:10.1007/s11263-013-0620-5]

Xiao F Y and Lee Y J. 2018. Video object detection with an aligned spatial-temporal memory//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 494-510[DOI: 10.1007/978-3-030-01237-3_30]

Zhang H, Wang K F, Wang F Y. 2017. Advances and perspectives on applications of deep learning in visual object detection. Acta Automatica Sinica, 43(8): 1289-1305 (张慧, 王坤峰, 王飞跃. 2017. 深度学习在目标视觉检测中的应用进展与展望. 自动化学报, 43(8): 1289-1305) [DOI:10.16383/j.aas.2017.c160822]

Zhao Y Q, Rao Y, Dong S P, Zhang J Y. 2020. Survey on deep learning object detection. Journal of Image and Graphics, 25(4): 629-654 (赵永强, 饶元, 董世鹏, 张君毅. 2020. 深度学习目标检测方法综述. 中国图象图形学报, 25(4): 629-654) [DOI:10.11834/jig.190307]

Zhu X Z, Wang Y J, Dai J F, Yuan L and Wei X C. 2017. Flow-guided feature aggregation for video object detection//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 408-417[DOI: 10.1109/ICCV.2017.52]