Print

发布时间: 2019-10-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180695
2019 | Volume 24 | Number 10




    图像分析和识别    




  <<上一篇 




  下一篇>> 





面向群体行为识别的非局部网络模型
expand article info 李定1,2, 马静1, 杨萌林2, 张文生2
1. 哈尔滨理工大学自动化学院, 哈尔滨 150001;
2. 中国科学院自动化研究所, 北京 100190

摘要

目的 视频行为识别一直广受计算机视觉领域研究者的关注,主要包括个体行为识别与群体行为识别。群体行为识别以人群动作作为研究对象,对其行为进行有效表示及分类,在智能监控、运动分析以及视频检索等领域有重要的应用价值。现有的算法大多以多层递归神经网络(RNN)模型作为基础,构建出可表征个体与所属群体之间关系的群体行为特征,但是未能充分考虑个体之间的相互影响,致使识别精度较低。为此,提出一种基于非局部卷积神经网络的群体行为识别模型,充分利用个体间上下文信息,有效提升了群体行为识别准确率。方法 所提模型采用一种自底向上的方式来同时对个体行为与群体行为进行分层识别。首先从原始视频中沿着个人运动的轨迹导出个体附近的图像区块;随后使用非局部卷积神经网络(CNN)来提取包含个体间影响关系的静态特征,紧接着将提取到的个体静态特征输入多层长短期记忆(LSTM)时序模型中,得到个体动态特征并通过个体特征聚合得到群体行为特征;最后利用个体、群体行为特征同时完成个体行为与群体行为的识别。结果 本文在国际通用的Volleyball Dataset上进行实验。实验结果表明,所提模型在未进行群体精细划分条件下取得了77.6%的准确率,在群体精细划分的条件下取得了83.5%的准确率。结论 首次提出了面向群体行为识别的非局部卷积网络,并依此构建了一种非局部群体行为识别模型。所提模型通过考虑个体之间的相互影响,结合个体上下文信息,可从训练数据中学习到更具判别性的群体行为特征。该特征既包含个体间上下文信息、也保留了群体内层次结构信息,更有利于最终的群体行为分类。

关键词

行为识别; 群体行为识别; 非局部网络; 特征表达; 深度学习

Nonlocal based deep model for group activity recognition
expand article info Li Ding1,2, Ma Jing1, Yang Menglin2, Zhang Wensheng2
1. School of Automation, Harbin University of Science and Technology, Harbin 150001, China;
2. Institute of Automation, Chinese Academy of Science, Beijing 100190, China
Supported by: National Key R & D Program of China(2017YFC0803700); National Natural Science Foundation of China (U1636220, 61432008, 61472423)

Abstract

Objective Human action recognition, which is composed of single-person action and group activity recognition, has received considerable research attention. Group activity recognition is based on single-person action recognition and focuses on the group of people in the scene. This type of recognition has various applications, including video surveillance, sport analytics, and video retrieval. In group activity recognition, the hierarchical structure between the group and individuals is significant to recognition, and the main challenge is to build more discriminative representations of group activity based on the hierarchical structure. To overcome this difficulty, researchers have proposed numerous methods. Hierarchical framework is widely adopted to represent the relationships between individuals and their corresponding group and has achieved promising performance. In the early years, hand-crafted features are designed as the representations of individual and group-level activities. Recently, deep learning has been widely used in group activity recognition. Typically, hierarchical framework-based RNN (recurrent neural network) has been adopted to represent the relationships between individuals and their corresponding group and has achieved promising performance. Despite the promising performance, these methods ignore the relationships and interactions among individuals, thereby affecting the accuracy of recognition. Group activity is comprehensively defined by each individual action and the contextural information among individuals. Extracting individual features in isolation results in the loss of contextural information. To address this problem, we propose a novel model for group activity recognition based on the nonlocal network. Method The proposed model utilizes a bottom-up approach to represent and recognize individual actions and group activities in a hierarchical manner. First, tracklets of multi-person are constructed based on the detection and trajectories, and static features are extracted from these tracklets by nonlocal convolutional neural network (NCNN). Inside the NCNN module, the similarity of each individual is calculated to capture the nonlocal context within the individuals. The extracted features are then fed into the hierarchical temporal model (HTM), which is based on LSTM (long short term memory). HTM is composed of individual-level LSTM and group-level LSTM, which focuses on group dynamics in a hierarchical manner. Dynamic features of individuals are extracted, and features of group activities are generated by aggregating individual features in the HTM. Finally, the group activities and individual actions are classified by utilizing the output of HTM. The entire framework is easily implemented in with end-to-end training style. Result We evaluate our model on the widely-used The Volleyball Dataset in two different dataset settings, namely, fine-division and non-fine-division. Fine-division experimental settings refer to the group as combination of different subgroups, and a subgroup is composed of several individuals. In this setting, the structure of the group is "group-subgroup-individuals". We aggregate the individual features within the subgroup and then concatenate the features of subgroups. Non-fine-division experimental setting means the lack of involvement of subgroup. We aggregate all the individual features to generate the features of the group. Experimental results show that the proposed method can achieve 83.5% accuracy in fine-division manner and 77.6% accuracy in non-fine-division manner. Examples of recognition and relationships within the group are visualized. Conclusion This study proposes a novel neural network for group activity recognition and constructs a unified framework based on the NCNN and hierarchical LSTM network. We address the motivation of taking the relationships among individuals into consideration with a nonlocal network and utilize the contextural information in the group. In extracting individual features, the method learns more discriminative features, which combine the impact of each individual. Thus, contextural information in nonlocal area is embedded into the extracted features. Experimental results confirm the effectiveness of our nonlocal model, indicating that the contextural information between individuals and the hierarchical structure of the group facilitate the group activity recognition.

Key words

action recognition; group activity recognition; nonlocal network; feature representation; deep learning

0 引言

人体行为识别是当前计算机视觉领域的研究热点之一,有着重要的科学意义与应用价值[1]。行为识别以行为作为关注对象,旨在感知所选目标在图像序列中的时空变化,动态地根据目标运动信息进行识别。不同于静态目标识别,时空变化的引入增大了人体行为的表示难度,同时也使得之后的识别工作更加复杂[2]。视觉行为从静态拓展至动态的同时,也从单一个体对象拓展至结构复杂的群体对象。关于行为识别的研究,学界大多关注个人行为识别,但视频行为可以从个人、群体等多个层级去进行考察[3]。群体行为识别建立在个人行为识别的基础之上,以群体作为研究对象,对其行为进行有效表示及分类。在群体行为识别中,个体与群体本身构成层级关系,如何依托这种重要关系构建出高判别力的群体行为特征是当前研究者面临的一大难点。

为了攻克这一难点,学术界对此展开了许多卓有成效的研究,按照方法分为传统方法与深度学习方法两类[4]。在传统方法中,研究者通过总结群体行为规律构造行为假设,在此基础上手工设计行为特征并完成分类。近年来,深度学习方法在图像分类、检测和分割等任务上都取得了突破性的进展[5-7],在群体行为识别领域也有广泛的应用。研究者主要依托多层递归神经网络(RNN)框架,利用深度神经网络逐个提取个体行为特征并汇总生成群体行为特征,随后完成识别。

但群体行为并不是个体行为的简单叠加,而是个体行为及其相互影响关系综合定义得到的,逐个孤立提取个人行为特征不利于群体行为特征的生成。孤立的提取过程使得个人行为特征未能充分考虑个体间上下文信息,因此提取到的特征不符合群体行为的结构性要求。上述方法在此方面存在严重不足,未能充分考虑个体间关系的影响,故而影响识别准确率提升。

为了弥补上述方法的不足,本文提出一种基于非局部卷积神经网络(NCNN)的群体行为识别算法,在考虑个体间影响关系的基础上提取个体行为特征。随后,将包含有个体间影响关系的个人特征输入至多层长短期记忆(LSTM)时序模型中,按照不同层级分别完成个体与群体行为的识别。该方法既利用了群体对象中存在的层级结构关系提升了群体行为特征的判别性,也利用了个体间影响关系得到了更有效的个体行为特征。本文的主要贡献总结如下:

1) 首次提出了面向群体行为识别的非局部卷积网络,并利用该网络提取得到包含个体上下文信息的个体行为特征。

2) 将非局部卷积网络与多层LSTM时序模型相结合,提出了一种新的群体行为识别模型,同时实现了群体层次结构关系与个体影响关系的挖掘。

3) 对所提模型在国际通用的Volleyball Dataset上进行了实验,实验结果表明模型有效性得以验证。

1 相关工作

群体行为识别是计算机视觉研究者的研究热点之一,在此主要聚焦近5年群体行为识别领域的发展和有关非局部网络的前沿成果。

1.1 群体行为识别

群体行为识别的一个关键问题在于群体行为的表示。早期的研究主要集中于根据设计行为变化规律及先验假设设计不同的手工特征来表示个人与群体的行为,进而完成相关识别工作。Nabi等人[8]提出了一种TPOS描述子来捕捉视频中的个人运动信息与交互信息。Choi等人[9]提出了一种集约式的框架,同时实现个体行为、交互行为和群体行为的识别。这些利用手工设计特征的方法高度依赖于研究者的先验假设,并且无法实现端到端的训练。

近年来,深度学习广泛应用于群体行为识别中,实现了良好的识别效果,极大地推动了研究进程。Ibrahim等人[3]提出了一种多层级联的递归神经网络(RNN)模型,为研究者带来了深刻启发。基于多层RNN网络的方法可划分为3步:

1) 根据已得到的位置信息和轨迹信息生成多人的行为图像序列,随后利用CNN与低层的RNN来提取对应的空间特征和时序变化特征;

2) 对每个人的时空特征进行池化操作,并将池化结果输入高层的RNN中提取群体行为特征;

3) 利用得到的群体行为特征全连接层,并通过softmax层进行完成多分类。

随后,许多研究者针对这一模型进行了改进与拓展。Ibrahim等人[10]将群体划分为若干子群体,并采用了不同的个体特征池化策略,进一步提高了识别精度。Shu等人[11]提出了能量层,并将其嵌入此模型中,依靠能量最小化来提升识别性能。Bagautdinov等人[12]提出了一种统一式的框架,同时实现个人检测与群体行为识别。Li等人[13]从个体行为的语义信息出发,提出了一种基于语义的识别框架,同时实现个体行为描述与群体行为识别。Biswas等人[14]将结构递归神经网络(SRNN)引入群体行为识别任务中,同时捕捉个体行为、交互行为、群体行为及其变化。

上述基于深度学习的方法虽然极大地提升了识别性能,但大多孤立地提取个体行为特征,未能充分考虑个体之间的相互影响关系。而在现实场景中,个体行为并不是孤立进行的,它们之间存在着显著的影响关系,个体间上下文信息可以有效增强行为特征判别性,对群体行为识别具有重要的指导意义。

1.2 非局部网络

非局部性主要指研究对象中存在长距离的关联关系。非局部性广泛存在于物理、生物以及社会科学等多个领域的研究对象中,这一现象促使研究者针对非局部性设计出了不同的特征表示方法[15-17]

在图像视频领域,捕捉长距离的关联关系对于图像、视频内容理解与智能分析非常重要,而递归神经网络又无法很好地对这种关联关系进行学习和表示。因此,Wang等人[18]提出了非局部神经网络解决这一问题,构建了一种易于嵌入现有网络的子网络,并在图像分类、行为识别等领域取得了良好的效果。在此之前,Buades等人[19]提出了非局部操作,旨在通过在特征空间计算点对之间的交互信息来实现关联关系捕捉,在图像去噪任务中取得了良好的实验效果。随后,Dabov等人[20]进一步拓展了非局部操作,提出BM3D(block-matching and 3D filtering)模型进一步提升了图像去噪性能。Burger等人[21]通过对比实验,发现BM3D在图像去噪任务上所实现的性能与深度神经网络的性能相匹敌,进一步验证了非局部操作的重要性。Lefkimmiatis[22]将非局部操作与卷积神经网络相结合,提出一种新的深度网络,在不引入额外计算的条件下实现了更好的去噪效果。

综上所述,一方面,非局部网络在其他领域的出色表现为群体行为识别任务带来了很大启示,启发我们从个体间的关联关系出发,基于个体间联系构建行为特征。另一方面,个体所处时空位置较为分散,其上下文关系属于长距离关联信息。因此,面向群体行为建立适配的非局部网络是可行且必要的。

2 方法

如前文所述,本文的主要目的在于结合个体之间的相互影响,更准确地实现群体行为识别。从动态与静态两个角度对个体行为的准确理解是群体行为识别的坚实基础,构建包含个体间影响关系的个体特征是提升行为识别准确率的关键。本文提出一种自底向上的方法来同时对个体行为与群体行为进行分层识别,使用非局部CNN来提取包含个体间影响关系的深度特征。整体模型框架如图 1所示,主要包含非局部卷积神经网络(NCNN)与多层LSTM时序模型(HTM),分别由橙色区块与蓝色区块表示。

图 1 面向群体行为识别的非局部网络模型示意图
Fig. 1 Nonlocal network based model for group activity recognition

2.1 多层LSTM时序模型(HTM)

为了实现对个人行为的有效表示,需要同时把握个人的表观特征及其时序变化,从静态和动态两种角度来分析人的行为。对于某些行为,可以通过单帧的动作加以识别,而对于大多数动作,需要从多帧图像序列中提取有效的动态信息,从而完成相应的行为识别。

相比手工设计的特征,以CNN深度特征为基础的模型在图像分类、语音识别等多个领域都表现出了较高的性能,因此采用非局部卷积神经网络从图像中提取相应特征。在每帧图像中,根据个体标注框的位置,沿着个人运动的轨迹导出个体附近的图像区块,随后提取区块内的深度特征作为行为的静态特征。之后,利用LSTM对个体行为的时序变化来进行建模,从而得到相应的动态特征。通过综合所得静态特征和动态特征,可以完整地实现个体行为表示,进而为实现群体行为的特征表示奠定坚实的基础。

LSTM网络广泛应用于计算机视觉、自然语言处理等领域的序列建模问题[23],它由多个LSTM单元组成,每个单元内部具有不同作用的门限来控制信息在单元内外之间的流通。通过门限控制的策略,LSTM可以有效地缓解训练过程中的梯度弥散现象,较好地对序列中的长短期时序关系进行建模。此外,通过叠加LSTM组成多层网络,可实现对复杂时序关系的建模。

给定一段长度为$T$的图像序列,对于场景中的第$i$个人来说,可利用标注信息将其所在区域的图像输入NCNN中,通过NCNN提取其空间静态特征$\mathit{\boldsymbol{z}}_{i}=(\mathit{\boldsymbol{z}}^{1}_{i}, \mathit{\boldsymbol{z}}^{2}_{i}, …, \mathit{\boldsymbol{z}}^{T}_{i})$。在下一节中将对NCNN进行详细介绍;将提取到的空间特征$\mathit{\boldsymbol{z}}_{i}$输入个体级LSTM网络中,可得到其时序特征$\mathit{\boldsymbol{h}}_{i}=(\mathit{\boldsymbol{h}}^{1}_{i}, \mathit{\boldsymbol{h}}^{2}_{i}, …, \mathit{\boldsymbol{h}}^{T}_{i})$。在$f_{{\rm LSTM}_{\rm p}}$网络中,各单元中的输入门、遗忘门与输出门参数初始值随模型初始化设定,此后可随着网络训练不断更新,时序特征$\mathit{\boldsymbol{h}}_{i}$也不断更新,更新过程可简要表示为

$ \mathit{\boldsymbol{h}}^{t}_{i}=f_{\rm LSTM_{p}}(\mathit{\boldsymbol{h}}^{t-1}_{i}, \mathit{\boldsymbol{z}}^{t}_{i}) $ (1)

此外,将得到的空间特征与时序特征进行拼接(表示为⊕),从而完整地表示个人行为。在$t$时刻,记个人行为特征为$\mathit{\boldsymbol{P}}_{i}$,则有

$ \mathit{\boldsymbol{P}}^{t}_{i}=\mathit{\boldsymbol{h}}^{t}_{i}⊕\mathit{\boldsymbol{z}}^{t}_{i} $ (2)

对于目标群体来说,群体的行为是在综合多个个体行为的基础上进行判定的。当提取到表示个体行为的特征之后,紧接着要做的就是建立个体行为与群体行为之间的层级联系,整体框架及细节如图 1图 2所示。

图 2 Person pooling模块示意图
Fig. 2 Module of person pooling

为了实现行为信息的层级提升,需要利用池化操作对已提取的个体时空特征进行特征聚合,从而获取用于描述群体行为的特征。本文使用最大池化(Maxpooling)将池化后的输出记做$ \mathit{\boldsymbol{S}}_{t}$,并将其输入到群体级的LSTM网络中,最后,将该网络隐层状态$ \mathit{\boldsymbol{G}}_{t}$输入至softmax分类层,利用该层输出结果完成群体行为分类。即

$ \mathit{\boldsymbol{S}}_{t}={\rm Maxpooling}(\mathit{\boldsymbol{P}}^{t}_{1}, \mathit{\boldsymbol{P}}^{t}_{2}, …, \mathit{\boldsymbol{P}}^{t}_{i}) $ (3)

$ \mathit{\boldsymbol{G}}_{t}=f_{\rm LSTM_{g}}( \mathit{\boldsymbol{S}}_{t}) $ (4)

$ \mathit{\boldsymbol{l}}_{t}={\rm softmax}( \mathit{\boldsymbol{G}}_{t}) $ (5)

为了训练所提出的整体网络,构建了损失函数(loss function)如下

$ Loss = L({\phi _{\rm{g}}}({ \mathit{\boldsymbol{G}}_t}, {\theta _{\rm{g}}})) + \lambda \frac{1}{N}\sum\limits_{i = 1}^N L ({\phi _{\rm{p}}}(\mathit{{P}}_i^t, {\theta _i})) $ (6)

式中,$L$表示交叉熵损失函数,$ϕ_{\rm g}$表示群体行为识别模型的预测函数,$ϕ_{\rm p}$表示个体行为识别模型的预测函数,$N$表示当前群体中包含的个体数量,$λ$为平衡个体与群体行为识别的权重系数,是整体模型中的一个超参数。

2.2 非局部卷积神经网络(NCNN)

为提取包含个体间影响关系的深度特征,本文利用非局部网络对于长距离关联关系高效的捕捉能力,采用NCNN构建底层特征提取模块,完成个体静态特征提取。

由于在深度神经网络中,浅层特征更关注纹理信息,深层特征具有相应的语义信息[24],故而将导出的个体图像序列输入AlexNet[25]后,抽取深层特征pool5层特征图$ \mathit{\boldsymbol{x}}$。分别记第$i$个个体特征为$ \mathit{\boldsymbol{x}}_{i}$,第$j$个个体特征为$ \mathit{\boldsymbol{x}}_{j}$,则对应的非局部模块(nonlocal block)可表示为

$ \mathit{\boldsymbol{y}}_{i}= \frac{{1}}{{C(x)}} \sum\limits_{∀j} f( \mathit{\boldsymbol{x}}_{i}, \mathit{\boldsymbol{x}}_{j})g( \mathit{\boldsymbol{x}}_{j}) $ (7)

$ \mathit{\boldsymbol{z}}_{i}= \mathit{\boldsymbol{W}}_{z} \mathit{\boldsymbol{y}}_{i}+ \mathit{\boldsymbol{x}}_{i} $ (8)

式中,$f$为编码$ \mathit{\boldsymbol{x}}_{i}$$ \mathit{\boldsymbol{x}}_{j}$这一对特征之间相关关系的函数,计算得到一个表示特征间关系的标量;$g$为对特征$x_{i}$的变换函数;两个函数相乘的结果经过因子$C(x)$进行正则化之后得到非局部操作的输出;随后对其进行线性变换并与原特征$ \mathit{\boldsymbol{x}}_{i}$相加可得非局部模块的输出$ \mathit{\boldsymbol{z}}_{i}$。非局部模块的内部结构如图 3所示。其中,$N$为每帧图像中出现的个体数,$T$为图像序列长度,$ \mathit{\boldsymbol{M}}$表示在该段图像序列中,所得到的点对特征关系矩阵,⊗代表矩阵乘法。

图 3 Nonlocal block结构图
Fig. 3 Structure of the nonlocal block

在非局部模块中,本文采用线性变换作为第1步操作,即对应图 3中,$θ(\mathit{\boldsymbol{x}})= \mathit{\boldsymbol{W}}_{θ} \mathit{\boldsymbol{x}}$$ϕ(\mathit{\boldsymbol{x}})= \mathit{\boldsymbol{W}}_{ϕ} \mathit{\boldsymbol{x}}$$g(\mathit{\boldsymbol{x}})= \mathit{\boldsymbol{W}}_{g} \mathit{\boldsymbol{x}}$;采用点积相似度作为特征$\mathit{\boldsymbol{x}}_{i}$$\mathit{\boldsymbol{x}}_{j}$的关系度量,利用softmax函数对计算所得相似度进行归一化,即

$ f(\mathit{\boldsymbol{x}}_{i}, \mathit{\boldsymbol{x}}_{j})={\rm softmax}(θ(\mathit{\boldsymbol{x}}_{i})^{\rm T}ϕ(\mathit{\boldsymbol{x}}_{j})) $ (9)

相比非局部模块,传统的CNN模块仅将卷积操作区域附近的像素进行了特征变换,本质上是局部操作;而非局部模块考虑到了操作区域之外的像素对操作区域之间的影响,从而自适应地实现了对长距离关联关系的捕捉。非局部模块也不同于全连接层,其输出结果基于表征关系的标量,而不是像全连接层一样利用学习到的权重对特征进行加权求和。此外,非局部模块输入特征的尺寸是可变的,而全连接层则要求输入特征的尺寸是固定的,且计算过程忽略了输入特征的空间结构信息。

基于非局部模块,本文构建了NCNN模型,网络结构如表 1所示。通过NCNN,可有效提取个体空间静态特征$\mathit{\boldsymbol{z}}_{i}=(\mathit{\boldsymbol{z}}^{1}_{i}, \mathit{\boldsymbol{z}}^{2}_{i}, …, \mathit{\boldsymbol{z}}^{T}_{i})$

表 1 NCNN结构
Table 1 The architectures of NCNN

下载CSV
类型 卷积核大小/像素 移动步长 卷积核数量 输出尺寸
conv1 11×11 4×4 96 55×55
pool1 3×3 2×2 - 27×27
conv2 5×5 1×1 256 27×27
pool2 3×3 2×2 - 13×13
conv3 3×3 1×1 384 13×13
conv4 3×3 1×1 384 13×13
conv5 3×3 1×1 256 13×13
pool5 3×3 2×2 - 6×6
nonlocal block - - - 6×6
fc6 1×1 - - 4 096

2.3 实现细节

为方便与同类方法[3, 10-12]进行比较,本文沿用了在ImageNet[26]中预训练的AlexNet作为基础网络,并在训练过程中对fc6与fc7层进行了微调。整体模型依托Tensorflow实现,个体层级的LSTM包含3 000个节点,群体层级的LSTM包含2 000个节点,均采用xavier[27]进行初始化。整体网络模型训练分为两步:首先训练非局部CNN模块与个体层级的LSTM,随后加入群体层级的LSTM一起进行训练。实验设定损失函数中的超参数$λ=2$,利用Adam[28]作为优化方法,初始学习率设定为0.000 1。

3 实验

3.1 群体行为识别数据集

为评价提出模型的性能,本文选择国际通用的Volleyball Dataset进行实验。此数据集于2016年提出,随后得到了群体行为识别领域研究者的广泛使用。Volleyball Dataset包含55段排球比赛的视频,其中有4 830幅关键帧图像被标注,标注信息包括9种个体行为与8种群体行为以及个体所处位置,分辨率为1 080×720像素。由于并非所有帧都包含标注,所以本文同文献[3]一样使用dlib tracker[29]生成非关键帧的标注信息。

3.2 实验设置

1) 评价指标。采用分类准确率(Acc)作为评价指标。Acc表示分类正确的个数占总分类个数的比值,其计算为

$ f_{{\rm Acc}}= \frac{{N_{{\rm co}}}}{{N_{{\rm to}}}} $ (10)

式中,$N_{\rm co}$$N_{\rm to}$分别表示分类正确的个数和总分类个数。

2) 数据集划分。与文献[3]相同,将整个数据集按照24 :15 :14划分为训练集、验证集与测试集,且样本选取完全一致。对比方法均采用文献[3]的相关设置。

3) 与文献[10]相同,按照是否对群体进一步精细划分为两个子群体,分别展开实验。精细划分是根据排球比赛场景,按照个体在图像中所处的位置,从左至右平均分为两个子群体,在子群体中分别进行个体特征聚合,随后将聚合结果进行拼接。

4) 基础CNN架构。为方便公平对比,本文及所涉及对比方法均采用AlexNet作为基础CNN架构。

3.3 实验结果

为了验证算法有效性,在Volleyball Dataset上进行实验,实验结果如表 2所示。

表 2 在Volleyball Dataset上的分类准确率
Table 2 Accuracy on the Volleyball Dataset

下载CSV
/%
时间 方法 精细划分
2016年 Baseline-HTM[3] 70.3 81.9
2017年 CERN[11] 73.5 83.3
2017年 SBGAR[13] 66.9 -
2018年 SRNN[14] 74.4 83.4
本文 77.6 83.5
注:加粗字体表示最优结果。

通过实验结果对比可发现,本文方法能够提高当前数据集中群体行为识别准确率。在不进行群体精细划分的条件下,本文方法的分类准确率均明显高于未采用非局部卷积神经网络HTM、CERN(contidence-energy recurrent network)、SBGAR(semantics based group activity recognition)和SRNN(structural recurrent neural network)方法;在进行精细划分的条件下,本文方法识别准确率高于HTM,与CERN和SRNN性能相近。实验结果说明非局部卷积神经网络有助于更好地提取具有判别性的群体行为特征,其有效性得以验证。

3.4 实验讨论

3.4.1 非局部模块中网络节点数对识别性能的影响

在非局部网络模块中,$θ(\mathit{\boldsymbol{x}})= W_{θ} \mathit{\boldsymbol{x}}$$ϕ(\mathit{\boldsymbol{x}})=W_{ϕ} \mathit{\boldsymbol{x}}$$g(\mathit{\boldsymbol{x}})=W_{g} \mathit{\boldsymbol{x}}$均使用同一种卷积神经网络进行实现,其网络节点数作为一个超参数对于群体识别性能具有一定影响。为探究此问题,本文采用不同节点数进行实验,实验均采用1×1卷积核,结果如表 3所示。实验结果显示,无论是否对群体进行精细划分,当网络节点数为512时,本文模型对于群体行为识别准确率均较高,分别达到83.5%和77.6%。当网络节点数为256或1 024时,准确率均有所下降。

表 3 非局部模块网络节点数对分类准确率(Acc)的影响
Table 3 The impact of units in nonlocal block on accuracy

下载CSV
/%
网络节点数 精细划分
256 76.2 83.1
512 77.6 83.5
1 024 77.3 82.9
注:加粗字体表示最优结果。

3.4.2 非局部模块中卷积核大小对识别性能的影响

除节点个数外,卷积核大小也对识别性能有一定的影响,所以本文采用不同大小的卷积核进行了实验,实验结果如表 4所示。实验结果显示,在精细划分的条件下,非局部模块卷积核大小为1×1时,识别准确率较高,为83.5%;在未进行精细划分条件下,使用3×3的卷积核分类准确率较高,为77.6%。

表 4 非局部模块卷积核大小对分类准确率(Acc)的影响
Table 4 The impact of kernel size in nonlocal block on Acc

下载CSV
/%
卷积核大小 精细划分
1×1 73.2 83.5
3×3 77.6 82.9
注:加粗字体表示最优结果。

3.4.3 部分实验结果可视化

实验结果如图 4图 5所示。图 4展示了部分群体行为识别结果,本文所提模型对于群体行为与个体行为的预测结果已分别标出。图 5主要对图像序列中的个体关联关系进行了可视化。首先选定箭头起始点为$\mathit{\boldsymbol{x}}_{i}$,随后从非局部模块所得$ \mathit{\boldsymbol{M}}$的对应位置中找到相关度较大的点作为终止点。通过观察可以发现,非局部网络可有效对不同帧内的不同个体间关联关系进行表示。

图 4 群体行为识别结果示例
Fig. 4 Examples of group activity recognition
图 5 相关关系可视化示例
Fig. 5 Visualization of relationships in the group

3.4.4 实验混淆矩阵

实验所得混淆矩阵如图 6所示。观察可得,模型对于l-winpoint的分类准确率最高,为94.9%;对于r_set的分类准确率最低,为78.3%。由于在排球场景中set与pass之间相似度较高,所以对于这两类动作容易混淆;同理,排球比赛中经常出现双方球员在回合结束后同时聚拢的情况,因此一方的winpoint容易被误判为对方的winpoint。

图 6 实验所得混淆矩阵
Fig. 6 Confusion matrix of experiment

4 结论

本文提出了一种基于非局部神经网络的群体行为识别模型。该模型从考虑个体之间的相互影响出发,在训练数据中学习得到更具判别性的群体行为特征表达,从而更精细化地对个体行为、个体间相互影响及群体行为进行建模。本文首次提出面向群体行为识别的非局部卷积网络,并与多层时序模型有效结合,使学习得到的行为特征既包含个体间上下文信息,又保留群体内层次结构信息,更有利于最终的群体行为分类。通过在国际通用的Volleyball Dataset上的实验,本文方法的可行性和有效性得以验证。此外,本文针对模型中存在的变量进一步探究,揭示了不同网络结构对于识别性能的影响。

相比于前人方法,本文方法利用非局部网络引入个体关联关系,提升了群体行为识别准确率。但整体模型参数量较大,计算效率有待提升。因此,在下一步的研究中,将在保证精度的条件下进行模型简化,实现更快更准的群体行为识别。

参考文献

  • [1] Ji S W, Xu W, Yang M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221–231. [DOI:10.1109/TPAMI.2012.59]
  • [2] Shan Y H, Zhang Z, Huang K Q. Visual human action recognition:history, status and prospects[J]. Journal of Computer Research and Development, 2016, 53(1): 93–112. [单言虎, 张彰, 黄凯奇. 人的视觉行为识别研究回顾、现状及展望[J]. 计算机研究与发展, 2016, 53(1): 93–112. ] [DOI:10.7544/issn1000-1239.2016.20150403]
  • [3] Ibrahim M S, Muralidharan S, Deng Z W, et al. A hierarchical deep temporal model for group activity recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 1971-1980.[DOI: 10.1109/CVPR.2016.217]
  • [4] Herath S, Harandi M, Porikli F. Going deeper into action recognition:a survey[J]. Image and Vision Computing, 2017, 60: 4–21. [DOI:10.1016/j.imavis.2017.01.010]
  • [5] He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 770-778.[DOI: 10.1109/CVPR.2016.90]
  • [6] Zheng Y, Chen Q Q, Zhang Y J. Deep learning and its new progress in object and behavior recognition[J]. Journal of Image and Graphics, 2014, 19(2): 175–184. [郑胤, 陈权崎, 章毓晋. 深度学习及其在目标和行为识别中的新进展[J]. 中国图象图形学报, 2014, 19(2): 175–184. ] [DOI:10.11834/jig.20140202]
  • [7] Chen L C, Papandreou G, Kokkinos I, et al. Deeplab:semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834–848. [DOI:10.1109/TPAMI.2017.2699184]
  • [8] Nabi M, del Bue A, Murino V. Temporal poselets for collective activity detection and recognition[C]//Proceedings of 2013 IEEE International Conference on Computer Vision Workshops. Sydney, NSW, Australia: IEEE, 2013: 500-507.[DOI: 10.1109/ICCVW.2013.71]
  • [9] Choi W, Savarese S. A unified framework for multi-target tracking and collective activity recognition[C]//Proceedings of the 12th European Conference on Computer Vision. Florence, Italy: Springer, 2012: 215-230.[DOI: 10.1007/978-3-642-33765-9_16]
  • [10] Ibrahim M S, Muralidharan S, Deng Z W, et al. Hierarchical deep temporal models for group activity recognition[EB/OL].[2019-01-14]. https://arxiv.org/pdf/1607.02643.pdf.
  • [11] Shu T M, Todorovic S, Zhu S C. CERN: confidence-energy recurrent network for group activity recognition[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 4255-4263.[DOI: 10.1109/CVPR.2017.453]
  • [12] Bagautdinov T, Alahi A, Fleuret F, et al. Social scene understanding: end-to-end multi-person action localization and collective activity recognition[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 3425-3434.[DOI: 10.1109/CVPR.2017.365]
  • [13] Li X, Chuah M C. SBGAR: semantics based group activity recognition[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 2876-2885.[DOI: 10.1109/ICCV.2017.313]
  • [14] Biswas S, Gall J. Structural recurrent neural network (SRNN) for group activity analysis[C]//Proceedings of 2018 IEEE Winter Conference on Applications of Computer Vision. Lake Tahoe, NV, USA: IEEE, 2018: 1625-1632.[DOI: 10.1109/WACV.2018.00180]
  • [15] Silling S A. Reformulation of elasticity theory for discontinuities and long-range forces[J]. Journal of the Mechanics and Physics of Solids, 2000, 48(1): 175–209. [DOI:10.1016/S0022-5096(99)00029-0]
  • [16] Tadmor E. Mathematical aspects of self-organized dynamics:consensus, emergence of leaders, and social hydrodynamics[J]. SIAM News, 2015, 48(9).
  • [17] Coifman R R, Lafon S. Diffusion maps[J]. Applied and Computational Harmonic Analysis, 2006, 21(1): 5–30.
  • [18] Wang X L, Girshick R, Gupta A, et al. Non-local neural networks[EB/OL].[2019-01-14]. https://arxiv.org/pdf/1711.07971.pdf.
  • [19] Buades A, Coll B, Morel J M. A non-local algorithm for image denoising[C]//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA: IEEE, 2005: 60-65.[DOI: 10.1109/CVPR.2005.38]
  • [20] Dabov K, Foi A, Katkovnik V, et al. Image denoising by sparse 3-D transform-domain collaborative filtering[J]. IEEE Transactions on Image Processing, 2007, 16(8): 2080–2095. [DOI:10.1109/TIP.2007.901238]
  • [21] Burger H C, Schuler C J, Harmeling S. Image denoising: can plain neural networks compete with BM3D?[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE, 2012: 2392-2399.[DOI: 10.1109/CVPR.2012.6247952]
  • [22] Lefkimmiatis S. Non-local color image denoising with convolutional neural networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 3587-3596.[DOI: 10.1109/CVPR.2017.623]
  • [23] Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735–1780. [DOI:10.1162/neco.1997.9.8.1735]
  • [24] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014: 818-833.[DOI: 10.1007/978-3-319-10590-1_53]
  • [25] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada: Curran Associates Inc., 2012: 1097-1105.
  • [26] Deng J, Dong W, Socher R, et al. Imagenet: a large-scale hierarchical image database[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA: IEEE, 2009: 248-255.[DOI: 10.1109/CVPR.2009.5206848]
  • [27] Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[C]//Proceedings of the 13th International Conference on Artificial Intelligence and Statistics. Chia Laguna Resort, Sardinia, Italy: JMLR, 2010: 249-256.
  • [28] Kingma D P, Ba J. Adam: a method for stochastic optimization[EB/OL].[2019-01-14]. https://arxiv.org/pdf/1412.6980.pdf.
  • [29] King D E. Dlib-ml:A machine learning toolkit[J]. Journal of Machine Learning Research, 2009, 10: 1755–1758.