Print

发布时间: 2022-08-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210091
2022 | Volume 27 | Number 8




    图像分析和识别    




  <<上一篇 




  下一篇>> 





用于骨架行为识别的多维特征嵌合注意力机制
expand article info 姜权晏, 吴小俊, 徐天阳
江南大学人工智能与计算机学院,无锡 214122

摘要

目的 在行为识别任务中,妥善利用时空建模与通道之间的相关性对于捕获丰富的动作信息至关重要。尽管图卷积网络在基于骨架信息的行为识别方面取得了稳步进展,但以往的注意力机制应用于图卷积网络时,其分类效果并未获得明显提升。基于兼顾时空交互与通道依赖关系的重要性,提出了多维特征嵌合注意力机制(multi-dimensional feature fusion attention mechanism,M2FA)。方法 不同于现今广泛应用的行为识别框架研究理念,如卷积块注意力模块(convolutional block attention module,CBAM)、双流自适应图卷积网络(two-stream adaptive graph convolutional network,2s-AGCN)等,M2FA通过嵌入在注意力机制框架中的特征融合模块显式地获取综合依赖信息。对于给定的特征图,M2FA沿着空间、时间和通道维度使用全局平均池化操作推断相应维度的特征描述符。特征图使用多维特征描述符的融合结果进行过滤学习以达到细化自适应特征的目的,并通过压缩全局动态信息的全局特征分支与仅使用逐点卷积层的局部特征分支相互嵌合获取多尺度动态信息。结果 实验在骨架行为识别数据集NTU-RGBD和Kinetics-Skeleton中进行,分析了M2FA与其基线方法2s-AGCN及最新提出的图卷积模型之间的识别准确率对比结果。在Kinetics-Skeleton验证集中,相比于基线方法2s-AGCN,M2FA分类准确率提高了1.8%;在NTU-RGBD的两个不同基准分支中,M2FA的分类准确率比基线方法2s-AGCN分别提高了1.6%和1.0%。同时,消融实验验证了多维特征嵌合机制的有效性。实验结果表明,提出的M2FA改善了图卷积骨架行为识别方法的分类效果。结论 通过与基线方法2s-AGCN及目前主流图卷积模型比较,多维特征嵌合注意力机制获得了最高的识别精度,可以集成至基于骨架信息的体系结构中进行端到端的训练,使分类结果更加准确。

关键词

行为识别; 骨架信息; 图卷积网络(GCN); 注意力机制; 时空交互; 通道依赖性; 多维特征嵌合

M2FA: multi-dimensional feature fusion attention mechanism for skeleton-based action recognition
expand article info Jiang Quanyan, Wu Xiaojun, Xu Tianyang
School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi 214122, China
Supported by: National Key R&D Program of China(2017YFC1601800);National Natural Science Foundation of China (61672265, U1836218, 62020106012);The 111 Project of Ministry of Education of China (B12018)

Abstract

Objective The contexts of action analysis and recognition is challenged for a number of applications like video surveillance, personal assistance, human-machine interaction, and sports video analysis. Thanks to the video-based action recognition methods, an skeleton data based approach has been focused on recently due to its complex scenarios. To locate the 2D or 3D spatial coordinates of the joints, the skeleton data is mainly obtained via depth sensors or video-based pose estimation algorithms. Graph convolutional networks (GCNs) have been developed to resolve the issue in terms of the traditional methods cannot capture the completed dependence of joints with no graphical structure of skeleton data. The critical viewpoint is challenged to determine an adaptive graph structure for the skeleton data at the convolutional layers. The spatio-temporal graph convolutional network (ST-GCN) has been facilitated to learn spatial and temporal features simultaneously through the temporal edges plus between the corresponding joints of the spatial graph in consistent frames. However, ST-GCN focuses on the physical connection between joints of the human body in the spatial graph, and ignores internal dependencies in motion. Spatio-temporal modeling and channel-wise dependencies are crucial for capturing motion information in videos for the action recognition task. Despite of the credibility in skeleton-based action recognition of GCNs, the relative improvement of classical attention mechanism applications has been constrained. Our research highlights the importance of spatio-temporal interactions and channel-wise dependencies both in accordance with a novel multi-dimensional feature fusion attention mechanism (M2FA). Method Our proposed model explicitly leverages comprehensive dependency information by feature fusion module embedded in the framework, which is differentiated from other action recognition models with additional information flow or complicated superposition of multiple existing attention modules. Given medium feature maps, M2FA infers the feature descriptors on the spatial, temporal and channel scales sequentially. The fusion of the feature descriptors filters the input feature maps for adaptive feature refinement. As M2FA is being a lightweight and general module, it can be integrated into any skeleton-based architecture seamlessly with end-to-end trainable attributes following the core recognition methods. Result To verify its effectiveness, our algorithm is validated and analyzed on two large-scale skeleton-based action recognition datasets: NTU-RGBD and Kinetics-Skeleton. Our experiments are carried out ablation studies to demonstrate the advantages of multi-dimensional feature fusion on the two datasets. Our analyses demonstrate the merit of M2FA for skeleton-based action recognition. On the Kinetics-Skeleton dataset, the action recognition rate of the proposed algorithm is 1.8% higher than that of the baseline algorithm (2s-AGCN). On cross-view benchmark of NTU-RGBD dataset, the human action recognition accuracy of the proposed method is 96.1%, which is higher than baseline method. In addition, the action recognition rate of the proposed method is 90.1% on cross-subject benchmark of NTU-RGBD dataset. We showed that the skeleton-based action recognition model, known as 2s-AGCN, can be significantly improved in terms of accuracy based on adaptive attention mechanism incorporation. Our multi-dimensional feature fusion attention mechanism, called M2FA, captures spatio-temporal interactions and interconnections between potential channels. Conclusion We developed a novel multi-dimensional feature fusion attention mechanism (M2FA) that captures spatio-temporal interactions and channel-wise dependencies at the same time. Our experimental results show consistent improvements in classification and its priorities of M2FA.

Key words

action recognition; skeleton information; graph convolutional network (GCN); attention mechanism; spatio-temporal interaction; channel-wise dependencies; multi-dimensional feature fusion

0 引言

行为识别任务的本质是分析视频动作并将其准确分类。由于人与对象交互的多样性及时空推理的复杂性,深度网络在行为分析领域的研究进展缓慢。行为识别任务中的核心需求是捕获复杂的空间信息及动态信息,并在高效处理视频数据的同时尽量使用较低的计算量。

与图像分类任务不同,视频信息的时间维度包含复杂多变的动态信息,其很难通过神经网络进行连贯的推理学习。从基于2维卷积神经网络的分类方法——时间分段网络(temporal segment networks, TSN)(Wang等,2016)到3维卷积网络(3D convolutional neural networks, C3D)(Tran等,2015)与双流膨胀3维卷积网络(two-stream inflated 3D convnets, I3D)(Carreira和Zisserman,2017),在网络建模能力不断提高的同时,网络复杂性的增加使行为识别领域的计算负担逐步增加。如何降低计算成本逐渐成为研究中不可忽视的问题,行之有效的方法是在深度神经网络体系结构中使用分解的3维卷积(Qiu等,2017)或组卷积(Tran等,2018)。这些方法在减少计算成本方面获得了进展,但缺乏同时捕获时间、空间和通道维度依赖性的能力。

在基于骨架信息的行为识别任务中,除了自适应骨骼中心算法(冉宪宇等,2018),图卷积网络通过运用图结构中的关联信息大幅促进了识别性能的提升,包括动作图卷积网络(actional-structural graph convolutional networks,AS-GCN)(Li等,2019b)、时空图卷积网络(spatial temporal graph convolutional networks,ST-GCN)(Yan等,2018)、双流自适应图卷积网络(two-stream adaptive graph convolutional networks,2s-AGCN)(Shi等,2019b)和有向图神经网络(directed graph neural networks,DGCN)(Shi等,2019a)。该类方法的关键在于为骨架数据确定合适的图形结构,以便图卷积网络能够提取相关特征。然而,如何在图卷积网络中设计一种高效、灵活的多维特征嵌合模块以融合各维度的依赖关系仍是一个尚未解决的问题,本文旨在沿该方向推进包含空间、时间和通道维度在内的注意力机制研究。

注意力机制已在计算机视觉领域得到广泛应用。例如,行为识别任务中的时空注意力网络(Du等,2018)、机器翻译任务中完全取代卷积神经网络的自注意力模型(Vaswani等,2017)、建立图像中每对像素依赖性的非局部注意力网络(Wang等,2018)以及通过全连接层学习上下文依赖关系的池化注意力网络(Miech等,2018)。随着国内外学者对注意力机制进行深入研究,融合两种注意力机制的双重注意力网络逐渐大规模使用。例如,用于场景分割(Fu等,2019)、交互推理(Xiao等,2019)和行为识别(Woo等,2018)的双重注意力网络模型。

本文着重设计一种自适应注意力机制,通过更加灵活简易的方式同时捕获时空动态信息及通道依赖信息。该注意力模型赋予原始特征相应权重,丰富原始特征动态信息并增大不同行为类间差异。区别于以往只能增强空域或时域信息的研究工作,该注意力机制可同时提高多个维度的特征表现能力。这种多维特征嵌合注意力机制(multi-dimensional feature fusion attention,M2FA)同时关注时域与空域的动态信息和通道维度的上下文依赖关系,学习增强行为序列中的关键节点——“何时”、“何处”以及“何种依赖关系”。

为了验证M2FA的有效性,在NTU-RGBD(Shahroudy等,2016)和Kinetics-Skeleton(Yan等,2018)数据集上进行实验,并通过将M2FA移植到不同的骨干图卷积网络,验证其广泛的有效性和适用性。使用M2FA的图卷积网络在基于骨架数据的行为识别任务中相较于其他同类型网络获得了明显优势,产生了显著的性能提升。

本文主要贡献如下:1)提出一种用于骨架行为识别的多维特征嵌合注意力机制M2FA,通过增强特征表现能力提高图卷积网络识别性能; 2)M2FA同时捕获时域和空域的动态信息及通道维度蕴含的上下文依赖关系,单个注意力模型即可增强多个维度的特征表现能力; 3)M2FA同时参考全局信息和局部信息对特征权重的影响,通过不同感受野的信息融合增强原始特征; 4)不同公开数据集实验结果显示,M2FA应用于不同图卷积网络架构均能改善网络识别能力。

1 相关工作

1.1 基于骨架数据的行为识别

由于在视频分类及智能监控等领域不可或缺的作用,行为识别一直是计算机视觉中重要的研究主题。例如,多特征融合算法(谭等泰等,2020)在基于视频数据的行为识别中结合多种特征压缩原始数据,获得了更高的识别精度。与直接使用视频数据不同,基于骨架数据提出了众多不同的体系结构。骨架数据使用人体关节在空间中的2维或3维坐标表示人体,因此了解动作序列中每个人体关节在时域及空域中的动态变化至关重要。在单帧中连接相邻关节点、在连续帧序列中连接代表相同位置的关节点构造时空图结构是一种简洁直观建立时空依赖性的方法。AS-GCN(Li等,2019b)提出一种编码器与解码器联合结构捕获动作序列包含的潜在依赖关系。Shi等人(2019b)使用多分支架构搭建双流自适应图卷积网络2s-AGCN,该框架同时考虑关节信息和骨骼信息。通过计算相邻关节点坐标的矢量差表示关节点之间的骨骼信息。虽然关节流信息和骨骼流信息共同丰富了图卷积结构中的空间信息,但在捕获动作序列中的运动信息上,单纯增加信息流并不能高效地挖掘连贯的空间信息中包含的动态信息。因此,本文避免以大幅增加计算负担为代价提高模型的准确性,通过注意力机制充分挖掘特征映射中忽视的动态信息及上下文依赖关系。

1.2 注意力机制

注意力模块已经广泛应用于大规模的分类任务中,它们往往通过捕获上下文相关性来增强卷积神经网络的性能。SE-Net(squeeze-and-excitation networks)(Hu等,2018)通过建模输入特征的通道间关系,得到不同通道的权重附加至原始输入特征之上,达到了根据通道间关系进行特征重标定的目的。卷积块注意力模块(convolutional block attention module,CBAM)(Woo等,2018)通过添加最大池化推断更精确的通道注意力,并结合空间注意力模块形成双流注意力机制。但以往应用于卷积神经网络的注意力机制在基于骨架数据的图卷积网络中性能受到诸多限制,核心原因在于关节点信息与视频像素信息不同,往往由工具箱分析视频数据生成的人体关节坐标序列构成。盲目结合多种池化操作或应用复杂的卷积层将凸显骨架信息中的噪声信息,降低不同动作类别之间的差异表现。

CBAM(Woo等,2018)提出空间注意力模块和通道注意力模块共同强化图像信息中蕴含的空间及通道依赖性,两种注意力模型应用形式如图 1所示。

图 1 CBAM注意力模型结构图
Fig. 1 Diagram of convolutional block attention module

SE-Net只关注通道上下文依赖关系,而CBAM是一种结合空间与通道注意力机制的模块。两种注意力模型结合的方法是串联处理输入特征。除此之外,在场景分割任务中提出的双重注意力网络(Fu等,2019),其空间注意力模块与通道注意力模块采取了并联处理输入特征的结合方法。但上述方法本质上都运用多种关注不同维度的注意力模块进行堆叠,且双重注意力机制的模式依旧不能满足行为识别任务中同时捕获多个维度之间依赖性的需求。即基于骨架数据的行为识别任务中,如何利用注意力机制获取多维度依赖信息尚未得到深入研究。本文对于注意力机制的研究旨在仅通过一个包含多维特征嵌合模块的注意力模型,捕获以往双重注意力模型难以提取的多维特征协同依赖信息,进而增强图卷积网络的分类学习能力。

2 多维特征嵌合注意力机制

2.1 多维特征描述符

在基于视频数据的行为识别框架中,如关键语义区域链框架(马淼等,2020),原始数据经过卷积神经网络转换为$\boldsymbol{F} \in \mathbf{R}^{N \times C \times H \times W \times T}$的特征映射。其中,N代表数据批量大小,C表示特征映射的通道数,HW分别表示特征图的高与宽,T表示视频序列特有的时间维度。与原始视频数据不同,骨架信息表示为$ \boldsymbol{X} \in \mathbf{R}^{N \times C \times T \times V \times M}$。其中NCT在特征映射中的含义不变。由于骨架信息与图像信息性质不同,C表示的维度在输入图卷积网络之前由关节点的空间坐标信息和置信度分数组成,而V表示图结构中的关节点数目,M为在该序列中出现的最大有效人数,通常固定M为2。因此,图卷积网络为了便于计算,通常将形如X的原始数据重塑为$ \boldsymbol{X}^{\prime} \in \mathbf{R}^{(N \times M) \times C \times T \times V}$的形式,将N×M看做总数据批量大小。本文将图卷积网络中的特征映射维度简化表示为N×C×T×V

为了在注意力机制中同时重置多个维度的响应强度,使特征映射自适应地生成多维注意力权重图,需要为动作序列的动态信息设计特征描述符。这种特征描述符将使注意力机制准确地加强关键关节点、关键帧和关键上下文关系。其中,通道特征描述符映射了每个通道在整体特征映射中的重要程度,由全局时域信息及空域信息共同压缩获取,每个通道特征描述符都包含当前通道的时空信息。对于特征映射$\boldsymbol{F} \in \mathbf{R}^{N \times C \times T \times V}$,生成通道特征描述符$\boldsymbol{F}_{\text {avg }}^{c} \in \mathbf{R}^{N \times C \times 1 \times 1}$的具体过程为

$ \boldsymbol{F}_{\mathrm{avg}}^{c}=f_{\mathrm{avg}}^{t, v}(\boldsymbol{F})=\frac{1}{T \times V} \sum\limits_{i=1}^{T} \sum\limits_{j=1}^{V} F_{n, c}(i, j) $ (1)

式中,$f_{\mathrm{avg}}^{t, v}$表示特征映射在时域维度和空域维度进行2维均值压缩,$n$$c$分别代表数据批量大小和通道数,$F_{n, c}(i, j)$代表输入特征映射$\boldsymbol{F}$中单个帧内的单个关节点信息。

空域特征描述符代表每个关节点在当前动作序列中的重要程度,由全局时域信息压缩获取,每个空域特征描述符都蕴含当前关节点在时间维度的全局信息。对于给定的特征映射$\boldsymbol{F}$,生成空域特征描述符$\boldsymbol{F}_{\mathrm{avg}}^{s} \in \mathbf{R}^{N \times C \times 1 \times V}$的具体过程为

$ \boldsymbol{F}_{\mathrm{avg}}^{s}=f_{\mathrm{avg}}^{t}(F)=\frac{1}{T} \sum\limits_{i=1}^T F_{n, c, v}(i) $ (2)

式中,$f_{\mathrm{avg}}^{t}$表示特征映射在时域维度进行1维均值压缩,$F_{n, c, v}(i)$代表输入特征映射$\boldsymbol{F}$中单个帧包含的时域信息。

时域特征描述符则映射了每一帧在当前动作序列中的重要程度,是包含动态信息最丰富的维度。TSM(temporal shift module)(Lin等,2019)通过将特征映射在时间维度上错位移动的方法使2维卷积网络不增加计算负担也能进行时空建模。本文利用时间移位操作集成每一帧与相邻帧之间的特征差异,以不增加模型复杂度的形式获取更加丰富的动态信息。移位操作的过程如图 2所示。

图 2 时间位移操作结构图
Fig. 2 Diagram of temporal shift operation

将原始特征沿着时间维度的任意方向移动一个单位,缺少的数据用0填充,多余的数据截断舍弃。此时经过移位操作的$\boldsymbol{F}^{-1}$与原始特征映射相比,每个位置都对应当前关节点在其相邻帧中的信息。将原始特征$\boldsymbol{F}$与朝不同方向移位的特征$\boldsymbol{F}^{-1}$进行逐位相减即可获取每一帧与前后两帧之间的动态差异特征$\boldsymbol{F}_{\text {diff }} \in \mathbf{R}^{N \times C \times T \times V}$。对于给定的动态差异特征$\boldsymbol{F}_{\text {diff }}$,生成时域描述符$\boldsymbol{F}_{\mathrm{avg}}^{t} \in \mathbf{R}^{N \times C \times T \times 1}$的具体过程为

$ \boldsymbol{F}_{\mathrm{avg}}^{t}=f_{\mathrm{avg}}^{s}\left(\boldsymbol{F}_{\mathrm{diff}}\right)=\frac{1}{V} \sum\limits_{j=1}^{V} F_{n, c, t}(j) $ (3)

式中,$f_{\mathrm{avg}}^{s}$表示动态差异特征在空域维度进行1维均值压缩,$F_{n, c, t}(j)$代表动态差异特征$\boldsymbol{F}_{\text {diff }}$中单个关节点包含的动态空域信息。引进动态差异特征而不是直接使用原始特征映射$\boldsymbol{F}$使时域特征描述符包含丰富的全局空域差异信息。

2.2 多维特征描述符融合

通过压缩全局信息提取不同维度的特征描述符之后,将其输入特征融合模块,使评估时域信息、空域信息及通道上下文依赖信息的标准集成在同一个特征映射之中。该多维特征描述符融合模块的结构如图 3所示,图中$ \oplus $代表通道维度的级联操作。

图 3 特征融合操作结构图
Fig. 3 Diagram of feature fusion operation

对于具有不同维度大小的通道描述符$\boldsymbol{F}_{\text {avg }}^{c}$、空域描述符$\boldsymbol{F}_{\text {avg }}^{s}$和时域描述符$\boldsymbol{F}_{\text {avg }}^{t}$,将它们进行特征融合操作的前提是分别将其特征维度复制拓展至原始特征映射的相应维度N×C×T×V。随后将3种特征描述符在通道维度进行级联,此时特征通道数由C拓展为3C。应用一个逐点卷积操作降低融合特征的维度并更好地建立3种特征描述符的内部依赖关系。多维特征描述符映射$\boldsymbol{F}_{\text {Multi }} \in \mathbf{R}^{N \times C \times T \times V}$的计算过程为

$\boldsymbol{F}_{\text {Multi }}=f_{G}^{1 \times 1}\left[\boldsymbol{F}_{\text {avg }}^{c} ; \boldsymbol{F}_{\text {avg }}^{s} ; \boldsymbol{F}_{\text {avg }}^{t}\right] $ (4)

式中,$\left[\boldsymbol{F}_{\text {avg }}^{c} ; \boldsymbol{F}_{\text {avg }}^{s} ; \boldsymbol{F}_{\text {avg }}^{t}\right]$表示3种特征描述符在通道维度进行级联,3种特征描述符由式(1)—(3)得到。$f_{G}^{1 \times 1}$代表集成全局信息的逐点卷积层,它将特征映射的通道数由3C压缩恢复至C

2.3 多尺度特征嵌合

卷积神经网络中的多尺度金字塔结构(Chen等,2016)经常用于融合多层特征获取高分辨率语义特征。本文除了融合多维特征描述符以加强特征映射表现外,还通过嵌合多尺度特征达到全局与局部注意力机制相结合的效果。该多尺度特征嵌合模块的结构如图 4所示,图中$ \oplus $代表两个特征映射逐位相加,绿色区域表示多维特征描述符的融合过程,黄色区域表示多尺度特征嵌合模块。

图 4 多尺度特征嵌合结构图
Fig. 4 Diagram of multi-scale feature fusion operation

由于特征描述符的提取计算中包含全局平均池化操作,多维特征描述符仅由各维度的全局压缩信息构建而缺乏局部信息与之相互补偿。为了兼顾注意力机制的轻量级,利用逐点卷积层从原始特征映射中直接学习局部上下文信息。将全局信息与局部信息构建的特征映射逐位相加,从而嵌合多尺度特征,进一步增强特征表现能力。获取多维特征描述符是多尺度特征嵌合模块的基础。通过全局信息分支与局部信息分支的特征融合,多尺度嵌合特征$\boldsymbol{F}_{\text {scale }} \in \mathbf{R}^{N \times C \times T \times V}$的计算过程可概括为

$ \boldsymbol{F}_{\text {scale }}=\boldsymbol{F}_{\text {Multi }}+f_{L}^{1 \times 1}(\boldsymbol{F}) $ (5)

式中,$f_{L}^{1 \times 1}$代表从原始输入特征$\boldsymbol{F}$构建局部信息的逐点卷积层。

2.4 多维特征嵌合注意力模型

通过上述多维特征描述符与经过逐点卷积的原始特征映射进行嵌合,新的融合特征同时具备多维度全局依赖信息和局部上下文信息。通过对该特征融合结果进行批量标准化及激活处理,可以捕获原始特征映射的注意力权重图$\boldsymbol{M} \in \mathbf{R}^{N \times C \times T \times V}$,本文选取了sigmoid激活函数重置注意力权重的分布。对于给定的注意力权重图$\boldsymbol{M}$与原始输入特征$\boldsymbol{F}$,经过多维特征嵌合注意力模型逐点重置权重的过程为

$ \boldsymbol{F}_{\mathrm{M} 2 \mathrm{FA}}=\boldsymbol{M} \otimes \boldsymbol{F}=\sigma\left(B N\left(\boldsymbol{F}_{\mathrm{scale}}\right)\right) \otimes \boldsymbol{F} $ (6)

式中,$\otimes$表示一一对应的逐点相乘,$\boldsymbol{F}_{\mathrm{M} 2 \mathrm{FA}}$则是通过多维特征嵌合注意力机制增强后的特征映射。$BN$代表批量标准化操作,$\sigma$是sigmoid激活函数。

多维特征嵌合注意力模型不仅集成多个维度的特征描述符共同构建关键帧、关键节点和关键上下文依赖关系,且同时嵌合局部信息与全局信息加强特征表示。M2FA的整体框架如图 5所示,多维特征嵌合注意力模型主要分为3个阶段,即多维特征融合、多尺度特征嵌合以及注意力权重映射。多维特征嵌合注意力模型仅通过一次注意力权重映射即加强了以往双重注意力机制忽略的多维依赖关系及局部信息,相比于其他类似CBAM应用多个注意力权重映射的双重注意力结构(如图 1所示),M2FA避免多次应用激活函数,以防特征映射信息强度削弱。同时,注意力模型整体仅由两个逐点卷积层辅助融合特征信息,相比于其他类似SE-Net结构的注意力机制堆叠多个全连接层,M2FA节省了额外的计算开销。

图 5 多维特征嵌合注意力机制结构图
Fig. 5 Diagram of multi-dimensional feature fusion attention mechanism

2.5 多维特征嵌合注意力机制与原始框架集成

本文提出的多维特征嵌合注意力机制可以无缝集成到基于骨架数据的行为识别网络架构中,有效提升网络识别准确率。注意力模块与原始框架的集成方式如图 6所示。如图 6(a)所示,与普通卷积神经网络一样,图卷积网络由多个图卷积块堆叠构成,其中每个图卷积块包含如图 6(b)所示的图卷积单元。在图 6(b)所示AGCN块原始结构中(Shi等,2019b),$ \oplus $表示残差连接的逐位相加。每个AGCN图卷积块都由空间图卷积与时间图卷积共同构成。输入特征通过两种图卷积计算后都会归一化并激活,且在两种图卷积单元之间添加dropout层可以有效避免网络训练过拟合。M2FA在原始图卷积块中的具体叠加位置如图 6(c)所示,图中$\otimes$表示M2FA将注意力权重图与原始AGCN图卷积单元的输出特征逐元素相乘,以达到强调或抑制相应维度信息的目的。

图 6 M2FA与AGCN块集成结构图
Fig. 6 M2FA integrated with AGCN blocks in 2s-AGCN
((a) AGCN block; (b) AGCN unit; (c) M2FA integrated)

2.6 自适应图卷积网络框架

本文致力于通过多维特征嵌合注意力机制增强原始图卷积网络的特征映射表现能力。对于叠加M2FA模块的基线方法,保持其原始网络框架设定。如图 6(a)所示,2s-AGCN网络(Shi等,2019b)由自适应图卷积块堆叠而成,具体的图卷积模块堆叠方式及网络构成细节如图 7所示。2s-AGCN框架包括9个图卷积模块连接。批量归一化层(batch normal-ization,BN)在网络开始位置,用于规范化原始输入数据。数据规范化操作后,使用一个特殊的不包含残差连接的图卷积模块增加原始特征映射的通道数量。随后将9个图卷积模块分成3组连续堆叠,每组包含3个图卷积模块,不同组的图卷积模块输出通道数量依次为64、128和256。图卷积网络的初始步长为1,如果卷积块的输入与输出特征的通道数量不同,则将步长提升为2。全局平均池化层放置在图卷积模块之后,用于强制不同的动作序列样本生成大小相同的特征图。动作序列分类结果由网络末端的softmax分类器生成。

图 7 双流自适应图卷积网络(2s-AGCN)框架
Fig. 7 Illustration of the 2s-AGCN

3 实验及分析

为了验证本文提出的多维特征嵌合注意力机制的有效性,在两个大型公开骨架数据集NTU-RGBD(Shahroudy等,2016)和Kinetics-Skeleton(Yan等,2018)上进行实验。同时,为了验证注意力机制在不同图卷积网络体系结构中的普遍适用性,在Pytorch框架中重现了ST-GCN(Yan等,2018)与2s-AGCN(Shi等,2019b)网络,并通过在实验中添加注意力模块对比识别准确率。

3.1 数据集与实验环境

消融实验在NTU-RGBD(Shahroudy等,2016)和Kinetics-Skeleton(Yan等,2018)数据集上进行,采用2s-AGCN作为骨干网络框架,评估每个特征融合模块的效果。Kinetics-Skeleton数据集包含400个类别,30万个人体动作序列。NTU-RGBD数据集包含60个动作类别,56 880个人体行为序列,分为Cross-Subject和Cross-View两组基准。Cross-Subject基准的训练集和测试集分别包含40 320和16 560个动作片段,Cross-View基准的训练集和测试集分别包含37 920和18 960个动作片段。

实验均使用两个2080Ti GPU进行。在NTU-RGBD的两组基准中,训练周期均为50,初始学习率为0.1,在第30个训练周期转换为0.01,在第40个训练周期转换为0.001。对于Kinetics-Skeleton数据集,网络训练周期延长为65,分别在第45和第55个训练周期衰减学习率。

3.2 消融实验

M2FA由3部分构成,分别是多维特征描述符融合、多尺度特征嵌合以及自适应注意力机制的映射。消融实验的目的是验证多维特征嵌合注意力机制中每个组成部分的合理性。与2s-AGCN(Shi等,2019b)为了减少歧义采取的实验策略相同,本阶段消融实验中标示的AGCN与实验结果阶段标示的2s-AGCN代表的含义不同,AGCN表示基线方法仅采用单个信息流作为输入数据,而2s-AGCN代表同时将关节流信息和骨骼流信息作为输入数据的双流网络架构分类结果。为了验证多维特征嵌合结构的合理性,使用单个信息流作为输入可以有效避免双流框架对融合策略的效果产生干扰。

3.2.1 多维度特征描述符的有效性验证

实验使用Kinetics-Skeleton的关节流数据验证融合多个维度特征描述符的有效性。为了防止局部上下文信息对特征映射的表现能力产生干扰,本阶段采取的策略是仅使用多维特征描述符融合模块及自适应注意力图映射模块。通过控制参与特征描述符融合的维度数量验证融合策略的合理性。为了更直观地验证M2FA作为注意力机制的优势,对比骨干AGCN网络与SE注意力模块(Hu等,2018)结合的识别效果,获得的测试集分类准确率如表 1所示,其中策略C、S、T分别表示注意力机制融合了通道(C)特征描述符、空域(S)特征描述符和时域(T)特征描述符。由表 1可见,SE注意力机制对基于骨架数据的行为识别框架帮助有限,而如今应用范围较广的自适应注意力机制多启发于SE注意力机制,其中包括CBAM等众多双重自适应注意力机制。由此可见,研究多维特征嵌合注意力机制对基于骨架数据的行为识别任务来说至关重要。CBAM等双重注意力框架仅融合SE通道注意力机制及空间注意力机制,而M2FA同时考虑特征映射的所有信息维度(时间、空间、通道)。对于视频序列,CBAM等双重注意力框架忽视了时间维度的动态信息以及多尺度关联信息。

表 1 不同融合策略在Kinetics-Skeleton上的实验结果
Table 1 Comparison of different fusion strategies on the Kinetics-Skeleton test set  

下载CSV
/%
方法 Top-1 Top-5
AGCN(基线) 35.1 57.1
AGCN + SE 35.3 57.4
M2FA+策略S 35.5 58.2
M2FA+策略S+策略T 35.8 58.4
M2FA+策略S+策略T+策略C 36.2 58.9
注:加粗字体表示各列最优结果。

如上所述,广泛应用的SE注意力机制及CBAM注意力机制主要针对RGB图像进行分析加强。对于加强通道维度上下文依赖性的SE注意力机制来说,RGB图像信息与骨骼序列信息生成的特征映射尚有共通之处,因此SE模块能够微弱提升基线方法AGCN的分类效果(表 1)。对于CBAM中针对RGB图像信息提出的空间注意力机制,由于RGB信息与骨架信息构成的空间要素差异较大,RGB图像的空间信息由高×宽的像素信息组成,而骨架序列的空间信息由人体关节点的坐标构成,故而缺乏在基于骨架信息的图卷积网络中应用CBAM双重注意力模型的实践意义。本文研究的M2FA受以往注意力机制架构的启发,不再局限于单一维度或两个维度的信息加强,注重多个维度特征表现能力的增强,弥补了骨架信息行为识别领域对于多维特征嵌合注意力机制研究的忽视。

根据表 1展现的实验结果,只有将3个维度的特征描述符统一融合才能获取最好的识别效果,单纯使用一个维度的特征描述符完成自适应注意力图映射或结合两个维度的特征描述符都不能完整地捕获关键帧、关键关节点以及关键上下文依赖信息。因此,本文提出的多维特征描述符融合模块能够有效帮助骨干网络获取更高的分类准确率。

3.2.2 全局信息和局部信息的有效性验证

实验使用NTU-RGBD的关节流数据在Cross-Subject基准验证全局信息与局部信息融合模块的有效性,获得的测试集分类准确率如表 2所示,其中“全局”表示直接使用多维特征描述符生成注意力权重图,“全局+ 局部”表示增添了多尺度特征嵌合模块使之构建为完整M2FA获得的分类准确率。由表 2的结果可知,M2FA不仅能在大型数据库Ki-netics-Skeleton中促进图卷积网络加强特征映射中的关键信息,在NTU-RGBD数据库中也能达到同样的优异效果。M2FA将输入特征映射直接进行逐点卷积获得的局部上下文信息与多维特征描述符压缩的全局上下文信息形成互补,合理运用互补融合后的全局与局部信息生成了更准确的注意力权重图。因此,通过逐点卷积操作学习输入特征的局部信息是必不可少的。

表 2 不同聚合规模在NTU-RGBD上的实验结果
Table 2 Comparison of different aggregation scales on the NTU-RGBD test set  

下载CSV
/%
方法 Top-1 Top-5
AGCN(基线) 86.2 96.9
M2FA(全局) 87.6 97.6
M2FA(全局+ 局部) 87.8 97.7
注:加粗字体表示各列最优结果。

3.2.3 拓展至其他图卷积网络的有效性验证

为了进一步验证本文提出的M2FA的广泛有效性,将其拓展至骨骼流及其他基于骨架数据的图卷积网络中验证其有效性。相比于关节流是由工具箱在视频数据中直接提取关节点坐标信息,骨骼流数据是由关节流数据计算而来。图结构中每两个相邻关节点之间坐标的矢量差定义为骨骼信息,因此骨骼信息往往有更多的噪声,分类效果也与关节流略有差距。关节流和骨骼流互补的双流网络与基于视频数据的RGB流和光流互补的思想类似,都是通过更多的信息流直接补偿相应的空间信息与动态信息。表 3是在Kinetics-Skeleton数据集中将M2FA应用至骨骼流的实验结果。由表 3可知,即使在不同的信息流中,M2FA依旧能捕获关键骨骼、关键帧及关键上下文依赖关系。通过对比表 1表 3,发现M2FA对骨骼流的提升效果比关节流显著,说明多维特征嵌合注意力机制可以准确地使骨骼流注意关键信息,并尽可能削弱了噪声信息强度。

表 3 骨骼流在Kinetics-Skeleton上的分类结果
Table 3 Classification accuracy of bone flow on the Kinetics-Skeleton test set  

下载CSV
/%
方法 Top-1 Top-5
AGCN(基线) 33.3 55.7
M2FA 35.5 58.1
注:加粗字体表示各列最优结果。

3.2.4 可视化对比

为了更直观地验证M2FA相对于基线方法2s-AGCN的改进效果以及M2FA相较于SE注意力模块在骨架图卷积网络中的优势,将可训练的邻接矩阵可视化。图 8展示了2s-AGCN中自适应邻接矩阵的可视化结果。矩阵中每个元素的灰度表示一对关节在空间维度的连接强度。图 8(a)是NTU-RGBD数据集中的原始邻接矩阵,ST-GCN(Yan等,2018)在训练的过程中采用这种固定连接强度的邻接矩阵,使图卷积网络学习到的依赖关系受限于物理连接(如手与手腕)。图 8(b)是2s-AGCN训练得到的自适应邻接矩阵,可学习的邻接矩阵相较于固定连接强度的邻接矩阵更加灵活,且不受人体关节物理连接的限制,能够学习距离较远的关节之间的依赖关系(如手与脚)。图 8(c)是叠加了SE注意力模块训练得到的邻接矩阵,以往广泛应用于RGB信息研究领域的SE注意力机制既不能增强骨架序列物理连接关节点之间的依赖关系,也不能捕获非物理连接关节点之间的关联信息。图 8(d)是M2FA邻接矩阵,与其他邻接矩阵对比可知,M2FA训练得到的邻接矩阵同时捕获关节点之间的物理连接及非物理连接的依赖关系,且连接强度取决于动作序列中关节包含的动态信息丰富程度。图 8验证了M2FA对于基线方法2s-AGCN的提升效果,体现了M2FA在基于骨架信息的行为识别任务中相较于SE注意力模块的优势。

图 8 可训练的邻接矩阵可视化
Fig. 8 Example of the learned adjacency matrix
((a) original adjacency matrix; (b) adjacency matrix learned by 2s-AGCN; (c) adjacency matrix learned by SE-Net; (d) adjacency matrix learned by M2FA)

M2FA除了应用于AGCN(Shi等,2019b)架构中,还可用于其他图卷积网络。表 4显示了使用关节流信息将M2FA应用于图卷积网络ST-GCN(Yan等,2018)获得的分类准确率。可以看出,即使在不同的图卷积架构中,M2FA依旧能够合理重置关键信息权重,并稳定提升图卷积网络的分类性能。

表 4 不同基准在Kinetics-Skeleton数据集的实验结果
Table 4 Comparison of different baselines on the Kinetics-Skeleton test set  

下载CSV
/%
方法 Top-1 Top-5
ST-GCN 30.7 52.8
AGCN 35.1 57.1
ST-GCN + M2FA 32.9 55.1
AGCN + M2FA 36.2 58.9
注:加粗字体表示各列最优结果。

3.3 实验结果

根据上述消融实验的评估结果,M2FA在大规模数据集中能够显著提高行为识别任务的分类准确率。为了进一步展现其优势和有效性,以2s-AGCN为骨干网络,将使用M2FA增强的关节流与骨骼流的识别效果进行融合,获得最终的双流网络分类性能,分类结果如表 5所示。其中NTU(cv)和NTU(cs)分别表示M2FA在NTU-RGBD数据集Cross-View基准和Cross-Subject基准中的分类准确率,KS是在Kinetics-Skeleton数据集中的分类准确率。

表 5 双流融合的分类结果
Table 5 Classification accuracy of two stream fusion  

下载CSV
/%
信息流 Top-1
NTU (cv) NTU (cs) KS
关节流 94.9 87.8 36.2
骨骼流 94.9 88.2 35.5
双流融合 96.1 90.1 37.9
注:加粗字体表示各列最优结果。

表 5中双流融合结果与Kinetics-Skeleton和NTU-RGBD上的最新算法进行比较,结果如表 6表 7所示。实验详细列出了在NTU-RGBD的两种不同基准及Kinetics-Skeleton中的识别精度。经过M2FA加强后的2s-AGCN不仅分类准确率显著提高,且在与较新算法,如DGNN(directed graph neural network)(Shi等,2019a)、NAS(neural architecture search)(Peng等,2020)的对比中的取得优势。表 6表 7中,DGNN并非通过轻量级注意力模型提升特征的表现能力,而是通过融合骨架信息的不同信息流提高分类准确性。DGNN不仅包含空间流信息还计算了骨架序列的运动流信息。运动流信息通过计算两个连续帧内对应的关节或骨骼坐标差异得到。故而为了提升分类准确率,DGNN采取的方法是使用4种不同的信息流提供更多的空间信息和动态信息,这意味着消耗巨大的计算资源且通过大量迭代学习才能完成收敛。2s-AGCN中的双流识别算法是将关节流和骨骼流信息作为网络模型的输入数据,虽然包含了两种不同信息,但都属于空间流信息。NAS通过定义新的时空动态模块建立恰当的网络结构提升模型的识别准确率,同样忽视了使用注意力模型加强网络识别能力。这意味着近期针对骨架数据行为识别的研究注重通过给网络输入更多的信息源以及改变时空图结构寻求更强大的特征表现能力,忽略了信息流本身尚未挖掘的时空动态信息。M2FA从更精细且节省计算资源的角度实现了网络性能提升,有效增强了关键维度及关键上下文信息,显示了同时捕获丰富上下文依赖性和准确增强不同维度关键特征的良好效果。

表 6 在Kinetics-Skeleton数据集对比当前方法的效果
Table 6 Performance comparison on Kinetics-Skeleton with current methods  

下载CSV
/%
方法 Top-1 Top-5
ST-GCN(Yan等,2018) 30.7 52.8
AS-GCN(Li等,2019) 34.8 56.5
2s-AGCN(Shi等,2019b) 36.1 58.7
DGNN(Shi等,2019a) 36.9 59.6
NAS(Peng等,2020) 37.1 60.1
M2FA(本文) 37.9 60.3
注:加粗字体表示各列最优结果。

表 7 在NTU-RGBD数据集对比当前方法的效果
Table 7 Performance comparison on NTU-RGBD with current methods

下载CSV
方法 Top-1/%
cs cv
ST-GCN(Yan等,2018) 81.5 88.3
STGR-GCN(Li等,2019a) 86.9 92.3
GR-GCN(Gao等,2019) 87.5 94.3
AS-GCN(Li等,2019b) 86.8 94.2
2s-AGCN(Shi等,2019b) 88.5 95.1
DGNN(Shi等,2019a) 89.9 96.1
NAS(Peng等,2020) 89.4 95.7
M2FA(本文) 90.1 96.1
注:加粗字体表示各列最优结果,STGR-GCN:spatio-temporal graph routing graph convolution networks; GR-GCN: graph regression based GCN。

4 结论

本文提出一种用于骨架行为识别的多维特征嵌合注意力机制M2FA。不同于以往的注意力机制只强调单个维度的关键信息或重复叠加多种注意力模块,M2FA仅通过一个注意力模块同时捕获不同维度之间的相互依赖性,且整合了全局及局部信息以增强特征表示,在实现较大性能改进的同时保持较小的计算开销。M2FA在两个不同的大型公开数据集中成功增强了骨干图卷积框架的性能,使原始图卷积网络框架具有加强关键帧、关键节点和关键上下文依赖关系的能力,验证了其广泛有效性。

未来的研究工作将致力于将多个维度的依赖信息直接编码于注意力图中,以张量注意力机制的形式代替当前基于特征融合的注意力机制,达到更高效便捷辅助图卷积模型行为识别的目的。

参考文献

  • Carreira J and Zisserman A. 2017. Quo vadis, action recognition? A new model and the kinetics dataset//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 4724-4733 [DOI: 10.1109/CVPR.2017.502]
  • Chen L C, Yang Y, Wang J, Xu W and Yuille A L. 2016. Attention to scale: scale-aware semantic image segmentation//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 3640-3649 [DOI: 10.1109/CVPR.2016.396]
  • Du W B, Wang Y L, Qiao Y. 2018. Recurrent spatial-temporal attention network for action recognition in videos. IEEE Transactions on Image Processing, 27(3): 1347-1360 [DOI:10.1109/TIP.2017.2778563]
  • Fu J, Liu J, Tian H J, Li Y, Bao Y J, Fang Z W and Lu H Q. 2019. Dual attention network for scene segmentation//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 3141-3149 [DOI: 10.1109/CVPR.2019.00326]
  • Gao X, Hu W, Tang J X, Liu J Y and Guo Z M. 2019. Optimized skeleton-based action recognition via sparsified graph regression//Proceedings of the 27th ACM International Conference on Multimedia. Nice, France: ACM: 601-610 [DOI: 10.1145/3343031.3351170]
  • Hu J, Shen L and Sun G. 2018. Squeeze-and-excitation networks//Proceedings 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 7132-7141 [DOI: 10.1109/CVPR.2018.00745]
  • Li B, Li X, Zhang Z F, Wu F. 2019a. Spatio-temporal graph routing for skeleton-based action recognition. Proceedings of the AAAI Conference on Artificial Intelligence, 33(1): 8561-8568 [DOI:10.1609/aaai.v33i01.33018561]
  • Li M S, Chen S H, Chen X, Zhang Y, Wang Y F and Tian Q. 2019b. Actional-structural graph convolutional networks for skeleton-based action recognition//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 3590-3598 [DOI: 10.1109/CVPR.2019.00371]
  • Lin J, Gan C and Han S. 2019. TSM: temporal shift module for efficient video understanding//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea (South): IEEE: 7082-7092 [DOI: 10.1109/ICCV.2019.00718]
  • Ma M, Li Y B, Wu X Q, Gao J F, Pan H P. 2020. Human action recognition in videos utilizing key semantic region extraction and concatenation. Journal of Image and Graphics, 25(12): 2517-2529 (马淼, 李贻斌, 武宪青, 高金凤, 潘海鹏. 2020. 关键语义区域链提取的视频人体行为识别. 中国图象图形学报, 25(12): 2517-2529) [DOI:10.11834/jig.200049]
  • Miech A, Laptev I and Sivic J. 2018. Learnable pooling with context gating for video classification [EB/OL]. [2021-02-01]. https://arxiv.org/pdf/1706.06905.pdf
  • Peng W, Hong X P, Chen H Y, Zhao G Y. 2020. Learning graph convolutional network for skeleton-based human action recognition by neural searching. Proceedings of 2020 AAAI Conference on Artificial Intelligence, 34(3): 2669-2676 [DOI:10.1609/aaai.v34i03.5652]
  • Qiu Z F, Yao T and Mei T. 2017. Learning spatio-temporal representation with pseudo-3D residual networks//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 5534-5542 [DOI: 10.1109/ICCV.2017.590]
  • Ran X Y, Liu K, Li G, Ding W W, Chen B. 2018. Human action recognition algorithm based on adaptive skeleton center. Journal of Image and Graphics, 23(4): 519-525 (冉宪宇, 刘凯, 李光, 丁文文, 陈斌. 2018. 自适应骨骼中心的人体行为识别算法. 中国图象图形学报, 23(4): 519-525) [DOI:10.11834/jig.170420]
  • Shahroudy A, Liu J, Ng T T and Wang G. 2016. NTU RGB+D: a large scale dataset for 3D human activity analysis//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 1010-1019 [DOI: 10.1109/CVPR.2016.115]
  • Shi L, Zhang Y F, Cheng J and Lu H Q. 2019a. Skeleton-based action recognition with directed graph neural networks//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 7904-7913 [DOI: 10.1109/CVPR.2019.00810]
  • Shi L, Zhang Y F, Cheng J and Lu H Q. 2019b. Two-stream adaptive graph convolutional networks for skeleton-based action recognition//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 12018-12027 [DOI: 10.1109/CVPR.2019.01230]
  • Tan D T, Li S C, Chang W W, Li D L. 2020. Multi-feature fusion behavior recognition model. Journal of Image and Graphics, 25(12): 2541-2552 (谭等泰, 李世超, 常文文, 李登楼, 等. 2020. 多特征融合的行为识别模型. 中国图象图形学报, 25(12): 2541-2552) [DOI:10.11834/jig.190637]
  • Tran D, Bourdev L, Fergus R, Torresani L and Paluri M. 2015. Learning spatiotemporal features with 3D convolutional networks//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 4489-4497 [DOI: 10.1109/ICCV.2015.510]
  • Tran D, Wang H, Torresani L, Ray J, LeCun Y and Paluri M. 2018. A closer look at spatiotemporal convolutions for action recognition//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 6450-6459 [DOI: 10.1109/CVPR.2018.00675]
  • Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez A N, Kaiser Ł and Polosukhin I. 2017. Attention is all you need [EB/OL]. [2021-02-01]. https://arxiv.org/pdf/1706.03762.pdf
  • Wang L M, Xiong Y J, Wang Z, Qiao Y, Lin D H, Tang X O and Van Gool L. 2016. Temporal segment networks: towards good practices for deep action recognition//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 20-36 [DOI: 10.1007/978-3-319-46484-8_2]
  • Wang X L, Girshick R, Gupta A and He K M. 2018. Non-local neural networks//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 7794-7803 [DOI: 10.1109/CVPR.2018.00813]
  • Woo S, Park J, Lee J Y and Kweon I S. 2018. CBAM: convolutional block attention module//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 3-19 [DOI: 10.1007/978-3-030-01234-2_1]
  • Xiao T T, Fan Q F, Gutfreund D, Monfort M, Oliva A and Zhou B L. 2019. Reasoning about human-object interactions through dual attention networks//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea (South): IEEE: 3918-3927 [DOI: 10.1109/ICCV.2019.00402]
  • Yan S J, Xiong Y J and Lin D H. 2018. Spatial temporal graph convolutional networks for skeleton-based action recognition//Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, USA: AAAI: 7444-7452