发布时间: 2020-04-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190351
2020 | Volume 25 | Number 4

ChinaMM 2019会议专栏

深度时空能量特征表示下的人体行为识别

巢新¹, 侯振杰^1,2, 李兴¹, 梁久祯¹, 宦娟¹, 刘浩昱¹

1. 常州大学信息科学与工程学院, 常州 213164;

2. 江苏省物联网移动互联技术工程重点实验室, 淮安 223003

收稿日期: 2019-07-10; 修回日期: 2019-08-26; 预印本日期: 2019-09-02

基金项目: 国家自然科学基金项目（61063021，61803050）；江苏省物联网移动互联技术工程重点实验室开放课题项目（JSWLW-2017-013）；浙江省公益技术研究社会发展项目（2017C33223）

第一作者简介: 巢新, 1994年生, 男, 硕士研究生, 主要研究方向为行为识别和机器视觉。E-mail:chaoxin941203@163.com;
李兴, 男, 硕士, 主要研究方向为行为识别和机器视觉。E-mail:340299042@qq.com;
梁久祯, 男, 教授, 主要研究方向为机器视觉。E-mail:jzliang@cczu.edu.cn;
宦娟, 女, 副教授, 主要研究方向计算机信息智能处理。E-mail:huanjuan@cczu.edu.cn;
刘浩昱, 男, 本科生, 主要研究方向为程序设计。E-mail:pp162@vip.qq.com.

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2020)04-0836-15

摘要

目的利用深度图序列进行人体行为识别是机器视觉和人工智能中的一个重要研究领域，现有研究中存在深度图序列冗余信息过多以及生成的特征图中时序信息缺失等问题。针对深度图序列中冗余信息过多的问题，提出一种关键帧算法，该算法提高了人体行为识别算法的运算效率；针对时序信息缺失的问题，提出了一种新的深度图序列特征表示方法，即深度时空能量图（depth spatial-temporal energy map，DSTEM），该算法突出了人体行为特征的时序性。方法关键帧算法根据差分图像序列的冗余系数剔除深度图序列的冗余帧，得到足以表述人体行为的关键帧序列。DSTEM算法根据人体外形及运动特点建立能量场，获得人体能量信息，再将能量信息投影到3个正交轴获得DSTEM。结果在MSR_Action3D数据集上的实验结果表明，关键帧算法减少冗余量，各算法在关键帧算法处理后运算效率提高了20% 30%。对DSTEM提取的方向梯度直方图（histogram of oriented gradient，HOG）特征，不仅在只有正序行为的数据库上识别准确率达到95.54%，而且在同时具有正序和反序行为的数据库上也能保持82.14%的识别准确率。结论关键帧算法减少了深度图序列中的冗余信息，提高了特征图提取速率；DSTEM不仅保留了经过能量场突出的人体行为的空间信息，而且完整地记录了人体行为的时序信息，在带有时序信息的行为数据上依然保持较高的识别准确率。

关键词

行为识别; 深度图序列; 时序信息; 深度时空能量图; 关键帧

Action recognition under depth spatial-temporal energy feature representation

Chao Xin¹, Hou Zhenjie^1,2, Li Xing¹, Liang Jiuzhen¹, Huan Juan¹, Liu Haoyu¹

1. School of Information Science & Engineering, Changzhou University, Changzhou 213164, China;

2. Jiangsu Province Networking and Mobile Internet Technology Engineering Key Laboratory, Huai'an 223003, China

Supported by: National Natural Science Foundation of China (61063021, 61803050)

Abstract

Objective Action recognition is a research hotspot in machine vision and artificial intelligence. Action recognition has been applied to human-computer interaction, biometrics, health monitoring, video surveillance systems, somatosensory game, robotics, and other fields. Early studies about action recognition are mainly performed on color video sequences acquired by RGB cameras. However, color video sequences are insensitive to illumination changes. With the development of imaging technology, especially with the launching of deep cameras, researchers begin to conduct human action recognition studies on depth map sequences obtained by deep cameras. However, numerous problems still exist in studies, such as excessive redundant information in the depth map sequences and missing temporal information in the generated feature map. These problems decrease the computational efficiency of human action recognition algorithms and reduce the final accuracy of human action recognition. Aiming at the problem of excessive redundant information in the depth map sequence, this study proposes a key frame algorithm. This algorithm decreases the redundant frames from the depth map sequence. The key frame algorithm improves the computational efficiency of human action recognition algorithms. At the same time, the feature map is accurate in representing human action with the key frame algorithm processing. Aiming at the problem of missing temporal information in the feature map generated by the depth map sequence, this study presents a new representation, namely, depth spatial-temporal energy map (DSTEM). This algorithm completely preserves the temporal information of the depth map sequence. DSTEM improves the accuracy of human action recognition when performing on the database with temporal information. Method The key frame algorithm first performs image difference operation between the two adjacent frames of the depth map sequence to produce a differential image sequence. Next, redundancy coefficients of each frame are achieved in the differential image sequence. Then, the redundant frame is placed and deleted by the maximum redundancy coefficient in the depth map sequence. Finally, the above steps are repeated a plurality of times to obtain a key frame sequence to express human action. This algorithm removes redundant information in the depth map sequence by removing redundant frames of the depth map sequence. The DSTEM algorithm first builds the energy field of the human body to obtain the energy information of the human action according to the shape and motion characteristics of the body. Next, the human energy information is projected onto three orthogonal cartesian planes to generate 2D projection maps of three angles. Subsequently, two 2D projection maps are selected and projected on three orthogonal axes to generate 1D energy distribution list. Finally, the 1D energy distribution lists are spliced in temporal to form DSTEM of three orthogonal axes. DSTEM reflects the temporal information of human action through the projection of energy information of human action on three orthogonal axes. Compared with the previous feature map algorithm, DSTEM not only preserves the spatial contour of human action, but also uses the projection of energy information of human action on three orthogonal axes to completely record the temporal information of human action. Result In this study, the public dataset MSR_Action3D is used to evaluate the effectiveness of the proposed methods. The experimental results show that the key frame algorithm removes the redundant information of the depth map sequence. The computational efficiency of each feature graph algorithm is improved after the key frame algorithm is processed. Particularly, the DSTEM algorithm improves the computational efficiency by nearly 30% after key frame processing because DSTEM is sensitive to redundant frames in the depth map sequence. After the key frame algorithm is processed, the accuracy of action recognition on each algorithm is improved. Especially, the recognition accuracy of DSTEM in each test is obviously improved, and the accuracy of recognition increases nearly by 5%. The experimental results also show that DSTEM-HOG(histogram of oriented gradient) receives the highest accuracy of human action recognition in all tests or it is consistent with the highest accuracy of human action recognition. DSTEM-HOG has an accuracy of 95.54% on the database with only positive actions. The accuracy is higher than the recognition accuracy of other algorithms. This result indicates that DSTEM completely preserves the spatial information of the depth map sequence. Moreover, DSTEM-HOG maintains an accuracy of 82.14% on the database with both positive and reverse actions. The recognition accuracy is nearly 40% higher than the other algorithms. The recognition rate of DSTEM-HOG is 34% higher than that of MHI(motion history image)-HOG, which retains part of the temporal information. The recognition rate of DSTEM-HOG is 50% higher than that of MHI-HOG and DMM(depth motion map)-HOG, which do not retain temporal information. Result indicates that DSTEM completely describes the temporal information of the depth map sequence. Conclusion The experimental results show that the proposed methods are effective. The key frame algorithm reduces the redundant frames in the depth map sequence and improves the computational efficiency of the human action recognition algorithms. After the key frame algorithm is processed, the accuracy of human action recognition is obviously improved on human action recognition algorithms. DSTEM not only retains the spatial information of actions, which is highlighted by the energy field but also completely records the temporal information of actions. In addition, DSTEM maintains the highest recognition accuracy when performing human action recognition on conventional databases. It also maintains superior recognition accuracy when performing human action recognition on the databases with temporal information. Results prove that DSTEM completely retains the spatial information and temporal information of human action. DSTEM also has the ability to distinguish between positive and reverse human action.

Key words

action recognition; depth map sequence; temporal information; depth spatial-temporal energy map (DSTEM); key frame

0 引言

人体行为识别(Chen等，2015a)是机器视觉和人工智能中的一个研究热点，不少研究成果已应用于人机交互、生物识别、健康监测、视频监控系统、体感游戏、机器人技术等领域(Chen等，2015b)。

早期的行为识别研究大多在RGB相机采集的彩色视频序列上进行(李瑞峰等，2014；许艳等，2018)，Bobick和Davis(2001)提出的运动能量图(motion energy image，MEI)和运动历史图(motion history image，MHI)起初是在RGB相机采集的彩色视频(Peng等，2019；Zhang和Peng，2019b)序列上提取的。MEI表述的是人体运动的轮廓，不涉及人体行为的时序信息(Zhao和Peng，2017；Zhang和Peng, 2019a)。MHI通过亮度衰减表述人体行为的时序信息和空间轮廓，但是因为行为的前后遮挡，导致部分行为信息缺失，最终表述的时序信息不完整。由于冗余帧的存在，使得最终生成的MHI在冗余帧附近灰度值较为集中，影响了最终的识别准确性。

随着成像技术的发展，尤其是深度相机的推出，人体行为识别的研究对象也开始由最初的RGB图像向深度图像发展。相比之前的RGB图像，由结构光深度传感器采集的深度图序列对光照变化不敏感(Chen等，2015a)，而且提供了人体行为的深度数据。至今为止，研究人员已经在深度图序列上进行了诸多研究。Li等人(2010)提出了3D点，利用少量的3D点来表征人体行为；Xia和Aggarwal(2013)提出了深度立方体，建立一种新颖的深度立方体相似特征来描述深度图序列周围的局部3D深度立方体；Oreifej和Liu(2013)提出了表面法线，利用4维表面法向方向直方图描述符来捕获人体行为变化的结构信息；Vemulapalli等人(2014)提出了骨骼关节，利用骨骼关节来表征人体行为；Chen等人(2015c)运用了深度运动图(depth motion map，DMM)来表征人体行为。其中，DMM是将深度图投影到3个正交的笛卡儿平面上，根据前视图、侧视图、俯视图生成3个视角的2D投影图，累计两幅连续投影图之间的图像差分(张涛和平西建，2004；周许超等，2010)生成3个视角的DMM。人体行为是由空间信息与时序信息共同构成的。空间信息反映了人体信息的空间分布，时序信息反映了人体信息的先后顺序。DMM较为完整地描述了人体行为的空间信息，但无法描述深度图序列的时序信息。当数据库中存在空间轨迹相同、时序相反的行为时，所生成的特征图相同，无法区分这两种行为。

虽然人体行为识别近几年来取得了很大进步，但依然存在许多不足。本文针对深度图序列中的冗余信息过多的问题(敖莉等，2010)，提出一种关键帧算法，首先提出冗余系数来描述冗余度，然后根据冗余系数序列定位到深度图序列中的冗余帧并将其删除，得到足以表述人体行为的关键帧序列。本文针对当前从深度图序列中提取的特征图时序(孙光福等，2013)信息缺失的问题，提出了一种新的特征表示方法，深度时空能量图(depth spatial-temporal energy map, DSTEM)。此处的“深度”专指深度图序列。DSTEM算法根据人体外形及运动特点建立能量场，获得人体能量信息，再将能量信息投影到3个正交轴获得DSTEM。DSTEM算法不仅保留了人体运动时的空间信息，还记录了其他深度特征图不具备的人体运动时的完整时序信息。另外，DSTEM通过构建能量场的方式，突出了人体运动部位信息，进一步提高了行为识别的精度。

1 相关工作

人体行为识别发展初期(李瑞峰等，2014)，人们通常使用RGB相机采集人体行为的彩色视频序列，再从彩色视频序列中提取特征图。Bobick和Davis(2001)提出的MEI起初是从彩色视频序列中提取的。首先提取人体活动的前景区域，接着对此区域进行二值化处理，得到二值图像序列$\mathit{\boldsymbol{B}}(x, y, t)$。然后求二值图像序列的并集，得到该序列的特征图MEI。MEI计算为

$ {\mathit{\boldsymbol{M}}_\delta }\left( {x,y,t} \right) = \bigcup\limits_{i = 0}^{\delta - 1} {\mathit{\boldsymbol{B}}\left( {x,y,t - i} \right)} $

(1)

式中，${\mathit{\boldsymbol{M}}_δ}(x, y, t)$表示视频序列中$t$帧处，由$δ$幅图生成的MEI，$x$、$y$分别表示图像上某一点的高度值和宽度值，$t$表示图像序列某一帧的序号。

MEI通过人体行为二值前景区域的并集来表征人体行为的空间轮廓。但用这种方法表述人体行为的视频序列，存在以下几个问题：1)MEI表述的是人体行为的最大轮廓边界，由于行为信息的前后遮挡，会导致运动过程中部分行为信息丢失；2)MEI无法表述人体行为的时序信息，当数据库中存在空间轨迹相同、时序相反的行为时，生成的特征图相同，无法区分。

为了表现人体行为如何运动，Bobick和Davis(2001)又提出了MHI，一种可表述人体行为部分时序信息的特征图。与MEI不同的是，MHI是灰度图像，每个点处的灰度值是该点处的时间历史函数。MHI可用简单的替换和衰减运算符表示，计算为

$ \begin{array}{*{20}{c}} {{\mathit{\boldsymbol{H}}_\tau }\left( {x,y,t} \right) = }\\ {\left\{ \begin{array}{l} \tau \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\mathit{\boldsymbol{B}}\left( {x,y,t} \right) = 1\\ \max \left( {0,{\mathit{\boldsymbol{H}}_\tau }\left( {x,y,t - 1} \right) - 1} \right)\;\;\;\;\;\;其他 \end{array} \right.} \end{array} $

(2)

式中，${\mathit{\boldsymbol{H}}_τ}(x, y, t)$为视频序列中$t$帧图像生成的MHI；$τ$为初始亮度；$\mathit{\boldsymbol{B}}(x, y, t)$为二值图像序列。

相比于MEI，MHI有了明显进步。它不仅保留了人体行为的空间轮廓，而且还通过亮度衰减的方式表现出人体行为的时序信息。但是同样存在不足，一是采集的视频序列中存在着诸多冗余帧，使得最终生成的MHI在冗余帧附近灰度值分布较为集中，严重影响了识别的准确性；二是行为信息的前后遮挡，使得部分行为信息缺失，无法准确地表述人体行为。

随着深度相机的推出，人们也开始使用深度图序列进行人体行为识别研究。相比之前的彩色视频序列，深度图序列对光照变化不敏感，在提取人体行为的前景区域时更加方便，并且提供了人体行为的深度信息，人们也因此开始了对人体3维信息的研究。Yang等人(2012)提出了DMM，将深度图序列每一帧投影到3个正交的笛卡儿平面上，根据前视图、侧视图和俯视图生成3个视角的2D投影图，分别用$\mathit{\boldsymbol{map}}_\rm{f}$、$\mathit{\boldsymbol{map}}_\rm{s}$和$\mathit{\boldsymbol{map}}_\rm{t}$表示，并分别累计两幅连续投影图之间的图像差分生成每个视角的DMM。DMM计算为

$ {\mathit{\boldsymbol{S}}_v} = \sum\limits_{i = 2}^F {\left( {\left| {\mathit{\boldsymbol{map}}_v^i - \mathit{\boldsymbol{map}}_v^{i - 1}} \right| > \varepsilon } \right)} $

(3)

式中，$v∈\{\rm{f, s, t}\}$表示投影视角，f表示前视，s表示侧视，t表示俯视；$\mathit{\boldsymbol{S}}_v$为投影视角$v$的DMM；$\mathit{\boldsymbol{map}}_v^i$表示投影视角$v$下第$i$帧的投影图；$ε$为差异阈值；$F$为该深度图序列的帧数；$\left| {\mathit{\boldsymbol{map}}_v^{i + 1} - \mathit{\boldsymbol{map}}_v^i} \right|$表示连续两幅投影图的差分图像。

相比MEI，DMM充分使用了深度图序列的深度信息，但DMM同样无法表述人体行为的时序信息，不具备区分正序、反序行为的能力。

2 基于关键帧与深度时空能量图算法的人体行为识别

2.1 总体框架

基于关键帧与深度时空能量图算法的人体行为识别框架如图 1所示。首先通过差分图像序列的冗余系数剔除深度图序列中的冗余帧，得到足以表述人体行为的关键帧序列。再根据人体外形及运动特点建立能量场，获得人体的能量信息。接着将人体能量信息向3个正交轴投影，得到3个轴的DSTEM(w、h、d分别表示宽度轴、高度轴、深度轴)。最后对每张DSTEM提取HOG(histogram of oriented gradient)特征(Radman等，2017)，送入分类器进行人体行为识别研究。

图 1 基于关键帧与DSTEM的人体行为识别框架

Fig. 1 Action recognition framework based on key frame and DSTEM

2.2 关键帧算法

由于采样时人体行为速率不均匀，所采集的深度图序列中存在大量相似帧，本文将深度图序列中相近时刻出现的相似帧称为冗余帧，将剔除冗余帧后，剩余的深度图序列称为关键帧序列。

行为识别中，人体行为往往只需关键位置的深度帧即可表述，但是所采集的数据库中存在着大量的冗余帧，这对之后的研究有很大的影响。针对以上问题，提出冗余系数来描述冗余度，进一步基于冗余系数提出关键帧算法，通过剔除深度图序列的冗余帧，减少了冗余信息，使得同一动作具有近似的时间间隔，从而提高了特征图运算的速率和识别准确性。

关键帧算法总体流程如图 2所示。1)将深度图序列相邻两帧之间做图像差分，生成差分图像序列；2)求取差分图像序列各帧的冗余系数；3)通过最大冗余系数定位并删除深度图序列中的冗余帧；4)多次重复上述步骤，得到足以表述人体行为的关键帧序列。

图 2 关键帧算法流程图

Fig. 2 Diagram of key frame algorithm

该算法首先对深度图序列相邻帧之间做差分处理，得到深度图序列相邻帧的差分图像，计算为

$ \mathit{\boldsymbol{D}}\left( {x,y,t} \right) = \left| {\mathit{\boldsymbol{I}}\left( {x,y,t + 1} \right) - \mathit{\boldsymbol{I}}\left( {x,y,t} \right)} \right| $

(4)

式中，$\mathit{\boldsymbol{I}}(x, y, t)$是原深度图序列的第$t$帧图像；$\mathit{\boldsymbol{D}}(x, y, t)$是原深度图序列第$t+1$帧与第$t$帧之间的差分图像，即差分图像序列的第$t$帧。

接着计算差分图像序列各帧的冗余系数，用来表示原深度图序列中相邻帧之间的相似性。差分图像序列各帧的冗余系数的计算过程如下：先计算差分序列各帧图像的二范数(Zhang和Wang，2005)

$ \alpha \left( t \right) = {\left\| {\mathit{\boldsymbol{D}}\left( t \right)} \right\|_2} = \sqrt {{\lambda _{\max }}\left( {{\mathit{\boldsymbol{D}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{D}}\left( t \right)} \right)} $

(5)

式中，$α(t)$表示差分图像序列第$t$帧图像的二范数；$λ_{\rm{max}}$为差分图像的最大特征值。

接着将差分图像序列各帧的二范数值投影到[0, 1]区间，得到相应的冗余系数

$ R\left( t \right) = {{\rm{e}}^{ - \alpha \left( t \right)}} $

(6)

式中，$R(t)$表示差分图像序列第$t$帧的冗余系数。

然后将差分图像序列各帧的冗余系数进行从大到小排序。找出最大冗余系数$R(m)$及其对应的差分图像帧$\mathit{\boldsymbol{D}}(m)$。根据差分图像帧$\mathit{\boldsymbol{D}}(m)$找到原深度图序列中的对应冗余帧并将其从原深度图序列中剔除。将剩余的深度图序列重复上述操作，剔除序列中的冗余帧，得到足以表述人体行为的$N$帧序列，$N$的大小由实验结果决定。

关键帧算法处理过程可表述为

输入：原深度图序列。

输出：关键帧序列。

1) 计算深度图序列相邻帧之间的图像差分，得到差分图像序列；

2) 计算差分图像序列各帧的冗余系数$R(t)$；

3) 将各帧的冗余系数$R(t)$从大到小排序：

FOR $i$=0:$F-1$

DO FOR $j$=0:$F-2-i$

DO IF $R(j+1)>R(j)$

THEN $R=R(j)$

$R(j)=R(j+1)$

$R(j+1)=R$

END

4) 找出最大冗余系数$R(m)$及其对应的相似冗余帧，并将其从深度图序列删除；

5) 重复上述步骤，得到足以表述人体行为的关键帧序列。

2.3 深度时空能量特征表示

针对当前从深度图序列中生成的特征图时序信息缺失的问题，提出了一种能够完整表述行为空间与时序信息的特征表示方法，即深度时空能量图DSTEM。DSTEM反映了人体运动时能量信息在3个正交轴上的分布随时间变化的情况。首先根据人体外形及运动特点建立能量场，获得人体行为的能量信息；将人体能量信息向3个正交的笛卡儿平面投影生成3个视角的2维投影图；再选择两幅2维投影图继续向3个正交轴投影，生成1维能量分布列表，按时序拼接后形成3个正交轴的DSTEM。3个正交轴分别为宽度轴(w)、高度轴(h)和深度轴(d)，分别对应深度帧的宽度方向、高度方向和深度方向，$\mathit{\boldsymbol{L}}_\rm{w}$、$\mathit{\boldsymbol{L}}_\rm{h}$、$\mathit{\boldsymbol{L}}_\rm{d}$表示对应的1维能量分布列表。DSTEM的流程图如图 3所示。

图 3 DSTEM流程图

Fig. 3 Diagram of DSTEM

2.3.1 建立能量场

如图 3所示，首先建立人体能量场，获得人体行为的能量信息，以此突出人体行为时运动部位信息，能量场坐标系如图 4所示。以深度图的高度方向为$x$轴方向，以深度图的宽度方向为$y$轴方向。

图 4 能量场坐标系

Fig. 4 Energy field coordinate system

根据人体行为前向伸展的特点，将人体前景到背景的深度方向距离记为人体的前向能量，计算为

$ {E_{\rm{f}}}\left( {x,y} \right) = 255 - f\left( {x,y} \right) $

(7)

式中，$E_{\rm{f}}(x, y)$表示人体的前向能量；$f(x, y)$为人体的深度值。

根据人体行为侧向伸展的特点，将人体前景到中轴的宽度方向距离记为人体的侧向能量，计算为

$ {E_{\rm{s}}}\left( {x,y} \right) = \left| {y - {y_c}} \right| $

(8)

式中，$E_{\rm{s}}(x, y)$表示人体的侧向能量；$y_c$为行为初始帧时，立正姿态下人体中轴的$y$轴坐标，计算为

$ \sum\limits_{i = 0}^{{H_{\rm{d}}}} {\sum\limits_{j = 0}^{{y_c}} f } \left( {i,j} \right) = \frac{1}{2}\sum\limits_{i = 0}^{{H_{\rm{d}}}} {\sum\limits_{j = 0}^{{W_{\rm{d}}}} f } \left( {i,j} \right) $

(9)

式中，$W_{\rm{d}}$为深度图的宽度；$H_{\rm{d}}$为深度图的高度。

由于人体行为上下伸展时与人体前景重合较多，本文不记录人体高度方向能量。

人体的总能量则是通过前向能量与侧向能量做平方和平方根运算所得，能量场计算为

$ E\left( {x,y} \right) = \sqrt {E_{\rm{f}}^2\left( {x,y} \right) + E_{\rm{s}}^2\left( {x,y} \right)} $

(10)

式中，$E(x, y)$表示人体的总能量。

由于前向能量和侧向能量都是线性算子，而总能量不是线性算子，用绝对值来近似平方和平方根操作，得到总能量计算公式

$ E\left( {x,y} \right) = \left| {{E_{\rm{f}}}\left( {x,y} \right)} \right| + \left| {{E_{\rm{s}}}\left( {x,y} \right)} \right| $

(11)

建立能量场前后，深度帧对比如图 5所示。图 5(a)为未建立能量场时的深度帧，图 5(b)为建立能量场时的深度帧。

图 5 建立能量场前后深度帧对比

Fig. 5 The depth frame is compared before and after the energy field established((a) before the energy field is established; (b) after the energy field is established)

如图 5(b)所示，相比于图 5(a)，能量场的建立能较为明显地突出人体行为时的运动部位信息，有利于增强人体行为识别的效果。

2.3.2 计算DSTEM

将人体能量信息向3个笛卡儿平面投影，根据前视图、侧视图和俯视图生成3个视角的2维能量投影图，分别用$\mathit{\boldsymbol{map}}_{\rm{f}}$、$\mathit{\boldsymbol{map}}_{\rm{s}}$和$\mathit{\boldsymbol{map}}_{\rm{t}}$表示。为了得到行为空间中宽度轴、高度轴和深度轴的能量分布情况，本文选择前视图和俯视图继续向相应的正交轴上投影，即求取2维能量投影图的行和或者列和。根据宽度轴、高度轴和深度轴生成3个1维能量分布列表，分别表示为$\mathit{\boldsymbol{L}}_{\rm{w}}$、$\mathit{\boldsymbol{L}}_{\rm{h}}$和$\mathit{\boldsymbol{L}}_{\rm{d}}$。计算为

$ {\mathit{\boldsymbol{L}}_u}\left( k \right) = \sum\limits_{x = 1}^{{W_{\rm{m}}}} {\mathit{\boldsymbol{ma}}{\mathit{\boldsymbol{p}}_v}} \left( {x,k} \right)\left\| {\sum\limits_{y = 1}^{{H_{\rm{m}}}} {\mathit{\boldsymbol{ma}}{\mathit{\boldsymbol{p}}_v}} \left( {k,y} \right)} \right. $

(12)

式中，$v \in \{ {\rm{f}}, {\rm{s}}, {\rm{t}}\} ;u \in \{ {\rm{w}}, {\rm{h}}, {\rm{d}}\} $，w表示宽度轴，h表示高度轴，d表示深度轴；$W_{\rm{m}}$为2维能量投影图的宽度；$H_{\rm{m}}$为2维能量投影图的高度；${\mathit{\boldsymbol{L}}_u}(k)$表示$u$轴上投影列表的第$k$个元素。

将$\mathit{\boldsymbol{L}}_u(k)$进行灰度归一化处理，按时序拼接成各轴的DSTEM。对于$N$帧的深度图序列，DSTEM计算为

$ {\mathit{\boldsymbol{T}}_u}\left( t \right) = \mathit{\boldsymbol{L}}_u^t $

(13)

式中，$\mathit{\boldsymbol{L}}_u^t$表示深度图序列第$t$帧在$u$轴上的1维能量分布列表；$\mathit{\boldsymbol{T}}_u$表示$u$轴上DSTEM；$\mathit{\boldsymbol{T}}_u(t)$表示$\mathit{\boldsymbol{T}}_u$的第$t$行。

以每个深度图序列中人体活动区域的宽度、高度、深度的最大、最小值为界，对每张DSTEM进行感兴趣区域(region of interest，ROI)处理(张鹏和王润生，2005)，即对图像进行裁剪以及大小归一化操作。

图 6为正序、反序高抛行为的深度图序列生成的各类特征图示意图。图 6(a)(b)分别为正序、反序高抛行为的DSTEM，从左至右分别为高度轴、宽度轴和深度轴的DSTEM。因为DSTEM反映的是人体运动时，能量信息在3个正交轴上的分布随时间变化的情况。所以即使正序和反序高抛行为的空间轨迹相同，但由于时序相反，最终生成的DSTEM沿时间轴对称，可以很容易区分。相对而言，图 6(e)(f)分别为正序、反序高抛行为的MHI，虽然MHI可以描述行为的部分时序信息，具备一定区分正序和反序行为的能力，但是由于动作轨迹的前后遮挡，导致最终的特征图反映不出完整的空间信息和时序信息。由于缺乏时序信息，MEI与DMM不具备区分正序和反序行为的能力。

图 6 正序、反序高抛行为特征图

Fig. 6 Feature maps of positive and reverse high throw((a) DSTEM of positive high throw; (b) DSTEM of reverse high throw; (c) MEI of positive high throw; (d) MEI of reverse high throw; (e) MHI of positive high throw; (f) MHI of reverse high throw; (g) DMM of positive high throw; (h) DMM of reverse high throw)

3 实验

本文实验在主板为华擎X370 Taichi，CPU为3.4 GHz的R7 1700x，内存为16.00 GB的台式机上运行，Python 3.5版本。

3.1 实验数据

在公开数据库MSR_Action3D(Shotton等，2011)上进行实验。该数据库共有557个深度图序列样本，由20个不同的动作组成，包括高挥手(A01)、水平挥手(A02)、投掷(A03)、右手抓(A04)、冲拳(A05)、高抛(A06)、画叉(A07)、画勾(A08)、画圈(A09)、拍手(A10)、双手上挥(A11)、侧拳(A12)、弯腰(A13)、前踢(A14)、侧踢(A15)、慢跑(A16)、网球摆(A17)、网球发球(A18)、高尔夫挥(A19)、捡起来扔(A20)。共有10个人参与完成，每人完成2~3次。本文将原深度图序列称为正序行为，将其标记为数据集1。将与原深度图序列顺序相反的行为称为反序行为。本文中的反序行为是通过将正序行为的深度图序列进行反序排列操作得到，将其与正序行为组合在一起，标记为数据集2。数据集2中正序行为与数据集1相同，反序行为分别是反序高挥手(B01)、反序水平挥手(B02)、反序投掷(B03)、反序右手抓(B04)、反序冲拳(B05)、反序高抛(B06)、反序画叉(B07)、反序画勾(B08)、反序画圈(B09)、反序拍手(B10)、反序双手上挥(B11)、反序侧拳(B12)、反序弯腰(B13)、反序前踢(B14)、反序侧踢(B15)、反序慢跑(B16)、反序网球摆(B17)、反序网球发球(B18)、反序高尔夫挥(B19)、反序捡起来扔(B20)。正序、反序高抛行为示意图如图 7和图 8所示。

图 7 正序高抛行为

Fig. 7 Positive tennis swing

图 8 反序高抛行为

Fig. 8 Reverse tennis swing

3.2 实验设置

设置1：将数据集中的行为分成3组，将相似程度较大的动作分在同一组。数据集1中的行为分为AS1、AS2、AS3，数据集2中的行为分为AS4、AS5、AS6，数据集1与数据集2的分组情况如表 1与表 2所示。每一组样本进行3次测试。在测试1中，将1/3的样本作为训练数据，剩下的样本作为测试数据；在测试2中，将1/2的样本作为训练数据，剩下的样本作为测试数据；在测试3中，将2/3的样本作为训练数据，剩下的样本作为测试数据。

表 1 数据集1子库集
Table 1 Subsets of dataset 1

下载CSV

AS1	AS2	AS3
A02	A01	A06
A03	A04	A14
A05	A07	A15
A06	A08	A16
A10	A09	A17
A13	A11	A18
A18	A12	A19
A20	A14	A20

表 2 数据集2子库集
Table 2 Subsets of dataset 2

下载CSV

AS4	AS5	AS6
A02+B02	A01+B01	A06+B06
A03+B03	A04+B04	A14+B14
A05+B05	A07+B07	A15+B15
A06+B06	A08+B08	A16+B16
A10+B10	A09+B09	A17+B17
A13+B13	A11+B11	A18+B18
A18+B18	A12+B12	A19+B19
A20+B20	A14+B14	A20+B20

设置2：将数据集中的行为作为整体进行交叉验证(Bergmeir等，2018)，将样本分成5份，轮流将其中的4份用于训练，1份用于测试，最终的识别结果为5次结果的平均值。

本文采用10×10像素的图像单元分割图像，每2×2个图像单元构成一个图像块，以10像素为步长滑动图像块来提取图像的HOG特征。采用采样半径为2、采样点数为8的参数设置来提取图像局部二值模式(local binary pattern, LBP)特征(Chen等，2015c；Lu等，2018)。

3.3 实验结果与分析

按照实验设置1，将数据集1中3个子库各个行为的DSTEM-HOG特征，以测试3划分数据的方式，送入不同的分类器中进行分类识别。表 3列出不同分类器中DSTEM-HOG特征的识别结果。

表 3 不同分类器中DSTEM-HOG的识别率
Table 3 Recognition rate of DSTEM-HOG in different classifiers

下载CSV

/%
分类器	AS1	AS2	AS3
支持向量机	98.63	90.79	98.65
K最近邻	80.82	85.53	81.08
随机森林	84.93	84.21	91.89
高斯贝叶斯	79.45	76.32	85.14
注：加粗字体表示最优结果。

从表 3中的数据可以看出，DSTEM-HOG在各个分类器上均有较高的识别准确率，其中支持向量机的分类效果最佳。为了使DSTEM-HOG特征达到最理想的识别效果，均采用支持向量机作为分类器。

3.3.1 关键帧算法实验结果

在进行关键帧处理时，首先要确定关键帧的保留帧数$N$。$N$的数量直接影响了特征图的提取速度和冗余信息的去除情况。图 9为保留不同数量关键帧时，网球摆动作宽度轴的DSTEM。图 9(a)为未经关键帧算法处理的DSTEM，从白色方框中的内容可以清晰地看出，特征图中包含较多的冗余信息；图 9(b)中保留关键帧数量为40帧，仍然有不少深度帧属于冗余帧，效果改善不够理想；图 9(d)中保留关键帧数量为25帧，可清晰地看出很多关键位置的深度帧丢失，导致动作描述不准确；图 9(c)中保留关键帧数量为30帧，不仅去除了深度图序列的冗余信息，还完整地保留了其中的关键信息。本文为了得到最理想的关键帧序列，设置步长为5帧，以最终提取的DSTEM-HOG特征的识别准确率为标准，从25~40帧中寻找最合适的关键帧数$N$。按照实验设置1，将数据集1的3个子库中各个行为按不同帧数进行关键帧提取，计算各自的DSTEM-HOG特征，以测试3划分数据的方式进行分类识别，结果如图 10所示。通过柱状图，更加直观地看出当$N$=30时在任意子库上的识别准确率都为最高，说明取30帧时关键帧序列对深度图序列达到最好的描述效果，因此在之后的实验中关键帧数量均取30帧。

图 9 保留不同关键帧情况下的DSTEM效果

Fig. 9 DSTEM effect with different key frames preserved

((a) without key frame algorithm processing; (b)$N$=40; (c)$N$=30; (d)$N$=25)

图 10 取不同数量关键帧时DSTEM-HOG的识别率

Fig. 10 Recognition rate of DSTEM-HOG when different number of key frames are retained

为了进一步验证关键帧算法的有效性，本文按照实验设置1，将数据集1划分为3个子库：AS1、AS2、AS3。在3个子库上进行关键帧算法前后行为识别效果的对比实验。数据集1中含有20个动作的正序行为，关键帧算法处理前不同方法的实验结果如表 4所示，关键帧算法处理后不同方法的实验结果如表 5所示。

表 4 关键帧算法处理前数据集1上不同方法的识别率
Table 4 Recognition rate of different methods on detaset 1 without key frame algorithm

下载CSV

/%
方法	AS1			AS2			AS3
方法	测试1	测试2	测试3	测试1	测试2	测试3	测试1	测试2	测试3
MEI-HOG	73.29	86.24	86.30	73.03	81.58	86.84	72.30	71.17	90.54
MEI-LBP	56.16	65.13	71.23	53.29	62.28	73.68	54.73	60.36	75.68
MHI-HOG	69.86	83.49	86.30	64.47	81.58	88.16	72.97	72.07	90.54
MHI-LBP	53.42	66.97	68.49	55.92	64.91	71.05	54.73	54.05	71.62
DMM-HOG	76.03	84.40	87.67	71.71	85.09	86.84	77.70	75.68	94.59
DMM-LBP	57.53	75.23	86.30	63.82	71.05	78.95	64.86	66.76	83.78
DSTEM-HOG	89.04	88.99	93.15	75.66	85.09	88.16	79.73	80.18	93.24
注：加粗字体表示最优结果。

表 5 关键帧算法处理后数据集1上不同方法的识别率
Table 5 Recognition rate of different methods on detaset 1 with key frame algorithm

下载CSV

/%
方法	AS1			AS2			AS3
方法	测试1	测试2	测试3	测试1	测试2	测试3	测试1	测试2	测试3
MEI-HOG	73.97	84.40	86.30	74.34	81.58	86.84	75.68	72.07	91.89
MEI-LBP	56.16	65.13	75.34	51.97	58.77	68.42	54.05	59.46	75.68
MHI-HOG	70.55	83.49	86.30	69.08	81.58	88.16	76.35	72.97	90.54
MHI-LBP	53.42	66.97	71.23	55.92	64.91	73.68	54.73	61.26	72.97
DMM-HOG	71.92	88.07	91.78	76.97	86.84	86.16	77.70	77.48	94.59
DMM-LBP	63.70	77.98	86.30	66.45	78.07	85.53	68.24	70.27	87.74
DSTEM-HOG	89.73	89.91	98.63	80.92	87.72	90.79	87.16	88.29	98.65
注：加粗字体表示最优结果。

由表 4、表 5关键帧算法前后识别结果对比可知，关键帧算法剔除了深度图序列中的冗余帧，减少了序列中的冗余信息，提高了最终的识别准确率。其中DSTEM-HOG特征在经过关键帧处理后，各项测试的识别结果相比于未经过关键帧处理时都有了明显的提高。原因是DSTEM是将深度图序列各帧的能量信息投影到3个正交轴上，按时序拼接形成的，对冗余信息敏感。关键帧算法剔除了冗余帧，减少了冗余信息，使得同一类别行为的DSTEM具有更强的相似性，因此最终的识别准确率有了较大的提升。

MEI通过求取人体行为二值前景区域的并集形成，即使深度图序列中存在冗余帧，但在形成特征图时，也会被关键帧序列覆盖。因此关键帧算法处理前后，形成的MEI相似，改善效果不明显，最终的识别准确率也没有明显提高。MHI相对MEI而言，通过亮度衰减表现人体行为运动。由于冗余帧的存在，使得生成的MHI在冗余帧附近灰度值较为集中。关键帧算法剔除了深度图序列中的冗余帧，使得生成的MHI亮度随时间均匀分布，因此最终的识别准确率明显提高。经过关键帧处理后，DMM各项测试的识别准确率也有了明显提高。实验结果表明，关键帧算法去除了深度图序列的冗余信息，提高了人体行为识别的准确率。

3.3.2 DSTEM算法实验结果

首先验证能量场的建立对于DSTEM的作用。按照实验设置1，将数据集2划分为3个子库AS4、AS5、AS6，以测试3划分数据的方式，在3个子库上进行建立能量场前后行为识别效果的对比实验。DSTEM-HOG的对比实验结果如图 11所示。

图 11 建立能量场前后DSTEM-HOG的识别率

Fig. 11 Recognition rate of DSTEM-HOG before and after the establishment of the energy field

如图 11所示，在建立能量场后，DSTEM-HOG特征在各子库上的识别准确率都高于未建立能量场时的识别准确率。结果表明能量场的建立突出了人体运动部位信息，使得最终生成的DSTEM描述人体行为更加准确，因此最终的识别准确率有了明显提高。

如表 5所示，在只含有正序行为的数据集1上，DSTEM-HOG特征在各项测试中识别准确率都高于其他方法。结果表明在常规数据库，即只含有正序行为的数据库上，DSTEM算法具有高精度的识别性能。

为了突出DSTEM所独有的完整时序性在人体行为识别中的作用，本文在数据集2的3个子库AS4、AS5、AS6上进行不同方法的对比实验。数据集2不仅包含了数据集1中各动作的正序行为，还包含了相应动作的反序行为。数据集2上不同方法的实验结果如表 6所示。

表 6 数据集2上不同方法的识别率
Table 6 Recognition rate of different methods on dataset 2

下载CSV

/%
方法	AS4			AS5			AS6
方法	测试1	测试2	测试3	测试1	测试2	测试3	测试1	测试2	测试3
MEI-HOG	29.11	36.99	30.14	33.88	35.53	25.66	29.05	32.43	33.78
MEI-LBP	23.97	24.20	26.03	24.01	28.07	23.68	19.26	22.97	29.73
MHI-HOG	37.67	44.75	40.41	39.80	48.25	48.68	36.49	38.29	45.27
MHI-LBP	31.16	40.18	39.04	33.55	37.72	40.79	25.34	31.53	34.46
DMM-HOG	34.93	38.36	32.19	34.87	35.52	32.24	27.70	30.63	31.08
DMM-LBP	26.71	29.22	29.45	28.62	28.95	25.00	22.30	26.13	27.70
DSTEM-HOG	65.75	74.43	75.34	62.17	74.12	78.29	70.61	84.23	85.81
注：加粗字体表示最优结果。

由表 6中的识别结果可知，除了本文方法，其余方法在数据集2上的识别准确率，相比于数据集1，有了明显下降。MEI和DMM由于不涉及时序信息，因此识别准确率下降最为明显，识别结果最差。MHI带有部分时序信息，相比MEI和DMM，识别准确率下降较少，但是最终的识别结果也不理想。DSTEM保留了完整的时序信息，具备区分正序和反序行为的能力。因此DSTEM-HOG在同时具有正序和反序行为的数据集2上，依然能保持较高的识别准确率。

3.3.3 综合实验结果

为了验证关键帧算法和DSTEM算法的宽泛性。按照实验设置2，将数据集1、数据集2各自作为整体，使用交叉验证方法进行实验，数据集1、数据集2上不同方法的识别结果如表 7所示。

表 7 数据集1、数据集2上不同方法的识别率
Table 7 Recognition rates of different methods on dataset 1 and dataset 2

下载CSV

/%
方法	数据集1		数据集2
方法	关键帧处理前	关键帧处理后	关键帧处理前	关键帧处理后
MEI-HOG	89.29	88.39	33.04	33.04
MEI-LBP	73.21	73.21	23.21	23.66
MHI-HOG	88.39	88.39	43.75	49.11
MHI-LBP	67.86	68.75	38.84	42.41
DMM-HOG	95.54	94.64	32.14	33.04
DMM-LBP	91.96	93.75	28.13	29.08
DSTEM-HOG	92.86	95.54	76.34	82.14
注：加粗字体表示最优结果。

从表 7中的数据可看出，在多数情况下，关键帧算法处理后，各方法的识别准确率都有所提升，说明本文关键帧算法提高了人体行为识别精度。此外相比于其他特征图算法，DSTEM算法在两个数据集上都保持了最高的识别率或者与最高的识别率持平，尤其在数据集2上优势显著。因此说明DSTEM所独有的完整时序性，在同时具有正序和反序行为的数据库上，进行人体行为识别时发挥了重要的作用。在关键帧算法处理前，DSTEM-HOG特征在数据集1上的识别率略低于DMM-HOG特征，原因在于DSTEM对冗余帧的敏感程度略高于DMM，生成的DSTEM包含了部分冗余信息，影响最终的识别准确率。其中关键帧算法处理后，在数据集1、数据集2上DSTEM-HOG特征的混淆矩阵，分别如图 12、图 13所示。

图 12 数据集1上DSTEM-HOG的混淆矩阵

Fig. 12 Confusion matrix of DSTEM-HOG on dataset 1

图 13 数据集2上DSTEM-HOG的混淆矩阵

Fig. 13 Confusion matrix of DSTEM-HOG on dataset 2

3.4 计算效率

3.4.1 算法复杂度分析

本文将DSTEM的算法复杂度与现有方法的算法复杂度进行对比，对比结果如表 8所示。

表 8 各方法的时间复杂度对比
Table 8 Comparison of computational complexity of each method

下载CSV

方法	时间复杂度
MEI	O$(wh)$+O$(f)$
MHI	O$(wh)$+O$(fwh)$
DMM	O$(fwh)$+O$[(f-1)(wh+wd+hd)]$
DSTEM	O$(fwh)$+O$(fh+fd+wh)$

表 8中，$f$为深度图序列的帧数，在关键帧处理后上限为30。$w$、$h$、$d$分别为深度图序列的宽度值、高度值、深度值，本文中$w$=320，$h$=240，$d$=255。由此可以得出，MEI的时间复杂度最低，DSTEM的时间复杂度低于MHI和DMM的时间复杂度。

3.4.2 计算效率对比

最后本文将关键帧算法处理前后各特征图运行效率进行对比，实验结果如表 9所示。

表 9 关键帧算法处理前后各特征图的计算效率对比
Table 9 Comparison of computational efficiency of each feature map with and without key frame algorithm

下载CSV

方法	关键帧处理前/s	关键帧处理后/s	效率提高/%
MEI	0.242 4	0.186 7	22.98
MHI	3.190 3	2.459 6	22.90
DMM	5.601 4	4.427 3	20.96
DSTEM	3.105 9	2.197 5	29.25

从表 9中得出，深度图序列经过关键帧算法处理后，剔除了冗余帧，在生成特征图的过程中运算次数减少，运行时间降低，最终的运行效率提高。由于DSTEM算法的计算过程与深度图序列帧数密切相关，在关键帧算法处理后，运行效率提高最为明显。

4 结论

针对深度图序列中冗余信息过多的问题，提出一种关键帧算法，根据差分图像序列的冗余系数剔除深度图序列的冗余帧，减少了冗余信息，得到足以表述人体行为的关键帧序列。本文针对从深度图序列中生成的特征图时序信息缺失的问题，提出了深度时空能量图DSTEM。DSTEM算法根据人体外形及运动特点建立能量场，获得人体能量信息，再将能量信息投影到3个正交轴获得DSTEM，该算法不仅保留了人体行为的空间信息，而且完整地记录了人体行为的时序信息。在MSR_Action3D数据集上的实验结果表明，关键帧算法提高了特征图提取速率和人体行为的识别准确率；DSTEM-HOG不仅在只有正序行为的数据库上，保持较高的识别准确率，而且在同时具有正序和反序行为的数据库上，依然保持较高的识别准确率。相比MEI和MHI，DSTEM保留了深度图序列的空间信息；相比DMM，DSTEM完整地保留了深度图序列的时序信息。但是DSTEM为获得完整的时序信息，而牺牲了部分空间信息。

下一步工作将继续探索去除深度图序列冗余信息的方法；继续研究DSTEM，使其在保留完整时序信息的同时，增强对空间信息的表征能力。

参考文献

Ao L, Shu J W, Li M Q. 2010. Data deduplication techniques. Journal of Software, 21(5): 916-929 (敖莉, 舒继武, 李明强. 2010. 重复数据删除技术. 软件学报, 21(5): 916-929) [DOI:10.3724/SP.J.1001.2010.03761]

Bergmeir C, Hyndman R J, Koo B. 2018. A note on the validity of cross-validation for evaluating autoregressive time series prediction. Computational Statistics and Data Analysis, 120: 70-83 [DOI:10.1016/j.csda.2017.11.003]

Bobick A F, Davis J W. 2001. The recognition of human movement using temporal templates. IEEE Transactions on Pattern Analysis and Machine Intelligence, 23(3): 257-267 [DOI:10.1109/34.910878]

Chen C, Jafari R, Kehtarnavaz N. 2015a. Improving human action recognition using fusion of depth camera and inertial sensors. IEEE Transactions on Human-Machine Systems, 45(1): 51-61 [DOI:10.1109/THMS.2014.2362520]

Chen C, Jafari R and Kehtarnavaz N. 2015b. UTD-MHAD: a multimodal dataset for human action recognition utilizing a depth camera and a wearable inertial sensor//Proceedings of 2015 International Conference on Image Processing. Quebec City, Canada: IEEE: 168-172[DOI:10.1109/ICIP.2015.7350781]

Chen C, Jafari R and Kehtarnavaz N. 2015c. Action recognition from depth sequences using depth motion maps-based local binary patterns//Proceedings of 2015 IEEE Winter Conference on Applications of Computer Vision. Waikoloa, HI, USA: IEEE: 1092-1099[DOI:10.1109/WACV.2015.150]

Li R F, Wang L L, Wang K. 2014. A survey of human body action recognition. Pattern Recognition and Artificial Intelligence, 27(1): 35-48 (李瑞峰, 王亮亮, 王珂. 2014. 人体动作行为识别研究综述. 模式识别与人工智能, 27(1): 35-48) [DOI:10.3969/j.issn.1003-6059.2014.01.005]

Li W Q, Zhang Z Y and Liu Z C. 2010. Action recognition based on a bag of 3D points//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops. San Francisco, CA, USA: IEEE: 9-14[DOI:10.1109/CVPRW.2010.5543273]

Lu J, Lee W S, Gan H, Hu X W. 2018. Immature citrus fruit detection based on local binary pattern feature and hierarchical contour analysis. Biosystems Engineering, 171: 78-90 [DOI:10.1016/j.biosystemseng.2018.04.009]

Oreifej O and Liu Z C. 2013. HON4D: histogram of oriented 4D normals for activity recognition from depth sequences//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE: 716-723[DOI:10.1109/CVPR.2013.98]

Peng Y X, Zhao Y Z, Zhang J C. 2019. Two-stream collaborative learning with spatial-temporal attention for video classification. IEEE Transactions on Circuits and Systems for Video Technology, 29(3): 773-786 [DOI:10.1109/TCSVT.2018.2808685]

Radman A, Zainal N, Suandi S A. 2017. Automated segmentation of iris images acquired in an unconstrained environment using HOG-SVM and GrowCut. Digital Signal Processing, 64: 60-70 [DOI:10.1016/j.dsp.2017.02.003]

Shotton J, Fitzgibbon A, Cook M, Sharp T, Finocchio M, Moore R, Kipman A and Blake A. 2011. Real-time human pose recognition in parts from single depth images//Proceedings of CVPR 2011. Providence, RI, USA: IEEE: 1297-1304[DOI:10.1109/CVPR.2011.5995316]

Sun G F, Wu L, Liu Q, Zhu C, Chen E H. 2013. Recommendations based on collaborative filtering by exploiting sequential behaviors. Journal of Software, 24(11): 2721-2733 (孙光福, 吴乐, 刘淇, 朱琛, 陈恩红. 2013. 基于时序行为的协同过滤推荐算法. 软件学报, 24(11): 2721-2733) [DOI:10.3724/SP.J.1001.2013.04478]

Vemulapalli R, Arrate F and Chellappa R. 2014. Human action recognition by representing 3D skeletons as points in a lie group//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE: 588-595[DOI:10.1109/CVPR.2014.82]

Xia L and Aggarwal J K. 2013. Spatio-temporal depth cuboid similarity feature for activity recognition using depth camera//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE: 2834-2841[DOI:10.1109/CVPR.2013.365]

Xu Y, Hou Z J, Liang J Z, Chen C, Jia L, Song Y. 2018. Action recognition using weighted fusion of depth images and skeleton's key frames. Journal of Computer-Aided Design and Computer Graphics, 30(7): 1313-1320 (许艳, 侯振杰, 梁久祯, 陈宸, 贾靓, 宋毅. 2018. 权重融合深度图像与骨骼关键帧的行为识别. 计算机辅助设计与图形学学报, 30(7): 1313-1320) [DOI:10.3724/SP.J.1089.2018.16771]

Yang X D, Zhang C Y and Tian Y L. 2012. Recognizing actions using depth motion maps-based histograms of oriented gradients//Proceedings of the 20th International Conference on Multimedia. Nara, Japan: ACM: 1057-1060[DOI:10.1145/2393347.2396382]

Zhang J C and Peng Y X. 2019a. Hierarchical vision-language alignment for video captioning//Proceedings of the 25th International Conference on Multimedia Modeling. Thessaloniki, Greece, Springer: 42-54[DOI:10.1007/978-3-030-05710-7_4]

Zhang J C and Peng Y X. 2019b. Object-aware aggregation with bidirectional temporal graph for video captioning. Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA. IEEE: 8319-8328[DOI:10.1109/CVPR.2019.00852]

Zhang P, Wang R S. 2005. A survey of detecting regions of interest in a static image. Journal of Image and Graphics, 10(2): 142-148 (张鹏, 王润生. 2005. 静态图像中的感兴趣区域检测技术. 中国图象图形学报, 10(2): 142-148) [DOI:10.3969/j.issn.1006-8961.2005.02.002]

Zhang R J, Wang G J. 2005. Constrained bézier curves' best multi-degree reduction in the L₂-norm. Progress in Natural Science, 15(9): 843-850 [DOI:10.1080/10020070512331343010]

Zhang T, Ping X J. 2004. Reliable detection of spatial LSB steganography based on difference histogram. Journal of Software, 15(1): 151-158 (张涛, 平西建. 2004. 基于差分直方图实现LSB信息伪装的可靠检测. 软件学报, 15(1): 151-158) [DOI:10.13328/j.cnki.jos.2004.01.018]

Zhao Y Z and Peng Y X. 2017. Saliency-guided video classification via adaptively weighted learning//Proceedings of 2017 IEEE International Conference on Multimedia and Expo. Hong Kong, China: IEEE: 847-852[DOI:10.1109/ICME.2017.8019343]

Zhou X C, Tu D W, Chen Y, Zhao Q J, Zhang Y C. 2010. Moving object detection under dynamic background based on phase-correlation and differential multiplication. Chinese Journal of Scientific Instrument, 31(5): 980-983 (周许超, 屠大维, 陈勇, 赵其杰, 张翼成. 2010. 基于相位相关和差分相乘的动态背景下运动目标检测. 仪器仪表学报, 31(5): 980-983) [DOI:10.19650/j.cnki.cjsi.2010.05.004]

AS1	AS2	AS3
A02	A01	A06
A03	A04	A14
A05	A07	A15
A06	A08	A16
A10	A09	A17
A13	A11	A18
A18	A12	A19
A20	A14	A20

AS1	AS2	AS3
A02	A01	A06
A03	A04	A14
A05	A07	A15
A06	A08	A16
A10	A09	A17
A13	A11	A18
A18	A12	A19
A20	A14	A20

AS1	AS2	AS3
A02	A01	A06
A03	A04	A14
A05	A07	A15
A06	A08	A16
A10	A09	A17
A13	A11	A18
A18	A12	A19
A20	A14	A20