发布时间: 2017-08-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170032
2017 | Volume 22 | Number 8

图像理解和计算机视觉

动作切分和流形度量学习的视频动作识别

罗会兰¹, 赖泽云¹, 孔繁胜²

1. 江西理工大学信息工程学院, 赣州 341000;

2. 浙江大学计算机科学技术学院, 杭州 310027

收稿日期: 2017-02-14; 修回日期: 2017-04-21

基金项目: 国家自然科学基金项目（61105042，61462035）；江西省青年科学家（井冈之星）培养对象计划基金项目（20153BCB23010）

第一作者简介: 罗会兰(1974—), 女, 教授, 2008年于浙江大学获计算机科学与技术专业博士学位, 博士后, 主要研究领域为机器学习、模式识别。E-mail:luohuilan@sina.com

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2017)08-1106-14

摘要

目的为了提高视频中动作识别的准确度，提出基于动作切分和流形度量学习的视频动作识别算法。方法首先利用基于人物肢体伸展程度分析的动作切分方法对视频中的动作进行切分，将动作识别的对象具体化；然后从动作片段中提取归一化之后的全局时域特征和空域特征、光流特征、帧内的局部旋度特征和散度特征，构造一种7×7的协方差矩阵描述子对提取出的多种特征进行融合；最后结合流形度量学习方法有监督式地寻找更优的距离度量算法提高动作的识别分类效果。结果对Weizmann公共视频集的切分实验统计结果表明本文提出的视频切分方法具有很好的切分能力，能够作好动作识别前的预处理；在Weizmann公共视频数据集上进行了流形度量学习前后的识别效果对比，结果表明利用流形度量学习方法对动作识别效果提升2.8%；在Weizmann和KTH两个公共视频数据集上的平均识别率分别为95.6%和92.3%，与现有方法的比较表明，本文提出的动作识别方法有更好的识别效果。结论多次实验结果表明本文算法在预处理过程中动作切分效果理想，描述动作所构造协方差矩阵对动作的表达有良好的多特征融合能力，而且光流信息和旋度、散度信息的加入使得人体各部位的运动方向信息具有了更多细节的描述，有效提高了协方差矩阵的描述能力，结合流形度量学习方法对动作识别的准确性有明显提高。

关键词

动作识别; 动作切分; 流形学习; 度量学习; 特征协方差; 视频分析

Action recognition in videos based on action segmentation and manifold metric learning

Luo Huilan¹, Lai Zeyun¹, Kong Fansheng²

1. School of Information Engineering, Jiangxi University of Science and Technology, Ganzhou 341000, China;

2. College of Computer Science and Technology, Zhejiang University, Hangzhou 310027, China

Supported by: National Natural Science Foundation of China(61105042, 61462035)

Abstract

Objective A video action recognition algorithm based on action segmentation and manifold metric learning is proposed to improve the accuracy of action recognition in videos. Method First, a video action segmentation algorithm based on analyzing the spreading area of actors' limbs is proposed to divide the video into segments that contain a specific action.The segmentation operation is used to recognize an action in the video quickly and reduce the mutual interference between adjacent actions.A silhouette of the actor in a frame is extracted using background subtraction method.Bounding boxes are generated in terms of the silhouettes.Given that silhouette extraction is affected by the background, the area function of the bounding boxes contains some noise, which can damage the regularity of the area function.After calculating the area value of the bounding box for each frame, the area function is smoothed using a robust weighted smooth method.Then, after extracting all the local minimum points of the smoothed area function, the second filter is used to remove fake local optimal points.After two filtering operations, the remaining minimum points are used as the segmentation position in the videos.Subsequently, the action recognition algorithm is independently implemented on each segment.For feature extraction and description of each segment, the Lucas-Kanade optical flow field is initially computed to obtain the velocity information of pixels for each frame in the segment.The pixels with non-zero magnitude of optical flow are considered as the interest points.Intraframe local curl and divergence, which is derived from the Lucas-Kanade optical flow field, are used to describe the motion relationship between interest points in the frame.A covariance matrix is formed for each action segment to fuse the features, including normalized global temporal features, normalized spatial features, optical flow, intraframe local curl, and divergence.The size of the final covariance is 7×7.Thus, the dimension of the feature covariance is relatively low.In this feature space, the action segment videos form a manifold.Several methods that measure the distance in the manifold space have been proposed.Generally, the distance between two points in a manifold space is the geodesic distance between them.In this study, a distance measurement method, which is obtained by supervised manifold metric learning, is proposed to further improve the accuracy of action classification.The LogDet divergence is utilized, and the action class labels are used to construct a constraint.A tangent space transfer matrix is obtained using the manifold metric learning.The tangent space transfer matrix leads distance calculation into a tangent space of a new latent manifold.Finally, the nearest neighbor classification method is used to recognize the actions. Result The three parts of the experiment are as follows.First, the efficiency of the action segmentation algorithm is evaluated on the Weizmann public video dataset.The results show that the proposed action segmentation method has acceptable segmentation capability.Second, the action reorganization comparison between with and without manifold metric learning on Weizmann dataset is performed to show the manifold metric learning performance.The action recognition accuracy without and with manifold metric learning is 92.8% and 95.6%, respectively, which indicates an improvement by 2.8%.Finally, the experimental results on KTH public video dataset verify the robustness of the proposed action recognition algorithm.The average recognition accuracy on KTH is 92.3%.On Weizmann and KTH datasets, the experimental comparisons indicated that the proposed algorithm is better than some state-of-the-art methods. Conclusion The proposed action segmentation method based on analyzing the spreading area of actors' limbs can segment actions at the frame, where the limbs are closest to the body.Smoothing and the second filter step on the area function of the human bounding box enhance the action segmentation ability by anti-jamming.The segmentation method can obtain a desirable pre-processing effect.The multiple features fused effectively by the covariance matrix can describe the video action appropriately.The representation capability of the covariance matrix descriptor is further improved by adding optical flow, curl, and divergence information, which describe the motion direction information of the body parts of the body in detail.Evidently, the action recognition accuracy has been improved by using the manifold metric learning.The performance of the proposed action algorithm has been improved further by adding class-label information during the metric learning.All the experimental results show that the proposed video action recognition algorithm has high accuracy and desirable robustness.

Key words

action recognition; action segmentation; manifold learning; metric learning; feature covariance; video ana lysis

0 引言

动作识别是计算机视觉和模式识别领域中非常热门的研究课题，因为动作识别具有广泛的应用价值，如智能视频监控、人机交互、智能界面和基于内容的视频检索等^[1]。但是由于视频中光照变化、背景复杂、视角多变、摄相机抖动、人体遮挡以及同种动作不同执行者的类内差异等都使目前的动作识别依然面临着巨大的挑战^[2]。视频中的人体动作识别方法大致可以分为3类：参数化建模、视频立方体分析和非参数化模板匹配^[3]。参数化建模是对动作过程构建一个模型，通过训练学习到每一类动作的模型参数，使用比较多的模型有隐马尔可夫模型(HMMS)^[4-7]和贝叶斯网络(BN)^[8-10]。视频立方体分析^[11]是将一段视频数据视为3维时空立方体，对视频整体分析达到动作识别的目的。非参数化模板^[12]匹配是对视频数据提取特征，常用的特征包括静态特征、动态特征、时空特征和描述性特征，将这些特征与训练集中获得的特征模板进行匹配，从而识别动作。

视频中的动作具有人体姿态随时间不断变化的特征，可以表达为动态的动作流形上的数据点。文献[13-14]提出局部保持映射(LPP)用于动作识别中的学习和匹配动态形状流形。除了LPP之外还有许多流形学习的方法，如Iso度量特征映射(Isomap)^[15]，局部线性嵌入(LLE)^[16]和拉普拉斯特征映射(LE)^[17]等，用来发现流形的固有几何结构。但是这些一般的流形学习框架没有充分考虑到在时间域上的重要结构。王鑫等人^[18]提出了一种基于流形学习的动作识别框架，利用拉普拉斯特征映射(LE)学习运动模型，并使用改进后的Hausdorff距离进行分类度量。但在实验中这种方法并没有很好的解决一些遮挡问题，而且一些动作幅度较小的动作容易混淆。

在流形理论中，对称正定矩阵是黎曼流形上的一个点^[19]，对称正定矩阵群可以构造出黎曼流形，因此也有研究者利用协方差矩阵描述子表达动作视频片段，将识别过程放到流形空间中进行。Hussein等人^[20]根据骨架坐标信息利用层次协方差矩阵得到了一种简单有效的动作描述符。利用协方差矩阵的特性，该方法抓住了动作执行过程中关节点之间的相关性、协调性这一关键信息，使得到的描述符在识别过程中表现出很好的判别性。但是，这种方法仅考虑了每一帧内关节点之间的相关关系，没有考虑关节点随着时间变化的运动趋势，即忽略了动作的时序关系。文献[21]中利用图像的时空特征和光流特征计算协方差矩阵作为动作的描述子，并对在线识别过程中的协方差矩阵计算进行了优化，对动作的实时识别具有不错的效果，但是作者没有考虑到帧内像素点之间的旋度关系和散度关系等局部特征，而且在线识别过程中的滑动窗口宽度固定，相邻动作之间如果停顿不明显，则会产生相互干扰从而影响识别效果。

本文使用协方差矩阵作为动作描述子，采用模板匹配的方式在流形中进行动作识别。但与文献[21]不同的是，本文首先使用动作切分方法对视频中的多个动作进行切分，把动作识别的对象具体化，避免受到前后动作的影响。而且不但利用了像素点的时空信息，还利用了帧内像素点之间的旋度关系和散度关系等局部特征来构造动作视频片段的协方差矩阵描述子。同时为了更好地度量流形空间的动作视频片段间的相似性，受文献[22]中在图像分类过程中的度量学习方法的启发，提出应用流形度量学习方法学习到一个投影矩阵，将初始的流形空间映射到一个具有更好区分度的流形空间中，以提高不同动作类间的区分度。

1 基于流形度量学习的动作识别方法

本文基于流形度量学习的动作识别方法首先对视频预处理，根据人物肢体的伸展程度将视频进行动作切分，将获得的动作片段作为动作识别的对象，然后对动作片段进行特征提取，使用协方差矩阵对动作视频进行表达，在训练阶段根据从训练集获取的协方差矩阵群进行流形度量学习，最后在流形空间中使用最近邻分类器进行分类。本文提出的动作识别算法框架如图 1所示。

图 1 本文动作识别算法框架示意图

Fig. 1 The framework of the proposed action recognition method

1.1 视频中的人体动作切分

早期的动作切分方法^[23-24]是从视频中寻找与训练样本最相近的一段图像序列作为动作的一个片段，他们使用的算法都是基于动态规划的算法扩展而来，算法的时间效率比较低，而且这些方法需要先进行训练。近期文献[25]中使用人体包围盒的宽高比提取动作开始和结束的关键帧。此方法在人物剪影提取准确的情况下，对人物肢体横向变化明显的动作效果很好，但是在出现人物缺失或者纵向运动幅度较大的情况下，其抗噪能力并不理想。基于上述情况，提出一种基于人物肢体伸展程度分析的动作切分方法，在进行动作切分过程中进行了一次平滑处理和一次过滤筛选操作从而提高动作切分的抗噪能力。

人们往往习惯于将人体动作视为肢体在最贴近身体的时候开始，然后伸展到最大幅度后又收回至最贴近身体的过程。基于这个认识，提出了极小面积切分法。首先利用人体包围盒计算出包围盒的面积，用该面积值作为衡量肢体伸展程度的指标，面积值越小表示肢体越贴近身体，面积值越大表示肢体伸展幅度越大。将面积极小值点作为动作切分点，对动作进行切分。算法的关键在于寻找包围盒面积函数极小值点，为了使面积随时间变化的规律更明显，提高方法的抗噪能力，并有效定位极小值点，先对面积函数进行平滑处理。

1.1.1 人体包围盒面积函数的平滑

定义${B_t}\left( {x, y, w, h} \right) $表示第$ t$帧运动人体的最小包围矩形，简称人体包围盒，其中$\left( {x, y} \right) $表示人体包围盒的左上角顶点的坐标，$w $和$ h$分别表示包围盒的宽度和高度。令$S\left( t \right) = B_t^w \times B_t^h $表示包围盒的面积函数。人体包围盒的面积在视频中会随着人物运动即时间变化而变化，如图 2所示。

图 2 包围盒随着人体运动而发生改变示例图

Fig. 2 The bounding box of the actor changing as acting

不同动作的人体包围盒的面积函数$S\left( t \right) $形态也不尽相同。有的具有明显的变化规律；有的因为人物与背景相似，在人物提取时有部分缺失而导致面积函数杂乱无规律。如图 3中所示，图 3(a)是一个具有明显规律的面积函数，而图 3(b)则是总体具有规律性，但噪点的干扰使得规律性并不明显，显得杂乱无章。

图 3 不同动作对应的面积函数示例

Fig. 3 Area function corresponding to different actions((a)regular area function; (b) area function including noises)

为了克服人物提取缺失的影响，找到面积函数变化的本质规律，首先对面积函数进行平滑处理，平滑处理使用稳健形式的局部加权平滑方法，步骤如下：

1) 设置局部平滑窗口的宽度$L $为5，即平滑目标点在窗口中间，左右两边各有两个邻居，对目标点进行局部加权线性回归。回归模型为$f\left( t \right) = {\alpha _0} + {\alpha _1}t $，式中${\alpha _0} $和${\alpha _1} $分别为常数项和一次项系数。性能指标函数为$J\left( {{\alpha _0}, {\alpha _1}} \right) = \frac{1}{L}\sum\limits_{i = 1}^L {{w_i}} {\left( {{S_i}-f\left( {{t_i}} \right)} \right)^2} $，式中${S_i} $是平滑窗口中的第$i $个点的面积值，初始权重函数为${w_i} = {\left( {1-{{\left| {\frac{{t-{t_i}}}{{d\left( t \right)}}} \right|}^3}} \right)^3} $，$t $是目标点位置，${t_i} $是平滑窗口中$t $点的第$i $个邻居位置，$d\left( t \right) $是窗口中邻居数据点距离$t $位置最远的距离值。

2) 根据加权回归后的数据计算窗口中各数据点的残差${r_i} = {S_i}-f\left( {{t_i}} \right) $。

3) 计算窗口中各数据点的稳健权重，定义稳健权重为

$ {w_i} = \left\{ \begin{array}{l} {\left( {1-{{\left( {\frac{{{r_i}}}{{6M}}} \right)}^2}} \right)^2}\;\;\;{r_i} < 6M\\ 0\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{r_i} \ge 6M \end{array} \right. $

(1)

式中，$ {r_i}$是第$ i$个数据点的残差，$M $是$L $个残差绝对值的中位数，用来衡量残差的分散程度，如果${r_i} < 6M $，则对应的稳健权重接近于1，如果${r_i} \ge 6M $，则稳健权重为0。

4) 使用稳健权重重新执行第1步的加权线性回归，并执行5次迭代，用得到的回归模型作为平滑模型。

平滑之后可以消除大部分波动点，使得面积函数更具有规律性，效果如图 4所示。

图 4 曲线平滑效果

Fig. 4 Curve comparison of before and after smoothing

1.1.2 动作切分

在平滑后需要求得面积函数的极小值点来确定分割点，示意图如图 5所示。

图 5 本文提出的动作切分方法示意图

Fig. 5 Illustration of action segmentation

设$S'\left( t \right) $为平滑之后的面积函数。若$t' $满足不等式

$ \begin{array}{l} \left( {S'\left( {t' + 1} \right)-S'\left( {t'} \right)} \right) \times \\ \left( {S'\left( {t'} \right)-S'\left( {t'-1} \right)} \right) \le 0 \end{array} $

(2)

则表示${S'\left( {t'} \right)} $为函数$S'\left( t \right) $的一个极值。

考虑到视频启动及结束时动作的不完整性，以及为了减少平滑不够所带来的影响，在时空域内对由式(2) 计算得到的极值点进行二次过滤处理：

1) 将视频的开始帧和结束帧的面积值加入到极值点集中，并根据$S'\left( t \right) $的变化趋势确定其为极大值或极小值；

2) 依次考察每个极值点${S_i} $，如果${S_i} $与相邻极值点${S_{i-1}} $出现的时间间隔小于阈值${T_t} $，且它们的面积差值小于${T_s} $时，将${S_i} $视为干扰点。需要说明的是在依次考察极值点的过程中，将已经考察过的极值点视为可信赖的极值点，因此不将${S_{i-1}} $视为干扰点。根据多次实验将${T_t} $设置为0.2 s(即25帧/s时，间隔5帧)，${T_s} $设置为0.1×min(${S_{i-1}} $，${S_i} $)具有最好的效果。

两次过滤之后对极值点进行属性判断，若满足$\left( {S'\left( {t' + 1} \right)-S'\left( {t'} \right)} \right) > 0 $则为极小值点。获取到面积函数的极小值点后，依次将提取到的各极小值点之间的帧序列切分为单独的动作片段，从而实现动作切分。

1.2 利用协方差矩阵融合动作特征

完成动作切分后，对切分好的动作视频片段进行特征提取。首先使用背景减除法提取视频中人物的剪影区域作为兴趣区域。为了描述人体运动的速度特征，首先计算每帧图像的LK光流场$\left( {\boldsymbol{U}, \boldsymbol{V}} \right) $^[26]，利用光流对速度进行描述，并将每帧图像剪影区域内光流模长非零的点作为兴趣点。然后根据光流场计算各兴趣点的散度和旋度作为动作的帧内局部特征，对帧内的兴趣点之间的运动关系进行描述，兴趣点$\left( {x, y} \right) $散度和旋度分别为^[27]

$ d\left( {x, y} \right) = \frac{{\partial U\left( {x, y} \right)}}{{\partial x}} + \frac{{\partial V\left( {x, y} \right)}}{{\partial y}} $

(3)

$ r\left( {x, y} \right) = \frac{{\partial V\left( {x, y} \right)}}{{\partial y}}-\frac{{\partial U\left( {x, y} \right)}}{{\partial y}} $

(4)

为了使时空特征能够对齐，人物尺度变化能够有稳定的一致性表达，根据该视频段第$ t$帧的人体最小矩形包围盒，对第$ t$帧兴趣点在视频段中的时空坐标$\left( {{x_t}, {y_t}, t} \right) $进行归一化处理，即

$ \left( {x', y', t'} \right) = \left( {\frac{{{x_t}-B_t^x}}{{B_t^w}}, \frac{{{y_t}-B_t^y}}{{B_t^h}}, \frac{t}{T}} \right) $

(5)

式中，$\left( {x', y', t'} \right) $表示归一化之后的时空坐标，${B_t^x} $、${B_t^y} $、${B_t^w} $和${B_t^h} $分别表示第$t $帧人体包围盒左上角的坐标及人体包围盒的宽度和高度，$T $表示视频片段的总帧数。

将每个兴趣点归一化后的时空坐标、光流值、散度和旋度值组合成一个7维特征矢量${\boldsymbol{P}_i} = \left( {x', y', t', u\left( {{x_i}, {y_i}} \right), v\left( {{x_i}, {y_i}} \right), d\left( {{x_i}, {y_i}} \right), r\left( {{x_i}, {y_i}} \right)} \right) $，式中${u\left( {{x_i}, {y_i}} \right), v\left( {{x_i}, {y_i}} \right)} $分别表示兴趣点${\left( {{x_i}, {y_i}} \right)} $的横向光流值和纵向光流值，${d\left( {{x_i}, {y_i}} \right)} $表示兴趣点${\left( {{x_i}, {y_i}} \right)} $处的散度值，${r\left( {{x_i}, {y_i}} \right)} $表示兴趣点的旋度值。将视频片段中的兴趣点特征集排列成一个矩阵$\boldsymbol{D} $，则数据矩阵$\boldsymbol{D} $的大小为$7 \times N $，表示视频，其中$N $表示视频中兴趣点的总数。

在得到动作视频片段的兴趣点集之后，利用数据矩阵$\boldsymbol{D} $来构造特征协方差矩阵，将以上多种特征进行融合对动作视频进行描述。利用协方差矩阵进行特征表达是一种有效的特征融合方法^[28]。协方差矩阵${\boldsymbol{C}_{7 \times 7}} $的对角线元素表示对应特征的方差，非对角线元素则表示相应两个目标特征的相关性。本文利用协方差矩阵将动作视频中提取到的时空特征、光流特征、散度特征及旋度特征进行融合，构造出视频数据的规模为7×7的低维协方差矩阵描述子，使用协方差矩阵对动作进行表达。

协方差矩阵计算公式为

$ {\boldsymbol{C}_{7 \times 7}} = \frac{1}{{7-1}}\sum\limits_{i = 1}^N {\left( {{\boldsymbol{p}_i}-\boldsymbol{\mu }} \right){{\left( {{\boldsymbol{p}_i}-\boldsymbol{\mu }} \right)}^{\rm{T}}}} $

(6)

式中，${\boldsymbol{p}_i}$表示数据矩阵${\boldsymbol{D}_{7 \times N}} $中的第$i $个兴趣点，7是兴趣点${\boldsymbol{p}_i} $的特征维度，$\boldsymbol{\mu } $表示所有兴趣点的特征均值。

根据式(6) 计算得到的视频协方差矩阵作为动作的描述子。协方差矩阵将规模为$7 \times N $的数据矩阵降至为7×7的协方差矩阵($7 \ll N $)，大大降低了数据的维度。

1.3 流形度量学习

由协方差矩阵表达的动作序列，被看成是动态动作流形中的数据点。为了更好的度量流形上不同数据点间的距离，提高动作的分类准确度，受文献[22]在图像分类过程中的流形度量学习方法的启发，本文使用监督式流形度量学习方法，学习到一个更好的距离度量用于后续的动作识别。

由于兴趣点的光流模长非零，所以在特征提取阶段获取到的协方差矩阵均满足对称正定特性，即流形上的每个点都是对称正定矩阵。在流形空间中两点的距离是它们的测地线距离。计算测地线距离广泛使用的方法有两种：仿射不变度量和对数欧氏度量。由于对数欧氏度量不需要计算特征值，在时间效率上较仿射不变度量具有更优秀的性能，其计算公式为

$ {D_{{\rm{le}}}} = \left\| {\log \left( {{\boldsymbol{C}_1}} \right)-\log \left( {{\boldsymbol{C}_2}} \right)} \right\|_{\rm{F}}^2 $

(7)

式中，${\boldsymbol{C}_1} $和${\boldsymbol{C}_2} $是流形上的两个点。

对数欧氏度量的本质是在切空间中的点积运算^[22]。为了提高距离度量的类区分能力，利用数据类标签学习到一个切空间映射，直接将原始流形的切空间映射到一个新的切空间，使得距离度量在新的切空间中进行。假设切空间映射矩阵为$\boldsymbol{W} $，切空间映射函数为$f\left( {\log \left( \boldsymbol{C} \right)} \right) = {\boldsymbol{W}^{\rm{T}}}\log \left( \boldsymbol{C} \right)\boldsymbol{W} $，切空间映射潜在对应着一个流形映射函数$F:{\boldsymbol{M}_*} \to \boldsymbol{M} $，其中${\boldsymbol{M}_*} $是原始流形，$\boldsymbol{M} $为新的流形，但由于距离度量是在切空间进行的，所以不必要去学习这个流形空间映射。

根据原始流形${\boldsymbol{M}_*} $上两点的对数欧氏距离计算公式(7)，切空间映射后，在新流形$\boldsymbol{M} $上的对数欧氏距离为

$ \begin{array}{l} D_{{\rm{le}}}^W\left( {{\boldsymbol{C}_1}, {\boldsymbol{C}_2}} \right) = \\ \left\| {{\boldsymbol{W}^{\rm{T}}}\log \left( {{\boldsymbol{C}_1}} \right)\boldsymbol{W}-{\boldsymbol{W}^{\rm{T}}}\log \left( {{\boldsymbol{C}_2}} \right)\boldsymbol{W}} \right\|_{\rm{F}}^2 \end{array} $

(8)

为了简化计算公式，令${\boldsymbol{T}_1} = \log \left( {{\boldsymbol{C}_1}} \right), {\boldsymbol{T}_2} = \log \left( {{\boldsymbol{C}_2}} \right) $，则式(8) 可写成

$ \begin{array}{l} D_{{\rm{le}}}^W\left( {{\boldsymbol{T}_1}, {\boldsymbol{T}_2}} \right) = \left\| {{\boldsymbol{W}^{\rm{T}}}{\boldsymbol{T}_1}\boldsymbol{W}-{\boldsymbol{W}^{\rm{T}}}{\boldsymbol{T}_2}\boldsymbol{W}} \right\|_{\rm{F}}^2 = \\ \;\;\;\;\;\;\;\;{\rm{tr}}\left( {{{\left( {{\boldsymbol{T}_1}-{\boldsymbol{T}_2}} \right)}^{\rm{T}}}\boldsymbol{P}\left( {{\boldsymbol{T}_1}-{\boldsymbol{T}_2}} \right)\boldsymbol{P}} \right) \end{array} $

(9)

式中，$\boldsymbol{P} = \boldsymbol{W}{\boldsymbol{W}^{\rm{T}}} $，是对称正定矩阵。由于$\boldsymbol{P} $和(${{\boldsymbol{T}_1}-{\boldsymbol{T}_2}} $)都是对称矩阵，在${\rm{tr}} $函数中的任何置换操作都不会对结果造成影响，故而式(9) 可写成

$ D_{{\rm{le}}}^Q\left( {{\boldsymbol{T}_1}, {\boldsymbol{T}_2}} \right) = {\rm{tr}}\left( {\boldsymbol{Q}\left( {{\boldsymbol{T}_1}-{\boldsymbol{T}_2}} \right)\left( {{\boldsymbol{T}_1}-{\boldsymbol{T}_2}} \right)} \right) $

(10)

式中，$\boldsymbol{Q} = \boldsymbol{PP} $，是对称正定矩阵。

利用数据类标签来学习实现切空间映射的对称正定矩阵$\boldsymbol{Q} $，定义目标函数

$ \begin{array}{l} \mathop {\min }\limits_{Q \ge 0, \xi } {D_{{\rm{ld}}}}\left( {\boldsymbol{Q}, {\boldsymbol{Q}_0}} \right) + \eta {D_{{\rm{ld}}}}\left( {{\rm{diag}}\left( \boldsymbol{\xi } \right), {\rm{diag}}\left( {{\boldsymbol{\xi }_0}} \right)} \right)\\ {\rm{s}}{\rm{.t}}{\rm{.}}{\boldsymbol{\delta }_{ij}}D_{{\rm{le}}}^Q\left( {{\boldsymbol{T}_i}, {\boldsymbol{T}_j}} \right) \le {\xi _{ij}}, \forall c\left( {i, j} \right) \end{array} $

(11)

式中，${{\boldsymbol{Q}_0}} $是$\boldsymbol{Q} $的初始值，${D_{{\rm{ld}}}} $表示矩阵行列式对数估计的散度^[29]，${D_{{\rm{ld}}}}\left( {\boldsymbol{Q}, {\boldsymbol{Q}_0}} \right) = {\rm{tr}}\left( {\boldsymbol{Q}, \boldsymbol{Q}_0^{-1}} \right)-\log \;\;\det \left( {\boldsymbol{Q}, \boldsymbol{Q}_0^{-1}} \right) - d $，$d $是$\boldsymbol{Q} $的行数。$c\left( {i, j} \right) $是点$i $和点$j $的约束条件，根据约束条件确定${\delta _{ij}} $的值，如果两个数据点来自相同的类，则${\delta _{ij}} $就为1，否则为-1。$\boldsymbol{\xi } $是松弛变量，${\boldsymbol{\xi }_0} $是它的初始值，式中${\xi _{ij}} $初始化为${\delta _{ij}}\rho-\zeta \tau $，$\rho $是距离比较中的阈值，其初始值设置为原始流形中所有点对的${D_{{\rm{le}}}} $距离的平均值，$\tau $是边界范围，其初始值设置为原始流形中所有点对的${D_{{\rm{le}}}} $距离的标准差，$\zeta $是边界调整尺度。

将式(10) 代入式(11)，引入参数${\alpha _{ij}} $，构造拉格朗日函数

$ \begin{array}{l} L = {D_{{\rm{ld}}}}\left( {{\boldsymbol{Q}^{t + 1}}, {\boldsymbol{Q}^t}} \right) + \\ \eta {D_{{\rm{ld}}}}\left( {{\rm{diag}}\left( {{\boldsymbol{\xi }^{t + 1}}} \right), {\rm{diag}}\left( {{\boldsymbol{\xi }^t}} \right)} \right) + \\ {\alpha _{ij}}\left( {{\delta _{ij}}{\rm{tr}}\left( {{\boldsymbol{Q}^{t + 1}}\boldsymbol{A}} \right)-\xi _{ij}^{t + 1}} \right) \end{array} $

(12)

式中，$\boldsymbol{A} = \left( {{\boldsymbol{T}_i}-{\boldsymbol{T}_j}} \right)\left( {{\boldsymbol{T}_\boldsymbol{i}}-{\boldsymbol{T}_j}} \right) $。令拉格朗日函数$L $对${\alpha _{ij}} $、${\xi _{ij}} $和$\boldsymbol{Q} $求偏导数，令偏导数为零，计算可得迭代式

$ \xi _{ij}^{t + 1} = \frac{{\eta \xi _{ij}^t}}{{\eta + {\delta _{ij}}{\alpha _{ij}}\xi _{ij}^t}} $

(13)

$ {\boldsymbol{Q}^{t + 1}} = {\boldsymbol{Q}^t} + \frac{{{\delta _{ij}}{\alpha _{ij}}{\boldsymbol{Q}^t}\boldsymbol{A}{\boldsymbol{Q}^t}}}{{1-{\alpha _{ij}}{\rm{tr}}\left( {{\boldsymbol{Q}^t}\boldsymbol{A}} \right)}} $

(14)

$ {\alpha _{ij}} = \frac{{{\delta _{ij}}\eta }}{{\eta + 1}}\left( {\frac{1}{{{\rm{tr}}\left( {{\boldsymbol{Q}^t}\boldsymbol{A}} \right)}}-\frac{1}{{\xi _{ij}^t}}} \right) $

(15)

为了保证式(11) 中的不等式约束条件，需要控制${\alpha _{ij}} \ge 0 $，利用初始值为0的${\lambda _{ij}} $对${\alpha _{ij}} $进行调整，即

$ {\alpha _{ij}} = \min \left( {{\lambda _{ij}}, {\alpha _{ij}}} \right), {\lambda _{ij}} = {\lambda _{ij}}-{\alpha _{ij}} $

(16)

根据式(13)—式(16) 迭代计算，直至$\boldsymbol{Q} $收敛。在学习到$\boldsymbol{Q} $后，就可以根据式(10) 计算两点在切空间映射后的流形上的距离，之后再利用最近邻分类法对动作分类识别。

1.4 算法流程

本文提出的利用流形度量学习的动作识别方法流程图如图 6所示，首先根据从训练集中提取到的协方差矩阵集和动作标签在流形中进行度量学习，获得切空间转移矩阵。然后在测试过程中将测试视频先进行切分，分割成若干个视频片段，依次对每一个片段提取特征，再计算出视频片段的协方差描述子，利用最近邻分类法判断动作类别。

图 6 利用流形度量学习的视频动作识别方法流程图

Fig. 6 The flow chart of based on ((a)manifold metric learning; (b)video action recognition)

2 实验结果及分析

本文使用Weizmann和KTH两个公共视频数据集进行实验。为了验证本文切分方法对动作的切分能力，在Weizmann数据集上进行了动作切分的实验统计与分析。为了验证本文提出的动作识别方法的有效性，分别在Weizmann和KTH两个公共数据集上进行动作识别实验，并比较了使用切空间映射前后的识别效果。为了体现本文方法的有效性以及可比性，所选择的对比方法都是在与本文实验采用的相同数据集上报导过实验结果的方法。实验使用的硬件环境为Intel Core i5 2.67 GHz，内存4 GB，显存1 GB。操作系统是32位WINDOWS 7，仿真软件为MATLAB R2014a。

2.1 实验数据及参数设置

Weizmann公共数据库(分辨率180×144像素，25帧/s)包含9个人分别完成的10个动作：弯腰(bend)、跳(jump)、跑(run)、侧走(side)、跳走(skip)、跳跃(jack)、走(walk)、单手挥动(wave1)、双手挥动(wave2) 和原地跳(pjump)，如图 7所示。

图 7 Weizmann数据集示例图

Fig. 7 Some examples of the Weizmann public video dataset

此视频集的摄像机相对固定不动，镜头也没有拉伸，为了防止因人物剪影提取所导致的实验误差，使用此视频集自带的背景模型，利用背景减除法提取人物剪影。在动作识别实验时采用参考文献[30-33]中普遍使用的留一法(leave-one-out)划分视频集，即用一个表演者的动作视频作为测试集，其他人的动作视频作为训练集。

KTH视频数据集(分辨率160×120像素，25帧/s)包含6种动作：拳击(boxing)、拍手(clap)、挥手(wave)、慢跑(jog)、跑(run)和走(walk)，如图 8所示。这些动作由25个人分别在4种不同场景下执行，这4种场景分别是“室外”、“室外镜头拉伸及轻微抖动”、“同一个人在室外不同衣着”和“室内”。视频数共有599个。由于此公共视频数据集包含的场景丰富，人物及视频个数都比较多且分辨率较低，对动作识别的特征表达和识别具有更大的挑战性，因此使用该数据集进行动作识别的鲁棒性测试，考察本文动作识别方法对不同场景的适应能力。采用参考文献[34]中的实验分组方法，将视频中特定人的视频动作作为测试集(人物2，3，5，6，7，8，9，10，22的视频)和其他人的动作视频作为训练集。

图 8 KTH数据集示例图

Fig. 8 Some examples of the KTH public video dataset

在度量学习过程中我们将切空间映射矩阵初始值${{\boldsymbol{Q}_0}} $设置为单位矩阵，$\eta $设置为10，边界调整尺度$\zeta $初始值设置为0.1；${\xi _{ij}} $的初始值为${\delta _{ij}}\rho-0.1\tau $，其中${\delta _{ij}} $是根据点对的类标签确定的，如果两点的类标签相同则为1，否则为-1；$\rho $和$\tau $初始值分别设置为利用式(5) 在原始流形中计算得到的点对距离的平均值和标准差，${\lambda _{ij}} $初始化为0。

2.2 切分实验结果分析

在Weizmann数据集上，利用本文提出的动作视频切分方法得到的各动作视频的前3个切分点如图 9所示(第3行的“wave1”动作视频只得到两个切分点)，得到的切分点基本都是肢体紧贴身体的时刻。例如图 9中的第3行所示“wave1”和“wave2”动作的切分点都是在人物将要挥手的时刻，或者挥完手后手摆回至最贴近身体的时刻；图 9中的第4行所示“run”和“side”动作、第5行的“skip”和“walk”动作，切分点都是人物在将要迈开脚步或者已经收回脚步的时刻，这都符合我们对动作开始和结束的视觉感受和一贯认识。

图 9 动作切分效果示例图

Fig. 9 Some action segmentation results

为了评估本文动作视频切分方法的效果，使用切分出的片段数除以实际含有的完整片段数(人工校验)作为切分成功率。如图 10是在Weizmann数据集的视频中完整动作的切分成功率，从实验结果可以看出，本文提出的动作视频切分方法对肢体伸展收合明显的动作具有更好的切分效果，如“bend”、“jack”等动作能全部切分出完整的动作片段，但对肢体伸展收合不明显的动作，分割效果有所欠缺，比如“jump”、“pjump”和“skip”动作，它们的面积函数变化不明显，所以切分成功率相对较低。

图 10 在Weizmann视频数据集上的完整动作切分成功率

Fig. 10 The accuracy of action segmentation on Weizmann public video dataset

2.3 动作识别结果分析

识别结果以混淆矩阵的形式给出，对角线上的值表示识别的成功率，其他值表示被错误分到其他类的比率。如图 11所示是在Weizmann数据集上的实验结果。从图 11中可以看出本文动作识别方法能够正确识别出大部分动作，如bend、jack、pjump和wave2动作能够达到100 %的识别准确率，总体平均识别率达到95.6 %。但skip动作的识别率相对较低，仅有86 %，是因为skip动作不仅人物运动形态与run和walk的很相似，而且在切分阶段存在较多的非完整动作的片段，所提取的特征与完整动作特征的差异较大，导致出现错误识别的情况。jump动作识别率较低的原因与skip动作类似。pjump动作切分的成功率并不高，但是识别准确率却很高，这是因为它是原地向上跳跃的，与其他动作具有明显的特征差异。wave1动作与bend动作都是以单侧画弧为主的运动过程，具有较高的特征相似性，导致识别率仅有88 %。

图 11 Weizmann数据集上的动作识别结果

Fig. 11 The result of action recognition on Weizmann

图 12是没有使用切空间映射在Weizmann数据集上的动作识别实验结果的混淆矩阵，即没有进行流形度量学习，其平均识别率是92.8 %，比使用了流形度量学习的方法低2.8 %。

图 12 Weizmann数据集上没有进行流形度量学习的动作识别结果

Fig. 12 The result of action recognition without manifold metric learning on Weizmann

图 13比较了进行流形度量学习前后的动作分类结果，从图 13中可以看出流形度量学习对动作的识别效果有明显提高。

图 13 Weizmann数据集上流形度量学习前后动作识别率比较

Fig. 13 The comparison of action recognition before and after manifold metric learning on Weizmann dataset

表 1所示是本文提出的动作识别方法与文献[30-33]中的动作识别方法在Weizmann数据集上的平均识别率比较。从表中可以看出，文献[30]通过检测时空兴趣点并使用3维加速鲁棒特征(3DSURF)对动作进行表达，在Weizmann数据集上的实验平均识别率为90 %，比本文方法低5.6 %；文献[31]利用光流特征和相关主题模型(CTM)对动作进行分类，在Weizmann数据集上的实验平均识别率为89.2 %；文献[32]通过整合纹理特征、姿态特征和运动特征建立特征词袋框架的动作识别方法，在Weizmann数据集上的实验平均识别率为94.44 %，但此方法中的纹理特征的提取需要使用局部二值模式(LBP)的方法，通过阈值像素进行二值编码，其计算量比较大。从对比中可以看出本文方法比其他方法具有更好的识别效果，验证了本文方法的有效性。

表 1 Weizmann数据集上的平均识别率比较
Table 1 The comparison of different action recognition methods on Weizmann

下载CSV

方法	年份	策略	识别率/%
文献[30]	2013	3D SURF	90
文献[31]	2014	光流+CTM	89.2
文献[32]	2015	bag-of-features	94.44
文献[33]	2016	ELS-TSVM	95.56
本文	2017	时空特征+光流+散度+ 旋度+流形度量学习	95.6

图 14是在KTH视频数据集上的实验结果，从图中可以看出，本文方法对分辨率较低的KTH数据集的各种场景都具有良好的适应能力，平均识别率高达92.3 %。这是因为在特征表达过程中我们利用人体包围盒对兴趣点进行了归一化处理，使得能够适应镜头抖动的影响，同时光流特征对衣着和光线的影响也具有很好的适应能力，散度和旋度特征对帧内像素点之间的运动关系描述提高了动作的区分能力。在分类过程中有监督的流形度量学习也带来更好的分类效果。

图 14 KTH数据集上的动作识别结果

Fig. 14 The result of action recognition on KTH dataset

表 2所示是本文提出的动作识别方法与文献[31, 34-36]中的动作识别方法在KTH数据集上的平均识别率比较，从表 2中可以看出，本文方法在KTH的4种场景中与其他方法相比同样具有较强的适应能力。文献[31]通过使用光流特征和相关主题模型(CTM)的方法在KTH数据集上的平均识别率为90.6 %，本文方法高出该方法1.7 %。与文献[35]和文献[36]的比较中，本文方法也有更好的识别效果。与文献[34]使用局部时空特征和快速随机密集采样的方法相比，本文方法则略低一些。但是文献[34]需要在特征维数较高(如864维)和采样数量巨大(如10 000点)的情况下，识别效果才能具有较好的水平。本文所选取的兴趣点是以人体区域光流模长非零的点进行低维特征提取，与之相比大大降低了像素样本点的数量和特征维数。

表 2 KTH数据集上的平均识别率比较
Table 2 The comparison of different action recognition methods on KTH

下载CSV

方法	年份	策略	识别率/%
文献[31]	2014	光流+CTM	90.6
文献[34]	2013	localspatio-temporal features+ fast random sampling	93.0
文献[35]	2015	MOH+2D-SIFT+HOOF	91.38
文献[36]	2016	MBPs+VLBPs+ 随机森林分类器	92.1
本文	2017	时空特征+光流+散度+ 旋度+流形度量学习	92.3

3 结论

本文提出的以人物肢体伸展程度分析的动作切分方法对视频进行预处理，使动作识别对象具体化，避免相邻动作之间的干扰，同时一个动作片段只需一次识别判断，避免了滑动窗口方式每前进一帧就匹配一次而产生的高耗时。而且本方法是基于人体最小包围盒的面积函数进行动作切分的，其运算量小，能够快速定位动作的开始与结束位置，对视频动作检索等应用具有较强的实际意义。并且在能够观察出肢体伸展收合的拍摄角度都是可行的，具有较高的鲁棒性。针对高维视频数据，提出利用低维协方差矩阵的方法对多种特征进行融合，特征融合所选取的特征中归一化的时空特征能够对人物的时空信息进行统一表达，增强了时空特征的表达能力，而且光流信息和旋度、散度信息的加入使得人体各部位的运动方向信息具有了更多细节的描述。最后利用有监督的方式进行流形度量学习以提高动作识别效果。实验结果表明本文提出的动作切分方法具有很好的切分效果，平滑操作和二次过滤使得能够在人物提取缺失的情况下具有较强的抗干扰能力，在利用了训练样本的标签信息进行的流形度量学习之后，识别方法的准确率也有明显提高，实验也表明本文方法在多种场景中具有鲁棒性。

由于本文提出的动作识别方法在预处理阶段的动作切分方法需要视频中全体帧中的包围盒面积值作为基础，因此本文动作识别方法还局限于离线视频的动作识别，能够应用于视频检索、视频分类等领域。为了将本文动作识别方法应用于在线视频的实时动作识别，扩展动作识别方法的应用范围，在后续的研究中，将利用动作切分的思想对滑动窗口宽度固定的在线动作识别方法进行优化，结合动作切分，动态调整滑动窗口的宽度，避免固定滑动窗口长度带来的相邻动作干扰，从而使在线动作识别的效果更好。本文提出的动作切分方法及动作特征提取依赖于人物的剪影，剪影的精确提取在背景较为复杂的场景下具有很大的挑战，所以进一步的工作是研究在复杂背景下的视频动作分割及识别。

参考文献

[1] Wang L, Ye H, Xia L Z. Discriminative human action recognition using Semi-Markov model and large-margin[J]. Journal of Image and Graphics, 2009, 14(11): 2304–2310. [汪力, 叶桦, 夏良正. 基于半马尔可夫和Large-margin的动作识别[J]. 中国图象图形学报, 2009, 14(11): 2304–2310. ] [DOI:10.11834/jig.20091118]

[2] Xu G Y, Cao Y Y. Action recognition and activity understanding:A review[J]. Journal of Image and Graphics, 2009, 14(2): 189–195. [徐光祐, 曹媛媛. 动作识别与行为理解综述[J]. 中国图象图形学报, 2009, 14(2): 189–195. ] [DOI:10.11834/jig.20090201]

[3] Hu Q, Qin L, Huang Q M. A survey on visual human actionrecognition[J]. Chinese Journal of Computers, 2013, 36(12): 2512–2524. [胡琼, 秦磊, 黄庆明. 基于视觉的人体动作识别综述[J]. 计算机学报, 2013, 36(12): 2512–2524. ]

[4] Qu Z X, Lu T S, Liu X J, et al.A new method for human action recognition:discrete HMM with improved LBG algorithm[C]//Proceedings of the 9th International Conference on Anti-Counterfeiting, Security, and Identification.Xiamen:IEEE, 2015:109-113.[DOI:10.1109/ICASID.2015.7405672]

[5] Zhang L C, Wu X H, Luo D S.Human activity recognition with HMM-DNN model[C]//Proceedings of the 14th International Conference on Cognitive Informatics & Cognitive Computing.Beijing:IEEE, 2015:192-197.[DOI:10.1109/ICCI-CC.2015.7259385]

[6] Fu Y W, Yang S P.Human action recognition by extracting motion trajectories[C]//Proceedings of the SPIE 9631, 7th International Conference on Digital Image Processing.Los Angeles:SPIE, 2015, 9631:96311H.[DOI:10.1117/12.2196929]

[7] Takano W, Obara J, Nakamura Y. Action recognition from only somatosensory information using spectral learning in a hidden Markov model[J]. Robotics and Autonomous Systems, 2016, 78: 29–35. [DOI:10.1016/j.robot.2016.01.001]

[8] Gheisari S, Meybodi M R, Dehghan M, et al. BNC-VLA:Bayesian network structure learning using a team of variable-action set learning automata[J]. Applied Intelligence, 2016, 45(1): 135–151. [DOI:10.1007/s10489-015-0743-1]

[9] Kovalenko M, Antoshchuk S, Sieck J.Human action recognition using a semantic-probabilistic network[C]//Proceedings of the 2015 International Conference on Emerging Trends in Networks and Computer Communications.Windhoek:IEEE, 2015:67-72.[DOI:10.1109/ETNCC.2015.7184810]

[10] Liu J W, Gu Y L, Kamijo S.Customer behavior recognition in retail store from surveillance camera[C]//2015 IEEE International Symposium on Multimedia.Miami, FL:IEEE, 2015:154-159.[DOI:10.1109/ISM.2015.52]

[11] Chen T T, Ruan Q Q, An G Y. Slow feature extraction algorithm of human actions in video[J]. CAAI Transactions on Intelligent Systems, 2015, 10(3): 381–386. [陈婷婷, 阮秋琦, 安高云. 视频中人体行为的慢特征提取算法[J]. 智能系统学报, 2015, 10(3): 381–386. ]

[12] Maity S, Bhattacharjee D, Chakrabarti A. A novel approach for human action recognition from silhouette images[J]. IETE Journal of Research, 2017, 63(2): 160–171. [DOI:10.1080/03772063.2016.1242383]

[13] Wang L, Suter D. Learning and matching of dynamic shape manifolds for human action recognition[J]. IEEE Transactions on Image Processing, 2007, 16(6): 1646–1661. [DOI:10.1109/TIP.2007.896661]

[14] Wang L, Suter D. Visual learning and recognition of sequential data manifolds with applications to human movementanalysis[J]. Computer Vision and Image Understanding, 2008, 110(2): 153–172. [DOI:10.1016/j.cviu.2007.06.001]

[15] Yang B, Xiang M, Zhang Y P. Multi-manifold DiscriminantIsomap for visualization and classification[J]. Pattern Recognition, 2016, 55: 215–230. [DOI:10.1016/j.patcog.2016.02.001]

[16] Roweis S T, Saul L K. Nonlinear dimensionality reduction by locally linear embedding[J]. Science, 2000, 290(5500): 2323–2326. [DOI:10.1126/science.290.5500.2323]

[17] Belkin M, Niyogi P.Laplacian eigenmaps and spectral techniques for embedding and clustering[C]//Proceedings of the 14th International Conference on Neural Information Processing Systems:Natural and Synthetic.Seattle, WA, USA:ACM, 2001:585-591.

[18] Wang X, Wo B H, Guan Q, et al. Human action recognition based on manifoldlearning[J]. Journal of Image and Graphics, 2014, 19(6): 914–923. [王鑫, 沃波海, 管秋, 等. 基于流形学习的人体动作识别[J]. 中国图象图形学报, 2014, 19(6): 914–923. ]

[19] Tuzel O, Porikli F, Meer P.Region covariance:a fast descriptor for detection and classi cation[C]//Proceedings of the 9th European Conference on Computer Vision.Graz, Austria:Springer, 2006:589-600.[DOI:10.1007/11744047_45]

[20] Hussein M E, Torki M, Gowayyed M A, et al.Human action recognition using a temporal hierarchy of covariance descriptors on 3D joint locations[C]//Proceedings of the 23rd International Joint Conference on Artificial Intelligence.Beijing, China:ACM, 2013:2466-2472.

[21] Kviatkovsky I, Rivlin E, Shimshoni I. Online action recognition using covariance of shape and motion[J]. Computer Vision and Image Understanding, 2014, 129: 15–26. [DOI:10.1016/j.cviu.2014.08.001]

[22] Huang Z W, Wang R P, Shan S G.Log-euclidean metric learning on symmetric positive definite manifold with application to image set classification[C]//Proceedings of the 32nd International Conference on Machine Learning.Lille, France:ICML, 2015:720-729.

[23] Lee H K, Kim J H. An HMM-based threshold model approach for gesture recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1999, 21(10): 961–973. [DOI:10.1109/34.799904]

[24] Oka R. Spotting method for classification of real world data[J]. The Computer Journal, 1998, 41(8): 559–565. [DOI:10.1093/comjnl/41.8.559]

[25] Qu H.Human action recognition based on manifold learning[D].Chengdu:University of Electronic Science and technology of China, 2013. [屈航. 基于流形学习的人体动作识别研究[D]. 成都: 电子科技大学, 2013.] http://www.wenkuxiazai.com/doc/2a10e4fda76e58fafbb003ce-2.html

[26] Lucas B D, Kanade T.An iterative image registration technique with an application to stereo vision[C]//Proceedings of the 7th International Joint Conference on Artificial Intelligence.San Francisco, CA, USA:Morgan Kaufmann Publishers Inc., 1981, 2:674-679.

[27] Ali S, Shah M. Human action recognition in videos using kinematic features and multiple instance learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(2): 288–303. [DOI:10.1109/TPAMI.2008.284]

[28] Ning Z L, Wang H Q, Zhang Z. An automatic object detection method based on covariancematrix[J]. Journal of the Graduate School of the Chinese Academy of Sciences, 2010, 27(3): 370–375. [宁忠磊, 王宏琦, 张正. 一种基于协方差矩阵的自动目标检测方法[J]. 中国科学院研究生院学报, 2010, 27(3): 370–375. ]

[29] Kulis B, Sustik M A, Dhillon I S. Low-rank kernel learning with Bregman matrix divergences[J]. The Journal of Machine Learning Research, 2009, 10: 341–376.

[30] Li C Z, Su B L, Liu Y, et al.Human action recognition using spatio-temporal descriptor[C]//Proceedings of the 6th International Congress on Image and Signal Processing.Hangzhou:IEEE, 2013:107-111.[DOI:10.1109/CISP.2013.6743966]

[31] Tu H B, Xia L M, Wang Z W. The complex action recognition via the correlated topic model[J]. The Scientific World Journal, 2014, 2014: 810185.

[32] Rahman S, See J, Ho C C.Action recognition in low quality videos by jointly using shape, motion and texture features[C]//Proceedings of the 2015 IEEE International Conference on Signal and Image Processing Applications.Kuala Lumpur:IEEE, 2015:83-88.[DOI:10.1109/ICSIPA.2015.7412168]

[33] Ren X F, Qin J Y, Yang J, et al. Energy model based LS-TSVM for action recognition[J]. Application Research of Computers, 2016, 33(2): 598–601, 631. [任晓芳, 秦健勇, 杨杰, 等. 基于能量模型的LS-TSVM在人体动作识别中的应用[J]. 计算机应用研究, 2016, 33(2): 598–601, 631. ]

[34] Shi F, Petriu E, Laganiere R.Sampling strategies for real-time action recognition[C]//Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland, OR:IEEE, 2013:2595-2602.[DOI:10.1109/CVPR.2013.335]

[35] Wu D M, Xie J Z, Wang J. Human action recognition based on multi-features fusion[J]. Computer Applications and Software, 2015, 32(11): 171–175. [吴冬梅, 谢金壮, 王静. 基于多特征融合的人体行为识别[J]. 计算机应用与软件, 2015, 32(11): 171–175. ] [DOI:10.3969/j.issn.1000-386x.2015.11.040]

[36] Baumann F, Ehlers A, Rosenhahn B, et al. Recognizing human actions using novel space-time volume binary patterns[J]. Neurocomputing, 2016, 173: 54–63. [DOI:10.1016/j.neucom.2015.03.097]