Print

发布时间: 2017-04-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.20170408
2017 | Volume 22 | Number 4




    图像处理和编码    




  <<上一篇 




  下一篇>> 





结合特权信息的人体动作识别
expand article info 凌佩佩1, 邱崧1, 蔡茗名1, 徐伟2, 丰颖1
1. 华东师范大学信息科学技术学院, 上海市多维度信息处理重点实验室, 上海 200241;
2. 上海交通大学图像处理与模式识别研究所, 上海 200240

摘要

目的 采用传统的2维特征提取方法,很难从视频中准确地捕获出人体的关节点位置,限制了识别率的上限。采用深度信息的3维特征提取能提升识别率,但高维空间运算复杂度高,很难实现实时识别,受应用场景限制。为克服上述难点,提出一种基于3维特权学习的人体动作识别方法,将3维信息作为特权信息引入到传统的2维动作识别过程中,用来识别人体动作。 方法 以运动边界直方图密集光流特征、Mosift(Motion SIFT)特征和多种特征结合的混合特征作为2维基本特征。从Kinect设备获得的深度信息中评估出人体的关节点信息,并用李群算法处理得到3维特征作为特权信息。特权信息在经典支持向量机下的识别效果优于2维基本特征。训练数据包含2维基本特征和3维特权信息,测试数据只有2维基本特征。通过训练样本学习,得到结合特权信息的支持向量机(SVM+),使用该向量机对测试样本进行分类,得到人体动作识别结果。 结果 在UTKinect-Action和Florence3D-Action两个人体动作数据集上进行实验。引入特权信息后,人体动作识别率较传统2维识别有2%的平均提升,最高达到9%。SVM+分类器对参数的敏感性较SVM下降。 结论 实验结果表明,本文方法较以往方法,在提升识别准确率的同时,降低了分类器对参数的敏感性。本文方法仅在训练过程中需要同时提取2维基本特征和3维特权信息,而在测试过程中无需借助深度信息获取设备提取3维特权特征信息,学习速度快,运算复杂度低,可广泛应用于低成本,高实时的人体动作识别场合。

关键词

人体动作识别; 特权信息; 支持向量机; 结合特权信息的支持向量机; 3维人体李群特征

Human action recognition based on privileged information
expand article info Ling Peipei1, Qiu Song1, Cai Mingming1, Xu Wei2, Feng Ying1
1. Shanghai Key Laboratory of Multidimensional Information Processing, College of Information Science Technology, East China Normal University, Shanghai 200241, China;
2. Institute of Image Processing and Pattern Recognition, Shanghai Jiao Tong University, Shanghai 200240, China
Supported by: National Natural Science Foundation of China (61302125, 61377107); Grants from Science and Technology Commission of Shanghai Municipality (14DZ2260800)

Abstract

Objective The study of human action recognition is an area with important academic and application values. It is widely applied to the fields of intelligent surveillance, video retrieval, human interaction, live entertainment, virtual reality, and health care. In human learning, a teacher can provide students with information hidden in examples, explanations, comments, and comparisons. However, the information offered by a teacher is seldom applied to the field of human action recognition. This study considers 3D depth features as privileged information to help solve human action recognition problems and to demonstrate the superiority of a new learning paradigm over the classical learning paradigm. This paper reports on the details of the new paradigm and its corresponding algorithms. Method The human body can be represented as an articulated system with rigid segments connected by joints. Human motion can be regarded as a continuous evolution of the spatial configuration of these rigid segments. With the recent release of depth cameras, an increasing number of studies have extracted the 3D positions of tracked joints to represent human activities, these studies have achieved relatively good performance. However, relative 3D algorithms have numerous application limits resulting from inconvenient equipment and costly computation. The extraction of joints from RGB video sequences is difficult, which limits recognition result. This study applies 3D depth features as privileged information to solve the aforementioned challenge. In particular, we apply a new skeletal representation that explicitly models the 3D geometric relationships among different body parts that use rotations and translations in 3D space in the lie group. We use different algorithms, including motion scale-invariant feature transform, motion boundary histograms, and different combined descriptors, for the basic 2D features to unite privileged information. Privileged information is available in the training stage, but not in the testing stage. Similar to the traditional classification problem, the new algorithm focuses on learning a new classifier, i.e., support vector machine+ (SVM+). The SVM+ algorithm, which considers both privileged and unprivileged information, is highly similar to SVM algorithms in terms of determining solutions in the classical pattern recognition framework. In particular, it finds the optimal separating hyperplane, which incurs a few training errors and exhibits a large margin. However, the SVM+ algorithm is computationally costlier than SVM. This study applies the new algorithm to the field of human activity recognition to provide convenience to the testing set because 3D information is only required in the training set. Result We evaluate our method in two challenge databases, namely, UTKinect-Action and Florence3D-Action, with three different 2D features. The SVM+ algorithm considers both 2D basic features and 3D privileged information, whereas SVM only uses 2D basic features. Results show that our proposed SVM+ outperforms SVM. Moreover, SVM+ is less sensitive to relevant parameters than SVM. This paper reports on the details of the recognition performance, varying numbers of training samples, different parameters, and confusion matrix for both SVM and SVM+ on the two datasets. The privileged information can help to reduce the noise of the original 2D basic features and increase the robustness of human activity recognition. Conclusion The role of a teacher in providing remarks, explanations, and analogies is highly important. This study proposes a new human action recognition method based on privileged information. The experimental results of the two datasets show the effectiveness of our method in human action recognition. The proposed method is only required to extract 3D privileged information during the training process. A depth information acquisition device is not required during the testing process. This method exhibits high learning speed and low computational complexity. It can be extensively used in low-cost, real-time human action recognition.

Key words

human action recognition; privileged information; support vector machine (SVM); support vector machine+(SVM+); 3D lie group features

0 引言

近年来,随着人体动作识别在智能监控、视频检索、人机交互、生活娱乐、虚拟现实、医疗保健等领域的广泛应用,视频中人体动作识别的研究,具有越来越重要的学术和应用价值。

作为计算机视觉领域中研究的热点和难点,人体动作识别的核心是:利用计算机视觉技术从传感器 (摄像机) 采集的视频序列中检测、跟踪、识别人并对其行为进行理解和描述,使计算机能够“识别”视频中的人体行为。

人体动作识别中重要的一环是从视频序列中提取出有效的运动特征,特征的好坏直接影响到动作识别的准确度和鲁棒性。

基于2维数据源而言,较早Carlsson等人[1]通过边缘检测器提取视频中的形状信息,这种静态特征可以较好地表现人体的整体轮廓信息,但在运动背景复杂的情况下提取困难,于是很多研究者开始尝试直接提取运动特征。Efros等人[2]为识别一定距离的人体行为,在水平和垂直两个方向提取光流特征;Denman等人[3]结合运动分割和光流特征提取进行人体追踪,对每个像素点的光流进行计算以得到更好的灵活性。之后研究者又提出了时空特征,这类特征将一段视频作为一个 ($ z, y, t$)3维空间中的时空体来分析和处理,主要包括时空立方体、时空兴趣点和时空上下文等。Charif等人[4]提出的Mosift算法首先提取图像中的SIFT (scale-invariant feature transform) 点特征,然后计算与SIFT关键点尺度相对应的光流大小,能够检测空间上具有一定运动的、区分性强的兴趣点,运动强度由兴趣点周围的光流强度来衡量;Wang等人[5]受到图像分类中的密集采样方法的启发,提出利用密集光流特征来描述视频内容,并利用运动边界直方图来描述密集光流特征取得了较好的效果。

人体动作的变化伴随着关节点的旋转、平移,如果能从关节点的运动着手提取特征将对准确率的提升有很大帮助,但从视频图像中很难准确地捕获出人体的关节点位置,也因此限制了2维特征识别率的上限。

随后研究者们开始研究深度信息,其可通过几个2维相机的组合或一个3维相机获取。在微软公司发布深度传感器——Kinect后,深度信息的研究成为热点。Kinect的软件开发工具包 (SDK) 中提供人体3维姿态追踪的示例, 在1.23.5 m范围内能实现较好地追踪效果。随着微软Kinect的出现和普及,开始出现了3维特征的提取。利用Shotton等人[6]的方法,可以快速精确地从Kinect提供的深度图像中评估出3维关节点的位置。深度信息能够实时得到,并具有视角无关性,可以简化识别过程。Xia等人[7]从深度图谱中提取关节骨架节点,提出HOJ (histograms of 3D joints)3维算法,用LDA聚类成一定数目的视觉单词得到特征,在相关数据集上取得了较好的效果。Vemulapalli等人[8]突破关节位置和关节夹角的常规方法,以局部关节的旋转和平移为基础,将人体动作曲线在李氏群代数中进行表达得到特征。

很多研究者都在这方面进行了深入研究,深度信息在很大程度上提高了人体动作的识别率,但由于高维空间运算复杂度高,很难实现实时识别,主要处在理论研究阶段。

在人体动作特征提取的基础上, 动作特征理解可看做一个在空间或时空领域将提取到的人体运动特征与先验知识进行对比, 通过数据的分析实现动作分类的过程。

较早被采用于人体动作识别的是模板匹配方法,也是最常用最简单直接的方法。Carlsson等人[1]通过从动作视频中提取到的关键帧和保存的动作原型之间做形状匹配来完成动作识别。由于不同的视频中同一动作的持续时间未必相同,研究者们提出了动态时间规整 (DTW) 方法,Wang等人[9]将该方法用于人体动作识别中。动作也可以表示成一系列状态的合集,不同状态之间通过概率连接。如隐马尔可夫模型 (HMM) 就是基于此提出的识别方法。支持向量机 (SVM) 也是较为常用的一种判别式识别模型,支持线性和非线性分类,也支持多分类,文献[10-12]都用了SVM分类方法。

采用传统的2维特征提取方法,很难从视频中准确地捕获出人体的关节点位置,限制了识别率的上限。采用深度信息的3维特征提取能提升识别率,但高维空间运算复杂度高,很难实现实时识别,受应用场景限制。为克服上述难点,本文提出一种基于3维特权学习的人体动作识别方法,将3维信息作为特权信息引入到传统的2维动作识别过程中,只在训练过程中起辅导作用识别人体行为。

1 方法

本文提出一种结合3维特权信息的人体动作识别方法,将动作过程中的3维深度特征信息作为特权信息引入到传统的2维特征识别过程中,在训练样本中充当“教师”的辅助作用,学习得到新的分类器,而测试样本维持2维特征不变。特权信息的引入弱化训练样本中的噪声比较大样本的权重,增强干净样本的权重,提高了算法的鲁棒性。

1.1 方法概述

本文方法框架如图 1所示,具体过程如下:

图 1 结合3维特权信息的人体动作识别框架流程图
Fig. 1 The framework of human action recognition based on 3D privileged information

1) 输入:

(1) 人体动作数据集的2维特征和3维深度特征及其所对应的标签$ \left( {{x_1}, x_1^{^*}, {y_1}} \right) $, $\left( {{x_2}, x_{_2}^{^*}, {y_2}} \right) $, …, $ \left( {{x_L}, x_{_L}^{^*}, {y_L}} \right) $, ${x_i} \in \mathit{\boldsymbol{X}}, x_{_i}^{^*} \in {\mathit{\boldsymbol{X}}^*}, {y_i} \in \{-1, 1\}, {x_i} $为训练数据集2维特征,$ x_{_i}^{^*} $为3维,即深度信息特征,$y_i $为数据集对应的标签, L为训练数据集长度。

(2) 待识别的人体动作数据集的2维特征

$ \{ {x_1}, {x_2}, \cdots, {x_N}\}, {x_j} \in \mathit{\boldsymbol{X}} $

$x_j $为测试数据集2维特征,N为测试数据集长度。

2) 训练,在训练过程中采用3维深度特征辅助2维基本特征学习得到结合特权信息的支持向量机 (SVM+),继而对待识别人体动作进行分类得到识别结果,与经典支持向量机 (SVM) 进行对比。

3) 测试和结果输出,人体动作数据集一般包含多种动作,采用一对多分类方法得到SVM+分类器下的动作识别结果。

本文方法输出不同数据集在SVM+模式下的动作识别结果,不同动作间的混淆识别结果,不同数量训练样本对应的识别结果,不同分类器参数对应的识别结果,并与SVM模式进行对比。

1.2 特权信息的引入

经典的机器学习模式中,输入一组训练实例,通过寻找尽可能好的决策规则预测未知实例。在这样的模式中,“教师”没有发挥重要作用。

然而,在人类的学习过程中,教师扮演着非常重要的角色,在教给学生例子的同时提供解释、比较、纠错等帮助。

$x_i $是医学上的细胞检测图片,$ x_{_i}^{^*} $是肿瘤专家针对检测图片得出的医学报告,$y_i $表征需要得到的细胞是否发生癌变的判定。为得到结果$y_i $,相比于单独的图片信息$x_i $$ x_{_i}^{^*} $起到了很好的辅助作用。

在上述过程中,细胞检测图片很容易得到,但肿瘤专家针对性的检测较难实时得到,所以只在训练样本中起到了辅助作用。

本文将人类学习中的教师引入到人体动作识别过程中,在训练过程中除2维特征外,引入起到辅助作用的3维特权信息,而测试样本维持2维不变,提出结合3维特权信息的支持向量机人体动作识别算法,并验证其相对于经典支持向量机分类识别的优越性。

1.3 SVM+分类器的求解

在经典的机器学习模式中:给定一组训练数据$ \left( {{x_1}, {y_1}} \right), \left( {{x_2}, {y_2}} \right), \cdots, \left( {{x_L}, {y_L}} \right), {x_i} \in \mathit{\boldsymbol{X}}, {y_i} \in \{ 1, 1\} $式中,$x_i $为训练数据特征,$y_i $为训练数据标签。分类器的学习目标是通过寻找最优超平面下的分类函数$ P\left( {x, y} \right) $,使得不正确分类的可能性最低 (泛化误差最小)。

在本文的3维特权学习模式中,给定训练数据

$ \begin{array}{l} \left( {{x_1}, x_{_1}^{^*}, {y_1}} \right), \left( {{x_2}, x_{_2}^{^*}, {y_2}} \right), \cdots, \left( {{x_L}, x_{_L}^{^*}, {y_L}} \right)\\ {x_i} \in \mathit{\boldsymbol{X}}, x_{_i}^{^*} \in {\mathit{\boldsymbol{X}}^*}, {y_i} \in \{-1, 1\} \end{array} $

式中,$x_i $为2维训练数据特征,$ x_{_i}^{^*} $为只存在训练数据中的3维辅助信息,$y_i $为训练数据标签。和经典的机器学习目标一样,结合3维特权信息的支持向量机学习目标即寻找最优超平面的分类器。

在经典的机器学习模式中,为寻找最优的分类函数$ P = {\mathit{\boldsymbol{w}}^{\rm{T}}}\mathit{\boldsymbol{x}} + b $, 需解决

$ {\rm{min}}\frac{1}{2}(\mathit{\boldsymbol{w}}, \mathit{\boldsymbol{w}}) + C\sum\limits_{i = 1}^L {{\xi _i}} $ (1)

约束条件为

$ \begin{array}{l} {y_i}\left( {{\mathit{\boldsymbol{w}}^{\rm{T}}}{\mathit{\boldsymbol{x}}_i} + b} \right) \ge 1-{\xi _i}, i = 1, 2, \cdots, L\\ {\xi _i} \ge 0, i = 1, 2, \cdots, L \end{array} $ (2)

式中,$ \mathit{\boldsymbol{w}}, b $是超平面分类函数的两个参数,C是用于控制目标函数中两项指标 (“寻找margin最大的超平面”和“保证数据点偏差量最小”) 之间的权重的参数;ξ是松弛变量。

在结合3维特权信息的学习模式中,引入矫正函数$ \phi \left( {\mathit{\boldsymbol{x}}_{_l}^{^*}} \right) = {\mathit{\boldsymbol{w}}^*}\mathit{\boldsymbol{x}}_{_i}^{^*} + {b^*} $代替经典模式中的松弛变量$ {\xi _i} $,需要解决的问题变成

$ {\rm{min}}\frac{1}{2}\left[{\left( {\mathit{\boldsymbol{w}}, \mathit{\boldsymbol{w}}} \right) + \gamma \left( {{\mathit{\boldsymbol{w}}^*}, {\mathit{\boldsymbol{w}}^*}} \right)} \right] + C\sum\limits_{i = 1}^L {[({\mathit{\boldsymbol{w}}^*}, \mathit{\boldsymbol{x}}_{_i}^{^*}) + {b^*}]} $ (3)

约束条件为

$ \left\{ \begin{array}{l} {y_i}[(\mathit{\boldsymbol{w}}, {\mathit{\boldsymbol{x}}_i}) + b] \ge 1 - ({w^*}, {x^*}_i) + {b^*}\\ [({\mathit{\boldsymbol{w}}^*}, x_{_i}^{^*}) + {b^*}] \ge 0\\ i = 1, 2, \cdots, L \end{array} \right. $ (4)

根据文献[13]可求得$ \mathit{\boldsymbol{w}}, {\mathit{\boldsymbol{w}}^*}, b, {b^*} $,即可得到结合3维特权信息的新的分类器SVM+。

1.4 特权信息的优越性

文献[14]指出机器学习中的期望误差$ R\left( f \right) $满足

$ R\left( f \right) \le {R_n}\left( f \right) + {\rm{O}}\left( {{{\left( {\frac{{{{\left| F \right|}_{{\rm{VC}}}}-{\rm{ln}}\delta }}{n}} \right)}^\alpha }} \right) $ (5)

式中,|F|VC是函数集F的VC维 (Vapnik-Chervonenkis dimension), VC维反映了函数集的学习能力,VC维越大则学习机器越复杂 (容量越大)。$n $是训练样本的长度,${R_n}\left( f \right) $是训练误差,$ \frac{1}{2} \le \alpha \le 1 $

对于困难的识别情况,指数$ \alpha = \frac{1}{2} $此时机器学习比较慢速O ($ {n^{-1}} $);而对于容易的识别情况,即机器学习过程中训练误差为零,此时指数α=1,机器学习变得很快速O ($ {n^{-1}} $)。这两者之间的速度差异是巨大的:达到一样的学习效果,O ($ {n^{-\frac{1}{2}}} $) 需要106长度的训练样本,而O ($ {n^{-1}} $) 只需要103长度。因此引入优秀的“教师”辅助,可以将学习速度从O ($ {n^{-\frac{1}{2}}} $) 提升到O ($ {n^{-1}} $)。

SVM+动作识别分类器中,将较难实时获得的3维信息作为特权信息引入训练样本中,而测试样本中是相对较易获取的2维信息。相对传统2维特征分类学习,3维信息自身鲁棒性较好,提升学习速度的同时也提升了人体动作识别准确率。相对3维特征分类学习,作为特权信息引入只出现在训练样本中,无需实时采集3维数据,扩大了3维识别的应用范围。

2 实验

2.1 实验数据

为了验证本文方法的鲁棒性,选取UTKinect-Action[7]和Florence3D-Action[15]两个人体动作数据集进行实验。

UTKinect-Action数据集,是由静置的Kinect传感器捕捉的一系列人体动作序列。该数据集包括10个日常人体动作:行走、坐下、起立、捡起、搬运、扔、拉、推、挥手、鼓掌。由10个人分别执行10个不同的动作,每个人每个动作重复两次,合计199个动作序列 (1位动作执行者搬运动作只执行了一次)。

在10个动作中,“行走”和“搬运”,“起立”与“捡起”,“扔”和“推”动作之间都有高度的相似性,且“推”和“拉”等动作持续的时间很短,因此UTKinect-Action数据集是一个具有较高挑战性的人体动作数据集。

该数据集提供了3种格式的数据:RGB图片、深度信息图以及20个骨骼关节位置数据。图 2展示了10个动作序列中的一帧RGB图片及其对应的深度图。

图 2 UTKinect-Action数据集RGB图和深度图
Fig. 2 RGB images and depth images of UTKinect-Action dataset
((a) walk; (b) stand up; (c) sitdown; (d) pick up; (e) carry; (f) throw; (g) push; (h) pull; (i) wave hands; (j) clap hands)

Florence3D-Action数据集,也是由静置的Kinect传感器捕捉的一系列动作序列。该数据集包括9个动作:挥手、喝水、接电话、拍手、系鞋带、坐下、起立、看手表、鞠躬。由10个人分别执行9个不同的动作,每个人每个动作重复23次,合计215个动作序列。

除了有较高相似度的动作外,与UTKinect-Action不同的是,Florence3D-Action数据集在动作捕捉过程中动作执行者会分左、右手依次执行同一个动作,无疑增加了识别难度。

该数据集同样提供了两种格式的数据:avi视频序列 (一个动作对应一个视频段) 和15个骨骼关节位置数据。图 3展示了其中不同动作执行者、不同动作的RGB图。

图 3 Florence3D-Action数据集RGB图
Fig. 3 RGB images of Florence3D-Action dataset
((a) wave; (b) drink; (c) lace)

2.2 实验过程

2.2.1 实验数据预处理

本文的3维特权信息,即人体动作的3维深度特征通过提取数据集中的骨骼关节位置数据,用李群算法[8]获得。李群特征提取算法不以单个骨架关节点或关节角度出发,考虑到不同人体部位之间均可通过旋转和平移实现重合,算法通过成对的人体部位之间的相对位置合集,在李群空间上绘制动作序列曲线,并在李群代数上求解得到人体动作序列的特征。

对于2维特征,对两个数据集分别用3种方法提取。

MoSIFT (motion SIFT)[16]算法将空间维度和时间维度分开考虑,由时空兴趣点检测子和时空兴趣点描述子组成,独立地提取局部外观和运动信息并分别进行显示编码。

MBH (motion boundary histograms)[5]算法用密集轨迹来描述视频内容,并用运动边界直方图来描述密集光流特征。该算法还提取了包括MBH、HOG (histogram of oriented gradient)、HOF (histogram of flow) 等的混合底层特征 (本文用COM (combine) 特征表示)。

2维特征提取具体过程如下:

1) 对于UTKinect-Action数据集,将其RGB图片数据,合成avi格式的视频序列 (一个动作对应一个视频段)。

2) 分别提取MoSIFT、MBH、COM对应的人体动作序列2维原始底层特征。

3) 采用基于核密度估计 (KDE) 的特征选择算法对上述底层特征进行降维。

4) 字典学习,将训练样本集中的数据进行聚类,每个聚类中心作为一个单词构成字典。具体的训练样本集设置见2.2.2节。

5) 基于预先学习出的“字典”,对降维后的特征进行稀疏编码,生成稀疏向量。

6) 使用最大值合并算法,得到稀疏向量的全局统计特性,最终用一个视频集特征代表一个人体动作序列。

得到数据集基本的2维和3维特征后,采用与文献[17]类似方法,采用PCA (principal component analysis) 算法将特征长度统一到100维。

分别采用Mosift、MBH、COM 3种2维基础特征作为数据集的训练和测试特征,用李群方法得到的3维深度特征作为特权信息,在训练过程中“辅助”学习得到新的分类器SVM+。

2.2.2 实验设置

对于UTKinect-Action数据集,参照文献[18]的测试设置,并在其基础上增添验证样本数据集。实验过程中,将199个UTKinect-Action数据样本,随机分为100个验证/训练样本集和99个测试样本集。在100个验证/训练样本集中20个为验证样本,选取4080范围内的不同长度训练样本集分别实验得到结果。

对于Florence3D-Action数据集,也采用类似的测试设置。

本文分类器统一采用非线性高斯核模式。

2.2.3 一对多分类

图 1所示,在结合3维特权信息的支持向量机学习过程中,分类采用一对多模式。

将训练集中的动作类别1对应数据作为正集,剩余的类别2, 3, …, k (k为人体为动作类别长度) 作为负集构造SVM+1,动作类别2对应数据作为正集,剩余的类别1, 3, …, $ k $作为负集构造SVM+2,依次得到$ k $个新的结合特权信息的分类器。

在测试集中,对于待识别的人体动作,通过上述得到的$ k $个新的分类器,分别得到测试结果$ f({x_l}, f\left( {{x_2}} \right), \cdots, f({x_k}) $$ f $的值越大说明待识别的人体动作在该分类其中与正集样本的匹配度越高,选取其中的最大值对应标签作为测试数据的结果。

2.2.4 分类器最优参数求解

为得到最优识别结果,实验过程中学习了分类器的最优参数。在实验过程中,通过合理设定SVM和SVM+的参数搜索范围,在验证样本数据集上自动学习得到最优参数,本文所示结果均取自最优参数下的识别结果。

2.3 实验结果分析

SVM对应的是在训练和测试数据中都采用2维特征得到的识别率,经验证样本求得最优参数后的结果。SVM+对应本文方法,将3维特征作为特权信息用于训练样本,测试样本维持不变。

表 1为UTKinect-Action数据集采用不同特征提取方法的SVM和SVM+分类准确率。结果来自20个验证样本集,80个训练样本集,99个测试样本集的实验配置。下面将从不同视角分析实验数据:

表 1 本文方法在UTKinect-Action数据集上的识别结果
Table 1 The recognition performance of the proposed method in UTKinect-Action database

下载CSV
字典长度 Mosift 2维特征 MBH 2维特征 COM 2维特征
SVM 本文方法 SVM 本文方法 SVM 本文方法
500 0.444 4 0.464 7 0.757 6 0.808 1 0.767 7 0.787 9
1 000 0.535 4 0.535 4 0.737 4 0.828 3 0.808 1 0.838 4
2 000 0.555 6 0.555 6 0.798 0 0.818 2 0.818 2 0.818 2

2.3.1 字典长度分析

从上述实验结果来看,字典学习中的字典大小对识别率呈现先上升后趋于稳定 (或下降) 的趋势。在一定范围内,采用字典的单词个数越多,特征的描述越全面详尽,有助于提升识别结果。但随着字典数目的不断增加,计算时间也不断加大。所以选择合适的字典大小不仅可以保证算法的性能,还能节约时间损耗。

2.3.2 特征提取方法分析

对于UTKinect-Action数据集,从表 1中可以看到Mosift特征的识别率较低,MBH较高,COM最好。原因在于Mosift特征提取方法在空间维度中采用SIFT算法检测运动特征显著的兴趣点,在时间维度上采用光流检测法获取兴趣点的运动信息,组合得到Mosift特征。而MBH特征提取方法在空间维度上采用密集轨迹线检测兴趣点,相较SIFT算法兴趣点检测覆盖范围上更全面,在时间维度上用运动边界直方图获取运动信息,弥补了Mosift方法在运动轨迹边界问题上的不足,因此MBH方法提取的特征更为全面,从实验室数据上也可以看到提高效果显著,有0.250.3的大幅度提升。

COM特征是除了MBH特征外,结合HOG、HOF等特征得到的混合特征。HOG和HOF局部特征采用的是Laptev[15]提出的时空兴趣点检测算法,3个特征结合以后可以相互弥补不足,COM特征识别结果高于MBH特征。

2.3.3 分类器效果分析

表 1中可以看到相同的条件下SVM+的分类准确率都要高于SVM,少数维持不变,验证了3维特权信息的引入确实起到了辅助作用,帮助提升分类准确率。

对于UTKinect-Action数据集,文献[8]采用李群特征在SVM下的识别结果为97.08%,说明特权信息自身鲁棒性很好。从表 1看到2维特征引入特权信息后,识别率有2%的平均提升,最高达到9%。验证了本文结合3维特权信息人体动作识别方法的有效性和鲁棒性。

2.3.4 训练样本长度分析

实验过程中,将199个UTKinect-Action数据样本,在随机分为100个验证/测试样本集和99个训练样本集。

进一步地,以UTKinect-Action数据集采用500个单词的字典长度、MBH特征为例,比较不同训练样本集长度在不用分类器下对识别结果准确率的影响。该数据集共199个样本,实验分别设置40/50/60/70/80个训练样本集,20个验证样本集,99个测试样本集,得到的识别结果如图 4(a)所示。

图 4 识别结果对比
Fig. 4 The comparison of the accuracies
((a) UTKinect-Action dataset (500 words, MBH); (b) Florence3D-Action dataset (1 000words, COM))

从实验结果可以看到,随着训练样本集长度的增大,两种分类器下的识别准确率都呈现上升趋势,可以看到本文结合特权信息的SVM+分类器表现一直优于经典的SVM,证实了SVM+的可行性。

在Florence3D-Action数据集上也做了相同的实验,采用1 000个单词的字典长度、COM特征为例,得到图 4(b)所示相似的结果,随着训练样本长度的增大,两种分类器下的识别准确率都呈现上升趋势,整个过程也验证了SVM+分类器的优越性。

2.3.5 最优参数分析

在非线性的SVM和SVM+分类中,都会涉及参数C和gamma的设置。如2.2.4节所述,验证样本的目的就是求解最优参数C和gamma。

以UTKinect-Action数据集采用1 000个单词的字典长度、COM特征为例,得到在不同参数下的识别结果对比如图 5所示。

图 5 UTKinect-Action数据集
(1 000字典长度,MBH特征) 识别结果
Fig. 5 The accuracies on the UTKinect-Action
dataset (1 000 words, MBH)((a) SVM; (b) SVM+)

图 5(a)可以看到,该组实验下SVM识别结果随着参数C和gamma的变化波动较大,在变化过程中可以取得最优识别结果,也就是本实验中通过验证样本得到的最优参数C和gamma。

而从图 5(b)可以看出,在更大范围内 (黄色区域),参数C和gamma对于SVM+分类器结果的影响很小,识别结果处于平稳状态,说明本文的SVM+对参数较SVM不敏感,自身鲁棒性较好。本文所有的实验结果均在最优参数下得到。

通过对不同特征,不同字典长度的特征数据实验得到,SVM+表现为对参数较SVM不敏感。特权信息的引入,除了可以提升识别结果准确率之外,还削减了分类器对参数的敏感性,增加了算法的鲁棒性。

2.3.6 混淆矩阵分析

单独地对每个动作的识别率进行分析,图 6(a)为UTKinect-Action数据集的500个单词字典长度,COM特征在SVM分类器下得到的混淆矩阵,图 6(b)为相同特征在本文的SVM+分类器下得到的混淆矩阵。

图 6 UTKinect-Action数据集
(500字典长度,COM特征) 的混淆矩阵
Fig. 6 The confuse matrixs on the UTKinect-Action
dataset (500 words, COM)((a) SVM; (b) SVM+)

图 6(a)可以看到,较易混淆的动作相似度高。UTKinect-Action数据集中的“行走”和“搬运”,因“搬运”过程包含了“行走”过程,检测到的运动过程中兴趣点和运动信息相似度高,“行走”动作被误判为“搬运”的几率高达45%。动作“推”和“扔”类似原理。

图 6(b)可以看到,特权信息的引入弱化了原本训练样本中噪声较大样本的权重,在SVM分类器下混淆程度最高的行走动作正确识别率从52%提升到61%,“行走”动作被误判为“搬运”的几率下降到39%,显示了特权信息引入后的明显效果,提高了算法的鲁棒性。

3 结论

人体运动主要体现在关节位置的移动变换,利用传统的2维特征提取方法,很难从视频中准确地捕获出人体的关节点位置,因此识别率有一定上限。采用深度信息的3维特征提取虽然能提升识别率,但高维空间运算复杂度高,很难实现实时识别,受应用场景限制。

将3维特征作为特权信息用于训练样本,学习出新的分类器SVM+进行人体动作识别,较好地解决了上述难题。从两个数据集的实验结果可以看到,本文提出的基于3维特权信息SVM+方法优于经典SVM,在提升识别准确率的同时,也降低了分类器对参数的敏感性,很好地验证了特权信息的有效性。由于本文方法在测试过程中不需提取3维特征信息,具有更广泛的应用场合。例如,仅利用道路已有的2维监控设备,就可实时对2维视频中捕获的偷窃,暴力等犯罪行为进行自动识别和及时预警。本文实验采用的两个数据集样本数量较少,因此后期工作将集中于得到更完善的3维特权信息SVM+模型,一方面采集更完整更全面的3维动作信息,另一方面挖掘更合适的2维特征和3维特权特征,以获得鲁棒性更好的SVM+模型。

参考文献

  • [1] Carlsson S, Sullivan J. Action recognition by shape matching to key frames//Proceedings of the 2001 IEEE Computer Society Workshop on Models versus Exemplars in Computer Vision. New York, USA:IEEE, 2001:18.
  • [2] Efros A A, Berg A C, Mori G, et al. Recognizing action at a distance//Proceedings of the 9th IEEE International Conference on Computer Vision. Nice, France:IEEE, 2003, 2:726-733.[DOI: 10.1109/ICCV.2003.1238420]
  • [3] Denman S, Fookes C, Sridharan S. Improved simultaneous computation of motion detection and optical flow for object tracking//Proceedings of the 2009 Digital Image Computing:Techniques and Applications. Melbourne, VIC:IEEE, 2009:175-182.[DOI: 10.1109/DICTA.2009.35]
  • [4] Lowe D G. Distinctive image features from scale-invariantkeypoints. International Journal of Computer Vision, 2004, 60(2):91-110.[DOI: 10.1023/B:VISI.0000029664.99615.94]
  • [5] Wang H, Kläser A, Schmid C, et al. Dense trajectories and motion boundary descriptors for action recognition[J]. International Journal of Computer Vision, 2013, 103(1): 60–79. [DOI:10.1007/s11263-012-0594-8]
  • [6] Shotton J, Fitzgibbon A, Cook M, et al. Real-time human pose recognition in parts from single depth images//Proceedings of 2011 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI:IEEE, 2011:1297-1304.[DOI: 10.1109/CVPR.2011.5995316]
  • [7] Xia L, Chen CC, Aggarwal J K. View invariant human action recognition using histograms of 3D joints//Proceedings of the 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. Providence, RI:IEEE, 2012:20-27.[DOI: 10.1109/CVPRW.2012.6239233]
  • [8] Vemulapalli R, Arrate F, Chellappa R. Human action recognition by representing 3D skeletons as points in a Lie group//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH:IEEE, 2014:588-595.[DOI: 10.1109/CVPR.2014.82]
  • [9] Wang J, Zheng H C. View-robust action recognition based on temporal self-similarities and dynamic time warping//Proceedings of the 2012 IEEE International Conference on Computer Science and Automation Engineering. Zhangjiajie, China:IEEE, 2012:498-502.[DOI: 10.1109/CSAE.2012.6272822]
  • [10] Schuldt C, Laptev I, Caputo B. Recognizing human actions:a local SVM approach//Proceedings of the 17th International Conference on Pattern Recognition. Cambridge:IEEE, 2004:32-36.[DOI: 10.1109/ICPR.2004.1334462]
  • [11] Simon T, Nguyen M H, De La Torre F, et al. Action unit detection with segment-based SVMs//Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, CA, USA:IEEE, 2010:2737-2744.[DOI: 10.1109/CVPR.2010.5539998]
  • [12] Wang M Y, Zhang C L, Song Y. An improved multiple instance learning algorithm for object extraction//Proceedings of the 2010 Chinese Conference on Pattern Recognition. Chongqing, China:IEEE, 2010:1-5.[DOI: 10.1109/CCPR.2010.5659221]
  • [13] Pechyony D, Vapnik V. Fast optimization algorithms for solving SVM+//Summa M G, Bottou L, Goldfarb B, et al. Statistical Learning and Data Science. Boca Raton, FL:Chapman and Hall, 2011.
  • [14] Vapnik V N. Statistical Learning Theory. New York:Wiley, 1998:156-178.
  • [15] Seidenari L, Varano V, Berretti S, et al. Recognizing actions from depth cameras as weakly aligned multi-part bag-of-poses//Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Portland, OR:IEEE, 2013:479-485.[DOI: 10.1109/CVPRW.2013.77]
  • [16] Chen M Y, Hauptmann A.MoSIFT:Recognizing human actions in surveillance videos, CMU-CS-09-161. Pittsburgh, PA:Carnegie Mellon University, 2009.
  • [17] Li W, Dai D X, Tan M K, et al. Fast algorithms for linear and kernel SVM+//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA:IEEE, 2016:2258-2266.[DOI: 10.1109/CVPR.2016.248]
  • [18] Zhu Y, Chen W B, Guo G D. Fusing spatiotemporal features and joints for 3D action recognition//Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Portland, OR:IEEE, 2013:486-491.[DOI: 10.1109/CVPRW.2013.78]