网刊加载中。。。

论文引用格式：Shi H Y， Hou Z J， Chao X and Zhong Z K. 2023. Multimodal spatial-temporal feature representation and its application in action recognition. Journal of Image and Graphics， 28（04）：1041-1055（引用格式:施海勇，侯振杰，巢新，钟卓锟. 2023. 多模态时空特征表示及其在行为识别中的应用. 中国图象图形学报， 28（04）：1041-1055）［0　引言人体行为动作识别研究在计算机视觉与模式识别领域具有相当高的热度，并且在这个方向的研究成果具有很高的应用价值和广阔的发展前景，主要应用在辅助人机交互（Gong和Wu，2021）、运动分析（Liu和Che，2021）、智能监控（Maurice等，2019；马钰锡等，2019；Mudgal等，2021）和虚拟现实（Hirota和Komuro，2021）等领域。早期的行为识别领域的研究主要是对使用RGB相机在2维信息下获取的RGB图像序列进行行为识别（Bian等，2012；李瑞峰等，2014）。目前，对于RGB图像序列已有多种特征描述子来表征人体行为。Mahjoub和Atri（2016）提出方向梯度直方图（histogram of oriented gradient，HOG）和光流直方图（histogram of optical flow，HOF）。何嘉宇等人（2021）构建3维特征金字塔提升对持续时间短的片段的检测能力，提出一种在提案网络后接分类器的新型网络。由于RGB图像都是2维信息下对象的行为图像序列，且环境光的变化对RGB图像记录动作序列的准确性有影响，为了弥补RGB图像序列在记录行为信息时的缺陷，有学者开始利用图像深度特性对环境光不敏感的特点，将图像的深度信息与RGB图像的特性结合起来对行为进行描述。Oreifej和Liu（2013）提出将图像空间结构信息在4维表面法向量方向直方图（histogram of oriented 4D normals，HON4D）中保存。刘婷婷等人（2019）将深度运动图和运动历史图应用到点云数据中，提出了一种将运动历史点云旋转后生成多视角深度运动图的人体行为识别算法。Ren等人（2020）提出了一个用于多模态学习的单一双流ConvNets（convolutional networks）框架，通过RGB和深度流提取特征。其中运动历史图中图像的亮度随着时间变化，将目标运动情况以图像亮度的形式表现出来，由于运动历史图只利用了运动对象正面视角的变化情况，不足以完整表达一个3维空间中的人体行为变化。旋转后的多视角图像是通过计算得到的，然而并不是真正的多视角。Yang等人（2012）运用深度运动图（depth motion map，DMM）来表征人体行为，将深度图向3个正交的笛卡儿平面投影，获得3个视角的投影图分别形成前视图、侧视图和俯视图的深度运动图，以此获得在时间上聚集的相对运动能量。这些方法都是通过对深度投影图进行差分、叠加等不同方式后再提取出深度图像的特征。对深度图像差分可以获得对行为运动变化敏感部位的信息，通过叠加可以对信息进行整合。虽然对局部信息的叠加可以丰富整个运动的变化情况，具有一定的鲁棒性，但是叠加后导致一些局部的运动变化被覆盖，最后的呈现效果偏向于后加入的动作无法对每个时刻动作的变化给出全局性的描述。对于骨骼点序列，胡珂杰等人（2018）提出基于混合关节的行为识别。Sun等人（2022）提出了一个实时3维动作识别框架，使用局部聚集运动学指导的骨架子（locally aggregated kinematic-guided skeletonlet，LAKS）与监督下的散列分析（supervised hashing-by-analysis，SHA）模型实现分类。刘庭煜等人（2020）将人体骨架数据合成人体行为的时空特征RGB图像，使用神经网络模型进行识别。深度图能够将动作执行者身体形状变化的运动信息提供给研究者，但是深度图中存在的一些冗余的深度数据给设计高效的特征提取算法带来挑战。Liu等人（2013）提出从视频序列的每一帧中提取一个金字塔运动特征（pyramidal motion feature，PMF），结合光流和生物启发特征来检测兴趣点，然后应用AdaBoost（adaptive boosting）学习算法从一个大的特征池中选择最有鉴别能力的帧组成新的序列。Xu等人（2019）提出一种从骨骼图序列中提取关键信息的方法，利用互信息（mutual information，MI）来判别相邻2帧骨骼图的相似度，提取最有判别力的帧组成新的序列。Wang等人（2018）通过计算每一帧的信息熵（information entropy，IE），选择熵较小的帧组成新的序列。其中，由于骨骼关节点的位置只有在人正向面对摄像机的时候才能准确估计出来，非直立动作不能给摄像机带来完整身形，导致得到的关节点的位置出现缺失或标记错误，使得互信息对骨骼相似帧的描述存在较大误差。以上方法在计算相似度的时候使用了全局信息，导致在行为中非活跃的部分在评估相似的时候也占有相当的比重，对评估结果有影响，同时，在计算相似度的时候没有考虑活跃部位空间分布的变化。针对差分叠加后局部信息丢失的问题，本文利用质心的变化表示图像中行为运动的变化，使差分后得到的运动活跃部分变化的信息能全部参与对运动变化情况全局性的描述，通过对图像进行投影，生成多视角的质心运动图。基本思路如下：首先由深度图序列生成深度运动图对运动进行表示。接着利用深度运动图多视角的特点，获得不同视角下运动活跃部分质心运动信息。针对深度图在计算相似度去冗余时非活跃部分占比大以及没有考虑活跃部位空间分布变化的问题，提出一种减少深度图序列中重复帧和冗余帧的算法，降低资源消耗，提升算法效率。本文基于2个模态信息提取3种不同的人体动作特征。1）基于深度图像信息提取质心运动特征，具有良好的时间和空间特性；2）基于骨骼图信息建立面向骨骼数据的空间几何人体模型，取得组成人体和空间平面方向变化特征，具有良好的全局运动方向描述能力；3）基于骨骼图信息提取运动参与度高的上肢运动方向特征，具有良好的运动敏感性。1　本文方法总体框架本文方法总体框架如图1所示。总体框架包含两个流，即时空特征流和空间特征流。在时空特征流部分，分别从深度序列和骨架序列中提取时间特征和空间特征，并进行特征级融合生成时空特征向量；然后将时空特征向量输入分类网络计算预测分数。在空间特征流部分，将骨架序列构建三通道空间特征图，并输入卷积层提取空间特征；然后将特征向量输入分类网络计算预测分数。最后将两个流的预测分数通过决策级融合生成最终的预测分数进行分类。10.11834/jig.211217.F001图1本文方法总体框架Fig.1General framework of the methodology in this paper2　质心运动路径松弛算法由于采样时的一些客观因素（肢体动作变化平缓、采集设备曝光速度快等），导致采集到的深度图序列中存在很多相似帧或同一类动作在相同采集时间内完成的帧数不同。这些相似帧对深度图像特征提取没有帮助，反而会增加提取特征的时间复杂度和特征向量的空间复杂度。因此，本文提出一种质心运动路径松弛算法，减少深度图序列中的重复帧和冗余帧。首先，运用质心的位置来确定图像帧的状态，并根据质心运动的距离计算相似系数，以深度图序列中的动作帧为节点，相似系数为权值获得一条质心运动路径链。然后，通过相似系数定位到相似帧并通过松弛算法缩短运动路径链，将其删除，得到描述运动过程的质心序列。通过剔除深度图序列中一些相似度较高的帧，保留一部分足以描述完整动作序列的关键帧，降低特征向量的空间复杂度并提升算法效率。人体的质量分布是不均的，躯干部分占的比重大，四肢部分占的比重小。为了直观展现出人体表面在每一帧图像中的分布，根据深度图像的特性，将深度图中的像素点的值通过标准化映射获得阶梯状的深度信息分布图。深度信息分布图的可视化结果如图2所示。图2（a）为人体的轮廓图，图2（b）为深度信息分布图。在图2（b）中，像素值经过映射，人体的颜色呈阶梯状分布的灰色。人体深度大的部分，颜色较深，反之则表现为颜色较浅。10.11834/jig.211217.F002图2深度图像像素值阶梯化Fig.2Depth image pixel value laddering （（a） original map；（b） depth information distribution map）深度图的像素值进行标准化映射的具体计算为Gx,y=Ix,y-Imin+1Imax-Imin+1×255Ix,y00Ix,y=0 （1）式中，x、y分别表示图像的行坐标和列坐标。Imax、Imin分别表示深度图像中的人体深度信息的最大值和最小值，Gx,y表示经过映射后的深度信息分布图。在一个动作序列中，身形和肢体动作的变化会导致映射在深度信息分布图中的人体深度信息分布发生变化，同时图像的质心坐标也会随之变化，因此通过图像相邻帧差分后，活跃部分的质心坐标的变化反映了图像运动状态的变化。质心坐标(xt',yt')具体计算为xt'=∑x=0Ht∑y=0WtxGx,y,t∑x=0Ht∑y=0WtGx,y,t （2）yt'=∑y=0Wt∑x=0HtyGx,y,t∑x=0Ht∑y=0WtGx,y,t （3）式中，Wt、Ht分别表示第t帧图像的宽度和高度。质心的运动信息如图3所示。10.11834/jig.211217.F003图3质心运动信息Fig.3Centroid motion information通过质心坐标公式的计算，将深度信息分布图序列转换为质心坐标序列。通过质心坐标序列，计算出质心在每一帧的时间内运动的距离，形成完整质心运动路径。质心距离计算为Dt=(xt'-yt-1')2+(yt'-yt-1')2 （4）式中，Dt为第t帧与第t -1帧质心的距离。通过质心之间的距离，得到相邻两帧的相似系数SC（similarity coefficient），评价两帧图像之间的相似程度，具体计算为SCt=e-Dt （5）式中，SCt为第t帧与第t -1帧图像的相似系数。相似系数越大，表明两帧相似程度越高；反之，表明两帧相似程度越低。遍历相似系数序列，获得最大相似系数SCmax。如果SCt-1,t×SCt,t+2SCt-1,t+1×SCt+1,t+2，对运动路径t-1→t→t+1执行松弛操作，删除第t帧，计算t-1与t+1帧的相似系数。否则，对运动路径t→t+1→t+2执行松弛操作，删除第t+1帧，计算t与t + 2帧的相似系数。松弛操作就是将运动路径a→b→c→d中的b→c删除，根据删除的规则，更新为a→c→d或者a→b→d。质心运动路径松弛的具体步骤如图4所示。10.11834/jig.211217.F004图4质心运动路径松弛流程图Fig.4Relaxation flow chart of the centroid motion path质心运动路径松弛算法的处理过程如下：输入：原深度图序列。输出：去冗余后的深度图序列。WHILE currentframes remainframes DO，遍历相似系数序列查找最大的相似系数；IF SCt-1，t × SCt，t+2 SCt-1，t+1 × SCt+1，t+2 THEN，删除第t帧；ELSE；删除第t+1帧；END；更新相似系数序列；currentframes ← currentframes–1；END。3　特征提取3.1　质心运动特征将人体深度信息分布图向3个正交的笛卡儿平面投影生成3个视角的2D投影图。获得投影后生成的前视图、侧视图和俯视图，将投影图差分叠加后得到运动活跃部分，分别用mapf，maps，mapt表示。投影图的可视化效果如图5所示。10.11834/jig.211217.F005图5深度信息分布投影图可视化Fig.5Depth information distribution projection map visualization使用质心计算公式，每一个方向上的深度信息投影图可以得到一个2维的质心坐标。由于经过投影的深度信息分布图是2维的，为了保留质心的空间特点，通过对垂直投影方向坐标轴的值补0得到3维的质心坐标。从3个平面的投影图中可以得到x,y,0，0,y,z，x,0,z 3个质心坐标，分别表示为fCf，fCs，fCt，具体计算为fCf=Centroid(mapf(k))fCs=Centroid(maps(k))fCt=Centroid(mapt(k)) （6）式中，Centroid(⋅)为质心计算函数，返回质心坐标x',y',z'。fCf，fCs，fCt分别表示前视图、侧视图和俯视图的质心坐标。对各个方向的投影图的坐标按时序拼接成各个投影视角的质心坐标序列。对于N帧的人体深度信息分布图序列，质心序列计算为Cf=fCf1,⋯,fCfNCs=fCs1,⋯,fCsNCt=fCt1,⋯,fCtN （7）式中，N为人体深度信息分布图序列的帧数，Cf，Cs，Ct分别表示前视图、侧视图和俯视图的质心坐标序列。将3个视角的质心序列拼接形成质心运动路径特征FC，具体计算为FC=Cf CsCt （8）其中，“ ”表示向量拼接。由于相机到人体的距离有差异，不同受试人的身高也有差异，因此获得的坐标点的x，y，z值不能直接作为质心坐标值，需要对其进行归一化。通过对坐标值的归一化，能够极大地减少客观原因造成的差异。具体为Xnorm=X-StopSdown-Stop （9）Ynorm=Y-SleftSright-Sleft （10）式中，X为投影面纵坐标的值，Y为投影面横坐标的值，Stop和Sdown分别为人体轮廓在纵坐标的最小值和最大值，Sleft和Sright分别为人体轮廓在横坐标的最小值和最大值。3.2　全局运动方向特征在许多使用骨骼图的人体行为识别研究中，过多强调运动主体在运动时肢体的协同性，忽略了在整体运动过程中局部肢体动作的变化。针对这一问题，本文提出了一种在考虑人体行为整体协同运动时保留局部肢体动作的运动特性的行为特征表示方式，用空间几何平面图形组成骨骼图形的四肢和躯体，形成空间几何平面人体模型。空间几何人体模型综合考虑了肢体的主要关节点的局部肢体动作，通过对模型中四肢和躯体中的几何平面图形在空间中方向的变化，形成一个新的向量来表示人体行为的整体运动特征。人体骨骼点图如图6所示。10.11834/jig.211217.F006图6人体骨骼点图Fig.6Human skeleton point graph在人体骨骼关节点位置信息方面，使用空间平面几何图形来构建人体骨骼模型。该方法的基本思路是将人体局部肢体动作用空间平面几何图形来表示，并构建一个人体骨骼模型，能够捕捉行为运动中局部动作的变化情况，并通过关键节点结合图形面积的联动变化来突出人体运动的整体性和协同性。使用空间平面几何图形构建的人体骨骼模型如图7所示。10.11834/jig.211217.F007图7空间几何平面人体骨骼模型构建过程Fig.7Space geometry plane human skeleton model construction process3维空间中方向的变化，从相邻的3个骨骼点获得法线向量，通过法线方向的变化来表示局部肢体运动方向的变化。同时，法线模长反映3个骨骼点组成的三角形面积，通过三角形面积的变化程度可以反映局部肢体运动的剧烈程度。为了使人体骨骼点表示的空间结构信息更全面，本文将相邻的3个结点组合表示，使用三角形作为构建人体骨骼模型的几何图形，选取18个关键节点组成人体骨骼模型。如图7所示，使用骨骼图进行人体行为识别，当一个肢体动作发生时，该动作的关键节点以及节点的邻接点在空间中组成的平面的方向向量会发生变化。对于右手腕节点作为关键节点所在的空间几何平面的方向向量计算为nRW(i)=(RW-RE)×(RW-RH) （11）式中，nRW为右手腕节点所在平面的法线方向向量，i∈[1,18]为节点的编号，RW（right wrist）表示右手腕，RE（right elbow）和RH（right hand）分别表示相邻节点的右手肘和右手。RE，RW，RH分别表示以右手肘节点、右手腕节点和右手节点为终点的方向向量。对各个空间平面的方向向量拼接得到在第k帧行为运动中肢体全局的方向向量变化特征，具体计算为Normk=n1,⋯,n18 （12）完整动作的方向向量的具体计算为FNorm=Norm1,⋯,NormN （13）式中，N为动作的帧数，FNorm表征一个完整动作的全局运动方向特征。法向量计算过程如图8所示。10.11834/jig.211217.F008图8法向量计算过程图Fig.8Calculation process of normal vector3.3　上肢运动方向特征在人体行为运动中，不同部位在整个行为运动中的活跃程度不一样，其中四肢在所有行为运动中的参与程度最高，因此四肢的运动是在空间和时间上具有显著局部肢体动作变化的点。以上肢运动为例，当人体的上肢参与运动时，处于上肢末端的左手和右手关节点对上肢的变化最敏感，因此通过获取手关节点运动方向的变化可以完成对多数需要上肢高度参与的行为的特征提取。对于一个N帧的骨骼点坐标序列，可以从中提取到左手运动的N-1个方向向量和右手运动的N-1个方向向量。手关节点运动的方向向量的具体计算为MLH(t)=LH(t)-LH(t-1) （14）MRH(t)=RH(t)-RH(t-1) （15）式中，t为动作帧时间，LH(t)和RH(t)分别表示在t时刻左手节点和右手节点为终点的方向向量。MLH(t)和MRH(t)分别表示t-1时刻到t时刻左肢和右肢运动的方向向量。左肢和右肢t时刻运动的综合方向向量M(t)可以由左肢和右肢运动的方向向量相加得到，具体为M(t)=MLHt+MRHt （16）完整动作的方向向量计算为FM=M2,⋯,MN （17）式中，N为动作的帧数，FM为表征一个完整动作的上肢运动方向特征。10.11834/jig.211217.F009图9上肢末端运动方向Fig.9Movement direction of upper limb end3.4　特征长度归一化特征维数与帧数N有关，而每个动作的帧数N又不同，导致每个行为动作的深度图像特征向量维数不同。为了避免这个问题，对特征进行Fisher处理。利用高斯混合模型的Fisher，可以将特征转换为Fisher向量。Fisher向量的大小为2fd×1。本文高斯混合模型中的f取128，d为C中质心坐标值的个数3 × 1 = 3，特征长度经过的归一化后的大小为2×128×3×1，即768×1。本文在特征融合部分采用向量拼接的方法，将从不同模态得到的特征串联起来，生成特征向量。3.5　空间结构增强由于特征向量对空间结构的表示有缺陷，导致组成人体的3维骨骼点在提取特征向量后对空间结构的表达存在不足。因此，本文根据人体骨骼点提供的3维空间坐标，构建三通道空间特征图，如图10所示，反映人体行为的空间特性。通过卷积神经网络（convolutional neural network，CNN）提取空间特征，用来弥补时空特征向量对空间结构表达的不足。10.11834/jig.211217.F010图10骨骼点坐标构建三通道空间特征图Fig.10Three-channel spatial feature diagram of bone point coordinate construction4　实验实验使用的平台为台式机，主板是微星B460M MORTAR，CPU是Intel i7 10700，主频为2.9 GHz，内存是16 GB，操作系统是Windows 10专业版。GPU资源是Tesla V100，显存是32 GB，操作系统是Ubuntu。实验用到的软件工具为Pycharm，Anaconda3。4.1　实验数据实验在公开数据库MSR-Action3D（Shotton等，2011）上进行。该数据库共包括567个动作样本，有10个样本由于骨架丢失或错误没有用于本文的实验，剩余的每个行为动作样本有对应的深度图序列和骨架序列。其中，深度图序列由类似于Kinect设备的深度传感器采集得到，每个深度图的分辨率是320×240像素。骨架序列在深度序列的基础上提取出来，每个骨架有20个关节，每个关节由4个实数描述，分别为屏幕坐标、深度值和置信度得分。数据库中的557个行为动作样本可划分为20类不同的动作，其中包括高挥手（A01）、水平挥手（A02）、投掷（A03）、右手抓（A04）、冲拳（A05）、高抛（A06）、画叉（A07）、画勾（A08）、画圈（A09）、拍手（A10）、双手上挥（A11）、侧拳（A12）、弯腰（A13）、前踢（A14）、侧踢（A15）、慢跑（A16）、网球摆（A17）、网球发球（A18）、高尔夫挥（A19）、捡起来扔（A20）。每个动作由10个受试人分别完成，每人对同一个动作完成3次。4.2　实验设置为了能与前人工作进行对比，参照Xia等人（2012）的方法将数据集中的行为分成3组，将相似度较大的动作分在同一组。数据集中的行为分为AS1，AS2，AS3这3个子集库，如表1所示。每一组样本进行3次测试。10.11834/jig.211217.T001表1各子数据集的动作类别Table 1Action categories for each sub-dataset子数据集动作类别AS1A02，A03，A05，A06，A10，A13，A18，A20AS2A01，A04，A07，A08，A09，A11，A12，A14AS3A06，A14，A15，A16，A17，A18，A19，A20设置1：包括3次测试。测试1将1/3的样本作为训练数据，剩下的样本作为测试数据；测试2将1/2的样本作为训练数据，剩下的样本作为测试数据；测试3将2/3的样本作为训练数据，剩下的样本作为测试数据。为了使提取的时空特征向量具有良好的分类特性，使用设置1对提取的时空特征向量进行测试，并与一些经典方法进行对比。设置2：将数据集中的行为在同类中按受试人编号的奇偶分成2组，对分类进行交叉验证。在测试中，将在同一个动作类中从受试人1，3，5，7，9身上采集的数据样本作为训练数据，剩下的样本作为测试数据。4.3　实验结果与分析4.3.1　分类器选择为了使提取的时空特征向量达到最理想的分类效果，将数据集中的3个子集的特征按照设置1中难度最高的测试1划分数据的方式，在不同的分类器中进行测试。将1/3的样本作为训练数据，剩下的样本作为测试数据。3个数据子集在不同分类器中的测试的识别效果如表2所示。可以看出，支持向量机和随机森林在测试数据集中的识别效果比其他两个更好。支持向量机在3个测试子项和综合识别效果上都表现出优于随机森林的分类效果。依据分类器选择的测试结果，本文采用支持向量机作为验证时空特征向量分类特性的分类器，以达到最优的识别效果。10.11834/jig.211217.T002表2不同分类器的测试识别率结果Table 2Test and recognition rate results of different classifiers分类器AS1AS2AS3综合支持向量机94.520 584.868 483.783 787.724 2K最近邻81.506 865.789 475.675 674.323 9随机森林30.136 953.289 443.918 942.448 4高斯贝叶斯21.232 829.605 237.837 829.558 6注：加粗字体表示各列最优结果。%4.3.2　质心运动路径松弛算法实验结果在对深度图像进行关键帧提取时，保留深度图像序列的第一帧和最后一帧作为基准关键帧，为关键帧算法提取关键帧提供了参照并确定了动作开始和完成的边界。在本文实验使用的数据库中，为数据采集提供帮助的受试人的体型相似，而在现实世界中，人的体型具有差异性，在体型划分上主要有高、矮、胖、瘦等不同体型。为使实验的泛化能力更强，在实验中使用的数据避免直接使用采集到的数值，在实验进行前对数据进行归一化。通过对数据的归一化，避免同一个动作由不同人完成导致采集到的数据波动过大。图11（a）（b）分别为受试人02与受试人03在完成高挥手（A01）时的动作序列经相邻帧差分叠加后的图像。在高挥手（A01）动作中，由于不同的受试人对完成实验动作过程的差异性，导致在挥手动作中不同的人在空中挥手的次数不一致。在图11中可以发现，由于不同的受试人在完成动作时挥手的次数不一致，挥手次数多的受试人在差分叠加图的右上角出现的手更多更密集，这也导致在采集数据时，从受试人03采集到的动作序列帧多于完成同样动作的受试人02。10.11834/jig.211217.F011图11不同受试人的差分叠加图Fig.11Differential superimposed plots for different subjects（（a） subject 02；（b） subject 03）为了验证从完整动作序列中保留部分足以表达动作的关键序列是否影响对动作的识别效果，将提取出的质心运动特征在以测试1为例的数据子集中进行实验。结果如图12所示。在图12中可以清楚看到，当保留的关键帧数量在25帧以下时，随着帧数的增加，识别的准确率在不断上升。每种测试的识别率的峰值都出现在25～50之间。在MSR-Action3D数据库中，动作序列的最高帧为76帧，最低帧为13帧，向下取整后均值为40帧。因此设置寻找关键帧的区间为30～50帧，设置帧的步长为5，最高帧数向下取整为70帧。10.11834/jig.211217.F012图12不同帧数的准确率Fig.12Accuracy of different frame numbers图13为帧数在35～50帧区间的分类结果。对比图13中的分类结果可知，当序列长度超过50帧的时候提取关键帧，动作序列的描述效果比其他的取值更优，因此在后续实验中提取关键帧的阈值设置为50帧。10.11834/jig.211217.F013图13帧数在35～50区间的分类结果Fig.13Classification results for frames in the 35～50 range在进行关键帧提取的时候，要注意保留足够记录动作关键信息的帧数。若保留的关键帧的数量偏少，则会导致关键信息丢失，剩余帧数中的信息不足以描述一个完整的行为动作，无法从中提取出足量的特征。若保留的数量过多，则会导致关键帧中的信息冗余，提取的特征冗长，不但会增加识别的耗时，也会因为冗长的重复信息而影响关键信息的分布，造成识别率下降。合适数量的关键帧信息既能够完整表达一个多帧行为动作的完整过程，也能够降低冗余信息的影响，提升识别精度。4.3.3　骨骼点组合表示对比实验结果为了能够更好地表征人体的空间结构信息，本文将相邻的3个结点组合表示，使用三角形作为构建人体骨骼模型的几何图形。按照设置2中的交叉验证数据集划分方法，对骨骼点组合后提取的时空特征向量与未进行骨骼点组合的特征向量进行比较，结果如表3所示。可以看出，骨骼点组合表示进行识别比直接使用骨骼点进行识别的识别率提升了5.128 2%。10.11834/jig.211217.T003表3骨骼点组合与未组合实验结果Table 3Experimental results of skeleton point combination and non-combination骨骼特征识别率组合表示89.377 3未进行组合表示84.249 1注：加粗字体表示最优结果。%4.3.4　特征融合实验结果为了提高时空特征向量的鲁棒性，本文从图像和骨骼数据中提取了3种行为特征向量进行融合。为了验证通过多特征向量融合进行分类识别可以提高时空特征向量的分类效果，将3个特征信息分别融合按照设置2中的交叉验证数据集划分方法进行识别，结果如表4所示。可以看出，同时使用3个特征向量融合进行识别的时候识别率最高，可以达到89.377 3%，比使用单一特征信息和两个特征向量融合时的识别率提高至少2.564 2%。10.11834/jig.211217.T004表4不同特征向量融合后的识别率Table4Recognition rate after a fusion of different eigenvectors组合特征识别率FC74.358 9FNorm49.816 8FM60.073 3FCFNorm79.120 8FCFM86.813 1FNormFM71.428 6FCFNormFM89.377 3注：加粗字体表示最优结果。%表5为本文提取的时空特征向量与传统机器学习方法提取的特征的比较结果。表5给出了设置1中各数据子集在不同比例划分的测试集与训练集中得到的结果。可以看出，本文方法在不同的数据子集和测试方案下都有较好的分类效果。表6为本文提取的时空特征向量去冗余后与传统机器学习方法提取的特征的比较结果。表6给出了设置1中各数据子集在不同比例划分的测试集与训练集中得到的结果。去冗余后提取的特征在设置1中的识别率平均值较之前提升了0.126 1%。10.11834/jig.211217.T005表5不同方法在去冗余前的实验结果Table 5Experimental results of different methods before setting a redundancy removal方法AS1AS2AS3平均值测试1测试2测试3测试1测试2测试3测试1测试2测试3DMM-LBP（Chen等，2017）89.156 193.103 494.029 987.777 885.185 288.976 493.197 3100.00092.381 091.534 0EigenJoints（Yang和Tian,2012）94.354 896.551 274.626 995.000 098.765 476.000 097.278 996.825 496.385 591.754 2DMM-CRC（Chen等，2016）96.774 298.275 988.059 795.555 697.530 985.000 098.639 598.412 763.854 491.344 8DMM-GLAC（Chen等，2015）85.483 991.379 388.059 778.888 983.950 683.000 091.836 7100.00097.590 488.909 9STACOG（Kobayashi和Otsu，2012）78.225 581.034 595.552 468.888 974.074 183.000 077.551 090.476 287.951 881.861 6DSTEM-HOG（巢新等，2020）89.7389.9198.6380.9287.7290.7987.1688.2998.6590.200 0本文94.520 597.272 798.630 184.868 492.105 396.052 684.459 587.384 795.945 992.360 0注：加粗字体表示各列最优结果。10.11834/jig.211217.T006表6不同方法在去冗余后的实验结果Table 6Experimental results of different methods after setting a redundancy removal方法AS1AS2AS3平均值测试1测试2测试3测试1测试2测试3测试1测试2测试3DMM-LBP（Chen等，2017）89.156 193.103 494.029 987.777 885.185 288.976 493.197 3100.00092.381 091.534 0EigenJoints（Yang和Tian,2012）94.354 896.551 274.626 995.000 098.765 476.000 097.278 996.825 496.385 591.754 2DMM-CRC（Chen等，2016）96.774 298.275 988.059 795.555 697.530 985.000 098.639 598.412 763.854 491.344 8DMM-GLAC（Chen等，2015）85.483 991.379 388.059 778.888 983.950 683.000 091.836 7100.00097.590 488.909 9STACOG（Kobayashi和Otsu，2012）78.225 581.034 595.552 468.888 974.074 183.000 077.551 090.476 287.951 881.861 6DSTEM-HOG（巢新等，2020）89.7389.9198.6380.9287.7290.7987.1688.2998.6590.200 0本文94.520 597.272 7100.00084.868 493.859 694.736 883.783 887.387 495.945 992.486 1注：加粗字体表示各列最优结果。表5中各方法在各个子数据集上使用不同测试方案得到的不同结果和每种方法结果的标准差如图14所示。可以看出，DMM-LBP和DMM-CRC的测试结果分别在鲁棒性和测试案例最好结果数量中取得优势。其中，DMM-LBP在所有测试案例中的波动最小，但是在大多数情况下并没有明显优势，方法的整体表现不突出。DMM-CRC在一部分情况下取得不错的效果，但是从图14中的标准差分析中可以看出，该方法的整体波动最大，最好的情况与最坏的情况差距是所有方法中最大的，因此该方法的鲁棒性是最差的。在鲁棒性对比中，本文方法在测试案例最好结果数量和结果平均值中均优于DMM-LBP。在测试案例最好结果数量中，本文方法仅次于DMM-CRC，然而在测试案例鲁棒性和结果平均值中均优于DMM-CRC。因此，本文方法提取的时空特征向量的综合性能在所有进行比较的传统机器学习方法中是最优的。10.11834/jig.211217.F014图14不同方法在测试中的波动和标准差Fig.14Fluctuations and standard deviations of different methods in the test（（a）DMM-LBP；（b）EigenJoints；（c）DMM-CRC；（d）DMM-GLAC；（e）STACOG；（f）DSTEM-HOG；（g）ours；（h）standard deviation）4.3.5　综合实验结果表7为本文方法与当前最新方法使用数据子集中在实验设置2上的比较结果。可以看出，本文模型在MSR-Action3D数据集中取得的效果相比其他方法提升显著，在数据子集AS1和AS2中均取得比现有算法优秀的结果。10.11834/jig.211217.T007表7不同方法在数据子集上的比较结果Table 7Comparison results of different methods on data subsets方法识别率平均值AS1AS2AS3Multi-fused（Jalal等，2017）90.893.495.793.3CovP3DJ（El-Ghaish等，2018）93.4884.8294.2990.98CovMIJ（Nguyen等，2018）93.4890.1897.1493.6Joint Subset Selection（Pham等，2019）95.8691.2799.4795.533D-CNN（刘庭煜等，2020）86.4577.9188.6184.27D3D-LSTM（Yu等，2020）94.5092.9098.9095.40LAKS+SHA（Sun等，2022）---94.14本文96.190 594.642 996.396 495.743 2注：加粗字体表示各列最优结果，“-”表示数据为空。%表8为本文方法与对比方法使用完整数据集在实验设置2上进行的扩展实验比较结果。目前，使用这种方式进行验证的方法并不多。从表8可以看出，在MSR-Action3D数据集上，本文模型在扩展实验中相比对比方法在同样的数据集划分方式上取得的效果依然很好。表8　不同方法在完整数据集上的扩展实验结果Table 8　Extended experimental results of differentmethods on the complete dataset/%10.11834/jig.211217.T008方法识别率Low Latency（Cai等，2016）91.01Combination of Deep models（Keçeli等，2018）92.83D Deep CNN+40f（Singh等，2019）90Complex Network Coding（Shen和Ding, 2022）90.7本文93.040 3注：加粗字体表示最优结果。为了进一步了解本文方法的优点和不足，图15和图16给出了数据子集和完整数据集在设置2中识别结果的混淆矩阵，矩阵中的数字代表不同的预测动作在分类中对应到真实行为的比例。可以看出，本文方法在动作类的投掷（A03）、右手抓（A04）、画叉（A07）、网球发球（A18）等动作中出现错误。在动作类右手抓（A04）中，分类正确率较其他动作还有较大的提升空间；预测错误的部分主要为相似度很高的动作类投掷（A03）、画叉（A07）、画圈（A09）和侧拳（A12）。动作类画圈（A09）预测为动作类画叉（A07）、动作类右手抓（A04）预测为动作类侧拳（A12），以及动作类网球发球（A18）预测为动作类捡起来扔（A20），这3类动作的错误率在10%～20%，精度还有提升空间。10.11834/jig.211217.F015图153个子集识别结果的混淆矩阵Fig.15Confusion matrices of recognition results of three subsets （（a） AS1；（b） AS2；（c） AS3）10.11834/jig.211217.F016图16完整数据集识别结果的混淆矩阵Fig.16Confusion matrix of recognition results of complete dataset5　结论针对深度图像中数据冗余度过高的问题，提出了一种降低资源消耗、提升特征提取效率的算法，剔除了深度图像序列中相似度高的帧，使得最终的实验效果取得了一定程度的提升。本文基于图像动态部分的变化特性提取的质心运动特征、基于人体各部位在运动中的参与度不同的特性提取的人体局部显著性特征和基于人体运动协同性构建人体骨骼模型提取的全局运动特征之间具有相关性低的特点，在组合识别中具有良好的互补性。根据特征向量对空间结构特性表达不足的缺点，利用2D特征进行空间结构增强，在最终的实验效果上取得了很好的鲁棒性。未来的工作将聚焦在研究图像方面人体运动的整体性和协同性问题，从关注图像的整体变化深入到考虑人体各部分运动的协同性，在根据不同动作特点组合设计的、具有高欺骗性的动作上提升划分组合动作层次的能力。