Print

发布时间: 2022-04-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200780
2022 | Volume 27 | Number 4




    Chinagraph 2020    




  <<上一篇 




  下一篇>> 





面向人体骨骼运动数据优化的双自编码器网络
expand article info 李书杰, 朱海生, 王磊, 刘晓平
合肥工业大学计算机与信息学院,合肥 230601

摘要

目的 针对包含混合噪声的3维坐标形式的骨骼运动数据优化问题,提出一种由双向循环自编码器和卷积自编码器串联构成的优化网络,其中双向循环自编码器用于使网络输出的优化数据具有更高的位置精度,卷积自编码器用于使优化数据具有更好的平滑性。方法 首先,利用高精度动捕数据库预训练一个感知自编码器; 然后,用“噪声—高精度”数据对训练双自编码器,并在训练过程中添加隐变量约束。其中隐变量约束由预训练的感知自编码器返回,其作用在于能够使网络输出保持较高的精度并具有合理骨骼结构,使算法适用于提升运动数据的细节层次。结果 实验分别在合成噪声数据集和真实噪声数据集上进行,与最新的卷积自编码器(convolutional auto-encoder,CAE)、双向循环自编码器(bidirectional recurrent auto-encoder,BRA)以及双向循环自编码器加感知约束(BRA with perceptual constraint, BRA-P)3种深度学习方法进行比较,在位置误差、骨骼长度误差和平滑性误差3项量化指标上,本文方法的优化结果与最新的3种方法在合成噪声数据集上相比,分别提高了33.1 %、25.5 %、12.2 %; 在真实噪声数据集上分别提高了27.2 %、39.2 %、16.8 %。结论 本文提出的双自编码器优化网络综合了两种自编码器的优点, 使网络输出的优化数据具有更高的数据精度和更好的平滑性,且能够较好地保持运动数据的骨骼结构。

关键词

深度学习; 骨骼运动数据优化; 双自编码器; 隐变量约束; Kinect运动数据

Dual auto-encoder network for human skeleton motion data optimization
expand article info Li Shujie, Zhu Haisheng, Wang Lei, Liu Xiaoping
School of Computer Science and Information Engineering, Hefei University of Technology, Hefei 230601, China
Supported by: National Natural Science Foundation of China(61877016, 61972128, 61972129)

Abstract

Objective Human motion data are widely used in virtual reality, human computer interactions, computer games, sports and medical applications. Human motions capture technique aims to obtain highly precise human motion data. Motion capture sensors (MoCap) like Vicon and Xsens can offer high precision motion data costly. These MoCap systems are not fitted to wear for users. Low-cost motion capture technologies have been developed and can serve as alternatives for capturing human motion, including depth sensor-based and camera-based technologies. However, the raw 3D skeleton motion data captured derived from these low-cost sensors are constrained of calibration error, sensor noise, poor sensor resolution, and occlusion due to body parts or clothing. Thus, the raw MoCap data should be optimized, i.e., filling in missing data and de-noising in the pre-stage for users. The accuracy of optimized data for human motion in the context of convolutional auto-encoder (CAE) based multi-noises features and noise amplitudes. Raw MoCap data like the Kinect skeleton motion captured data contain mixed noise different noise types and amplitudes in the capture process due to scenarios changes or self-occlusion. Thus, the bi-directional recurrent auto-encoder (BRA) has been used to raw motion data based on heterogeneous mixed noise. However, the result of BRA has higher position accuracy but CAE is much smoother. Hence, we represent an optimized dual auto-encoder network named BCH, which consists of a BRA and a series of CAE. The BRA is used to make the optimized data on the aspect of the higher position accuracy network and the CAE is used to make the optimized data have better smoothness. Method First, a perceptual auto-encoder is pre-trained using high precision motion capture data. The loss function for the pre-trained perceptual auto-encoder consists of 3 factors including position loss, bone-length loss and smooth loss. Next, we train the dual auto-encoder for optimization via paired "noisy-clean" data. The perceptual autoencoder is composed of the convolution encoder and the convolution decoder. The convolutional encoder in the context of convolutional layer, max pooling layer, activation layer and the convolutional decoder is melted inverse-pooling layer and convolutional layer in. The dual autoencoder consists of BRA and CAE. The convolutional autoencoder network structure is similar to the perceptual autoencoder mentioned above. The BRA has two components, including the bidirectional recurrent encoder and the bidirectional recurrent decoder. The BRA consists of 2 overall interconnected layers followed by 1 bidirectional long short-term memory (LSTM) cell. The structure of the decoder is symmetric with that of the encoder. All those of the encoder and the decoder structure can be used to recover corrupted motion data derived of projection and inverse projection. Hidden-units constraint is imposed for training dual autoencoder, which is defined based on the perceptual autoencoder. Adam stochastic gradient descent is used to minimize the loss function of two networks. The batch size is set to 16 and the learning rate is set to 0.000 01. To avoid overfitting, we use a dropout of 0.2. The perceptual autoencoder is trained by 200 epochs and the dual autoencoder is trained by 300 epochs. Result The demonstrations based on synthetic noise dataset (Carnegie Mellon University (CMU) Graphics Lab Motion Capture Database) and raw motion dataset (the dataset synchronously captured by Kinect and the NOITOM MoCap system) are conducted for verification. Beyond the 3 deep learning methods (CAE, BRA and BRA with perceptual constraint, called BRA-P method), the ablation studies verifies each component of our approach on the above two datasets. The quantitative evaluation metrics contained position loss (mean square error, MSE), bone-length loss and smooth loss, and we illustrated a comparison of motion data optimization that add hidden constraint versus those that did not. The demonstrated results illustrates that our network structure based on synthetic noise dataset and raw motion dataset has its priority of 3 existed deep learning networks in terms of position loss, bone-length loss and smooth loss. The ablation studies on 2 datasets are used to facilitate the refined motion data based on our dual auto-encoder and hidden constraint. In addition, we also analyzed the time performance of the proposed method on raw motion testing dataset. The analyzed results represent that the time-consuming issue of BCH motion data refinement is approximately consistent to the sum of motion data optimization time cost derived of BRA and CAE method, which is close to by BRA method. Conclusion We harness an optimized network with dual autoencoder that contains hidden constraint. The results of synthetic noise data and raw motion data demonstrate that the proposed network and hidden-unit constraint yield the higher position accuracy and better smoothness optimized data and maintain the bone-length consistency of the motion data.

Key words

deep learning; skeleton motion data refinement; dual autoencoder; hidden-unit constraint; Kinect motion data

0 引言

人体骨骼运动数据目前已在影视动画、游戏、体育和医疗康复等诸多领域得到广泛应用。人体骨骼运动数据一般由动作捕捉设备捕捉人体运动的姿态获得,但由于传感器精度、采集环境和自身遮挡等影响,即使是昂贵的高精度动作捕捉仪捕捉到的数据也往往包含噪声(Cui等,2019),所以由设备直接获得的原始数据需先进行去噪处理才能够应用(Fieraru等,2018; Moon等,2019; Liu等,2016)。如今一些非接触式低成本动作捕捉设备,如Kinect、摄像头因方便操作及携带而广泛应用。但这些设备获取的人体骨骼运动数据精度较低、含有混合噪声,而且骨骼节点较少即细节层次较低,更需要经过优化处理才能够确保相关应用效果。考虑到目前非接触式低成本动作捕捉设备获取的运动数据多为3维坐标格式,本文主要探讨3维坐标格式表示的运动数据的优化处理方法,包括去除数据噪声、补全数据中缺少的骨骼节点信息使数据获得更高的细节层次。目前,深度学习方法已经应用于运动数据处理。Holden等人(2015, 2016)提出一种卷积自编码器(convolutional auto-encoder,CAE)网络用于抽取运动数据流形(motion manifold),通过将噪声运动数据投射到中间隐变量,再逆向映射至运动数据空间去除运动数据中的噪声,但是去噪结果存在一定的抖动,并且对于不同噪声类型和噪声水平的运动数据去噪结果差别较大,不适用于包含混合噪声的设备原始采集数据。Li等人(2020)指出双向循环网络结构对于不同噪声类型和噪声水平的运动数据去噪结果更为稳定,适用于设备原始采集数据,为此提出了一种基于双向循环自编码器(bidirectional recurrent auto-encoder,BRA)的网络结构(BRA with perceptual constraint,BRA-P)。该网络由两个双向循环自编码器串联而成,其中第2个BRA由高精度动捕数据预训练得到,用于返回输出数据的感知损失,可以提高优化后数据与高精度数据的感知相似性,使得该方法可以实现Kinect到高精度动捕数据的映射,即在去噪的同时能够增加原数据中的骨骼节点,提高了运动数据的细节层次。该方法还使用感知自编码器作为后处理网络,使第1个BRA的输出再输入预训练的BRA,得到后处理输出作为最终优化结果。后处理过程可以提高输出数据的平滑性,而这一过程却会增加优化后数据的关节点平均位置误差。

为进一步探究卷积自编码器和双向循环自编码器结构对运动数据优化的效果,将BRA-P结构中的双向循环自编码器替换为Holden等人(2016)方法中的卷积自编码器形成CAE-P网络,并对比了两种网络结构对Kinect骨骼运动数据的优化效果,如图 1所示,发现CAE-P网络的输出具有更好的平滑性,而BRA-P的平均关节点位置误差更低。

图 1 CAE-P与BRA-P箱型图对比
Fig. 1 Comparison of performances between CAE-P and BRA-P using box plots
((a) joint position loss; (b) smooth loss)

因此,本文综合两种网络的优势,提出一种由双向循环自编码器与卷积自编码器串联而成的优化网络,其中双向循环自编码器用于使网络输出的优化数据具有更高的位置精度,卷积自编码器用于使优化数据具有更好的平滑性。BRA-P网络、CAE-P网络及本文采用的网络结构如图 2所示,其中虚线框标注的网络表示该网络在当前训练过程中不会再改变其参数。另一方面,在BRA-P方法中,第2个BRA是预训练得到的,其作用在于返回感知约束和作为后处理器,反向传播过程只能校正第1个BRA的网络参数,第2个BRA的网络参数并不能用于进一步提高关节位置精度。而在本文方法中,网络结构中的两个自编码器同时训练,通过对第2个自编码器施加隐变量约束替代BRA-P方法中的感知约束,反向传播过程可以校正两个自编码器的参数,所以网络输出既能够保证合理的骨骼结构,又能够进一步降低关节位置误差。

图 2 BRA-P网络、CAE-P网络及本文方法网络结构
Fig. 2 Architecture of BRA-P network, CAE-P network and our network
((a)BRA-P network; (b)CAE-P network; (c)ours)

本文方法与Li等人(2020)的BRA-P方法关注的问题一致,探索包含混合噪声的3维坐标格式运动数据的优化方法,通过融合双向循环自编码器和卷积自编码器的优势,进一步降低优化后数据的位置误差并提升平滑性。本文主要工作如下:1)提出一种综合了双向循环网络和卷积神经网络优势的运动数据优化方法,既能够对混合噪声数据实现鲁棒的优化、使关节点位置误差较低,又能够使优化后数据具有较好的平滑性。2)在训练过程中对卷积神经网络部分的隐变量施加隐变量约束,使网络输出既能保持更合理的骨骼结构,又能够降低关节位置误差。3)通过合成噪声实验,验证了本文能够对混合噪声数据实现鲁棒的优化、使关节位置误差更低,也能够使优化后数据具有较好的平滑性; 通过真实噪声实验,验证了本文方法对真实噪声数据的有效性,能使网络输出保持较高的精度并具有合理骨骼结构,能够在优化数据的同时提高数据的细节层次。

1 相关工作

运动数据优化(motion refinement)也称运动数据去噪(motion denoising)或运动数据重建(motion recovery),无论精度较低的非接触式动捕设备获得的人体运动数据还是高精度穿戴式动作捕捉仪获取的数据,都需要优化处理后才能够应用。本文将运动数据优化方法分为传统优化方法和基于深度学习的优化方法,两类方法都可以对混合噪声数据进行处理,在优化数据的同时提升数据细节层次。

传统优化方法包括滤波类方法、基于低秩矩阵补全的方法、基于稀疏表达的方法和基于数据降维的方法。较典型的滤波类方法包括:Hsieh和Kuo(2008)提出的一种B样条小波平滑运动数据。Lou和Chai(2010)首次借助于数据集训练出能保持运动数据时空特征的滤波器,由于采用奇异值分解(singular value decomposition,SVD)方法选择部分主方向的滤波基,会损失一部分运动细节。Aristidou等人(2018)提出一种基于卡尔曼滤波的恢复缺损关节点数据的方法。以上滤波类方法主要思路都是借用位置相邻或时间相邻的关节点信息修正当前节点的信息,对噪声水平随时可能发生波动的混合噪声数据的去噪效果不稳定。同时,滤波类方法不能恢复一个完全没有信息的关节点,也就不能进一步提升运动数据的细节层次。基于低秩矩阵补全的方法将运动数据序列看做一个低秩矩阵。Feng等人(2014)综合低秩矩阵补全方法和平滑性约束对运动数据进行优化。Yang等人(2020)在低秩矩阵补全方法的基础上,添加关节点平行约束和稀疏平滑约束实现运动数据的重建,取得了较好的效果。低秩矩阵补全是一个迭代求解的算法,难以达到实时,这也使其应用场合受限。有代表性的稀疏表达类方法包括:Xiao等人(2011)提出的一种用于修补缺损关节点的稀疏表达方法。Feng等人(2014)Xiao等人(2015)提出将人体运动分为5个部分,分别使用细粒度的稀疏表达,但是这种方法忽略了各个部分的关联性。Xia等人(2016)指出稀疏表达和低秩矩阵分解仅考虑了数据的统计特征,而没有考虑运动学约束,从而引入了骨骼约束和平滑性约束提高去噪后运动的运动学特征。可是,稀疏表达需要从数据中学习一个字典,数据类型越少,相关性越高,字典越准确,这就导致了稀疏表达类方法对于混合噪声和包含混合运动类型的数据效果不佳。数据降维方法的典型代表是主成分分析法(principal component analysis,PCA)。Liu和McMillan(2006)首次基于PCA方法对训练集中的数据进行建模,并基于该模型对噪声数据进行修复。Tangkuampien和Suter(2006)提出一种基于核主成分分析(Kernel PCA,KPCA)的建模方法,可以在较小的训练集上实现运动数据的去噪。Günter等人(2007)提出一种快速迭代KPCA方法进一步提升了去噪方法的速度。数据降维类方法是将运动数据看做一个矩阵,利用矩阵分解的方法获取运动片段的主成分,再利用这些主成分恢复出完整数据。当数据噪声较高或缺损较多时就难以分析出主成分,从而对混合噪声数据的处理就不稳定。

深度学习方法在很多领域已表现出比传统方法更为强大的数据处理能力,运动数据处理领域也不例外。Bütepage等人(2017)提出了一个全连接网络,可以利用前序帧预测后序帧中的缺失数据。Mall等人(2017)构建了一个双向循环网络输出滤波器对运动数据去噪。但是以上两种方法都仅适用于对特定噪声去噪,无法处理混合噪声。针对动捕设备捕获的含混合噪声的原始数据优化问题,Holden (2018)利用卷积结构的残差网络对光学动捕采集数据进行去噪,Huang等人(2018)提出双向循环网络框架利用6个IMU(inertial measurement unit)传感器进行全身运动的实时重建,但这两个方法重建出的运动结果还是存在抖动,需要进一步对结果进行数据平滑处理。Li等人(2019)在考虑了人体运动学约束后,提出双向循环自编码器(BRA)加上人体骨骼长度约束与平滑约束重建噪声运动数据,使其重建效果更加符合运动学特性。但是当噪声数据和目标数据具有不同的骨骼结构时,该网络的输出数据仍有骨骼扭曲现象。随后Li等人(2020)又提出了基于感知约束的双向循环自编码器(BRA-P),提高了优化后数据与高精度动捕数据的感知相似性,并将高精度动捕数据预训练的感知自编码器作为后处理网络,进一步提高了重建数据的骨骼长度的一致性与平滑性,但未能进一步降低关节位置误差。本文方法将在BRA-P方法的基础上进一步降低关节位置误差,并进一步提升数据的平滑性。

2 网络结构分析

为从原理上说明卷积自编码器和双向循环自编码器处理运动数据的区别,本文从网络参数上对这两种自编码器进行分析。

卷积神经网络(convolutional neural network, CNN)是包含卷积计算的前馈神经网络,与前馈神经网络不同之处在于利用了数据的局部特征,网络参数较少。卷积计算可表示为$\boldsymbol{h}={Conv}(\boldsymbol{X}, \boldsymbol{W})$,其中$\boldsymbol{h}$为卷积计算的结果,$\boldsymbol{X}$表示输入数据,$\boldsymbol{W}$为卷积核,卷积核维度为$f_{\mathrm{h}} \times f_{\mathrm{w}} \times in \times out, f_{\mathrm{h}}$$f_{\mathrm{w}}$分别为卷积核的高度和宽度,$in$表示输入数据的特征数,$out$表示卷积核的数量。

长短期记忆网络(long short-term memory,LSTM)作为RNN(recurrent neural network)网络的进阶版网络结构,解决了RNN网络的梯度消散以及梯度爆炸问题,广泛应用于对时序数据的处理。双向长短期记忆网络(bi-directional long short-term memory,Bi-LSTM)内部由2个LSTM构成,分别组成前向层(forward layer)与后向层(backward layer),故双向长短期记忆网络的底层结构还是LSTM的结构,如图 3所示。

图 3 LSTM的内部结构图
Fig. 3 Internal architecture of LSTM

图 3中LSTM主要由输入门(input gate)、遗忘门(forget gate)、输出门(output gate)以及细胞状态(cell state)构成。细胞状态与3个门的激活计算为

$ \boldsymbol{f}_{t}=\sigma\left(\boldsymbol{W}_{f} \cdot\left[\boldsymbol{h}_{t-1}, \boldsymbol{x}_{t}\right]+\boldsymbol{b}_{f}\right) $ (1)

$ \boldsymbol{i}_{t}=\sigma\left(\boldsymbol{W}_{i} \cdot\left[\boldsymbol{h}_{t-1}, \boldsymbol{x}_{t}\right]+\boldsymbol{b}_{i}\right) $ (2)

$ \tilde{\boldsymbol{c}}_{t}=\tanh \left(\boldsymbol{W}_{c} \cdot\left[\boldsymbol{h}_{t-1}, \boldsymbol{x}_{t}\right]+\boldsymbol{b}_{c}\right) $ (3)

$ \boldsymbol{c}_{t}=\boldsymbol{f}_{t} \times \boldsymbol{c}_{t-1}+\boldsymbol{i}_{t} \times \tilde{\boldsymbol{c}}_{t} $ (4)

$ \boldsymbol{o}_{t}=\sigma\left(\boldsymbol{W}_{o} \cdot\left[\boldsymbol{h}_{t-1}, \boldsymbol{x}_{t}\right]+\boldsymbol{b}_{o}\right) $ (5)

$ \boldsymbol{h}_{t}=\boldsymbol{o}_{t} \times \tanh \left(\boldsymbol{c}_{t}\right) $ (6)

式中,$ \sigma $表示Sigmoid函数,$\boldsymbol{x}_{t} \in \mathbf{R}^{d}$表示输入LSTM单元的向量,$\boldsymbol{c}_{t}、\boldsymbol{h}_{t} \in \mathbf{R}^{h}$分别表示$t$时刻保存短期记忆的细胞状态向量与保存长期记忆的输出向量,$d$$h$分别为输入输出向量的维度,$\tilde{\boldsymbol{c}}_{t}$为候选细胞状态向量,输入门$\boldsymbol{i}_{t}$、遗忘门${\boldsymbol{f}}_{t}$、输出门$\boldsymbol{o}_{t} $、细胞状态$\tilde{\boldsymbol{c}}_{t}$的权重参数$\boldsymbol{W}_i$$\boldsymbol{W}_f$$\boldsymbol{W}_{o}$$\boldsymbol{W}_{c}$的维度均为($d$+$h$$h$,因此LSTM的总权重参数维度为($d$+$h$)×4 $h$。双向循环网络由两个LSTM组成,因此总权重参数个数为2×($d$+$h$)×4 $h$

Holden等人(2016)采用的卷积自编码器网络中,$ f_{h}$=1,$f_{\mathrm{w}}$=25,$in$=63,$out$=256,卷积自编码器中的编码器与解码器各包括一个卷积神经网络,因此总权重参数为80.64万个。为合理地评估卷积自编码器与双向循环自编码器的性能区别,本文在同一大小的隐变量维度下对比两种自编码器网络的参数,在Li等人(2019)采用的双向循环自编码器网络中,令$d$=256,$h$=256,以确保两种自编码器网络中的隐变量空间维度均为256。双向循环自编码器中的编码器与解码器亦均包含一个双向循环网络,经计算得出双向循环自编码器中的总权重参数个数为2 097 152个,参数相对较多,且LSTM结构相比于CNN更适合于对时序数据的处理。因此双向循环网络结构适合于混合噪声运动数据的优化,且优化后的结果误差相对较低。而卷积神经网络结构由于其卷积计算类似于滤波器,因此优化结果平滑性较好。

3 本文方法

3.1 训练数据预处理

本文使用两种运动数据库进行实验,分别是CMU(Carnegie Mellon University)人体运动数据库(CMU,2020)与Kinect、NOITOM动捕设备同步采集的运动数据库(Li等,2020)。

对CMU人体运动数据库的预处理类似于Holden等人(2016)的方法。先将所有的运动数据下采样到60帧/s,再将原始数据从关节角度表示转换成关节坐标表示,最后将所有关节坐标映射到某一指定位置的相对坐标系统上。每帧运动数据的维度为63(21×3=63),21代表关节点个数,3代表关节点的通道数(即$\boldsymbol{X}$$\boldsymbol{Y}$$\boldsymbol{Z}$坐标)。在训练之前,先使用滑动窗口的方法将整个数据集切分成$ f$帧的固定帧长运动序列(窗口的步长即重叠帧数为$ f$/2),再对切分后的运动序列用减平均位姿的方式做归一化处理。实验设置$ f$=120,为表示方便,令$\boldsymbol{X}=\left[\boldsymbol{p}_{1}, \boldsymbol{p}_{2}, \cdots, \boldsymbol{p}_{120}\right]$ 表示运动序列,其中$\boldsymbol{p}_{t}$代表第$t$帧时的位姿坐标。

Kinect数据中人体关节点个数为25,每帧运动数据的维度为75(25×3=75);NOITOM动捕数据中人体关节点个数为59,每帧运动数据的维度为177(59×3=177),两种运动数据有着不同的拓扑结构(Li等,2020),骨骼节点数不同即运动数据的细节层次不同。对Kinect和NOITOM设备同步采集的运动数据库的预处理类似于Li等人(2020)的方法,将数据库中所有关节坐标映射到某一指定位置的相对坐标系统上,对数据进行切片,再分别对Kinect与NOITOM动捕数据用减平均位姿除方差的方式做归一化处理。

3.2 网络结构

本文方法的流程如图 4所示。其中,$\boldsymbol{X}_{N}$表示输入的噪声数据,$\boldsymbol{X}_{C}$表示高精度动捕数据。输入数据$\boldsymbol{X}_{N}$先后通过双向循环自编码器与卷积自编码器得到优化后数据$\boldsymbol{Y}$。其中,双向循环自编码器的作用是使输出数据具有更高的位置精度; 卷积自编码器的作用是使输出数据具有更好的平滑性。

图 4 本文方法的流程图
Fig. 4 Pipeline of our approach

双向循环自编码器的网络结构类似于Li等人(2019)的结构,其中编码器$E_{r}$由2层全连接层FC(full connected)与1个双向长短时记忆网络Bi-LSTM组成,解码器$D_r$的结构与编码器$E_{r}$对称。编码器的作用是将输入数据映射到隐变量空间,解码器的作用是将隐变量空间数据映射回运动序列。编码器与解码器可表示为

$ \boldsymbol{H}_{r}=E_{r}\left(\boldsymbol{X}_{N}\right)={BiLSTM}_{e}\left(F C_{e 2}\left(F C_{e 1}\left(\boldsymbol{X}_{N}\right)\right)\right) $ (7)

$ \boldsymbol{X}_{r}=D_{r}\left(\boldsymbol{H}_{r}\right)=B i L S T M_{d}\left(F C_{d 2}\left(F C_{d 1}\left(\boldsymbol{H}_{r}\right)\right)\right) $ (8)

式中,$\boldsymbol{H}_{r}$$\boldsymbol{X}_{r}$分别为双向循环自编码器的隐变量与输出结果; $BiLSTM$$FC$分别表示双向循环层与全连接层,权重参数维度大小见图 4

卷积自编码器网络结构类似于Holden等人(2016)的结构,编码器$E_{c}$由卷积层、池化层和激活层组成。池化层的操作是在相邻帧间取最大值,目的是一定程度上保证时域的不变性、加快计算速度并防止训练的过拟合,激活层是为了确保网络得到一个非线性流形以更好地拟合运动。解码器$D_{c}$由反池化层和卷积层组成,反池化层的操作类似于平均池化操作,可以将隐变量的值均匀分布在两个可见单元上,使合并后的可见单元在时间维度上与池化前保持一致。卷积自编码器的编码器与解码器可表示为

$ \boldsymbol{H}_{c}=E_{c}\left(\boldsymbol{X}_{r}\right)={ReLU}\left(\psi\left(\boldsymbol{X}_{r} * \boldsymbol{W}_{e}+\boldsymbol{b}_{e}\right)\right) $ (9)

$ \boldsymbol{Y}=D_{c}\left(\boldsymbol{H}_{c}\right)=\left(\psi^{\prime}\left(\boldsymbol{H}_{c}\right)-\boldsymbol{b}_{d}\right) * \boldsymbol{W}_{d} $ (10)

式中,$\boldsymbol{W}_{e} \in \mathbf{R}^{m \times d \times w}$表示卷积层中卷积核的权重矩阵,$m$为隐变量单元的个数,$w$为卷积核的宽度,本文方法分别设置为$m$ = 256,$w$ = 25;$d$为输入数据的维度,$\boldsymbol{b}_{e} \in \mathbf{R}^{m}$表示卷积层中偏置,$\psi$代表最大池化函数。在解码器将隐变量$\boldsymbol{H}_{c} \in \mathbf{R}^{\frac{f}{2} \times m}$ 作为输入,通过$\psi$′反池化操作后减偏置$\boldsymbol{b}_{d}$,最后用权重矩阵$\boldsymbol{W}_{d} \in \mathbf{R}^{d \times m \times w}$进行卷积计算,得到最终输出结果$\boldsymbol{Y}$

3.3 损失函数

3.3.1 关节点位置损失函数

均方误差(mean square error,MSE)是机器学习中常用的损失函数。本文的运动数据均为3维关节坐标表示,在训练过程中使用均方误差可使优化后的运动数据与标签运动序列有最小的欧氏距离,表达式为

$ L_{\text {Position }}=\frac{1}{f \times d}\left\|\boldsymbol{Y}-\boldsymbol{X}_{C}\right\|_{2} $ (11)

式中,||· || 2表示L2范数,$ f$表示运动序列的帧数,$d$表示每帧运动数据的维度。

3.3.2 隐变量损失函数

虽然上述的关节点位置损失保证了优化后的运动数据与标签运动序列有最小的欧氏距离,但是MSE优化缺少人体运动学约束,导致优化后的数据运动学信息不完整、骨骼扭曲,而隐变量损失函数可以用来保证优化后数据的运动学信息完整。如图 4所示,隐变量损失函数定义为

$ L_{\text {Hidden }}=\frac{1}{f \times m} \| E_{c}\left(D_{r}\left(E_{r}\left(\boldsymbol{X}_{N}\right)\right)\right)-\left.E_{p}\left(\boldsymbol{X}_{C}\right)\right|_{2} $ (12)

3.3.3 骨骼长度损失函数

由于本文的运动数据都是基于3维关节坐标表示,在运动中关节的骨骼长度应该保持一致。令$\left\{l_{b} \mid 1 \leqslant b \leqslant J-1\right\}$ 为人体的精确骨骼长度,其中$b$为骨骼的标记序号,$J$为人体的关节数量。给定运动序列,骨骼长度损失函数为

$ L_{\text {Bone }}=\frac{1}{f \times(J-1)} \sum\limits_{i=1}^{f} \sum\limits_{b=1}^{J-1}\left|\left\|\boldsymbol{p}_{i}^{b_{1}}-\boldsymbol{p}_{i}^{b_{2}}\right\|_{2}-l_{b}\right| $ (13)

式中,$ b_{1}, b_{2}$ 为骨骼序号$b$对应的2个骨骼端节点的序号,$\boldsymbol{p}_{i}^{b_{1}} $$ \boldsymbol{p}_{i}^{b_{2}}$则表示第i帧时骨骼$b$对应的2个端节点位置坐标。

3.3.4 平滑性损失函数

使用帧间平滑性约束来保证优化后的运动数据不抖动。平滑矩阵为

$ \boldsymbol{O}=\left(\begin{array}{ccccc} -1 & 1 & 0 & & \\ 1 & -2 & 1 & & \\ & & \ddots & & \\ & & 1 & -2 & 1 \\ & & & 1 & -1 \end{array}\right)_{(f+2) \times(f+2)} $ (14)

给定输入的运动序列$\boldsymbol{Y}$,平滑性损失函数的计算式为

$ L_{\text {Smooth }}=\frac{1}{(f+2) \times d}\left\|\boldsymbol{O} \boldsymbol{Y}^{\prime}\right\|_{2} $ (15)

式中,$\boldsymbol{O}$为平滑矩阵,$\boldsymbol{Y}$′为优化后的运动数据$\boldsymbol{Y}$在首尾帧分别再重复第1帧与最后1帧得到的运动数据。

3.4 网络训练

图 4所示,整个网络的训练分为训练感知自编码器和训练双自编码器两个阶段。

训练感知自编码器的主要任务是对高精度运动数据集$\boldsymbol{X}_{C}$训练一个感知卷积编码器$E_{p}$与解码器$D_{p}$,训练的输入数据与标签数据均为高精度运动数据,总损失函数为

$ L_{p}=\lambda_{p 1} L_{\text {Position }}+\lambda_{p 2} L_{\text {Bone }}+\lambda_{p 3} L_{\text {Smooth }}+\alpha\|\boldsymbol{\theta}\|_{1} $ (16)

式中,$\lambda_{p 1}、\lambda_{p 2}$$\lambda_{p 3}$分别表示关节位置约束、骨骼长度约束和平滑性约束的权重。在最后一项中,$\boldsymbol{\theta}$表示卷积层的参数$\boldsymbol{\theta}=\{W, b\}, \alpha$ 为其权重,作用在于使卷积核的参数尽量稀疏化。为保证4种损失函数在同一数量级上,本文设置$\lambda_{p 1}=1, \lambda_{p 2}=$ $0.002, \lambda_{p 3}=0.0001, \alpha=0.01$

训练双自编码器,即用噪声运动数据$\boldsymbol{X}_{N}$与对应的高精度运动数据$\boldsymbol{X}_{C}$组成的配对数据集训练双向循环自编码器$E_{r}$$D_r$与卷积自编码器$E_{c}$$D_{c}$,训练的输入数据为噪声运动数据,标签数据为高精度运动数据,总损失函数为

$ \begin{gathered} L_{d}=\lambda_{d 1} L_{\text {Position }}+\lambda_{d 2} L_{\text {Bone }}+\lambda_{d 3} L_{\text {Smooth }}+ \\ \lambda_{d 4} L_{\text {Hidden }}+\alpha\|\boldsymbol{\theta}\|_{1} \end{gathered} $ (17)

在本文的网络训练过程中,权重设置为$ \lambda_{d1} $=1,$ \lambda _{d2}$=0.002,$ \lambda_{d3} $=0.000 1,$ \lambda _{d4}$=10,$\alpha $=0.01,使用Adam随机梯度下降算法最小化损失函数,batch size设置为16,学习率设为0.000 01。为了防止过拟合,训练数据在输入双向循环层与卷积层时都使用dropout操作,并将其参数设为0.2。感知自编码器网络训练200 epoch,双自编码器网络训练300 epoch。实验硬件设置:处理器为Intel(R) Core(TM) i7 7700K,内存32 GB,显卡为NVIDIA GeForce GTX Titan X,运行平台为Tensorflow。

4 实验与分析

4.1 实验设计

Li等人(2020)的方法类似,分别在合成噪声数据集和真实噪声数据集上对本文方法进行验证。合成噪声数据集通过对CMU数据集添加高斯噪声与随机缺损噪声混合得到,作用是验证本文方法能够对混合噪声数据实现鲁棒的优化、使关节位置误差较低,也能够使优化后数据具有较好的平滑性。真实噪声数据集是Li等人(2020)采集的“Kinect—高精度动捕”配对数据集,作用是验证本文方法适用于提升运动数据的细节层次,能使网络输出保持较高的精度并具有合理骨骼结构。

将本文方法记为BCH(bidirectional-convolutional auto-encoder with hidden units constraint),指网络结构中包括BRA和CAE结构,并使用了隐变量约束Hidden-unit constraint。BCH的特点为:1)使用由双向循环自编码器和卷积自编码器串联而成的双自编码器结构; 2)使用了隐变量约束。为验证采用的混合双自编码器结构的性能,BCH与CAE、BRA、DCH(dual convolutional auto-encoder)和DBH(dual bidirectional recurrent auto-encoder)方法进行对比。其中,CAE方法(Holden等,2016)仅包含单个卷积自编码结构; BRA方法(Li等,2019)仅包含单个双向循环自编码器结构; DCH方法采用双CAE结构加隐变量约束; DBH方法采用双BRA结构加隐变量约束。为验证隐变量约束的性能,BCH与BC、BCP方法、BRA-P与DBH方法、CAE-P与DCH方法进行对比。其中,BC(bidirectional-convolutional auto-encoder without hidden units constraint)方法表示BCH未加隐变量约束; BCP方法是将BCH中的隐变量约束替换为感知约束; CAE-P表示卷积自编码器CAE加感知约束; BRA-P(Li等,2020)表示双向循环自编码器BRA加感知约束。为排除其他约束对实验结果的影响,所有实验均对输出数据施加了重建约束、骨骼长度约束和平滑性约束。各方法的网络结构如图 5所示。

图 5 各类实验方法的网络结构简略图
Fig. 5 Schematic diagrams of network structure for different experimental approaches
((a)BCH(ours); (b)DBH; (c)DCH; (d)BCP; (e)BRA-P; (f)CAE-P; (g)BRA; (h)CAE)

4.2 合成噪声数据集实验

为验证不同方法对不同噪声水平数据处理的鲁棒性,本文合成了4种噪声水平的数据,分别为高水平高斯噪声数据、低水平高斯噪声数据、随机缺损30 % 关节点数据加高斯噪声数据、随机缺损40 % 关节点数据加高斯噪声数据。前两种是将全部关节位置数据用高、低噪声水平的高斯噪声打乱(signal-noise ratio, SNR= 1 dB,20 dB),后两种是将每帧的关节数据按缺损率随机置零并加上高斯噪声(SNR= 15 dB)。

参考Li等人(2019)的方法,本文通过位置误差(position error,P)、骨骼长度误差(bone length error,B)和平滑性误差(smoothness error,S)等3种量化误差评价各方法的优劣,3种误差分别由第3.3节的3种损失函数计算得到。

本文从CMU数据库中随机选择了70 % 作为训练数据,剩余的30 % 为测试数据。将测试数据分别加上2种高斯噪声(SNR = 1 dB、20 dB)和2种缺损加高斯噪声(缺损10 %、40 %,SNR = 15 dB)进行测试,结果如图 6表 1所示。

图 6 在CMU测试数据集上,本文方法与其他方法的箱型图对比
Fig. 6 Comparison of performances among BCH and other methods on the CMU testing dataset using box plots
((a)position error; (b)bone length error; (c)smoothness error)

表 1 CMU合成测试数据集中各类方法的3种误差量化指标的平均值
Table 1 Average values of three quantitative measurements for different approaches on the CMU synthesis testing dataset

下载CSV
方法 误差/cm
关节位置 骨骼长度 平滑性
BC 1.453 1.071 0.309
DBH 2.115 1.022 0.699
DCH 2.383 1.134 0.387
BRA-P(Li等,2020) 2.155 1.099 0.849
BCP 2.854 1.26 0.337
CAE-P 4.156 1.386 0.303
BRA(Li等,2019) 1.982 1.169 0.921
CAE(Holden等,2016) 2.702 1.274 0.433
BCH(本文) 1.325 0.819 0.380
注:加粗字体表示各列最优结果。

图 6可以看出: 1)BCH的3种误差值均低于CAE和BRA,表明本文提出的混合双自编码器的结构相比于单一CAE结构或单一BRA结构更加有效。2)BCH的3种误差值比DBH、DCH方法的低,表明本文提出的混合双自编码器的结构相比于单一BRA或单一CAE的双自编码器结构更有效。3)BCH的骨骼长度误差低于BC方法,验证了施加隐变量约束能保持更合理的骨骼结构。4)BCH的关节位置误差低于BCP,DBH的关节位置误差低于BRA-P,DCH的关节位置误差低于CAE-P,表明相同的网络结构施加隐变量约束的位置精度优于施加感知约束的位置精度。

表 1同样可得,本文提出的BCH方法在关节位置误差以及骨骼长度误差指标上均获得了最低的误差,平滑性误差维持在较低水平。综合来看,本文提出的BCH与对比方法相比,对运动数据的优化效果最优,能够对混合噪声数据实现鲁棒的优化、使优化后数据的关节位置误差较低,也能够使优化后数据具有较好的平滑性。

4.3 真实噪声数据集实验

真实噪声数据集由“Kinect—高精度动捕”数据对构成。与合成噪声数据集不同,Kinect数据和高精度动捕数据具有不同的骨骼拓扑结构,拥有不同的骨骼节点数,Kinect数据骨骼节点数较少即细节层次较低,高精度动捕数据骨骼节点数较多即细节层次较高; 此外,在真实噪声数据集上噪声是不可知的,即无法预先了解噪声类型以及噪声水平,因此更能反映方法优化效果的能力。

Kinect运动数据优化的关键帧序列如图 7所示。图 7(a)为采集数据时的RGB图像,在人体侧转时发生了自遮挡现象(手臂被遮挡); 图 7(b)表示含混合噪声的Kinect原始运动序列,且自遮挡导致了Kinect数据失真; 图 7(c)表示高精度运动数据,其手部的节点数明显比图 7(a)多、细节层次高、数据精确; 图 7(d)表示BC方法对图 7(b)进行优化的结果,图中红色虚线部分为放大的优化效果不佳的地方; 图 7(e)表示BCH方法对图 7(b)进行优化的结果。由图 7可知,本文BCH方法对Kinect产生的运动遮挡现象有较好的优化效果。

图 7 Kinect运动数据优化的关键帧序列
Fig. 7 Key frame sequence of the refinement results for Kinect motion data
((a)original captured color images; (b)raw motion sequence captured by kinect with mixed noise; (c)motion capture data with high resolution; (d)refined results of BC for Fig. 7(b); (e)refined results of BCH for Fig. 7(b))

在指标评价上,与合成噪声数据集实验一样,采用位置误差、骨骼长度误差和平滑性误差量化优化效果,实验结果如表 2所示。

表 2 Kinect测试集中各类方法的3种误差量化指标的平均值
Table 2 Average values of three quantitative measurements for different approaches on the Kinect testing dataset

下载CSV
方法 误差/cm
关节位置 骨骼长度 平滑性
BC 15.576 0.226 0.359
DBH 18.787 0.343 0.577
DCH 31.636 0.252 0.214
BRA-P(Li等,2020) 23.689 0.339 0.465
BCP 23.696 0.293 0.379
CAE-P 42.055 0.385 0.371
BRA(Li等,2019) 23.015 0.441 0.903
CAE(Holden等,2016) 30.862 0.345 0.470
BCH (本文) 16.764 0.206 0.387
注:加粗字体表示各列最优结果。

图 7可以看出: 1)与CAE、BRA、DBH、DCH方法相比,除DCH的平滑性误差低于BCH,其他测试误差,BCH均低于以上方法,验证了混合双自编码器网络结构的有效性; 2)BCH的骨骼长度误差低于BC方法,验证了施加隐变量约束在提升运动数据的细节层次时的有效性,能保持更合理的骨骼结构,可以比较直观地看出BC方法的优化后数据手部与脊椎部分的骨骼有些扭曲,而BCH方法则较好地对噪声运动数据进行了优化,进一步说明本文方法适用于提升运动数据的细节层次; 3)对比BCH与BCP方法、DBH与BRA-P方法、DCH与CAE-P方法的测试结果,同样BCH、DBH、DCH的关节位置误差分别低于BCP、BRA-P、CAE-P,得出与前述合成噪声实验一致的结论,同样的网络结构施加隐变量约束的关节位置误差低于施加感知约束的关节位置误差,亦证明了隐变量约束在保持合理骨骼结构的同时有更低的关节位置误差。

为了进一步验证本文提出的隐变量约束的效果,在测试集中选取了篮球、跑步、步行与打扫4种运动类型进行测试。以上运动类型均是日常比较常见的运动,篮球属于激烈的运动类型,跑步、步行和打扫属于周期性运动类型,其中跑步较为激烈。从上述4种运动类型中随机选取噪声运动数据,分别输入BC网络(仅用关节位置约束训练)和BCH网络(使用隐变量约束和关节位置约束训练)的卷积编码器得到隐变量,再与对应的标签数据输入预训练的感知编码器得到的隐变量进行对比,测试结果如图 8所示。可以看出,使用隐变量约束的卷积编码器输出的隐变量(图 8(b))大体都与标签数据输出的隐变量(图 8(a))相似,而未使用隐变量约束得到的隐变量(图 8(c))则与标签数据输出的隐变量差别较大。测试结果表明,施加隐变量约束会使优化结果与标签数据更为相似,因此输出的运动更具合理性。

图 8 4种运动类型的Kinect噪声运动数据输入不同卷积编码器的隐变量对比
Fig. 8 Comparisons of hidden units that were calculated by different convolutional autoencoders for Kinect motion data with four types of motion(basketball, run, walk and clean)
((a)hidden units of clean MoCap data calculated by perception auto-encoder; (b)hidden units of noisy data calculated by BCH; (c)hidden units of noisy data calculated by BC)

为论证不同算法的时间性能,对比不同方法处理运动数据的时间消耗。实验的硬件环境为处理器Intel(R) Core(TM) i7 7700K、显卡NVIDIA GeForce GTX Titan X。由于本文BCH方法网络结构为双向循环自编码器和卷积自编码器组合成的双自编码器结构,其内部的网络参数为上述两种自编码器的网络参数之和,因此算法的运行时间亦是上述两种自编码器的运行时间之和。对比实验结果如表 3所示,可以看出,本文BCH方法的时间消耗约等于BRA与CAE方法的时间消耗之和,接近于BRA方法。由于BRA-P方法采用的是两个双向循环自编码器串联,而双向循环自编码器的参数较多,因此耗时较长。综上所述,本文BCH方法可以获得优于BRA-P的效果,并且时间性能上也优于BRA-P方法。

表 3 不同方法处理120帧运动数据的消耗时间
Table 3 Time costs of processing 120-frame motion data using different approaches  

下载CSV
/(s/120帧)
方法 时间消耗
BRA(Li等,2019) 0.085 07
CAE(Holden等,2016) 0.005 92
BRA-P(Li等,2020) 0.212 95
BCH(本文) 0.089 00

5 结论

本文针对含混合噪声的3维坐标表示的运动数据优化问题,提出一种双自编码器的网络优化方法。双自编码器由双向循环自编码器和卷积自编码器串联构成,结合了两种自编码器的优点,从而该自编码器既能使网络输出的优化数据具有更高的位置精度,又能使优化数据具有更好的平滑性。此外,本文方法BCH在网络训练时加入了隐变量约束,相比于感知约束,BCH能够在提升运动数据的细节层次下保证更高的数据精度。

本文算法在理论上可以适用于各种类型的3维坐标表示的运动数据,但仍存在改进方向。一方面,本文算法仅采集了Kinect运动数据集并只验证了对其进行数据优化的有效性; 另一方面,使用的运动数据集均是单人在同一人体骨骼比例下采集获得的,导致本文算法的使用范围受限。因此在后期的工作中会加大运动数据集的采集范围,尽可能地覆盖不同的人体骨骼比例,并构建多人运动数据集,探索多种骨骼比例下的运动数据优化算法以及在多人运动下的数据优化算法。

参考文献

  • Aristidou A, Lasenby J, Chrysanthou Y, Shamir A. 2018. Inverse kinematics techniques in computer graphics: a survey. Computer Graphics Forum, 37(6): 35-58 [DOI:10.1111/cgf.13310]
  • Bütepage J, Black M J, Kragic D and Kjellström H. 2017. Deep representation learning for human motion prediction and classification//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 1591-1599 [DOI: 10.1109/CVPR.2017.173]
  • CMU. 2020. CMU graphics lab motion capture database [DB/OL]. [2020-12-01]. http://mocap.cs.cmu.edu/
  • Cui Q J, Chen B J, Sun H J. 2019. Nonlocal low-rank regularization for human motion recovery based on similarity analysis. Information Sciences, 493: 57-74 [DOI:10.1016/j.ins.2019.04.031]
  • Feng Y F, Xiao J, Zhuang Y T, Yang X S, Zhang J J, Song R. 2014. Exploiting temporal stability and low-rank structure for motion capture data refinement. Information Sciences, 277: 777-793 [DOI:10.1016/j.ins.2014.03.013]
  • Fieraru M, Khoreva A, Pishchulin L and Schiele B. 2018. Learning to refine human pose estimation//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Salt Lake City, USA: IEEE: 318-327 [DOI: 10.1109/CVPRW.2018.00058]
  • Günter S, Schraudolph N N, Vishwanathan S V N. 2007. Fast iterative kernel principal component analysis. The Journal of Machine Learning Research, 8: 1893-1918 [DOI:10.1007/s10846-007-9145-x]
  • Holden D, Saito J, Komura T. 2016. A deep learning framework for character motion synthesis and editing. ACM Transactions on Graphics, 35(4): #138 [DOI:10.1145/2897824.2925975]
  • Holden D, Saito J, Komura T and Joyce T. 2015. Learning motion manifolds with convolutional autoencoders//Proceedings of the SIGGRAPH Asia 2015 Technical Briefs. Kobe, Japan: ACM: #18 [DOI: 10.1145/2820903.2820918]
  • Holden D. 2018. Robust solving of optical motion capture data by denoising. ACM Transactions on Graphics, 37(4): #165 [DOI:10.1145/3197517.3201302]
  • Hsieh C C, Kuo P L. 2008. An impulsive noise reduction agent for rigid body motion data using B-spline wavelets. Expert Systems with Applications, 34(3): 1733-1741 [DOI:10.1016/j.eswa.2007.01.030]
  • Huang Y H, Kaufmann M, Aksan E, Black M J, Hilliges O, Pons-Moll G. 2018. Deep inertial poser: learning to reconstruct human pose from sparse inertial measurements in real time. ACM Transactions on Graphics, 37(6): #185 [DOI:10.1145/3272127.3275108]
  • Li S J, Zhou Y, Zhu H S, Xie W J, Zhao Y, Liu X P. 2019. Bidirectional recurrent autoencoder for 3D skeleton motion data refinement. Computers and Graphics, 81: 92-103 [DOI:10.1016/j.cag.2019.03.010]
  • Li S J, Zhu H S, Zheng L P, Li L. 2020. A perceptual-based noise-agnostic 3D skeleton motion data refinement network. IEEE Access, 8: 52927-52940 [DOI:10.1109/ACCESS.2020.2980316]
  • Liu G D, McMillan L. 2006. Estimation of missing markers in human motion capture. The Visual Computer, 22(9/11): 721-728 [DOI:10.1007/s00371-006-0080-9]
  • Liu Z G, Zhou L Y, Leung H, Shum H P H. 2016. Kinect posture reconstruction based on a local mixture of gaussian process models. IEEE Transactions on Visualization and Computer Graphics, 22(11): 2437-2450 [DOI:10.1109/TVCG.2015.2510000]
  • Lou H, Chai J X. 2010. Example-based human motion denoising. IEEE Transactions on Visualization and Computer Graphics, 16(5): 870-879 [DOI:10.1109/TVCG.2010.23]
  • Mall U, Lal G R, Chaudhuri S and Chaudhuri P. 2017. A deep recurrent framework for cleaning motion capture data [EB/OL]. [2020-12-01]. https://arxiv.org/pdf/1712.03380.pdf
  • Moon G, Chang J Y and Lee K M. 2019. PoseFix: Model-agnostic general human pose refinement network//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 7765-7773 [DOI: 10.1109/CVPR.2019.00796]
  • Tangkuampien T and Suter D. 2006. Human motion de-noising via greedy kernel principal component analysis filtering//Proceedings of the 18th International Conference on Pattern Recognition (ICPR'06). Hong Kong, China: IEEE: 457-460 [DOI: 10.1109/ICPR.2006.639]
  • Xia G Y, Sun H J, Zhang G Q, Feng L. 2016. Human motion recovery jointly utilizing statistical and kinematic information. Information Sciences, 339: 189-205 [DOI:10.1016/j.ins.2015.12.041]
  • Xiao J, Feng Y F, Hu W Y. 2011. Predicting missing markers in human motion capture using /1-sparse representation. Computer Animation and Virtual Worlds, 22(2/3): 221-228 [DOI:10.1002/cav.413]
  • Xiao J, Feng Y F, Ji M M, Yang X S, Zhang J J, Zhuang Y T. 2015. Sparse motion bases selection for human motion denoising. Signal Processing, 110: 108-122 [DOI:10.1016/j.sigpro.2014.08.017]
  • Yang J Y, Guo X, Li K, Wang M Y, Lai Y K, Wu F. 2020. Spatio-temporal reconstruction for 3D motion recovery. IEEE Transactions on Circuits and Systems for Video Technology, 30(6): 1583-1596 [DOI:10.1109/TCSVT.2019.2907324]