发布时间: 2020-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190422
2020 | Volume 25 | Number 3

图像分析和识别

结合稀疏表示和深度学习的视频中3D人体姿态估计

王伟楠, 张荣, 郭立君

宁波大学信息科学与工程学院, 宁波 315211

收稿日期: 2019-08-20; 修回日期: 2019-10-28; 预印本日期: 2019-11-04

基金项目: 浙江省公益技术研究计划项目（LGF18F020007）；宁波市自然科学基金项目（2018A610057，2018A610163）

第一作者简介: 王伟楠, 1996年生, 女, 硕士研究生, 主要研究方向为计算机视觉。E-mail:wnwang_indi@163.com;
郭立君, 男, 教授, 主要研究方向为机器学习, 计算机视觉与模式识别。E-mail:guolijun@nbu.edu.cn.

中图法分类号: TP391.41

文献标识码: A

文章编号: 1006-8961(2020)03-0456-12

摘要

目的 2D姿态估计的误差是导致3D人体姿态估计产生误差的主要原因，如何在2D误差或噪声干扰下从2D姿态映射到最优、最合理的3D姿态，是提高3D人体姿态估计的关键。本文提出了一种稀疏表示与深度模型联合的3D姿态估计方法，以将3D姿态空间几何先验与时间信息相结合，达到提高3D姿态估计精度的目的。方法利用融合稀疏表示的3D可变形状模型得到单帧图像可靠的3D初始值。构建多通道长短时记忆MLSTM（multi-channel long short term memory）降噪编/解码器，将获得的单帧3D初始值以时间序列形式输入到其中，利用MLSTM降噪编/解码器学习相邻帧之间人物姿态的时间依赖关系，并施加时间平滑约束，得到最终优化的3D姿态。结果在Human3.6M数据集上进行了对比实验。对于两种输入数据：数据集给出的2D坐标和通过卷积神经网络获得的2D估计坐标，相比于单帧估计，通过MLSTM降噪编/解码器优化后的视频序列平均重构误差分别下降了12.6%，13%；相比于现有的基于视频的稀疏模型方法，本文方法对视频的平均重构误差下降了6.4%，9.1%。对于2D估计坐标数据，相比于现有的深度模型方法，本文方法对视频的平均重构误差下降了12.8%。结论本文提出的基于时间信息的MLSTM降噪编/解码器与稀疏模型相结合，有效利用了3D姿态先验知识，视频帧间人物姿态连续变化的时间和空间依赖性，一定程度上提高了单目视频3D姿态估计的精度。

关键词

姿态估计; 3D人体姿态; 稀疏表示; LSTM(long short term memory); 残差连接

Video based 3D human pose estimation combining sparse representation and deep learning

Wang Weinan, Zhang Rong, Guo Lijun

Faculty of Electrical Engineering and Computer Science, Ningbo University, Ningbo 315211, China

Supported by: Zhejiang Provincial public welfare technology research project (LCF18F020007)

Abstract

Objective 3D human pose estimation from monocular videos has become an open research problem in the computer vision and graphics community for a long time. An understanding of human posture and limb articulation is important for high-level computer vision tasks, such as human-computer interaction, augmented and virtual reality, and human action or activity recognition. The recent success of deep networks has led many state-of-the-art methods for 3D pose estimation to train deep networks end to end for direct image prediction. The top-performing approaches have shown the effectiveness of dividing the task of 3D pose estimation into two steps, as follows:using a state-of-the-art 2D pose estimator to estimate the 2D poses from images and then mapping them into 3D space. Results indicate that a large portion of the error of modern deep 3D pose estimation systems stems from 2D pose estimation error. Therefore, mapping a 2D pose containing error or noise into its optimum and most reasonable 3D pose is crucial. We propose a 3D pose estimation method by jointly using a sparse representation and a depth model. Through this method, we combine the spatial geometric priori of 3D poses with temporal information to improve the 3D pose estimation accuracy. Method First, we use a 3D variable shape model that integrates sparse representation (SR) to represent rich 3D human posture changes. A convex relaxation method based on L_1/2 regularization is used to transform the nonconvex optimization problem of a single-frame image in a shape-space model into a convex programming problem and provide reasonable initial values for a single frame of image. In this manner, the possibility of ambiguous reconstructions is considerably reduced. Second, the initial 3D poses obtained from the SR module, regarded as the 3D data with noise, are fed into a multi-channel long short term memory (MLSTM) denoising en-decoder in the form of pose sequences in temporal dimension. The 3D data with noise are converted into three components of X, Y, and Z to ensure the spatial structure of the 3D pose. For each component, multilayer LSTM cells are used to capture the different frames of time variation. The output of the LSTM unit is not the optimization result on the corresponding component; it is the time dependence between the two adjacent frames of the character posture of the input sequence implicitly encoded by the hidden layer of the LSTM unit. The time information learned is added with the initial value by using residual connection to maintain the time consistency of the 3D pose and effectively alleviate the problem of sequence jitter. Moreover, the shaded joints can be corrected by smoothing the constraint between the two frames. Lastly, we obtain the optimized 3D pose estimation results by decoding the last linear layer. Result A comparative experiment is conducted to verify the validity of the proposed method. The method is conducted using the Human3.6M dataset, and the results are compared with the state-of-the-art methods. The quantitative evaluation metrics contain a common approach used to align the predicted 3D pose with the ground truth 3D pose using a similarity transformation. We use the average error per joint in millimeters between the estimated and the ground truth 3D pose. 2D joint ground truth and 2D pose estimations using a convolutional network are separately used as inputs. The quantitative experimental results suggest that the proposed method can remarkably improve the 3D estimation accuracy. When the input data are the 2D joint ground truth given by the Human 3.6 M dataset, the average reconstruction error is decreased by 12.6% after the optimization of our model as compared with individual frame estimation. Compared with the existing sparse model method based on video, the average reconstruction error is decreased by 6.4% after using our method. When the input data are 2D pose estimations using a convolutional network, the average reconstruction error is decreased by 13% after the optimization of our model as compared with single frame estimation. Compared with the existing depth model method, the average reconstruction error is decreased by 12.8% after using our method. Compared with the existing sparse model method based on video, the average reconstruction error is decreased by 9.1% after using our method. Conclusion Combining our MLSTM en-decoder based on temporal information with the sparse model, we adequately exploit the 3D pose prior knowledge, temporal, and spatial dependence of continuous human pose changes and achieve a remarkable improvement in monocular video 3D pose estimation accuracy.

Key words

pose estimation; 3D human pose; sparse representation; long short term memory (LSTM); residual connection

0 引言

现实场景中绝大多数对于人类姿态的描述都是2维的，例如图像或视频。从单目图像或视频中估计其对应的3D人体姿态对于高级计算机视觉任务，如人机交互，视频监控，虚拟现实和人体行为分析等，有着重要且广泛的应用。然而，从单目图像或视频中估计3D人体姿态极具挑战性，其本身是一个病态问题。从几何角度上讲，从单视角下估计人体的3D姿态存在着固有的任意性(Lee和Chen，1985)，即在单视角下，根据2D姿态能够得到的3D姿态并不是唯一的。此外，人体姿态的丰富性以及在3D姿态估计过程中存在的类内可变性、非刚体形变等问题，使3D姿态估计问题变得极其复杂。在姿态估计过程中含有大量的变化参数，比如光照、摄像机位置等，同时也存在场景遮挡以及人体自我遮挡等因素。

早期的3D人体姿态估计方法(Mori和Malik，2006；Bo等，2008)主要从图像中提取人物的不变性特征，如肤色、纹理、轮廓等，并将其映射成3D人体姿态。之后的工作通常将3D估计解耦为两步进行处理(Martinez等，2017)：1)利用2D姿态估计网络获取图像中人体的2D姿态特征；2)将获取的2D特征表达向3D空间映射，获得对应3D空间下的人体姿态。将姿态估计分解为这两步，目的是通过现有的2D姿态估计网络，消除图像中光照、背景等因素对后续3D估计的影响。在深度学习的影响下，基于图像的2D姿态估计发展迅速，许多工作实现了利用卷积神经网络CNN(convolutional neural network)来回归图像中2D关节位置的置信热图，得到2D人体姿态，比如Newell等人(2016)提出的融合图像多尺度特征的SH(stacked hourglass networks)，Wei等人(2016)提出的CPM(convolutional pose machines)以及Sun等人(2019)提出的high-resolution subnetwork等，在很多数据集上都达到了非常好的效果。这在一定程度上促进了3D姿态估计的发展，同时也提高了3D姿态估计的性能。

由于3D估计问题本身的复杂性，同时缺乏可靠的尤其是真实场景中3D人体姿态数据集，从给定的2D姿态重构3D姿态目前仍然是一个充满挑战的问题。Martinez等人(2017)提出一种简单的深度网络用来学习从2D到3D姿态的映射关系，实验采用Human3.6M(Ionescu等，2014)数据集中两种情况下的2D坐标作为输入：一种为数据集给定的标注数据，另一种为通过2D姿态估计网络SH(Newell等，2016)获得的2D估计数据。其实验结果表明，提升2D关节点定位的效果能够显著降低3D估计的误差，但利用2D估计数据得到的3D姿态与使用2D标注数据获得的结果相比仍然误差较大。由此，Martinez等人(2017)认为2D姿态估计的误差是导致3D姿态估计产生误差的主要原因。2D估计的误差主要是由于2D图像中一些视角或杂乱场景可能存在着大量噪声和遮挡，这导致2D关节点估计难免存在不准确甚至缺失。因此，对于给定的2D情况下的3D估计，其关键在于如何在2D误差干扰下也能从2D姿态映射到最优、最合理的3D姿态。

在给定2D姿态数据的前提下，本文通过以下两个角度提高单目视频的3D人体姿态估计精度：一方面，通过先验知识从给定的2D姿态得到较为合理(未必精确)的单帧3D姿态映射；另一方面，在保证姿态的空间不变性的前提下，利用视频帧间的时间相关性约束估计优化的3D姿态。本文提出一种基于稀疏表示SR(sparse representation)与多通道长短时记忆MLSTM(multi-channel long short term memory)模型联合的3D估计方法SR-MLSTM，将空间模型与时间模型相结合，同时考虑3D姿态的空间结构性与时间一致性。

本文采用一种融合稀疏表示的3D可变形状模型来表示人体形状，消除求解结果的任意性，在2D关节点探测结果存在噪声，或者探测结果失效的情况下，也能为单帧的人体姿态提供一个较为合理的初始值。为了解决每帧的独立误差造成的估计序列在时间上不连贯的问题，提出一种带有残差结构的MLSTM降噪编/解码器模型。与传统方法不同，本文将时间不连贯的3D初始值视为带有噪声，采用X，Y，Z多通道输入的方式，分别对不同方向的关节点位置细化，保证3D初始值的空间结构性，同时每个通道上利用传统长短时记忆LSTM(long short term memory)单元学习视频中相邻帧之间人体姿态的时间依赖关系，通过残差连接方式将学习的时间信息与初始值相加，对噪声初始值约束，使3D姿态保持时间一致性，有效缓解了序列抖动问题，并通过约束两帧之间的3D姿态修正了被遮挡的关节点估计结果。通过在Human3.6M数据集上的实验表明了本文SR-MLSTM方法的有效性，与现有方法的对比，本文方法能够达到提高估计准确率的目的。

1 相关工作

Lee和Chen(1985)最早提出从给定的2D人体关节点回归其对应的3D人体关节点问题。他们认为，给定肢体的长度，人体3D估计可以归结为一个二叉决策树问题，其中每个树的分支相当于一个关节对应其父关节的状态。Jiang(2010)对2D关节点位置利用泰勒算法估计了一组3D姿态，并利用这些姿态去匹配一个大型的运动捕捉数据库，寻找其最近邻。Lin等人(2017)以及Tome等人(2017)通过2D姿态估计网络提取2D人体姿态特征，直接从图像中恢复3D姿态。Yasin等人(2016)以及Chen和Ramanan(2017)则着重于学习2D到3D的姿态映射函数。对于稀疏表示的应用(Ramakrishna等，2012；Fan等，2014)证明了稀疏表示能够对许多具有多样化的人体姿势进行建模，相比于传统的主动形状模型(active shape model)(Cootes等，1995)，稀疏表示所学习到的基础形状更简洁。Zhou等人(2015, 2017)受主动形状模型的启示，通过采用一种融合稀疏表示原理的3D可变形状模型来表示人体形状，采用稀疏表示将单帧3D估计问题转化为2D关节点与3D模型的匹配问题，稀疏字典可以看做从训练样本学习的3D基本姿态，该方法能够有效解决由于遮挡导致的2D姿态中关节点缺失问题。Hong等人(2018)在此工作的基础上，采用基于L_1/2正则化的凸松弛方法进一步提高了3D估计的精度。

以上基于图像的单帧估计方式会由于每帧的独立误差导致估计序列在时间上不一致，使估计的3D序列存在很大的抖动。早期对视频3D姿态估计的研究包括帧对帧的姿态跟踪和马尔可夫动态模型(Sigal等，2012)，这种方法依赖于初始的3D姿态，并且无法对跟踪失败的姿态进行估计。Zhou等人(2019)提出了一种基于2D姿态估计网络和稀疏表示的视频3D姿态估计框架。该方法在稀疏模型中融合几何先验信息约束相邻帧之间的人物姿态，并利用EM(expectation-maximization)算法优化求解具有时间一致性的3D关节点坐标。另外一些工作专注于利用深度模型学习序列的时间信息获得时间一致性的姿态。如Mehta等人(2017)实现了一种实时的3D姿态估计系统，该系统对一部分图像的2D和3D姿态进行时间池化来预测后续时间一致的3D姿态。Lin等人(2017)使用LSTM对3D姿态序列进行了多阶段的连续优化，利用之前帧预测的2D和3D姿态来预测后续的3D姿态序列。Hossain和Little(2018)提出了一个sequence-to-sequence网络，该网络可以在给定一个2D关节点序列的情况下预测时间一致的3D关节点序列。

受2D姿态估计的误差影响，3D估计效果往往不是很理想(Martinez等，2017)。虽然增加训练样本可以一定程度上提高3D估计网络对遮挡等因素的鲁棒性，但现有的3D人体姿态数据集的数据非常有限，而且大多是特定实验环境下获得的数据，缺乏包含丰富姿态的真实场景3D人体姿态标注数据。Tome等人(2017)将3D姿态概率模型融入多阶段的CNN网络中，用以改进不准确的2D姿态估计，修正不合理的3D估计结果。Zhou等人(2015, 2017, 2019)，Hong等人(2018)从Human3.6M(Ionescu等，2014)的3D标注学习出不同动作的稀疏字典或共享字典，用来表示人体3D基本姿态，该方法能够较好地抵抗2D数据不准确或者缺失的问题。

本文在前期工作(Hong等，2018)基础上，提出的SR-MLSTM方法是将基于稀疏表示空间模型与基于MLSTM的时间模型相结合，有两个优势：1)利用预学习的3D姿态字典消除2D姿态到3D姿态求解结果的任意性，得到一个较为合理的2D到3D的映射，在2D关节点探测有误差或缺失时该模型仍然可靠；2)提出的带有残差结构的MLSTM降噪编/解码器模型，能够通过同时保持连续帧的3D姿态在空间结构上和时间上的一致性，缓解每帧的独立误差造成的估计序列在时间上不连贯的问题，进一步提高了3D姿态估计的精度。

2 SR-MLSTM 3D姿态估计模型

本文提出的稀疏表示和多通道长短时记忆模型联合估计方法(SR-MLSTM)，分为两个阶段，如图 1所示。对于给定的2D关节点序列，在第1阶段，首先利用SR模型对单帧进行独立的3D估计。利用融合稀疏表示方法的3D可变形状模型消除3D姿态估计固有的任意性，获得可靠的3D关节点的空间位置关系。通过第1阶段能够为单帧图像提供一个较为合理的3D关节点坐标初始值，将2D姿态映射到最可能的3D姿态；第2阶段是为了在姿态估计中有效结合时间信息，同时不破坏关节点已有的空间位置关系，将获得的3D初始值视为带有噪声的数据，以X，Y，Z 3个方向利用所构建的MLSTM分别进行关节点回归，保证了各关节点空间位置关系不变。利用线性层对噪声数据进行编码，编码后的数据经过带有残差连接的LSTM单元融合时间信息对其进行优化，最后通过解码器获得3D优化结果。同时为使空间下相邻帧之间的各关节点空间位置不会变化太大，本文在对MLSTM模型的训练过程中对人物姿态施加了平滑约束。

图 1 稀疏表示与深度网络联合的视频3D人体姿态估计

Fig. 1 Illustration of SR-MLSTM framework for 3D human pose estimation

2.1 单帧3D人体姿态估计

视频中的3D人体姿态可由$p$个关键点的3D坐标表示。为了减少3D估计的歧义性，对于视频中的第$t$帧，$\forall t\in \left[ 1, T \right]$，假设待估计的3D人体姿态可由一组预先定义的基础姿态线性表示(Zhou等，2015)。视频中的第$t$帧3D人体姿态可表示为

$ {\mathit{\boldsymbol{S}}_t} = \sum\limits_{i = 1}^k {{\mathit{\boldsymbol{c}}_{it}}{\mathit{\boldsymbol{B}}_i}} $

(1)

式中，${\mathit{\boldsymbol{S}}_t} \in {\mathit{\boldsymbol{R}}^{3 \times p}}$为第$t$帧的3D人体姿态，基础姿态${\mathit{\boldsymbol{B}}_i} \in {\mathit{\boldsymbol{R}}^{3 \times p}}$可从大量3D姿势数据中学习得到，$p$为人体关节点个数，$k$为基础姿态的原子个数，$\forall i \in \left[ {1, k} \right]$。${{\mathit{\boldsymbol{c}}_{it}}}$为基础姿态${\mathit{\boldsymbol{B}}_i}$的系数。根据稀疏表示原理，为了用尽可能少的原子来线性表示待估计的3D姿态，采用Hong等人(2018)提出的L_1/2正则化对${\mathit{\boldsymbol{C}}_t}$施加约束，保证求得更优的稀疏解。对于给定的2D关节点${\mathit{\boldsymbol{W}}_t} \in {\mathit{\boldsymbol{R}}^{2 \times p}}$，利用拉格朗日乘子法以能量泛函的形式将稀疏系数求解过程表示为求解最小化能量泛函，即

$ \begin{array}{l} \mathop {\min }\limits_{{{\mathit{\boldsymbol{\overline R}} }_t}, {\mathit{\boldsymbol{C}}_t}} \frac{1}{2}\left\| {{\mathit{\boldsymbol{W}}_t} - {{\mathit{\boldsymbol{\overline R}} }_t}\sum\limits_{i = 1}^k {{\mathit{\boldsymbol{c}}_{it}}{\mathit{\boldsymbol{B}}_i}} } \right\|_F^2 + \\ \lambda \left\| {{\mathit{\boldsymbol{C}}_t}} \right\|_{1/2}^{1/2}\;\;\;{\rm{s}}{\rm{.t}}.\;\;{\mathit{\boldsymbol{\overline R}} _t}\;{\mathit{\boldsymbol{\overline R}} _t}^{\rm{T}} = {\mathit{\boldsymbol{I}}_2} \end{array} $

(2)

式中，${\mathit{\boldsymbol{\overline R}} _t}$为带有正交性质的旋转矩阵，${\mathit{\boldsymbol{C}}_t} = \left[ {{\mathit{\boldsymbol{c}}_{1t}}, \cdots, {\mathit{\boldsymbol{c}}_{kt}}} \right]$为第$t$帧的稀疏系数向量。式(2)表示将待估计的3D姿势向2D空间投影，最小化其与2D关节点位置的距离能够求解对应的3D姿态参数。式(2)中第1项为重构误差，第2项为对${\mathit{\boldsymbol{C}}_t}$施加L_1/2正则化约束。式(2)是一个带有正交约束的非凸优化问题，对此采用了Hong等人(2018)提出的谱范数近端梯度算法及交替方向乘子法ADMM(alternating direction method of multipliers)算法进行求解，得到单帧人体姿态的3D初始值。此方法能够将非凸问题转化为凸优化问题，并且能够保证解的正交性和稀疏性。

2.2 MLSTM的降噪编/解码器

在目前的神经网络中，LSTM模型已经在语音识别(Graves等，2013)和视频描述(Donahue等，2017)等任务中发挥了重要作用。结合LSTM能够有效处理序列数据的特点，提出了一种融合时间信息的MLSTM降噪编/解码器模型，利用多层的LSTM单元捕获单目视频序列的时间变化，解决单帧图像估计造成的3D姿态序列在时间上的不连贯问题。与其他工作不同，本文将通过SR空间模型获得的单帧3D姿态数据视为带有噪声的3D数据，利用MLSTM降噪编/解码器模型学习的丰富帧间时间运动信息对带有噪声的3D数据进行优化。图 2给出MLSTM降噪编/解码器的模型结构。

2.2.1 模型设计

如图 2所示，模型输入为通过稀疏表示方法初始化后的3D初始序列$\mathit{\boldsymbol{\widetilde S}}$，输出为对应的优化3D序列${\mathit{\boldsymbol{\hat S}}}$。为了加速模型收敛，同时保证3D姿态的空间结构性，将输入数据转化为X，Y，Z 3个坐标轴方向的分量，对于每个方向的分量设置了3层LSTM单元，用于学习对应分量上人物姿态的时间变化特征。参考Martinez等人(2017)的方法设置了两层带有BN(batch normalization)(Ioffe和Szegedy，2015)和dropout(Srivastava等，2014)的线性层：一层用于编码输入数据，提取输入数据的高维特征，另一层用于解码数据，预测人体$p$个关键点的3D位置。第1层线性层采用ReLU激活函数(Nair和Hinton，2010)。特别的是，LSTM单元的输出并不是对应分量上的优化结果，而是通过LSTM的隐藏层对输入序列隐式编码后的时间依赖关系。因此，在每一个3层的LSTM单元上增加了一个残差连接用于融合输入数据与时间依赖关系。最终通过最后一层线性层解码，回归相应方向分量上$p$个关键点的3D姿态坐标序列。优化结果为3个方向分量上子结果的拼接。以此实现对3D初始值的细化。

图 2 MLSTM的降噪编/解码器

Fig. 2 Multi-channel LSTM denoising en-decoder

残差连接是He等人(2016)提出的一种便于训练深度神经网络的技术，可以提高模型泛化性能，减少训练时间。同时，本文模型利用LSTM学习到的是视频帧间的时间变化信息，利用残差结构可以将时间变化特征作用到初始的3D参数中，进而优化初始结果。

2.2.2 损失函数

对于一些关节点，比如手肘和脚踝等，在大范围运动的情况下会被遮挡，导致这类关节点无法准确的估计。本文在训练过程中对人物姿态施加了时间平滑约束，使相邻帧之间的人物姿态不会变化太大。因此，模型的损失函数由两项组成：对于训练集N个序列，每个序列T帧的3D关节点位置的优化值与其对应的3D标注数据的均方误差；以及相邻帧之间的3D关节点优化值的一阶平滑约束。

首先对于N个序列，每个序列有T帧的3D关节点优化值与其对应的3D标注数据的均方误差定义为

$ L\left({\mathit{\boldsymbol{\hat S}}, {\mathit{\boldsymbol{S}}^{gt}}} \right) = \frac{1}{{NT}}\sum\limits_{n = 1}^N {\sum\limits_{t = 1}^T {\left\| {\mathit{\boldsymbol{S}}_{n, t}^{gt} - \mathit{\boldsymbol{\psi }}\left({{{\mathit{\boldsymbol{\hat S}}}_{n, t}}} \right)} \right\|_2^2} } $

(3)

式中，${\mathit{\boldsymbol{\hat S}}}$为经过网络优化后的3D关节点序列，${{\mathit{\boldsymbol{S}}^{gt}}}$为对应帧的3D标注数据。$\mathit{\boldsymbol{\psi }}\left(* \right)$为Procrustes相似变换函数。

其次对于N个序列，每个序列有T帧的3D关节点优化值相邻帧之间的平滑约束，定义为

$ \left\| {{\nabla _t}\mathit{\boldsymbol{\hat S}}} \right\|_2^2 = \frac{1}{{N\left({T - 1} \right)}}\sum\limits_{n = 1}^N {\sum\limits_{t = 1}^T {\left\| {{{\mathit{\boldsymbol{\hat S}}}_{n, t}} - {{\mathit{\boldsymbol{\hat S}}}_{n, \left({t - 1} \right)}}} \right\|_2^2} } $

(4)

式中，${\nabla _t}$为时间导数算子。最终的损失函数定义为

$ L = \mathop {\min }\limits_{\mathit{\boldsymbol{\hat S}}} \eta L\left({\mathit{\boldsymbol{\hat S, }}{\mathit{\boldsymbol{S}}^{gt}}} \right) + \mu \left\| {{\nabla _t}\mathit{\boldsymbol{\hat S}}} \right\|_2^2 $

(5)

式中，$\eta $，$\mu $为超参数，用于调节损失函数中每一项的重要程度。

3 模型训练

模型的训练主要分为对SR空间模型中基础姿态字典的学习和对MLSTM时间模型的训练。

3.1 数据集

实验选用Human3.6M数据库(Ionescu等，2014)对模型进行训练和测试，是用于3D人体感知的大型数据集，含有数百万通过动作捕获系统所捕获的3D人体姿态数据以及通过校准相机获取到的对应2D图像，该数据库提供了同步视频以及2D与3D姿态数据库用于实验评估。数据库包括11个实验对象执行15项动作，比如吃饭，打电话和走路等。每段视频由4个不同角度下的高清摄像机捕获，并且数据集提供了2D与对应3D姿势的标注数据以及对应的人物中心的矩形边界框和摄像机内参。实验采用S1、S5、S6、S7、S8这5个序列用于训练稀疏模型的基础姿态，选取S11中第2个视角下的15段动作视频用作测试，剩余S9与S11部分数据用于训练MLSTM降噪编/解码器。

3.2 稀疏模型的训练

稀疏表示模型中，稀疏字典的学习尤为重要，字典的好坏将直接影响3D估计的效果以及稀疏表示解的稀疏性。本文采用矩阵分解与稀疏编码的在线学习方法(Mairal等，2010)学习基础姿态字典。运用非负稀疏编码，本文针对Human3.6M数据集中15个动作将分别学习出一个大小为${\mathit{\boldsymbol{B}}^{k \times 3 \times p}}$的基础姿态字典，$k$为基础姿势$\mathit{\boldsymbol{B}}$的原子个数，$k = 64$，$3 \times p$为$p$个人体关键点的3D坐标。

3.3 MLSTM的降噪编/解码器的训练

MLSTM降噪编/解码器训练数据自于利用稀疏表示得到的单帧初始化的3D数据。为了数据便于训练，对输入数据进行了时间尺度上的零均值标准化处理。训练过程中，为了增加样本数量，采用了一个长度为T，步长为1的滑窗来选取序列长度，因此，训练数据是有重叠的。

实验对MLSTM降噪编/解码器进行了200次迭代训练，每个迭代对全部单帧初始化数据样本(共34 650个batch)进行一次完整的遍历。批处理大小为16，即16个序列，每个序列长度T为5。采用Adam优化器(Kingma和Ba，2014)训练网络，初始学习速率为0.000 1，每50次迭代学习率衰减0.1。第1层线性层维度设为1 024，第2层线性层维度设为$3 \times p$，权值由Kaiming初始化方法(He等，2015)初始化。LSTM单元权值由Xavier初始化器(Glorot和Bengio，2010)初始化。总体模型参数624.5 M。本实验对所有动作序列训练了一个模型。代码在Tensorow中实现。通过对训练集进行交叉验证，将损失函数中的$\eta $，$\mu $分别设置为1和3。在NVIDIA GeForce RTX 2080Ti GPU上，测试阶段对一个长度为5的序列的优化时间花费1.33 ms。

4 实验结果及分析

为了对本文SR-MLSTM方法性能做出评价，采用Human3.6M数据集中S11的15个动作视频用作测试做了比较性实验以及模型分析实验。评价指标采用：估计的3D姿势结果与其对应的3D标注数据进行相似变换对齐后，求所有关键点的平均距离。

4.1 模型性能的定量分析

实验定量分析分为两种情况：1)将数据集中所给的2D标注数据(2D_gt，$p$=17个关节点)作为SR-MLSTM输入；2)利用2D姿态估计网络(CPM)从视频图像获取2D人体关节点置信热图，计算置信热图中概率最大值确定对应的2D关节点坐标(2D_cpm，$p$=17个关节点)作为SR-MLSTM的输入。

4.1.1 2D标注关节点(2D_gt)的3D姿态估计

在给定的2D标注关节点的情况下，与Zhou等人(2015, 2019)的方法进行了对比实验，实验结果如表 1所示。表 1中，第1行Initial为采用传统正则化(Zhou等，2015)进行单帧估计的方法，第2行Optimized为单帧估计的基础上考虑融合几何先验约束后的估计方法(Zhou等，2019)，第3行Initial+L_1/2为本文采用L_1/2正则化进行单帧估计的结果，第4行为本文提出的稀疏与深度结合的空时模型(SR-MLSTM)估计的结果。由第1行与第3行的对比结果可知，在所测试的15段动作序列上，采用的L_1/2正则化方法能够比传统正则化方法获得更优的解。在此基础上，本文考虑帧间的时间相关性，利用所提出的MLSTM降噪编/解码器对单帧结果进行优化，相比于单帧估计，通过MLSTM降噪编/解码器优化后的平均重构误差下降了12.6%；相比于现有的基于视频的稀疏模型方法(Zhou等，2019)，本文方法对视频的的平均重构误差下降了6.4%。

表 1 2D标注关节点(2D_gt)S11序列中15个动作序列重构误差对比
Table 1 Comparison of reconstruction errors of 15 action sequences in S11 using 2D ground truth

下载CSV

/mm
方法	Direct.	Discuss	Eating	Greet	Phone	Pose	Purch.	Sitting	SittingD.	Smoke	Photo	Wait	Walk	WalkD.	WalkT.	平均值
Initial(Zhou等，2015)	43.65	47.17	59.89	56.00	43.77	49.00	45.91	55.24	91.45	43.98	62.58	45.24	46.48	63.00	56.26	53.97
Optimized(Zhou等，2019)	42.59	44.71	55.43	51.22	40.46	45.49	42.00	48.31	80.48	41.06	51.70	42.53	43.75	57.60	50.89	49.21
Initial+L_1/2(本文)	43.08	46.38	57.74	54.95	42.99	48.43	44.53	53.14	88.54	42.98	61.64	43.31	45.61	62.53	54.69	52.70
SR-MLSTM (本文)	40.31	42.79	48.59	50.43	38.54	41.64	38.55	45.45	77.69	37.86	50.36	40.20	38.66	55.11	44.53	46.05
注：黑色字体表示最优结果。

4.1.2 2D估计关节点(2D_cpm)的3D姿态估计

本文对CPM模型进行了微调。利用Human3.6M数据集给定的边界框获取图像中人物的位置，然后将图像重新变换尺寸为368×368像素，送入CPM预测对应的2D关节点位置。通过计算置信热图中的概率最大值确定对应的2D关节点坐标。如表 2所示，本文采用的L_1/2正则化方法依然能够比传统方法(Zhou等，2015)获得更优的解。相比于单帧估计，通过MLSTM降噪编/解码器优化后的平均重构误差下降了13%；相比于现有的深度模型方法(Tome等，2017)，本文方法对视频的平均重构误差下降了12.8%, 相比于现有的基于视频的稀疏模型方法(Zhou等，2019)，本文方法对视频的平均重构误差下降了9.1%。

表 2 2D估计关节点(2D_cpm)S11序列中15个动作序列重构误差对比
Table 2 Comparison of reconstruction errors of 15 action sequences in S11 using 2D pose given by CPM

下载CSV

/mm
方法	Direct.	Discuss	Eating	Greet	Phone	Pose	Purch.	Sitting	SittingD.	Smoke	Photo	Wait	Walk	WalkD.	WalkT.	平均值
Lifting(Tome等，2017)	62.69	61.50	81.17	79.64	67.86	63.92	111.40	88.03	173.23	96.14	97.90	78.20	68.72	120.03	67.36	87.85
Initial(Zhou等，2015)	55.42	67.03	86.55	88.21	74.82	69.36	80.14	100.23	170.89	101.56	110.33	74.69	69.58	115.39	79.99	89.61
Optimized(Zhou等，2019)	51.08	64.96	81.19	82.61	71.34	65.51	76.04	94.74	160.98	96.03	100.72	70.65	66.37	106.05	75.08	84.22
Initial+L_1/2(本文)	54.59	66.42	84.37	86.58	73.63	68.55	78.97	98.57	167.38	99.79	108.23	72.77	68.31	113.29	78.55	88.00
SR-MLSTM (本文)	50.31	57.34	71.28	77.68	63.77	61.34	65.31	87.06	147.56	83.98	90.96	65.37	60.26	100.13	66.17	76.57
注：黑色字体表示最优结果。

定量实验结果表明，相比于基于图像的单帧估计，利用高效地时间优化模型与3D姿势先验结合，能够更有效的提高3D估计的准确率。本文所提出的模型可以学习视频帧间的时间依赖关系，这种时间的一致性信息能够有效解决单帧的3D姿态估计导致的时间不连贯问题，提高估计准确率。

4.2 模型性能的定性分析

图 3展示了对S9中Direction动作在不考虑时间信息的情况下，采用L_1/2正则化与传统正则化求解稀疏模型，进行单帧初始化的估计对比效果。与传统L₁正则化相比，可以明显看到通过L_1/2正则化方法求解的单帧3D姿态更接近标注数据。

图 3 单帧初始化效果对比图

Fig. 3 Comparison of initialization result((a) 2D skeleton; (b) L₁ initialized 3D skeleton; (c) ours; (d) 3D ground truth)

图 4为对S11序列上的Walking, WalkTogether两个序列采用本文提出的SR-MLSTM估计方法的估计效果图。相比于Zhou等人(2019)的方法，本文的SP-MLSTM方法一方面利用更优的稀疏求解算法提高单帧估计的精度，另一方面利用所提出的MLSTM降噪编/解码器能够结合相邻帧之间的时间依赖关系对单帧结果进一步优化，最终得到优于Zhou等人(2019)方法的优化结果，图 4中可以看出尤其是对腿部动作的修正更为明显。

图 4 视频3D估计效果对比图

Fig. 4 Comparison of 3D estimation result in video

((a) 2D ground truth; (b) Zhou et al. (2019); (c) ours; (d) 3D ground truth)

图 5为在2D关节点未知的情况下，对S11序列上的WalkTogeter序列采用SR-MLSTM方法的估计效果图。在由于人体遮挡等不确定性因素导致2D估计关节点不准确的情况下, 本文方法可以在很大程度上纠正这些错误，也能够得到一个更接近标注数据的结果。同时与Zhou等人(2019)的方法相比，本文方法得到的结果也明显更接近标签数据。

图 5 视频3D估计效果对比图(CPM)

Fig. 5 Comparison of 3D estimation result in video (CPM)

((a) CPM detected 2D skeleton; (b) Zhou et al. (2019); (c) ours; (d) 3D ground truth)

4.3 模型结构分析

4.3.1 消融实验

为了验证所提时间模型MLSTM的各组成部分的有效性，本文进行了消融实验。在2D标注关节点作为输入数据的情况下，重构误差对比如表 3所示。实验结果表明，对模型最大贡献的组成元素是在LSTM输出端增加的残差结构，去除残差结构的情况下，模型的误差会增加74%。采用单通道输入方式的情况下，模型误差会增加12%，去除施加帧间的平滑约束模型的重构误差会增加3%，尽管施加平滑约束的没有对估计准确率有很大提升，但是在本文的定性实验中，这种帧间的约束能够保证估计的人物动作是平滑的。对于LSTM在3层的情况下，模型取得最好的效果。

表 3 重构误差对比
Table 3 Comparison of reconstruction errors

下载CSV

/mm
	重构误差	增量
本文	46.05	—
无平滑约束	47.39	1.34
单通道输入	51.63	5.58
无残差连接	79.94	33.89
LSTM(2层)	46.83	0.78
LSTM(4层)	46.77	0.72
注：“—”表示无增量对比。

4.3.2 不同序列长度分析

对于模型的训练和测试试验中都是针对长度为5的输入和输出序列。本文测试了模型在不同的序列长度(2-10)下的性能，结果如图 6所示。图 3可以看出，对于不同长度的序列，本文网络性能保持稳定。当序列长度为5时，模型得到最好的结果。

图 6 不同序列长度的重构误差对比

Fig. 6 Comparison of reconstruction errors of different sequence lengths

5 结论

本文通过稀疏表示与深度模型联合的估计方式，将具有表达性的空间几何姿势先验与时间模型相结合。与以往方法(Tome等，2017)不同，本文没有直接将2D姿态作为深度网络的输入，而是先通过稀疏模型得到一个2D姿态到3D姿态映射的初始值，再通过深度网络解决了单帧估计造成的序列不连贯的问题，从而提高3D估计的精度。在Hu-man3.6M数据集的定性和定量实验结果均表明利用稀疏空间模型和多通道深度时间模型相融合进行估计3D人体姿态的有效性。特别是在Human3.6M数据集的所有15个动作类别上本文提出的MLSTM降噪编/解码器都展示了使用时序信息进行优化的能力。值得一提的是，本文所提的MLSTM模型是一个独立的模块，可用于对含有噪声的3D姿态降噪，有很好的实际应用价值。目前实验还局限于人体姿态库数据，如何利用迁移学习和弱监督技术将本文所提SR-MLSTM应用于缺乏标注信息的实际场景数据中，是后续的研究重点。

参考文献

Bo L F, Sminchisescu C, Kanaujia A and Metaxas D. 2008. Fast algorithms for large scale conditional 3D prediction//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Anchorage: IEEE: 1-8[DOI:10.1109/CVPR.2008.4587578]

Chen C H and Ramanan D. 2017. 3D human pose estimation=2D pose estimation+ matching//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE: 5759-5767[DOI:10.1109/CVPR.2017.610]

Cootes T F, Taylor C J, Cooper D H, Graham J. 1995. Active shape models-their training and application. Computer Vision and Image Understanding, 61(1): 8-59 [DOI:10.1006/cviu.1995.1004]

Donahue J, Hendricks L A, Rohrbach M, Venugopalan S, Guadarrama S, Saenko K, Darrell T. 2017. Long-term recurrent convolutional networks for visual recognition and description. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(4): 677-691 [DOI:10.1109/TPAMI.2016.2599174]

Fan X C, Zheng K, Zhou Y J and Wang S. 2014. Pose locality constrained representation for 3D human pose reconstruction//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer: 174-188[DOI:10.1007/978-3-319-10590-1_12]

Glorot X and Bengio Y. 2010. Understanding the difficulty of training deep feedforward neural networks//Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics. Sardinia, Italy: JMLR: 249-256

Graves A, Mohamed A R and Hinton G. 2013. Speech recognition with deep recurrent neural networks//Proceedings of 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver: IEEE: 6645-6649[DOI:10.1109/ICASSP.2013.6638947]

He K M, Zhang X Y, Ren S Q and Sun J. 2015. Delving deep into rectifiers: surpassing human-level performance on imagenet classification//Proceedings of the IEEE International Conference on Computer Vision. Santiago: IEEE: 1026-1034[DOI:10.1109/ICCV.2015.123]

He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE: 770-778[DOI:10.1109/CVPR.2016.90]

Hong J H, Zhang R, Guo L J. 2018. 3D Human body pose reconstruction via L_1/2 regularization. Acta Automatica Sinica, 44(6): 1086-1095 (洪金华, 张荣, 郭立君. 2018. 基于L_1/2正则化的三维人体姿态重构. 自动化学报, 44(6): 1086-1095) [DOI:10.16383/j.aas.2018.c170199]

Hossain M R I and Little J J. 2018. Exploiting temporal information for 3D human pose estimation//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 69-86[DOI:10.1007/978-3-030-01249-6_5]

Ioffe S and Szegedy C. 2015. Batch normalization: accelerating deep network training by reducing internal covariate shift//Proceedings of the 32nd International Conference on Machine Learning. Lille, France: JMLR: 448-456

Ionescu C, Papava D, Olaru V, Sminchisescu C. 2014. Human3.6M:large scale datasets and predictive methods for 3D human sensing in natural environments. IEEE Transactions on Pattern Analysis and Machine Intelligence, 36(7): 1325-1339 [DOI:10.1109/TPAMI.2013.248]

Jiang H. 2010. 3D human pose reconstruction using millions of exemplars//Proceedings of the 20th International Conference on Pattern Recognition. Istanbul, Turkey: IEEE: 1674-1677[DOI:10.1109/ICPR.2010.414]

Kingma D P and Ba J. 2015. Adam: A Method for Stochastic Optimization[EB/OL].[2019-08-16].https://arxiv.org/pdf/1412.6980.pdf

Lee H J, Chen Z. 1985. Determination of 3D human body postures from a single view. Computer Vision, Graphics, and Image Processing, 30(2): 148-168 [DOI:10.1016/0734-189X(85)90094-5]

Lin M D, Lin L, Liang X D, Wang K Z and Cheng H. 2017. Recurrent 3D pose sequence machines//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE: 5543-5552[DOI:10.1109/CVPR.2017.588]

Mairal J, Bach F, Ponce J, Sapiro G. 2010. Online learning for matrix factorization and sparse coding. The Journal of Machine Learning Research, 11: 19-60 [DOI:10.1145/1756006.1756008]

Martinez J, Hossain R, Romero J and Little J J. 2017. A simple yet effective baseline for 3D human pose estimation//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice: IEEE: 2659-2668[DOI:10.1109/ICCV.2017.288]

Mehta D, Sridhar S, Sotnychenko O, Rhodin H, Shafiei M, Seidel H P, Xu W P, Casas D, Theobalt C. 2017. Vnect:real-time 3D human pose estimation with a single RGB camera. ACM Transactions on Graphics (TOG), 36(4): 1-14 [DOI:10.1145/3072959.3073596]

Mori G, Malik J. 2006. Recovering 3D human body configurations using shape contexts. IEEE Transactions on Pattern Analysis and Machine Intelligence, 28(7): 1052-1062 [DOI:10.1109/TPAMI.2006.149]

Nair V and Hinton G E. 2010. Rectified linear units improve restricted Boltzmann machines//Proceedings of the 27th International Conference on Machine Learning. Haifa: ACM: 807-814

Newell A, Yang K Y and Deng J. 2016. Stacked hourglass networks for human pose estimation//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer: 483-499[DOI:10.1007/978-3-319-46484-8_29]

Ramakrishna V, Kanade T and Sheikh Y. 2012. Reconstructing 3D human pose from 2D image landmarks//Proceedings of the 12th European Conference on Computer Vision. Florence, Italy: Springer: 573-586[DOI:10.1007/978-3-642-33765-9_41]

Sigal L, Isard M, Haussecker H, Black M J. 2012. Loose-limbed people:estimating 3D human pose and motion using non-parametric belief propagation. International Journal of Computer Vision, 98(1): 15-48 [DOI:10.1007/s11263-011-0493-4]

Srivastava N, Hinton G, Krizhevsky A, Sutskever I, Salakhutdinov R. 2014. Dropout:a simple way to prevent neural networks from Overfitting. Journal of Machine Learning Research, 15: 1929-1958

Sun K, Xiao B, Liu D and Wang J D. 2019. Deep high-resolution representation learning for human pose estimation.[EB/OL].[2019-08-16].https://arxiv.org/pdf/1902.09212.pdf

Tome D, Russell C and Agapito L. 2017. Lifting from the deep: convolutional 3D pose estimation from a single image//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE: 5689-5698[DOI:10.1109/CVPR.2017.603]

Wei S E, Ramakrishna V, Kanade T and Sheikh Y. 2016. Convolutional pose machines//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE: 4724-4732[DOI:10.1109/CVPR.2016.511]

Yasin H, Iqbal U, Krüger B, Weber A and Gall J. 2016. A dual-source approach for 3D pose estimation from a single image//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE: 4948-4956[DOI:10.1109/CVPR.2016.535]

Zhou X W, Leonardos S, Hu X Y and Daniilidis K. 2015. 3D shape estimation from 2D landmarks: a convex relaxation approach//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE: 4447-4455[DOI:10.1109/CVPR.2015.7299074]

Zhou X W, Zhu M L, Leonardos S, Daniilidis K. 2017. Sparse representation for 3D shape estimation:a convex relaxation approach. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(8): 1648-1661 [DOI:10.1109/TPAMI.2016.2605097]

Zhou X W, Zhu M L, Pavlakos G, Leonardos S, Derpanis K G, Daniilidis K. 2019. MonoCap:monocular human motion capture using a CNN coupled with a geometric prior. IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(4): 901-914 [DOI:10.1109/TPAMI.2018.2816031]