发布时间: 2021-02-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200037
2021 | Volume 26 | Number 2

综述

单幅图像刚体目标姿态估计方法综述

杨步一, 杜小平, 方宇强, 李佩阳, 王阳

航天工程大学, 北京 101416

收稿日期: 2020-01-31; 修回日期: 2020-05-13; 预印本日期: 2020-05-20

基金项目: 国家自然科学基金项目（61906213）

作者简介: 杨步一, 1991生, 男, 硕士研究生, 主要研究方向为计算机视觉、空间目标光学特征。E-mail:yingmuxianseng@163.com;
杜小平, 通信作者, 女, 教授, 主要研究方向为空间态势感知、目标光学特性研究。E-mail:dxp8600@163.com;
方宇强, 男, 讲师, 主要研究方向为计算机视觉、机器学习。E-mail:fangyuqiang@nudt.edu.cn;
李佩阳, 男, 本科生, 主要研究方向为计算机视觉。E-mail:1025302141@qq.com;
王阳, 男, 讲师, 主要研究方向为空间态势感知、目标光学特性研究。E-mail:youngerpla@163.com

中图法分类号: TP37

文献标识码: A

文章编号: 1006-8961(2021)02-0334-21

摘要

刚体目标姿态作为计算机视觉技术的重点研究方向之一，旨在确定场景中3维目标的位置平移和方位旋转等多个自由度，越来越多地应用在工业机械臂操控、空间在轨服务、自动驾驶和现实增强等领域。本文对基于单幅图像的刚体目标姿态过程、方法分类及其现存问题进行了整体综述。通过利用单幅刚体目标图像实现多自由度姿态估计的各类方法进行总结、分类及比较，重点论述了姿态估计的一般过程、估计方法的演进和划分、常用数据集及评估准则、研究现状与展望。目前，多自由度刚体目标姿态估计方法主要针对单一特定应用场景具有较好的效果，还没有通用于复合场景的方法，且现有方法在面对多种光照条件、杂乱遮挡场景、旋转对称和类间相似性目标时，估计精度和效率下降显著。结合现存问题及当前深度学习技术的助推影响，从场景级多目标推理、自监督学习方法、前端检测网络、轻量高效的网络设计、多信息融合姿态估计框架和图像数据表征空间等6个方面对该领域的发展趋势进行预测和展望。

关键词

计算机视觉; 单幅图像; 刚体目标; 姿态估计; 深度学习

Review of rigid object pose estimation from a single image

Yang Buyi, Du Xiaoping, Fang Yuqiang, Li Peiyang, Wang Yang

University of Space and Engineering, Beijing 101416, China

Supported by: National Natural Science Foundation of China (61906213)

Abstract

Rigid object pose estimation, which is one of the most fundamental and challenging problems in computer vision, has elicited considerable attention in recent years. Researchers are searching for methods to obtain multiple degrees of freedom (DOFs) for rigid objects in a 3D scene, such as position translation and azimuth rotation, and to detect object instances from a large number of predefined categories in natural images. Simultaneously, the development of technologies in computer vision have achieved considerable progress in the rigid object pose estimation task, which is an important task in an increasing number of applications, e.g., robotic manipulations, orbit services in space, autonomous driving, and augmented reality. This work extensively reviews most papers related to the development history of rigid object pose estimation, spanning over a quarter century (from the 1990s to 2019). However, a review of the use of a single image in rigid object pose estimation does not exist at present. Most relevant studies focus only on the optimization and improvement of pose estimation in a single-class method and then briefly summarize related work in this field. To provide local and overseas researchers with a more comprehensive understanding of the rigid body target pose process, We reviewed the classification and existing problems based on computer vision systematically. In this study, we summarize each multi-DOF pose estimation method by using a single rigid body target image from major research institutions in the world. We classify various pose estimation methods by comparing their key intermediate representation. Deep learning techniques have emerged as a powerful strategy for learning feature representations directly from data and have led to considerable breakthroughs in the field of generic object pose estimation. This paper provides an extensive review of techniques for 20 years of object pose estimation history at two levels: traditional pose estimation period (e.g., feature-based, template matching-based, and 3D coordinate-based methods) and deep learning-based pose estimation period (e.g., improved traditional methods and direct and indirect estimation methods). Finally, we discuss them in accordance with each relevant technical process, focusing on crucial aspects, such as the general process of pose estimation, methodology evolution and classification, commonly used datasets and evaluation criteria, and overseas and domestic research status and prospects. For each type of pose estimation method, we first find the representation space of the image feature in the articles and use it to determine the specific classification of the method. Then, we conclude the estimation process to determine the image feature extraction method, such as the handcrafted design method and convolutional neural network extraction. In the third step, we determine how to match the feature representation space in the articles, summarize the matching process, and finally, identify the pose optimization method used in the article. To date, all pose estimation methods can be finely classified. At present, the multi-DOF rigid object pose estimation method is mostly effective in a single specific application scenario. No universal method is available for composite scenes. When existing methods meet multiple lighting conditions, highly cluttered scenes, and objects with rotational symmetry, the estimation accuracy and efficiency of the similarity target among classes are significantly reduced. Although a certain type of method and its improved version can achieve considerable accuracy improvement, the results will decline significantly when it is applied to other scenarios or new datasets. When applied to highly occluded complex scenes, the accuracy of this method is frequently halved. Moreover, various types of pose estimation methods rely excessively on specialized datasets, particularly various methods based on deep learning. After training, a neural network exhibits strong learning and reasoning capabilities for similar datasets. When introducing new datasets, the network parameters will require a new training set for learning and fine-tuning. Consequently, the method will rely on a neural network framework to achieve pose estimation of a rigid body. This situation requires a large training dataset for multiple scenarios to learn, making the method more practical; however, accuracy is generally not optimal. By contrast, the accuracy of most advanced single-class estimation can be achieved by researchers' manually designed methods under certain single-scenario conditions, but migration application capability is insufficient. When encountering such problems, researchers typically choose two solutions. The first solution is to apply a deep learning technology, using its powerful feature abstraction and data representation capabilities to improve the overall usability of the estimation method, optimize accuracy, and enhance the effect. The other solution is to improve the handcrafted pose estimation method. A researcher can design an intermediate medium with increased representation capability to improve the applicability of a method while ensuring accuracy. History helps readers build complete knowledge hierarchy and find future directions in this rapidly developing field. By combining existing problems with the boosting effects of current deep learning technologies, we introduce six aspects to be considered, namely, scene-level multi-objective inference, self-supervised learning methods, front-end detection networks, lightweight and efficient network designs, multi-information fusion attitude estimation frameworks, and image data representation space. We prospect all the above aspects from the the perspective of development trends in multi-DOF rigid object pose estimation. The multi-DOF pose estimation method for the single image of a rigid object based on computer vision technology has high research value in many fields. However, further research is necessary for some limitations of current technical methods and application scenarios.

Key words

computer vision; single image; rigid object; pose estimation; deep learning

0 引言

姿态估计是多类计算机视觉任务的重要分支，其核心是从图像中解算出单类或多类目标实体的位置平移和方位旋转，实现仿维图像信息到3维空间信息的扩展。在工业操控领域，精确操控工业机器人机械臂作业完成装配、拾取和分拣操作；在智能驾驶领域，基于视觉测量的路况信息，可实现汽车自主导航与风险避让；在航空航天领域，精确的空间场景解析，可实现自动交会对接、在轨自服务、飞行状态预测和威胁预警等多类应用。因此，精确高效的姿态估计结果是实现各类视觉应用的核心，同时也是连接更高层视觉任务的纽带。

随着深度学习技术在人工智能领域的极大助推，计算机视觉领域迎来加速发展，基于深度学习的视觉测量技术使得单帧图像姿态估计效能大幅提升。从2维目标检测到3维目标检测，再到依赖检测结果估算刚体目标姿态信息，姿态估计任务的演进和发展都与目标检测任务密切相关。伴随目标检测技术的新突破，姿态估计方法发生了跨越，依靠深度学习框架的特征抽取替代了手工设计目标特征提取，对特征的描述、抽取和匹配方法不断变化，姿态估计精度和效能不断提升，各类姿态估计方法在Linemod(multimodal-line)数据集上的结果如图 1所示。

图 1 Linemod数据集上各姿态估计方法结果

Fig. 1 Results of the pose estimation methods on the Linemod dataset

实现准确的图像目标姿态恢复，不仅需要设计或选择合适的姿态估计方法，而且离不开良好的图像质量和目标特性。在实际应用中，姿态估计场景和现实环境因素的不断变化给估计任务带来了巨大挑战，图 2展示了影响刚体目标姿态估计结果的各种因素。

图 2 影响刚体目标姿态估计结果的因素

Fig. 2 Factors affecting results of rigid object pose estimation

总体而言，姿态估计的难点主要是由于获取的图像本身效果差和拍摄目标本身的特性不够，导致不能提供足够的信息完成目标识别、特征匹配和姿态估计。其中，图像质量受环境噪声、光照条件和实物遮挡等因素影响，目标特性在目标表面纹理、特殊轴对称目标、类间相似性和类间多样性等方面表现不够，二者共同构成了姿态估计任务的影响因素。

图 3是影响估计任务的多种实际样式，图像选自BOP(benchmark for 6D object pose estimation)数据集(Hodaň等，2018)、欧洲航天局SPEED(Spacecraft Pose Estimation Dataset)空间目标姿态估计数据集和互联网。

图 3 姿态估计影响因素实例图像

Fig. 3 Examples of factors affecting pose estimation

目前，刚体目标姿态估计领域还没有系统地梳理和归纳，本文对该领域不同方法进行深入分析，对典型研究方法进行总结和概括，主要目标是对刚体目标姿态的通用估计方法和技术进行全面归纳，有助于对各种方法策略间的异同有明晰的理解，了解该领域的现状并确定未来研究方向。

1 刚体目标姿态估计的一般过程

从单幅图像中解算出目标的空间多自由度姿态信息、实现从2维到3维的结构提取，可以采用传统计算机视觉领域中的立体视觉方法。如图 4所示，R和T分别代表旋转矩阵和平移向量，P为图像特征点。从相机到图像再到场景，具有严格的几何属性和对极约束，通过场景中多角度图像融合配准，能够重建出目标3维原像，进而得到场景目标的姿态信息。

图 4 立体视觉示意图

Fig. 4 Diagram of stereo vision

然而，随着技术应用的外延不断扩展，并不总能完成对场景目标多角度连续拍摄，或因图像质量和视角有限，需要寻求更一般的方法，即从单幅图像获取目标姿态信息，这给计算机视觉领域提出了新的挑战。2维平面图像因没有距离维信息，而单幅图像携带的信息量受限，信息维度的提升面临一对多、甚至无解的情况，这属于视觉领域的不适定问题。

1.1 刚体目标姿态估计问题

基于单幅图像的刚体姿态估计(pose estimation)是指运用相机透视成像模型在目标本体坐标系B中3维模型点坐标与其对应的投影图像上的2维图像点坐标，求解目标系B与相机系C之间转换关系的过程。以针孔相机模型为例，图 5为相机成像示意图。

图 5 刚体目标姿态估计示意图

Fig. 5 Diagram of rigid object pose estimation

图 5定义了成像模型中的4个坐标系，分别是相机坐标系O_CX_CY_CZ_C、目标本体坐标系O_BX_BY_BZ_B、图像坐标系O_RUV和图像像素坐标系O_IUV。令$ {\mathit{\boldsymbol{q}}_i} = \left({x_B^i, y_B^i, z_B^i} \right)\left({i = 1, 2, \cdots, n} \right)$为目标本体坐标系中的$n $个3维模型点；${\mathit{\boldsymbol{p}}_i} = \left({{u_i}, {v_i}} \right)\left({i = 1, 2, \cdots, n} \right) $为图像坐标系中对应的$n $个2维图像点。

令$ {\mathit{\boldsymbol{q}}^C} = {\left({{x_C}, {y_C}, {z_C}, 1} \right)^{\rm{T}}}$为目标上的点$\mathit{\boldsymbol{q}} $在相机坐标系$ C$上的齐次坐标，根据针孔相机成像模型，$\mathit{\boldsymbol{q}} $通过透视投影到图像像素坐标的投影转换关系可表示为

$ {z_C}\left[ \begin{array}{l} u\\ v\\ 1 \end{array} \right] = \left[ \begin{array}{l} \alpha {x_C} + {u_0}{z_C}\\ \beta {y_C} + {v_0}{z_C}\\ {z_C} \end{array} \right] = \left[ {\begin{array}{*{20}{c}} \alpha &0&{{u_0}}&0\\ 0&\beta &{{v_0}}&0\\ 0&0&1&0 \end{array}} \right]\left[ \begin{array}{l} {x_C}\\ {y_C}\\ {z_C}\\ 1 \end{array} \right] $

(1)

$ \left\{ \begin{array}{l} \alpha = \frac{{{f_x}}}{{{d_x}}}\\ \beta = \frac{{{f_y}}}{{{d_y}}} \end{array} \right. $

(2)

式中，${f_x}{\rm{与}}{f_y} $分别为相机的焦距，${d_x} $、${d_y} $分别表示每一个像素在横轴X和纵轴Y上的物理长度。主点O_R定义为像素坐标${O_R}\left({{u_0}, {v_0}} \right) $的原点。

图 5中${{\mathit{\boldsymbol{R}}^{BC}}} $为目标本体坐标系$B $到相机坐标系$C $之间的旋转矩阵，${{\mathit{\boldsymbol{T}}^{BC}}} $为坐标系$B $到坐标系$ C$的平移向量，令$ {\mathit{\boldsymbol{q}}^B} = {\left({{x_B}, {y_B}, {z_B}, 1} \right)^{\rm{T}}}{\rm{为}}\mathit{\boldsymbol{q}}$点在目标系B中的齐次坐标，则${\mathit{\boldsymbol{q}}^C}{\rm{和}}{\mathit{\boldsymbol{q}}^B} $的转换关系为

$ \left[ \begin{array}{l} {x_C}\\ {y_C}\\ {z_C}\\ 1 \end{array} \right] = \left[ {\begin{array}{*{20}{c}} {{\mathit{\boldsymbol{R}}^{BC}}}&{{\mathit{\boldsymbol{T}}^{BC}}}\\ {{{\bf{0}}^{\rm{T}}}}&1 \end{array}} \right]\left[ \begin{array}{l} {x_B}\\ {y_B}\\ {z_B}\\ 1 \end{array} \right] $

(3)

像素坐标${\left[ {u, v, 1} \right]^{\rm{T}}} $与目标本体坐标系$ {O_B}$中的3维空间点${\mathit{\boldsymbol{q}}^B} = {\left[ {{x_B}, {y_B}, {z_B}, 1} \right]^{\rm{T}}} $的转换关系为

$ {z_C}\left[ \begin{array}{l} u\\ v\\ 1 \end{array} \right] = \left[ {\begin{array}{*{20}{c}} \alpha &0&{{u_0}}\\ 0&\beta &{{v_0}}\\ 0&0&1 \end{array}} \right]\left[ {\begin{array}{*{20}{c}} {{\mathit{\boldsymbol{R}}^{BC}}}&{{\mathit{\boldsymbol{T}}^{BC}}} \end{array}} \right]\left[ \begin{array}{l} {x_B}\\ {y_B}\\ {z_B}\\ 1 \end{array} \right] $

(4)

令$\mathit{\boldsymbol{K = }}\left[ {\begin{array}{*{20}{c}} \alpha &0&{{u_0}}\\ 0&\beta &{{v_0}}\\ 0&0&1 \end{array}} \right] $，其中$ \alpha, \beta, {u_0}, {v_0}$均由相机自身性质决定，称为内部参数，$\mathit{\boldsymbol{K}} $称为内参矩阵；令$\mathit{\boldsymbol{M = }}\left[ {{\mathit{\boldsymbol{R}}^{BC}}, {\mathit{\boldsymbol{T}}^{BC}}} \right] $，其中$ {\mathit{\boldsymbol{R}}^{BC}}{\rm{和}}{\mathit{\boldsymbol{T}}^{BC}}$由测量目标与相机之间的相对位姿决定，是外部未知量，$\mathit{\boldsymbol{M}} $称为外参矩阵；令$ \mathit{\boldsymbol{P}} = \mathit{\boldsymbol{KM}}{\rm{, }}\mathit{\boldsymbol{P}}$称为投影矩阵。位姿估计问题记为

$ {z_C}\left[ \begin{array}{l} u\\ v\\ 1 \end{array} \right] = \mathit{\boldsymbol{KM}}\left[ \begin{array}{l} {x_B}\\ {y_B}\\ {z_B}\\ 1 \end{array} \right] = \mathit{\boldsymbol{P}}\left[ \begin{array}{l} {x_B}\\ {y_B}\\ {z_B}\\ 1 \end{array} \right] $

(5)

通过图像估计矩阵$\mathit{\boldsymbol{P}} $就是对刚体目标进行姿态估计的过程。

1.2 刚体目标姿态估计一般过程

在计算机视觉领域，对刚体目标进行有效的姿态估计方法相继提出，如基于特征点的方法、基于模板的方法和基于3D坐标的方法等。区别于多视几何的直接方程解，上述方法均属于多阶段估计，在完成相似性对比后，将多种相近候选结果限定在有效范围内，通过近似的估计或逼近，得到最佳估计姿态。

从原理来看，上述方法都在寻求建立从已知图像信息到未知姿态信息的关系。类似于对生物视觉的研究，通过眼睛获取视觉信息，经过后天的观察和学习，逐渐形成知识和经验，通过这些经验和知识建立视觉信息与空间信息的联系。在计算机视觉领域，连接这种关系的桥梁称为表征空间。对于姿态估计任务，这些表征空间可以是特征点、模板、描述符、3D坐标和BB(bounding box)等。通过对各类估计方法分析可知，完成姿态估计任务通常包括搭建真值姿态空间、输入图像特征提取、相似性匹配和姿态优化等4个步骤。

1.2.1 搭建真值姿态空间

搭建真值姿态空间的主要任务是解构场景中目标的姿态空间，以表征空间的形式(包括但不限于目标的类标签、位置和姿态等真值信息)构成。首先，通过提取某一确定姿态3D模型的表征空间，以此为中介表示该已知姿态值。然后计算下一确定姿态对应的表征空间，当各种真值姿态的表征空间提取完毕后，所形成的集合称为真值姿态空间。

对真值表征空间的计算，因选取估计方法的不同存在较大差异，一般过程和常用方法如图 6中①所示。举例说明，以BB作为表征空间，对于姿态已知的3D模型可直接得到3D边界框，然后将边界框投影至2D图像平面得到2D边界框顶点，以此作为某一确定姿态下的真值姿态空间。目前，姿态估计框架训练所需的真值姿态空间信息大都包涵在常用数据集中。

图 6 刚体目标姿态估计一般流程

Fig. 6 General process of pose estimation

1.2.2 输入图像特征提取

该环节是对未知输入图像信息进行挖掘。对应上一步提取已知姿态目标的表征空间，该过程提取未知姿态下的表征空间，为下一步匹配计算提供输入信息。在深度神经网络出现后，通常首先根据估计网络框架的输入需求对输入图像进行相应的预处理操作，由于该过程基于目标检测这一计算机视觉的基础任务，故目标检测任务的发展推动着整个姿态估计研究的进程。

1.2.3 相似性匹配

该步骤属于实质上的刚体目标姿态估计，通过将未知图像计算的表征空间与上文计算好的已知真值姿态空间进行比对，当相似性得分超过预设门限值，默认输出一组估计姿态结果(池)，称为姿态粗估计。其中，比对方法因表征空间的不同有所区别。以BB为例，当2维图像中目标估计姿态的8个边界框顶点与真值姿态下边界框的8个顶点距离差值在门限范围内，则作为候选姿态值，超出门限的姿态估计结果被舍弃。

由于图像是2维信息，而空间姿态属于3维信息，为方便匹配，通常将估计姿态值投影至2维，以重投影误差的方式衡量估计精度，或将2维图像上的刚体目标提升至3维，以平均距离(average distance to the 3D model，ADD)的形式衡量估计效果。

1.2.4 姿态优化

常见迭代最近邻法(iterative closest point, ICP)完成最后的姿态优化结果以迭代的方式不断逼近真值姿态，最终得到最佳估计姿态。由于得到了姿态估计结果，有的方法计算精度已达到任务需求，因而不是所有姿态估计方法都必须执行姿态优化。

2 姿态估计方法

在深度卷积神经网络广泛应用之前，各类视觉算法都要建立在数字图像处理、模式识别、计算机图形学、机器学习、统计学和优化论等多学科基础上。一个完整的视觉算法需经过图像预处理、图像特征识别和提取，最终实现视觉推理与目标识别任务。

2.1 姿态估计方法的演进

姿态估计方法的分类很多，按输入图像可分为基于RGB(red, green, blue)图像的估计方法和基于RGB-D(RGB + depth map)图像的方法；按估计任务难点可分为针对无纹理目标的方法、针对杂乱和遮挡环境的方法和针对对称目标的方法；按检测算法的演进可分为传统手工设计阶段和基于深度学习的估计阶段；最常用的是按表征空间划分为基于特征点的方法、基于模板的方法和基于3D坐标的方法等。深度学习技术以强大的学习和抽象能力在目标检测领域取得了卓著成果，推动以目标检测为基础的姿态估计任务派生出基于深度学习的方法，本文也将以此为发展脉络分析总结梳理姿态估计方法的发展历程。

随着深度学习技术对整个计算机视觉领域发挥的巨大助推作用，本文将姿态估计方法分为传统手工设计的姿态估计方法时期(2015年以前)和基于深度学习的姿态估计方法时期(2015年以后)两个阶段，如图 7所示。在传统手工设计阶段，产生了基于特征点的方法、基于模板的方法和基于3D坐标的方法等3类代表性的方法，且至今仍在发展变化。当姿态估计进入深度学习阶段，卷积神经网络(convolutional neural network，CNN)对传统方法改良的同时，产生直接法(分类法和回归法)和表征空间法等新的估计方法。

图 7 姿态估计方法演进

Fig. 7 A road map of pose estimation

2.2 传统手工设计姿态估计

刚体目标姿态估计作为典型视觉任务，遵循一般的算法设计流程。深度学习阶段之前的姿态估计算法由于缺乏强大的图像特征提取与表示方法，必须全流程设计特征提取与表示、表征空间特征匹配、姿态估计和优化等环节，且在有限的计算能力和计算资源下，无法处理全局性稠密特征的计算，因而寻求以稀疏的点对特征描述图像并估计目标姿态。

2.2.1 基于特征点的姿态估计方法

1999年，Lowe提出的尺度不变特征算法(scale invariant feature transform，SIFT)(Lowe, 1999, 2004)是早期特征检测与匹配的优秀算法代表。不仅在多尺度目标特征提取上稳定高效，且对图像和场景目标具有旋转不变性，上述优点使得SIFT算法推广应用于解决目标6D自由度(degrees of freedom，DoF)姿态估计问题，通过提取多尺度图像不变特征，完成未知图像目标特征与已知3D模型数据集的特征间进行匹配，不同关键点特征之间的特定聚类组合，与确定姿态下3D模型的特征，构成匹配对应关系，然后以几何投影关系求解最小二乘问题(least-squares problem)(Umeyama，1991)验证匹配特征，实现图像到真值间的对应关系(Lowe, 1999, 2001；Rothganger等，2006；Wagner等，2008；Collet等，2011)，属于标准的两阶段估计法，如图 8所示，图中$ \mathit{\boldsymbol{\hat R}}{\rm{和}}\mathit{\boldsymbol{\hat T}}$为姿态估计值。通过深入分析可知，这种以组合关键点信息为表征空间的两阶段估计方法在早期的姿态估计领域得到了广泛研究和扩展。

图 8 特征点匹配估计法

Fig. 8 Feature point matching estimation

2007年，李飞飞团队提出3D目标类模型(Savarese和Li，2007)，以特征提取起步，用多维SIFT特征向量描述全图像的上千个局部图像块，再通过组合特征块的彩色编码特征、色块关系以及外观和几何结构三部分构建3D目标模型，完成对特定目标类、姿态和尺度等信息的模型描述，在对未知图像进行姿态估计时，以同样构建“组合特征模型”的方法描述未知图像，如图 9(a)所示，图中${\mathit{\boldsymbol{F}}_i}\left({i = 1, \cdots, 6} \right) $为目标组合特征。通过与已知模型的匹配得到未知的姿态信息。该方法无需恢复完整的3D几何图形，仅通过图像特征块及其相互间的关系构建组合特征模型，实现对3D通用目标类别的表示和学习。之后，随着输入信息从2维平面增加到3维深度通道维度，特征点除了原有的像素梯度信息还增加了法线方向信息，因此又衍生出利用新信息的估计方法——稀疏点对特征法(Drost，2010；Hinterstoisser等，2016；Vidal等，2018)。Drost等人(2010)提出，通过点对间的法向夹角和距离信息，构成独有的点对特征，如图 9(b)所示，图中$ {\mathit{\boldsymbol{F}}_{{P_{i, j}}}}\left({{P_i}, {P_j}} \right)$为点${P_i}{\rm{与}}{P_j} $组成的点对特征，实现对目标的全局建模描述，然后表征空间特征点对，再以反向投影的方式建立2D—3D对应关系，从而恢复6D姿态信息。手工设计关键点特征和提取方法，因关键点离散分布于全图幅强纹理处，当场景存在部分遮挡，且遮挡目标未覆盖于关键点之上，或仅遮挡少数关键点，不影响特征相似性匹配计算时，该方法对部分遮挡稳定。提取特征必须要求输入具备足够的纹理信息、像素梯度的变化和边角组合成图案，构造出独一无二的图像特征用以识别和比对，无纹理和弱纹理目标都会使该方法失效。因此，该方法效果的好坏均取决于关键点，即能否提取出足够信息的关键点和遮挡后能否留下足够的关键点。

图 9 组合特征模型与点对特征

Fig. 9 Combined feature model and point-pair feature((a)3D object category model; (b)point-pair features)

2.2.2 基于模板的姿态估计方法

Hinterstoisser等人(2012)将基于模板的Linemod目标检测法(Hinterstoisser等，2011b)扩展到刚体目标姿态估计领域，并成为该领域的经典估计方法，且其贡献的Linemod数据集也成为该领域最常应用的数据集之一。该方法也遵循图 6经典的两阶段估计法，第1阶段完成模板表征空间的创建。首先，以正20面体的顶点为基础，离散化地选取3 115幅不同视图，完成视点采样；其次，通过量化计算每幅视图内的色彩梯度和表面法线，构成视图模板。第2阶段，计算未知视图下的模板特征，完成与真值模板间的匹配得到姿态信息，如图 10所示。随后也有部分改进方法，有的是以改进的模板法实现姿态估计，例如，局部模板法(Tejani等，2014)，将整幅图像划分为多个小的局部图像块，计算每个图像块的局部模板，再通过隐类霍夫森林预测其位置和姿态信息；有的是改进了基于模板的3D目标探测方法，如匹配优化法(Rios-Cabrera和Tuytelaars，2013)通过支持向量机(support vector machine，SVM)改进模板特征的判别性，提高检测准确率，优化了3D目标探测方法，以及两阶段探测法(Cai等，2013)、哈希表匹配法(Kehl等，2016)和判别模型法(Aubry等，2014)等。

图 10 基于模板的姿态估计方法

Fig. 10 Template-based pose estimation method

这种通过整体特征构建模板的方法容易实施，但无法实现高精度姿态估计，离散化视点采样得到的姿态空间并不能完整地覆盖整个姿态空间，且模板的计算数量直接关联计算消耗，稀疏的采样模板容易导致低姿态估计精度，而稠密的采样模板不但增加了计算负荷，还易导致模板匹配过程中的多值模糊，因而在高精度姿态任务中必须控制好采样粒度，同时依靠较好的姿态优化后处理过程。

通过分析可知，模板法(Hinterstoisser等，2012)及其相关方法(Hinterstoisser等，2011a, Rios-Cabrera和Tuytelaars，2013；Kehl等，2016)，通过各角度观测视图构建离散化的真值姿态空间，以视图模板作为表征空间，构建未知观测到已知姿态的对应关系，与关键点法相比，是一种在更大尺度范围内的特征集之间的匹配，该特征集是整个图像计算范围内全部特征的集合，根据输入的不同，计算特征主要有色彩梯度、像素强度、深度法向和色彩直方图等信息(Hinterstoisser等，2011a；Tejani等，2014；Hodaň等，2015；Kehl等，2016)，因特征信息的扩充和比对范围的尺度扩展，该方法能够有效解决无纹理目标的姿态估计问题。也正是因为姿态与模板间的一一对应关系，使得在出现对称目标时，一个模板可对应多个姿态的情况，导致方法失效。同样，当场景中出现部分遮挡时，一个正确的匹配模板可能因为遮挡的存在，得到较低的模板表征空间匹配得分，也会造成方法失效。

2.2.3 基于3D坐标的姿态估计方法

Brachmann等人(2014)提出了以3D目标坐标为表征空间的姿态估计方法，成为又一种以RGB-D图像为输入对抗无纹理目标的经典方法。同时，Brachmann等人(2014)提出了自己的数据集，称为遮挡的Linemod数据集，与Hinterstoisser提出的数据集同为常用姿态估计数据集。该方法利用随机森林的数据学习能力，预测每一块图像像素的坐标和类标签，构建起2维到3维的对应关系，利用能量方程估计目标初始姿态，随后的RANSAC(random sample consensus)(Fischler和Bolles，1981)过程完成姿态优化。该方法也属于标准的两阶段估计法，如图 11所示，其中H为姿态组，包括目标空间坐标及标签。随后又将该估计方法进行了改进(Krull等，2015)，引入卷积神经网络(CNN)作为概率模型，替代之前的能量方程形式，比较观测图像与渲染图像间的差异，以能量最小化预估姿态；Brachmann等人(2016)借鉴自动上下文框架(Tu和Bai，2009)，联合回归目标坐标和标签，提高分类能力，通过固定的RANSAC假设预算初步估计目标姿态，最后利用目标坐标预测的不确定度优化姿态估计结果，并将输入通道降维至RGB图像，更利于该方法的普遍应用；Michel等人(2017)以全连接的条件随机场(conditional random field，CRF)建立图像像素到3D坐标的联系，再通过一种变体的迭代最近邻算法(iterative closest points，ICP)，从这些姿态一致性像素中得到最终姿态。

图 11 3D坐标的姿态估计过程

Fig. 11 3D coordinate pose estimation process

该类方法均属随机森林对局部像素块的训练、分类和识别应用，代表了当时随机森林及其变体霍夫森林(Gall等，2011)应用局部像素块实现目标检测和姿态估计任务的另一类流派思路，而同时期目标检测领域涌现了大量优秀的检测网络，如Faster RCNN(region proposals convolutional neural network)(Ren等，2017)、YOLO(you only look once)(Redmon等，2016)和SSD(single shot multibox detector)(Liu等，2016)等，以此可以看出姿态估计即将转入深度网络的主流应用阶段。

通过深入分析可知，以目标坐标为表征空间的方法尽管在估计效率和精度上有所提高，但通过局部像素块建立起到3维的坐标点存在大量杂乱的外值点，必须搭配较好的后优化环节。此外，对称目标的坐标回归仍是一个较大的难题，计算过程只能是像素到坐标的一一对应关系，而对称目标在其对称区间存在多对一的情况，容易致使方法失效。

2.3 基于深度学习的姿态估计方法

卷积神经网络(CNN)以多层处理、逐层抽象及学习特征的相互组合，能够多层抽象表示图像特征，在完成各类图像处理任务时具备天然优势。2012年，Krizhevsky团队提出的AlexNet (Krizhevsky等，2012)深度卷积神经网络在ImageNet大赛中获得冠军，网络结构如图 12所示，卷积神经网络(CNN)的优异性能得到广泛关注。自此，深度学习逐步进入计算机视觉领域，帮助其实现各类视觉任务。Girshick等人(2014)提出区域卷积神经网络(RCNN)，标志着目标检测步入深度学习阶段。此后，由于图像分类(Russakovsky等，2015)、目标检测(Girshick等，2014)和图像分割(Shelhamer等，2017)等视觉任务的发展，推动目标姿态估计能力的提升。2015年，姿态网络(Kendall等，2015)、渲染CNN(Su等，2015)以及CNN特征描述符(Wohlhart和Lepetit，2015)等方法的出现，标志着姿态估计开始进入深度学习阶段。由于姿态估计任务涉及相机重定位、图像配准、目标检测和语义分割等多项计算机视觉任务，估计方法和思路来源较广，对深度学习阶段姿态估计方法的分类也存在部分交叠，根据其估计过程的核心，本文将其分为传统改良法、直接法和间接法。

图 12 AlexNet网络结构(Krizhevsky等，2012)

Fig. 12 The structure of AlexNet(Krizhevsky et al., 2012)

1) 传统改良法。在深度学习应用之前，特征的提取由SIFT、HOG(histogram of oriented gradients)(Dalal和Triggs，2005)算法实现，由DPM(deformable part-based model)完成对目标的检测，但目标特征均源自纯手工设计和提取。当姿态估计转向深度学习探索后，特征提取、目标检测和匹配计算等任务几乎都由CNN完成。深度学习方法对前文提到的3种经典估计方法进行了改良，如表 1所示。Tulsiani和Malik(2015)、Pavlakos等人(2017)对特征点法进行改进，Tulsiani和Malik(2015)将姿态估计问题转化为视点估计问题，然后用CNN进行视点估计，Pavlakos等人(2017)应用CNN预测模型和图像间的语义特征点，然后匹配计算得到姿态值；Wohlhart和Lepetit(2015)对模板法进行改进，通过CNN提取图像特征描述符，构建原始图像与模板图像之间的映射关系。该方法也称特征描述符法，但CNN计算描述符的初衷是为了构建特定视图模板，形成表征空间，建立与真值的对应关系，因此将其方法归类为模板法；对3D坐标法的改进，除了CNN替代随机森林预测像素坐标的方法，在3D目标检测领域取得优异表现的边界盒法，同样完成了图像像素到3D坐标的映射，区别在于前者得到目标3D坐标，后者得到目标边界盒的顶点坐标。

表 1 传统改良法的特征概括
Table 1 Summary of the methods of traditional reform

下载CSV

名称	输入	方法	特征提取	过程	数据集	结果
HOG	RGB	方向梯度直方图	手工设计	输入图像→提取HOG特征向量→线性SVM进行分类	Linemod	正确率40.50%
Linemod	RGB	基于模板的方法	手工设计	输入图像→计算特征模板→模板相似性匹配→后处理优化	Linemod	正确率55.20%
Feature descriptors	RGB	基于特征描述符的方法	CNN提取	输入图像→利用CNN提取特征描述符→描述符相似性匹配	Linemod	正确率98.20%
Viewpoints and Keypoints	RGB	视点估计	CNN提取	输入图像→利用CNN预测视点+计算多尺度卷积响应图→结合前两项预测姿态	PASCAL3D+	平均精度81.00%
Semantic Keypoints	RGB	语义特征点	CNN提取	输入图像→CNN预测模型+图像间的语义特征点→匹配计算姿态值	PASCAL3D+	平均精度92.01%

2) 直接法。大多数姿态估计的深度学习方法都属于直接计算的方法，依靠深度CNN提取原始图像特征，然后将特征图送入专门构建的姿态估计分支、目标类估计分支和语义分割分支等，最终得到图像中各目标实例的姿态信息。如表 2所示，直接法主要有分类和回归两种方法。分类是对目标模型进行高粒度离散视图采样，形成离散的真值姿态空间，比对观测图像与真值图像的一致性，将姿态估计问题转化为图像分类问题(Gupta等，2015；Su等，2015；Poirson等，2016)，其中, Gupta等人(2015)以CNN进行姿态粗分类，再以最小化重投影误差与真值模型进行配准；Su等人(2015)训练CNN在合成图像上进行视点姿态分类；Poirson等人(2016)基于SSD检测器直接在多个离散化BB网格上检测目标估计姿态，将姿态估计问题转化为姿态分类问题。但是，此类方法存在估计精度不高、依赖姿态优化环节和视图采样数量随目标实例数量不断增长等不足。回归是利用回归计算的思想，以损失函数最小化的方式多次计算，回归至真值，将姿态估计问题转化为姿态回归问题(Kendall等，2015；Schwarz等，2015；Xiang等，2017；Corona等，2018；Do等，2018；Li等，2018；Manhardt等，2018)。其中，Kendall等人(2015)在GoogLeNet(Szegedy等，2015)网络基础上改进并提出了PoseNet姿态估计网络，通过SFM(structure from motion)完成对数据集真值姿态的自动标注，以CNN回归计算未知姿态；Schwarz等人(2015)利用CNN提取彩色图像和着色深度图像特征，然后由支持向量机回归估计目标姿态；Xiang等人(2017)在计算光流网络Flownet(Dosovitskiy等，2015)的基础上，提出PoseCNN姿态估计网络，通过CNN提取的卷积特征，分三路分别获取目标类信息、位置信息和姿态信息，以回归计算的方式，采用四元数的形式表示和估算姿态；Corona等人(2018)通过12面体视图采样后，应用CNN分两路计算目标姿态和分类目标对称排序，以softmax回归视图相似性得分，得到最佳姿态；Do等人(2018)在卷积神经网络VGG(Simonyan和Zisserman，2014)为主干框架的基础上，引入基于目标分割网络Mask R-CNN(He等，2017)，增加第三分支直接解耦计算姿态，以李代数表示回归旋转；Li等人(2018)应用CNN提取特征，直接解耦计算旋转和平移，并使用重投影误差最小化回归计算最佳姿态并将提出的方法命名为DeepIM姿态估计网络；Manhardt等人(2018)已知初始估计值，利用Inception V4(Szegedy等，2017)模块，结合新的视觉损失函数，通过对准目标轮廓，训练CNN回归更新目标姿态，且其旋转姿态以四元数的形式表示。

表 2 直接法的特征概括
Table 2 Summary of the direct methods

下载CSV

输入	主干网络	文献	特点	过程	数据集	结果
RGB	AlexNet	Su等人(2015)	在合成图像上训练CNN	输入图像→在合成图像集上训练好的CNN→几何结构感知损失函数进行视点估计	Clean	最佳正确率94.2%
					Cluttered	最佳正确率95.0%
					Ikea	最佳正确率96.9%
					VOC-easy	最佳正确率85.0%
					VOC-all	最佳正确率50.0%
RGB-D	-	Gupta等人(2015)	3D点配准优化	输入图像→CNN进行姿态粗分类→最小化重投影误差与真值模型进行配准	NYUD2	平均最佳正确率70.7%
RGB	SSD	Poirson等人(2016)	一次性姿态粗估计，无需中间过程	输入图像→利用SSD框架提检测目标，预估粗姿态	PASCAL3D+	平均正确率42.4% (8视图下)
RGB	GoogLeNet	Szegedy等人(2015)	通过SFM自动标注数据	输入图像→应用迁移学习训练好的姿态回归器→回归姿态	Cambridge Landmarks1	户外大场景误差2 m和6°；室内场景误差0.5 m和10°
RGB-D	AlexNet	Schwarz等人(2015)	提出CNN兼容着色框架	输入图像→CNN提取彩色图像和着色深度图像特征→SVM回归、估计姿态	Washington RGB-D Objects	正确率94.1%
RGB	13卷积层+ 4个最大池化层	Dosovitskiy等人(2017)	提取特征后，分3路计算类、位置、姿态	输入图像→利用端到端CNN分组求解平移(像素向中心霍夫投票)和旋转(四元数回归)	YCB-Video	最佳正确率75.9%
RGB	13卷积层+ 4个最大池化层	Dosovitskiy等人(2017)	提取特征后，分3路计算类、位置、姿态	输入图像→利用端到端CNN分组求解平移(像素向中心霍夫投票)和旋转(四元数回归)	Occluded Linemod	最佳正确率78.0%
RGB	-	Corona等人(2018)	引入对称目标分类排序	输入图像→应用CNN分两路计算目标姿态和分类目标对称排序→softmax回归视图相似性得分→最佳姿态	Real Images	最佳正确率92.1%
RGB	-	Corona等人(2018)	引入对称目标分类排序	输入图像→应用CNN分两路计算目标姿态和分类目标对称排序→softmax回归视图相似性得分→最佳姿态	Synthetic	最佳正确率97.2%
RGB	VGG	Do等人(2018)	引入Mask R-CNN网络框架	输入图像→目标分割网络Mask R-CNN →增加第三分支直接解耦计算姿态→以李代数表示回归旋转	Linemod	最佳正确率99.3%
RGB	VGG	Do等人(2018)	引入Mask R-CNN网络框架	输入图像→目标分割网络Mask R-CNN →增加第三分支直接解耦计算姿态→以李代数表示回归旋转	IC-MI	最佳正确率99.3%
RGB	Flownet	Li等人(2018)	提出迭代优化框架	输入图像→CNN提取特征→直接解耦计算旋转和平移→使用重投影误差最小化回归计算最佳姿态	Linemod	最佳正确率69.2%
RGB	Flownet	Li等人(2018)	提出迭代优化框架	输入图像→CNN提取特征→直接解耦计算旋转和平移→使用重投影误差最小化回归计算最佳姿态	Occlusion Linemod	最佳正确率56.6%
RGB	Inception V4	Manhardt等人(2018)	提出新的视觉损失函数	输入图像→训练CNN利用新的视觉损失函数，通过对准目标轮廓，回归更新目标姿态→以四元数的形式表示其旋转姿态	Linemod	最佳正确率83.0%
RGB	Inception V4	Manhardt等人(2018)	提出新的视觉损失函数	输入图像→训练CNN利用新的视觉损失函数，通过对准目标轮廓，回归更新目标姿态→以四元数的形式表示其旋转姿态	Occlusion Linemod	最佳正确率81.7%
注：“-”表示无该主干网络介绍。

3) 间接法。随着目标检测技术的加速革新，尤其是BB技术在Faster RCNN(Ren等，2017)、YOLO(Redmon等，2016)、SSD(Liu等，2016)等检测器中的应用，该类方法有扩展到姿态估计领域的趋势。而3D边界盒这一立方体结构本身包含目标的部分姿态信息，因而在姿态估计任务中具有广泛应用(Kehl等，2017；Mousavian等，2017；Rad和Lepetit，2017；Tekin等，2018；Xu和Chen，2018；Manhardt等，2019)，如表 3所示。该类方法以目标检测网络中直接获取的2D边界盒为起始，再利用几何投影约束将2维边界点提升到3维空间，得到多种相近的姿态估计结果。Rad和Lepetit(2017)提出了BB8姿态估计网络，从3D边界框8个顶点的2D投影出发估计姿态，最后通过限制训练图像的旋转范围解决各类旋转对称的姿态估计不适定问题；Kehl等人(2017)根据几何投影关系将2D bounding box提升到3维空间的6自由度姿态，通过射影几何特性构建目标的6D姿态池，最后利用姿态池优化ICP得到精确结果，并将该方法命名为SSD-6D姿态估计网络；Tekin等人(2018)采用CNN预测输入图像各3D控制点的2D投影, 并以此为表征空间, 将姿态估计问题转化为N点透视法问题(PnP problem)。这种先提取表征空间, 再利用传统视觉几何计算进行姿态估计的方法可以归结为间接法。Manhardt等人(2019)提出了ROI-10D的估计方法，通过融合深度估计网络结果将2D边界框提升至3维空间，以最小化代理损失函数的方式计算姿态值。例如, Wang等人(2019)引入了归一化的目标坐标空间(normalized objeccoordinate space, NOCS)规范化表示某类目标的3D实例, 形成了含有真值的姿态表征空间, 通过CNN分别得到目标类标签、掩模以及NOCS的平面投影, 随后得到掩模和NOCS投影相对应的两组点云, 结合RANSAC(Fischler和Bolles, 1981)法移除外点, 应用最小二乘法计算目标姿态信息。

表 3 间接法的特征概括
Table 3 Summary of the methods of feature space

下载CSV

输入	主干网络	特征	特点	过程	数据集	结果
RGB	SSD (Kehl等，2017)	BB	根据几何投影关系将2D bounding box提升到3维空间的6自由度姿态假设	输入图像→基于扩展的SSD范式(采用Inception V4深度网络)→预测目标2D bounding box以及目标种类、离散视点和面内旋转在每个特征图位置的得分→射影几何特性构建目标的6D姿态池→姿态池优化ICP得到精确结果	Linemod	平均正确率99.4%
RGB	SSD (Kehl等，2017)	BB	根据几何投影关系将2D bounding box提升到3维空间的6自由度姿态假设		Occluded-Linemod	平均正确率98.8%
RGB	MultiBin (Mousavian等，2017)	BB	提出了新的离散连续CNN体系结构，MultiBin回归	输入图像→CNN提取并共享卷积特征→分3路求取目标维度、边界框的方向及其置信度→利用投影几何体提供的约束从2D边界框估算完整3D姿态和尺寸	KITTI	平均正确率89.04%
RGB	MultiBin (Mousavian等，2017)	BB	提出了新的离散连续CNN体系结构，MultiBin回归		PASCAL 3D+	平均正确率81.03%
RGB	VGG(Rad和Lepetit，2017)	BB	从3D边界框8个顶点的2D投影出发估计姿态	输入图像→采用基于CNN的方法完成对输入图像的定位、分割、分类以及优化估计→以3D边界盒8个顶点的2D投影结合N点透视法P nP algorithm预测目标3D姿态→通过限制训练图像的旋转范围解决各类旋转对称的姿态估计不适定问题	Linemod	平均正确率89.3%
RGB	VGG(Rad和Lepetit，2017)	BB	从3D边界框8个顶点的2D投影出发估计姿态		T-LESS	平均正确率67.0%
RGB	YOLO (Tekin，2018)	BB	将one stage目标检测网络YOLO，扩展至姿态估计领域，实现端到端估计	输入图像→应用YOLO检测器预测目标2D边界盒→结合N点透视法P nP algorithm预测目标3D边界盒8个顶点+1个形心点→最小化损失函数回归姿态	Linemod	平均正确率90.37%
RGB	YOLO (Tekin，2018)	BB	将one stage目标检测网络YOLO，扩展至姿态估计领域，实现端到端估计		Occluded-Linemod	平均正确率48.0%
RGB	FasterR-CNN (Manhardt等，2019)	BB	在实现目标检测的同时，引入最先进的深度估计网络SuperDepth	输入图像→应用Faster R-CNN检测器预测目标2D边界盒→融合深度估计网络结果→将2D边界盒提升至3D→最小化代理损失函数计算姿态	standard KITTI3D benchmark	简单正确率89.04% 中等正确率88.39% 复杂正确率78.77%

3 数据集和评估准则

3.1 数据集

随着刚体目标姿态估计任务的广泛应用，先后提出了多类姿态估计数据集，如Linemod、Occluded-Linemod、T-LESS和YCB-Video等(图 13)，但与计算机视觉图像分类、目标检测和语义分割等大型数据集相比，刚体目标姿态估计数据集并没有像PASCAL(pattern analysis, statistical modelling and computational learning)、ILSVRC(ImageNet large scale visual recognition challenge)和MS-COCO(microsoft common objects in context)等数据集一样具备大体量、高引用和多场景的特点，而是多以室内桌面场景和家庭日用品为主。

图 13 各数据集样例图像

Fig. 13 Sample images of each dataset((a)Linemod; (b)Occluded-Linemod; (c)T-LESS; (d)YCB-Video; (e)IC-MI; (f)IC-BIN; (g)TUD Light; (h)Toyota Light)

1) Linemod数据集。在2012年亚洲计算机视觉会议中，Hinterstoisser等人(2012)提出了无纹理数据集Linemod。该数据集由15类不同的家居用品共18 000多幅真实图像及其真实姿态标注信息构成，并包含猿、虎钳、碗、罐、猫、杯子、电钻、鸭子、胶水、打孔器、铁、台灯、电话、凸轮和鸡蛋盒等以点云形式存储的真值3D模型。目前，Linemod数据集已成为最常引用的姿态估计数据集，新提出的各类估计方法也都以此作为测试基准。

2) Occluded-Linemod数据集。为检验算法面对各种杂乱场景及遮挡挑战环境时的性能，Brachmann等人(2014)发表了基于3D坐标的姿态估计方法，在Linemod测试数据集基础上，增加了新的真值姿态注释，引入了3类光照条件和多种遮挡级别，目标类别从15种无纹理目标增加到20种有纹理和无纹理目标，也称为Linemod遮挡数据集。

3) T-LESS(Texture-less)数据集。这是Hodan等人(2017)提出的包含30类工业相关目标的无纹理、无识别颜色或反射特性的姿态估计数据集。各类目标在色彩和形状上具有部分相似性，且具备旋转对称的特点。所有图像由3个不同的传感器获取，保证了真值精度，测试图像来自20个具有不同复杂性的测试场景，杂波和遮挡难度从独立目标的简单场景到多实体多种类目标的复杂场景不断增加。该数据集是检验抗对称算法的首选。

4) YCB-Video数据集。这是Xiang等人(2017)提出PoseCNN姿态估计网络框架时发布的，取自耶鲁大学、卡内基梅隆大学和加州大学伯克利分校共同提出的机器人操控实验数据集YCB(Yale-CMU-Berkeley)(Calli等，2015)。Xiang等人(2017)从中选择21个真值姿态目标，包括92个视频共133 827帧超市食用品图像，各目标具有不同的对称性、多目标姿态和空间组合，并引入严重的遮挡，以增加数据集在复杂场景下的检测验证能力。

5) IC-MI/IC-BIN(Imperial College London-multiple object instances/Imperial College London-bin-picking scenario)数据集。伦敦皇家理工学院(Imperial College London)在2014年和2016年分别提出了IC-MI(multiple object instances)数据集(Tejani等，2014)和IC-BIN(bin-picking scenario)数据集(Doumanoglou等，2016)。IC-MI数据集由2个无纹理和4个有纹理家用目标(相机、咖啡杯、游戏摇杆、果汁盒、牛奶盒、洗发水)构成，包括7 878幅渲染图像组成的训练集和2 067幅图像组成的测试集；IC-BIN数据集由IC-MI数据集中的咖啡杯和果汁盒2个目标组成，并引入了重度遮挡以应用于机器人分拣场景。

6) TUD-L(TUD light)和TYO-L(Toyota light)数据集。这是德累斯顿工业大学(Dresden University of Technology，TUD)等多所大学共同提出姿态估计基准BOP(Hodaň等，2018)时公开的两个数据集。TUD-L数据集由8种光照条件下的3个运动目标(恐龙、青蛙、花洒)共67 683幅图像组成；TYO-L数据集由5种光照条件下的21类目标配合4幅不同图案的桌布在桌面上拍摄的共53 256幅图像组成。

对各数据集的统计情况各数据集如表 4和表 5所示，正是这些特定场景、专类公开的姿态估计数据集，使得基于姿态的机器人操控、自动驾驶和现实增强等应用快速发展。

表 4 常用姿态估计数据集统计
Table 4 Statistics for common datasets

下载CSV

数据集	作者	年份	数据形式	图像总数	目标种类	单类图像/幅	研究团队	引用次数
Linemod	Hinterstoisser等人	2012	RGB-D	18 K+	15无纹理	1 100+	慕尼黑工业大学	125
Occluded-Linemod	Brachmann等人	2014	RGB-D	10 K+	8无纹理	1 214	德累斯顿工业大学	11
T-LESS	Hodaň等人	2017	RGB-D	49 K+	30无纹理	1 800	捷克理工大学	50
YCB-Video	Xiang等人	2017	RGB-D	133 K+	21	-	华盛顿大学	43
IC-MI	Tejani等人	2014	RGB-D	9 945	2无纹理+4纹理	1 650+	伦敦帝国理工学院	6
IC-BIN	Doumanoglou等人	2016	RGB-D	183	2+1混合场景	60+	伦敦帝国理工学院	5
TUD-L (TUD Light)	Hodaň等人	2018	RGB-D	67 K+	3	-	捷克理工大学等	2
TYO-L (Toyota Light)	Hodaň等人	2018	RGB-D	53 K+	21	2 500+	捷克理工大学等	2
注：“-”表示无信息。

表 5 常用姿态估计数据集的方法和精度统计
Table 5 Accuracy statistics for common datasets

下载CSV

数据集	排名	年份	方法	精度/%
Linemod	1	2019	DPOD(Zakharov等, 2019)	95.15
	2	2020	HybridPose(Song等, 2020)	94.5
	3	2019	HRNet+DSNT+BP nP(Chen等, 2020)	93.27
	4	2019	CDPN(Li等, 2019)	89.86
	5	2019	PoseCNN + DeepIM(Li等, 2018)	88.1
Occluded-Linemod	1	2020	HybridPose(Song等, 2020)	79.2
	2	2019	DPOD(Zakharov等, 2019)	47.25
	3	2018	PVNet(Peng等, 2019)	40.8
	4	2019	Pix2Pose(Park等, 2019)	32
	5	2018	SegDriven(Hu等, 2019)	27
YCB-Video	1	2018	PVNet(Peng等, 2019)	(均)73.4
	2	2018	SegDriven(Hu等, 2019)	39
	3	2017	PoseCNN(Dosovitskiy等，2015)	21.3
1	2018	RetinaNet+Augmented Autoencoders+ICP(Sundermeyer等, 2018)	26.79
2	2019	Pix2Pose without ICP(Park等, 2019)	(均)27.5

3.2 姿态精度评估准则

对刚体目标姿态估计的准确性评价是衡量算法优劣的核心环节，最常采纳的度量标准主要有平均距离度量(average distance metric，ADD)、重投影误差(reprojection error)和距离角度误差度量(m cm for translation and n° for rotation)。在评价指标(evaluation metrics)环节，通常采用前两种度量标准共同验证评估结果。

1) 平均距离。在3维空间评价指标中，最常用的是平均距离度量(Hinterstoisser等，2012)，它是指预测姿态下目标3D空间点与真值3D模型上对应点间的平均距离。当该平均距离小于某一确定门限值时，可认定当前姿态估计结果正确，一般用二范数求平均的形式表示，具体为

$ ADD = \frac{1}{n}\sum\limits_{x \in \mathit{\boldsymbol{N}}} {\left\| {\left({{\mathit{\boldsymbol{R}}^{BC}}x + {\mathit{\boldsymbol{T}}^{BC}}} \right) - \left({{{\mathit{\boldsymbol{\hat R}}}^{BC}}x + {{\mathit{\boldsymbol{\hat T}}}^{BC}}} \right)} \right\|} $

(6)

式中，$\mathit{\boldsymbol{N}} $表示3D模型上点的集合，$n $表示点的个数，$x $表示模型与预测值对应的点，${{\mathit{\boldsymbol{R}}^{BC}}} $表示旋转真值，${{\mathit{\boldsymbol{T}}^{BC}}}$表示真值位置平移，${{{\mathit{\boldsymbol{\hat R}}}^{BC}}} $表示旋转姿态预测值，${{{\mathit{\boldsymbol{\hat T}}}^{BC}}} $表示位置平移预测值。

2) 重投影误差。在2维空间评价指标中，最常用的是重投影误差度量(Brachmann等，2016)，它是指将应用于平均距离度量的2个对应3D空间点投影至2D图像平面，然后分别计算每组对应点间的像素的平均距离，称为2D重投影误差。同样，该度量方法的有效性通过预设距离门限来检验姿态估计结果，用二范数求平均的形式表示，具体为

$ \begin{array}{l} PR{O_{{\rm{2D}}}}\\ = \frac{1}{n}\sum\limits_{x \in \mathit{\boldsymbol{N}}} {\left\| {\mathit{\boldsymbol{K}}\left({{\mathit{\boldsymbol{R}}^{BC}}x + {\mathit{\boldsymbol{T}}^{BC}}} \right) - \mathit{\boldsymbol{K}}\left({{{\mathit{\boldsymbol{\hat R}}}^{BC}}x + {{\mathit{\boldsymbol{\hat T}}}^{BC}}} \right)} \right\|} \end{array} $

(7)

与式(6)相比，式(7)增加了参数$\mathit{\boldsymbol{K}} $，为相机内参数矩阵，将3D物理坐标点映射到2D图像平面成为像点，再通过像素门限$\tau $，确定符合图像一致性的姿态。2D—3D投影的几何关系如图 14所示。

图 14 2D—3D投影几何关系

Fig. 14 2D—3D projective geometry

3) 距离角度误差度量。该误差度量也是姿态估计常用的检验准则(Shotton等，2013)。当旋转矩阵表示为欧拉角形式，即${\mathit{\boldsymbol{R}}^{BC}} = {\mathit{\boldsymbol{R}}_z}\left(\psi \right){\mathit{\boldsymbol{R}}_y}\left(\theta \right){\mathit{\boldsymbol{R}}_x}\left(\varphi \right) $，3个欧拉角$\psi $、$ \theta $、$ \varphi $分别表示绕Z轴、Y轴、X轴的旋转角度。常见的(5°，5 cm)度量指$\psi $、$ \theta $、$ \varphi $各旋转角度误差不超过5°，平移位置${{\mathit{\boldsymbol{T}}^{BC}}} $估计误差不超过5 cm，可认定目标姿态估计正确。该误差门限设置可根据实际场景尺度进行调整，也有(10°，5 cm)和(10°，10 cm)作为误差度量门限。

此外，在2019BOP(Benchmark for 6D Object Pose Estimation)挑战赛中，其姿态估计评估方法引入的姿态误差方程，将最小极大3D目标表面偏离距离和2D投影偏离距离作为评价指标，虽然该方法对3D模型顶点的采样策略依赖性降低，依然可以看出在姿态评价准则方面，3D空间距离和2D投影距离是衡量算法优劣的主要指标。

4 结语

刚体目标姿态估计方法经过近20年的发展取得了显著成果，估计场景从室内简单场景到室外开放场景，估计目标从日用百货到汽车、卫星，估计条件从单一充足光场环境到多种光照条件环境，估计方法也从传统手工设计发展到传统方法与深度学习融合运用的阶段。本文以姿态估计方法的发展为脉络总结了一般性估计过程，归纳出两个发展阶段和6类主要方法，介绍了Linemod、Feature Descriptor、3D Coordinate、PoseCNN、SSD-6D和BB8等多种典型的估计方法，分析了当前困扰姿态估计领域的主要问题和现实挑战，并概括了该领域今后的研究方向。

1) 场景级多目标推理。一直以来，刚体目标姿态估计研究都是以特定场景下特性目标实体为背景，不断改进算法结构，优化估计准确性，催生出了以处理强纹理、弱纹理、旋转对称和遮挡目标在内的各类姿态估计方法。未来，从单目标到场景级应用可能成为视觉估计领域的新方向，以整幅场景级别和多实例目标姿势估计为主，在高度混杂和密集的场景下，实现多目标场景理解。

2) 自监督学习方法。尽管监督学习在各类图像分类和估计预测任务中取得了瞩目的结果，但姿态估计是视觉能力的扩展，在实现视觉学习时并不是时刻都在引用监督数据(LeCun等，2015)，同时，海量的监督数据标注对人力和时间成本消耗过大，以自监督的方式微调改进参数设置更贴近智能学习的过程，使得姿态估计任务回归为视觉学习与估计本身。

3) 高效的前端检测网络。姿态估计精度的每次提升都离不开前端目标检测技术的助推，从SIFT、HOG到RCNN、Faster RCNN、SSD、YOLO，优秀的前端检测技术从源头上提升了姿态估计精度的下界，为后续计算打下良好基础。因此，改进和优化高效的前端检测网络将成为提升姿态估计精度和效率的又一研究方向。

4) 轻量高效的网络设计。随着深度神经网络模型朝着更大体量更深层迈进，各类姿态估计网络参数及中间量的存储空间和计算能耗的负担随之加重，以高效神经网络搜索ENAS(Pham等，2018)和基于AutoML的自动模型压缩技术AMC(autoML for model compression)(He等，2018)为主要方向的轻量高效姿态估计技术，不仅能提高网络结构设计效率，还能平衡计算精度和实时性应用，实现小平台和移动端部署，在未来的研究中颇具前景。

5) 多信息融合姿态估计框架。由于信息获取方式的多样化发展，3D点云和激光雷达(light detection and ranging，LIDAR)等数据信息更易获取，可补充当前以RGB和RGB-D图像信息为主的姿态估计框架。由于单一信源携带信息量有限，难以稳定完成多环境姿态估计任务，增加的输入信息通道能很好地弥补该不足。如何设计多信息融合框架在未来研究中将得到更多关注。

6) 强大的图像数据表征空间。表征空间作为姿态估计的中介量，是连接已知与未知之间的桥梁。特征点对、模板、3D坐标、描述符和BB等都可以构建表征空间，并以此代表一类姿态估计方法。Hu等人(2019)、Alexandrov等人(2019)、Peng等人(2019)和Periyasamy等人(2019)提出的方法都是对之前表征空间的优化延续。因此，一旦设计出新的具有强大图像数据表征能力的新媒介，图像特征的提取、表示、存储和匹配方式都将发生新的改变，也将引领新的姿态估计方向，催生出新的姿态估计方法。

参考文献

Alexandrov S V, Patten T and Vincze M. 2019. Leveraging symmetries to improve object detection and pose estimation from range data//Proceedings of the 12th International Conference on Computer Vision Systems. Thessaloniki, Greece: Springer: 397-407[DOI: 10.1007/978-3-030-34995-0_36]

Aubry M, Maturana D, Efros A A, Russell B C and Sivic J. 2014. Seeing 3D chairs: exemplar part-based 2D-3D alignment using a large dataset of cad models//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE: 3762-3769[DOI: 10.1109/CVPR.2014.487]

Brachmann E, Krull A, Michel F, Gumhold S, Shotton J and Rother C. 2014. Learning 6D object pose estimation using 3D object coordinates//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer: 536-551[DOI: 10.1007/978-3-319-10605-2_35]

Brachmann E, Michel F, Krull A, Ying Yang M, Gumhold S and Rother C. 2016. Uncertainty-driven 6D pose estimation of objects and scenes from a single RGB image//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 3364-3372[DOI: 10.1109/CVPR.2016.366]

Cai H P, Werner T and Matas J. 2013. Fast detection of multiple textureless 3-D objects//Proceedings of the 9th International Conference on Computer Vision Systems. Saint Petersburg, Russia: Springer: 103-112[DOI: 10.1007/978-3-642-39402-7_11]

Calli B, Singh A, Walsman A, Srinivasa S, Abbeel P and Dollar A M. 2015. The YCB object and model set: towards common benchmarks for manipulation research//Proceedings of 2015 International Conference on Advanced Robotics. Istanbul, Turkey: IEEE: 510-517[DOI: 10.1109/ICAR.2015.7251504]

Chen B, Parra A, Cao J, Li N and Chin T J. 2020.End-to-End Learnable Geometric Vision by Back propagating PnP Optimization//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 8100-8109[DOI: 10.1109/CVPR42600.2020.00812]

Collet A, Martinez M, Srinivasa S S. 2011. The MOPED framework: object recognition and pose estimation for manipulation. The International Journal of Robotics Research, 30(10): 1284-1306 [DOI:10.1177/0278364911401765]

Corona E, Kundu K and Fidler S. 2018. Pose estimation for objects with rotational symmetry//Proceedings of 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Madrid, Spain: IEEE: 7215-7222[DOI: 10.1109/IROS.2018.8594282]

Dalal N and Triggs B. 2005. Histograms of oriented gradients for human detection//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). San Diego, USA: IEEE: 886-893[DOI: 10.1109/CVPR.2005.177]

Do T T, Cai M, Pham T and Reid I. 2018. Deep-6DPose: recovering 6D object pose from a single RGB image[EB/OL].[2020-01-30]. https://arxiv.org/pdf/1802.10367.pdf

Dosovitskiy A, Fischer P, Ilg E, Häusser P, Hazirbas C, Golkov V, Van Der Smagt P, Cremers D and Brox T. 2015. FlowNet: learning optical flow with convolutional networks//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 2758-2766[DOI: 10.1109/ICCV.2015.316]

Doumanoglou A, Kouskouridas R, Malassiotis S and Kim K T. 2016. Recovering 6D object pose and predicting next-best-view in the crowd//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 3583-3592[DOI: 10.1109/CVPR.2016.390]

Drost B, Ulrich M, Navab N and Ilic S. 2010. Model globally, match locally: efficient and robust 3D object recognition//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE: 998-1005[DOI: 10.1109/CVPR.2010.5540108]

Fischler M A, Bolles R C. 1981. Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography. Communications of the ACM, 24(6): 381-395 [DOI:10.1145/358669.358692]

Gall J, Yao A, Razavi N, Van Gool L, Lempitsky V. 2011. Hough forests for object detection, tracking, and action recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 33(11): 2188-2202 [DOI:10.1109/TPAMI.2011.70]

Girshick R, Donahue J, Darrell T and Malik J. 2014. Rich feature hierarchies for accurate object detection and semantic segmentation//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE: 580-587[DOI: 10.1109/CVPR.2014.81]

Gupta S, Arbeláez P, Girshick R and Malik J. 2015. Aligning 3D models to RGB-D images of cluttered scenes//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 4731-4740[DOI: 10.1109/CVPR.2015.7299105]

He K M, Gkioxari G, Dollár P, Girshick R. 2017. Mask R-CNN. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42(2): 386-397 [DOI:10.1109/TPAMI.2018.2844175]

He Y H, Lin J, Liu Z J, Wang H R, Li L J and Han S. 2018. AMC: automl for model compression and acceleration on mobile devices//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 784-800[DOI: 10.1007/978-3-030-01234-2_48]

Hinterstoisser S, Cagniart C, Ilic S, Sturm P, Navab N, Fua P, Lepetit V. 2011a. Gradient response maps for real-time detection of textureless objects. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(5): 876-888 [DOI:10.1109/TPAMI.2011.206]

Hinterstoisser S, Holzer S, Cagniart C, Ilic S, Konolige K, Navab N and Lepetit V. 2011b. Multimodal templates for real-time detection of texture-less objects in heavily cluttered scenes//Proceedings of 2011 International Conference on Computer Vision. Barcelona, Spain: IEEE: 858-865[DOI: 10.1109/ICCV.2011.6126326]

Hinterstoisser S, Lepetit V, Ilic S, Holzer S, Bradski G, Konolige K and Navab N. 2012. Model based training, detection and pose estimation of texture-less 3D objects in heavily cluttered scenes//Proceedings of the 11th Asian Conference on Computer Vision. Daejeon, South Korea: Springer: 548-562[DOI: 10.1007/978-3-642-37331-2_42]

Hinterstoisser S, Lepetit V, Rajkumar N and Konolige K. 2016. Going further with point pair features//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 834-848[DOI: 10.1007/978-3-319-46487-9_51]

Hodan T, Haluza P, Obdržálek Š, Matas J, Lourakis M and Zabulis X. 2017. T-LESS: an RGB-D dataset for 6D pose estimation of texture-less objects//Proceedings of 2017 IEEE Winter Conference on Applications of Computer Vision. Santa Rosa, USA: IEEE: 880-888[DOI: 10.1109/WACV.2017.103]

Hodaň T, Michel F, Brachmann E, Kehl W, Glent Buch A, Kraft D, Drost B, Vidal J, Ihrke S, Zabulis X, Sahin C, Manhardt F, Tombari F, Kim T K, Matas J and Rother C. 2018. BOP: Benchmark for 6D object pose estimation//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 19-35[DOI: 10.1007/978-3-030-01249-6_2]

Hodaň T, Zabulis X, Lourakis M, Obdržálek Š and Matas J. 2015. Detection and fine 3D pose estimation of texture-less objects in RGB-D images//Proceedings of 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Hamburg, Germany: IEEE: 4421-4428[DOI: 10.1109/IROS.2015.7354005]

Hu Y L, Hugonot J, Fua P and Salzmann M. 2019. Segmentation-driven 6D object pose estimation//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE: 3385-3394[DOI: 10.1109/CVPR.2019.00350]

Kehl W, Manhardt F, Tombari F, Ilic S and Navab N. 2017. SSD-6D: making RGB-based 3D detection and 6D pose estimation great again//Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE: 1521-1529[DOI: 10.1109/ICCV.2017.169]

Kehl W, Tombari F, Navab N, Ilic S and Lepetit V. 2016. Hashmod: a hashing method for scalable 3D object detection[EB/OL].[2020-01-30]. https://arxiv.org/pdf/1607.06062.pdf

Kendall A, Grimes M and Cipolla R. 2015. PoseNet: a convolutional network for real-time 6-dof camera relocalization//Proceedings of 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE: 2938-2946[DOI: 10.1109/ICCV.2015.336]

Krizhevsky A, Sutskever I and Hinton G E. 2012. ImageNet classification with deep convolutional neural networks//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, USA: ACM: 1097-1105

Krull A, Brachmann E, Michel F, Ying Yang M, Gumhold S and Rother C. 2015. Learning analysis-by-synthesis for 6D pose estimation in RGB-D images//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 954-962[DOI: 10.1109/ICCV.2015.115]

LeCun Y, Bengio Y, Hinton G. 2015. Deep learning. Nature, 521(7553): 436-444 [DOI:10.1038/nature14539]

Li Y, Wang G, Ji X Y, Xiang Y, Fox D. 2018. DeepIM: deep iterative matching for 6D pose estimation. International Journal of Computer Vision, 128(3): 657-678 [DOI:10.1007/s11263-019-01250-9]

Li Z, Wang G, Ji X. 2019.Cdpn: Coordinates-based disentangled pose network for real-time RGB-based 6-DOF object pose estimation//Proceedings of 2019 IEEE International Conference on Computer Vision. Seoul, South Korea: IEEE: 7678-7687[DOI: 10.1109/ICCV.2019.00777]

Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C Y and Berg A C. 2016. SSD: single shot multibox detector//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 21-37[DOI: 10.1007/978-3-319-46448-0_2]

Lowe D G. 1999. Object recognition from local scale-invariant features//Proceedings of the 7th IEEE International Conference on Computer Vision. Kerkyra, Greece: IEEE: 1150-1157[DOI: 10.1109/ICCV.1999.790410]

Lowe D G. 2001. Local feature view clustering for 3D object recognition//Proceedings of 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Kauai, USA: IEEE: 682[DOI: 10.1109/CVPR.2001.990541]

Lowe D G. 2004. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 60(2): 91-110 [DOI:10.1023/B:VISI.0000029664.99615.94]

Manhardt F, Kehl W and Gaidon A. 2019. Roi-10D: monocular lifting of 2D detection to 6D pose and metric shape//Proceedings of 2019 IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 2069-2078[DOI: 10.1109/CVPR.2019.00217]

Manhardt F, Kehl W, Navab N and Tombari F. 2018. Deep model-based 6D pose refinement in RGB//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 800-815[DOI: 10.1007/978-3-030-01264-9_49]

Michel F, Kirillov A, Brachmann E, Krull A, Gumhold S, Savchynskyy B and Rother C. 2017. Global hypothesis generation for 6D object pose estimation//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 462-471[DOI: 10.1109/CVPR.2017.20]

Mousavian A, Anguelov D, Flynn J and Košecká J. 2017. 3D bounding box estimation using deep learning and geometry//Proceedings of 2017 Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 7074-7082[DOI: 10.1109/CVPR.2017.597]

Pavlakos G, Zhou X W, Chan A, Derpanis K G and Daniilidis K. 2017. 6-Dof object pose from semantic keypoints//Proceedings of 2017 IEEE International Conference on Robotics and Automation. Singapore, Singapore: IEEE: 2011-2018[DOI: 10.1109/ICRA.2017.7989233]

Peng S D, Liu Y, Huang Q X, Zhou X W and Bao H J. 2019. PVNet: pixel-wise voting network for 6DoF pose estimation//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 4561-4570[DOI: 10.1109/CVPR.2019.00469]

Periyasamy A S, Schwarz M and Behnke S. 2019. Refining 6D Object pose predictions using abstract render-and-compare[EB/OL].[2020-01-30]. https://arxiv.xilesou.top/pdf/1910.03412.pdf

Pham H, Guan M Y, Zoph B, Le Q V and Dean J. 2018. Efficient neural architecture search via parameter sharing[EB/OL].[2020-01-30]. https://arxiv.org/pdf/1802.03268.pdf

Poirson P, Ammirato P, Fu C Y, Liu W, Kosšecká J and Berg A C. 2016. Fast single shot detection and pose estimation//Proceedings of the 4th International Conference on 3D Vision. Stanford, USA: IEEE: 676-684[DOI: 10.1109/3DV.2016.78]

Rad M and Lepetit V. 2017. BB8: a scalable, accurate, robust to partial occlusion method for predicting the 3D poses of challenging objects without using depth//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 3828-3836[DOI: 10.1109/ICCV.2017.413]

Redmon J, Divvala S, Girshick R and Farhadi A. 2016. You only look once: Unified, real-time object detection//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 779-788[DOI: 10.1109/CVPR.2016.91]

Ren S Q, He K M, Girshick R, Sun J. 2017. Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(6): 1137-1149 [DOI:10.1109/TPAMI.2016.2577031]

Rios-Cabrera R and Tuytelaars T. 2013. Discriminatively trained templates for 3D object detection: a real time scalable approach//Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney, Australia: IEEE: 2048-2055[DOI: 10.1109/ICCV.2013.256]

Rothganger F, Lazebnik S, Schmid C, Ponce J. 2006. 3D object modeling and recognition using local affine-invariant image descriptors and multi-view spatial constraints. International Journal of Computer Vision, 66(3): 231-259 [DOI:10.1007/s11263-005-3674-1]

Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S A, Huang Z H, Karpathy A, Khosla A, Bernstein M. 2015. ImageNet large scale visual recognition challenge. International Journal of Computer Vision, 115(3): 211-252 [DOI:10.1007/s11263-015-0816-y]

Savarese S and Li F F. 2007. 3D generic object categorization, localization and pose estimation//Proceedings of the 11th IEEE International Conference on Computer Vision. Rio de Janeiro, Brazil: IEEE: 1-8[DOI: 10.1109/ICCV.2007.4408987]

Schwarz M, Schulz H and Behnke S. 2015. RGB-D object recognition and pose estimation based on pre-trained convolutional neural network features//Proceedings of 2015 IEEE International Conference on Robotics and Automation (ICRA). Seattle, USA: IEEE: 1329-1335[DOI: 10.1109/ICRA.2015.7139363]

Shelhamer E, Long J, Darrell T. 2017. Fully convolutional networks for semantic segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(4): 640-651 [DOI:10.1109/TPAMI.2016.2572683]

Shotton J, Glocker B, Zach C, Izadi S, Criminisi A and Fitzgibbon A. 2013. Scene coordinate regression forests for camera relocalization in RGB-D images//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA: IEEE: 2930-2937[DOI: 10.1109/CVPR.2013.377]

Simonyan K and Zisserman A. 2014. Very deep convolutional networks for large-scale image recognition[EB/OL].[2020-01-30]. https://arxiv.org/pdf/1409.1556.pdf

Song C, Song J, Huang Q. 2020.Hybridpose: 6 d object pose estimation under hybrid representations//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 431-440[DOI: 10.1109/CVPR42600.2020.00051]

Su H, Qi C R, Li Y Y and Guibas L J. 2015. Render for CNN: viewpoint estimation in images using CNNs trained with rendered 3D model views//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 2686-2694[DOI: 10.1109/ICCV.2015.308]

Sundermeyer M, Marton Z C, Durner M, Brucker M, Triebel R. 2018.Implicit 3 d orientation learning for 6 d object detection from rgb images//Proceedings of the European Conference on Computer Vision. Munich, Germany: ECCV: 699-715

Szegedy C, Ioffe S, Vanhoucke V and Alemi A A. 2017. Inception-V4, inception-resnet and the impact of residual connections on learning//Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco, USA: AAAI: 4278-4284

Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V and Rabinovich A. 2015. Going deeper with convolutions//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 1-9[DOI: 10.1109/CVPR.2015.7298594]

Tejani A, Tang D H, Kouskouridas R and Kim T K. 2014. Latent-class Hough forests for 3D object detection and pose estimation//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer: 462-477[DOI: 10.1007/978-3-319-10599-4_30]

Tekin B, Sinha S N and Fua P. 2018. Real-time seamless single shot 6D object pose prediction//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 292-301[DOI: 10.1109/CVPR.2018.00038]

Tu Z W, Bai X. 2009. Auto-context and its application to high-level vision tasks and 3D brain image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(10): 1744-1757 [DOI:10.1109/TPAMI.2009.186]

Tulsiani S and Malik J. 2015. Viewpoints and keypoints//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 1510-1519[DOI: 10.1109/CVPR.2015.7298758]

Umeyama S. 1991. Least-squares estimation of transformation parameters between two point patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence, 13(4): 376-380 [DOI:10.1109/34.88573]

Vidal J, Lin C Y and Martí R. 2018. 6D pose estimation using an improved method based on point pair features//Proceedings of the 4th International Conference on Control, Automation and Robotics (ICCAR). Auckland, New Zealand: IEEE: 405-409[DOI: 10.1109/ICCAR.2018.8384709]

Wagner D, Reitmayr G, Mulloni A, Drummond T and Schmalstieg D. 2008. Pose tracking from natural features on mobile phones//Proceedings of the 7th IEEE/ACM International Symposium on Mixed and Augmented Reality. Cambridge, UK: IEEE: 125-134[DOI: 10.1109/ISMAR.2008.4637338]

Wang H, Sridhar S, Huang J W, Valentin J, Song S R and Guibas L J. 2019. Normalized object coordinate space for category-level 6D object pose and size estimation//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 2642-2651[DOI: 10.1109/CVPR.2019.00275]

Wohlhart P and Lepetit V. 2015. Learning descriptors for object recognition and 3D pose estimation//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 3109-3118[DOI: 10.1109/CVPR.2015.7298930]

Xiang Y, Schmidt T, Narayanan V and Fox D. 2017. PoseCNN: a convolutional neural network for 6 d object pose estimation in cluttered scenes[EB/OL].[2020-01-30]. https://arxiv.org/pdf/1711.00199.pdf

Xu B and Chen Z Z. 2018. Multi-level fusion based 3D object detection from monocular images//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 2345-2353[DOI: 10.1109/CVPR.2018.00249]

Zakharov S, Shugurov I, Ilic S. 2019.Dpod: 6 d pose object detector and refiner//Proceedings of 2019 IEEE International Conference on Computer Vision. Seoul, South Korea: IEEE: 1941-1950[DOI: 10.1109/ICCV.2019.00203]