Print

发布时间: 2019-07-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180607
2019 | Volume 24 | Number 7




    综述    




  <<上一篇 




  下一篇>> 





主动目标几何建模研究方法综述
expand article info 孔研自1,2,3,4,5, 朱枫1,2,4,5, 郝颖明1,2,4,5, 吴清潇1,2,4,5, 鲁荣荣1,2,3,4,5
1. 中国科学院沈阳自动化研究所, 沈阳 110016;
2. 中国科学院机器人与智能制造创新研究院, 沈阳 110016;
3. 中国科学院大学, 北京 100049;
4. 中国科学院光电信息处理重点实验室, 沈阳 110016;
5. 辽宁省图像理解与视觉计算重点实验室, 沈阳 110016

摘要

目的 目标建模是机器视觉领域的主要研究方向之一,主动目标建模是在保证建模完整度的情况下,通过有计划地调节相机的位姿参数,以更少的视点和更短的运动路径实现目标建模的智能感知方法。为了反映主动目标建模的研究现状和最新进展,梳理分析了2004年以来的相关文献,对国内外研究方法做出概括性总结。方法 以重构模型类型和规划视点所用信息作为划分依据,将无模型的主动目标建模方法分为基于表面的主动目标建模方法、基于搜索的目标建模方法和两者相结合的方法3大类,重点对前两类方法进行综述,首先解释了每类方法的基本思想,总结每类方法涉及的问题,然后对相关问题的主要研究方法进行归纳和分析,最后将各个问题的解决方法进行合理的搭配组合,形成不同的主动目标建模方法,并对各类方法的优势和局限性进行了总结。结果 各类主动目标建模算法在适用场景范围、计算复杂度等方面存在差异,但相对于传统的被动目标建模方法,当前的主动目标建模算法已经能够极大程度地提高建模任务的质量和降低建模所需代价。结论 基于表面的主动目标建模方法思想相对简单,但仅适用于表面简单的目标建模。基于搜索的目标建模方法能够量化地评价每一个候选视点,适用广泛且涉及的问题相对于基于表面的方法有更大的解决空间,有更多的研究成果产生。将二者涉及问题的不同研究方法相搭配,可以构成不同的主动目标建模方法子类。

关键词

主动目标建模; 主动视觉; 视点规划; 传感器规划; 智能感知

Active geometric reconstruction methods for objects: a survey
expand article info Kong Yanzi1,2,3,4,5, Zhu Feng1,2,4,5, Hao Yingming1,2,4,5, Wu Qingxiao1,2,4,5, Lu Rongrong1,2,3,4,5
1. Shenyang Institute of Automation, Chinese Academy of Sciences, Shenyang 110016, China;
2. Institutes for Robotics and Intelligent Manufacturing, Chinese Academy of Sciences, Shenyang 110016, China;
3. University of Chinese Academy of Sciences, Beijing 100049, China;
4. Key Laboratory of Opto-Electronic Information Processing, Chinese Academy of Sciences, Shenyang 110016, China;
5. Key Laboratory of Image Understanding and Computer Vision, Shenyang 110016, China
Supported by: National Natural Science Foundation of China(U1713216)

Abstract

Objective Target modeling is one of the main research directions in the field of machine vision, and this technology is widely used in various fields. When modeling the geometry of an object, the data obtained from one viewpoint are often incomplete, and large-area losses may even occur. Therefore, obtaining the information of the target from different viewpoints and fusing the information are necessary to achieve a complete geometric modeling of the target. Active object reconstruction is an intelligent perception method that achieves target modeling with few viewpoints and short motion paths by systematically adjusting the pose parameters of the camera while ensuring model integrity. To reflect the research status and latest development of active object reconstruction, relevant studies since 2004 are combed and analyzed, and a summary of domestic and foreign research methods is made. Method At present, active object reconstruction is mainly aimed at two task types: model-based and non-model active object reconstruction. Model-based methods pre-plan a series of viewpoints before modeling and can achieve full coverage of the target with high quality. Non-model methods have no information on the target at all, and view planning is performed in real time during modeling. In practical applications, the second category appears frequently and is difficult; thus, this study only summarizes non-model methods. On the basis of the rebuilt model type and the information used during view planning, non-model active object reconstruction methods are divided into three categories, namely, surface based, search based, and combined. The basic ideas of each type of method are explained, and the problems involved are summarized. Surface-based methods use point cloud and triangular patch models. They extract shape information from the obtained local model and classify the shape of the unknown region to determine the next viewpoint. Search-based methods use voxel models. A certain method is employed to determine the candidate viewpoints, and then these viewpoints are scored by a reasonable evaluation function. The candidate viewpoint with the highest score is used as the next best view. The combined method uses the surface and voxel models and merges the advantages of the two methods comprehensively to provide effective information for view planning. However, combined methods have not been investigated much recently, and the first two methods have mainly been the focus. Surface-based methods involve problems of detection direction determination, unknown surface prediction, and next-best viewpoint determination. Search-based methods involve problems of model type selection, search space determination, undetected area prediction, and design of the evaluation function to sort candidate viewpoints. The main research methods for these related problems are summarized and analyzed, and the solutions to each problem are combined reasonably to form different active object reconstruction methods. Result In surface-based active object reconstruction methods, the manner of determining the direction of detection and predicting the unknown area has an important impact on the view planning effect. When selecting an edge point to determine the direction of detection, the use of the quantitative indicator method is more reliable than the use of the spatial position method to express the unknown region, but its computational complexity is higher. In addition, using an indirect method to predict an unknown surface may be simpler than using a direct method, but it results in larger fitting errors. In general, surface-based methods are relatively simple, and the process of each view planning consumes minimal time. However, the unknown region depends on its adjacent surface trend to predict; thus, this method is only suitable for reconstructing objects with regular shapes. Search-based active object reconstruction methods quantitatively evaluate each candidate view. The octomap model is more efficient than other probabilistic voxel models when selecting model types. The selection of candidate viewpoints using dynamic search space methods has higher computational complexity than using fixed search space methods, but such methods have no limitation on the target size, and their application scenario is extensive. When predicting the information contained in an unknown voxel, its relative positional relationship with the known voxel can be utilized; thus, using this method for the next view planning can maximize the known information compared with not updating the unknown voxel. When determining the evaluation function, information gain modules may be added to the evaluation function, and the adjacent frame overlap ratio optimization modules, the neighboring viewpoint distance optimization modules, and the reconstructed surface quality optimization items may be added as needed. The information gain of the viewpoint is obtained by counting the voxel gain in the field of view. Differences in voxel gain calculation and statistical methods directly affect the information gain value of the viewpoint. With these search-based methods, the next view planning works well, but the process is time consuming. Moreover, the problems involved in such methods have a larger solution space than those involved in surface-based methods. Therefore, more research results are generated in search-based active object reconstruction methods. However, such methods are relatively computationally intensive, and in most cases, the views are not continuously pulsating in the search space, and point cloud registration is not considered. Conclusion Researchers who study active object reconstruction have made some progress at present, but the accuracy and efficiency of active reconstruction can still be improved. Other feasible research directions are provided in the end, and these could serve as a reference for future research in this direction, such as introducing a priori information into the process of view planning, combining surface- and search-based methods, and building perceptual intelligence systems that are suitable for different tasks.

Key words

active object reconstruction; active vision; view planning; sensor planning; intelligent perception

0 引言

在机器人视觉研究领域,目标的几何建模[1-3]是重要的研究方向之一,它是指通过视觉方法获得目标3维几何形状等信息的技术,该技术广泛应用于机器人探测与服务、医疗、建筑、工业等领域。

对目标进行几何建模时,一个视点获得的数据往往不完整,甚至会出现大面积缺损等问题。因此,需要从不同的视点获取目标的信息,然后将这些信息进行融合,实现目标完整的几何建模[4-7]

在形成多视点的过程中,如果对每个视点的位置和方向等参数不加以主动规划,使传感器简单环绕目标或随机对目标进行感知,可能会降低目标建模的质量和效率。而如果根据建模任务和已经获得的目标信息等条件,在一定的优化目标下,对下一视点进行规划,则可以极大地改善上述问题。视点规划的概念最早是Connolly[8]在1985年提出来的,这也是最早的主动视觉[9]思想。包含视点规划的建模方法称为主动目标几何建模[10-12],是主动视觉的核心内容之一,也是实现感知过程智能化的重要途径。由于主动目标建模一般是指对目标的几何形态进行主动建模,后文提到的主动目标建模即表示主动目标几何建模。

主动目标建模算法的基本流程如图 1所示。首先获得初始视点并初始化模型空间,然后在终止条件达到之前,进行如下循环:1)在当前视点对目标进行感知,获取感知信息;2)将当前的感知信息与已有的信息相融合,对模型进行更新;3)利用更新后的模型规划下一最佳视点,将传感器移动到最佳视点。

图 1 主动目标建模算法流程图
Fig. 1 Algorithm flowchart of active object reconstruction

1 总体概况

2003年Scott等人[13]发表了一篇关于主动目标建模和目标检测的综述,详细总结了该领域的发展状况。2011年Chen等人[14]发表了一篇综述,对包括主动目标识别、主动区域搜索、主动目标建模等在内的各类主动视觉任务的研究现状进行概括,但由于涉及方向较为广泛,对每一类视觉任务的总结比较粗略。

本文对2004年以来主动目标建模的研究进行总结和归纳,在谷歌学术上以“3d reconstruction”和“next best view”作为关键词搜索论文发表情况,结果显示这个时间段内,共有近500条相关的英文文献记录,图 2是2004—2018年论文发表量分布图,图中总量一栏显示了论文发表量随年份的变化。总体而言,目前对主动目标建模的关注度并不高,但近几年有增长的趋势,可能的原因是当前对人工智能的关注度持续上涨,而作为能够很大程度上体现智能感知的一项技术,主动目标建模也得到了相应的重视。

图 2 2004—2018年论文发表量分布图
Fig. 2 Distribution of papers published in 2004—2018

国内对主动目标建模的研究仍在起步阶段,关于主动目标建模的中文文献寥寥无几,仅有福州大学的何炳蔚等人[15-17]以及南通大学的黄立平、姚兴田等人[18-19]曾经对主动目标建模做过研究。

目前主动目标建模主要针对基于模型的主动目标建模和无模型的主动目标建模两类任务展开。

基于模型的主动目标建模是在目标的几何模型信息已知的情况下进行,研究内容为在模型已知的情况下,如何预规划出一系列视点,使得这些视点能够高质量地对目标实现全覆盖。无模型的主动目标建模是指没有目标的任何信息,仅从第一视点获得的信息开始,一步步地进行规划,最终实现目标的几何建模。在实际应用中,第二类的情况更多,相对更也难,因此对无模型主动目标建模的研究相对较多。有模型的预规划方法相对简单,也更成熟,因此本文仅对无模型任务的方法进行综述,有模型的方法可参见文献[20-25]。

对于无模型的主动目标建模任务,以重构模型类型和规划视点时使用的信息作为划分依据,其研究方法主要分为3大类:基于表面的方法(surface-based methods)、基于搜索的方法(search-based methods)和两者相结合的方法(hybrid methods)。基于表面的方法使用点云、三角面片等模型,利用当前已获得的局部模型提取表面信息,对未知区域形状分类,从而决定下一视点;基于搜索的方法使用体素模型,首先用一定的方法确定批量候选视点,然后用合理的评价函数对这些视点打分,分数最高的候选视点作为下一最佳视点;两者相结合的方法同时使用表面模型和体素模型,综合利用两类方法的优势,为视点规划提供更多的有效信息[26-27]。但是目前两者相结合的方法并没有获得太多研究,因此本文仅对基于表面和基于搜索的两种主动目标建模类型中的相关方法作归纳总结。

分别以“3d reconstruction”+“next best view”+ “surface based”和“3d reconstruction” + “next best view”+“voxel”作为关键词搜索论文发表情况,结果如图 2所示,表明在主动目标建模方法中基于搜索的方法占比相对基于表面的方法较大,且近年来这种趋势更加明显。

2 基于表面的主动目标建模

基于表面的视点规划方法由Pito[28]首次提出,基本思想是已探测表面能够在一定程度上体现其邻域的表面趋势,因此可以使用重构模型的局部表面特征预测与之相邻的未知表面,使得下一视点能够探测到更多的未知区域。使用这类方法确定下一最佳视点的过程中,涉及的问题如下:1)如何从当前已有模型中选择部分表面来预测其邻域趋势,即下一视点的探测方向确定问题;2)选定局部已知区域后,如何预测未知表面;3)如何根据预测表面确定下一视点。

2.1 探测方向确定问题

局部已探测表面的选择应该遵循两个条件:1)该表面位于模型边缘,这是其与未知区域相邻的先决条件;2)该表面能够充分地体现邻域趋势,这样才能够有效地预测未知区域。

由于表面区域不方便使用符号表示,可以使用边缘点表示其邻域表面,将挑选边缘表面的过程转化为选择边缘点的过程。最后在选定的边缘点处估计与其相邻的未知区域,并定义一个方向作为下一步传感器探测方向。

Kriegel等人[27]使用空间位置选择边缘点。通过对模型边缘点之间的边的方向进行分析,区分物体的上下左右4个边缘,将某个边缘的中心点作为被选择点。这种选点方式简单,计算复杂度低。但由于该表面选择法没有考虑第2个条件,可能导致选择的边缘区域难以表示未知表面的趋势。

Chen等人[29]使用量化指标法选择边缘点,用评级函数对边缘点的优先级进行排序。由于越平滑的表面越能够表示表面趋势,评级函数主要依据边缘点所在边缘区域的平滑程度来确定。使用这类方法选择的边缘点用来表达未知区域更加可靠,但是应当注意表面平滑程度应控制在一定范围内,因为平面无法表示未知表面趋势,并且平面含有信息量较少,会对点云配准阶段造成消极影响。

选定边缘点以后,要确定传感器的移动方向。可行的方向包括以下几种:1)从该点出发,向外水平或竖直延伸的方向;2)该边缘点处的主曲线方向;3)该边缘点的高斯曲线方向;4)自行选定,易于下一步操作的表面曲线来表示探测方向,如图 3

图 3 探测方向曲线
Fig. 3 The curve of detection direction

2.2 未知表面预测问题

未知表面预测包括两种方法,一是直接法,利用已知点坐标拟合未知表面;二是间接法,使用表面的几何特征(如曲率、几何形状等)拟合未知区域的特征,进而预测未知表面。

用直接法预测未知表面,算法形式比较简单,常用的表面表示方法包括二次曲面表示方法[27]、多项式表示方法[30-31]等。

间接法预测未知表面,是在对已知表面进行处理以后,利用其表面特征来估计未知区域表面。对较平缓的曲线,可使用已知部分各点曲率对未知部分进行拟合[29]。这类方法计算量相对较小,但间接地对曲线进行拟合可能会带来更大的拟合误差。

2.3 下一最佳视点确定问题

为了满足后续数据融合的需求,相邻两帧图像需要保证一定的重叠区域;同时,移动后的相机位置可能与预期存在偏差,为了保证有效的点云配准,重叠区域需要含有足够的信息量,这种约束称为前后帧重叠约束。

为了满足前后帧重叠约束,同时以探测到更多的未知区域作为优化目标,下一视点确定转化为一定约束下的目标优化问题求解,如图 4所示。

图 4 下一视点确定示意图
Fig. 4 The schematic diagram of next view determination

3 基于搜索的主动目标建模

基于搜索的主动目标建模方法的基本思想是利用体素模型中各个体素包含的信息及其与视点之间的位置关系,在若干候选视点中用合适的评价函数选择最佳视点。使用这类方法确定下一最佳视点的过程中,涉及的问题如下:1)模型类型的选择以及搜索空间的确定方法;2)未探测体素包含信息的预测;3)如何选择合适的视点评价函数。其中,视点评价函数的选择对下一最佳视点的确定起到了至关重要的作用。

3.1 模型类型与搜索空间选择问题

以模型中存储的信息作为区分依据,主动目标建模中使用的体素模型可分为布朗模型和概率体素模型。布朗模型[32]只关注每个体素是否处于被占据状态,而概率体素模型[33]存储的是每个体素的被占据概率,这种模型对噪声等干扰因素具有一定的鲁棒性。

以模型的结构形式作为区分依据,主动目标建模中使用的体素模型可以分为3维体素阵列模型和八叉树模型。3维体素阵列模型[34]将模型空间均分成若干体素,所有体素的信息存储在一个3维数组中,这种存储结构比较简单且每个元素易被遍历。八叉树模型最早由Payeur等人[35]提出,这种模型结构可以随意调节模型的分辨率,从而控制模型空间划分的精度。

Wurm等人[36-37]提出的OctoMap模型,是一种用来存储体素占据概率的八叉树模型,综合了概率体素模型和八叉树模型的优点,并对占据概率的存储形式做了一定改进,将直接存储占据概率变成存储其logit值的形式,即

$l = \ln \frac{p}{{1 - p}} $ (1)

式中,$p$是体素的占据概率,$l$是对应的logit值。该存储形式可大大加快模型更新过程,因此,该模型在提出以后被大量基于搜索的目标建模方法所引用。

确定模型类型后,如何选择合适的搜索空间(即候选视点),并在搜索空间中确定下一视点是另一个需要解决的问题,该问题目前有两类解决方法。

第一类是固定搜索空间法。进行视点规划之前,在模型空间内初始化一系列候选视点,使得这些视点能够覆盖整个目标。一般情况下,这些视点均匀分布在包围目标的球形或圆柱体上。由于这类方法简单,在视点规划过程中无需额外计算量,因此大部分文献使用这类方法确定搜索空间。但是这类方法的使用前提是目标尺寸已知,对于实际应用中目标先验信息完全未知的情况很难适用。

第二类是动态搜索空间法[38]。经过每一次视觉感知后,随着目标信息的逐步获取,估计目标尺寸,选择覆盖目标的搜索空间。这类方法增加了视点规划过程中的计算量,但是对目标尺寸没有限制,应用场景较为广泛。

3.2 未探测区域预测问题

传感器每移动到新的位置后,对目标进行感知,然后根据获取的感知信息对当前模型进行更新。对模型的更新包括对占据体素、空闲体素和未知体素的更新,这里体素的状态是由当前感知结果决定的。传感器获得深度信息的点位于物体表面上,该点所在体素叫做占据体素;沿着视线方向,位于占据体素之前的体素被视线穿过,因此是空闲体素。占据体素和空闲体素统称已知体素,其他体素则是未知体素。

对于没有获得任何信息的未知体素,想要对其中包含的信息进行预测,只能利用它与已知体素的相对位置关系。常用的方法包括基于边缘体素的方法和基于占据体素的方法。

Daudelin等人[38]使用基于边缘体素的方法,认为边缘体素是同时与已占据体素和空闲体素相邻的未知体素,该体素在未知体素中具有最大的占据概率,其他未知体素的占据概率随着与边缘体素距离的增加而减小。

Potthast等人[39]提出了基于占据体素的方法,认为未知体素的占据概率与它到占据体素的距离有关,距离表面越近的体素,其占据概率越大,反之占据概率较小。

上述两种方法能够有效利用已探测信息和物体的空间分布情况。但是也有一部分文献没有对未知体素进行更新,在决定下一最佳视点时,只利用了已有感知信息。

3.3 视点评价函数的确定问题

为了评价各个候选视点被选择作为下一视点的可能性,需要确定合适的评价函数。一个优秀的评价函数应当能够充分反映优化目标,视点规划过程中的优化目标如下:

1) 获得更多的新探测区域的优化目标。为了使用更少的视点完成主动目标建模的任务,每一次视点规划都需要使新的视点获得更多的未知区域。

2) 前后帧重叠比例优化。当建模过程中涉及到点云配准时,相邻两帧图像应存在一定的重叠区域。

3) 重建表面质量优化。对于主动目标建模任务,令表面覆盖率、测量精度和采样密度都尽可能达到最大值。

4) 传感器运动路径优化。考虑到主动目标建模过程中机器人的能耗问题,应尽可能缩短它的运动路径。

在基于搜索的主动目标建模方法中,获得更多的新探测区域的优化目标应当处于优先考虑的地位。为了达到新的视点探测到更多的未知区域的目的,可以在评价函数中加入信息增益项,信息增益反映了新的视点带来的新增信息量。此外,还可以视情况加入前后帧重叠比例优化项、相邻视点距离优化项、重建表面质量优化项等。

3.3.1 视点信息增益优化项

视点的信息增益通过统计其视野范围内体素增益的方式获得,体素增益计算方式的不同和统计方式的不同直接影响到视点的信息增益值。

表 1所示,体素增益的表达形式包括常数表示法、信息熵表示法、加权信息熵表示法和到占据体素距离的函数表示法等。

表 1 文献中体素增益表达形式与统计方法
Table 1 Voxel gain expression forms and statistical methods in literature

下载CSV
统计方式 常数 信息熵 体素增益形式加权信息熵 占据体素距离的函数
所有体素(有重复) [39] [27, 41, 43]
所有体素(无重复) [38]
未知体素(有重复) [41, 43]
未知体素(无重复) [40]
边界体素(无重复) [42, 44-45]
邻近占据体素的体素(有重复) [41-45]
占据体素与传感器之间的体素(有重复) [41, 43] [41, 43]

常数表示法认为所有感兴趣的体素对候选视点的信息增益做出相同贡献,将感兴趣体素的信息增益设为固定常数,其余体素不提供信息增益。感兴趣体素是指那些能够带来更多未知信息的体素,例如视野内未知体素、边界体素等,边界体素指与空闲体素相邻的未知体素。

信息熵表示法是一种对体素包含未知信息量的形式化表示,这种方法认为体素增益与其占据状态的不确定性有关,用体素占据概率的信息熵表示体素所含信息量。当体素的占据状态完全未知时,它能够带来最多的未知信息;当体素状态完全确定时,它不会带来任何新的未知信息。相比于常数表示法,这种方法能够更加精确地表达体素所含信息量。

加权信息熵表示法是在信息熵表示法的基础上加上特定权值的表达形式。常用的权值包括体素的可探测概率、体素占据概率与可探测概率的乘积等。因为当体素被其他占据体素挡到视线时,将不能为视点提供新的信息,所以体素的可探测概率决定了它能够为视点提供信息的可能性。这种方法不仅能够体现每个体素包含的未知信息量,而且其权值也体现出该体素所携信息为候选视点的整体信息增益所做出的贡献。

到占据体素距离的函数表示法以物体的空间分布为依据,认为占据体素周围的体素被占据的可能性较大,因此将体素$x$的体素增益$I\left(x \right)$表示为该体素与距其最近的占据体素的距离$d\left(x \right)$的函数,即

$I(x) = {d_{\max }} - d(x) $ (2)

式中,$d_\rm{max}$表示人为设置的最大距离阈值。

实际上,这种方法包含了未知体素占据概率的预测和对体素增益未知信息的形式化表示两种思想,但在表达形式上做了简化。

确定了合理的体素增益表示方法后,下一步应该选择适当的统计方式来统计候选视点的信息增益。以有无重复为区分依据,统计形式包括有重复的统计和无重复的统计。

有重复的统计使用遍历光线[46]的统计方法,计算传感器发出的每一条光线穿过体素的信息增益并进行累加,如图 5所示。同一个体素可能被不同光线穿过,形成重复的统计。

图 5 有重复的统计方式示意图
Fig. 5 The schematic diagram of repeated statistics

无重复的统计方式[38]将模型空间中的体素增益以查找表的形式表示,然后对候选视点视野内的体素增益进行统计。与有重复的统计相比,该方法不会对同一体素进行二次统计,增加了视点增益表示的可靠性。

以感兴趣体素类型为分类依据,包括统计所有体素增益、统计未知体素增益、统计边界体素增益、统计邻近占据体素的体素增益以及统计占据体素与传感器之间的体素增益等形式,体素分类示意图如图 6所示。

对比统计视野内所有体素增益,统计未知体素增益的方法不考虑已知体素的增益[40],认为已知体素包含的信息已经固定,不能够为获取未知信息带来帮助。

图 6 体素分类示意图
Fig. 6 The schematic diagram of voxel classification

统计边界体素增益的方法仅关注边界体素带来的未知信息。边界体素既与空闲体素相邻,又与未知体素相邻,因此认为它存在表面的概率较大,可以作为感兴趣体素被统计。

统计占据体素与传感器之间的体素增益方法是对视线方向上占据体素到传感器之间的体素增益进行统计,依据占据体素周围的体素属于物体的可能性较大的思想,认为其他体素带来的未知信息较小,其信息不予统计。

统计邻近占据体素的体素增益的方法是对视野内邻近占据体素的体素增益做统计,与统计占据体素与传感器之间的体素增益方法的思想相同,不同的是仅选择最有可能属于物体的几个体素进行统计。

选择合适的统计方式将感兴趣体素的增益进行累加,得到候选视点的信息增益。不同的体素增益表达形式和不同的统计方式相结合,形成多样化的视点信息增益计算方式。此外,还可以将不同信息增益计算方式得到的视点增益加权平均作为新的视点增益[42]。这种方法能够充分利用各种表达形式带来的信息量,但同时也增加了计算复杂度。

3.3.2 其他优化项

前后帧的重叠是点云配准的基础,但是重叠区域过多会导致无法探测到更多新的区域,因此主动目标建模过程中需要有适量的前后帧重叠。Vasquez等人[42]提出了一种量化评价该条件的方法,对于候选视点可能获取的信息,判断其中已知信息与未知信息的比例,提前设定期望的比例值,使实际的比例尽可能靠近期望值。其优化函数如图 7所示,其中$\alpha $表示期望比例。

图 7 前后帧重叠约束函数
Fig. 7 Constraint function of overlap

为了缩短两相邻视点间的距离,减小机器人能耗,可以在优化函数中添加距离优化项。文献[43]直接用一个设定的距离上限值与相邻视点间距离作差,作为优化函数中的相邻视点间距离优化项。文献[42]提出另外一种距离优化项表示法,认为随着视点间距离$d$的不断增大,优化函数(fnavigation)的下降应该越来越快,直至到达下限$\rho $。与前一种方法相比,这种表达形式考虑了优化函数的导数随距离的变化趋势,更有效地描述了视点距离与优化目标间的关系。对应的优化函数曲线如图 8所示。

图 8 相邻视点距离优化函数
Fig. 8 Optimization function of distance between two adjacent views

重建目标表面质量与传感器获得数据质量、噪声影响等因素有关,分析这些因素对表面质量产生的影响,列出相应的表达式作为优化函数的重建表面质量优化项。传感器数据质量受传感器光轴和目标表面法向量夹角的影响,当光轴方向与法向量方向相反时,获得的探测数据最准确。它与传感器到物体的距离也有很大关系,所以也可以通过计算候选视点到已知表面的距离判断重建表面的质量。另外,可以通过重建后的表面点云密度、有无漏洞等信息判断表面质量[28]

4 结论

本文对近15年来主动目标建模问题的研究方法进行了综述,并重点对基于表面和基于搜索的两类典型主动目标建模中涉及的问题及其相关研究方法做了归纳和分析。基于表面的主动目标建模方法中涉及探测方向的确定、未知表面的预测以及下一最佳视点的确定问题,其中,探测方向的确定过程最能够体现目标建模中的视点规划。基于搜索的主动目标建模中涉及模型类型与搜索空间选择问题、未探测区域预测问题和视点评价函数的确定问题,这类算法的核心在于视点评价函数的确定。在两类典型主动目标建模方法中,将涉及的各个问题的不同研究方法相搭配,构成了不同的主动目标建模方法子类。

总体而言,基于表面的主动目标建模方法思想相对简单,每一次视点规划耗时较少,但是由于未知区域要依靠与其相邻的表面趋势来预测,该类方法仅适用于表面简单的目标建模。基于搜索的目标建模方法量化地评价每一个候选视点,其视点规划效果更为理想,适用情况也更为广泛。另外,这类方法中涉及的问题相对于基于表面的方法有更大的解决空间,因此,基于搜索的主动目标建模有更多的研究成果产生。但是这类方法计算量相对较大,而且多数情况下视点在搜索空间内存在不连续跳动,没有考虑点云配准。

目前对主动目标建模方法的研究已经取得了很大的进展,但是仍然可以提出更多新的研究方法以提升目标建模的精度和效率。未来对主动目标建模的研究可以从以下几个方向展开:

1) 基于表面和基于搜索的主动目标建模中涉及的核心问题都还具有一定的研究空间。视点规划的过程可以转换成在一定约束下的优化问题,结合任务的背景需求,设置具有明确物理意义的优化目标与约束条件。例如,前者可以通过设计不同评级函数选择边缘点;后者可以通过确定基于任务的优化目标,设计合适的视点评价函数来筛选下一视点等。

2) 将基于表面和基于搜索的方法相结合。使用基于表面的方法,选定若干最佳视点作为候选视点,然后使用基于体素的方法,在这些视点中确定下一最佳视点。这种方法能够充分利用表面模型和体素模型提供的信息,而且能够避免视点的往复运动。目前对这类方法的研究非常少。

3) 在主动目标建模过程中加入部分先验信息。当前的研究主要集中在基于模型和无模型的主动目标建模方向,但是很多实际应用场合对于目标的知识是介于无模型与有模型之间。目标只有部分先验信息,还不能够支持采用基于模型的方法实现离线预规划,但如果将这些信息应用于视点规划过程中,那么对未知区域的估计能够起到指导作用,将比无模型的下一视点规划过程更加精确高效。目前这一方面的研究还很缺乏,开展这项研究既有重要的理论意义又有明确的应用价值。

4) 建立脱离具体任务的感知智能系统。目前的视点规划都是面向特定任务的,如果能够应用人工智能的最新研究成果,建立一个知识表示系统,使该系统能够对任务、传感器的能力等进行形式化的描述,然后用各种优化方法进行求解,就有可能形成与任务无关的相对通用的主动建模视点规划的新理论与方法,这项研究也是对人工智能理论的丰富与补充,具有非常重要的理论意义。

参考文献

  • [1] Fan H Q, Su H, Guibas L. A point set generation network for 3D object reconstruction from a single image[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 1-6.[DOI: 10.1109/CVPR.2017.264]
  • [2] Mei F, Liu J, Li C P, et al. Improved RGB-D camera based indoor scene reconstruction[J]. Journal of Image and Graphics, 2015, 20(10): 1366–1373. [梅峰, 刘京, 李淳芃, 等. 基于RGB-D深度相机的室内场景重建[J]. 中国图象图形学报, 2015, 20(10): 1366–1373. ] [DOI:10.11834/jig.20151010]
  • [3] He B W, Chen Z P. Determination of the common view field in hybrid vision system and 3D reconstruction method[J]. Robot, 2011, 33(5): 614–620. [何炳蔚, 陈志鹏. 混合视觉系统中共同视场的确定与3维重建方法[J]. 机器人, 2011, 33(5): 614–620. ] [DOI:10.3724/SP.J.1218.2011.00614]
  • [4] Lin C H, Kong C, Lucey S. Learning efficient point cloud generation for dense 3D object reconstruction[C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, Louisiana, USA: AAAI, 2018: 7114-7121.
  • [5] Choy C B, Xu D F, Gwak J, et al. 3D-R2N2: a unified approach for single and multi-view 3D object reconstruction[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016: 628-644.[10.1007/978-3-319-46484-8_38]
  • [6] Lun Z L, Gadelha M, Kalogerakis E, et al. 3D shape reconstruction from sketches via multi-view convolutional networks[C]//Proceedings of 2017 International Conference on 3D Vision. Qingdao, China: IEEE, 2017: 67-77.[DOI: 10.1109/3DV.2017.00018]
  • [7] Chou H L, Chou H L, Chen Z. A quality controllable multi-view object reconstruction method for 3D imaging systems[J]. Journal of Visual Communication and Image Representation, 2010, 21(5-6): 427–441. [DOI:10.1016/j.jvcir.2010.03.004]
  • [8] Connolly C. The determination of next best views[C]//Proceedings of 1985 IEEE International Conference on Robotics and Automation. St. Louis, MO, USA: IEEE, 1985: 432-435.[DOI: 10.1109/ROBOT.1985.1087372]
  • [9] Aloimonos J, Weiss I, Bandyopadhyay A. Active vision[J]. International Journal of Computer Vision, 1988, 1(4): 333–356. [DOI:10.1007/BF00133571]
  • [10] Jing W, Polden J, Lin W, et al. Sampling-based view planning for 3D visual coverage task with unmanned aerial vehicle[C]//Proceedings of 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems. Daejeon, South Korea: IEEE, 2016: 1808-1815.[DOI: 10.1109/IROS.2016.7759288]
  • [11] Hepp B, Nießner M, Hilliges O. Plan3D:viewpoint and trajectory optimization for aerial multi-view stereo reconstruction[J]. ACM Transactions on Graphics, 2018, 38(1): 1–31.
  • [12] Kaba M D, Uzunbas M G, Lim S N. A reinforcement learning approach to the view planning problem[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 5094-5102.[DOI: 10.1109/CVPR.2017.541]
  • [13] Scott W, Roth G, Rivest J F. View planning for automated three-dimensional object reconstruction and inspection[J]. ACM Computing Surveys, 2003, 35(1): 64–96. [DOI:10.1145/641865.641868]
  • [14] Chen S Y, Li Y F, Kwok N M. Active vision in robotic systems:a survey of recent developments[J]. The International Journal of Robotics Research, 2011, 30(11): 1343–1377. [DOI:10.1177/0278364911410755]
  • [15] He B W. A viewpoint planning method with self-termination[J]. Journal of Image and Graphics, 2006, 11(12): 1827–1833. [何炳蔚. 一种具有自终止特性的视点规划方法[J]. 中国图象图形学报, 2006, 11(12): 1827–1833. ] [DOI:10.11834/jig.2006012318]
  • [16] He B W, Zhou X L. Research of sensor planning method in line laser three-dimensional measurement system[J]. Chinese Journal of Lasers, 2010, 37(6): 1618–1625. [何炳蔚, 周小龙. 线激光3维测量仪中视觉传感器规划方法研究[J]. 中国激光, 2010, 37(6): 1618–1625. ]
  • [17] Fang W, He B W. Automatic view planning for 3D reconstruction and occlusion handling based on the integration of active and passive vision[C]//Proceedings of 2012 IEEE International Symposium on Industrial Electronics. Hangzhou, China: IEEE, 2012: 1116-1121.[DOI: 10.1109/ISIE.2012.6237245]
  • [18] Huang L P, Zuo J Q, Zhang L. Studies to determine the next best view of the robot visual servo-based approach[J]. Industrial Instrumentation & Automation, 2015(2): 7–11. [黄立平, 左骏秋, 张磊. 基于机器人视觉伺服的确定下一最优视点的方法研究[J]. 工业仪表与自动化装置, 2015(2): 7–11. ] [DOI:10.3969/j.issn.1000-0682.2015.02.002]
  • [19] Yao X T, Wu L L, Ma Y L, et al. Research on next best view in automatic 3D reconstruction[J]. Journal of Jiangxi Normal University:Natural Science Edition, 2013, 37(6): 569–573. [姚兴田, 吴亮亮, 马永林, 等. 自动3维重构中确定下一最优视点的方法研究[J]. 江西师范大学学报:自然科学版, 2013, 37(6): 569–573. ] [DOI:10.3969/j.issn.1000-5862.2013.06.005]
  • [20] Scott W R. Model-based view planning[J]. Machine Vision and Applications, 2009, 20(1): 47–69. [DOI:10.1007/s00138-007-0110-2]
  • [21] Chen S Y, Li Y F. Automatic sensor placement for model-based robot vision[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2004, 34(1): 393–408. [DOI:10.1109/TSMCB.2003.817031]
  • [22] Mavrinac A, Chen X, Alarcon-Herrera J L. Semiautomatic model-based view planning for active triangulation 3-D inspection systems[J]. IEEE/ASME Transactions on Mechatronics, 2015, 20(2): 799–811. [DOI:10.1109/TMECH.2014.2318729]
  • [23] Munkelt C, Breitbarth A, Notni G, et al. Multi-view planning for simultaneous coverage and accuracy optimisation[C]//Proceedings of the British Machine Vision Conference. Dundee, UK: BMVA, 2010: 1-11.[DOI: 10.5244/C.24.118]
  • [24] Wakisaka E, Kanai S, Date H. Model-based next-best-view planning of terrestrial laser scanner for HVAC facility renovation[J]. Computer-Aided Design and Applications, 2018, 15(3): 353–366. [DOI:10.1080/16864360.2017.1397886]
  • [25] Schmid K, Hirschmüller H, Dömel A, et al. View planning for multi-view stereo 3D reconstruction using an autonomous multicopter[J]. Journal of Intelligent & Robotic Systems, 2012, 65(1-4): 309–323. [DOI:10.1007/s10846-011-9576-2]
  • [26] Torabi L, Gupta K. An autonomous six-DOF eye-in-hand system for in situ 3D object modeling[J]. The International Journal of Robotics Research, 2012, 31(1): 82–100. [DOI:10.1177/0278364911425836]
  • [27] Kriegel S, Rink C, Bodenmüller T, et al. Efficient next-best-scan planning for autonomous 3D surface reconstruction of unknown objects[J]. Journal of Real-Time Image Processing, 2015, 10(4): 611–631. [DOI:10.1007/s11554-013-0386-6]
  • [28] Pito R. A solution to the next best view problem for automated surface acquisition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1999, 21(10): 1016–1030. [DOI:10.1109/34.799908]
  • [29] Chen S Y, Li Y F. Vision sensor planning for 3D model acquisition[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2005, 35(5): 894–904. [DOI:10.1109/TSMCB.2005.846907]
  • [30] Krumbein W C. The "sorting out" of geological variables illustrated by regression analysis of factors controlling beach firmness[J]. Journal of Sedimentary Research, 1959, 29(4): 575–587. [DOI:10.1306/74D7099D-2B21-11D7-8648000102C1865D]
  • [31] Kriegel S, Bodenmüller T, Suppa M, et al. A surface-based next-best-view approach for automated 3D model completion of unknown objects[C]//Proceedings of 2011 IEEE International Conference on Robotics and Automation. Shanghai, China: IEEE, 2011: 4869-4874.[DOI: 10.1109/ICRA.2011.5979947]
  • [32] Wilhelms J, Van Gelder A. Octrees for faster isosurface generation[J]. ACM Transactions on Graphics, 1992, 11(3): 201–227. [DOI:10.1145/130881.130882]
  • [33] Pathak K, Birk A, Poppinga J, et al. 3D forward sensor modeling and application to occupancy grid based sensor fusion[C]//Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems. San Diego, CA, USA: IEEE, 2007: 2059-2064.[DOI: 10.1109/IROS.2007.4399406]
  • [34] Ryde J, Hu H S. 3D mapping with multi-resolution occupied voxel lists[J]. Autonomous Robots, 2010, 28(2): 169–185. [DOI:10.1007/s10514-009-9158-3]
  • [35] Payeur P, Hebert P, Laurendeau D, et al. Probabilistic octree modeling of a 3D dynamic environment[C]//Proceedings of the International Conference on Robotics and Automation. Albuquerque, NM, USA: IEEE, 1997: 1289-1296.[DOI: 10.1109/ROBOT.1997.614315]
  • [36] Wurm K M, Hornung A, Bennewitz M, et al. OctoMap: a probabilistic, flexible, and compact 3D map representation for robotic systems[C]//Proceedings of the ICRA 2010 Workshop on Best Practice in 3D Perception and Modeling for Mobile Manipulation. Anchorage, AK, USA: ICRA, 2010.[DOI: 10.1.1.176.724]
  • [37] Hornung A, Wurm K M, Bennewitz M, et al. OctoMap:an efficient probabilistic 3D mapping framework based on octrees[J]. Autonomous Robots, 2013, 34(3): 189–206. [DOI:10.1007/s10514-012-9321-0]
  • [38] Daudelin J, Campbell M. An adaptable, probabilistic, next-best view algorithm for reconstruction of unknown 3-D objects[J]. IEEE Robotics and Automation Letters, 2017, 2(3): 1540–1547. [DOI:10.1109/LRA.2017.2660769]
  • [39] Potthast C, Sukhatme G S. A probabilistic framework for next best view estimation in a cluttered environment[J]. Journal of Visual Communication and Image Representation, 2014, 25(1): 148–164. [DOI:10.1016/j.jvcir.2013.07.006]
  • [40] Vasquez-Gomez J I, Sucar L E, Murrieta-Cid R, et al. Tree-based search of the next best view/state for three-dimensional object reconstruction[J]. International Journal of Advanced Robotic Systems, 2018, 15(1): 1–11. [DOI:10.1177/1729881418754575]
  • [41] Delmerico J, Isler S, Sabzevari R, et al. A comparison of volumetric information gain metrics for active 3D object reconstruction[J]. Autonomous Robots, 2018, 42(2): 197–208. [DOI:10.1007/s10514-017-9634-0]
  • [42] Vasquez-Gomez J I, Sucar L E, Murrieta-Cid R, et al. Volumetric next-best-view planning for 3D object reconstruction with positioning error[J]. International Journal of Advanced Robotic Systems, 2014, 11(10): 159–171. [DOI:10.5772/58759]
  • [43] Isler S, Sabzevari R, Delmerico J, et al. An information gain formulation for active volumetric 3D reconstruction[C]//Proceedings of 2016 IEEE International Conference on Robotics and Automation. Stockholm, Sweden: IEEE, 2016: 3477-3484.[DOI: 10.1109/ICRA.2016.7487527]
  • [44] Vasquez-Gomez J I, Sucar L E, Murrieta-Cid R. View planning for 3D object reconstruction with a mobile manipulator robot[C]//Proceedings of 2014 IEEE/RSJ International Conference on Intelligent Robots and Systems. Chicago, IL, USA: IEEE, 2014: 4227-4233.[DOI: 10.1109/IROS.2014.6943158]
  • [45] Yamauchi B. A frontier-based approach for autonomous exploration[C]//Proceedings of 1997 IEEE International Symposium on Computational Intelligence in Robotics and Automation CIRA'97. 'Towards New Computational Principles for Robotics and Automation. Monterey, CA, USA: IEEE, 1997: 146-151.[DOI: 10.1109/CIRA.1997.613851]
  • [46] Amanatides J, Woo A. A fast voxel traversal algorithm for ray tracing[C]//Proceedings of Eurographics. Amsterdam: the Netherlands, 1987: 3-10.[DOI: 10.2312/egtp19871000]