Print

发布时间: 2018-09-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170582
2018 | Volume 23 | Number 9




    图像分析和识别    




  <<上一篇 




  下一篇>> 





LoVPE 3维局部特征描述子
expand article info 陈全1, 吕武2, 方斌1, 岳子涵1, 马杰1
1. 华中科技大学多谱信息处理技术国家重点实验室, 武汉 430074;
2. 中国船舶工业系统工程研究院, 北京 100036

摘要

目的 局部特征描述子在3维目标识别等任务中能够有效地克服噪声、不同点云分辨率、局部遮挡、点云散乱分布等因素的干扰,但是已有3维描述子难以在性能和效率之间取得平衡,为此提出LoVPE(局部多视点投影视图相关编码)特征描述子用于复杂场景中的3维目标识别。方法 首先构建局部参考坐标系,将世界坐标系下的局部表面变换至关键点局部参考坐标系下的局部表面;然后绕局部参考坐标系各坐标轴旋转$K$个角度获得多视点局部表面,将局部表面内的点投影至局部参考系各坐标平面内,投影平面分成$N$×$N$块,统计每块内投影点的散布信息生成特征描述向量;最后将各视点特征描述向量进行两两视图对相关编码得到低维度特征描述向量,采用ZCA(零项分量分析)白化降低特征描述向量各维间相关性得到LoVPE描述子。结果 在公用数据集上进行不同描述子对噪声、不同分辨率、遮挡及杂波等干扰鲁棒性的特征匹配实验,实验结果表明,提出的描述子特征匹配率与现有最佳描述子处于同等水平,但保持了较低的特征维度和较高的计算效率,维度降低约1半、特征构建及特征匹配时间缩短为现有最佳描述子的1/4。结论 提出一种新的3维局部特征描述子,具有强描述能力,对噪声、不同网格分辨率、遮挡及杂波等具有强鲁棒性,存储消耗较少且计算效率较高,该方法适用于模型点云及真实点云数据,可用于复杂场景中的3维目标识别。

关键词

3维局部特征描述子; 局部参考坐标系; 多视点投影; 相关编码; 3维目标识别

LoVPE three-dimensional local feature descriptor
expand article info Chen Quan1, Lyu Wu2, Fang Bin1, Yue Zihan1, Ma Jie1
1. Nation Key Laboratory of Science and Technology on Multi-Spectral Information Processing, Huazhong University of Science and Technology, Wuhan 430074, China;
2. System Engineering Research Institute of China State Shipbuilding Corporation, Beijing 100036, China

Abstract

Objective In recent years, due to the availability of low-cost scanners and high-performance computing devices, three-dimensional object recognition has become an active research area in computer vision tasks. Local feature descriptors can effectively overcome the interference of noise, different point cloud resolution, local occlusion, scattered cloud point distribution, and other issues in 3D object recognition tasks. However, difficulties occur in balancing the performance and efficiency of the 3D descriptor. Therefore, a local multi-view projection correlation encoding (LoVPE) feature descriptor is proposed for 3D object recognition in complex scenes. Method The sub-construction process of the descriptor is divided into three steps. First, a local reference frame of the key point is constructed and the local surface in the world coordinate system is transformed to it. The local reference frame provides spatial information such that the descriptor indicates invariance to translation and rotation and is robust to noise and clutter. Then, the K angles are rotated around each coordinate axis of the local reference coordinate system to obtain the multi-view local surface. In each coordinate plane of the local reference frame, the projection plane is divided into NxN blocks, to which the points on the local surface are projected, and the scatter information of the projection points in each block is calculated to generate the feature description vector. Multi-view projection provides descriptive information that makes the descriptor descriptive, robust to noise, and possess different rates of grid resolution, clutter, and occlusion. Finally, view-pair of each view feature description vector is used to construct the correlative encoding to obtain the low-dimension feature description vector, using zero component analysis whitening to reduce the correlation between its dimensions to obtain the LoVPE descriptor. The view-pair correlative encoding effectively avoids the dimension explosion problem caused by the simple combination of the viewpoint feature description vectors in the past. At the same time, the encoding provides a more invariant spatial relationship, is more robust to interference, and highlights the key information of the object. Result For descriptive ability, robustness and recognition capability in complex scenes, the proposed descriptor and other descriptors were compared some public datasets. The robustness of the descriptors to noise and different grid resolutions are validated on Bologna datasets. The robustness of the descriptors to occlusion and clutter are validated on Queen's lidar and SHOTDataset5 datasets. The results show that, compared with other descriptors, with increasing the standard deviation of the Gaussian noise, the proposed descriptor still maintains good performance. As the descending sampling rate increases, the advantages of the proposed descriptor are gradually reflected and maintains a good performance. The proposed descriptor is superior to others in terms of descriptive ability and robustness, as well as maintains lower feature dimensions and higher computational efficiency. Conclusion A new 3D local feature descriptor is proposed, which has strong descriptive ability, strong robustness against noise, different grid resolution, occlusion and clutter, less memory consumption, and high computational efficiency. The descriptor is suitable for model point cloud and real point cloud data and can be used for 3D target recognition in complex scenes.

Key words

3D local feature descriptor; local reference frame; multi-view projection; correlation encoding; 3D object recognition

0 引言

近些年由于低成本扫描仪和高性能计算设备的可用性[1],3维目标识别成为计算机视觉任务中一个活跃的研究领域[2-3],然而在噪声、不同点云分辨率、局部遮挡及点云散乱分布的情况下,识别3维物体仍是一个具有挑战性的任务[4]

3维目标识别算法可以分为基于全局特征和局部特征描述子两类[5],其中全局特征编码完整3维模型的几何特征,对遮挡、混乱不具备鲁棒性。因此基于局部特征描述子的3维目标识别是当前的前沿和热点[6-7]

特征描述子的描述能力及鲁棒性决定着3维特征匹配的性能[8-9]。3维局部特征描述子一般是通过编码局部表面信息,在特定区域内统计几何或者拓扑属性,然后通过直方图形式来生成描述向量。描述子可以分成两类:基于空间分布直方图和基于几何属性直方图的算子[10]。第1类描述子根据局部表面邻域点的空间分布生成直方图来描述局部特征,如Johnson和Hebert提出的SpinImage[11](自旋图),利用关键点表面法线作为局部参考坐标轴,统计邻域点到关键点的内平面和外平面距离生成SpinImage描述子;郭裕兰等人提出的RoPS[4, 10](旋转投影统计),构建方向消歧的局部参考坐标系,多视点局部表面邻域点投影到3个坐标平面内统计每块投影点熵、矩等数值特征,连接数值特征生成RoPS描述子。第2类描述子通过统计局部表面邻域点的几何属性(如法线,曲率等)生成直方图来表示局部表面特征,如Tombari等人[12-13]提出的SHOT(方位直方图),构建方向消歧的局部参考坐标系,邻域根据局部坐标系径向、水平及垂直轴划分区域,统计各区域内邻域点法线及关键点法线的夹角生成SHOT描述子;Malassiotis等人[14]提出的SnapShots(快照),参照SHOT构建参考坐标系,坐标轴上设置虚拟相机,邻域点投影到虚拟相机焦平面,统计距离、纹理及曲率信息等生成SnapShots描述子;Rusu等人[15]提出的FPFH(快速点特征直方图),直接统计支撑域内每点与其邻域点的几何特征(表面法线、位置关系等)进而生成不同维度特征生成FPFH描述子。

综上所述,3维局部特征描述子发展趋势是使用方向消歧的局部参考坐标系提供准确的空间信息[13], 统计多视点投影特征保留局部表面完备的几何信息[4]。现有描述子在提升描述能力的同时,存储需求提高并且计算效率降低,如RoPS对各视点统计多数值特征,维度为135,SnapShots统计虚拟焦平面特征,维度为1 600,存储需求较高并且计算效率低下。针对上述问题,提出一种基于局部多视点投影视图相关编码的LoVPE描述子,使用方向消歧的局部参考坐标,统计多视点投影特征,利用各视点特征相关编码降低维度并用ZCA(零项分量分析)白化降低各维之间相关性,有效降低了存储需求并且提高了计算效率,同时视图对相关编码相比单视图提供了更具有不变性的空间关系,对干扰具有更强的鲁棒性、突出了目标的关键信息。

1 LoVPE描述子构建

LoVPE描述子的构建过程包括构建局部参考坐标系、多视点投影生成特征描述向量、各视点特征描述向量视图对相关编码形成描述子。构建流程如图 1

图 1 LoVPE局部描述子构建流程
Fig. 1 Construction process of LoVPE local descriptor((a)object; (b)local surface; (c)rotated surface; (d)projections; (e)distribution matrix; (f)statistics; (g)feature vector; (h)view pair descriptors)

1.1 局部参考坐标系构建

首先根据目标点云空间分布特征确定关键点$\mathit{\boldsymbol{p}}$的局部邻域半径$R$$R$内的所有点${\mathit{\boldsymbol{p}}_i}$都被用来计算协方差矩阵$\mathit{\boldsymbol{D}}$,计算过程中根据邻域点${\mathit{\boldsymbol{p}}_i}$距离关键点$\mathit{\boldsymbol{p}}$的距离${d_i}$分配不同权重,距离越远权重越小,这样可以有效减少噪声、离群杂波的影响,有助于提高特征描述的准确性和存在噪声、杂波时的鲁棒性,得到矩阵

$ \mathit{\boldsymbol{D}} = \frac{{\sum\limits_{i:{d_i} \le R} {\left( {R - {d_i}} \right)} }}{{\sum\limits_{i:{d_i} \le R} {\left( {R - {d_i}} \right)} }}\left( {{\mathit{\boldsymbol{p}}_i} - \mathit{\boldsymbol{p}}} \right){\left( {{\mathit{\boldsymbol{p}}_i} - \mathit{\boldsymbol{p}}} \right)^{\rm{T}}} $ (1)

$ {d_i} = {\left\| {{\mathit{\boldsymbol{p}}_i} - \mathit{\boldsymbol{p}}} \right\|_2} $ (2)

将维度3×3的$\mathit{\boldsymbol{D}}$矩阵进行特征值分解

$ \mathit{\boldsymbol{DV}} = \mathit{\boldsymbol{EV}} $ (3)

式中,$\mathit{\boldsymbol{E}}$为特征值{$\lambda $1, $\lambda $2, $\lambda $3($\lambda $1>$\lambda $2>$\lambda $3)}构成的对角阵,$\mathit{\boldsymbol{V}}$为3个正交特征向量{$\mathit{\boldsymbol{v}}$1, $\mathit{\boldsymbol{v}}$2, $\mathit{\boldsymbol{v}}$3}构成的矩阵。根据特征向量可得到局部参考坐标系坐标轴,为消除特征分解带来的方向歧义性,采用以下方法确定参考系坐标轴的方向:按照特征值降序排列将特征向量标记为$\mathit{\boldsymbol{x}}^ + $, $\mathit{\boldsymbol{y}}^ + $, $\mathit{\boldsymbol{z}}^ + $轴,同时定义$\mathit{\boldsymbol{x}}^ - $, $\mathit{\boldsymbol{y}}^ - $, $\mathit{\boldsymbol{z}}^ - $为相反方向轴,确定$\mathit{\boldsymbol{x}}$轴方向

$ \mathit{\boldsymbol{x}} = \left\{ {\begin{array}{*{20}{c}} \begin{array}{l} {\mathit{\boldsymbol{x}}^ - }\\ {\mathit{\boldsymbol{x}}^ + } \end{array}&\begin{array}{l} 其他\\ \left| {\mathit{\boldsymbol{S}}_x^ + } \right| \ge \left| {\mathit{\boldsymbol{S}}_x^ - } \right| \end{array} \end{array}} \right. $ (4)

$ \mathit{\boldsymbol{S}}_x^ + \buildrel\textstyle.\over= \left\{ {i:{d_i} \le R \wedge \left( {{\mathit{\boldsymbol{p}}_i} - \mathit{\boldsymbol{p}}} \right) \cdot {\mathit{\boldsymbol{x}}^ + } \ge 0} \right\} $ (5)

$ \mathit{\boldsymbol{S}}_x^ - \buildrel\textstyle.\over= \left\{ {i:{d_i} \le R \wedge \left( {{\mathit{\boldsymbol{p}}_i} - \mathit{\boldsymbol{p}}} \right) \cdot {\mathit{\boldsymbol{x}}^ - } > 0} \right\} $ (6)

式中,$R$为局部邻域半径,∧为与运算符,$\mathit{\boldsymbol{S}}_\mathit{\boldsymbol{x}}^ + $$\mathit{\boldsymbol{S}}_\mathit{\boldsymbol{x}}^-$为邻域点中分别与$\mathit{\boldsymbol{x}}^ + $$\mathit{\boldsymbol{x}}^ - $朝向一致的点数,根据式(4)确定$\mathit{\boldsymbol{x}}$轴的方向为代表大多数邻域点朝向的方向,同理确定$\mathit{\boldsymbol{z}}$轴方向,最后$\mathit{\boldsymbol{y}}$轴方向通过$\mathit{\boldsymbol{z}}$×$\mathit{\boldsymbol{x}}$确定。

1.2 多视点投影特征描述向量构建

多视点投影能保留局部表面完备的几何信息[4],消除目标表面空洞、凹陷的影响,同时从不同视点进行投影可以有效解决局部遮挡问题,提高对遮挡的鲁棒性。按照以下步骤构建:

首先局部表面点云$\mathit{\boldsymbol{P}}$分别绕$z$, $x$, $y$轴旋转角度${\theta _k}$, $k$=1, 2, …, $K$得到旋转的多视点局部表面$\mathit{\boldsymbol{P}}{'_i}$(${\theta _k}$), $i$=$z$, $x$, $y$,对各视点将局部表面点云投影到局部参考坐标系3个坐标平面得到点云投影平面$\mathit{\boldsymbol{\overline P}} {'_i}{\left({{\theta _k}} \right)_j}$, $i$=$z$, $x$, $y$, $j$=$xy$, $xz$, $yz$

每个视点的点云投影平面$\mathit{\boldsymbol{\overline P}} {'_i}{\left({{\theta _k}} \right)_j}$进行分块操作,将邻域范围$R$的2维平面被分成$N$×$N$块,统计每块内投影点数量${m_n}$构成分布矩阵${\mathit{\boldsymbol{M}}_j}$, $j$=$xy$, $xz$, $yz$,即

$ {\mathit{\boldsymbol{M}}_j} = \left\{ {{m_n}\left| {n = 1, \cdots ,N \times N} \right.} \right\} $ (7)

考虑到不同点云分辨率的影响,对分布矩阵${\mathit{\boldsymbol{M}}_j}$归一化生成频率直方图${\mathit{\boldsymbol{h}}_j}$, $j$=$xy$, $xz$, $yz$

$ {\mathit{\boldsymbol{h}}_j} = \left\{ {{m_n}/\sum\limits_{n = 1}^{N \times N} {{m_n}\left| {n = 1, \cdots ,N \times N} \right.} } \right\} $ (8)

由3平面直方图${\mathit{\boldsymbol{h}}_j}$连接构建各视点特征描述向量为

$ {\mathit{\boldsymbol{H}}_i}\left( {{\theta _k}} \right) = \left\{ {{\mathit{\boldsymbol{h}}_{\mathit{\boldsymbol{xy}}}},{\mathit{\boldsymbol{h}}_{\mathit{\boldsymbol{yz}}}},{\mathit{\boldsymbol{h}}_{\mathit{\boldsymbol{xz}}}}} \right\} $ (9)

维度$\left| {{\mathit{\boldsymbol{H}}_i}\left({{\theta _k}} \right)} \right|$

$ \left| {{\mathit{\boldsymbol{H}}_i}\left( {{\theta _k}} \right)} \right| = 3 \times N \times N $ (10)

最后得到3×$K$幅多视点投影特征描述向量${{\mathit{\boldsymbol{H}}_i}\left({{\theta _k}} \right)}$, $i$=$z$, $x$, $y$, $k$=1, 2, …, $K$

1.3 相关编码描述子构建

单视点投影只保留了3维表面的2维信息,造成空间信息的损失[16]。因此在该步骤本文提出了多视点视图对相关编码方法,保留各视点视图间的空间相对关系能有效解决局部遮挡问题,同时相关编码让特征描述更精确,能解决不同分辨率、杂波带来的特征干扰问题,对各种刚性变换具有鲁棒性。按照以下步骤构建:

多视点投影特征描述向量${{\mathit{\boldsymbol{H}}_i}\left({{\theta _k}} \right)}$按顺序记为$F$幅特征描述向量集

$ \mathit{\boldsymbol{Q}} = \left\{ {{\mathit{\boldsymbol{q}}_f}\left| {1 \le f \le F} \right.,F = 3 \times K} \right\} $ (11)

各视点特征描述向量统计各块内投影点频率,这种分布近似正态的单峰分布,每维向量是成对的,不同视点投影之间具有一定联系使各视点特征描述向量间具有一定的线性关系,符合皮尔逊相关系数变量约束条件,所以采用皮尔逊相关系数作为相关编码度量。

皮尔逊相关系数定义为两个变量之间的协方差与标准差的商,从其他角度来看,皮尔逊相关系数可以看成没有中心化的数据进行数据中心化,然后求解变量间的夹角余弦。不仅保留了变量间的空间关系,而且中心化处理使得变量具有相同尺度,这样形成的相关编码描述子对噪声、不同网格分辨率、遮挡及杂波等干扰具有鲁棒性。皮尔逊相关系数计算为

$ \begin{array}{*{20}{c}} {\rho \left( {\mathit{\boldsymbol{X}},\mathit{\boldsymbol{Y}}} \right) = }\\ {\frac{{E\left[ {\left( {\mathit{\boldsymbol{X}} - {\mu _X}} \right)\left( {\mathit{\boldsymbol{Y}} - {\mu _Y}} \right)} \right]}}{{\sqrt {\sum\limits_{i = 1}^n {{{\left( {{\mathit{\boldsymbol{X}}_i} - {\mu _X}} \right)}^2}} } \sqrt {\sum\limits_{i = 1}^n {{{\left( {\mathit{\boldsymbol{Y}} - {\mu _Y}} \right)}^2}} } }}} \end{array} $ (12)

式中,向量$\mathit{\boldsymbol{X}} = [{\mathit{\boldsymbol{X}}_1}, \ldots, {\mathit{\boldsymbol{X}}_n}$, $\left] {, \mathit{\boldsymbol{Y}} = } \right[{\mathit{\boldsymbol{Y}}_1}, \ldots, {\mathit{\boldsymbol{Y}}_n}]$${\mu _X}$${\mu _Y}$为均值。

计算视图特征描述向量对${\mathit{\boldsymbol{q}}_{{f_1}}}$${\mathit{\boldsymbol{q}}_{{f_2}}}$皮尔逊相关系数作为相关编码度量

$ \begin{array}{*{20}{c}} {{\mathit{\boldsymbol{C}}_{{f_1},{f_2}}} = {\mathit{\boldsymbol{q}}_{{f_1}}} \propto {\mathit{\boldsymbol{q}}_{{f_2}}} = \rho \left( {{\mathit{\boldsymbol{q}}_{{f_1}}},{\mathit{\boldsymbol{q}}_{{f_2}}}} \right)}\\ {1 \le {\mathit{\boldsymbol{f}}_1} < {\mathit{\boldsymbol{f}}_2} \le F} \end{array} $ (13)

最后得到特征描述向量$\mathit{\boldsymbol{L}}$,维度为|$\mathit{\boldsymbol{L}}$|,即

$ \begin{array}{*{20}{c}} {\mathit{\boldsymbol{L}} = }\\ {\left\{ {{\mathit{\boldsymbol{C}}_{{f_1},{f_2}}}\left| {{f_1} = 1, \cdots ,F - 1,{f_2} = {f_1} + 1, \cdots ,F} \right.} \right\}} \end{array} $ (14)

$ \left| \mathit{\boldsymbol{L}} \right| = F \times \left( {F - 1} \right)/2 $ (15)

运用ZCA白化[17]消除描述向量各维之间的相关性使得特征向量更具描述能力,最后得到局部多视点投影视图相关编码描述子。

2 LoVPE描述子最优参数选择

实验所用数据集如表 1所示,其中Bologna1、Bologna2[4]为完整模型库数据集,场景由不同模型随机平移、旋转组合得到。Queen's Lidar[18]、SHOTDataset5[13]为传感器采集的真实模型数据集,不同真实模型随机平移、旋转组合由传感器采集获得的有遮挡、杂波的场景数据。根据实验需求对Bologna1场景添加0.3 mr(mesh resolution)高斯噪声、降采样0.5倍制作数据集,对Bologna2分别添加0.1、0.3、0.5 mr高斯噪声,降采样0.5、0.25、0.125倍制作数据集。

表 1 实验数据集介绍
Table 1 Introduction to experimental datasets

下载CSV
数据集名称 数据类别 模型个数 场景个数 GT矩阵
Bologna1 mesh 6 45 提供
Bologna2 mesh 6 18 提供
Queen′sLidar PointCloud 5 80 部分提供
SHOTDataset5 mesh 6 15 提供

在实验数据集Bologna1上按照$P-R$(precision-recall)曲线[4]准则判别不同参数描述子的优劣。

2.1 投影平面分块参数$N$

固定各坐标轴旋转参数$K$=4,调整投影分布矩阵$\mathit{\boldsymbol{M}}$分块数$N$分别取10、15、20、25, 实验结果如图 2

图 2 分块参数$N$对特征匹配能力的影响
Fig. 2 The effect of bins $N$ on feature matching capability ((a) original datasets; (b) 0.3 mr, 0.5 sampling datasets)

图 2(a)表明,在固定参数$K$时,参数$N$值在10~25范围内对描述子特征匹配能力影响很小,随着$N$值增大只有略微提升。图 2(b)说明在存在噪声和不同网格分辨率干扰时,$N$值增大,描述子特征匹配能力有显著提升,在$N$值20~25范围内,提升并不明显。考虑到计算效率,描述子采用$N$=20作为最终参数。

2.2 局部表面旋转参数$K$

固定投影分布矩阵$\mathit{\boldsymbol{M}}$分块参数$N$=20,调整局部表面绕各坐标轴旋转数量$K$分别取2、3、4、5、6,实验结果如图 3所示。

图 3 旋转参数$K$对特征匹配能力的影响
Fig. 3 The effect of rotations $K$ on feature matching capability ((a) original datasets; (b) 0.3 mr, 0.5 sampling datasets)

图 3(a)(b)表明,在固定参数$N$,参数$K$值从2增大到36范围内时,描述子的特征匹配能力有提升,在36范围内时,该提升不明显。由于参数$K$影响描述子特征维度,考虑到计算效率和存储空间,描述子采用$K$=4作为最终参数。

3 特征匹配实验

在实验数据集Bologna1、Bologna2、Queen′s Lidar及SHOTDataset5上按照$P-R$曲线准则将LoVPE描述子与目前较常用的5种局部描述子SpinImage、SnapShot、FPFH、SHOT、RoPS进行描述能力、鲁棒性及计算效率上的比较。

3.1 参数设置及评价指标

各描述子参数设置如表 2所示。

表 2 各描述子参数设置
Table 2 Sub-parameter setting of each descriptor

下载CSV
描述子名称 支撑邻域半径/mr 各维度参数 维度长度
SpinIamge 15 15×15 225
RoPS 15 3×3×3×5 135
FPFH 15 3×11 33
SHOT 15 8×2×2×11 352
SnapShots 15 400×400 1 600
LoVPE 15 3×4×(3×4-1)/2 66

同样采用$P-R$曲线准则判别不同描述子特征匹配能力的优劣[19-20]。具体实验时,为了防止特征点提取对描述子能力产生影响,在每个模型上随机选取1 000个点作为特征点,根据GT(Ground Truth)矩阵利用近邻搜索得到有效对应点作为场景和模型的特征点,分别运用6种描述子算法提取对应点特征描述子,进行特征匹配然后根据$P-R$曲线判别不同描述子性能的优劣。

3.2 模型库数据集对比实验结果

对模型数据集Bologna1、Bologna2进行人为降质(降采样、加噪)后,描述子对比实验结果如图 4图 6所示。

图 4 不同程度噪声下实验结果对比(Bologna2数据集)
Fig. 4 Comparison of experimental results on different degrees of noise(Bologna2 dataset) ((a) none; (b) 0.1 mr; (c) 0.3 mr; (d) 0.5 mr)
图 5 不同网格分辨率下实验结果对比(Bologna2数据集)
Fig. 5 Comparison of experimental results on different grid resolution(Bologna2 dataset) ((a) none; (b) 0.5 sampling; (c) 0.25 sampling; (d) 0.125 sampling)
图 6 存在噪声、降采样下实验结果对比(Bologna1数据集)
Fig. 6 Comparison of experimental results on both noise and sampling(Bologna1 dataset) ((a) none; (b) 0.3 mr, 0.5 sampling)

给Bologna2数据集添加不同程度的高斯噪声。图 4(a) (b)表明,低噪声存在时,LoVPE描述子最优,RoPS次优,两者的表现显著优于其他描述子。图 4(c) (d)表明,高噪声存在时,LoVPE的表现显著优于其他描述子,同时保持较高水平,而其他描述子的表现显著下降。

对Bologna2数据集进行不同程度的降采样。图 5(b)表明,低程度降采样时,RoPS由于统计了更多投影数值特征,表现优于LoVPE,但两者表现显著优于其他描述子。图 5(c)(d)表明,随着降采样程度增加,RoPS的优势变得不明显,而LoVPE的表现优于其他描述子,同时保持较高水平,其他描述子的表现显著下降。

对Bologna1数据集添加高斯噪声并降采样。图 6(a) (b)表明,同时存在噪声及降采样时,LoVPE、RoPS的表现接近且保持较高水平,显著优于其他描述子。

3.3 真实数据集对比实验结果

在真实传感器采集数据集Queen′s Lidar及SHOTDataset5上进一步验证6种描述子在实际场景数据里的特征匹配能力,实验结果如图 7

图 7 真实数据集下实验结果对比
Fig. 7 Comparison of experimental results on real datasets ((a) Queen′s Lidar; (b) SHOT Dataset5)

Queen′s Lidar数据集是激光雷达扫描的点云数据,具有很大噪声、杂波、遮挡等干扰,图 7(a)表明,各描述子表现均不好,但LoVPE、RoPS及SnapShots表现优于其他描述子,LoVPE描述子表现最优。SHOTDataset5数据集是用Kinect采集的网格数据,也包含噪声、杂波、遮挡等干扰,图 7(b)表明,SHOT描述子的表现最优,LoVPE次优。不过需要指出的是,该数据集是SHOT描述子发明者Tombari[12-13]等提供的实验数据集。上述结果表明,对于真实数据中存在的遮挡及杂波问题,LoVPE描述子因其构建特性能够有效地解决,表现优于其他描述子。

3.4 特征构建、特征匹配时间与分析

在Bologna1数据集统计180个场景-模型对中1 000个特征点特征构建、特征匹配的时间均值。结果如表 3所示。

表 3 特征构建、匹配时间
Table 3 Feature construction and matching time

下载CSV
描述子名称 时间/s
特征构建 特征匹配 总和
S-I 1.358 1.121 2.479
LoVPE 2.129 0.844 2.973
SHOT 1.866 1.274 3.14
RoPS 8.391 1.08 9.471
S-S 15.53 1.42 16.95
FPFH 17.685 0.625 18.31

表 3可得,特征构建占大部分时间,SpinImage计算效率最高,LoVPE、SHOT与其接近,但是根据特征匹配实验结果,LoVPE的特征匹配能力明显优于SpinImage和SHOT,因此LoVPE在具有强描述能力和强鲁棒性的同时,具有较高的计算效率。

4 结论

本文提出了一种新的局部描述子LoVPE,该描述子首先构建局部参考坐标系,将关键点邻域内的点转换到关键点局部参考坐标系中,然后绕各参考坐标轴旋转获得多视点局部表面,针对各视点将局部表面上的点投影至各参考系坐标平面,并统计各块投影点的散布信息进而生成特征描述向量,最后将各视点特征描述向量采用皮尔逊相关进行视图对相关编码并用ZCA白化消除各维间的相关性。

对比实验结果表明LoVPE描述子对噪声、不同网格分辨率、杂波及遮挡等干扰的鲁棒性优于主流的FPFH、SHOT、RoPS、SpinImage、SnapShots描述子,且存储消耗较少、计算效率较高。

下一步工作是设计面向LoVPE描述子的目标识别方法,以最大发挥该描述子稳健、快速的特点。

参考文献

  • [1] Mamic G, Bennamoun M. Representation and recognition of 3D free-form objects[J]. Digital Signal Processing, 2002, 12(1): 47–76. [DOI:10.1006/dspr.2001.0412]
  • [2] Gao Y, Dai Q H. View-based 3D object retrieval:challenges and approaches[J]. IEEE Multimedia, 2014, 21(3): 52–57. [DOI:10.1109/MMUL.2014.20]
  • [3] Guo Y L, Sohel F, Bennamoun M, et al. TriSI: a distinctive local surface descriptor for 3D modeling and object recognition[C]//Proceedings of the 8th International Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications. Barcelona, Spain: Scitepress, 2013: 86-93. [DOI:10.5220/0004277600860093]
  • [4] Guo Y L, Sohel F, Bennamoun M, et al. Rotational projection statistics for 3D local surface description and object recognition[J]. International Journal of Computer Vision, 2013, 105(1): 63–86. [DOI:10.1007/s11263-013-0627-y]
  • [5] Mian A S, Bennamoun M, Owens R. Three-dimensional model-based object recognition and segmentation in cluttered scenes[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(10): 1584–1601. [DOI:10.1109/TPAMI.2006.213]
  • [6] Lei Y J, Bennamoun M, Hayat M, et al. An efficient 3D face recognition approach using local geometrical signatures[J]. Pattern Recognition, 2014, 47(2): 509–524. [DOI:10.1016/j.patcog.2013.07.018]
  • [7] Bennamoun M, Guo Y L, Sohel F. Feature selection for 2D and 3D face recognition[M]//Wiley Encyclopedia of Electrical and Electronics Engineering. New Jersey, USA: John Wiley & Sons, Inc. 1999: 1-54. [DOI:10.13140/2.1.4656.4165]
  • [8] Restrepo M I, Mundy J L. An evaluation of local shape descriptors in probabilistic volumetric scenes[C]//Proceedings of British Machine Vision Conference. England, UK: BMVA Press, 2012: 1-11. [DOI:10.5244/C.26.46]
  • [9] Tombari F, Salti S, Di Stefano L. Performance evaluation of 3D keypoint detectors[J]. International Journal of Computer Vision, 2013, 102(1-3): 198–220. [DOI:10.1007/s11263-012-0545-4]
  • [10] Guo Y L, Bennamoun M, Sohel F, et al. A comprehensive performance evaluation of 3D local feature descriptors[J]. International Journal of Computer Vision, 2016, 116(1): 66–89. [DOI:10.1007/s11263-015-0824-y]
  • [11] Johnson A E, Hebert M. Using spin images for efficient object recognition in cluttered 3D scenes[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1999, 21(5): 433–449. [DOI:10.1109/34.765655]
  • [12] Tombari F, Salti S, Di Stefano L. Unique shape context for 3D data description[C]//Proceedings of ACM Workshop on 3D Object Retrieval. Firenze: ACM, 2010: 57-62. [ DOI:10.1145/1877808.1877821]
  • [13] Salti S, Tombari F, Di Stefano L. SHOT:unique signatures of histograms for surface and texture description[J]. Computer Vision and Image Understanding, 2014, 125: 251–264. [DOI:10.1016/j.cviu.2014.04.011]
  • [14] Malassiotis S, Strintzis M G. Snapshots:a novel local surface descriptor and matching algorithm for robust 3D surface alignment[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(7): 1285–1290. [DOI:10.1109/TPAMI.2007.1060]
  • [15] Rusu R B, Blodow N, Beetz M. Fast point feature histograms (FPFH) for 3D registration[C]//Proceedings of 2009 IEEE International Conference on Robotics and Automation. Kobe, Japan: IEEE, 2009: 3212-3217. [DOI:10.1109/ROBOT.2009.5152473]
  • [16] Bai X, Bai S, Zhu Z T, et al. 3D shape matching via two layer coding[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(12): 2361–2373. [DOI:10.1109/TPAMI.2015.2424863]
  • [17] Abdi H, Williams L J. Principal component analysis[J]. Wiley Interdisciplinary Reviews:Computational Statistics, 2010, 2(4): 433–459. [DOI:10.1002/wics.101]
  • [18] Guo Y L, Bennamoun M, Sohel F, et al. 3D object recognition in cluttered scenes with local surface features:a survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(11): 2270–2287. [DOI:10.1109/TPAMI.2014.2316828]
  • [19] Zai D W, Li J, Guo Y L, et al. Pairwise registration of TLS point clouds using covariance descriptors and a non-cooperative game[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2017, 134: 15–29. [DOI:10.1016/j.isprsjprs.2017.10.001]
  • [20] Hackel T, Savinov N, Ladicky L, et al. Semantic3D.net:a new large-scale point cloud classification benchmark[J]. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2017, IV-1-W1: 91–98. [DOI:10.5194/isprs-annals-IV-1-W1-91-2017]