发布时间: 2018-08-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170641
2018 | Volume 23 | Number 8

图像分析和识别

RGB-D图像中的分步超像素聚合和多模态融合目标检测

赵轩^1,2, 郭蔚², 刘京²

1. 河北工业大学理学院, 天津 300401;

2. 河北师范大学数学与信息科学学院, 石家庄 050024

收稿日期: 2017-12-20; 修回日期: 2018-03-04

基金项目: 河北省自然科学基金项目（F2017205066）；河北省高等学校科学技术研究基金项目（ZD2014062）；河北师范大学科技类基金项目（L2017B06）

第一作者简介: 赵轩, 1991年生, 男, 硕士研究生, 研究方向为数字图像处理与模式识别。E-mail:15122909467@163.com;
郭蔚, 女, 教授, 博士生导师, 研究方向为小波分析与图像处理。E-mail:guowei@chmiot.net.

中图法分类号: TP391.4

文献标识码: A

文章编号: 1006-8961(2018)08-1231-11

摘要

目的受光照变化、拍摄角度、物体数量和物体尺寸等因素的影响，室内场景下多目标检测容易出现准确性和实时性较低的问题。为解决此类问题，本文基于物体的彩色和深度图像组，提出了分步超像素聚合和多模态信息融合的目标识别检测方法。方法在似物性采样（object proposal）阶段，依据人眼对显著性物体观察时先注意其色彩后判断其空间深度信息的理论，首先对图像进行超像素分割，然后结合颜色信息和深度信息对分割后的像素块分步进行多阈值尺度自适应超像素聚合，得到具有颜色和空间一致性的似物性区域；在物体识别阶段，为实现物体不同信息的充分表达，利用多核学习方法融合所提取的物体颜色、纹理、轮廓、深度多模态特征，将特征融合核输入支持向量机多分类机制中进行学习和分类检测。结果实验在基于华盛顿大学标准RGB-D数据集和真实场景集上将本文方法与当前主流算法进行对比，得出本文方法整体的检测精度较当前主流算法提升4.7%，运行时间有了大幅度提升。其中分步超像素聚合方法在物体定位性能上优于当前主流似物性采样方法，并且在相同召回率下采样窗口数量约为其他算法的1/4；多信息融合在目标识别阶段优于单个特征和简单的颜色、深度特征融合方法。结论结果表明在基于多特征的目标检测过程中本文方法能够有效利用物体彩色和深度信息进行目标定位和识别，对提高物体检测精度和检测效率具有重要作用。

关键词

3维目标检测; 分步超像素聚合; 多模态信息融合; 深度图像; 似物性采样; 机器学习

Object detection adopting sub-step merging of super-pixel and multi-modal fusion in RGB-D

Zhao Xuan^1,2, Guo Wei², Liu Jing²

1. School of Science Hebei University of Technology, Tianjin 300401, China;

2. College of Mathematics and Information Science, Hebei Normal University, Shijiazhuang 050024, China

Supported by: Natural Science Foundation of Hebei Province, China(F2017205066)

Abstract

Objective With the development of artificial intelligence, a growing number of scholars begin to study object detection in the field of computer vision, and they are no longer content with the recent research on RGB images. The object detection methods based on the depth of images have attracted attention. However, the accuracy and real-time performance of indoor multi-class object detection is susceptible to illumination change, shooting angle, the number of objects, and object size. To improve detection accuracy, several studies have begun to employ deep learning methods. Although deep learning can effectively extract the underlying characteristics of objects at different levels, large samples and long learning time make the immediate and wide application of these methods impossible. With regard to improving detection efficiency, many scholars wanted to find all possible areas that contain objects based on the edge information of objects, thus reducing the number of detection windows. Several researchers used deep learning method to preselect it. To address these problems, this study proposes two methods by stages, which adopt RGB-D graphs. The first method is object proposal with super-pixel merging by steps, and the other is object classification adopting the technology of multi-modal data fusion. Method In the stage of object proposal, the method first segments images into super-pixels and merges them by steps adopting the method of self-adaptive multi-threshold scale on the basis of the color and depth information, according to the theory of eyes observing the color information first and then the depth information of an object. The method proposes to segment the graph with simple linear iterative clustering and merges the super-pixel in two steps, calculating the area similarity with respect to color and depth information. In this way, the detection windows with similar color and depth information are extracted to decrease the window number through filtering them by area and adopting non-maximal suppression to detection results with the overlapping region. At the end of the process, the number of detected windows becomes far less than that when using a sliding window scan, and each area may contain an object or part of an object. In the object recognition stage, the proposed method fuses the multi-modal features, including color, texture, contour, and depth, which are extracted from RGB-D images, employing multi-kernel learning. In general, objects are unclear when identified simply with one feature because of the multiplicity of objects. For example, distinguishing an apple from one painted in a picture is difficult. Multi-modal data fusion can cover several object characteristics in RGB-D images relative to single feature or simple fusion with two features. Finally, the fusing feature kernel is inputted into the SVM classifier, and the procedure of object detection is complete. Result By setting different threshold segmentation interval parameters and multi-kernel learning gauss kernel parameters, the study compares the proposed method and the current mainstream algorithm. The textual method has a certain advantage in object detection. The detection rate of the method is better by 4.7% than the state-of-art method via the comparative experiment based on the standard RGB-D databases from the University of Washington and real-scene databases obtained by Kinect sensor. The method of sub-step merging of super-pixel is superior to the present mainstream object proposal methods in object location, and the amounts of sampling windows are approximately fourfold less than the other algorithms in the situation of same recall rate. Moreover, by comparing the individual feature and the fusion feature recognition accuracy, multi-feature fusion method is much higher than the individual characteristics. The characteristics of the two fusions in the overall detection accuracy also have outstanding performance on object categories with different gestures. Conclusion Experimental results show that the proposed method can take full use of the color and depth information in object location and classification and is important in achieving high accuracy and enhanced real-time performance. The sub-step merging of super-pixel can also be used in the field of object detection based on deep learning.

Key words

three-dimension object detection; sub-step merging of super-pixel; multi-modal data fusion; depth image; object proposal; machine learning

0 引言

随着计算机视觉技术和硬件设备日新月异的发展，传统的2维图像已经不能满足人工智能、增强现实等前沿科技对于现实场景研究的需要，基于深度信息的物体识别和场景理解方法越来越受到人们的关注，广泛应用于各个领域^[1-2]，由深度相机获取的RGB-D图像为研究深度信息的学者们提供了数据支撑。传统的RGB图像只能提取受光照影响较大的物体颜色、纹理、轮廓等特征，在物体分割及检测中忽略了关键的3维立体信息。而将RGB图像和深度图像信息进行合理的融合，会有效提高计算机对物体及场景理解程度，更符合人类对于真实世界的感知，提高检测性能。因此，基于RGB-D图像的物体检测将会是计算机视觉领域的1个热点。

目前，在基于RGB-D图像的物体检测领域已有的相关研究已经取得了一定的进展，但受光照变化、拍摄角度、物体数量和物体尺寸等因素的影响，室内场景下多目标检测在实时性和准确率的问题上仍存在较大的研究提升空间：

1) 在前期检测窗口采样阶段，基于滑动窗口扫描的方法^[3]可以在不同尺度、不同比例的窗口中搜索物体所有可能存在区域，但由于要对每1个窗口提取特征，计算量较大；而基于似物性采样类方法(object proposal)^[4]是假设所有感兴趣物体具有某种不同于背景的特征或共性，能够通过学习或者定性分析来获取，对可能包含物体的检测窗口预选可以极大程度上减少匹配窗口数量，加快运算速度。其中Cheng等人^[5]提出的二值化梯度幅值特征(BING)利用支持向量机(SVM)分类器训练通用对象估计方法来选取1组候选对象窗口，Zitnick等人^[6]提出的Edgeboxes方法假定已知图像中的物体边缘，正确的预选框应当把物体边缘刚好包括在内，根据物体边缘和框边缘的几何信息为窗口评分；不同于以上基于窗口评分的方法，另一类方法基于超像素的有效合并，认为具有一定相同特性的连通区域可能包含某一物体，Uijlings等人在文献[7]中提出的Selective Search通过一系列自定义特征对分割后的超像素块进行依次聚合，把获取的区域集合作为预选框，这种方法应用于深度学习^[8]物体检测算法R-CNN^[9]和Fast R-CNN^[10]中。而对于RGB-D图像，Kanezaki等人提出的3D Selective Search^[11]则是将深度特征添加到超像素块聚合准则中，解决了不能区分颜色特征相近的不同物体的问题。但以上方法通常不能做到对于物体区域的较准确定位，需要选取大量的似物性窗口进行检测，因此检测效率不高。

2) 在窗口物体识别阶段，近些年基于深度学习的物体检测算法R-CNN、Fast R-CNN、Faster R-CNN^[12]以及最新的YOLO、SSD等取得了非常好的效果，Gupta等人^[13]更是将RGB-D图像组分别输入到卷积神经网络进行特征提取。但这些算法在样本量、计算量上往往具有较大限制，并且要求计算机有良好的硬件条件，仍有一定的局限性。而根据物体本身特性相对应的人工设计提取特征，在物体识别的应用领域仍具有很高的研究价值。在RGB图像中，基于颜色直方图的颜色特征，基于局部二值模式^[14](LBP)提取的纹理特征以及基于轮廓信息的HOG^[15] (histogram of oriented gradient)特征等均能很好地表现物体图像属性。针对RGB-D图像，Rusu^[16]和Steder等人^[17]分别利用视角特征直方图和法向对齐径向特征来表征目标物体，Bo等人^[18]则通过提取深度图中深度描述子与RGB特征融合进行目标识别，而由Tang等人^[19]提出的HONV (histogram of normal vectors)特征能够通过计算深度像素法向量体现物体3维立体关系，与RGB图像提取的HOG特征结合表述目标物体。此类算法对于RGB-D图像多是利用单一特征与深度特征进行融合，不仅对于多模态信息的利用不够充分，也忽视了不同特征对识别效果影响差异的问题。

对于检测窗口采样方法的不足，一些研究者提出在保证检测精度的同时是否可以更大幅度地减少窗口数量，像人观察物体一样，第一时间就能够确认在某一区域有物体的存在，而人眼在确定物体区域时是依次判断其平面颜色信息和空间几何位置的；另外，在窗口识别阶段的人工设计特征提取中，目前算法^[16-19]局限于提取物体的某一特征或某两个特征融合，文献[19]提取的HONV特征很好地利用了深度图像，但并没有将物体颜色、纹理、轮廓、深度等多模态信息做有效融合，由于物体的个体多样性，不同的特征具有不同的判别能力，为目标提供不同的判别信息，在检测时产生的效果比重也就不同，进而导致检测率的差异。

通过上述分析，为了克服物体检测实时性和准确率较低的问题，本文主要进行了以下创新：

1) 针对检测窗口数量较多，定位不准确的问题，提出了基于RGB-D图像的分步超像素聚合(SMS)似物性采样方法：(1)先使用简单线性迭代聚类(SLIC)^[20]方法对RGB图像进行超像素分割；(2)再分步利用颜色均值相似性和深度统计直方图相似性将分割后的超像素块进行聚合；(3)最后通过设置多阈值尺度以及窗口筛选得到最终似物性采样结果。该方法能够在IoU设置为0.7，召回率高于70%的条件下，保证预选窗口数量约为100~200，远低于相同条件下3D Selective Search^[11]等方法。

2) 为解决对RGB-D图像多模态信息利用不充分，识别率低的问题，利用多核学习方法^[21](MKL)对颜色直方图特征、纹理LBP特征、HOG特征以及深度HONV特征进行融合，通过学习不同特征的权值参数组成一个融合特征核，输入SVM分类器，实现基于多模态信息融合下的物体识别，结合似物性采样窗口完成目标检测过程。相对于使用单个或两个特征，多特征融合能够覆盖RGB-D图像中目标更为丰富的信息。此方法较Gupta等人^[13]提出的方法整体检测精度提高了4.7%，与Fast R-CNN检测效果基本持平。

1 本文方法

本文提出的基于RGB-D图像的室内物体检测方法主要分为似物性采样(OP)^[4]和窗口物体识别两部分。算法流程如图 1所示。通过设置多尺度阈值，利用分步超像素聚合方法得到1组RGB-D图像中的似物性窗口，同时提取训练样本集和提取窗口多模态信息根据多核学习方法进行融合，将融合后的特征核输入SVM分类器进行训练，使用训练好的分类器模型对窗口物体进行分类识别，最后得到物体检测结果。

图 1 基于RGB-D图像物体检测整体流程图

Fig. 1 The entire flow diagram of object detection based on RGB-D

实验使用的深度图像由Kinect相机[https://developer.microsoft.com/en-us/windows/kinect]获取，Kinect相机通过主动光技术获取深度信息，由于遮挡、光线吸收等原因会导致获取的深度图像存在大量的空洞和噪声，为解决此类问题，使用多帧均值和像素滤波器对图像进行预处理。具体步骤如下：

1) 取相机捕获的连续5帧图像，对每一个像素点取像素均值，减少因机器原因产生的闪烁点噪声；

2) 设定一个去零滤波器，如果判断中心像素值为0，则将领域内其他像素点中值赋予当前像素点，多次进行操作，直到所有丢失像素点被填充。

1.1 似物性采样

1.1.1 分步超像素合并

似物性采样方法相对于传统的窗口扫描，能够有效地降低特征提取计算量，提高物体检测速度，实现RGB-D目标快速检测。针对当前OP方法中存在预选窗口精度不高、窗口数量仍旧较多的问题进行研究和改进，提出分步超像素聚合(SMS)窗口采样方法。

基于超像素合并的似物性采样方法利用超像素分割提取物体边缘信息，然后将具有相同特征的超像素块进行融合，因此超像素分割方法的选取是很重要的一步。SLIC相较于其他超像素分割算法具有两个重要的区别：1)通过将搜索空间限制为与超像素大小成比例的区域，显著地减少了优化中的距离计算的数量，降低了像素数$N$的线性复杂度，并且与超像素$k$的数量无关，整体计算复杂度为O($N$)；2)加权距离度量组合颜色和空间接近度，同时提供对超像素的尺寸和紧凑性的控制。

利用SLIC算法，可以快速得到图像中反映目标边缘信息的超像素块，实现对目标物体的过分割。然后通过把具有相同特征的像素块进行有效聚合，得到包含一致信息的连通区域，包含这些连通区域的最小窗口便是最终得到的预选检测窗口。

本文根据人眼在现实场景下对显著性物体先色彩后深度进行观察的猜想，提出了改进似物性采样SMS方法。流程如下：

1) 对RGB图像进行超像素分割，获取RGB图像和深度图像的超像素块标签，根据标签图${L^c}$建立超像素邻接矩阵，计算各超像素块lab颜色均值${l_c}$，${a_c}$，${b_c}$，通过计算与相邻超像素块的颜色相似度${D_{c, j}}$进行首次合并。

$ \begin{array}{*{20}{c}} {{D_{c,j}} = }\\ {\sqrt {{{\left( {{l_c} - {l_j}} \right)}^2} + {{\left( {{a_c} - {a_j}} \right)}^2} + {{\left( {{b_c} - {b_j}} \right)}^2}} } \end{array} $

(1)

2) 第2次合并同样依赖于首次合并得到的RGB和深度图像的标签图${L^d}$，建立相应邻接矩阵，统计各像素块内深度值直方图，使用巴氏距离${D_{{\rm{BC}}}}$作为直方图相似性度量。

$ {D_{{\rm{BC}}}} = \sum {\sqrt {{h_p} \times {h_q}} } $

(2)

式中，${h_p}$，${h_q}$分别表示相邻像素块深度直方图。

3) 分步聚合过程表示为两幅标签图${L^c}$，${L^d}$的改变，最终得到表示物体区域的标签图${L^{{\rm{result}}}}$，结果示例图像如图 2所示。

$ {L^c} \oplus {L^d} = {L^{{\rm{result}}}} $

(3)

图 2 分步超像素聚合(SMS)后图像结果

Fig. 2 The result images of SMS((a)the first merging result; (b)the second merging result)

从图 2(a)可以看出, 在首次合并后，具有一致性颜色特征的区域实现了有效合并，例如墙体、地面，物体部分表面等，而对于色彩丰富物体，类似彩色纸盒、具有不同光照影响的苹果等则保留了多个像素块，无法合并为1个表征物体区域，因此考虑到同一物体物体表面在空间中具有统一的3维深度信息，利用深度特征一致性进行二次合并可以在首次基础上合并同一物体多色彩部分，图 2(b)结果显示二次合并后各物体可用独立的像素块区域分割开，准确的进行后期识别。

1.1.2 检测窗口采样

通过上文方法对超像素块的合并，可以得到单一阈值下RGB-D图像目标分割结果，但当物体颜色相近或者深度值相近时，结果可能会出现一定的欠分割，同一物体表面颜色相差较大或者深度值跨度较大则会出现过分割。实际物体检测过程要求预选窗口能够包含图像中所有目标物体，对此本文提出了多阈值尺度超像素合并方法，在两次合并判断相似性过程中分别使用多阈值，得到像素块多层次合并结果，能够同时获取简单物体及色彩结构复杂物体所在区域，一定程度上避免产生一个物体分割为多个区域或多个物体分割为同一区域的问题。

首次聚合阈值选取

$ \begin{array}{*{20}{c}} {{T_{ci}} = {T_{c0}} + i\Delta {T_c}\;\;\;i \in \left[ {0,m} \right]}\\ {m = \frac{{{T_{{\rm{cmax}}}} - {T_{{\rm{cmin}}}}}}{{\Delta {T_c}}}} \end{array} $

(4)

二次聚合阈值选取为

$ \begin{array}{*{20}{c}} {{T_{di}} = {T_{d0}} + i\Delta {T_d}\;\;\;j \in \left[ {0,n} \right]}\\ {n = \frac{{{T_{{\rm{dmax}}}} - {T_{{\rm{dmin}}}}}}{{\Delta {T_d}}}} \end{array} $

(5)

式中，$\Delta {T_c}$, $\Delta {T_d}$为阈值间隔，${T_{ci}}$、${T_{dj}}$为两次合并多尺度阈值，${T_{{\rm{dmax}}}}$、${T_{{\rm{dmin}}}}$分别为相似性度量距离的最大值和最小值。从式(4)(5)中可以看出，通过本文方法，最终将得到$m \times n$幅分割图像，每幅图像中包含不同相似度层次分割结果。

图 3显示了不同阈值下的超像素聚合效果，由于物体本身的差异性，在不同的阈值条件下也会产生不同的结果。当彩色阈值为0.6，深度阈值为0.8时订书机表现出了较好的反应，其他物体则适应于其他阈值，因此多阈值尺度能够在一定程度上满足差异性物体聚合的需要。

图 3 不同阈值合并结果对比

Fig. 3 Comparison of merging result of different thresholds

在得到的标签图像集中，由于在不同层次合并中存在某些区域在不同标签图中没有产生变化，因此可以将所有图像标签区域取并集，对不同图像中每一个相同区域只取1次，获得此分割结果中所有可能物体存在的区域。另外，针对本文实际应用，在场景集中包含多个物体，基于以下两个假设：最大分割区域${\mathit{\boldsymbol{A}}_{\max }}$为背景；分割区域${\mathit{\boldsymbol{A}}_{ij}}$小于某一固定大小时，因无法有效提取物体特征进行检测，故假设较小区域${\mathit{\boldsymbol{A}}_{{\rm{small}}}}$不包含物体。区域并集${\mathit{\boldsymbol{A}}_{s}}$结果表示为

$ {\mathit{\boldsymbol{A}}_s} = \bigcup\limits_{i \in \left[ {1,m} \right]} {\bigcup\limits_{j \in \left[ {1,n} \right]} {{\mathit{\boldsymbol{A}}_{ij}} - {\mathit{\boldsymbol{A}}_{\max }} - {\mathit{\boldsymbol{A}}_{{\rm{small}}}}} } $

(6)

以上超像素合并算法能够利用同一目标具有特征一致性的原则对图像进行合理分割，分割出的多层次结果包含图像中可能存在的所有特征一致性区域，用最小矩形框将这些区域规整为可以进行特征提取的检测窗口，在实际检测中，通过对这些窗口的分类可以对多类别目标进行检测。

1.2 多核学习物体识别

不同特征具有不同的判别能力，在目标检测中也将起到不同的作用。例如颜色直方图会在色彩丰富的目标检测中起到重要作用；而梯度方向直方图(HOG)则可以很好地描述具有特定轮廓形状的物体。在物体检测中，目标本身信息具有多样性，如果能将多模态信息进行充分和有效利用，将会提高识别效率。如何去判断不同特征在最终识别效果的贡献程度，分别给予多大权重，一直以来是多模态信息融合中一个研究热点问题。目前主流的是平均分配权重方法，但是这一方法体现不出不同特征的贡献程度。为解决此问题，本文基于多核学习(MKL)方法，将多个特征对应的特征核进行融合，通过对权重的学习给予不同特征贡献度，进行3D目标分类检测。

SimpleMKL^[22]是目前经典的的多核学习方法，定义$M$个基核函数，并使用基函数的加权线性组合作为SVM的核函数。样本在特征空间中的表示问题转化成为基本核与权系数的选择问题。这里基本核选取具有代表性的高斯核，不同特征高斯核定义为

$ {K_f}\left( {{x_i},{x_j}} \right) = \exp \left\{ { - \frac{{{{\left\| {{x_i} - {x_j}} \right\|}^2}}}{{2\sigma _f^2}}} \right\} $

(7)

式中，$f \in \left\{ {{f_{{\rm{color}}}}, {f_{{\rm{LBP}}}}, {f_{{\rm{HOG}}}}, {f_{{\rm{HONV}}}}} \right\}$, 样本${x_i}$, ${x_j}$，$\sigma $为对应的高斯核函数参数。

本文选取的特征分别是代表目标物体颜色、纹理^[14]、轮廓^[15]和深度信息^[19]的典型特征，通过与单个特征的对比说明多特征融合能够更好的对目标物体进行表述。

针对不同特征给予其权重为${\beta _f}$，最终得到的特征加权融合核$K\left( \beta \right)$为

$ \begin{array}{*{20}{c}} {K\left( \beta \right) = \sum {{\beta _f}{K_f}\left( {{x_i},{x_j}} \right)} }\\ {\sum {{\beta _f}} = 1} \end{array} $

(8)

从式(8)分析看出当权重不同时，对应特征在整体核函数中比重也会有差异。多核学习算法计算各个核矩阵对应的核组合系数，通过对样本的学习可以获取不同样本对特征的适应选择。获取特征的高斯核函数$K\left( \beta \right)$后，利用SVM分类器对样本进行训练以及分类，$gamma$是高斯核半径，$C$是SVM惩罚因子，松弛变量为${\xi _i}$。

分析说明：由于多核学习模型会在一定程度上增加算法复杂度，因此本文首先利用网格法和5重交叉验证进行错误率估计，为分类器得到最优参数。然后为4种特征核赋予相同的最优参数(表 1)$gamma$=0.2, $C$=32，这样只对4个权重参数的学习很大程度上降低了多核学习的计算量，同时保证了对于多模态信息的利用。通过在训练集上进行训练，得到包含各特征权重系数的训练模型，然后提取检测样本不同特征核与权重进行融合，利用模型在数据集上进行测试。虽然多核学习算法需要计算各个核矩阵对应的组合系数，在计算复杂度上高于传统SVM，在训练时需要较长的时间，但由于本文在学习工程中使用统一核参数，因此并没有大量增加检测时间。而在前期窗口采样过程中，由于本文采用的预选窗口方法能够大幅减少检测窗口数量，多特征融合可以有效利用样本多模态差异信息，因此总体可以在降低运算时间的同时保证高召回率，提高物体检测精度。

表 1 不同区间SVM参数寻优结果比较
Table 1 Comparison of the SVM optimization parameter results with different section

下载CSV

参数名	第1组	第2组	第3组
$C$	[5^-1, 5]	[5^-2, 5²]	[5^-3, 5³]
$gamma$	[5^-1, 5]	[5^-2, 5²]	[5^-3, 5³]
Best$C$	10	32	50
Best gamma	0.2	0.2	0.5
检测精度/%	93.2	97.6	95.3
时间/s	4.7	5.2	17.8
注：加粗值为对比最优参数。

2 实验部分

2.1 数据集与实验设置

本文实验数据集来源于以下两部分：第1部分是Lai等人^[23]利用Kinect V1相机获取并建立的RGB-D物体数据集和RGB-D Scene场景集，其中物体集包含51类300多种不同角度、不同光照条件下的日常用品图像；第2部分为本地Kinect V2相机采集的6类多角度，不同光照条件下的常见物品图像数据集(CRGB-D)及对应场景集(CScene)。实验中SMS阶段分别选取两个场景集中各200幅图像，如图 4所示，物体识别阶段选取了拍摄的6类室内常见物品(键盘、纸盒、鼠标、水壶、苹果、订书器)，每类在两个物体集中共选取500组图像作为训练样本，100组图像作为测试样本，为方便特征提取，规整图像大小统一为128×128像素。

图 4 实验选取的6种室内常见物体

Fig. 4 Six classes of common objects in this test ((a) apple; (b) keyboara; (c) mouse; (d) food-box; (e) stapler; (f) pitcher)

实验过程分为3部分:

1) 将本文方法与基于深度学习的方法Fast-CNN^[10]和基于RGB-D图像融合方法Gupta ^[13] (http://www.cs.berkeley.edu/-sgupta/eccv14/)在室内物体检测中的效果进行了整体对比，在场景集中统计目标检测正确率及漏检率；

2) 对比了SMS方法相对于当前OP方法的优势，利用SLIC方法进行超像素分割，对每个场景集人工划定Ground truth，在实验中通过设定不同的$IoU$^[2](区域交集${\mathit{\boldsymbol{S}}_{\rm{I}}}$与区域并集${\mathit{\boldsymbol{S}}_{\rm{U}}}$的比值)统计召回率^[2]$R$ (其为命中物体区域数量${N_{{\rm{obj}}}}$与总窗口数量${N_{{\rm{all}}}}$比值)，即

$ IoU = \frac{{{\mathit{\boldsymbol{S}}_{\rm{I}}}}}{{{\mathit{\boldsymbol{S}}_{\rm{U}}}}} $

(9)

$ R = \frac{{{N_{{\rm{obj}}}}}}{{{N_{{\rm{all}}}}}} $

(10)

3) 在单个物体测试集中判断物体所属类别，显示分类结果和精度，对单个特征与多特征融合识别效率进行了比较。

在特征提取环节，颜色直方图特征每个通道提取$bin$为32的直方图，得到96维特征向量；统计每个像素点的LBP特征值，获取256维直方图向量；对于HOG特征，设定cell和block大小，规定步长为8，使用无符号的梯度值分布空间(0~180°, $bin$=9)，计算出最终向量；在深度图像中，提取HONV特征，统计天顶角和方位角2维直方图，使用HOG特征相同设置得到对应特征向量。最后使用主成分分析法(PCA)对后高维特征进行降维，得到样本特征矩阵。实验其他主要参数见表 2。

表 2 主要实验参数列表
Table 2 Main experiment parameters list

下载CSV

参数名	参数说明	参数值
$k$	SLIC超像块数量	2 000
$C$	SVM惩罚因子	32
$gamma$	高斯核参数	0.2
${t_c}, {t_d}$	多阈值尺度间隔参数	0.1，0.1
Ncell	HOG, HONV特征cell规格	8×8
Nblock	HOG, HONV特征block规格	2×2

2.2 实验结果与分析

为验证本文提出方法在3D物体检测中性能的提升，按照2.1节中提到的实验设置，在将本文方法整体与RGB-D物体检测主流方法对比后，又分别将SMS窗口采样和多模态融合目标识别与当前方法进行了整体和分阶段对比实验，实验结果及分析如下：

实验1对比了在物体实例检测中本文方法与Fast-CNN^[10], Gupta^[13]方法的检测精度及运行时间(Matlab, 2 GB内存)，实验结果如表 3和表 4所示。

表 3 本文检测方法与Fast-CNN, Gupta方法检测精度结果比较
Table 3 Comparison of detection result based on proposal method and the methods from reference[10, 13]

下载CSV

物体类别	方法	识别率/%
物体类别	方法	Selective Search	SMS
	Fast-CNN	80.6
苹果	Gupta	78.3	81.0
	本文	80.3
	Fast-CNN	82.8
键盘	Gupta	78.2
	本文	83.6	84.3
	Fast-CNN	77.2
鼠标	Gupta	72.2
	本文	77.3	78.3
	Fast-CNN	63.6
纸盒	Gupta	56.4
	本文	58.2	63.7
	Fast-CNN	47.9
订书器	Gupta	47.2
	本文	45.2	46.3
	Fast-CNN	74.8
水壶	Gupta	68.5
	本文	71.7	75.4
	Fast-CNN	71.2
平均	Gupta	66.8
	本文	69.4	71.5
注：加粗值为对比较优检测精度。

表 4 本文检测方法与Fast-CNN, Gupta方法检测时间对比
Table 4 Comparison of detection time based on proposal method and the methods from reference[10, 13]

下载CSV

/s
方法	Selective Search	SMS(不同间隔阈值)
方法	Selective Search	0.05	0.1	0.2
Fast-CNN	8	6.5	4	2.3
Gupta	12	8.3	6	4.2
本文	8.2	5.7	3.1	2.2
注：加粗值为对比较短检测时间。

从表 3，表 4中可以看出：

1) 同样使用Selective Search算法，本文多特征融合方法较Gupta提出的方法实验平均检测精度都有所提高，并与Fast R-CNN基本持平。而选取的6种物体除订书器以外的5种均有提升，订书器形状特征复杂，样本的不均衡使得在检测过程中识别率有所下降。实验表明，在相同条件下，本文提出的多特征融合方法与Fast-CNN, Gupta方法相比检测效果突出。

2) 使用SMS方法提取预选检测窗口能够在检测过程中更加准确的进行物体定位，与本文多特征融合方法结合在一起后检测率有了进一步提升，整体识别检测率较Gupta使用Selective Search采样方法提升了4.7%，较Fast-CNN提升0.3%，基本持平。同时，在本文多特征融合检测基础下，使用SMS方法进行窗口预选也可以在一定程度上有效地提高检测精度(2.1%)。说明通过预选窗口的精确定位，可以减少因窗口错误而引起的漏检错检现象，更加准确地得到RGB-D图像中的目标检测结果。

3) 在运行时间上，同样使用Selective Search采样方法，多模态融合方法能够优化特征提取过程，在训练和检测中快于Gupta多层卷积提取；对于不同间隔阈值下的SMS方法，阈值间隔值越小，选取的层次窗口越密集，数量也就越多，进而检测时间也将越长，反之则能够大幅度提升检测效率。但同时由于过大的间隔阈值将会减少窗口数量，丢失部分似物性物体窗口，进而降低检测精度。

实验2将本文SMS算法和3D Selective Search^[11]以及Edgeboxes^[6]两种方法进行了对比，固定$IoU$，通过改变窗口数量来计算相对应的召回率。SMS算法改变窗口数量的方法是通过修改两次合并阈值的间隔，3D Selective Search和Edgeboxes则是通过对窗口排序，图 5中显示了几组不同的阈值间隔可平均获取的窗口数量和检测精度。与当前方法对比实验结果则如图 6所示。

图 5 不同间隔参数下产生的窗口数量及召回率对比

Fig. 5 Comparison of the windows number and recall with different interval parameter

图 6 不同窗口数量下本文SMS算法与3D Selective Search，Edgeboxes召回率对比

Fig. 6 Comparison of recall about SMS method and 3D Selective Search, Edgeboxes methods under different detection window numbers

实验2结果表明：

1) 在$IoU$设定为0.7时，3D Selective Search和Edgeboxes方法在较大数量级的窗口中可以得到较高的召回率，而本文方法能够在预选窗口数量为200个时达到0.74的召回率，说明SMS算法能够在小窗口范围内更加准确的预测出物体可能存在的区域，有效的降低目标检测阶段预选窗口数量。

2) 但同时随着预选窗口数量的增加，超过200个后3D Selective Search和Edgeboxes的检测效率则仍能够继续提升，最终较多的窗口可以弥补前面的漏检错检区域，但对应计算量将会大幅提升，Edgeboxes方法在窗口数量为1 000时召回率低于同样使用深度信息的3D Selective Search方法。而SMS则无法随着窗口数量的持续增多继续有效检测出漏检错检区域。原因在于SMS算法是利用某一固定的分割结果进行物体检测，分割结果的优劣才是决定物体检测的主要因素，而窗口数量只是取决于分割结果的密度，当分割结果密度达到一定程度后，召回率不会再大幅度随窗口数量的增加而提升。

由以上分析可得，本文采用的SMS预选窗口采样方法在进行目标检测时相对于当前3D Selective Search和Edgeboxes方法具有更加突出的优势，当对于目标检测实时性有更高要求时，本文方法不仅能够保证较高准确率，还能够大幅度减少窗口数量，进行有效定位。

实验3对比分析了在目标识别阶段单特征和本文多特征融合的分类结果，实验结果如表 5所示。可以看出，单个颜色空间特征会受到光照、拍摄角度等因素影响，因此识别率与深度HONV^[19]特征相比较低，而不同颜色空间特征与深度特征的融合在一定程度上会提高识别效果，其中HOG特征与HONV特征融合后的识别率最高，表明在进行物体识别时，轮廓信息和3维形状信息可以更好地区分物体。本文方法通过学习不同特征相应权值，把4种特征进行了融合，识别精度较单个特征最高识别率提高了4.5%，与HOG特征和HONV融合结果相比识别率提高了2.1%。

表 5 单一特征与本文特征融合方法物体分类识别结果比较
Table 5 Comparison of recognition result about the single feature and the proposal multi-feature fusion method

下载CSV

特征算法	单个特征识别率/%	组合特征来源			本文方法
颜色直方图	51.2	√			√
LBP特征	73.6		√		√
HOG特征	89.0			√	√
HONV特征	91.2	√	√	√	√
识别率/%		92.8	93.0	93.6	95.7
注：√为对此特征的选取。

综合分析以上实验数据，可以看出本文算法有效地实现了对RGB特征与Depth特征的差异性提取和融合，能够从多模态数据中提取并融合有区别度的浅层特征。算法整体降低了3D目标检测计算量，提高了计算速度，所提出的目标检测框架有利于在3D目标检测领域的进一步研究。

3 结论

本文针对基于RGB-D图像3D物体检测实时性和准确性提升问题，提出了一种改进的分步超像素合并(SMS)似物性采样方法，并使用多核学习理论对目标物体的颜色、纹理、轮廓和深度等多模态信息进行有效融合。通过在由Kinect相机获取的深度数据集上进行对比实验，表明本文方法能够在大幅降低采样窗口数目、降低运算时间的同时保证窗口采样高召回率和准确定位，有效融合目标物体多模态信息，提高物体检测精度。同时由于物体本身形态具有多样性，在样本数量较少的情况下在识别准确性方面存在一定的局限，为克服这一问题，下一步工作主要研究如何将本文检测窗口采样方法运用到卷积神经网络中，考虑使用深度网络提取更能表现物体3维形状的低层特征进行识别和形态估计，通过RGB和深度特征的融合提高目标识别和检测精度。

参考文献

[1] Huang Z C, Liu Z Y. Feature integration and S-D probability correction based RGB-D saliency detection[J]. Journal of Image and Graphics, 2016, 21(10): 1392–1401. [黄子超, 刘政怡. 特征融合与S-D概率矫正的RGB-D显著检测[J]. 中国图象图形学报, 2016, 21(10): 1392–1401. ] [DOI:10.11834/jig.20161014]

[2] Su B Y, Ma J Y, Peng Y S, et al. Fast point cloud registration based on RGB-D data[J]. Journal of Image and Graphics, 2017, 22(5): 643–655. [苏本跃, 马金宇, 彭玉升, 等. 面向RGBD深度数据的快速点云配准方法[J]. 中国图象图形学报, 2017, 22(5): 643–655. ] [DOI:10.11834/jig.160602]

[3] Papageorgiou C, Poggio T. A trainable system for object detection[J]. International Journal of Computer Vision, 2000, 38(1): 15–33. [DOI:10.1023/A:1008162616689]

[4] Hosang J, Benenson R, Dollár P, et al. What makes for effective detection proposals?[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(4): 814–830. [DOI:10.1109/TPAMI.2015.2465908]

[5] Cheng M M, Zhang Z M, Lin W Y, et al. BING: binarized normed gradients for objectness estimation at 300fps[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE, 2014: 3286-3293. [DOI: 10.1109/CVPR.2014.414]

[6] Zitnick C L, Dollár P. Edge boxes: locating object proposals from edges[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014: 391-405. [DOI: 10.1007/978-3-319-10602-1_26]

[7] Uijlings J R R, Van De Sande K E A, Gevers T, et al. Selective search for object recognition[J]. International Journal of Computer Vision, 2013, 104(2): 154–171. [DOI:10.1007/s11263-013-0620-5]

[8] Zheng Y, Chen Q Q, Zhang Y J. Deep learning and its new progress in object and behavior recognition[J]. Journal of Image and Graphics, 2014, 19(2): 175–184. [郑胤, 陈权崎, 章毓晋. 深度学习及其在目标和行为识别中的新进展[J]. 中国图象图形学报, 2014, 19(2): 175–184. ] [DOI:10.11834/jig.20140202]

[9] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE, 2014: 580-587. [DOI: 10.1109/CVPR.2014.81]

[10] Girshick R. Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 1440-1448. [DOI: 10.1109/ICCV.2015.169]

[11] Kanezaki A, Harada T. 3D Selective search for obtaining object candidates[C]//Proceedings of 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems. Hamburg, Germany: IEEE, 2015: 82-87. [DOI: 10.1109/IROS.2015.7353358]

[12] Ren S Q, He K M, Girshick R, et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137–1149. [DOI:10.1109/TPAMI.2016.2577031]

[13] Gupta S, Girshick R, Arbeláez P, et al. Learning rich features from RGB-D images for object detection and segmentation[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014: 345-360. [DOI: 10.1007/978-3-319-10584-0_23]

[14] Wolf L, Hassner T, Taigman Y. Effective unconstrained face recognition by combining multiple descriptors and learned background statistics[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(10): 1978–1990. [DOI:10.1109/TPAMI.2010.230]

[15] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, USA: IEEE, 2015: 886-893. [DOI: 10.1109/CVPR.2005.177]

[16] Rusu R B, Bradski G, Thibaux R, et al. Fast 3D recognition and pose using the viewpoint feature histogram[C]//Proceedings of 2010 IEEE/RSJ International Conference on Intelligent Robots and Systems. Taipei, Taiwan, China: IEEE, 2010: 2155-2162. [DOI: 10.1109/IROS.2010.5651280]

[17] Steder B, Rusu R B, Konolige K, et al. Point feature extraction on 3D range scans taking into account object boundaries[C]//Proceedings of 2011 IEEE International Conference on Robotics and Automation. Shanghai, China: IEEE, 2011: 2601-2608. [DOI: 10.1109/ICRA.2011.5980187]

[18] Bo L F, Lao K, Ren X F, et al. Object recognition with hierarchical kernel descriptors[C]//Proceedings of 2011 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE, 2011: 1729-1736. [DOI: 10.1109/CVPR.2011.5995719]

[19] Tang S, Wang X Y, Lv X T, et al. Histogram of oriented normal vectors for object recognition with a depth sensor[C]//Proceedings of the 11th Asian Conference on Computer Vision. Daejeon, Korea: Springer, 2013: 525-538.

[20] Achanta R, Shaji A, Smith K, et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(11): 2274–2282. [DOI:10.1109/TPAMI.2012.120]

[21] Bucak S S, Jin R, Jain A K. Multiple kernel learning for visual object recognition:a review[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(7): 1354–1369. [DOI:10.1109/TPAMI.2013.212]

[22] Rakotomamonjy A, Bach F R, Canu S, et al. SimpleMKl[J]. Journal of Machine Learning Research, 2008, 9: 2491–2521.

[23] Lai K, Bo L F, Ren X F, et al. A large-scale hierarchical multi-view RGB-D object dataset[C]//Proceedings of 2011 IEEE International Conference on Robotics and Automation. Shanghai, China: IEEE, 2011: 1817-1824. [DOI: 10.1109/ICRA.2011.5980382]