发布时间: 2019-12-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190127
2019 | Volume 24 | Number 12

图像分析和识别

结合深度学习与支持向量机的金属零件识别

郑健红, 鲍官军, 张立彬, 荀一, 陈教料

浙江工业大学特种装备制造与先进加工技术教育部重点实验室, 杭州 310023

收稿日期: 2019-04-12; 修回日期: 2019-06-03; 预印本日期: 2019-06-09

基金项目: NSFC-浙江省两化融合联合基金项目（U1509212）；浙江省基金公益研究计划项目（LGG18E050023）

第一作者简介: 郑健红, 1995年生, 男, 硕士研究生, 主要研究方向为机器学习与图像识别。E-mail:982543872@qq.com;
张立彬, 男, 教授, 主要研究方向为机器人及智能控制。E-mail:robot@zjut.edu.cn;
荀一, 男, 讲师, 主要研究方向为机器视觉。E-mail:xunyi@zjut.edu.cn;
陈教料, 男, 副教授, 主要研究方向为机器人装配。E-mail:jlchen@zjut.edu.cn.

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2019)12-2233-10

摘要

目的在视觉引导的工业机器人自动拾取研究中，关键技术难点之一是机器人抓取目标区域的识别问题。特别是金属零件，其表面的反光、随意摆放时相互遮挡等非结构化因素都给抓取区域的识别带来巨大的挑战。因此，本文提出一种结合深度学习和支持向量机的抓取区域识别方法。方法分别提取抓取区域的方向梯度直方图（HOG）和局部二进制模式（LBP）特征，利用主成分分析法（PCA）对融合后的特征进行降维，以此来训练支持向量机（SVM）分类器。通过训练Mask R-CNN（regions with convolutional neural network）神经网络完成抓取区域的初步分割。然后利用SVM对Mask R-CNN识别的抓取区域进行二次分类，完成对干扰区域的剔除。最后计算掩码完成实例分割，以此达到对抓取区域的精确识别。结果对于随机摆放的铜质金属零件，本文算法与单一的Mask R-CNN及多特征融合的SVM算法就识别准确率、错检率、漏检率3个指标进行了比较，结果表明本文算法在识别准确率上较Mask R-CNN和SVM算法分别提高了7%和25%，同时有效降低了错检率与漏检率。结论本文算法结合了Mask R-CNN与SVM两种方法，对于反光和遮挡情况具有一定的鲁棒性，同时有效地提升了目标识别的准确率。

关键词

目标识别; 多特征融合; 支持向量机; 深度学习; 实例分割

Metal part recognition based on deep learning and support vector machine

Zheng Jianhong, Bao Guanjun, Zhang Libin, Xun Yi, Chen Jiaoliao

Key Laboratory of Special Purpose Equipment and Advaneed Manufacturing Technology, Ministry of Education, Zhejiang University of Technology, Hangzhou 310023, China

Abstract

Objective Under the background of "machine substitution" robotic visual intelligence is crucial to the industrial upgrading of the manufacturing industry. Algorithm-guided industrial robots with a visual perception function are also receiving increasing attention in industrial production.One of the most critical difficulties in the automatic picking of industrial robots is the identification of the target area.This problem is particularly prominent in the picking process of metal parts. Unstructured factors, such as reflective surface and mutual occlusion during random placement, pose great challenges to the identification of the picking area.To solve these problems, this study proposes a picking region recognition method based on deep learning and support vector machine (SVM).These two models are combined to exploit their individual advantages and further improve their accuracy. Method The proposed approach is used to construct a new model that combines regions with a convolutional neural network feature (Mask R-CNN) and SVM.Our methods include feature extraction, multi-feature fusion, SVM classifier training, neural network training, the combination of SVM and deep neural network.First, the local binary pattern(LBP) and histogram of oriented gradient(HOG) features of the picking areaare extracted.The presence of interference areas poses a huge challenge to the identification of the picking area.The interference area is relative to the identification areaand is easily misidentified and obtained through long-term practice on the assembly line.The dimension of the feature matrix generated by directly merging these two features is too large.Thus, we mustutilize principal component analysis to reduce the dimensions of the feature matrix and train the SVM classifier through the trained feature matrix.The size of the matrix after the direct fusion of the two features is 7 000×2 692. Hence, we select a cumulative contribution rate of 94%, at which the recognition accuracy rate is up to 97.25%.The size of the feature matrix is reduced to 7 000×231after dimension reduction.After that, we cancomplete the initial segmentation of the picking area by training the Mask R-CNN, which may contain interference areas inside.Mask R-CNN is roughly composed of the following parts:feature extraction, area suggestion network (RPN), ROIAlign, and final result.The feature extraction part is the backbone of the entire network. Its function is to extract several important features of different targets from numerous training photos.We use an already trained residual network (ResNet101)as the feature extraction network.The RPN network uses the feature map to obtain the candidate frame of the object in the original image, which is currently implemented by anchor technology.In this study, nine candidate regions are selected for each anchor on the feature graph according to different scales (i.e., 128, 256, and 512 pixels) and different aspect ratios (i.e., 1:1, 0.5:1, and 1:0.5).By using the ROIAlign network, the corresponding area in the feature map is pooled to a fixed size according to the position coordinates of the candidate frame.The final classification and regression results are generated by the fully connected layer, and the mask division of the object is generated by the deconvolution operation.Then, quadratic segmentation of the results after initial segmentation by the SVM algorithm basically completes the elimination of the interference area.The final instance segmentation is completed by mask calculation of the picking area. Result Multi-feature fusion SVM, Mask R-CNN, and the proposed algorithm are used to detect the picking area of 500 metal parts.Experimental results show that the algorithm can adapt to the recognition of the picking region. The correct rate of algorithm identification in this work is 89.40%, the missed detection rate is 7.80%, and the false detection rate is 2.80%.The correct rate of algorithm identification is 7.00% and 25.00% higher than those of Mask R-CNN and SVM, respectively.The error detection rate of the algorithm is 7.80% and 18.40% lower than those of Mask R-CNN and SVM, respectively. The missed detection rate of the algorithm is 6.60% lower than that of SVM. Conclusion The SVM classifier with multi-feature fusion is used to classify the recognition results of Mask R-CNN, and the rejection of the interference region is completed. Accurate recognition of the picking region is completed by the calculation of the mask.In the construction of the image training set, the effects of illumination and occlusion between parts are fully considered, and the illumination and occlusion conditions are effectively divided and investigated; hence, the approach exhibits a certain robustness in practical applications.Compared with the sliding window frame method used in traditional target recognition, this work accurately identifies the shape of the target area through mask calculation and has a high recognition accuracy.Moreover, this work compensates for the limitations of the single-network framework by constructing a multi-feature fusion SVM classifier, which effectively reduces the false detection rate.

Key words

target recognition; multi-feature fusion; support vector machine(SVM); deep learning; instance segmentation

0 引言

近年来，随着“中国制造2025”的提出，生产线上许多原先由人工完成的工作正在逐渐被机器人所取代。在机器人自动拾取研究中，最主要的技术难点之一是目标区域的识别问题。目前主流的目标识别方法主要分为两种：基于传统机器学习的目标识别方法和基于深度学习的目标识别方法。

传统机器学习的目标识别多采用滑动窗口框架。通过不同尺寸的滑动窗口遍历整个输入图像，将图像分割成众多目标候选区域，随后对候选区域进行特征提取，最终利用分类器判断区域内是否存在目标。其中特征提取是最为关键的一个环节，对最终结果的准确性有重大影响。众多学者对特征提取的实现提出了不同的算法：Papageorgiou等人(1998)提出了Haar-like特征，Haar特征值反映了图像的灰度变化情况，这是一种在人脸检测、车辆识别领域中常用的特征。Ojala等人(1996)提出局部二值模式(LBP)特征，LBP反映了一个像素点的灰度值与其周围像素点灰度值的比较关系，可用来表示该处的局部纹理特征。Dalal等人(2005)提出了方向梯度直方图(HOG)特征，该特征是一种梯度信息统计特征。分类器的选择是传统目标识别的另一重要环节。分类器通过把图像的特征提取结果作为输入得到其所属分类。Adaboosting是第一个boosting算法(Freund等，1996)，其基本原理是训练多个弱分类器(通常情况下是一些简单的决策树)，最后再将这些分类器组合成强分类器进行分类。Cortes和Vapnik(1995)提出了支持向量机(SVM)，SVM在线性可分的情况下通过最优超平面进行分类，在线性不可分的情况下通过核函数映射到高维空间进行分类。

基于深度学习的目标识别方法无论是在识别速度还是在识别准确率上都较传统方法有着明显的优势。并且随着GPU等计算机硬件技术的不断提升，深度学习识别方法的优势将会更加突出。Girshick等人(2014)提出了基于区域提名的卷积神经网络(R-CNN)用来代替传统目标检测使用的滑动窗口和手工设计特征的方法。随后，Girshick等人(2015)又提出了Fast R-CNN，使用了ROI(region of interesting)池化层。在此基础上，Ren等人(2017)进一步提出了Faster R-CNN，其特点是利用区域建议网络(RPN)代替选择性搜索提取候选包围框，加快了识别速度。另外，还有使用端到端的目标检测思路，该类方法的特点是无需区域提名，直接使用回归的方法从图像中检测出目标。比较具有代表性的是Redmon等人(2016)提出的YOLO(you only look once)和Liu等人(2016)提出的SSD(single shot multibox detector)。

近些年由于对识别算法的不断深入研究，出现了基于深度学习的语义分割方法。语义分割是指像素级的图像理解，即对图像中的每个像素标注所属的类别。与图像分类或目标检测相比，语义分割使人们对图像有了更加细致的了解。根据实现方法的差异，语义分割可分为3大类(张祥甫等，2019)，即基于译码器的方法、基于图像信息融合的方法以及基于循环神经网络(RNN)的方法。其中Long等人(2014)提出的全卷积神经网络(FCN)是基于译码器的方法，这个模型是基于深度学习的语义分割算法的开山之作，其摒弃了卷积神经网络中的全连接层并以卷积层替代，对分类完成后的图像进行反卷积(上采样)操作将结果映射为原图像大小，以此产生像素级别的标签，从而获取语义分割的结果。Chen等人(2014)提出的DeepLabv1，使用条件随机场(CRF)作为网络的优化环节(Lafferty等，2001)，CRF能够更好地学习像素之间的关联性，从而提高分割精度。随后他们又在DeepLabv1的基础上提出了DeepLabv2(Chen等，2016), 引入了金字塔型的空洞池化(ASPP), 并且采用了带孔卷积来处理特征图，提高了图像的分割精度。DeepLabv3(Chen等，2017)设计了空洞卷积级联以及不同采样率的空洞卷积以解决多尺度下的目标分割问题，同时优化了ASPP模块。这几个模型都是基于图像信息融合的方法。Visin等人(2016)提出了面向语义分割的ReSeg模型，一直以来FCN方法都没有考虑到上下文信息，而ReSeg模型基于ReNet(Visin等，2015)考虑到了局部和全局的上下文依赖关系，对每个像素位置的局部特征进行编码，进一步提高了语义分割的效果。这个模型是基于循环神经网络(RNN)的方法。

语义分割仅是分割出了同一类的对象，并不对类中的每个实体进行划分。而进一步发展而来的实例分割能够区别相同类别的不同实例，直接对每一个检测物体进行区分，进一步提高了识别的精度。这能够为之后的机器人、自动驾驶等工作提供更加详细和完整的信息。其中较为流行的模型是He等人(2017)所提出的Mask R-CNN (regions with convolutional neural network)神经网络模型。

对于金属零件识别的问题，许多学者都做了相关研究：袁安富等人(2015)在提取SURF特征的基础上利用近似最近邻算法对零件进行识别；孙小权和邹丽英(2018)提出了一种基于SVM的零件识别算法；王乐等人(2019)在YOLOv2的基础上，采用多尺度训练、网络预训练和k-means维度聚类等优化方法，提出了一种机械零件识别算法。上述学者提出的识别算法主要是针对外形规整且整齐摆放的零件，对于外形复杂且任意堆叠摆放的零件自动识别缺乏深入的研究。

本文研究的对象为如图 1所示的空气开关的导电铜片。所需完成的目标为从散乱摆放的零件中，较为精确地识别出机器人所要抓取的位置区域，如图 2所示。相比于其他规整物体的识别问题，本文目标的识别困难在于本体反光和相互遮挡。由于导电铜片为金属材质，金属表面存在着反光，会在一定程度上掩盖金属的表面信息。并且导电铜片外形比较小巧，在随意摆放时零件之间会相互遮挡。由于上述问题的存在，使用传统的识别与分割方法难以奏效。因此本文提出了基于Mask R-CNN和多特征融合的支持向量机目标区域识别算法。

图 1 工件实物图

Fig. 1 Component drawing ((a) air switch; (b) conductive copper)

图 2 抓取环境与区域

Fig. 2 The picking environment and area ((a) scattered part; (b) picking area)

1 Mask R-CNN与SVM融合模型

1.1 整体算法结构

零件放置时，大面积区域不容易被完全遮挡，并且其表面材料能够有效地减少反光，容易重建出3维模型便于随后的抓取识别，因此以图 2标识区域为抓取区域。

本文的算法流程如图 3所示：首先分别提取抓取目标区域的LBP和HOG特征，结合这两种特征来训练SVM分类器。接着通过训练Mask R-CNN神经网络完成抓取区域的初步分割。然后通过SVM对Mask R-CNN识别的抓取区域进行二次分类，完成对干扰区域的剔除。最后通过对抓取区域的掩码计算完成最终的实例分割, 以此获得抓取区域的精确识别。

图 3 算法流程图

Fig. 3 Flow chart of the algorithm

1.2 基于多特征融合的SVM分类器模型

1.2.1 LBP特征提取

原始的LBP算子定义为在3×3的滑动窗口内，以其窗口的中心像素作为阈值，与周围8个像素的灰度值进行比较，若灰度值高于阈值则该位置标记为1，否则标记为0。处理之后，获取这3×3区域内各个位置的标记值就会得到一个8位二进制数，对此二进制数进行十进制编码，最终获取的值就为中心像素的LBP值。由于编码时起始位置以及方向选择的多样性，同一位置的像素点会获得不同的LBP值。其计算为

$ LBP\left({{x_{\rm{b}}}, {y_{\rm{b}}}} \right) = \sum\limits_{n = 0}^7 {{2^n}} s\left({{i_{\rm{p}}} - {i_{\rm{b}}}} \right) $

(1)

式中，$ \left({{x_{\rm{b}}}, {y_{\rm{b}}}} \right)$是中心像素点，$ {{i_{\rm{b}}}}$是中心像素灰度值，${{i_{\rm{p}}}} $是相邻像素的灰度值，$ s$是符号函数

$ s(x)=\left\{\begin{array}{ll}{1} & {x \geqslant 0} \\ {0} & {x <0}\end{array}\right. $

(2)

对于原始的LBP算法，每一个像素点可以产生256种二进制模式。对于大尺寸的图片，这种二进制模式会导致提取的LBP特征矩阵规模极为庞大。同时，过多的模式种类也会对纹理的描述产生影响。为了提高统计性与准确性，Ojala等人(2002)又提出了一种“等价模式”的LBP算子。“等价模式”定义为：当某个LBP所对应的循环二进制数从0到1或从1到0最多有两次跳变时，该LBP所对应的二进制就称为一个等价模式类，并把其余的模式统称为混合模式。通过这样的改进，对于3×3邻域的采样点由原始的256种二进制模式降低为59种，使特征矩阵的规模大幅度降低，同时也降低了噪声带来的影响。

本文采用等价模式的LBP算法，将每幅输入图像划分为若干个16×16的子区域，计算每个子区域内像素的LBP值，随后统计每个子区域中各个LBP值出现的频率，并进行归一化处理，最终连接各个子区域频率值形成一个特征向量，这就是整幅图像的LBP纹理特征。

1.2.2 HOG特征提取

HOG是图像处理中常用的一种特征描述子，对几何和光学变化都具有良好的不变性。通过计算图像中局部区域的灰度梯度直方图，提取HOG特征，其基本步骤如下：读取原图像，将灰度化后的图片进行Gamma校正，以补偿灰度偏差和降低噪声带来的影响。

1) 将图像划分成若干Cell, 计算每个Cell在$ M$个方向上的梯度直方图。

2) 将每个Block中的Cell方向梯度直方图串联连接形成Block的方向梯度直方图。

3) 串联图像中所有的Block方向梯度直方图输出最终的图像HOG特征。

本文HOG特征设置如下：梯度方向个数$ M$取为9，Cell的大小为8×8，Block的大小为16×16。

1.2.3 特征降维融合

由于抓取区域具有金属反光和纹理多变等特点，单个特征应用于图片识别，容易造成遗漏或者错误的检测。为了进一步提高识别的正确率，本文通过融合HOG和LBP特征用于抓取区域的检测。由于这两种特征本身维数较大，直接进行拼接无疑会导致SVM分类器训练耗时增加，致使训练和检测效率低下。因此本文采用主成分分析法(PCA)对特征融合后的矩阵进行不同程度的降维，以提高训练效率和检测的准确率。

1.3 Mask R-CNN模型

Mask R-CNN是在Faster R-CNN基础上进行研发的一个实例分割算法，具有目标区域检测、目标实例分割和关键点检测等功能，在目标识别和分割任务中具有广泛的应用。

Mask R-CNN大致由以下几个部分组成：特征提取部分、区域建议网络(RPN)部分、ROIAlign部分以及最后的结果部分。其网络结构如图 4所示。

图 4 Mask R-CNN网络结构

Fig. 4 Network structure of Mask R-CNN

特征提取部分是整个网络的主干部分，其作用是从大量的训练图片中提取出一些不同目标的重要特征。常使用一些训练好的网络，如VGG16(Simonyan等，2014)、ResNet101(He等，2016)，同时结合特征金字塔网络(Lin等，2017)作为主干网络。特征金字塔与残差网络结构思想相似，将图像在多个尺度上表达出目标的特征，通过每一层金字塔之间的特征传递，使得每一级的特征都可以和其高低级特征互相结合。

RPN网络的功能是利用特征图在原图像中获取物体的候选框，目前通过Anchor技术来实现。Anchor指特征图中的最小单位点，对特征图上的每一个Anchor根据不同的尺度(128、256、512像素)和不同的长宽比(1 :1、0.5 :1、1 :0.5)选取$ k$个候选区域(一般取$ k$=9)，并根据相应的比例关系映射到原始图像中。接着在候选区域后面连接两个全连接层，即box-regression layer和box-classification layer，分别用来进行分类和初步回归。最后通过非极大值抑制(NMS)对分类结果进行排序，过滤得到较为精确的候选框。网络结构如图 5所示。

图 5 区域建议网络

Fig. 5 Region proposal network

ROIAlign的作用是根据候选框的位置坐标将特征图中的相应区域池化为固定尺寸，以便于随后的分类等操作。ROIAlign是由ROI pooling改进而来，传统的ROI pooling需要将由回归得到的候选框位置进行两次量化操作，以获得固定的尺寸。在这个过程中由于小数取整的操作，导致候选框与最初的位置产生一定的偏差，影响最终检测和分割的精确性。针对ROI pooling的缺点，ROIAlign对浮点数的像素点，根据周围采样点进行双线性内插的方法得到对应的数值，随后进行池化操作得到最终的精确数值。

Mask R-CNN在最终分类和回归的基础上通过全卷积网络完成了掩码的生成，获得了物体更为精确的形状信息。由于增加了掩码部分，所以最终的ROI损失函数为

$ L=L_{\mathrm{cls}}+L_{\mathrm{box}}+L_{\mathrm{mask}} $

(3)

式中，$ L$是每个ROI的损失值，$ {L_{{\rm{cls}}}}$是分类损失值，${L_{{\rm{box}}}} $是边框回归损失值，$ {L_{{\rm{mask}}}}$是掩码输出损失值。

2 实验和结果分析

2.1 实验过程

本实验训练图像数据集均为笔者采集与标注。本文对原始图像进行几何变化以此来扩充样本，例如旋转、平移等。最终用于训练SVM分类器的图片大小为64×64像素，图片正样本数量为2 500张，负样本数量为4 500张。用于训练Mask R-CNN网络的图片大小为1 280×960像素，图片数量为1 000张。

实验环境：Windows10，64位操作系统，内存为16 GB，CPU为Inter(R) Xeon(R) CPU E5-2609 @ 2.4 GHz，GPU为NVIDIA GTX-1080Ti，Python3.6.4，TensorFlow1.8.0。

2.1.1 SVM分类器训练与测试

根据之前特征提取算法所设定的参数，可知LBP特征矩阵的大小为7 000×928，HOG特征矩阵的大小为7 000×1 764。两种特征直接融合后的矩阵大小为7 000×2 692，进一步对其进行PCA降维。本文选取累计贡献率位于85%~95%之间的维数计算其对于抓取区域的识别准确率。

图 6展示了累计贡献率与识别准确率之间的关系，从中可以看出，在一定范围内，随着累计贡献率的提高，准确率也随之升高。此后，随着累计贡献率的上升，准确率出现上下波动。当累计贡献率达到89%或94%时，准确率出现最高值为97.25%。考虑到随着特征矩阵维数的增加，算法效率会随之下降。本文选取累计贡献率为89%，此时特征矩阵的维数为231。

图 6 贡献率与准确率关系

Fig. 6 The relation between contribution rate and accuracy rate

利用降维后的特征矩阵进行分类器的训练和测试。实验设置两个类别，1表示带有抓取区域的正样本图像，-1代表不含抓取区域的负样本图像。实验所使用的部分样本如图 7所示，分别在不同的光照环境下拍摄所得。

图 7 抓取区域

Fig. 7 Target area((a) negative sample; (b) positive sample)

实验将单一特征与多特征融合的分类器分别对400幅只含部分零件区域的测试图像进行识别，识别的结果如表 1所示。

表 1 基于单一特征与多特征融合的零件识别精度对比
Table 1 Comparison of parts recognition accuracy based on single feature and multi-feature fusion

下载CSV

特征	HOG	LBP	HOG+LBP
成功数	380	347	389
成功率/%	95.00	86.75	97.25
注：加粗字体为每行最优值。

从表 1中的实验对比结果可知，基于HOG特征的分类器的识别效果优于基于LBP特征的分类器，并且与基于多特征融合的分类器识别精度相近。但是，基于多特征的识别精度始终优于单一特征, 识别成功率达到了97.25%。

2.1.2 Mask R-CNN网络训练

抓取部分以工件上的大平面区域为主，在零件相互遮挡的情况下，不同程度的遮挡都会对神经网络的特征提取产生一定的影响。因此必须对遮挡的程度进行一定的划分，本文将工件表面划分为3个区域，如图 8所示。

图 8 工件表面区域划分

Fig. 8 The division of workpiece surface

现对训练样本做出如下规定：

1) 对于无遮挡的工件或者1、2、3部分仅有一处遮挡且遮挡的面积不超过区域面积的50%，定义为拾取区域轻度遮挡的情况，作为正样本。

2) 对于1、2、3部分有两处遮挡且遮挡的面积不超过这两部分总面积的50%，定义为重度遮挡情况，作为正样本。

3) 其余遮挡情况以及背景部分一起作为负样本。

本文使用由Visual Geometry Group开发的VGG Image Annotator(VIA)进行图像的标注，VIA是一款开源的图像标注工具，部分标注结果如图 9所示。模型主要训练参数的设置如表 2所示。

图 9 标注结果

Fig. 9 Label result((a) weak light; (b) strong light)

表 2 模型主要训练参数
Table 2 Main training parameters of the model

下载CSV

参数的名称	数值
特征提取网络	ResNet101
每次加载图片量	2
动量	0.9
学习率	0.001
步数	1 000
样本遍历次数	50
掩膜大小	[28, 28]
区域建议网络包围框数量	256

2.2 结果分析

分别使用多特征融合的SVM算法、Mask R-CNN算法以及本文算法对500幅零件图像进行了抓取区域的检测，最终的测试结果如表 3所示。

表 3 不同模型的检测结果
Table 3 Test results of different models

下载CSV

/%
检测算法	多特征融合SVM	Mask R-CNN	本文
错检率	21.20	10.60	2.80
漏检率	14.40	7.00	7.80
正确率	64.40	82.40	89.40
注：加粗字体为每行最优值。

图 10展示了部分检测结果图像。

图 10 部分检测结果对比

Fig. 10 Comparison of partial test results((a) SVM; (b) Mask R-CNN; (c) ours)

从表 3中的实验对比结果可知，就本文的实验对象而言，Mask R-CNN算法得到的结果在各个衡量指标上都远远优于基于多特征融合的SVM算法，说明传统机器学习算法在某些方面的局限性。本文算法检测的正确率达到了89.40%，错检率仅为2.80%，都优于Mask R-CNN算法。由于金属反光以及某些零件之间摆放较为密集等因素的影响，造成SVM在二次分类时错分，最终使得漏检率比Mask R-CNN算法略高。但从整体性能上来分析，本文算法有效地提高了检测精度。

为了验证本文算法在不同实验环境下识别的正确率，分别在不同遮挡程度以及反光条件下对150幅零件图像进行测试，实验结果如表 4所示。

表 4 不同实验环境下的检测结果
Table 4 Test results in different experimental environments

下载CSV

/%
实验环境	轻度遮挡		重度遮挡
实验环境	弱反光	强反光	弱反光	强反光
错检率	4.67	5.33	7.33	8.67
漏检率	2.00	3.33	5.33	6.00
正确率	93.33	91.34	87.34	85.33
注：加粗字体为每行最优值。

从表 4的实验结果可知，当抓取区域为弱反光且零件之间为轻度遮挡时，识别的正确率最高为93.33%。即使抓取区域处在强反光且重度遮挡的情况下，识别的准确率也达到了85.33%。由此得出，本文算法能够有效地识别不同程度遮挡的零件，并且能够减少反光对识别带来的影响。

3 结论

针对机器人自动拾取研究中金属零件由于反光以及密集堆叠等导致检测准确率不足的问题，提出了一种基于Mask R-CNN和多特征融合的支持向量机识别算法。该方法通过多特征融合的SVM分类器对Mask R-CNN的识别结果进行二次精分，完成干扰区域的剔除，通过掩码的计算完成抓取区域的精确识别。本文算法有以下优点：1)传统机器学习的目标识别多采用滑动窗口框架, 对目标区域位置的识别较为笼统。而本文通过掩码的计算对目标区域的外形进行了精确的识别，并且具有较高的识别准确率。2)通过构建多特征融合的SVM分类器弥补了单一网络框架的局限性，有效地降低了错检率。3)在图像训练集的构建中充分考虑了光照以及零件之间遮挡带来的影响，对光照以及遮挡情况做了有效的划分与实验，因此在实际的应用中具有一定的鲁棒性。

在后续的研究中，以下方面有待改进：1)目前仅研究单一对象，后续可以添加不同的金属来完成目标的识别。2)本文对侧放零件的识别不够理想，图像训练集中缺乏相应的摆放情形，后续可以进一步完善图像训练集和网络参数。

参考文献

Chen L C, Papandreou G, Kokkinos I, Murphy K. 2016. Deeplab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(4): 834-848 [DOI:10.1109/TPAMI.2017.2699184]

Chen L C, Papandreou G, Kokkinos I and MurphyK. 2014. Semantic image segmentation with deep convolutional nets and fully connected CRFs[EB/OL].2014-12-22 [2019-04-01].https://arxiv.org/pdf/1412.7062.pdf

Chen L C, Papandreou G, Schroff F and Adam H. 2017. Rethinking atrous convolution for semantic image segmentation[EB/OL]. 2017-06-17 [2019-04-01]. https://arxiv.org/pdf/1706.05587.pdf

Cortes C, Vapnik V. 1995. Support-vector networks. Machine Learning, 20(3): 273-297 [DOI:10.1007/BF00994018]

Dalal N and Triggs B. 2005. Histograms of oriented gradients for human detection//Proceedings of 2005 IEEE Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA: IEEE, 886-893 [DOI: 10.1109/CVPR.2005.177]

Freund Y and Schapire R E. 1996. Experiments with a new boosting algorithm//Proceedings of the 13th International Conference on International Conference on Machine Learning. Bari, Italy: ACM, 148-156

Girshick R, Donahue J and Darrell T. 2014. Rich feature hierarchies for accurate object detection and semantic segmentation//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE, 580-587 [DOI: 10.1109/CVPR.2014.81]

Girshick R. 2015. Fast R-CNN//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 1440-1448 [DOI: 10.1109/ICCV.2015.169]

He K M, Gkioxari G and Dollar P. 2017. Mask R-CNN//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2980-2988 [DOI: 10.1109/ICCV.2017.322]

He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 770-778 [DOI: 10.1109/CVPR.2016.90]

Lafferty J, Mccallum A, Pereira F C N. 2001. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. Proceedings of Icml, 3(2): 282-289 [DOI:10.1109/ICIP.2012.6466940]

Lin T Y, Dollr P, Girshick R and He K. 2017. Feature pyramid networks for object detection//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 936-944 [DOI: 10.1109/CVPR.2017.106]

Liu W, Anguelov D, Erhan D and Szegedy C. 2016. SSD: Single shot multibox detector//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 21-37 [DOI: 10.1007/978-3-319-46448-0_2]

Long J, Shelhamer E, Darrell T. 2014. Fully convolutional networks for semantic segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(4): 640-651 [DOI:10.1109/TPAMI.2016.2572683]

Ojala T, Pietikinen M, Harwood D. 1996. A comparative study of texture measures with classification based on featured distributions. Pattern Recognition, 29(1): 51-59 [DOI:10.1016/0031-3203(95)00067-4]

Ojala T, Pietikainen M, Maenpaa T. 2002. Multiresolution grayscale and rotation invariant texture classification with local binary patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(7): 971-987 [DOI:10.1109/tpami.2002.1017623]

Papageorgiou C P, Oren M and Poggio T. 1998. A general framework for object detection//Proceedings of the 6th International Conference on Computer Vision. Bombay, India: IEEE, 555-562 [DOI: 10.1109/ICCV.1998.710772]

Redmon J, Divvala S, Girshick R and Farhadi A. 2016. You only look once: unified, real-time object detection//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 779-788 [DOI: 10.1109/CVPR.2016.91]

Ren S Q, He K M, Girshick R, Sun J. 2017. Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(6): 1137-1149 [DOI:10.1109/TPAMI.2016.2577031]

Simonyan K and Zisserman A. 2014. Very deep convolutional networks for large-scale image recognition[EB/OL]. 2014-09-04[2019-04-01].https://arxiv.org/pdf/1409.1556.pdf

Sun X Q, Zou L Y. 2018. Application of image recognition based on SVM in part sorting system. Journal of Mechanical & Electrical Engineering, 35(12): 1353-1356 (孙小权, 邹丽英. 2018. 基于SVM的图像识别在零件分拣系统中的应用. 机电工程, 35(12): 1353-1356) [DOI:10.3969/j.issn.1001-4551.2018.12.019]

Visin F, Kastner K, Cho K and Matteucci M. 2015. ReNet: a recurrent neural network based alternative to convolutional networks[EB/OL] [2019-04-01]. https://arxiv.org/pdf/1505.00393.pdf

Visin F, Romero A, Cho K and Matteucci M. 2016. ReSeg: a recurrent neural network-based model for semantic segmentation//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Las Vegas, NV, USA: IEEE, 426-433 [DOI: 10.1109/CVPRW.2016.60]

Wang L, Zhou Q H, Wang L, Jiang H S, Lin S Y. 2019. Improved convolutional neural network algorithm for real-time recognition and location of mechanical parts. Intelligent Computer and Applications, 9(1): 36-41, 46 (王乐, 周庆华, 王磊, 蒋华胜, 林恩宇. 2019. 改进卷积神经网络算法在机械零件实时识别与定位中的应用. 智能计算机与应用, 9(1): 36-41, 46)

Yuan A F, Cao J N, Yu L. 2015. A SURF-based component recognition algorithm. Computer Applications and Software, 32(1): 186-189 (袁安富, 曹金燕, 余莉. 2015. 一种基于SURF特征的零件识别算法. 计算机应用与软件, 32(1): 186-189) [DOI:10.3969/j.issn.1000-386x.2015.01.047]

Zhang X F, Liu J, Shi Z S, Wu Z H, Wang Z. 2019. A review of semantic segmentation based on deep learning. Laser & Optoelectronics Progress, 56(15): 150003 (张祥甫, 刘健, 石章松, 吴中红, 王智. 2019. 基于深度学习的语义分割问题研究综述. 激光与光电子学进展, 56(15): 150003) [DOI:10.3788/lop56.150003]