网刊加载中。。。

0引言智能制造是基于新一代信息通信技术与先进制造技术深度融合，贯穿于设计、生产、管理、服务等制造活动的各个环节，具有自感知、自学习、自决策、自执行、自适应等功能的新型生产方式。一般来讲，计算机视觉是指通过图像采集设备采集静态图像或视频图像后，使用计算机代替人工对目标进行识别、分割、定位和检测等工作，得到更适合分析的数据和信息，甚至直接得到分析结果和决策结果。工业检测作为智能制造的一大重要分支，对计算机视觉技术的需求很大，视觉系统取代人工检测是智能制造发展进程中的必然趋势(房超，2007；段峰等，2002；章炜，2006；张萍和朱政红，2007)。因此，计算机视觉在智能制造领域大多应用于工业检测。本文将着重分析智能制造工业检测领域的计算机视觉应用3大瓶颈问题及其解决方法:1) 由于工业检测环境复杂，光照条件无法得到很好控制，因此会影响到相机采集的图像质量，给后续的计算机视觉算法处理带来困难。目前国内外主要通过算法预处理消除或减弱光照带来的影响，另外也有通过改进视觉图像采集方法来解决这一问题的相关研究。2) 实际工业检测领域中获取大量且均匀的样本数据是十分困难的，加之工业追求利益，不易进行样本采集，因此代价比其他领域也要大得多。针对以上情况，利用算法处理样本数据是目前的研究热点。其中涉及两个方面，一是如何从小样本数据获得良好的训练效果；二是如何使样本数据分布更加平衡。3) 经验丰富的专业人员在进行产品检测的过程中可以做到又快又准，而计算机仅凭样本训练难以达到专业水平。如何将人类已有的先验知识加入到计算机的学习过程中以达到甚至超越专业水平的检测效果是目前的研究热点。目前，基于先验知识的计算机视觉方法，优势在于不仅可以降低对于大规模标注数据的依赖，同时还能保证学习过程的准确性和有效性。最为流行的研究方向是通过机器学习或者强化学习的方法将先验知识引入，从而增强模型的检测效果。1智能制造中的计算机视觉发展现状及需求1.1智能制造中的计算机视觉发展现状计算机视觉的发展主要经历了4个阶段，第1阶段称为计算视觉(Marr，1982)，第2阶段是主动和目的视觉(Aloimonos，1993)，第3阶段是分层3维重建理论(Hartley和Zisserman，2000)，第4阶段是基于学习的视觉，如图 1所示。图1 计算机视觉发展的4个阶段 Four stages of computer vision developmentFig 1综合诸多对于计算机视觉技术的定义，它的本质是研究视觉感知问题，是通过计算机代替人眼完成“看”并“理解”的功能。计算机视觉的检测技术若成功应用于智能制造检测领域，理论上检测准确率可以接近100 %，检测速度能达毫秒级，可检测复杂内容并给出详细检测结果。由于基于图像的物体表达的提出(Poggio和Bizzi，2004)和机器学习(Tenenbaum等，2011)，尤其是深度学习(Krizhevsky等，2012)的发展，基于学习的视觉成为计算机视觉的研究热点。基于学习的计算机视觉方法通过训练大量的样本数据，得到一个带有特征参数的模型，通过特征参数进行分类预测完成任务，效果显著。这种“黑箱式”的端到端算法将传统计算机视觉的复杂多样方法简化并提高了准确率。这也是基于学习的计算机视觉算法风靡一时的根本原因。应用数据对比证明，在很多方面，基于学习的计算机视觉算法确实优于传统的计算机视觉技术。例如同样针对高分辨率遥感影像的变化检测，基于深度学习的方法在各项指标上都优于传统方法，如表 1所示。表1 高分辨率遥感影像变化检测方法效果对比方法正检率错检率漏检率变化向量分析法(Shen等，2015) 69.86 30.14 18.72 主成分分析法(闫小辉等，2018) 72.88 27.12 16.70 基于深度学习的方法(张鑫龙等，2017) 83.64 25.36 8.50 Comparison of change detection methods for high resolution remote sensing images /%Table 1 加粗字体为每列最优值。具体到智能制造业的应用，工业检测是计算机视觉应用的主要方向。由于生产中不可避免会产生缺陷和误差，导致部件或者产品出现残次品。因此，在流水线后端需要检测环节。目前大多采用人工检测方法或是自动化程度不高的机器方法，这导致原本效率提高的流水线因为检测环节再次缓慢下来。因此计算机视觉检测技术在智能制造工业检测领域的应用至关重要。目前各类相关研究非常广泛(席斌等，2006)，大到汽车制造业中的汽车车身视觉检测(马玉真等，2004)，小到轴承表面缺陷检测(郑越，2017)。表 2给出了基于图像的轴承故障诊断的计算机视觉方法。表2 轴承故障诊断的计算机视觉方法对比方法平均故障识别率/% 特点基于加权FCM(fuzzy C-means)算法(隋文涛，2011) 97.50 故障识别率无法提高，但鲁棒性高。基于学习的深度信念网络分类识别算法(李巍华等，2016) 97.58 40%可以达到99.0%识别率，易出现效果极差的情况。 Comparison of computer visual methods for fault diagnosis of bearingTable 21.2智能制造对计算机视觉技术的发展需求智能制造业中涉及大量检测环节，如缺陷检测(汤勃等，2017；Karan和Dholay，2016)、形变检测(王翔等，2014；Lin等，2011)、纹理检测(白瑞林等，2014；Song等，1995)、尺寸检测(黄正福，2005；He等，2010)等。传统的检测方法包括红外测量(王迅等，2004；沙正金，1995；关荣华等，2001；张建涛，2008)、物理衡量等手段，这些方法在一定程度上规避了视觉方法。这样的检测方法误差大，完全达不到工业级别的检测准确率；功能单一，只能针对简单环节进行检测；只能做“是、否”判定，无法完成多分类任务和细节信息反馈。目前工业检测大多采用人工检测方法，虽然能完成很精细的检测工作，但是耗时耗力，投入成本高。因此，智能制造工业检测领域亟需计算机视觉技术的应用。计算机视觉技术作为检测领域目前最有效的方法之一，必然会在工业检测的应用中掀起一场革命性的制造模式大转变。它能再一次解放劳动力，大幅度提高制造业的生产效率，降低生产成本，减少生产环节，促使生产线全自动化的形成。但目前计算机视觉在智能制造工业检测领域的实际应用存在诸多瓶颈问题尚未解决，其中3个关键的瓶颈问题值得研究讨论。1) 实际智能制造业环境复杂、光源简单，容易造成光照不均匀，难以解决图像质量受光照影响大的问题(Wei和Lai，2006；杨欢，2009；张建军等，2011)。在检测领域的实际应用中，由于工业场地环境变化的不确定性，会使计算机视觉的图像采集环节受到影响(Lai，2000；安秋等，2009；Eisert和Girod，2002；刘南艳等，2016；周胜等，2017；王茵，2007；Paulsen和McClure，1986)，这与其他计算机视觉应用场景的图像不同，如ImageNet(Deng等，2009)、MS COCO(Lin等，2014)这类数据集，通常用于分类任务，本身所需的就是各种不同类别的图像数据，几乎不用考虑环境一致性问题。但在工业检测中，检测的通常都是流水线上一致性很高的产品，需要检测的缺陷通常也是相对微小的，因此对图像的要求较高。除了保证相机的各参数一致以外，还需要控制环境因素的影响，这是工业检测中特有的控制因素之一。由于环境变化随机性大，使得控制光照成为智能制造检测领域的计算机视觉关键瓶颈问题。2) 实际智能制造业中获取万级以上的平衡样本数据代价较大，难以解决样本数据不是以支持基于深度学习的计算机视觉检测任务的问题(任浩等，2017；He和Garcia，2009；Hu和Zhang，2013)。在所有学习方法中，样本数据是最重要的因素之一(Goldberg，1989)。尤其是深度学习，往往需要非常大量的样本才能达到比较优异的检测效果。在一定数量级(欠学习)之内，样本和检测效果甚至成正比关系(Sun等，2017)。而在智能制造业，样本数据的采集却是一大问题。因为企业追求利益，无法像做研究一样顺利进行样本数据采集，甚至有些产品的总产量都达不到深度学习所需的样本数据规模。3) 智能制造业中，计算机判定难以达到专业判定的水准，如何在算法中加入先验知识以提高演化算法的效果是一大难题(宣冬梅等，2015；杜春侠等，2005)。如何有效利用先验知识，降低深度学习对大规模标注数据的依赖，成为目前业内的主攻方向之一(Heckerman等，1995)。由于先验知识的形式多变，如何与深度学习有效结合是一大难点(宋超，2017；杨阳和张文生，2015)。具体到工业检测领域，问题更加严峻，在需要解决上述问题的同时，还需要考虑如下难点：如何将比普通先验知识更复杂的工业检测专业知识转化为知识图谱等形式融入算法(Khan，2018)；如何建立工业检测先验知识的规范化、标准化和统一化；如何通过已有产品的先验知识推测知识库未收录的其他类似产品的先验知识。工业检测中的这些独有难题令先验知识的应用难上加难，如何加入先验知识这个瓶颈问题也变得至关重要。2智能制造中计算机视觉应用易受光照影响的问题2.1受光照影响大的问题概述智能制造工业检测领域中用于检测的图像需要尽量保持同类物体的图像特征相似，但在采集过程中，图像难免会受到环境因素的影响，尤其是光照不均匀问题(王茵，2007)。光照不均匀会导致图像轮廓的亮度、灰度等有不同的表现，不利于同类物体图像的特征分析。反之，控制好光照可以大大增强同类图像特征的一致性(Paulsen和McClure，1986)及不同类图像的差异性。此处通过某轴承缺陷检测实验举例说明。假定在同一光照下，轴承的某缺陷A的灰度值为a，正常区域的灰度值为b。然而，光照的不均匀性使得轴承的正常区域出现了强弱区域，假定强光区域的灰度值为c，弱光区域的灰度值为d。经某次实验测定，轴承的缺陷A与正常区域的灰度差值最小约为32个灰度值。当光照的不均匀性使得轴承正常区域的强弱光照灰度差别达到甚至超过32个灰度值，即|c-d| ≥|a-b| =32，则会导致无法区分缺陷区域特征和光照不均匀区域。具有这种光照不均匀特征的图像用于模板匹配，即使是正常轴承也会被判为有缺陷，导致准确率下降。若使用深度学习方法分类，种类相同但光照不均匀程度达到32个灰度值的图像的特征与有缺陷的图像的特征灰度差异相似甚至比后者更为明显，这会导致训练阶段不断迭代的是光照不均匀的特征而非缺陷特征，预测阶段则无法正确地进行分类。工业检测不同于其他检测领域，不同工业产品的检测通常也在不一样的环境中进行。一般来说，工业产品的生产过程在开放式的车间或者仓库环境中进行，自然采光差、光来源复杂、光照设备不专业是普遍存在的问题，加之智能制造领域对于检测的正确率和速率有着更为严苛的要求，光照控制作为提升识别率的重要途径需要更好的技术加持。对于大型智能制造工业现场，开放式的复杂工作环境容易造成拍摄图像的过程中光照强度的大范围变化。相比之下，小型工业现场的自然光照等其他干扰较小，但小型产品的检测精细度更高，对于光照稳定性的要求也随之提高，控制光照的难度反而更高(Wang和Wu，2011；Du和Cheng，2014)。实验室稳定光照条件下获得的样本数据集训练出的模型并不能在工业现场取得很好的检测效果。不仅光照条件的苛刻性使得智能制造中的计算机视觉应用难度增加，而且智能制造领域对准确率的要求也更为严苛。因此，如何控制光照均匀性是目前一大瓶颈问题。2.2受光照影响大的解决方法目前智能制造工业检测领域计算机视觉中的光照问题研究大多从算法上入手。如基于Retinex的X光非均匀钢丝绳芯输送带图像校正和增强算法提出了一种基于机器视觉的非均匀光照输送带图像校正和故障检测算法(张凌宁，2016)。光照不均匀图像计算式可以表达为 1 $I\left(x \right) = G\left(x \right){I_l}\left(x \right) + N\left(x \right)$ 式中，$\mathit{\boldsymbol{I}}$为光照不均匀图像，${\mathit{\boldsymbol{I}}_l}$为真实图像即排除光照不均匀干扰的图像，$\mathit{\boldsymbol{G}}$为光照不均匀程度，$\mathit{\boldsymbol{N}}$为噪声。此算法建立了非均匀光照背景估计模型，即 2 ${G^*}\left(x \right) = \sum\limits_{k = 1}^m {{c_k}{d_k}\left(x \right)} $ 式中，${c_k}$是基函数的线性组合系数，${d_k}\left(x \right)$是全体基函数。由此可得到校正后的图像为 3 $I_l^*\left(x \right) = I\left(x \right)/{G^*}\left(x \right)$ 原文中这种基于机器视觉的方法结合了Retinex理论，通过拉伸图像对比度的方法增强对比度，去除原始图像中不均匀光照的影响。这种方法可以从原始图像入手，对原始图像采用较为直接的图像处理方法，因其几乎不改变图像用于检测的信息，故可以用于智能制造工业检测应用中的光照控制环节，但此方法无法对差异太大的明暗区域进行区别处理，背景模型的精确度还需提高。基于Phong模型的背景模拟法(王欢欢，2016)，通过建立光照物理反射几何模型，给出背景光照模拟方案，表达式为 4 $I\left({x, y} \right) = {I_l}{K_d}\cos \theta \left({x, y} \right) + {I_l}{K_s}{\cos ^n}\varphi \left({x, y} \right)$ 式中，$\mathit{\boldsymbol{I}}$是背景光强，${\mathit{\boldsymbol{I}}_l}$是光照强度，${K_d}$是漫反射系数，${K_s}$是镜面反射系数，$\theta $是光源入射角，$\varphi $是相机与反射角夹角。对模拟背景利用背景减除法即得到去光照的钢坯图像。此方法通过去光照减小了光照对图像的影响，对图像分割效果明显，原文中通过钢坯缺陷检测的应用验证了算法的可用性和效果。此方法不同于平衡光照，采取了消除光照的方法，同时通过实例证明了该方法在工业检测领域可以有效降低光照对图像分割的影响，具有推广应用价值。基于统计特性的光照归一化方法(张海东，2006)充分考虑了图像的光照局部性，通过对图像局部的均值和方差进行调节，引入线性插值方法，将对数变换与本文方法结合调整图像的光照，可以很好地进行光照的归一化。工业检测的光照特性变化随机，而此法可根据图像的特性动态调整，具有可用性。智能制造工业检测领域中需要相机拍摄图像以进一步通过计算机视觉技术完成处理分析，因此在图像采集环节对光照加以控制是另一种常用方法。它的特点是可以避免复杂的算法实现，但会增加硬件成本和复杂度。在针对某物体的图像采集过程中，相机、镜头的配置会直接影响成像的效果，通过调试可确定最优的相机、镜头配置。同时，外加光源可以有效地减弱环境光对图像采集的干扰，保证一系列图像的稳定性，也能调整得到适合工业检测的特定光照。视觉获取的最优情形以及以光源和相机为主体的光照协调技术(骆广娟，2009)把相机和光源作为一个整体加以协调，利用交替法优化配置最优光照和相机位置，使得在当前环境下的图像具有较高的平均亮度和对比度。此方法能提高样本图像数据的质量，使光照的会聚指数上升约0.15 %，但也使得采集图像的复杂度上升。数字摄像机参数自适应调整算法(王红睿等，2009)用以提高机器视觉系统对光照变化的鲁棒性，它能根据外界环境的光照条件，在线调整数字摄像机的参数和设置，以采集像素灰度在预设值范围内的图像，有效减弱了光照变化对图像灰度的影响。此方法可以使在3种不同强度光照下的图像灰度均值方差从2 345.9降低到0.81。缺点在于实时调整对相机和调整算法的要求都很高，很难保证长时间精准实现，易丢失实时性。3智能制造中计算机视觉应用的样本数据难以支持深度学习的问题3.1样本数据难以支持深度学习的问题概述智能制造工业检测中，除传统的模板匹配方法，目前更主流的是基于深度学习的方法。因工业检测的高准确率需求，有监督的深度学习能满足要求。有监督的深度学习的一大特点是需要已知类别标签的训练图像数据集，这个训练集理论上包含的数据量越大，检测的效果越好。如经典的分类训练集ImageNet (Deng等，2009)包含了17万幅图像，1 000个类别，用其训练集训练出的模型效果普遍较好。在谷歌自建的JFT-300M数据集(Sun等，2017)预训练之后的测试表现中，无论是在MS COCO(图 2(a))还是PASCAL VOC 2007数据集(图 2(b))上的检测效果都反映了预训练样本越大，训练效果越好的特点。图2 预训练样本数与物体检测效果关系图(Sun等，2017) Relationship between the number of samples and the mean AP(Sun et al., 2017)Fig 2 ((a) MS COCO; (b) PASCAL VOC 2007) 但结合工业检测的实际场景，难以采集这么大的样本数据量。另外，制造行业中缺陷品的数量远远少于合格品，随机获取的训练集样本将存在样本分布不平衡的问题。即使在大样本数据二分类问题中，样本分布也应该尽量做到每类占比50 %。在智能制造领域，获取样本图像数据的方法有两种，一种是在流水线作业时在线采集(石焕等，2015)，另一种是样本摆拍的离线采集。在流水线作业时在线采集的优势在于不影响工业生产即可完成样本图像数据的采集，图像数据来自于工业现场，并且可采集最大等同于生产数量的样本图像数据集。但问题在于样本类别按合格率分布，缺陷品的样本图像将远远小于合格品，样本分布不平衡。其次工业现场的拍摄环境无法保证，容易造成样本图像的质量不一，影响训练效果。相对地，样本摆拍的离线采集模式的优点是可控的样本分布，人工控制各类别的样本数量分布一致；可控的实验室拍摄环境，可以保证得到高质量的样本图像。缺点也很明显，收集样本需花费大量时间，拍摄耗时耗力，训练模型不一定能适用于工业现场检测，短时间内无法得到大样本图像数据集。因此，样本数据由于量小、不平衡难以支持深度学习，成为目前的一大瓶颈问题。3.2样本数据难以支持深度学习的解决方法智能制造检测领域的样本数据存在难以获取大量有效样本数据的问题, 以及难以获取各类样本数量分布平衡的样本数据集的问题。难以获取大量有效样本数据的问题可以转化为针对小样本数据如何取得良好检测分类效果的问题，主要方法如表 3所示。表3 利用小样本数据检测分类的方法方法基本思想特点基于微调(fine tune)的方法基于一个已经被训练过的基础网络，根据现有的小样本数据对这个网络进行微调，使其在特定数据域上效果更好。需要利用原先大样本数据训练好的模型并结合特定小样本进行参数微调，速度较快，能提升此特定领域预测效果。基于度量(metric)的方法对样本间的距离分布进行建模，使同类样本聚合，异类分离。本质是基于小样本的分类器，通过距离或其他参数进行分类，学习快速，泛化能力强，收敛能力较弱。基于元学习(meta learning)的方法从之前的学习学会如何学习，对于新的任务不必从零开始，而是根据一定的元数据，自动学习如何解决新的任务。灵活性强，泛化能力强，利用少量样本即可解决新的学习任务，需要更大的时间成本训练出学习模型。基于图神经网络(graph neural network, GNN) (Garcia和Bruna，2018)的方法用图的形式构建了神经网络，把样本看做节点，通过节点彼此间的连接做到信息扩散，可以把有标签的样本信息扩散到与之最相似的需要预测的样本上。本质上是基于度量的方法，mini-ImageNet上5分类准确率大约在95%左右，小样本表现不稳定，应用有待深入。 Methods for detection classification using small sample dataTable 3以下逐一介绍表 3方法的原理。微调方法的代表有AIFT(active，incremental fine-tuning)方法(Zhou等，2017)。一个生成的未标注候选集为 5 $\mathit{\boldsymbol{U}} = \left\{ {{\mathit{\boldsymbol{C}}_1}, {\mathit{\boldsymbol{C}}_2}, \cdots, {\mathit{\boldsymbol{C}}_n}} \right\}$ 式中，$n$是候选数，每一个候选$\mathit{\boldsymbol{C}}$由$m$个标签组成 6 ${\mathit{\boldsymbol{C}}_i} = \left\{ {x_i^1, x_i^2, \cdots, x_i^m} \right\}$ AIFT通过迭代从候选标签选择一组进行标注。实验从一个未标注的约6 000幅左右的图像数据里找一些值得标注的样本建立预训练模型，然后持续加入新标注的数据进行模型微调，在实验中只用5 %的样本训练即可代表剩余95 %的样本，并用1 000个样本就达到了AlexNet(Krizhevsky等，2012)中2 200个样本微调的效果。基于度量方法的典型研究在表 4中进行了列举和分析。表4 基于度量的典型方法对比方法特点可用性和效果孪生网络(Koch等，2016) 双路网络组合成对样本同时输入网络进行训练，通过度量两个样本的距离计算损失，预测时取最相似的类别作为结果。在30 000幅训练图像迭代60次左右的情况下，达到90%的分类准确率。原型网络(Snell等，2017) 学习一个度量空间，通过计算与每个类别的原型均值的距离来进行分类。在5类分类问题中，准确率可以达到99.3%以上。匹配网络(Vinyals等，2016) 在不改变网络模型的前提下能对未知类别生成标签，通过映射形式找到概率最大的标签，在训练过程中设计了让网络适应每一类只具备少量样本的模式。使生成的标签准确率平均达到95.53%。 Comparison of typical methods based on measurementTable 4基于元学习(meta learning)的经典方法是无关模型形式的训练方法(Finn等，2017)。通过梯度下降法直接训练，即考虑参数$\theta $的函数${f_\theta }$表示的模型，当有新任务${\tau _i}$执行梯度下降后，模型参数变成了$\theta '$，继续梯度下降更新时 7 ${\theta '_i} = \theta - \alpha \;\;{\nabla _\theta }{L_{{\tau _i}}}f\left(\theta \right)$ 式中，$i$是常数，$\alpha $是一个常量，$L$是损失函数。所以最终的目标函数为 8 $\mathop {\min }\limits_\theta \sum\limits_{{L_i}{\sim}p\left(\tau \right)} {{L_{{\tau _i}}}\left({{f_{{{\theta '}_i}}}} \right)} {\rm{ = }}\sum\limits_{{L_i}{\sim}p\left(\tau \right)} {L\left({{f_{\theta - \alpha \;\;{\nabla _\theta }{L_{{\tau _i}}}f\left(\theta \right)}}} \right)} $ 式中，${L_i} \sim p\left(\tau \right)$表示损失函数${L_i}$在$p\left(\tau \right)$时的状态。这种方法不再学习模型的参数，而是学习一个最优特征以适应多任务场景，通过微调方法即可实现较好的效果。此方法可以达到平均98.32 %的准确率，比同类最佳方法高出0.42 %。此方法的缺点是需要有很长的迭代时间学习最优的学习能力，还需要学习超参数、网络结构、网络初始化、优化器和损失的定义等各类特征，学习过程复杂。基于图神经网络(Garcia和Bruna，2018)的方法本质上仍然是基于度量的方法。针对难以获取各类别样本数量分布平衡的样本数据集有如表 5的解决方法。表5 样本分布不平衡的解决方法方法基本思想特点数据增广方法对原图进行多种方法处理，形成稍有差异的图像数据，以补充数据过少或者数据单一的问题。常用方法：色彩抖动、主成分分析(principal components analysis, PCA)抖动、尺度变换、裁剪缩放、平移翻转、旋转仿射、高斯噪声。能扩张数据集的数量，但质量不如原始数据集，并可能产生实际不存在的样本图像，预测效果会下降。重采样方法对样本数量大的样本进行欠采样，即删除部分样本；对样本数量小的样本进行过采样，即添加样本的副本。在一定程度缓解了不同类样本数量差距悬殊的问题，但降低了数据集质量，增加了训练的误差，训练的效果不理想。 SMOTE(synthetic minority over-sampling technique)(Chawla等，2002) 本质上是过采样，构造新的小类样本，新样本不是原始样本的副本或增广，而是从小类样本中的两个或多个相似样本选择一个样本，从邻近的其他样本中选择一个属性添加到这个样本上形成。属性一般是某种特征，产生的样本质量比样本副本和增广质量高很多，但非常容易产生实际不存在的样本，不具有很强的应用性，无法保证属性之间的线性关系。 Solution to sample distribution imbalanceTable 5研究结果表明，目前样本数据难以支撑深度学习的问题主要包括样本数据量小和样本数据不均衡，对于这两个问题的方法已有如上所述的研究体系和方法。此类样本数据处理算法都是针对样本的数量而不是样本的内容，因此在智能制造的工业检测领域，使用上述方法调整样本数据是完全可行的。4智能制造中计算机视觉应用的先验知识难以加入演化算法的问题4.1先验知识难以加入演化算法的问题概述计算机视觉在智能制造中的应用本质上是一种基于数据的方法，但在工业检测领域难以获取大量均匀的样本数据，因此研究者们提出将先验知识加入计算机视觉算法中以期获得更好的检测效果。应用基于先验知识的方法，在训练阶段可以配合样本进行训练，提高模型参数的准确性，降低学习难度，利于训练过程的收敛，从而提高预测的准确度。在预测阶段，能通过先验知识对判定结果的校正，提高准确率，也能提升检测速度，避免偶然误差的产生。目前先验知识难以加入演化算法，更难以指导机器学习和深度学习等算法，并且也有很多需要解决的瓶颈问题。例如，如何将知识图谱这种主要知识表示形式用于指导深度神经网络；如何用自然语言指导强化学习中的智能体快速准确地理解学习；如何将迁移学习作为知识结合进强化学习；如何通过领域知识将强化学习方法应用到工业检测中等。4.2先验知识无法支持演化算法的解决方法针对如何将先验知识应用到学习中以及以何种形式应用的问题，目前有如下的研究和方法。一种是将样本的紧密度信息作为先验知识应用到支持向量机的构造中(李晨和王巍，2012)。通过对紧密度的置信度进行建模，即 9 ${v_i}{\rm{ = }}{\mu _d}\left({{x_i}} \right){\mu _k}\left({{{\bar x}_l}, \bar x} \right)$ 式中，${v_i}$为样本${{x_i}}$所在类的置信度，${\mu _d}\left({{x_i}} \right)$反映样本${{x_i}}$到所在类中心的距离，由简单分段函数确定，${\mu _k}\left({{{\bar x}_l}, \bar x} \right)$为样本${{x_i}}$与所在类中心的模糊连接度，反映样本${{x_i}}$与所在类其他样本的紧密度关系，由下式确定 10 ${\mu _k}\left({{{\bar x}_l}, \bar x} \right) = \max \left[ {\min \left({{\mu _k}\left({{c_1}, {c_2}} \right), {\mu _k}\left({{c_2}, {c_3}} \right), \cdots, {\mu _k}\left({{c_{m - 1}}, {c_m}} \right)} \right)} \right]$ 通过模糊连接度可以将支持向量与含噪声样本进行区分。此方法能够得到具有更好抗噪性能及分类能力的支持向量机，通过将样本的紧密度信息作为先验知识，不仅考虑到样本类间中心距离，还考虑了样本与类内其他样本的关系，通过模糊支持向量机加以区分。在工业检测领域，缺陷样本和正常样本本身差距就不大，若能将样本的紧密度信息加入训练，将有助于提升训练效果，能够更加准确地分离小缺陷、弱缺陷样本。宣冬梅等人(2015)给出了两种将先验知识与深度学习模型融合的方法。第1种实质上将深度学习得到的输出作为给定样本的条件概率，即加先验知识的随机深度学习分类器(random deep learning classifier with prior knowledge, RPK)。首先输入训练样本的先验知识矩阵(p1, p2, …, pn)，应用深度学习得到深度神经网络的输出(o1, o2, …, on)，计算(r1, r2, …, rn)=(p1* o1, p2* o2, …, pn* on)，最后输出最大的数ri的下标i。第2种加入一个参数用以调整先验知识的稀疏性，即加先验知识的确定型深度学习分类器(deterministic deep learning classifier with prior knowledge, DPK)。首先输入训练样本的先验知识矩阵(p1, p2, …, pn)和参数ε，如果|pi|ε，则当|pi|0时，应用深度学习方法得到深度神经网络的输出(o1, o2, …, on)，计算乘积(r1, r2, …, rn)=(p1* o1, p2* o2, …, pn* on)，最后输出最大的数ri的下标i。这两种方法得到的分类器都能更好地预测结果。但这两种方法在多分类任务的识别率上不够高，只能精确地进行二分类任务。两者都是在深度学习模型框架之内加入了以矩阵形式存在的先验知识，这些先验知识可以是任何可矩阵化形式的内容。在智能制造工业检测领域，诸如用于检测轴承缺陷的神经网络参数可作为用于检测圆形注塑件的先验知识矩阵。另外，基于知识的强化学习在先验知识应用中有着较大的优势(李晨溪等，2017)。此类方法在分析预测方向有较好的表现，因此在工业检测领域有巨大的发展前景。表 6给出了4种典型方法。表6 基于知识的强化学习方法方法特点典型实例专家指导将专家引入到强化学习的智能体学习回路中，为智能体提供强化信号，而后通过监督学习对该信号进行建模。 Knox和Stone(2009)提出的TAMER框架通过专家做的决策动作预测长远的收益，填补了智能体自主学习无法预测深层利益的弊端。回报函数指导将先验知识或过程经验用以指导设计回报函数的方法，使回报函数更加科学和有助于收敛，如何准确地指导设计是其中的关键(Mataric，1994)。 Randløv和Alstrøm(1998)教会系统学习骑自行车，证明了此方法的有效性；Ng等人(1999)利用回报势函数衡量回报函数偏差，以衡量指导设计是否有效，使得80%的搜索具有目的性，仅20%是随机的，在缺乏领域知识的情况下，仍然无法保证回报函数是否设计合理。搜索策略指导在搜索策略中引入知识以提高探索能力，根据领域知识对Simhash函数输入的特征进行筛选，对权重进行修改可提高学习能力(Tang等，2017)。 Bianchi等人(2008)提出了定量的启发式信息选择动作函数，使千量级的搜索过程降低到100步之内，但未给出函数权重值的取值依据和方法。模仿学习通过模仿一批人类专家的决策轨迹数据解决强化学习任务中多步决策搜索空间巨大的问题。 Guo等人(2014)提出了蒙特卡罗树搜索加神经网络的方法，进行模仿学习策略，此方法能通过分类或回归学习符合人类专家决策轨迹的策略模型，但却因为通过拖慢节奏比实时慢几个数量级而带来较大的时间开销。 Knowledge-based reinforcement learning methodTable 6上述研究结果表明，在先验知识和深度学习结合的过程中，形成了基于知识的强化学习理论，它的诞生也进一步验证了先验知识在演化算法中应用的有效性，这为通过先验知识提高智能制造工业检测效果提供了一个重要方向。5结语本综述对智能制造中计算机视觉应用的3个瓶颈问题：易受光照影响、样本数据难以支持深度学习、先验知识难以加入演化算法进行了总结和分析。从智能制造中的计算机视觉应用的现状和需求出发，分别归纳分析了3个瓶颈问题产生的原因以及目前已有的解决方法。着重对有代表性的解决方法展开了原理和优劣势分析，并简要地进行了智能制造领域应用的可行性分析。随着计算机视觉在智能制造领域的深入，它涉及的应用将更多更广，发挥的作用也越来越大。从理论到应用的这一过程中遇到了很多瓶颈问题，如何克服这些难点以及探索更实用的解决方案将是下一阶段需要着重开展的研究工作。目前针对3个瓶颈问题的研究方法众多，可从如下思路进一步研究：1) 针对计算机视觉应用易受光照影响的问题，可设计黑箱式封装的图像采集设备，排除外界光照干扰，安装在工业生产线上，从而达到实验室级别的检测环境，从根本上解决光照影响问题。2) 针对计算机视觉应用中样本数据难以支持深度学习的问题，可通过小样本和不平衡样本处理方法在不降低样本数据质量的同时增大样本数据量，并且结合传统方法如模板匹配和相似度检测来辅助增加检测准确率。3) 针对计算机视觉应用中先验知识难以加入演化算法的问题，除了从训练和预测阶段入手，在决策的判断上也可做基于先验知识的判定。如在合格率较高的零件检测中，一些不常见的错误判定可以根据先验知识修改为正确判定，从而提高准确率。