发布时间: 2016-11-25
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.20161109
2016 | Volumn 21 | Number 11

图像分析和识别

基于高斯模型的手部肤色建模与区域检测

杨世强, 弓逯琦

西安理工大学机械与精密仪器工程学院, 西安 710048

收稿日期: 2016-03-25; 修回日期: 2016-06-01

基金项目: 国家自然科学基金项目（51475365）；陕西省教育厅省级重点实验室科学研究计划基金项目（12JS071）；陕西省教育厅科学研究计划基金项目（2013JK1000）

第一作者简介: 杨世强(1973-), 男, 副教授, 2010年于西安理工大学获机械工程专业博士学位, 主要研究方向为智能机器人控制、行为识别和目标检测。E-mail:yangsq@126.com

中图法分类号: TP391.4

文献标识码: A

文章编号: 1006-8961(2016)11-1492-10

摘要

目的随着市场需求的多样化和多变性的加剧，对于生产装配的柔性和适应性提出了更高要求，人机合作装配为应对当前需求提供了有效方法。在人机交互协调的机械装配系统中，为有效实现机器人对操作人员手部装配动作的识别和理解，需对手部装配图像进行生物结构的特征检测。针对人机交互协调装配中的手部肤色图像识别问题，提出一种基于多色彩空间信息的识别算法。方法基于聚类思想，通过离线学习与期望最大化算法，在RGB色彩空间上对肤色信息建立多混合高斯模型，以此获得肤色信息的多混合聚类表示。再利用YCrCb色彩空间上的稀疏化高斯模型在线快速学习肤色分布，设计了基于多色彩空间信息的肤色识别器。结果图像照度对肤色区域的模型似然值有较大影响。在线稀疏化学习肤色识别实验结果显示，YCrCb 3通道上学习获得的似然值不存在严重冗余，所建模型与对应的学习框架有效，结合多色彩空间的识别信息确认了肤色区域。肤色区域初始化识别的完整性与在线学习算法的时间复杂度有关，识别过程中模型参数的更新量与场景光照均衡度有关，进而影响算法的空间复杂度。本文基于高斯模型的手部肤色建模与区域检测方法对于机械装配环境的手部肤色检测适应性良好，经与改进的YCrCb椭圆聚类模型对比，该方法具有更好的识别完整性。结论本文算法提高了模型对固定场景下光照畸变的适应度，从而改善了识别效果，但识别算法的收敛时间较长，实时性尚需进一步提高，可在进一步的研究中进行优化。

关键词

手部肤色检测; 高斯模型; 期望最大化算法; 在线稀疏学习; 多色彩空间识别

Hand skin color modeling and region detection based on Gaussian model

Yang Shiqiang, Gong Luqi

Faculty of Mechanical and Precision Instrument Engineering, Xi'an University of Technology, Xi'an 710048, China

Supported by: National Natural Science Foundation of China (51475365)

Abstract

Objective The continuous intensification of diversification and polytrope on market requirement has created demand for high flexibility and adaptability of production assembly. Human-computer interaction cooperation in mechanical assembly is an effective way to satisfy the market requirement. The organic texture character of hand skin image in mechanical assembly must be detected effectively. Such detection can in turn determine the capability of the robot to recognize and comprehend the action and behavior of the operator in human-computer interaction cooperation in mechanical assembly. Method A recognition algorithm is presented for hand skin recognition in image based on multi-color space information. The proposed algorithm is used in human-computer interaction coordination in mechanical assembly. A multi-component mixture model of skin color in the RGB color space is established for clustering by the off-line learning method of the Gaussian mixture model and expectation maximization algorithm. The hand skin information is expressed by mixture clustering. Furthermore, the law of skin color distribution in YCrCb color space is studied by on-line fast learning to sparse Gaussian model. The hand skin recognizer is designed based on muti-color space information. Result Image illuminance significantly influences the likelihood value of skin region model. The high threshold value is fitted for high image illuminance region, and low threshold value is fitted for low image illuminance region. Experimental results for hand skin recognition based on on-line sparse fast learning show that the redundance of likelihood in YCrCb three-color space channels is acceptable. The Gaussian mixture model and the corresponding learning method are valid. The defect of initial recognition can be revised by the YCrCb skin sparse Gaussian mixture model. Moreover, the on-line fast learning algorithm can enhance the adaptability of the skin model to the illumination distortion and improve the results of recognition in the fixed scene. The skin region is detected based on the results of different models in multi-color space. The time complexity of on-line learning algorithm is related to the integrity of initial skin region recognition, and the illumination equilibrium degree of scene is related to the parameter update quantity of recognition model. Both factors influence the space complexity of the recognition algorithm. Conclusion Hand skin color modeling and region detection based on Gaussian model has good adaptability and practicability in mechnical assembly experiment. Hand skin detection based on the proposed algorithm obtains better recognition integrity than that based on ellipse clustering in YCrCb space. The convergence time of the recognition must be short to meet the real-time constraint of recognition.

Key words

hand skin detection; Gaussian mixture model; expectation maximization algorithm; online sparse learning; recognition in muti-color space

0 引言

随着市场需求的多样化和多变性的加剧，对于生产装配的柔性和适应性提出了更高要求，人机合作装配为应对当前需求提供了有效方法^[1]。人机合作机器人是机器人直接与人被动合作，通过和操作者合作共同完成作业任务，机器人正确识别、预测、理解人的行为和意图是人机合作质量的前提^[2]，手部识别是行为理解的重要内容。

手部图像肤色识别的准确性常受到包括肤色信息复杂性、工作场景干扰、光照条件与手部动作复杂性等多种因素的影响，其中肤色信息复杂性是图像肤色识别中的关键性问题，有效的肤色模型对手部图像的肤色识别有重要意义。基于图像色彩信息的肤色模型建立与识别问题，受到包括人脸识别^[3-4]、手势识别^[5]、动作检测^[6-7]、人机交互(HCI)^[8]、符号语言识别^[9]与计算机辅助装配^[10]等研究领域的长期关注，在基于机器视觉的检测与控制系统中有也着广泛应用。

多位研究者分别考虑了不同色彩空间下肤色的分布特点与对应模型的建立方法。文献[3]在YCrCb色彩空间上重点对CrCb分量进行单高斯拟合，研究了该模型在人脸识别中的应用；文献[11]通过在YCrCb色彩空间的多个截面上建立查询表，对贝叶斯统计决策结合多表查询的肤色识别方法进行了研究，两文献主要对色彩分量进行建模。文献[12]通过对大量肤色像素的直方图统计，采用简化的混合高斯模型在RGB色彩空间上对肤色、非肤色信息分别进行16组分混合建模实现了肤色识别，该模型在多色彩通道上使用的不相关假设弱化了肤色分布的非线性特点，对光照畸变条件难以有效适应。

本文以人机交互协调装配为研究背景，以手部装配动作检测中肤色信息的有效建模为目标，使用聚类思想在RGB色彩空间上建立混合高斯模型，通过期望最大化算法实现对肤色非线性分布的学习，并在YCrCb色彩空间上在线完成肤色稀疏化高斯模型的学习，提高模型对一定工作场景下光照畸变的适应性并改善识别效果，最终实现基于多色彩空间信息的手部肤色识别。

1 期望最大化算法与肤色的混合高斯模型

基于极大似然估计思想(MLE)的期望最大化算法是针对多模概率分布模型例如混合高斯模型等进行无监督学习的有效方法。

1.1 混合模型期望最大化算法

作为一种依据观测量对未知目标或分布进行建模的非参数估计方法，K混合分布模型表示为随机形式，描述观测数据所带标记的离散变量Z服从多项式分布，即

$\left\{ \begin{align} & p\left( x \right)=\sum\limits_{i=1}^{K}{{{\phi }_{i}}{{p}_{i}}\left( x,\theta \right)},{{\phi }_{i}}>0,\sum\limits_{i}{{{\varphi }_{i}}=1} \\ & Z\sim Multinomial\left( {{\phi }_{1}},{{\phi }_{2}},{{\phi }_{3}},\cdots ,{{\phi }_{k}} \right) \\ & x|Z\sim {{p}_{i}}\left( x,{{\theta }_{z}} \right) \\ & \sum\limits_{i=1}^{K}{{{\phi }_{i}}=1} \\ \end{align} \right.$

(1)

式中，p($x$)为变量$x$属于目标类别的概率值，K个参数对应K个单高斯分布，Z为所从属多项式分布对应的单模组分标记，$\theta $为每个单高斯对应的分布参数，${\phi _i}$为对应权值。相对于单模分布，上述混合形式有更高的柔性。

利用最大似然估计，选择数据对模型的似然值作为模型参数估计时的目标函数。参数的最优解对应于似然函数的极值位置。K混合、n观测量的数据自然对数似然值l($\theta $)及其对分布族参数的导数为

$\begin{gathered} l\left( \theta \right) = \sum\limits_{i = 1}^n {\log p\left( {{x_i};\theta } \right)} = \hfill \\ \sum\limits_{i = 1}^n {\log \sum\limits_{i = 1}^K {{\phi _k}p\left( {{x_i};{\theta _k}} \right)} } \hfill \\ \end{gathered} $

(2)

$\left[ {{\Phi ^ * },{\Theta ^ * }} \right] = \mathop {\arg \;\;\max }\limits_{\left\{ {{\varphi _i}} \right\},\theta } l\left( {\phi ,\theta ,X} \right)$

(3)

$\begin{gathered} \frac{{\partial l\left( \theta \right)}}{{\partial {\theta _j}}} = \sum\limits_{i = 1}^n {\frac{{{\phi _j}}}{{\sum\limits_{k = 1}^K {{\phi _k}p\left( {{x_i};{\theta _k}} \right)} }}\frac{{\partial p\left( {{x_i};{\theta _k}} \right)}}{{\partial {\theta _j}}}} = \hfill \\ \sum\limits_{i = 1}^n {\frac{{{\phi _j}p\left( {{x_i},{\theta _j}} \right)}}{{\sum\limits_{k = 1}^K {{\phi _k}p\left( {{x_i};{\theta _k}} \right)} }}\frac{{\partial \log p\left( {{x_i};{\theta _k}} \right)}}{{\partial {\theta _j}}}} \hfill \\ \end{gathered} $

(4)

期望最大化方法分别对式(4)中的两项因子进行估计，交替对权值参数计算期望(E步)，对分布族参数进行估计(M步)。

E步：根据当前模型参数计算权值，记

$\omega _j^{\left( i \right)} = Q_i^{\left( t \right)}\left( {{z^{\left( i \right)}} = j} \right) = p\left( {{z^{\left( i \right)}} = j|{x^{\left( i \right)}},{\theta ^{\left( t \right)}}} \right)$

(5)

M步：根据当前的固定权值参数求解方程

$\frac{{\partial \left( {\sum\limits_i {\sum\limits_{{z^{\left( i \right)}}} {\omega _j^{\left( i \right)}\log \frac{{p\left( {{x^{\left( i \right)}},{z^{\left( i \right)}};{\theta ^{\left( t \right)}}} \right)}}{{Q_i^{\left( t \right)}\left( {{z^{\left( i \right)}}} \right)}}} } } \right)}}{{\partial {\theta ^{\left( t \right)}}}} = 0$

(6)

获得聚类参数$\theta $的更新值，并对多项式参数进行更新

${\phi _k} = \sum\limits_{i = 1}^N {l\left( {{z^{\left( i \right)}} = k} \right)/N} $

(7)

式中，1为类别标号指示函数。

依据每次E步与M步的更新结果，可以证明迭代上述过程可使式(2)的目标值单调上升，迭代过程可以获得稳定的优化过程。EM算法^[13-14]流程如下：

1) 模型初始化，K混合、Z标记、观测数据X、分布参数$\theta $；

2) (E步)计算后验权值期望

$ {\omega ^{\left( t \right)}} = \arg \;\;\max l\left( {X,{\theta ^{\left( t \right)}},{\omega ^{\left( {t - 1} \right)}}} \right) $

3) (M步)更新分布族参数$\theta $，即

$ {\omega ^{\left( {t + 1} \right)}} = \arg \;\;\max l\left( {X,{\theta ^{\left( {t + 1} \right)}},{\theta ^{\left( t \right)}}} \right) $

更新多项式分布参数$\phi $；

4) 循环步骤2)3)至监测收敛。

1.2 混合高斯模型的期望最大化学习算法

某多维未知分布的K混合高斯模型表示为

$ \left\{ \begin{array}{l} f\left( x \right) = \sum\limits_{i = 1}^K {{\phi _i}N\left( {x\left| {{\mu _i},{\mathit{\Sigma} _i}} \right.} \right)} \\ \sum\limits_{i = 1}^K {{\phi _i} = 1} \end{array} \right.$

(8)

式中，N为多维高斯分布，${{\mu }_{i}}$为多维均值向量，${{\mathit{\Sigma} }_{i}}$为对应协方差矩阵。模型学习的目标是依据训练数据X估计出式(8)中的所有参数。

在期望步(E步)中，计算后验期望

$\begin{gathered} \omega _j^{\left( i \right)} = {Q_i}\left( {{z^{\left( i \right)}} = j} \right) = \hfill \\ P\left( {{z^{\left( i \right)}} = j|{x^{\left( i \right)}};\varphi ,\mu ,\mathit{\phi} } \right) \hfill \\ \end{gathered} $

(9)

在最大化步(M步)中，固定以上得到的权值，训练数据的似然值表示为

$\begin{gathered} l\left( {\phi ,\mu ,\mathit{\Sigma} } \right) = \sum\limits_{i = 1}^n {\sum\limits_{{z^{\left( i \right)}} = 1}^K {\log p\left( {{x^{\left( i \right)}},{z^{\left( i \right)}};\phi ,\mu ,\mathit{\Sigma} } \right)} } \geqslant \hfill \\ \sum\limits_{i = 1}^n {\sum\limits_{j = 1}^K {\omega _j^{\left( i \right)}C\left( {i,j} \right)} } \hfill \\ \end{gathered} $

(10)

$\begin{align} & C\left( i,j \right)= \\ & \log \frac{\frac{1}{{{\left( 2\pi \right)}^{3/2}}{{\left| {{\Sigma }_{j}} \right|}^{1/2}}}\exp \left( -\frac{1}{2}{{\left( {{x}^{\left( i \right)}}-{{\mu }_{j}} \right)}^{\text{T}}}\Sigma _{j}^{-1}\left( {{x}^{\left( i \right)}}-{{\mu }_{j}} \right) \right)\phi _{j}^{\left( i \right)}}{\omega _{j}^{\left( i \right)}} \\ \end{align}$

(11)

固定${\phi _j}$, ${{\mathit{\Sigma} }_{j}}$，似然值对${{\mu }_{j}}$求偏导

$\begin{gathered} \nabla {\mu _q}\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^K {\omega _j^{\left( i \right)}C\left( {i,j} \right)} } = \hfill \\ - \nabla {\mu _q}\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^K {\omega _j^{\left( i \right)}\frac{1}{2}{{\left( {{x^{\left( i \right)}} - {\mu _j}} \right)}^{\text{T}}}} } \mathit{\Sigma} _j^{ - 1}\left( {{x^{\left( i \right)}} - {\mu _j}} \right) = \hfill \\ \sum\limits_{i = 1}^n {\omega _q^{\left( i \right)}\left( {\mathit{\Sigma} _q^{ - 1}{x^{\left( i \right)}} - \mathit{\Sigma} _q^{ - 1}{\mu _q}} \right)} \hfill \\ \end{gathered} $

(12)

据此可以获得均值参数更新

${\mu _q} = \left( {\sum\limits_{i = 1}^n {\omega _q^{\left( i \right)}{x^{\left( i \right)}}} } \right)/\sum\limits_{i = 1}^n {\omega _q^{\left( i \right)}} $

(13)

同理通过对数似然函数对协方差偏导的零点可以获得对应的协方差更新

$\begin{gathered} {\mathit{\Sigma} _j} = \left( {1/\sum\limits_{i = 1}^n {\phi _j^{\left( i \right)}} } \right) \times \hfill \\ \sum\limits_{i = 1}^n {\phi _j^{\left( i \right)}\left( {{x_i} - {\mu _i}} \right){{\left( {{x_i} - {\mu _i}} \right)}^{\text{T}}}} \hfill \\ \end{gathered} $

(14)

至此实现混合高斯模型参数的更新。

1.3 肤色与非肤色混合高斯模型的离线训练与结果分析

利用取自固定实验场景的训练图像，分别对肤色混合高斯模型、非肤色混合高斯模型进行训练。模型训练的初始化采用文献[12]中RGB非相关性模型的训练结果，为了进一步精确学习肤色模型，在RGB 3通道相关性假设下对K=16混合高斯模型进行训练，可以更有效地描述三通道之间的关联性。

通过训练数据对模型的对数似然值进行收敛检测，收敛条件是数据对数似然值增量小于0.01。使用肤色正样本(总计3 793 742像素)对肤色模型进行训练、非肤色负样本(总计4 421 880像素)对非肤色模型进行训练，收敛监测结果如图 1所示，训练在40步之后趋于收敛。

图 1 高斯混合模型EM算法对数似然曲线

Fig. 1 Log-likehood curve of Gaussian mixture model EM learning ((a) convergence cuvre of skin color model training; (b) convergence cuvre of non skin color model training)

肤色模型与非肤色模型在训练50步收敛时在RGB色彩空间两个截面上的概率密度分布状况如图 2、图 3所示。随着迭代趋于收敛，概率密度的分布从开始时具有一定聚集分布的特点，到多个标记类别之间的分布趋于均衡，说明模型参数与训练数据间的一致性有了较大的提升。分别在初始化与迭代学习50次后的模型下，相同工作场景中测试图像在模型对应的几种恰当阈值的受试者工作特征曲线(ROC)如图 4所示。从图 4可以看出，学习所得模型与初始化所用分布对应的恰当分割阈值在数量级上有明显差异，说明聚类特征被逐步增强。假正类较低时，50步迭代学习后相比初始化模型结果的真正类概率值有明显升高，说明收敛后的模型结果对测试图像在硬阈值分割下的识别能力有显著上升。

图 2 肤色高斯混合模型EM算法学习结果边缘分布

Fig. 2 Marginal distribution of result from skin Gaussian mixture model EM learrning ((a) disribution on section 1; (b) disribution on section 2)

图 3 非肤色高斯混合模型EM算法学习结果边缘分布

Fig. 3 Marginal distribution of result from non-skin Gaussian mixture model EM learrning ((a) disribution on section 1; (b)disribution on section 2)

图 4 肤色高斯混合模型学习结果测试图片ROC曲线

Fig. 4 ROC curve from the learned skin Gaussian mixture model on one test image ((a) ROC of the initial model; (b) ROC of the learned model)

2 基于稀疏化高斯模型的在线快速学习

在RGB色彩空间上肤色混合高斯模型学习耗时较多，且受训练样本数量、色彩畸变与场景光照因素的影响，难以获得相对较完整识别结果，在此采用稀疏化模型的在线学习方法，实现固定场景下肤色稀疏模型的快速训练，改善识别效果。

2.1 YCrCb色彩空间上稀疏化肤色模型及其表示

考虑到肤色在YCrCb色彩空间上的分布具有类似聚类的特征，且3通道信息之间的相关性较低，因此可以考虑建立稀疏化模型并假设Y、Cb与Cr 3通道之间相互独立。每个通道上，在像素值间建立条件概率模型，表示该通道上c₀值是肤色成分时c₁值也是肤色成分的条件概率, 即

$p\left( {{c}_{1}}|{{c}_{0}} \right)=\frac{1}{{{\left( 2\text{ }\!\!\pi\!\!\text{ } \right)}^{1/2}}\sigma }\exp \left[ -\frac{{{\left( {{c}_{1}}-{{c}_{0}} \right)}^{2}}}{2{{\sigma }^{2}}} \right]$

(15)

独立性假设下像素级的条件概率模型即可写为

$p\left( {{c}_{1}}|{{c}_{0}} \right)=\prod\limits_{i=1}^{3}{\frac{1}{{{\left( 2\text{ }\!\!\pi\!\!\text{ } \right)}^{1/2}}{{\sigma }_{i}}}\exp \left[ -\frac{{{\left( {{c}_{1}}-{{c}_{0i}} \right)}^{2}}}{2\sigma _{01i}^{2}} \right]}$

(16)

式中，c表示对应的YCrCb 3通道值。

由式(15)可以看出，在YCrCb色彩空间上大致肤色像素范围[16, 235]×[16, 240]×[16, 240]内学习以上模型所需的计算量相当庞大。为了减小模型对应的计算量，需对色彩空间进行稀疏化表示，将Y通道表示为55个离散区间，将Cr、Cb两通道同时分别表示为25个离散区间。未知像素属于肤色空间S_c的条件概率表示依赖信息形式

$\begin{gathered} p\left( {{c_1} \in {S_c}} \right) \propto \hfill \\ \prod\limits_{Index\left( {{c_0}} \right) \ne Index\left( {{c_1}} \right)} {p\left( {Index\left( {{c_1}} \right)|Index\left( {{c_0}} \right)} \right)} = \hfill \\ \prod\limits_{Index\left( {{c_0}} \right) \ne Index\left( {{c_1}} \right)} {\left( {\prod\limits_{i = 1}^3 {\frac{1}{{{{\left( {2\text{ }\!\!\pi\!\!\text{ }} \right)}^{1/2}}{\sigma _i}}}\exp \left[ { - \frac{{{{\left( {{c_{Index\left( {{c_1}} \right)i}} - {c_{Index\left( {{c_0}} \right)i}}} \right)}^2}}}{{2{\sigma _{\left( {Index\left( {{c_1}} \right),Index\left( {{c_0}} \right)} \right)}}_i^2}}} \right]} } \right)} \hfill \\ \end{gathered} $

(17)

根据式(17)，像素区间的关联概率信息中最重要的是每个像素区间与其邻域区间之间的概率信息，而非邻域区间之间的信息相对较弱，因而可以适度忽略用以近似，因此将计算学习的重点放在邻域周围。

2.2 考虑邻域信息的近似稀疏模型迭代学习策略

考虑邻域信息关联的重要性，在55×25×25离散化的YCrCb色彩空间上，近似稀疏模型对应的离散信息表示为

$\left\{ {\left\langle {{\mu _c},{\sigma _c}} \right\rangle \left| \begin{gathered} {\mu _c} = {\left[ {{\mu _{c1}},{\mu _{c2}},{\mu _{c3}}} \right]^{\text{T}}} \hfill \\ {\sigma _c} = {\text{diag}}\left[ {{\sigma _{c1}},{\sigma _{c2}},{\sigma _{c3}}} \right] \hfill \\ c \in 55 \times 25 \times 25 \hfill \\ \end{gathered} \right.} \right\}$

(18)

式(17)中模型的在线学习目标是获得对式(18)适应具体图像的最佳估计。

在线稀疏化学习过程共分为初始化阶段、学习阶段与推理阶段3个部分，如图 5所示。在学习步，考虑以肤色区域内部像素位置为中心的3×3模板边缘上的像素，亦为被确认的肤色像素。通过利用边缘像素的色彩信息对中心像素所在区间的模型进行参数更新，获得对当前肤色信息的学习，即完成对式(18)中参数的一次更新。而在推理步，考虑中心像素(待定肤色位置)到所在离散区间对应模型的距离，作为判定肤色的依据，同时将确认标签作为下一次参数更新的条件。在线稀疏化的学习算法步骤如下：

图 5 在线稀疏化高斯模型的学习推理原理

Fig. 5 On-line leanrning and inference on sparse Gaussian model ((a) learning process; (b) inference process)

1) 初始化阶段。该阶段的任务是完成必要的图像img初始分割并初始化训练模型。求取测试图像对训练获所得RGB混合高斯模型的似然值llhvalue，使用两个预设阈值thresh对图像区域进行分割。似然值大于预设高阈值的区域认定为肤色区域，似然值处于两个预设阈值之间的区域认定为待确认肤色的区域，即

$\left\{ \begin{align} & \text{肤色区域}=img\left( llhvalue\ge thresh1 \right) \\ & 待确认区域=img\left( thresh2\le llhvalue < thresh1 \right) \\ \end{align} \right.$

(19)

依据经验值初始化所有上述离散区间对应的位置参数与精度参数，均值初始化为各区间段中值位置，方差初始化为diag(20, 4.5, 4.5)。为减小预设经验值对学习结果的影响，每一个离散区间对应的经验数据量n_c取为0。

2) 学习阶段。通过上一步确认得到的肤色区域色彩信息对已初始化的高斯模型进行一步更新，实现稀疏化模型的参数更新。利用肤色区域内各像素的近邻像素信息更新该像素所属离散区间对应的模型参数。

学习过程在肤色区域剔除边缘的内部进行，遍历所有肤色区域内部像素，实时利用各区间对应的样本统计矩量更新模型的均值参数、精度参数。为了简化遍历过程中的参数更新，利用修正的样本方差近似更新模型的2阶中心矩^[15]即

$\left\{ \begin{align} & {{\sigma }^{t2}}\approx {{{\bar{S}}}^{t2}}=\frac{1}{{{n}^{t}}}\left( \sum\limits_{i=1}^{{{n}^{t}}}{X_{i}^{2}} \right)-{{\mu }^{t2}} \\ & {{\sigma }^{t+1\ 2}}\approx {{{\bar{S}}}^{t+1\ 2}}=\frac{1}{{{n}^{t+1}}}\left( \sum\limits_{i=1}^{{{n}^{t+1}}}{X_{i}^{2}} \right)-{{\mu }^{t+1\ 2}}= \\ & \frac{1}{{{n}^{t+1}}}\left( \sum\limits_{i=1}^{{{n}^{t}}}{X_{i}^{2}}+\sum\limits_{j=1}^{\Delta {{n}^{t+1}}}{X_{j}^{2}} \right){{|}_{\left( {{n}^{t}}+\Delta {{n}^{t+1}}={{n}^{t+1}} \right)}}-{{\mu }^{t+1\ 2}}\approx \\ & \frac{1}{{{n}^{t+1}}}\left( {{n}^{t}}\left( {{\sigma }^{t2}}+{{\mu }^{t2}} \right)+\sum\limits_{j=1}^{\Delta {{n}^{t+1}}}{X_{j}^{2}} \right)-{{\mu }^{t+1\ 2}} \\ \end{align} \right.$

(20)

据此迭代过程的递推更新策略取为

$\left\{ \begin{align} & n_{c}^{t+1}=n_{c}^{t}+\Delta n_{c}^{t+1} \\ & \mu _{c}^{t+1}=\left[ n_{c}^{t}\mu _{c}^{t}+\sum\limits_{i=1}^{\Delta n_{c}^{t+1}}{{{x}_{i}}} \right]/\mu _{c}^{t+1} \\ & \sigma _{c}^{t+1\ 2}=\left[ n_{c}^{t}\left( \sigma _{c}^{t2}+\mu _{c}^{t2} \right)+\sum\limits_{i=1}^{\Delta n_{c}^{t+1}}{x_{i}^{2}} \right]/n_{c}^{t+1}-\mu _{c}^{t+1\ 2} \\ \end{align} \right.$

(21)

式中，Δn_c^(t+1)表示当前所遍历到的图像像素位置处3×3邻域范围内属于肤色区域的像素数量，${{x}_{i}}$为邻域像素3通道色彩信息值。通过在肤色内部区域进行遍历，完成模型参数的一步迭代，如图 5所示。

3) 推理阶段。通过上一步学习获得的模型，结合一定的阈值判定条件对待定肤色区域进行估计确认。当待定像素的色彩信息在该像素对应区间所学习到的概率分布上概率密度值大于某经验阈值时，判定待定像素属于肤色范围。考虑到对YCrCb 3通道的独立关系假设，肤色信息待确认区域的像素值，在对应离散区间的概率值为

$\begin{align} & {{p}^{\left( t+1 \right)}}\left( x\in {{S}_{c}}|x\in \left[ {{Y}_{c}};C{{r}_{c}};C{{b}_{c}} \right] \right)= \\ & \prod\limits_{i=1}^{3}{\frac{1}{{{\left( 2\text{ }\!\!\pi\!\!\text{ } \right)}^{1/2}}\sigma _{i}^{\left( t+1 \right)}}\exp \left[ -\frac{{{\left( x-\mu _{i}^{\left( t++1 \right)} \right)}^{2}}}{2\sigma _{i}^{\left( t+1 \right)2}} \right]} \\ \end{align}$

(22)

为了减小计算量提高实时性，采用距离形式判定肤色，即

$\left\{ \begin{gathered} s\left( {{x_i},{C_i}} \right) = \left\| {{x_i} - {\mu _{Ci}}} \right\|/\left( {2{\sigma _{Ci}}} \right) \hfill \\ \left\{ {x \in {S_c}\left| \begin{gathered} x \in C = \left[ {{Y_c};C{r_c};C{b_c}} \right] \hfill \\ d\left( {{x_i},{C_i}} \right) \leqslant 1 \hfill \\ \end{gathered} \right.} \right\} \hfill \\ \end{gathered} \right.$

(23)

4) 学习停止条件。当使用每一步更新得到的新信息形式对待定区域进行确认时，不增加新的被确认像素时即可判定学习过程已趋于稳定，各参数获得收敛值。

2.3 肤色在线稀疏化学习识别实验结果与分析

实验环境为人机协调装配实验场景，光照条件为一般光照，成像系统采用维视图像122万像素工业相机成像系统。考虑装配动作中的两个典型动作与成像场景的不同复杂度，在3幅典型图像上分别在线测试。

在线测试的初始化采用混合高斯模型计算似然值，将经验似然值0.45与1.9分别作为确认肤色与待确认肤色两个阈值，即似然值大于1.9的图像区域认定为肤色区域，似然值小于1.9同时大于0.45的图像区域认定为待确认区域。通过3×3模板对肤色区域进行腐蚀处理获得初始确认区域，经过50步迭代至收敛。

图 6为对不同场景复杂度、不同典型装配姿态的在线肤色稀疏化学习与检测测试，可以总体判断出在线稀疏化的学习算法对“操作人—工作台—工件”语境中不同部分的适应性。从图 6(b)的概率密度图可以看出，依据学习获得的RGB混合高斯模型虽然可以将手部区域总体对应为高似然值，但对不同语义复杂度环境的适应性仍有一定的差异。进一步在图 6(c)中，初始化的图像在照度不足的部分区域未能获得完整的分割。图 6(d)中待确认区域范围内仍包含有大量肤色区域。根据图 6(e)，通过在线学习有效弥补了图 6(c)中确认区域的不足，对图 6(d)中未成功确认的肤色区域进行了修补。在3幅测试图像中同时获得了相对完整的分割。同时，根据图 6(g)(h)(i)所示，3通道上似然值的相对关系不存在过多重复，说明YCrCb 3通道上学习获得的结果信息不存在严重冗余，所建模型与对应的学习框架是有效的。对比图 6(b)中测试图像在不同照度区域内的初始化结果可见，固定阈值条件下，低照度区域初始化的缺陷较多, 初始模型对图像的适应度较低，初始确认区域范围较小，光照不足的图像区域对应的模型似然值较低；光照充分时，手部肤色区域对应的模型初始似然值较高。实验计算中，初始化越完整，在线稀疏化学习过程的计算量越小。

图 6 在线肤色稀疏化学习与检测

Fig. 6 Online skin sparse learning and detection ((a) testing images; (b)distance map under initial model; (c)confirmationof skin region under initial model; (d)uncertain skin region under initial model; (e)confirmatioin of skin region after learning; (f)threshold distribution after learning; (g)likehood value on Y-channel after learning; (h)likehood value on Cr-channelafter learning; (i)likehood value on Cb-channel after learning

3 基于多色彩空间信息的肤色识别器

结合前述RGB色彩空间简单混合高斯模型、RGB色彩空间相关性混合高斯模型与YCrCb色彩空间稀疏化高斯模型的优点与适用方法，给出了基于多色彩空间、多模型学习的肤色识别器如图 7所示。

图 7 基于多色彩空间信息的肤色识别流程图

Fig. 7 Process of skin detection based on multi color space information

利用YCrCb色彩空间上的经验椭圆硬阈值分割，实现手部位置的基础检测，其中经验模板为定义在CrCb色彩平面上以(133, 155.6)为中心，(23.4，15.2)为两个半轴长，轴偏角为43.0°的椭圆，CrCb色彩信息分量值落在上述椭圆内部时，设定为1，否则为0，并以硬阈值1作为肤色确认值。由于该模型在照度不足情形下识别效果非常有限，因此使用经RGB混合高斯模型固定阈值初始化的在线稀疏高斯模型学习，结合式(23)的距离形式对受光照畸变影响的肤色区域进行进一步学习判断。通过经验硬阈值识别，RGB混合高斯的固定阈值识别与在线稀疏化学习共同确认手部的肤色像素，如图 8所示为基于多色彩空间信息的手部肤色识别结果。其中图 8(a)中3幅测试图像大小分别为202×262像素、493×437像素、534×334像素，混合高斯模型初始识别的阈值上下限分别取为0.45与1.9。

图 8 基于多色彩空间信息的肤色识别实验结果

Fig. 8 Skin detection results besed on multi color space information((a)testing images; (b)preliminary identification based on hard threshold; (c)final identification under the MOG on RGB and online learning of sparse Gaussian model)

根据检测实例，初始硬阈值的分割结果在部分检测位置存在较多缺陷，如图 8(b)中标记所示。缺陷的主体位置在手部轮廓边缘、手指关节折弯位置、指尖位置等光照不充分或是受遮挡影响较多的区域，主要原因在于高照度肤色区域对应的的混合高斯模型似然值较高，容易在固定阈值下被指接确认；低照度肤色区域对应模型似然值较低，在初始化过程中更易被判定为待确认区域。图 8(c)为结合RGB混合高斯模型与在线稀疏化学习的识别结果，对比图 8(b)(c)可以看出，肤色识别器实质上主要通过以下两种主要方式对手部区域识别的效果进行了改进：对断裂区进行桥接和对光照不充分位置进行有效填充。结合图 5与线稀疏化的学习算法可以分析出，填充主要由稀疏化模型的学习阶段完成，桥接主要由稀疏化模型中的推理阶段完成。根据图 8(c)所示，利用在线学习与上述肤色识别器，使肤色模型对光照畸变有更强的适应性，使检测效果同光照充分情况下获得的完整肤色分割结果接近，起到了良好的效果。

为进一步检验算法的有效性, 与文献[16]所述改进的肤色椭圆聚类模型计算结果比较，图 9所示。对比手部不同姿态下两种算法的识别结果可看出，本文识别算法在不同照度下均具有较完整的肤色识别结果，具有更好的光线适应性。

图 9 肤色识别对比实验结果

Fig. 9 Skin detection comparative results ((a) original image; (b) result of reference[16]; (c) ours result)

综合以上实验结果可以看出，肤色区域初始化识别越充分，越完整，在线学习算法中的像素预测位置越少，识别算法收敛越快，时间复杂度越低。光照均匀场景下，肤色区域照度均衡，肤色像素信息在色彩空间中分布集中，在线学习过程中模型参数更新量小，算法空间复杂度低；照度均衡度较差场景下，肤色色彩信息分布分散，肤色识别算法中参数更新量较大，算法空间复杂度高，收敛较慢。

4 结论

针对人机交互协调的机械装配系统中手部肤色图像识别问题，重点考虑了装配环境复杂性、光照条件的影响，利用肤色色彩信息在多个不同色彩空间中的分布特征，结合不同色彩空间下肤色模型的训练与学习，实现了手部图像肤色区域的完整分割。

应用期望最大化算法结合肤色像素训练库进行肤色RGB混合高斯模型的离线训练，采用固定阈值实现了肤色识别的初始化。实验结果表明，为实现较完整的初始分割，高照度肤色区域对应的模型似然值较大，宜选用较大阈值；低照度区域宜选用小阈值。针对肤色的待确认区域，利用在线快速邻域学习与推理，对测试图像的YCrCb色彩空间进行肤色稀疏化高斯模型的迭代更新，可实现对初始识别结果的修复与补充。

综合多色彩空间中的肤色模型信息给出了肤色识别算法，测试结果表明，其能够实现手部肤色区域较完整的识别。肤色区域初始化识别的完整性与在线学习算法的时间复杂度有关，识别过程中模型参数的更新量与场景光照均衡度有关，进而影响算法的空间复杂度。

针对固定阈值初始化条件下待学习区域范围较大导致识别算法收敛时间较长、实时性有限的问题，可在进一步的研究中进行优化。

参考文献

[1] Wallhof F, Blume J, Bannat A, et al. A skill-based approach towards hybrid assembly[J]. Advanced Engineering Informatics , 2010, 24 (3) : 329–339. DOI:10.1016/j.aei.2010.05.013

[2] Moeslund T B, Hilton A, Krüger V. A survey of advances in vision-based human motion capture and analysis[J]. Computer Vision and Image Understanding , 2006, 104 (2-3) : 90–126. DOI:10.1016/j.cviu.2006.08.002

[3] Liu C S, Chang F L, Chen Z X, et al. Improved Gaussian skin color model and its application in face detection[J]. Chinese Journal of Scientific Instrument , 2012, 33 (5) : 1117–1121. [ 刘春生, 常发亮, 陈振学, 等. 改进的高斯肤色模型及其在人脸检测中的应用[J]. 仪器仪表学报 , 2012, 33 (5) : 1117–1121. DOI:10.3969/j.issn.0254-3087.2012.05.023 ]

[4] Cui C H, Zhu M C. Real-time human face detection and tracking based on HSV model space of skin color[J]. Journal of Fuzhou University: Natural Science , 2006, 34 (6) : 826–830. [ 崔昌华, 朱敏琛. 基于肤色HSV颜色模型下的人脸实时检测与跟踪[J]. 福州大学学报:自然科学版 , 2006, 34 (6) : 826–830. DOI:10.3969/j.issn.1000-2243.2006.06.012 ]

[5] Erol A, Bebis G, Nicolescu M, et al. Vision-based hand pose estimation: a review[J]. Computer Vision and Image Understanding , 2007, 108 (1-2) : 52–73. DOI:10.1016/j.cviu.2006.10.012

[6] Jyothilakshmi P, Rekha K R, Nataraj K R. Human hand recognition system based on the moving object detection, color of the skin and face recognition system[J]. International Journal of Advanced Research in Electrical, Electronics and Instrumentation Engineering , 2014, 3 (1) : 6981–6990.

[7] Francke H, Ruiz-del-Solar J, Verschae R. Real-time hand gesture detection and recognition using boosted classifiers and active learning[C]//The Second Pacific Rim Symposium on Advances in Image and Video Technology. Berlin Heidelberg: Springer-Verlag, 2007: 533-547.[DOI: 10.1007/978-3-540-77129-6_47]

[8] Rautaray S S, Agrawal A. Vision based hand gesture recognition for human computer interaction: a survey[J]. Artifical Intelligence Review , 2015, 43 (1) : 1–54. DOI:10.1007/s10462-012-9356-9

[9] Jalilian B, Chalechale A. Face and hand shape segmentation using statistical skin detection for sign language recognition[J]. Computer Science and Information Technology , 2013, 1 (3) : 196–201. DOI:10.13189/csit.2013.010305

[10] Wang R, Paris S, Popovi Ać J. 6D hands: markerless hand-tracking for computer aided design[C]//Proceedings of the 24th Annual ACM Symposium on User Interface Software and Technology. New York, USA: ACM, 2011: 549-558.[DOI: 10.1145/2047196.2047269]

[11] Lyu D H, Wang B. A skin detection method based on bayes decision in YCbCr color space[J]. Journal of Image and Graphics , 2006, 11 (1) : 47–52. [ 吕东辉, 王滨. YCbCr空间中一种基于贝叶斯判决的肤色检测方法[J]. 中国图象图形学报 , 2006, 11 (1) : 47–52. DOI:10.11834/jig.20060108 ]

[12] Jones M J, Rehg J M. Statistical color models with application to skin detection[J]. International Journal of Computer Vision , 2002, 46 (1) : 81–96. DOI:10.1023/A:1013200319198

[13] Bilmes J A. A gentle tutorial of the EM algorithm and its application to parameter estimation for Gaussian mixture and hidden Markov models, 97-021[R]. Berkeley, CA: International Computer Science Institute, 1998.

[14] Dellaert F. The expectation maximization algorithm, GIT-GVU-02-20[R]. Atlanta: Georgia Institute of Technology, 2002.

[15] Yu Y. Advanced Engineering Mathematics[M]. 4th ed. Wuhan: Huazhong University of Science & Technology Press, 2012 : 327-328. [ 于寅. 高等工程数学[M]. 4版. 武汉: 华中科技大学出版社, 2012: 327-328.]

[16] Tang H K, Feng Z Q. Hand's skin detection based on ellipse clustering[C]//2008 International Symposium on Computer Science and Computational Technology. Shanghai: IEEE, 2008, 2: 758-761.[DOI: 10.1109/ISCSCT.2008.53]