Print

发布时间: 2019-02-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180447
2019 | Volume 24 | Number 2




    图像分析和识别    




  <<上一篇 




  下一篇>> 





结合曲面局部纹理特征的3维人脸识别
expand article info 雷超, 张海燕, 詹曙
合肥工业大学计算机与信息学院, 合肥 230601

摘要

目的 人脸2维图像反映出来的纹理并非是3维人脸曲面真实的纹理,并且受光照和妆容的影响很大,因此探索3维局部纹理特征对于人脸识别任务有着重要的意义。为此详细分析了一种新颖的3维局部纹理特征mesh-LBP对于人脸纹理的描述能力。方法 首先,在特征提取和识别任务之前,进行一系列的预处理:人脸分割、离群点移除和孔洞填补;接着,在预处理后的人脸曲面上,提取原始mesh-LBP特征,以及基于阈值化策略的3种改进特征:mesh-tLBP、mesh-MBP和mesh-LTP;然后,对于上述提取的4种特征,采用不同的统计方法,包括整体直方图、局部分块直方图和整体编码图像,用做人脸纹理的特征描述。最后,针对CASIA3D数据集中不同表情和姿态变化的人脸,采用余弦相似度进行人脸的识别任务。结果 通过对比人脸曲面和普通物体曲面的纹理特征,发现人脸纹理完全不同于普通纹理,不规则并且难以描述;通过对比mesh-LBP两种变体,发现mesh-LBP($α_1$)适用于姿态变化,而mesh-LBP($α_2$)适用于表情变化;通过对比原始mesh-LBP及其3种改进,发现mesh-tLBP对于人脸不同表情变化下的识别准确率最高有0.5%的提升;通过对比3种不同的统计方法,发现采用整体编码图像进行统计的特征尽管弱于局部分块直方图,但相比整体直方图,识别率在不同表情变化下最高有46.8%的提升。结论 mesh-LBP特征是一种优良的3维局部纹理特征,未来将会在3维医学处理、3维地形起伏检测以及3维人脸识别中得到更多的应用。

关键词

3维纹理; mesh-LBP; 阈值化策略; 统计方法; 3维人脸识别

Local texture features on the mesh for 3D face recognition
expand article info Lei Chao, Zhang Haiyan, Zhan Shu
College of Computer and Information, HeFei University of Technology, HeFei 230601, China
Supported by: National Natural Science Foundation of China (61371156)

Abstract

Objective The texture reflected by 2D facial image is different for a 3D face surface, and this 2D texture is considerably affected by the variations of illumination and make-up. These issues make the investigation on 3D local texture features important for face recognition tasks. The concept of 3D texture is completely different from 2D texture, which reflects the repeatable patterns of a 3D facial surface. Aside from the geometric information, 3D texture preserves the photometric information of the same individual due to the flexibility of 3D mesh. Therefore, two original 3D textures, namely, 3D geometric texture and 3D photometric texture, should be investigated. Method In this study, we investigate a novel framework called mesh-LBP in representing 3D facial texture in detail. Here, we mainly focus on the improvement and statistic of this operator rather than the comparisons on final face recognition rate with state-of-the-art methods. First, a set of general preprocessing operations, including face detection, outlier removal, and hole filling, are performed before feature extraction and classification because raw 3D facial data contain spikes and holes and a large background area. Specifically, a facial surface is initially cropped by using a common scheme, that is, the point sets of a raw face model located on a sphere that are constructed by nose tip and fixed radius, are extracted as the detected facial area. Then, we define the outlier of raw data as the point whose number of neighborhood points are lower than that of a threshold. A mean filter is used to smooth the facial surface when these outliers are detected. The outlier removal operation usually results in holes in 3D facial data. Thus, we adopt bicubic interpolation to solve this problem. Second, the construction procedure of original mesh-LBP operator and three improved operators based on thresholding scheme, which we called mesh-tLBP, mesh-MBP, and mesh-LTP, are developed. For the mesh-tLBP, a small threshold is added to the calculation process of the mesh-LBP. For the mesh-MBP, the value of a center facet on the mesh is replaced by the mean value of its neighborhood. For the mesh-LTP, an additional coding unit is added for the subtle capture of code changes of the mesh-LBP. The first two improvements are designed for the robustness of the mesh-LBP to noise or face changes, whereas the last one improves the power of the mesh-LBP in capturing facial details. Third, different statistical methods, including naïve holistic histogram, spatially enhanced histogram, and holistic coded image, are employed to form the final facial representation. For the naïve holistic histogram, we do not use any processing method and directly perform frequency statistics on the calculated LBP pattern. For the spatially enhanced histogram, we initially block a 3D facial surface, perform frequency statistics for each block, and concatenate them to form the entire description of the face. For the holistic coded image, we directly use the calculated LBP pattern. However, the number of patterns from different faces is different; thus, we initially normalize them to the same size. Finally, we employ 615 neutral scans under different illumination condition from CASIA3D face database as the training set and evaluate the recognition performance on 615 scans of expression variation and 1 230 scans of pose on the basis of a simple minimum distance classifier. Result Comparison of the texture features of facial surface and common object surface show that the facial texture is completely different from ordinary texture and is irregular and difficult to describe. In addition, the texture variations of 3D faces are smaller than that of 2D faces, and this finding shows the superiority of 3D data. Experiments on the two variants of mesh-LBP show that the mesh-LBP($α_1$) is more robust to pose variations, whereas the mesh-LBP( $α_2$) is more robust to express variations. Experiments on the two variants of mesh-LBP and its three improvements indicate that only mesh-tLBP causes a 0.5% improvement of recognition accuracy on different facial expression variations in the best case. Results of the mesh-LTP are basically the same as those of the mesh-LBP, whereas the results of the mesh-MBP are worse than those of the mesh-LBP. These improvements do not enhance the representation of 3D facial textures, and pre-processing and parameter selection schemes should be conducted to obtain improved results. Comparison of the results of the three statistical methods show that features based on the spatially enhanced histogram obtain the best recognition in two experimental scenarios. The description power of features based on holistic coded image is weaker than that of the spatially enhanced histogram; however, its recognition rate is increased by 46.8% compared with the features based on the naive holistic histogram on different expression variations in the best case. In addition, the results of features based on the holistic coded image on pose variations are the worst among all the statistical methods, which is mainly due to the limitation of the image. Conclusion In comparison with other 3D local feature descriptors, the mesh-LBP is an elegant and efficient framework that allows the direct extraction of 3D local textures from a mesh manifold. The calculated patterns of mesh-LBP can use different statistical methods for the 3D texture analysis of different types of object. For example, the simple mesh-hLBPH is suitable for ordinary 3D objects, whereas the mesh-eLBPH is applicable for 3D face analysis. The mesh-LBP can be used extensively in 3D medical imaging, 3D terrain relief inspection, and 3D face recognition in the near future. Several aspects will be investigated in our next work. First, the fusion of 3D geometry and 3D photometric appearance based on the mesh-LBP framework will be evaluated to improve recognition. Second, the size of the mesh-LBP($α_2$) will be optimized, and its discrimination power will be increased. Third, other schemes of 2D LBP, such as neighborhood topology and sampling to mesh-LBP for different applications of 3D texture, will be extended. Finally, the integration of the mesh-LBP with a robust matching algorithm will be investigated.

Key words

three dimensional texture; mesh-LBP; threshold scheme; statistical method; three dimensional face recognition

0 引言

纹理是一种重要的视觉线索,反映了人类对于物体表面信息的视觉感知。一般来说,纹理可以看做是物体表面反复出现的一种局部模式,它同时包含着物体的局部信息和全局信息,在检索和分类任务中有着重要的应用。相比于普通纹理,人脸纹理更加不规则和难以描述,从人脸2维图像上提取的2维纹理描述的是面部的光学变化信息,容易受到光照和妆容的影响,并且无法完全反映出人脸3维表面的全部信息。因此,直接探索人脸3维模型上的纹理信息,对于人脸的分析与识别任务有着重要的意义。

3维纹理是一种新颖的概念,不同于光学纹理,它反映的是3维物体表面不断重复的一种局部几何模式。然而,目前大多数对于3维人脸的研究方法并未严格定义该概念,而只是在人脸的特定局部区域提取各自定义的局部特征,最后进行匹配。其中最常见的一类方法是基于关键点的方法。Elaiwat等人[1]提出了一种基于曲波变换的多模态算法用于检测关键点和提取特征,由于关键点是在不同的频带和方向上计算得来,最终得到的局部特征对人脸有较高的鉴别能力。Li等人[2]利用曲率信息去定义关键点,并统计每个关键点周围曲面的梯度、形状指数及其梯度的直方图,最后进行加权处理作为该关键点的特征描述。最近, Lei等人[3]统计关键点周围的多个空间三角区域的角度和距离信息,尤其适用于因遮挡导致人脸部位缺失的情况下的人脸识别任务。这类方法尽管取得了不错的效果,但是过多的关键点导致特征的维度太大,计算代价非常大。另一类常见的方法是利用人脸表面的曲线信息,近年来越来越多的工作相继被提出。Yu等人[4]将人脸曲面视为一系列取自笔尖点处的径向曲线集合, 使用动态规划去衡量两个人脸之间的相似度。最近他们还对人脸曲面的谷线和脊线进行了研究,发现仅仅采用人脸网格模型顶点的子集包含区分人脸的足够信息,据此提出了3维稀疏方向顶点的概念[5]。Emambakhsh等人[6]利用鼻子区域附近的关键点对产生平面,利用平面之间的相交线来定义局部特征。Li等人[7]使用了人脸面部多条曲线,包括凸脊线、中心轮廓曲线和水平轮廓曲线,最后获得的特征对于表情变化更加鲁棒。这类方法相比于基于关键点的方法,更加适用于表情变化人脸识别任务,但是需要人脸对齐和笔尖点的准确定位,否则曲线提取在不准确的区域,会大大影响最终的识别效果。

与以上局部特征不同,LBP(local binary patterns)是公认有效的用于描述局部纹理信息的算子,有非常多的工作致力于将LBP扩展到人脸的3维数据格式上来,获得3D LBP,据此对3维纹理进行分析。其中最多且最直观的一类方法是将3维数据的深度或者法线信息映射到2维平面中来,在这种特殊的图像上提取LBP。Huang等人[8]发现人脸的深度变化较灰度值或RGB值更加缓慢,在LBP的基础上额外增加3个二值编码单元去记录具体的深度数值变化,对于不同个体同一人脸区域有相同深度变化的情况更加适应。Soltanpour等人[9]利用深度人脸表面的法线信息提取局部法线梯度模式(LNDP),由于法线信息属于高阶信息,相比于深度可以更加详细地反映出人脸的局部细节。这类方法尽管对于3维人脸做出了一些适应,但本质上还是在图像上提取LBP, 因此不适用于遮挡和封闭曲面,而且由于有需要转换为图像的过程,不直接并且存在信息损失。只有少量的工作直接在人脸3维数据上提取LBP,例如Fehr等人[10]尝试在人脸的体素数据上提取3D LBP, 但该工作最大的缺点是为了获得旋转不变性,涉及频率域的球面相关性概念(spherical correlation),计算量很大。而Tang等人[11]则在网格数据上进行了尝试,首先需要对网格进行一系列复杂的预处理,包括基本的处理(去除毛刺、填补孔洞、去噪和人脸切割)和额外的处理(姿态校正、网格重采样),为的是定义网格顶点之间的邻域拓扑关系;接着利用网格顶点之间的深度和法线信息的差异进行LBP编码。同时,为了使特征对于表情变化更加鲁棒,该工作采用了一种特殊的基于特征的人脸分块策略,需要手动标记人脸的48个关键点。该算子丢失了原始LBP的计算简洁性和易匹配性,并且不支持多尺度扩展。最近,Werghi等人[12]提出了mesh-LBP的概念。相比于文献[8-9], 该算子直接在人脸的3维数据(三角网格)上提取LBP, 并且可同时提取网格数据上的几何纹理和光学纹理;相比于文献[10], 该算子只需要简单的距离运算即可获得旋转不变性;相比于文献[11], 该算子无需复杂的预处理,如配准和归一化等。

除此之外,mesh-LBP适用于各类曲面(开曲面、闭曲面、自遮挡曲面),支持多尺度和绝大多数2维LBP的扩展。

鉴于mesh-LBP的种种优势,本文将其作为研究对象,基于阈值化策略提出了3种改进算子,即mesh-tLBP、mesh-MBP和mesh-LTP,同时采用不同的统计方法,即整体直方图、局部分块直方图和整体编码图像[13],详细地探索了这一新颖的3维局部纹理特征对于曲面纹理的描述能力。最后,对于每种LBP算子,均采用上述3种统计方法,来形成一幅人脸的特征描述,针对CASIA3D数据集中表情变化和姿态变化的3维人脸,进行了人脸识别的实验,并总结了各自的适用范围和可能存在的研究方向。

1 人脸预处理

原始3维人脸数据不仅包括离群点和孔洞,并且存在很多不必要的部分,如头发、耳朵和脖子,因此,采取以下的步骤对数据集里的每幅3维人脸图像进行处理:

1) 人脸分割, 由于3维数据维度较大,为了减轻接下来的计算负担,首先对人脸部分进行分割。采用的策略为,以笔尖点为球心,按照某个预设的半径做球,原始人脸数据落在球内的区域即为切割得到的人脸区域。

2) 离群点移除, 如果原始人脸数据中存在某个点邻域的顶点个数小于某个预设的阈值,本文定义该点为离群点。当检测到这些异常点时,我们采用均值滤波器对这些点进行平滑处理。

3) 孔洞填补, 由于异常点移除步骤通常会导致3维人脸产生孔洞,因此本文采用双三次方插值算法去填补这些孔洞。

预处理后的3维人脸如图 1所示。这些处理后的3维人脸数据为接下来的特征提取和分类实验提供了有力的支持。

图 1 人脸预处理结果
Fig. 1 Results of preprocessing

2 mesh-LBP

2.1 原始mesh-LBP

阻碍LBP在网格模型上扩展的最主要原因在于,网格面片的排列是无序的,因此首先需要建立面片之间的相互联系。对于一个三角网格曲面$\mathit{\boldsymbol{S}} = (\mathit{\boldsymbol{V}}, \mathit{\boldsymbol{F}}){\rm{, }}\mathit{\boldsymbol{V}}{\rm{, }}\mathit{\boldsymbol{F}}$分别是网格的顶点集合和面片集合,$\mathit{\boldsymbol{F}}$中任意一个面片$f_\rm{c}$, 与之相连并且共有一条边的面片定义为外面片$f_\rm{out}$。一般来说,每个面片周围存在3个$f_\rm{out}$。接着,每两个相邻外面片之间并且与$f_\rm{c}$共有一个顶点的面片定义为桥接面片$f_\rm{gap}$,桥接面片可以填补两个相邻外面片之间的“缝隙”。通过如图 2(a)所示的桥接过程,得到9个$f_\rm{gap}$面片。最后,按照逆时针的方向对获得的12个面片(3个$f_\rm{out}$和9个$f_\rm{gap}$)进行排序,构建得到第1个有序面环。

图 2 有序环的构建过程
Fig. 2 An ordered ring construction
((a)construction of first ring; (b)construction of second ring)

在第1层有序环的基础上,又可以定义新的$f_\rm{out}$,重复第1个有序环的桥接过程可以构建第2个有序面环,如图 2(b)所示。通过不断迭代该过程,可以产生一系列围绕中心面片$f_\rm{c}$的有序面环,并且第$i+1$个面环包含的面片个数$v_{i+1}$与第$i$个面环包含的面片个数$v_{i}$,有关系

$ {v_{i + 1}} = {v_i} + 12 $ (1)

上述算法产生的多个有序面环,为计算三角网格上的LBP提供了有力的支持。令$h$($f$)是定义在三角网格曲面上的标量函数(可以是几何信息或者光学信息),则网格二值模型的计算公式为

$ \begin{array}{c} {\rm{mesh - LBP}}_m^r({f_{\rm{c}}}) = \\ \sum\limits_{k = 0}^{m - 1} {s(h(f_k^r) - h({f_{\rm{c}}})) \cdot a \left( k \right)} \end{array} $ (2)

$ s\left( x \right) = \left\{ \begin{array}{l} 1\;\;\;\;\;x \ge 0\\ 0\;\;\;\;\;x < 0 \end{array} \right. $ (3)

式中,$r$是环号,$m$是面片号,分别决定了半径和方位; $a$($k$)可为$a_1$=1或者$a_2=2^k$,用于提取两类模式总数不同的mesh-LBP特征,在后续的章节里为了书写方便,本文简记为mesh-LBP($a_1$)和mesh-LBP($a_2$)。并且,上述mesh-LBP($a_2$)特征存在类似2维LBP中的统一模式[14]。具体来说,$r=7, m=12$$h$($f$)采用平均曲率,对提取出来的模式进行统计时发现:超过95%的模式,它们二进制编码的0-1跳变数均小于4。据此可将mesh-LBP($a_{2}$)特征的模式总数从4 096个降低至1 125个,包括1 124个统一模式,剩下的非统一模式单独作为一个模式。

2.2 mesh-LBP的改进

受到文献[15-17]启发, 在LBP计算过程中采用不同的阈值化策略,将它们扩展到mesh-LBP中来,并分别命名为mesh-MBP、mesh-tLBP和mesh-LTP,具体为

$ \begin{array}{c} {\rm{mesh - MBP}}_m^r({f_{\rm{c}}}) = \\ \sum\limits_{k = 0}^{m - 1} {s(h(f_k^r) - \frac{1}{m}} \sum\limits_{k = 0}^{m - 1} {h(f_k^r)) \cdot a \left( k \right)} \end{array} $ (4)

该改进算子替换原始算子里中心面片邻域与中心面片之间的函数差值为:中心面片邻域与中心面片邻域函数均值的差值,式中,$s$($x$)同原始mesh-LBP算子。

$ \begin{array}{c} {\rm{mesh - tLBP}}_m^r({f_{\rm{c}}}) = \\ \sum\limits_{k = 0}^{m - 1} {s(h(f_k^r) - h({f_{\rm{c}}}) + t) \cdot a \left( k \right)} \end{array} $ (5)

该改进算子在计算过程中,在$s$($x$)内部增加了一个预先设定的阈值$t$,式中,$s$($x$)同原始mesh-LBP算子。

$ \begin{array}{c} {\rm{mesh - LTP}}_m^r({f_{\rm{c}}}) = \\ \sum\limits_{k = 0}^{m - 1} {{s_1}(h(f_k^r) - h({f_{\rm{c}}})) \cdot a \left( k \right)} \end{array} $ (6)

$ {s_1}\left( x \right) = \left\{ \begin{array}{l} 1\;\;\;\;\;\;\;\;\;x \ge t\\ 0\;\;\;\;\;\;\;\;\; - t < x < t\\ - 1\;\;\;\;\;\;\;x \le t \end{array} \right. $ (7)

该改进算子在计算过程中,替换原始$s$($x$)为$s_1$($x$),是一个3值阈值函数。

3 统计方法

由于纹理反映的是物体表面信息的变化规律,而不是物体的形状信息,因此非常适合于分辨形状相似但是表面纹理不同的物体,人脸识别就是这样的一个具体应用实例。本文采用3种不同的方法来对计算得来的纹理模式进行统计,并最后用到3维人脸识别中来,流程如图 3所示。

图 3 对mesh-LBP采用不同的统计方法用于人脸识别
Fig. 3 Complexity of different statistical strategy for mesh-LBP to perform face recognition task

3.1 整体直方图

整体直方图即对于从人脸提取出来的mesh-LBP模式不进行任何处理,直接进行简单的直方图统计。在后续的章节中,本文将由此方法得到的特征记为mesh-hLBPH(mesh-holistic LBP histogram)。

3.2 局部分块直方图

Werghi等人[18]率先将mesh-LBP用到了3维人脸识别上,并且采用了分块的策略,得到mesh-eLBPH(mesh-enhanced LBP histogram)。但是人脸三角网格模型上的分块不如图片直观和便利,他们所采取的策略是:首先,由人脸笔尖点和2个眼角点,通过简单几何计算得到35个关键点;接着,将这些点投影到人脸曲面上;然后,根据人脸曲面投影点对人脸区域进行分块;最后,对分块中每个关键点,计算其邻域的mesh-LBP特征直方图,并且连在一起作为一幅人脸的整体描述。由于眼角点的定位是一个较难的任务,本文利用笔尖点和人脸比例计算得到225个关键点,并最终投影到原始人脸网格曲面上,结果如图 4所示。接下来的实验中将根据这些点对人脸进行不同的分块。

图 4 人脸曲面的225个关键点
Fig. 4 225 keypoints on the facial surface

3.3 整体编码图像

本文提出利用mesh-LBP编码图像进行人脸识别,后面的章节简记为mesh-hLBPI (mesh-holistic LBP image)。

由于不同人脸的三角网格模型,即使是同一个人,计算而来的mesh-LBP模式总数也不相同,因此首先需要将其处理到相同的尺寸,本文采取策略如下:

1) 计算网格模型中每个三角面片的质心,利用质心构建目标mesh-hLBPI的“像素”位置;

2) 寻找每个面片质心, 在步骤1)中构建“像素”位置的最近邻;

3) 将每个面片的mesh-LBP值,放置在离其最近的目标“像素”位置中。如果出现多个面片对应于同一个位置,取它们的均值作为当前位置的“像素值”;

4) 归一化到[0, 1]之间,便于后续对比和计算。

4 实验

实验中所采用的一般3维物体数据库为MITCSAIL-Database (http://people.csail.mit.edu/tmertens/textransfer/data/),3维人脸数据库为CASIA3D (http://biometrics.idealtest.org/)。

4.1 不同统计方法的分析

4.1.1 整体直方图

第1组实验是对4个不同个体,提取它们的mesh-hLBPH。这里$h$($f$)采用平均曲率,$r$=1,$m$=12,结果如图 5(b)(d)所示,可以发现,人脸不同于普通物体,纹理特征相对来说更加不规则,变化幅度更大,尤其对于图 5(d)中第1个人和第4个人。

图 5 不同个体的mesh-hLBPH($a$)
Fig. 5 The mesh-hLBPH(a) of different individual
((a)different object surface; (b)the mesh-hLBPH($a$) corresponding to surface in (b); (c) different facial surface; (d) the mesh-hLBPH($a$) corresponding to surface in (c))

第2组实验是对相同个体但处于不同条件下,按第1组实验相同的设置提取mesh-hLBPH,结果如图 6(b)(d)所示。图 6(b)中面包不同部位mesh-hLBPH基本一致,而图 6(d)中闭眼和戴眼镜条件下的人脸模型,mesh-hLBPH变化相对较大。

图 6 同一个体的mesh-hLBPH($a$)
Fig. 6 The mesh-hLBPH($a$) of same individual
((a) object surface under different variation; (b)the mesh-hLBPH($a$) corresponding to surface in (b); (c) facial surface under different variation; (d)the mesh-hLBPH($a$) corresponding to surface in (c))

综合以上实验,可以得出:人脸不同于普通物体,更加复杂和难以描述,整体直方图统计方法无法直接适用于对于人脸的分析任务,更适用于对一般物体的分析。若想用于3维人脸可能需要进一步的处理,比如对人脸分块。

此外,相比文献[13]中相同2维人脸不同条件下的变化来说,3维人脸的变化幅度要更小,这印证了人脸的3维数据对比图像数据的优势所在。

4.1.2 局部分块直方图

对于投影到人脸曲面上的每个点,取其周围半径为20 mm的球形区域为邻域,稍稍大于相邻投影点之间的距离,为的是在分块数增多时,信息可以衰减更少。本文总共有225个投影点,因此分块数可在0225范围之间。

按照与4.1.1节相同的设置计算mesh-LBP,并且分别提取图 5(c)中的第1个人脸模型0分块(即全局直方图)、4分块、16分块和32分块的mesh-eLBPH。为了便于对比,16分块和32分块只截取了前4个分块的直方图。不同分块的mesh-eLBPH特征直方图如图 7所示。不难发现,随着区域划分数的逐渐增多,直方图的变化扰动逐渐趋于稳定,或者说随着分块数的增多,人脸纹理更加接近于普通纹理。此外,更多的分块意味着可以更好保持人脸不同区域之间的空间关系。相同的结论在LBP中也有说明[13]。但是是否尽可能多地划分区域,就可以使mesh-LBP直方图更加稳定,同时保持人脸上更多的空间关系呢?答案是否定的。理想的情况下,可以将三角网格上每一个顶点进行纹理分析,但这种做法显然毫无意义。本文根据投影得到的225个点,分别将人脸分成2、3、4、8、16、32、60、90、120、225块。首先,测定不同分块数下mesh-LBP编码的最大差异,即出现次数最多的模式减去出现最少的模式,如图 7(e)所示,这印证了随着分块数的增加,直方图变化更加稳定的结论。接着,对于现有的不同分块数,测定mesh-LBP的识别率,结果如图 7(f)所示。可以发现,最初随着分块数的不断增加,识别率不断上升,但在达到一个峰值时就出现了下降的趋势,这也与本文设想一致。

图 7 分块数对于人脸纹理特征描述能力的影响
Fig. 7 Influence of divided region number for facial texture description
((a)the mesh-hLBPH($a$) for whole facial surface; (b)the mesh-eLBPH($a$) under 4 divided facial regions; (c) the mesh-eLBPH($a$) under 16 divided facial regions; (d) the mesh-eLBPH($a$) under 32 divided facial regions; (e)the largest difference among mesh-LBP($a$) code and number of divided regions; (f)the accuracy and number of divided regions)

这里需要说明的是,图 7(f)中部分区域上下波动的原因,一是本文采取的关键点较表情变化不够稳定,没有避开非刚性区域;二是尽管三角网格数据相比深度图像在表征人脸时有优势,但是在构建mesh-LBP有序面环时,人脸边缘处投影点不存在邻域面片,本文用其相邻投影点替换。

综合以上实验,可以得出:对人脸曲面进行分块大大减少了表情等变化对于人脸的扰动,这是由于每个分块内的变化幅度较小,并且不同的分块组合在一起可以更好地保持人脸不同区域之间的空间联系。但是并非分块数越多效果就越好,一是因为分块数越多意味着信息损失越多;二是因为空间区域关系仍为完全保持,同一分块中也存在着不同部位有着相同的模式的情况,此时进行直方图统计时就会忽视了该联系。因此,合适的分块数对于最后的识别有着重要的意义。

4.1.3 整体编码图像

一般来说,在2维LBP中,计算得来的模式都不直接用做人脸的特征描述,而是寻求较复杂的统计方法。本文认为原因有两点:一是对于两幅不同角度下的人脸图像,光照、表情等其他条件一致,它们的mesh-LBP肯定不同,但是若采用直方图进行比较就可以匹配;二是直接利用计算的结果,对于不同数据集中人脸数据,影响结果不一致,无法判断其是否具有识别能力。

本文对mesh-LBP也进行了类似的探讨,所提出方法生成的mesh-hLBPI可视化如图 8所示。不难发现, mesh-hLBP具有着优良的人脸描述能力:不同个体有区分度,相同个体有共同之处。此外,相比于mesh-eLBPH,这种统计方法无需对3维人脸曲面进行复杂的分块策略(关键点检测、特征点计算、特征点投影、特征点周围邻域计算、直方图计算和直方图级联), 并且维度也大大减小了。本文最后的实验,mesh-hLBPI采用的尺寸为100×100像素,具体的识别效果见4.3节实验部分。

图 8 mesh-hLBPI的可视化结果
Fig. 8 Visualization of mesh-hLBPI
((a)the mesh-hLBPI of same facial surface under illumination and expression variations; (b) the mesh-hLBPI of facial surface from different individual)

4.2 不同改进算子的分析

采用3种不同的统计方法,对于表情变化和姿态变化的人脸模型,本文进行人脸的分类实验,具体的实验细节将在4.3节介绍, 以mesh-hLBPI($a_{1}$)为例的Rank-1识别率如图 9所示。不难发现,所提出的3种改进中,mesh-tLBP对于不同的表情和姿态变化有着微弱的提升效果,mesh-LTP基本与mesh-LBP持平,而mesh-MBP甚至出现了下降。

图 9 mesh-hLBPI在表情变化人脸模型上的Rank-1识别率
Fig. 9 Rank-1 ratio of mesh-hLBPI on expression variations

总的来说,这3种改进仅仅针对人脸纹理描述能力来说,没有很大的提升,原始mesh-LBP或者最简单的mesh-tLBP也许就足以满足人脸识别任务的要求。

4.3 识别实验与分析讨论

当前3维人脸识别的两个最主要的挑战是表情变化和姿态变化,本文选取CASIA3D人脸数据库中5个不同表情变化下的模型(微笑、大笑、生气、惊讶和闭眼),以及10个不同姿态变化下的模型(正面22个,右20°~30°,右50°~60°,左20°~30°,左50°~60°,上20°~30°,下20°~30°,斜右20°~30°,斜左20°~30°)作为Probe set,5个不同光照条件下的模型(自然光、上光源、下光源、左光源、右光源)作为Gallery set,进行了人脸的识别实验。采用最小距离分类器,距离选取余弦相似度

$ {\rm{cos}}({\mathit{\boldsymbol{H}}_1},{\mathit{\boldsymbol{H}}_2}) = \frac{{\sum\limits_{i = 1}^B {{H_{1i}}\cdot{H_{2i}}} }}{{\sqrt {\sum\limits_{i = 1}^B {H_{1i}^2} } \cdot\sqrt {\sum\limits_{i = 1}^B {H_{2i}^2} } }} $ (8)

式中,$B$为特征向量${\mathit{\boldsymbol{H}}_1}$${\mathit{\boldsymbol{H}}_2}$的长度。该结果越大,表面${\mathit{\boldsymbol{H}}_1}$${\mathit{\boldsymbol{H}}_2}$越相似。计算mesh-LBP及其3种改进,$h$($f$)均采用平均曲率,$r$=7,$m$=12,同时mesh-LBP($a_2$)采用统一模式;评价标准为Rank-1识别率,最终的实验结果如表 1所示,其中,F1、F2、F3分别指代整体直方图统计法、局部分块直方图统计法和整体编码图像统计法。从表 1中可以得出:

表 1 Rank-1识别率
Table 1 The Rank-1 recognition ratio

下载CSV
/%
$a$=$a_1$ $a=a_2$
F1 F2 F3 F1 F2 F3
mesh-LBP($a$) 表情 47.97 74.22 49.59 57.89 74.71 64.07
姿态 32.85 50.73 21.46 39.27 48.54 21.71
mesh-tLBP($a$) 表情 48.29 74.22 49.76 58.21 74.87 64.23
姿态 32.93 50.57 21.54 39.19 48.54 21.71
mesh-MBP($a$) 表情 28.13 57.80 41.30 46.50 62.76 56.91
姿态 21.63 38.54 18.54 32.60 40.41 20.49
mesh-LTP($a$) 表情 47.80 74.38 48.13 57.56 74.87 63.09
姿态 32.76 50.65 21.38 39.27 48.54 23.25
注:加粗数字表示表情变化下最高的识别率;加下划线数字表示获得姿态变化下最高的识别率。

1) 在不同表情变化下,采用$a_2$提取的mesh-LBP特征均比$a_1$要好,这归功于mesh-LBP($a_2$)模式数量总数相比mesh-LBP($a_1$)更多,即1 125 :13;但在不同姿态变化下,采用$a_1$提取的mesh-LBP特征更好,证明了此时并非模式数越多识别效果越好。并且,由于mesh-LBP($a_1$)的计算复杂度比mesh-LBP($a_2$)更小,同时可以通过增加有序面环构建过程中邻域的采样面片数, 进一步增加模式总数以提升效果[19]

2) 3种不同的统计方法中,总体来说人脸识别的效果:局部分块直方图>整体编码图像>整体直方图;mesh-eLBPH尽管采用区域划分和直方图级联策略较为复杂,但尤其适用于对人脸的纹理特征进行描述;mesh-hLBPI比预期要好,尤其对于表情变化的模型,但对于姿态变化的模型甚至比全局直方图差。

3) mesh-tLBP识别能力有提升,mesh-LTP与mesh-LBP基本持平,而mesh-MBP识别能力甚至变差,可能需要进一步的预处理和阈值选取策略才能获得提升。

4) 本文对于表情变化和姿态变化获得的最高识别率分别为74.87%和50.73%,与一般方法相比较低。具体说来,针对表情变化本文未避开非刚性区域,而是采用了4.1.2节中识别能力较好的分块数(120块);而针对姿态变化,仅采用人脸正面姿态作为Gallery set, 未引入不同姿态变化的人脸作为先验,以及未考虑利用人脸的近似对称特性; 此外,采用面片上不同的函数计算mesh-LBP特征,比如灰度、高斯曲率、形状指数等,并将这些特征融合进行最后的识别,这些都将是下一步的研究重点。

4.4 与其他代表性方法的比较

以一个完整的3维人脸识别任务流程为例,总结了mesh-LBP与其他几种代表性方法在每个步骤所需要的操作,如图 10所示。不难发现,mesh-LBP相比于基于关键点的方法[2]无需检测大量的关键点和特殊的匹配算法,相较于基于曲线的方法[6-7]无需精确的关键点定位,相较于Tang等人[11]的工作无需复杂的预处理,计算简单,使用方便。

图 10 几种代表性方法用于3维人脸识别的流程
Fig. 10 Several representative methods for 3D face recognition

5 结论

本文采用不同的统计策略:整体直方图、局部分块直方图和整体编码图像,详细探索了一种新颖的3维纹理描述子,即mesh-LBP,对于3维人脸曲面的局部纹理特征的描述能力。同时,基于阈值化的策略,尝试对mesh-LBP进行了3种改进: mesh-tLBP、mesh-MBP和mesh-LTP。最后,将上述策略产生的3维局部纹理特征用于3维人脸识别中来,详细说明了各自的优缺点和适用范围。对于未来的工作:一是采用人脸刚性区域,或者基于人脸关键点,以及利用人脸的近似对称特性,进一步提升本文方法对于表情变化和姿态变化的识别效果[19-21];二是继续扩展2维LBP中不同预处理、邻域采样和其他阈值化编码方法[22-23]到mesh-LBP中来, 从而适用于不同的应用场合;三是探索由面片上不同函数计算得到的mesh-LBP特征的融合算法,从多模态方面进一步提高算子的识别能力。

参考文献

  • [1] Elaiwat S, Bennamoun M, Boussaid F, et al. A curvelet-based approach for textured 3D face recognition[J]. Pattern Recognition, 2015, 48(4): 1235–1246. [DOI:10.1016/j.patcog.2014.10.013]
  • [2] Li H B, Huang D, Morvan J M, et al. Towards 3D face recognition in the real:a registration-free approach using fine-grained matching of 3D keypoint descriptors[J]. International Journal of Computer Vision, 2015, 113(2): 128–142. [DOI:10.1007/s11263-014-0785-6]
  • [3] Lei Y J, Guo Y L, Hayat M, et al. A two-phase weighted collaborative representation for 3D partial face recognition with single sample[J]. Pattern Recognition, 2016, 52: 218–237. [DOI:10.1016/j.patcog.2015.09.035]
  • [4] Yu X, Gao Y S, Zhou J. 3D face recognition under partial occlusions using radial strings[C]//Proceedings of 2016 IEEE International Conference on Image Processing. Phoenix, AZ, USA: IEEE, 2016: 3016-3020.[DOI: 10.1109/ICIP.2016.7532913]
  • [5] Yu X, Gao Y S, Zhou J. Sparse 3D directional vertices vs continuous 3D curves:efficient 3D surface matching and its application for single model face recognition[J]. Pattern Recognition, 2017, 65: 296–306. [DOI:10.1016/j.patcog.2016.12.009]
  • [6] Emambakhsh M, Evans A. Nasal patches and curves for expression-robust 3D face recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(5): 995–1007. [DOI:10.1109/TPAMI.2016.2565473]
  • [7] Li Y, Wang Y H, Liu J, et al. Expression-insensitive 3D face recognition by the fusion of multiple subject-specific curves[J]. Neurocomputing, 2018, 275: 1295–1307. [DOI:10.1016/j.neucom.2017.09.070]
  • [8] Huang D, Ardabilian M, Wang Y H, et al. 3-D face recognition using eLBP-based facial description and local feature hybrid matching[J]. IEEE Transactions on Information Forensics and Security, 2012, 7(5): 1551–1565. [DOI:10.1109/TIFS.2012.2206807]
  • [9] Soltanpour S, Wu J Q M. High-order local normal derivative pattern (LNDP) for 3D face recognition[C]//Proceedings of 2017 IEEE International Conference on Image Processing. Beijing, China: IEEE, 2017.[DOI: 10.1109/ICIP.2017.8296795]
  • [10] Fehr J, Burkhardt H. 3D rotation invariant local binary patterns[C]//Proceedings of the 19th International Conference on Pattern Recognition. Tampa, FL, USA: IEEE, 2008: 1-4.[DOI: 10.1109/ICPR.2008.4761098]
  • [11] Tang H L, Yin B C, Sun Y F, et al. 3D face recognition using local binary patterns[J]. Signal Processing, 2013, 93(8): 2190–2198. [DOI:10.1016/j.sigpro.2012.04.002]
  • [12] Werghi N, Berretti S, del Bimbo A. The Mesh-LBP:a framework for extracting local binary patterns from discrete manifolds[J]. IEEE Transactions on Image Processing, 2015, 24(1): 220–235. [DOI:10.1109/TIP.2014.2370253]
  • [13] Yang B, Chen S C. A comparative study on local binary pattern (LBP) based face recognition:LBP histogram versus LBP image[J]. Neurocomputing, 2013, 120: 365–379. [DOI:10.1016/j.neucom.2012.10.032]
  • [14] Ojala T, Pietikainen M, Maenpaa T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971–987. [DOI:10.1109/TPAMI.2002.1017623]
  • [15] Huang X S, Li S Z, Wang Y S. Shape localization based on statistical method using extended local binary pattern[C]//Proceedings of the Third International Conference on Image and Graphics. Hong Kong, China: IEEE, 2004.[DOI: 10.1109/ICIG.2004.127]
  • [16] Hafiane A, Seetharaman G, Zavidovique B. Median binary pattern for textures classification[C]//Proceedings of 2007 International Conference Image Analysis and Recognition. Berlin, Heidelberg: Springer, 2007: 387-398.[DOI: 10.1007/978-3-540-74260-9_35]
  • [17] Tan X Y, Triggs B. Enhanced local texture feature sets for face recognition under difficult lighting conditions[J]. IEEE Transactions on Image Processing, 2010, 19(6): 1635–1650. [DOI:10.1109/TIP.2010.2042645]
  • [18] Werghi N, Tortorici C, Berretti S, et al. Boosting 3D LBP-based face recognition by fusing shape and texture descriptors on the mesh[J]. IEEE Transactions on Information Forensics and Security, 2016, 11(5): 964–979. [DOI:10.1109/TIFS.2016.2515505]
  • [19] Lv S W. Research of 3D face recognition based on extended LBP features[D]. Nanjing: Southeast University, 2016. [吕士文.基于改进LBP特征的三维人脸识别方法研究[D].南京: 东南大学, 2016.] http://www.wanfangdata.com.cn/details/detail.do?_type=degree&id=Y3142873
  • [20] Smeets D, Keustermans J, Vandermeulen D, et al. meshSIFT:Local surface features for 3D face recognition under expression variations and partial data[J]. Computer Vision and Image Understanding, 2013, 117(2): 158–169. [DOI:10.1016/j.cviu.2012.10.002]
  • [21] Berretti S, Werghi N, del Bimbo A, et al. Selecting stable keypoints and local descriptors for person identification using 3D face scans[J]. The Visual Computer, 2014, 30(11): 1275–1292. [DOI:10.1007/s00371-014-0932-7]
  • [22] Pietikäinen M, Zhao G Y. Two decades of local binary patterns: A survey[M]//Bingham E, Kaski S, Laaksonen J, et al. Advances in Independent Component Analysis and Learning Machines. London: Academic Press, 2015: 175-210.[DOI: 10.1016/B978-0-12-802806-3.00009-9]
  • [23] Tang L L, Cai S Y, Da F P, et al. 3D Face recognition method based on the local binary pattern from vertical and horizontal on the mesh[J]. Chinese Journal of Scientific Instrument, 2016, 37(6): 1413–1420. [汤兰兰, 盖绍彦, 达飞鹏, 等. 基于网格纵横局部二值模式的三维人脸识别[J]. 仪器仪表学报, 2016, 37(6): 1413–1420. ] [DOI:10.3969/j.issn.0254-3087.2016.06.027]