Print

发布时间: 2018-07-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170474
2018 | Volume 23 | Number 7




    图像分析和识别    




  <<上一篇 




  下一篇>> 





正立和倒立面孔的混合识别
expand article info 王强, 范影乐, 武薇, 朱亚萍
杭州电子科技大学自动化学院, 杭州 310018

摘要

目的 改变正立和倒立面孔只是一种简单倒置关系的观点,研究基于视觉神经整体和局部信息流的正立和倒立面孔混合识别。方法 模拟视觉信息流在视通路中的传递和处理过程,首先构建底层神经网络,建立敏感纹理特征以及对称卷积核的机制,实现正立和倒立面孔图像的去除冗余和预处理;接着提出一种基于局部区域提取的池化神经网络层的概念,构建多局部特征融合的网络结构,实现局部信息的压缩提取和融合;最后根据高级视觉皮层中左右半脑协作的特点,提出一种融合整体和局部信息的预测函数。结果 以AT & T数据库为例,本文方法在经典卷积神经网络模型上增加了多局部特征融合的网络结构,识别准确率从98%提高到100%,表明局部信息能够提高对正立面孔识别的能力;同时采用合适的训练数据集,调节融合时整体与局部信息的关系比,结合使用合适模型训练方式,该模型对正立和倒立面孔的识别率分别为100%和93%,表明对正立和倒立面孔识别具有良好的特性。结论 本文方法说明了整体和局部特征的两条视觉通路虽然分别在正立和倒立面孔识别上起了决定性的作用,但它们并不是孤立存在的,两条通路所刻画的面孔信息应该是一种互补式的关系。不仅为面孔识别提供一种新思路,而且将有助于对视觉神经机制的进一步理解。

关键词

面孔识别; 倒立面孔; 多局部特征融合; 多视通路; 视觉机制; 卷积神经网络

Mixed recognition of upright and inverted faces
expand article info Wang Qiang, Fan Yingle, Wu Wei, Zhu Yaping
School of Automation, Hangzhou DianZi University, Hangzhou 310018, China
Supported by: National Natural Science Foundation of China(61501154)

Abstract

Objective With the high-resolution imaging and hardware capability of parallel computing, face recognition based on massive visual data has become a research focus in pattern recognition and artificial intelligence. To a certain extent, traditional face recognition algorithms also consider the principle of biological perception, such as using massive training sample data for dynamically modifying the structure and parameters of neutral networks and realizing optimal decisions. However, these methods use only several basic characters of biological perception and simulate them as a black box overall. The abundant visual mechanisms in biological perception systems are the bases of realizing visual comprehension and recognition. The mechanism of recognizing inverted faces on the basis of the different information flows of visual neural systems has been demonstrated. A new face recognition method is proposed to solve mixed upright and inverted face recognition using global and local visual neural information flow. Method The recognition of facade faces may depend on the mode of a component architecture, where the overall information is larger than the sum of the local features. The identification of an inverted face does not significantly depend on the characterization of the abovementioned overall information. Eyes, mouths, and noses are also characteristics of local features of information sources. Two visual cortical sensing pipelines reflect the global and local features in face recognition mechanisms. However, most methods consider the two pipelines or systems to be operating independently and not transforming information with each other. Therefore, a divide-and-conquer strategy is adopted in practice. However, this work argues that orthographic and inverted faces represent not merely a simple inversion of visual information. The two visual pathways that convey holistic and local features play a decisive role in orthographic and inverted face recognition and are not independent of each other. The two pipelines portrayed by face information should have a complementary relationship. In the use of global contour information for face identification, the contribution of face recognition performance to the facial features cannot be dismissed. In this work, we constructed a new face recognition system that is based on global and local information, which is transformed by two pipelines in visual cortical pathways. Our study considered the process of the visual cortical pathway that is based on the left and right hemisphere coordination mechanisms. First, the underlying neural network was constructed, and the redundancy reduction and preprocessing of upright and inverted face images were realized through the mechanism of sensitive texture and symmetric convolution kernels. Second, this work proposes the pooled neural network layer, which is based on local region extraction, and constructed the network structure of multi-local feature fusion to realize compression extraction and fusion of local information. Finally, a predictive function was defined according to the characteristics of left and right hematopoietic collaboration in the advanced visual cortex to integrate the global and local information. Result Visual test and quantitative calculation results showed that the method had an enhanced feature capability in face recognition and could better identify upright and inverted faces in comparison with the traditional methods LDA, PCA, and DeepID. The experimental model was trained on the structure of a caffe neural network framework, and the parameters of the model were trained via batch gradient descent. With the use of an AT & T database as an example, the multi-local-feature fusion network structure was added to the classical convolution neural network (CNN) model. The recognition accuracy was improved from 98% to 100%, and this improvement indicated that the local information could improve the recognition capability of the facade. In the experiment, the result of the difference calculation showed that the underlying convolution kernel had symmetry and the same response to the texture features of the faces. The appropriate training dataset was used to adjust the relationship between the global and local information during fusion processing. The recognition rates of the model were 98% and 94% for the upright and inverted faces, respectively. Therefore, the positive and inverted face recognition had good characteristics. According to the pre-trained face recognition model, the two pipeline face systems exhibited satisfactory performance on the test dataset, which fused upright and inverted faces. Thus, our method can address the problem of face recognition with fusion. Conclusion In this work, a localized feature-based pooling neural layer was designed on the basis of the texture sensitivity of the input image feature by a CNN to realize the network structure of multi-local feature fusion. Meanwhile, with consideration for the biological mechanism of local participation in recognition, the relationship between the left and right hemispheres in the advanced visual cortex was introduced and a prediction function integrating global and local information was proposed. The correlation between training data factors and local or overall characteristics was emphasized. The proposed face recognition method contributes to the understanding of optic nerve mechanisms. For example, the traditional neural network, which fuses the multi-local features, enhanced the face recognition features and thus increased the effectiveness of information. Compared with a single training dataset of inverted faces, the mixed training dataset of upright and inverted faces had a larger impact on inverted face recognition. Results showed the importance of inconsistencies in the selection of local features and the crucial role of internal differences in local features in face recognition. The hybrid recognition method of upright and inverted faces proposed in this work provides a novel research idea for face recognition technology and discusses the role of multi-view path fusion in image understanding and visual cognition of the advanced visual cortex.

Key words

face recognition; inverted faces; multiple local feature fusion; visual pathway; visual mechanism; convolutional neural network

0 引言

面孔识别是人类与生俱来的一种自然能力,神经生理和心理学的研究表明,面孔识别所对应的大脑皮层激活区域完全不同于物体或文字识别。对面孔识别机制的研究,一方面将有助于促进对于大脑功能机理的理解,另一方面将为图像理解或模式识别技术带来一些新的思路。

由于正立面孔识别是较为常见的情形,因此人们通常以正立面孔识别作为研究问题,认为面孔的尺度或角度问题,完全可以通过对图像的预处理或校正过程进行解决,对于工程技术人员来说,这是一种自然而然的观点。所以人们将注意力集中于正立面孔的特征提取和识别上,陆续提出了一些有效的识别方法,譬如经典的主成分分析方法[1-2]、基于监督信息的线性判别方法、基于简单局部纹理信息的非线性辨别方法,近年来陆续也有基于卷积神经网络的方法,例如基于多模型融合的DeepID方法[3-5],利用监督信号和验证信号结合的方法提升网络的鲁棒性;还有FaceNet神经网络模型[6],可实现模型训练的End-to-End,避免传统方法的多阶段问题;另外神经网络度量函数的优化工作也受到了关注[7-8]。上述方法在面孔识别的具体应用中,尤其是卷积神经网络所代表的深度学习多模型融合方法,取得了较好的识别效果。但必须要说明的是,越来越多的神经工程实验结果表明[9-11],正立面孔的识别可能依赖于一种组件架构的模式,此时整体信息要大于各局部特征之和;而倒立面孔的识别,并非显著依赖于上述整体信息的表征,反而更可能是一种以眼睛和口鼻嘴为信息源的局部特征表征。面孔识别机理存在着上述两条分别反映整体和局部特征的视皮层感知通路已经被普通接受,但其中大多数观点认为这两条通路或者两个系统是独立运行的,因此在实践中采用一种分而治之的研究策略。而本文认为正立和倒立面孔绝不是视觉信息上简单倒置的关系,传递处理整体和局部特征的两条视觉通路虽然分别在正立和倒立面孔识别上起了决定性的作用,但它们并不是孤立存在的,两条通路所刻画的面孔信息应该是一种互补式的关系。在利用整体轮廓信息来识别面孔时,不能缺失面孔上具有表征能力的局部区域对面孔识别性能的贡献。

基于以上分析,本文将考虑多局部特征对识别率的贡献,以视知觉皮层通路作为研究对象,研究左右半球协作机制,构建基于局部和整体信息的双通路面孔识别系统。本文保留原有基于轮廓信息的网络层对识别率的贡献,增加了面孔表面具有表征性的局域纹理信息,设计并且实现了基于局部区域提取的池化神经网络结构,构建了多局部特征融合MLPB (multi-local pooing blending)的网络结构,通过模拟左右半脑对整体和局部特征的协作关系,提出一种融合整体和局部信息的预测函数,给出了一种针对正立面孔和倒立面孔混合识别的新模型。

1 原理与实现

1.1 整体模型设计

在视觉机制中,视觉通路是从视网膜开始,经过外膝体、初级视觉皮层和高级视知觉皮层,从而实现识别视觉信息的功能。著名的倒立效应实验[12-14]表明,人的视觉系统不仅仅能够识别正立面孔,同时在不加特殊训练的条件下,对倒立面孔具有一定的识别准确率。其原因是视觉系统在加工倒立面孔时,并不只是利用高层次的整体轮廓信息,还必须转向一种更具分析式的、以部分分析作为基础的加工模式,即面孔识别系统不仅仅只存在单条视觉通路的加工方式,至少存在两条及以上的视觉信息加工。

但是,当前基于卷积神经网络的面孔识别模型并没有关注到倒立面孔的识别问题,因为模型仅仅将图像底层的图像纹理特征融合,并转化高层次图像特征,最终是根据高层次的特征来激活函数进行分类,并没有利用到局部分析式的信息特征。

故本文提出一种基于视知觉皮质通路的正立和倒立面孔混合识别模型,其由底层视觉通路和高级视觉皮层两个网络构成。如图 1所示,底层视觉通路主要由卷积层神经网络(CONVNET)构成,对输入的正立和倒立面孔(INPUT)做图像预处理以及特征提取;高级视觉皮层是以左右半球协作机制为核心,并将整体轮廓信息和局部轮廓信息融合预测面孔类别。全局特征直接连接基于整体轮廓信息的全连接层,而局部候选区域将经过MLPB融合后,连接基于局部纹理信息的全链接层。SOFTMAX将会接收上层网络的预测信息,根据权值关系达到同时满足正立面孔和倒立面孔混合识别的目的。

图 1 基于视知觉皮质通路的双系统面孔识别模型
Fig. 1 Dual system face recognition model based on visual cortical pathway

1.2 底层视通路

在生理学上,底层视觉信息传递通路有两条,一条是从视网膜-外侧膝状体—初级视皮层(V1)的视觉,另一条则是视网膜—上丘脑—视皮层。然而绝大数视觉信息预处理都是由前一条视通路进行传递和处理的,后一条通路主要是确定视觉信息的位置。本文中的面孔图像将通过人脸矫正的方式来将人脸面部的眼耳口鼻等局部区域放置在同一位置,以实现后者视觉通路上的功能。

神经生理学表明,眼球接受的刺激,经过预处理和加工后,在V1层输出纹理特征。由于卷积神经网络具有杂质信息有效过滤和纹理特征提取能力,故本文将底层的网络设置为卷积神经网络,其基本结构包括特征提取层和特征映射层两层,每个特征提取层后将会紧跟着一个取局部最大和二次提取的特征映射层,该提取结构将会使模型对输入面部图像的抗畸变能力。由于底层的卷积层对面孔表面的纹理特征较为敏感,后续的特征图谱将会是上层特征图谱的一种非线性组合关系[15-16]。因此随着网络层数的加深,卷积核输出的特征图谱也将越多,模型对图像的描述能力也越强,从而能够更有效表达面孔特征。

1.3 MLPB层

1.3.1 局部池化层

传统视觉系统的设计思想是将底层提取特征导入基于整体轮廓信息的单条视觉通路面孔识别模型,因此将不可避免地缺失必要局部特征的参与[17-19]。为了提取面孔表面局部特征,提出了一种多局部特征融合的网络结构,即MLPB,该结构能在面孔图像经过多层卷积层之后,在特征图谱上提取对应于输入面孔图像表征区域位置的特征,并且将各局部特征融合。局部特征提取示意图如图 2所示。

图 2 面孔表面局部区域选取图
Fig. 2 Local area selection chart on face

MLPB层主要对应于面部3个区域局部区域的特征提取和融合。值得说明的是,为保证正立和倒立面孔表征区域的差异性,正立面孔的选择包含左眼在内的左上区,包含右眼在内的右上区和包含口鼻在内的中间区域作为主要特征区域,同时倒立人脸的特征区域以左下区、右下区以及中间区为主。为有效地转换局部特征,提出基于局部区域提取的池化神经网络层概念,其基本思想将大小为$L \times L$的候选区域按照$N \times N$的步长做切割成小模块,并对每个小模块做最大池化操作(max pooling),输出$M \times M$的特征矩阵。$M$

$ M = \left( {L + 2p - k} \right)/N + 1 $ (1)

式中,$p$表示为输入候选区域所增加的像素点个数,$k$表示为最大池化操作的滤波器大小,$N$表示为指定滤波器的步长参数。局部区域不同,则其各参数的大小选择也将会不同。但是在下一阶段特征融合时,为简化计算的目的会要求所有输出特征矩阵的长和宽保持对应一致。

输出特征图谱上的每个像素点对应一个最大池化神经元,则每个神经元的操作为

$ {f^k}\left( {i, j} \right) = \mathop {\max }\limits_{0 \le m, n < N} \left\{ \begin{array}{l} {x^k}\left( {{a_{{\rm{roi}}}} + i \cdot N + } \right.\\ \left. {m, {b_{{\rm{roi}}}} + j \cdot N + n} \right) \end{array} \right\} $ (2)

式中,$f^{k}(i, j)$表示池化后的特征矩阵上的像素点,$\mathit{\boldsymbol{x}}^{k}$表示第$k$个输入的特征矩阵,$a_{\rm roi}$$b_{\rm roi}$为候选区${\rm roi}$的左上角点在全局特征矩阵内的坐标。因为反向传播的计算与一般的卷积池化的操作相同,故此处不做赘述。基于局部区域提取的池化神经网络层相比于直接获取原始特征区域的方式将有利于获取更加细节的纹理特征,减少模型参数规模,从而降低模型计算的复杂度,防止模型过拟合的现象发生。

1.3.2 多特征融合

MLPB网络在局部特征池化之后,需要将其融合。以图 2所示的倒立脸为例,因左下候选区域、右下候选区域和中间候选区域输出的特征图谱之间成相互独立关系,故将三者做连接操作,其数学表达式为

$ {\mathit{\boldsymbol{F}}_{{\rm{Lower}}}}{\rm{ = }}{\mathit{\boldsymbol{F}}_{{\rm{Lower\_L}}}} \otimes {\mathit{\boldsymbol{F}}_{{\rm{Lower\_R}}}} \otimes {\mathit{\boldsymbol{F}}_{{\rm{Center}}}} $ (3)

式中,$ \otimes $表示的是连接操作,${\mathit{\boldsymbol{F}}}_{\rm Lower\_L}$${\mathit{\boldsymbol{F}}}_{\rm Lower\_R}$${\mathit{\boldsymbol{F}}}_{\rm Center}$${\mathit{\boldsymbol{F}}}_{\rm Local}$分别表示为左下、右下、中间候选区域的特征图谱以及特征图谱融合后的特征图谱。假设经局部池化后,${\mathit{\boldsymbol{F}}}_{\rm Lower\_L}$${\mathit{\boldsymbol{F}}}_{\rm Lower\_R}$${\mathit{\boldsymbol{F}}}_{\rm Center}$数据大小分别为$n \times c_{\rm Lower\_L} \times w \times h$$n \times c_{\rm Lower\_R} \times w \times h$$n \times c_{\rm Center} \times w \times h$,其中,$n$代表模型进行批量梯度下降时输入面孔图像的数量,$c$代表各局部特征的通道,$w$$h$代表特征图谱的宽和高,则${\mathit{\boldsymbol{F}}}_{\rm Local}$数据大小为$n \times (c_{\rm Lower\_L}+c_{\rm Lower\_R}+c_{\rm Center}) \times w \times h$

1.4 预测函数

神经学专家通过面孔失忆症患者和整合性失忆症患者相关实验证明[20-21],存在物体识别的双加工模式,即与左半球相关的分析加工模式,与右半球相关的整体加工模式。同时左右半球之间存在高层次特征的协作关系:在识别正立面孔时,右半球为起主要作用,左半球起辅助作用;在识别倒立面孔时,将以左半球为主,右半球的特异性加工系统将会失灵。

传统神经网络的预测函数只有考虑整体信息,并没有局部特征模块融合。因此本文提出一种融合整体和局部信息的预测函数,根据输入的特征输出可能性最大的面孔类别,即

$ \begin{array}{l} \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;Class(\mathit{\boldsymbol{F}}) = \\ {\rm{arg}}\;\mathop {{\rm{max}}}\limits_i (\mathit{\boldsymbol{W}}_i^1 \cdot {\mathit{\boldsymbol{F}}_{{\rm{all}}}} + \lambda \cdot \mathit{\boldsymbol{W}}_i^2 \cdot {\mathit{\boldsymbol{F}}_{{\rm{Local}}}} + {\mathit{\boldsymbol{b}}_i}) \end{array} $ (4)

式中, $Class(.)$表示预测函数输出的面孔的类别,$W_{i}^{1}$为基于整体轮廓信息的全连接层权值矩阵,下标表示矩阵的第$i$行,对应于第$i$类面孔;${\mathit{\boldsymbol{W}}}^{2}$为基于局部信息的全连接层权值矩阵,下标含义同前;${\mathit{\boldsymbol{F}}}_{\rm all}$表示最后一层卷积层输出的全局特征图谱。$\mathit{\boldsymbol{F}}$代表最后一层卷积层数输出的特征图谱集合,包括整体和局部的特征图谱,$\lambda $代表着左右半球的相互协作关系,其数值大小代表着全局信息和局部信息的比值关系,则在正立面孔识别时,因为全局信息的比重较大,即$\lambda < 1$;在倒立面孔识别时,需要强化局部特征信息,即$\lambda >1$

2 结果与分析

实验主要分为两个阶段,第1阶段是比较正立面孔识别模型和混合识别模型,以识别率作为标准,分别在正脸面孔和倒立面孔上做测评,验证倒立面孔识别通路并非孤立存在的,它将有助于提高正立面孔识别性能。第2阶段是探究单一或混合的训练样本和不同的预测函数参数入对面孔识别的影响。

实验对象来源于AT & T数据库,包含有来自不同状态的40个人的400幅面部图像。每个人的面部图像为10幅,且这10幅图像都是互不相同的。它们的位置、旋转、尺寸和表达方式各不相同。方向的变化已经通过旋转来实现。且在每个人的样本中,他们的面部表情(睁眼、闭眼,微笑、不笑等)也是各不相同的。每个图像将转化为$256 \times 256$像素阵列,且其灰度值介于0到255之间。AT & T数据库面部图像的部分样本如图 3所示。

图 3 AT & T数据库的面部图像部分样本
Fig. 3 Some face images of AT & T database

实验模型训练在GTX 970硬件框架上,参数训练方式是批量随机下降的方式。由于样本量较少的原因,实验中在模型的学习率设置为0.01保持不变。

2.1 单一训练集情况下的识别性能

为验证局部信息将有利面孔识别率的提高,将PCA、LDA、正立面孔识别模型DeepId[3-5]与混合识别模型做识别率上的对比,其中本文模型在保留简化后的DeepId网络层和卷积核参数的基础上,添加了基于局部纹理分析的MLPB网络。由于AT & T数据库中的面孔均是正立的面孔,不含有倒立面孔,从而需要对训练数据和测试数据构造。首先,该数据库包含40个人,每个人有10幅不同姿态的面孔图像,不做处理任何处理,从每个人的库中随机选择8幅面孔作为训练数集,余下的2幅作为测试数据。因此正立面孔的训练数据大小为320幅,正立面孔的测试数据集为80幅。其次,为了保证倒立样本和正立样本一致性,仅将上阶段正立的训练和测试数据集的面孔上下旋转180°,不做图像大小和样本标签等任何改动,从而构成倒立脸的训练和测试数据集。本实验将320幅正立面孔数据集训练模型,然后分别在正立和倒立的测试数据集上做模式识别率的评估,作为对比,将倒立面孔数据集作为训练集,同样也在上述的两类测试集上做模型评估。实验结果如表 1表 2所示。

表 1 算法的平均识别率和测试时间比较
Table 1 Comparison of average recognition rate and test time of the algorithm

下载CSV
模型 平均识别率/% 单张面孔测试时间/ms
PCA 88 345
LDA 92 905
DeepId 98 1 440
混合识别模型 100 1 560

表 2 在单一训练集情况下的算法识别率对比
Table 2 Comparison of algorithm recognition rates in a single training set

下载CSV
/%
模型 正立脸训练 倒立脸训练
正面测试 倒面测试 正面测试 倒面测试
PCA 87 7 8 87
LDA 92 6 10 92
DeepId 98 7 14 98
混合识别模型 100 9 14 100

表 1看出,由于模型复杂度的原因,混合识别模型在I7 6700k CPU硬件条件下,比传统方法的识别时间略长,但是在保证一定实时性条件下,本文算法依然具有较高的识别率。为体现GPU和CPU运算效率的差别,混合识别模型在基于GTX 970 GPU 4 GB显存下测试,单张图片测试时间则仅仅需要126 ms。

表 2所示,在单一训练样本的情况下,也就是训练样本全部来源于正立脸数据集,或者全部来源于倒立脸数据集,这时进行与训练样本集类别相符的测试,能够取得较好的结果。其中PCA的人脸识别方法识别率为87%,LDA为92%,DeepId为98%,如果在DeepId模型的基础上添加局部特征信息的作用,也就是本文提出的混合模型方法,在测试数据集上的成绩将进一步提高到100%。这也说明了MLPB结构的有效性,面孔局部特征有助于面孔识别精度的提高。表明在正立和倒立面孔识别时,局部和整体轮廓信息的视觉通路并非相互独立的,局部视通路将会在一定程度上强化人脑对正立面孔的识别能力。观察表 2,还可以发现用正立面孔训练集来训练识别的模型,在倒立面孔测试集上的成绩分别为7%和9%,反之的成绩均为14%,应该说此时识别完全失效。本文将一张正立面孔和对应的倒立面孔导入用正立面孔训练后的混合识别模型中,对比每一层输出的特征图谱和滤波器,如图 4所示。将倒立面孔的特征图谱上下旋转180,与正立面孔的特征图谱做差值计算,可发现结果接近于0。接下来的各层卷积层也采用类似处理方式,也能得到相同的结论。说明底层的卷积核具有对称性,对面部的纹理特征响应具有一致性。另外也可以将正立面孔训练MLPB的响应图和倒立脸对比,也表明纹理响应具有一致性。上述分析验证了模型识别性能差的原因应该是由于网络末端的全连接层所引起的。因此在模型中,直接影响模型最终分类结果将会是高级视觉皮层。该类情况符合了生物特性,即在视觉通路处理过程中,视网膜、外膝体以及初级视觉皮层对于图像都是进行相同的预加工过程,它们对正立的面孔和倒立的面孔预处理是一致的。因此本实验一方面说明底层视通路上卷积核具有对称性,另一方面说明底层视通路在正立和倒立面识别上并不具有本质上的差异性。

图 4 正立和倒立面孔在第1层卷积层的输出特征图谱和滤波器
Fig. 4 Feature maps and filters in the first layer about upright and inverted faces ((a) feature maps about upright face; (b) feature maps about inverted faces; (c) filters in upright faces; (d) filters in inverted faces)

2.2 混合识别模型中的参数优化

先采用单一的训练样本集对混合识别模型进行训练,然后再利用倒立面孔的训练样本集对模型进行训练,探讨整体和局部信息的比重关系对于识别性能的影响。实验中随机选取320幅正立面孔的数据集来训练混合识别模型,然后固定前面4层卷积层的参数以及全局结构的全连接层参数,即接下来的训练时上述5层神经网络参数将保持不变,最后用320幅倒立面孔的混合数据集训练,此时模型中只有MLPB网络模块的参数才会更新迭代,在损失函数达到局部最优值时停止训练。

为了验证整体和局部特征对面孔识别的作用,参数$\lambda $分别设置从0.1到1,局部特征识别率的贡献的比重也逐步增大,在正立和倒立面孔上的测试结果如表 3所示。

表 3 $\lambda $参数设置对面孔识别率的影响
Table 3 Influence of parameter settings on the face recognition rate

下载CSV
/%
面孔 $\lambda $
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
正立 100 100 100 100 99 98 97 95 94 93
倒立 21 23 30 33 39 46 57 65 75 80

表 3中反映出全局特征和局部特征在面孔识别率上形成相互干扰。全局特征的全连接层是用正立面孔来训练的,因此正立面孔图像作为输入时,该层输出的结果有益于对正立面孔的识别率,然而MLPB模块的参数是由倒立面孔数据训练,此时该模块将会失效,从而对正立面孔的识别率造成干扰。如果数值增大,即局部特征的贡献比重增大,MLPB模块造成的不利干扰也将增大,从而导致正立面孔的识别准确率将会降低。反之,倒立面孔作为模型的输入导致全局模块失灵,一定程度上影响倒立面孔结果的判定。

从视觉机制的角度看来,人类对于倒立面孔的识别,并没有经过特异性训练,即从出生开始用大量正立面孔来做辨认,当然偶尔会有少量的倒立面孔需要辨认。因此即使训练样本少,也并不妨碍人类视觉系统对倒立面孔的识别率。生物学实验证明正常人在正立和倒立脸的识别率分别为94%和82%,即存在人对于倒立脸的区分度不如正立脸的情形。

研究发现倒立面孔作为混合识别模型的输入时,因整体的信息仅仅与正立面孔识别相关,此时不考虑局部特征的模型预测准确率将为0.1左右,较低的预测准确率意味着模型在一定程度上处于随机预测的状态。同时本文再把最后一层模型输出的预测率提取后比较,发现模型对每一类面孔的置信度差异接近于0。因此选择合适的$\lambda $将有效地避免整体信息对倒立面孔预测的干扰,此时全局信息对倒立面孔识别贡献将会接近于0,从而间接地提高了局部特征信息的权重。在正立面孔作为输入时,模型识别率将会提高,即局部信息将会对整体信息产生有益的补充作用。综上考虑,结合视觉机制特性以及模型计算的简便性,当$\lambda $参数设置为0.6具有较好的性能。

2.3 样本集对识别性能的影响

为提高混合识别模型在两类测试数据集上的识别率,对模型训练方式改进,首先,用正立面孔样本做模型预训练,并固定卷积和全局特征的参数,其次,不同于上述实验仅用倒立面孔集训练MLPB模块,而是利用正立和倒立面孔混合样本集训练,其目的是使MLPB模块同时具有对正立和倒立面孔局部特征的区分能力。

表 4可以看出,改进的训练方式在正立面孔识别率可以达到100%,有2%准确率的提高;同时该模型在倒立面孔识别率达到93%,较之前仅仅用倒立面孔训练的模型,有了明显的提高。反观第一栏中直接用混合样本训练,识别率非常低,说明这样的训练方式将会导致模型内部结构混乱。训练成功的神经网络面对同一个人的不同人脸输入时,卷积层输出的特征应具有较高的相似性。然而相对于正立面孔来说,倒立面孔经过卷积层后的特征是倒置的,没有特殊设计直接输入到全连接层,识别的人脸类别将与正立面孔不同。因此直接混合训练将导致预测函数识别混乱,从而损失函数不能收敛。为了避免特征倒置造成识别混乱的现象,本文提出的模型正立和倒立面孔选取的局部特征区域有所不同,在正立面孔提取的局部特征是左眼为主的左上区、右眼为主的右下区和口鼻为主的中间区,倒立面孔提取的局部特征是左下巴为主的左下区、右下巴为主的右下区和鼻子嘴巴为主的中间区。模型参数训练时,同一个人的正脸和反脸的局部特征保持着较高的区分性,使得MLPB层具备对正立和倒立人脸的区分能力,从而模型的识别准确率保持较高的水平。

表 4 不同的样本集训练方式对面孔识别率的影响
Table 4 Influence of different training methods on face recognitionrate

下载CSV
/%
面孔 训练方式
混合样本直接训练 正立面孔预训练倒立再训练 正立面孔预训练,混合面孔再训练
正立 15 98 100
倒立 15 46 93

3 结论

本文通过卷积神经网络对输入图像特征的纹理敏感性的特点,实现对正立面孔和倒立面孔的预处理,考虑到局部的参与识别的生物学机制,设计了基于局部特征的池化神经层,实现了多局部特征融合的网络结构,同时引入了高级视觉皮层中左右半脑相互协作的关系,提出一种融合整体和局部信息的预测函数,重点考察了训练数据因素和局部特征与整体特征的关系因素对正立和倒立面孔识别率的影响。在结果的讨论中,本文提出的混合识别模型比传统的面孔识别模型在本文构建的数据集上的识别率上有了一定程度的提高,最后实现了正立和倒立面孔混合识别的目的。本文提出的正立和倒立面孔混合识别,为面孔识别技术提供了新的研究思路,探讨多视通路融合如何在高级视皮层的图像理解与视觉认知中发挥作用。

参考文献

  • [1] Perlibakas V. Distance measures for PCA-based face recognition[J]. Pattern Recognition Letters, 2004, 25(6): 711–724. [DOI:10.1016/j.patrec.2004.01.011]
  • [2] Turk M, Pentland A. Eigenfaces for recognition[J]. Journal of Cognitive Neuroscience, 1991, 3(1): 71–86. [DOI:10.1162/jocn.1991.3.1.71]
  • [3] Sun Y, Wang X G, Tang X O. Deep learning face representation from predicting 10000 classes[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 1891-1898. [DOI:10.1109/CVPR.2014.244]
  • [4] Sun Y, Chen Y H, Wang X G, et al. Deep learning face representation by joint identification-verification[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal: ACM, 2014: 1988-1996. http://arxiv.org/abs/1406.4773
  • [5] Sun Y, Wang X G, Tang X O. Deeply learned face representations are sparse, selective, and robust[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 2892-2900. [DOI:10.1109/CVPR.2015.7298907]
  • [6] Schroff F, Kalenichenko D, Philbin J. FaceNet: a unified embedding for face recognition and clustering[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 815-823. [DOI:10.1109/CVPR.2015.7298682]
  • [7] Wen Y D, Zhang K P, Li Z F, et al. A discriminative feature learning approach for deep face recognition[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam: Springer, 2016: 499-515. [DOI:10.1007/978-3-319-46478-7_31]
  • [8] Liu W Y, Wen Y D, Yu Z D, et al. Large-margin softmax loss for convolutional neural networks[C]//Proceedings of the 33rd International Conference on International Conference on Machine Learning. New York: ACM, 2016: 507-516. http://dl.acm.org/citation.cfm?id=3045445
  • [9] Leder H, Goller J, Forster M, et al. Face inversion increases attractiveness[J]. Acta Psychologica, 2017, 178: 25–31. [DOI:10.1016/j.actpsy.2017.05.005]
  • [10] Hills P J, Mileva M, Thompson C, et al. Carryover of scanning behaviour affects upright face recognition differently to inverted face recognition[J]. Visual Cognition, 2016, 24(9-10): 459–472. [DOI:10.1080/13506285.2017.1314399]
  • [11] Itier R J, Taylor M J. Face recognition memory and configural processing:a developmental ERP study using upright, inverted, and contrast-reversed faces[J]. Journal of Cognitive Neuroscience, 2004, 16(3): 487–502. [DOI:10.1162/089892904322926818]
  • [12] Schwartz N Z. Reconsidering face specialization and faceinversion[D]. California: University of Southern California, 2007. http://digitallibrary.usc.edu/cdm/compoundobject/collection/p15799coll127/id/556663/rec/2
  • [13] Leder H, Bruce V. Feature processing from upright and inverted faces[M]//Wechsler H, Phillips P J, Bruce V, et al. Face Recognition. Berlin, Heidelberg: Springer, 1998: 547-555. [DOI:10.1007/978-3-642-72201-1_34]
  • [14] DeHeering A, Rossion B, Maurer D. Revisiting upright and inverted face recognition in 6 to 12-year-old children and adults[J]. Journal of Vision, 2010, 10(7): 581. [DOI:10.1167/10.7.581]
  • [15] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]//Proceedings of the 13th European Conference on Computer Vision-ECCV 2014. Switzerland: Springer, 2014: 818-833. [DOI:10.1007/978-3-319-10590-1_53]
  • [16] Sermanet P, Eigen D, Zhang X, et al. OverFeat: integrated recognition, localization and detection using convolutional networks[J]. arXiv: 1312. 6229, 2013. http://www.researchgate.net/publication/259441043_OverFeat_Integrated_Recognition_Localization_and_Detection_using_Convolutional_Networks
  • [17] Ren S Q, He K M, Girshick R, et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137–1149. [DOI:10.1109/TPAMI.2016.2577031]
  • [18] Girshick R. Fast R-CNN:Fast region-based convolutional networks for object detection[J]. Computer Science, 2015: 1440–1448. [DOI:10.1109/ICCV.2015.169]
  • [19] He K, Zhang X, Ren S, et al. Spatial pyramid pooling in deep convolutional networks for visualrecognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 37(9): 1904–1916. [DOI:10.1109/TPAMI.2015.2389824]
  • [20] Helmut L, Vicki B. When inverted faces are recognized:The role of configural information in face recognition[J]. Q J Exp Psychol A, 2000, 53(2): 513–536. [DOI:10.1080/713755889]
  • [21] Bartlett J C, Searcy J. Inversion and configuration of faces[J]. Cognitive Psychology, 1993, 25(3): 281–316. [DOI:10.1006/cogp.1993.1007]