Print

发布时间: 2018-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170407
2018 | Volume 23 | Number 3




    CACIS 2017学术会议专栏    




  <<上一篇 




  下一篇>> 





遮挡表情变化下的联合辅助字典学习与低秩分解人脸识别
expand article info 付晓峰, 张予, 吴俊
杭州电子科技大学计算机学院, 杭州 310018

摘要

目的 从真实环境中采集到的人脸图片通常伴随遮挡、光照和表情变化等因素,对识别结果产生干扰。在许多特殊环境下,训练样本的采集数量也无法得到保证,容易产生训练样本远小于测试样本的不利条件。基于以上情况,如何排除复杂的环境变化和较少的训练样本等多重因素对识别效果的影响逐渐成为了人脸识别方向需要攻克的难题。方法 以低秩矩阵分解为基础,分别使用非凸秩近似范数和核范数进行两次低秩矩阵分解,以达到去除遮挡干扰的 目的 。首先通过非凸稳健主成分分析分解得到去除了光照、遮挡等变化的低秩字典。为消除不同人脸类的五官等共通部分的影响,加快算法收敛效率,将得到的低秩字典用作初始化,进行基于核范数的第二次秩近似分解,以获得去除了类间不相关判别性的低秩字典用于分类。最后针对训练样本较少和遮挡样本占比过大等问题,选用同一数据库中不用做训练和测试的辅助数据作为辅助字典模拟可能出现的遮挡、光照等影响,通过最小化稀疏表示重构误差进行分类识别。结果 选用AR库和CK+库分别进行实验。在AR库的实验中,通过调整训练图片中遮挡、光照和表情变化的样本比例来检测算法性能。其中,在遮挡图片占比分别为1/7和3/7的训练集中,无遮挡图片由无干扰和光照表情干扰图片联合组成。在遮挡图片占比为2/7的训练集中,无遮挡图片全由光照表情变化图片组成。实验结果表明,在多种实验情况下均获得较高识别率。其中根据不同遮挡比例,分别获得97.75%、92%、95.25%和97.75%、90%、95.25%等识别率。与同类算法对比提高3%~5%。选用的外部数据从10类人脸至40类依次增加,获得的识别结果为96.75%~98%,与同类算法相比提高了2%~3%。在CK+表情库中,选用同伦算法配合分类求解,获得的识别结果为95.25%。结论 本文提出了一种在克服复杂环境变化和训练样本不足两个方面具有高效性和鲁棒性的人脸识别算法,实验结果表明,本文算法在不同数据库中都具有高效性,未来的研究方向包括将算法应用于联立人脸和表情识别,模拟更为复杂的噪声状况,以期达到更为优异的结果。

关键词

人脸识别; 低秩分解; 字典学习; 结构不相关

Occlusion expression variation face recognition based on auxiliary dictionary and low rank decomposition
expand article info Fu Xiaofeng, Zhang Yu, Wu Jun
School of Computer Science and Technology, Zhejiang DianZi University, Hangzhou 310018, China
Supported by: National Natural Science Foundation of China (61672199, 61100100); Natural Science Foundation of Zhejiang Province, China (Y1110232)

Abstract

Objective Face recognition has an important role in our daily life. Applications are increasingly using face recognition as a useful interactive function. Real-life environments often introduce complex effects on data collection. Thus, face recognition always encounters challenges from several variations and occlusions. Face images collected from the real-world environment are usually accompanied with factors, such as occlusion, illumination, and expression changes, that interfere with recognition results. The number of collected training samples cannot be guaranteed in many special circumstances. Sometimes, the number of training samples is much smaller than the number of test samples. This paper aims to address difficult face recognition problems, such as eliminating complex environmental changes, undersampled training sets, and other recognition factors. Method This paper proposes an efficient face recognition algorithm under occlusion and the expressed variable, which is based on low rank approximation decomposition and auxiliary dictionary learning. It utilizes non-convex rank approximation norm and nuclear norm to perform matrix decomposition twice. The algorithm efficiently eliminates gross sparse errors on occlusion and other factors. First, we obtain the initial low-rank dictionary without illumination and occluded variation based on the non-convex robust principal component analysis algorithm to increase the convergence efficiency of the algorithm. Second, we perform the second low-rank decomposition based on a nuclear norm to obtain discriminant and incoherent low-rank dictionary and eliminate the influence of common facial parts through different classes. Finally, we choose the auxiliary data from the same database as an auxiliary dictionary that can simulate possible interference to overcome the problem of insufficient training samples and the large number of occlusion samples. The testing samples can be classified by minimizing the reconstruction error. This study considered the variation of noise, occlusion, illumination, and expression in the natural environment. The proposed efficient algorithm extracts low-complexity components that correspond to facial attributes, which are mutually incoherent among different classes (e.g., identity and expression) from training data, even in the presence of gross sparse errors. The lack of training data, joint low-rank dictionary, and auxiliary dictionary is addressed, and the weighted reconstruction model is established to complete the classification. Result We test our algorithm with the AR and CK+ databases. Experiments on both databases show that the proposed algorithm can achieve outstanding recognition accuracy. We divided the experiments on the AR database into three different training scales. We choose different numbers of images occluded by a scarf or sunglasses with an occlusion percent of 20%-40%. The number of occluded images that contain a scarf or sunglasses increased from one to three, and the unoccluded images decreased from six to four. The training set on each person consists of seven images. With one or three occluded images in the training set, the uncovered images consist of natural images with no extra interface factors, such as expression and illumination. However, when the proportion of the covered images is two in seven, the other five uncovered images contain expression and illumination variables. Experimental results demonstrate that the proposed algorithm has a higher recognition rate in a variety of experimental cases. According to the cover types, such as scarves and sunglasses, the recognition rates are 97.75%, 92%, 95.25%, 97.75%, 90%, and 95.25%. Compared with the recognition accuracy of recent algorithms, such as sparse representation classification, robust principal component analysis (RPCA), and non-convex RPCA, the recognition accuracy of the proposed method improved by 3% to 5%. The recognition results are 96.75%-98% when the amount of selected external data increased from 10 to 40. The recognition rates of the proposed method's recognition rates are 2%-3% higher than those of the compared algorithms. Conclusion The algorithm proposed in this paper can overcome the complex environmental variation and insufficient training sample problems effectively and robustly. We obtained state-of-the-art performance after testing on different databases. This study attempts to deal with data with multiple occlusions. The proposed algorithm aims to adapt to complex interference factors and achieves high recognition accuracy. However, this algorithm does not effectively deal with joint expression and face recognition. Thus, further research is needed to understand figure joint expression and face recognition.

Key words

face recognition; low-rank decomposition; dictionary learning; structure incoherent

0 引言

人脸图片总是包含着丰富的面部信息,近几年来,对于人脸图片的处理和研究也涵盖了应用生活的方方面面。在人工智能、模式识别和图像处理等领域,人脸识别也占据了一席之地,是经典算法和先进技术的研究热点。然而,目前许多人脸识别的研究方法均是建立在无遮挡或无光照变化等良好的环境条件下进行。在真实环境中,我们常常要对有遮挡、噪声和光照、表情等变化的人脸图片进行处理。因此,当处理在复杂环境下采集的数据时,许多人脸识别算法的鲁棒性和识别率就会有所下降。

在当前的机器学习和数据挖掘等应用中,人脸识别多采用在姿态、表情和光照等变化下提取面部有鉴别性的特征来训练分类器并进行识别分类。为了达到这一目的,许多高效的子空间分析算法被提出,例如Eigenfaces[1]、Fisherfaces[2]、Laplacianfaces[3]等,这些经典算法都在人脸识别领域取得了较好的识别效果。许多特征提取方法也被用于提取人脸面部特征,其中局部二值模式(LBP)[4-5]、小波变换(Gabor)[6]以及空间金字塔匹配(SPM)[7]等算法为代表进行面部特征描述,同时也在人脸识别和表情识别领域多有涉猎,取得不错的效果。

然而,在上述提到的算法中,许多算法对于数据中的变化、污染和噪声等干扰不具有鲁棒性,容易受到噪声的影响。因此Candès等人[8]提出了以鲁棒主成分分析法(RPCA)为代表的一系列算法,旨在将人脸图片分为保留人脸结构特征信息的低秩内容和包含噪声、遮挡、光照等干扰在内的稀疏内容。通过图片重建的方式合理地去除人脸图片遮挡的干扰信息,高效地重建保留特征信息的人脸图片,并根据重建后的人脸图片进行人脸识别。

为了克服上述经典算法对噪声敏感以及训练图片比例等问题,本文算法采用对主体训练集进行多次低秩分解的方式降低遮挡和光照变化的影响及去除类间相关性。并将数据集划分为主体数据集和辅助数据集,通过训练辅助数据获得能够模拟环境遮挡变化的辅助字典。将多次秩近似分解获得的代表人脸身份信息的低秩重构字典与辅助字典联立,将通过加权重构残差模型获得测试图片所属的类别。图 1展示了本文提出的算法实现过程,由于非凸稳健主成分分析算法(Non-convexRPCA)[9]较之RPCA有更优越的去遮挡效果,于是主体训练集首先使用其进行第1次低秩分解,分解得到的低秩内容在第2次去除类间相关性的低秩分解中进行初始化。由于人脸图片之间有较多的相关信息,因此根据判别相关性去除算法(DICA)[10]保留图片结构(低秩和稀疏)的基础上进行基于核范数和不相关子空间的第2次低秩分解得到用于分类的低秩字典。

图 1 本文算法流程图
Fig. 1 Illustration of our proposed method

可以看出,本文充分考虑模拟自然环境下的噪声、遮挡、光照、表情等变化,通过多次秩近似分解分别去除光照、表情、遮挡等复杂环境对数据的影响和去除类间共同部分的相关性。并利用辅助数据模拟环境变化,建立加权重构模型完成分类,以克服训练图片不足和遮挡图片占比过大等问题。通过实验证明,本文算法与对比算法相比能获得更为准确的识别率。

1 相关知识

1.1 鲁棒主成分分析法和低秩矩阵分解

在许多图像处理和模式识别的应用中,如何处理高维度数据是需要攻克的难题,因此如何将高维度数据映射到低维空间的降维技术是充满挑战的研究课题。在诸多降维技术中,主成分分析法(PCA)[11]是其中应用最为广泛最为人所知的算法,并且具有良好的应用效果。然而PCA算法在图像处理的过程中对噪声较为敏感。考虑到鲁棒性,由Candès等人[8]在2011年提出了鲁棒主成分分析(RPCA)算法。RPCA算法的提出主要是用于将矩阵数据分解为低秩内容和稀疏内容。本文的算法也是建立在RPCA的分解基础上,进行了改进,获得了识别率和运行效率等方面的提高。假设数据矩阵$\boldsymbol{X}$,通过低秩矩阵分解后,将矩阵$\boldsymbol{X}$分解为矩阵$\boldsymbol{Z}+\boldsymbol{E}$。其中,$\boldsymbol{Z}$是分解后得到的低秩内容,$\boldsymbol{E}$是相关的稀疏内容。需要求解的最小化问题为

$ \mathop {\min }\limits_{\mathit{\boldsymbol{Z}},\mathit{\boldsymbol{E}}} r\left( \mathit{\boldsymbol{Z}} \right) + \lambda {\left\| \mathit{\boldsymbol{E}} \right\|_0}\;\;\;{\rm{s}}.\;{\rm{t}}.\;\;\;\mathit{\boldsymbol{X}} = \mathit{\boldsymbol{Z}} + \mathit{\boldsymbol{E}} $ (1)

式中,$r(\boldsymbol{Z})$是矩阵$\boldsymbol{Z}$的秩近似算子,$\lambda $是控制稀疏矩阵$\boldsymbol{E}$的权重参数。可以看出,式(1)是一个NP难度问题,为更方便地求解该类问题,通常将其中的秩近似算子和${{\rm{l}}_0}$范数分别转换成核范数和${{\rm{l}}_1}$范数。转换后的凸函数形式为

$ \mathop {\min }\limits_{\mathit{\boldsymbol{Z}},\mathit{\boldsymbol{E}}} {\left\| \mathit{\boldsymbol{Z}} \right\|_ * } + \lambda {\left\| \mathit{\boldsymbol{E}} \right\|_1}\;\;\;{\rm{s}}.\;{\rm{t}}.\;\;\;\mathit{\boldsymbol{X}} = \mathit{\boldsymbol{Z}} + \mathit{\boldsymbol{E}} $ (2)

式中,矩阵$\boldsymbol{Z}$的核范数${\left\| \boldsymbol{Z} \right\|_*}$是其奇异值的和。${{\rm{l}}_1}$范数为矩阵$\boldsymbol{E}$的所有元素的绝对值之和。通过文献[8]可以看出,求解式(2)等价于求解原始的低秩分解问题,如式(1)。

1.2 稀疏表示分类

近年来,随着Wright等人[12]提出了稀疏表示分类(SRC),许多相关的改进算法和应用也接踵而至。而SRC算法在人脸识别、表情识别等模式识别领域的广泛应用也足以证明它的高效性和鲁棒性。

对于测试图片$\boldsymbol{y}$,SRC通过密码本$\boldsymbol{D} = [{\boldsymbol{D}_1}, {\boldsymbol{D}_2}, \cdots, {\boldsymbol{D}_K}] \in {\mathbb{R}^{d \times m}}$线性稀疏表示$\boldsymbol{y}$。其中${\boldsymbol{D}_K} \in {\mathbb{R}^{d \times {m_k}}}$表示图片列向量化的第$k$类的训练矩阵,${{m_k}}$为该类的图片个数。SRC通过求解${{\rm{l}}_1}$范数问题(式(3))来推导获得每一幅训练图片$\boldsymbol{y}$的稀疏表示系数,即

$ \mathop {\min }\limits_\alpha \left\| {\mathit{\boldsymbol{y}} - \mathit{\boldsymbol{D\alpha }}} \right\|_2^2 + \lambda {\left\| \mathit{\boldsymbol{\alpha }} \right\|_1} $ (3)

获得稀疏表示系数$\mathit{\boldsymbol{\alpha }}$后,输入图片$\boldsymbol{y}$可通过式(4)完成识别,即

$ {l^ * } = \mathop {\min }\limits_i \left\| {\mathit{\boldsymbol{y}} - \mathit{\boldsymbol{D}}{\mathit{\boldsymbol{\delta }}_i}\left( \mathit{\boldsymbol{\alpha }} \right)} \right\|_2^2 $ (4)

式(4)中${\mathit{\boldsymbol{\delta }}_i}\left(\mathit{\boldsymbol{\alpha }} \right) \in {\mathbb{R}^{m \times 1}}$是一个向量,其唯一的非零原子是$\mathit{\boldsymbol{\alpha }}$中与$i$类相关联的原子。于是测试图片$\boldsymbol{y}$被识别为字典与稀疏系数的重建残差中最小的一类。SRC算法的核心思想就是能够找到线性重建与测试图片残差最小的类。传统的SRC算法都希望能够通过获取大量的训练样本来组成过完备的字典,以尽可能提高分类的准确率。然而这一情况在现实条件应用中可能得不到充分地满足,当训练数据采样不足甚至少于测试数据时,识别效果就会有所下降。因此,许多研究在这一方向上做了改进。例如,由Deng[13]提出的扩展SRC(ESRC)算法,通过构建外部数据库来模拟可能出现的识别数据变化的方式来弥补训练数据较少所产生的信息不足,从而获得良好的识别效果。在本文算法中,选择构建辅助字典来完成这一步骤,实验结果表明,辅助字典的加入能够有效地提高人脸识别率。

2 联合辅助字典学习与低秩分解的遮挡表情人脸识别

在将数据库划分为主体数据集和辅助数据集的情况下,对主体数据集中的每一类训练人脸图片进行非凸稳健主成分分析分解(Non-convex RPCA),将分解后的低秩内容作为去相关性秩近似分解的初始化子空间矩阵,经过交替方向乘子法(ADMM)[14]算法求解后,将得到的低秩内容作为最终用于分类的低秩字典。在识别分类环节,添加辅助数据集中的图片训练得到辅助字典,为准确识别可能出现的遮挡干扰变化提供帮助。

如第1节所提到的,假设共有$K$类人脸图片,输入的人脸图片组成训练矩阵$\boldsymbol{X} = [{\boldsymbol{X}_1}, {\boldsymbol{X}_2}, \cdots, {\boldsymbol{X}_K}]$,其中,${\boldsymbol{X}_K} \in {\mathbb{R}^{d \times {m_k}}}$为每一类的人脸图片矩阵。$d$为向量化的人脸图片维度,${{m_k}}$为该类图片的数量。令$\boldsymbol{y} \in {\mathbb{R}^{d \times 1}}$为列向量化的测试图片。

2.1 使用非凸稳健主成分分析法进行初始化

在传统的稳健主成分分析框架的基础上,引入近年新提出的秩近似分解算法即非凸稳健主成分分析[9],定义一种新的矩阵范数$\gamma $范数,即

$ {\left\| \mathit{\boldsymbol{Z}} \right\|_\gamma } = \sum\limits_i {\frac{{\left( {1 + \gamma } \right){\sigma _i}\left( \mathit{\boldsymbol{Z}} \right)}}{{\gamma + {\sigma _i}\left( \mathit{\boldsymbol{Z}} \right)}}} ,\gamma > 0 $ (5)

式中,${\sigma _i}\left(\boldsymbol{Z} \right)$为矩阵$\boldsymbol{Z}$的奇异值。当$\gamma $趋于0时,有$\mathop {\lim }\limits_{\gamma \to 0} {\left\| \boldsymbol{Z} \right\|_\gamma } = r(\boldsymbol{Z})$。当$\gamma $趋于无穷大时为核范数,即$\mathop {\lim }\limits_{\gamma \to \infty } {\left\| \boldsymbol{Z} \right\|_\gamma } = r{\left\| \boldsymbol{Z} \right\|_*}$。因此,传统的稳健主成分分析框架可被改写为

$ \mathop {\min }\limits_{\mathit{\boldsymbol{Z}},\mathit{\boldsymbol{E}}} {\left\| \mathit{\boldsymbol{Z}} \right\|_\gamma } + \lambda {\left\| \mathit{\boldsymbol{E}} \right\|_1}\;\;\;{\rm{s}}.\;{\rm{t}}.\;\;\;\mathit{\boldsymbol{X}} = \mathit{\boldsymbol{Z}} + \mathit{\boldsymbol{E}} $ (6)

由于当矩阵奇异值慢慢大于1时,核范数在本文实验过程中会慢慢偏离矩阵真实的秩,选取$\gamma $=0.01使得${\left\| \boldsymbol{Z} \right\|_\gamma }$能够最为贴近矩阵$\boldsymbol{Z}$真实的秩。与核范数秩近似相比,引入的$\gamma $范数能够克服核范数中不同奇异值的惩罚项不平衡的问题。与传统的稳健主成分分析算法相比,非凸稳健主成分分析法能够更贴近矩阵的秩估计,达到抗干扰能力强、秩近似偏差较小等优势。因此,在本文提出的算法中,首先使用非凸稳健主成分分析算法对每类人脸进行低秩内容和稀疏内容的分解。其中低秩内容为中性人脸内容,稀疏部分为人脸遮挡或噪声污染等。

为求解式(6),本文选用扩展拉格朗日乘子法(ALM)[15]对训练数据按类别进行优化。在输入训练数据矩阵$\boldsymbol{X}$后优化得到的低秩内容为$\boldsymbol{Z} = [{\boldsymbol{Z}_1}, {\boldsymbol{Z}_2}, \cdots, {\boldsymbol{Z}_K}]$

经过$\gamma $范数完成第一次低秩分解后的效果如图 2所示。

图 2 非凸稳健主成分分析重建样本
Fig. 2 Training images reconstructed by non-convex RPCA algorithm
((a) training samples in AR database; (b) reconstruct low-rank component by non-convex RPCA)

可以看出经过第1次秩近似范数分解后的人脸样本图片中的遮挡和光照变化等干扰基本除去。初始化低秩字典保留了较为完整的人脸矩阵信息。

2.2 使用核范数低秩分解去除类间相关性

在解决人脸识别的问题中,经过研究不同类别人脸之间仍具有大量的共同内容,例如眼睛的位置、五官分布等等。为了更好地做到不同人的类别之间的区分,Wei[16]提出的LRSI算法中添加了去除类与类之间相关性的正则项,获得了良好的分类效果。本文在文献[10]的基础上,引入$\gamma $范数分解后的低秩内容作为初始化矩阵,按照人脸类别依次对输入的训练数据进行分解。

将每一幅训练集中的人脸图片向量化后用$\boldsymbol{x} \in {\mathbb{R}^{d \times 1}}$表示,将$\boldsymbol{x}$用每一类的内容${\boldsymbol{q}_i} \in {\mathbb{R}^{d \times 1}}$求和来表示。则$\boldsymbol{x}$可被表示为

$ \mathit{\boldsymbol{x}} = \sum\limits_{i = 1}^K {{\mathit{\boldsymbol{q}}_i}} $ (7)

式中,假设每一类的${\boldsymbol{q}_i}$都分布在同一个线性正交的子空间中,用${\boldsymbol{M}_i} \in \mathbb{R}d \times {m_i}$来表示。同时用${\boldsymbol{N}_i} \in \mathbb{R}{m_i} \times d$表示将$\boldsymbol{x}$投影到${{m_i}}$维空间的映射矩阵。因此可以得到

$ {\mathit{\boldsymbol{q}}_i} = {\mathit{\boldsymbol{M}}_i}{\mathit{\boldsymbol{N}}_i}\mathit{\boldsymbol{x}} $ (8)

根据文献[10],式(8)可以通过最小化${\left\| {{\boldsymbol{N}_i}} \right\|_*}$的方式将每类内容分解到映射空间${{\boldsymbol{N}_i}}$。将式(7) (8)结合,并添加冗余干扰项$\boldsymbol{o} \in {\mathbb{R}^{d \times 1}}$,可以得到

$ \mathit{\boldsymbol{x}} = \sum\limits_{i = 1}^K {{M_i}{N_i}\mathit{\boldsymbol{x}}} + \mathit{\boldsymbol{o}} $ (9)

式(9)可达到分解目的,式中,表示向量${[{({\mathit{\boldsymbol{N}}_1}\mathit{\boldsymbol{x}})^{\rm{T}}}, {\left({{\mathit{\boldsymbol{N}}_2}\mathit{\boldsymbol{x}}} \right)^{\rm{T}}}, \cdots, {\left({{\mathit{\boldsymbol{N}}_K}\mathit{\boldsymbol{x}}} \right)^{\rm{T}}}]^{\rm{T}}}$是组稀疏的,其中非零项代表了样本$\boldsymbol{x}$所属的类别。同时,添加去除类间共同部分(如五官)相关性的正则项$\sum\limits_{i \ne j} {\left\| {{\mathit{\boldsymbol{N}}_i}\mathit{\boldsymbol{N}}_j^{\rm{T}}} \right\|_{\rm{F}}^2} $,则待求解的目标函数为

$ \begin{array}{*{20}{c}} {\mathop {\arg \min }\limits_{{\mathit{\boldsymbol{M}}_i}{\mathit{\boldsymbol{N}}_i}\mathit{\boldsymbol{o}}} {\lambda ^{\left( i \right)}}\sum\limits_{i = 1}^K {{{\left\| {{\mathit{\boldsymbol{N}}_i}} \right\|}_ * }} + \eta \sum\limits_{i \ne j} {\left\| {{\mathit{\boldsymbol{N}}_i}{\mathit{\boldsymbol{N}}_j}} \right\|_{\rm{F}}^2} + }\\ {{\lambda _1}{{\left\| \mathit{\boldsymbol{O}} \right\|}_1}}\\ {{\rm{s}}.\;{\rm{t}}.\left\{ \begin{array}{l} \left. 1 \right)\mathit{\boldsymbol{X}} = \sum\limits_i^K {{\mathit{\boldsymbol{M}}_i}{\mathit{\boldsymbol{N}}_i}{\mathit{\boldsymbol{X}}_i}} + \mathit{\boldsymbol{O}}\\ \left. 2 \right)\mathit{\boldsymbol{M}}_i^{\rm{T}}{\mathit{\boldsymbol{M}}_i} = {\bf{I}} \end{array} \right.\;\;\;i = 1,2, \cdots ,K} \end{array} $ (10)

式中,${\boldsymbol{X}_i}$是向量化后的每类训练数据,$\boldsymbol{O}$表示异常数据矩阵,${\boldsymbol{\rm{I}}}$是兼容维度下的单位矩阵,参数$\lambda ^{(i)}$$\eta $$\lambda_1 $1均大于0,分别用来调节目标函数中3个组成部分的权重。

考虑到在第2次低秩分解中,需要同时优化求解${{M_i}}$${{N_i}}$,因此选用交替方向乘子法(ADMM)来求解函数的凸优化问题,则相应地拉格朗日扩展式为

$ \begin{array}{*{20}{c}} {{\rm{L}}\left( {{\mathit{\boldsymbol{M}}_i},{\mathit{\boldsymbol{N}}_i},\mathit{\boldsymbol{O}},\mathit{\boldsymbol{Y}},\mu } \right) = }\\ {{\lambda ^{\left( i \right)}}\sum\limits_{i = 1}^K {{{\left\| {{\mathit{\boldsymbol{N}}_i}} \right\|}_ * }} + \eta \sum\limits_{i \ne j} {\left\| {{\mathit{\boldsymbol{N}}_i}\mathit{\boldsymbol{N}}_j^{\rm{T}}} \right\|_{\rm{F}}^2} + {\lambda _1}{{\left\| \mathit{\boldsymbol{O}} \right\|}_1} + }\\ {{\rm{tr}}\left( {{\mathit{\boldsymbol{Y}}^{\rm{T}}}\left( {\mathit{\boldsymbol{X}} - \sum\limits_{i = 1}^K {{\mathit{\boldsymbol{M}}_i}{\mathit{\boldsymbol{N}}_i}{\mathit{\boldsymbol{X}}_i}} - \mathit{\boldsymbol{O}}} \right)} \right) + }\\ {\frac{\mu }{2}\left\| {\mathit{\boldsymbol{X}} - \sum\limits_{i = 1}^K {{\mathit{\boldsymbol{M}}_i}{\mathit{\boldsymbol{N}}_i}{\mathit{\boldsymbol{X}}_i}} - \mathit{\boldsymbol{O}}} \right\|_{\rm{F}}^2} \end{array} $ (11)

式中,$\boldsymbol{Y}$是拉格朗日乘子,$\mu $>0为惩罚系数。根据文献[10], 通过ADMM算法求解凸优化问题的算法如下:

输入:训练矩阵$\boldsymbol{X} \in {\mathbb{R}^{d \times m}}$, 第1次低秩分解得到的低秩内容$\boldsymbol{Z}$, 参数:$\lambda ^{(i)}$, $\eta $, $\lambda_1 $

初始化:对$\boldsymbol{Z}$作奇异值分解,令${\boldsymbol{Z}_i} = {\boldsymbol{U}_i}\boldsymbol{S}{\boldsymbol{V}_i}^{\rm{T}}$,则${\boldsymbol{M}_i}[0] = {\boldsymbol{U}_i}, {\boldsymbol{N}_i}[0] = \boldsymbol{U}_i^{\rm{T}}$,令$\boldsymbol{O}[0], \boldsymbol{Y}[0]$为零矩阵,$\mu [0] = 1/\left\| \boldsymbol{X} \right\|, \rho = 1.1, {\mu _{\max }} = {10^{10}}$

循环:$i=1:K$

1) 固定除${{\boldsymbol{M}_i}}$外的其他值

$ \begin{array}{*{20}{c}} {{\mathit{\boldsymbol{M}}_i}[t + 1] = }\\ {\mathop {\arg \min }\limits_{{\mathit{\boldsymbol{M}}_i}} L\left( {{\mathit{\boldsymbol{M}}_i},\mathit{\boldsymbol{Y}}\left[ t \right],\mu \left[ t \right]} \right) = }\\ {\mathop {\arg \min }\limits_{{\mathit{\boldsymbol{M}}_i}} \frac{{\mu \left[ t \right]}}{2}\left\| {\mathit{\boldsymbol{X}} - \sum\limits_{i = 1}^K {{\mathit{\boldsymbol{M}}_i}{\mathit{\boldsymbol{N}}_i}{\mathit{\boldsymbol{X}}_i}} - \mathit{\boldsymbol{O + }}\mu {{\left[ t \right]}^{ - 1}}\mathit{\boldsymbol{Y}}} \right\|_{\rm{F}}^2}\\ {{\rm{s}}.\;{\rm{t}}.\;\;\;\;\mathit{\boldsymbol{M}}_i^{\rm{T}}{\mathit{\boldsymbol{M}}_i} = {\bf{I}},\;\;\;i = 1,2, \cdots ,K} \end{array} $

2) 固定除${{\boldsymbol{N}_i}}$外的其他值

$ \begin{array}{*{20}{c}} {{\boldsymbol{N}_i}[t + 1] = }\\ {\mathop {\arg \min }\limits_{{\mathit{\boldsymbol{N}}_i}} L\left( {{\mathit{\boldsymbol{N}}_i},\mathit{\boldsymbol{Y}}\left[ t \right],\mu \left[ t \right]} \right) = }\\ {\mathop {\arg \min }\limits_{{\mathit{\boldsymbol{N}}_i}} {\lambda ^{\left( i \right)}}{{\left\| {{\mathit{\boldsymbol{N}}_i}} \right\|}_ * } + \eta \sum\limits_{i \ne j} {\left\| {{\mathit{\boldsymbol{N}}_i}\mathit{\boldsymbol{N}}_i^{\rm{T}}} \right\|_{\rm{F}}^2} + }\\ {\frac{{\mu \left[ t \right]}}{2}\left\| {\mathit{\boldsymbol{X}} - \sum\limits_{i = 1}^K {{\mathit{\boldsymbol{M}}_i}{\mathit{\boldsymbol{N}}_i}{\mathit{\boldsymbol{X}}_i}} - \mathit{\boldsymbol{O + }}\mu {{\left[ t \right]}^{ - 1}}\mathit{\boldsymbol{Y}}} \right\|_{\rm{F}}^2 = }\\ {\mathop {\arg \min }\limits_{{\mathit{\boldsymbol{N}}_i}} {\lambda ^{\left( i \right)}}{{\left\| {{\mathit{\boldsymbol{N}}_i}} \right\|}_ * } + f\left( {{\mathit{\boldsymbol{N}}_i}} \right),\;\;i = 1,2, \cdots ,K} \end{array} $

式中,$f({{\boldsymbol{N}_i}})$是平滑的二次可微项,因此梯度$\nabla f$是利普希茨连续的。可获得优化问题

$ \begin{array}{*{20}{c}} {\mathop {\min }\limits_{{N_i}} {\lambda ^{\left( i \right)}}{{\left\| {{\mathit{\boldsymbol{N}}_i}} \right\|}_ * } + }\\ {\frac{1}{2}\left\| {{\mathit{\boldsymbol{N}}_i} - \left( {{\mathit{\boldsymbol{N}}_i}\left[ t \right] - \frac{1}{L}\nabla f\left( {{\mathit{\boldsymbol{N}}_i}\left[ t \right]} \right)} \right.} \right\|_{\rm{F}}^2} \end{array} $

式中,$\boldsymbol{L}$>0是$\nabla f$的利普希茨连续的上边界。计算有

$ \begin{array}{*{20}{c}} {L = 1.02{\lambda _{\max }}\left[ {\mu \left[ t \right]{\mathit{\boldsymbol{X}}_i}\mathit{\boldsymbol{X}}_i^{\rm{T}} + } \right.}\\ {2\eta \left. {\sum\limits_{i \ne j} {{\mathit{\boldsymbol{N}}_i}{{\left[ t \right]}^{\rm{T}}}{\mathit{\boldsymbol{N}}_j}\left[ t \right]} } \right]} \end{array} $

3) 更新$\boldsymbol{O}[t+1]$

$ \begin{array}{*{20}{c}} {\mathit{\boldsymbol{O}}\left( {t + 1} \right) = \mathop {\arg \min }\limits_\mathit{\boldsymbol{O}} L\left( {\mathit{\boldsymbol{O}},\mathit{\boldsymbol{Y}}\left[ t \right],\mu \left[ t \right]} \right) = }\\ {\mathop {\arg \min }\limits_\mathit{\boldsymbol{O}} {\lambda _1}{{\left\| \mathit{\boldsymbol{O}} \right\|}_1} + }\\ {\frac{{\mu \left[ t \right]}}{2}\left\| {\mathit{\boldsymbol{X}} - \sum\limits_{i = 1}^K {{\mathit{\boldsymbol{M}}_i}{\mathit{\boldsymbol{N}}_i}{\mathit{\boldsymbol{X}}_i}} - \mathit{\boldsymbol{O + }}\mu {{\left[ t \right]}^{ - 1}}\mathit{\boldsymbol{Y}}} \right\|_{\rm{F}}^2} \end{array} $

4) 更新拉格朗日乘子

$ \begin{array}{*{20}{c}} {\mathit{\boldsymbol{Y}}\left[ {t + 1} \right] = \mathit{\boldsymbol{Y}}\left[ t \right] + \mu \left[ t \right]\left( {\mathit{\boldsymbol{X}} - \sum\limits_{i = 1}^K {{\mathit{\boldsymbol{M}}_i}{\mathit{\boldsymbol{N}}_i}{\mathit{\boldsymbol{X}}_i}} - } \right.}\\ {\left. {\mathit{\boldsymbol{O}}\left[ {t + 1} \right]} \right)} \end{array} $

5) 更新$\mu [t + 1] = \min(\rho \cdot \mu [t], {\mu _{\max }})$

6) 检查收敛条件, 若不收敛,继续循环过程;收敛则结束。

输出:${{\boldsymbol{M}_i}}$, ${{\boldsymbol{N}_i}}$

如算法所示,步骤1) 2)通过奇异值阈值操作子(SVT)[17]等算子来求解,即将收缩算子作用于奇异值。

收缩算子根据文献[8]中定义为

$ {S_\tau }\left[ a \right] = {\mathop{\rm sgn}} \left( a \right)\max \left( {\left| a \right| - \tau ,0} \right) $ (12)

式中,$\tau $为收缩阈值,$a$为待控制范围的变量,本文使用其矩阵版本按矩阵元素进行收缩。根据该种记法,有奇异值阈值算子${D_\tau }[\mathit{\boldsymbol{B}}] = \mathit{\boldsymbol{U}}\; {S_\tau }[\mathit{\Sigma }]{\mathit{\boldsymbol{V}}^{\rm{T}}}$, 其中$\mathit{\boldsymbol{B}}{\rm{ = }}\mathit{\boldsymbol{U \boldsymbol{\varSigma} }}\; {\mathit{\boldsymbol{V}}^{\rm{T}}}$为矩阵$\boldsymbol{B}$的奇异值分解操作,$\boldsymbol{B}$是待进行奇异值分解的矩阵,$\boldsymbol{U}$$\boldsymbol{V}$是分解得到的酉矩阵,$\boldsymbol{\varSigma}$对角线上的元素是矩阵$\boldsymbol{B}$的奇异值。基于矩阵$\boldsymbol{B}$的奇异值分解,有Procrustes操作子[18]定义为$P[\boldsymbol{B}] = \boldsymbol{U}{\boldsymbol{V}^{\rm{T}}}$

则步骤1)可求解为

$ \begin{array}{*{20}{c}} {{\mathit{\boldsymbol{M}}_i}\left[ {t + 1} \right] = }\\ {P\left[ {\left( {\mathit{\boldsymbol{X}} - \sum\limits_{i \ne j} {{\mathit{\boldsymbol{M}}_i}\left[ t \right]{\mathit{\boldsymbol{N}}_i}\left[ {t + 1} \right]{\mathit{\boldsymbol{X}}_i}} - \mathit{\boldsymbol{O}}\left[ t \right] + } \right.} \right.}\\ {\left. {\left. {\mu {{\left[ t \right]}^{ - 1}}\mathit{\boldsymbol{Y}}\left[ t \right]} \right)\left( {{\mathit{\boldsymbol{N}}_i}\left[ {t + 1} \right]\mathit{\boldsymbol{X}}_i^{\rm{T}}} \right)} \right]} \end{array} $ (13)

步骤2)可求解为

$ {\mathit{\boldsymbol{N}}_i}\left[ {t + 1} \right] = {D_{{\lambda ^{\left( i \right)}}/L}}\left[ \begin{array}{l} {\mathit{\boldsymbol{N}}_i}\left[ t \right] - \\ {L^{ - 1}}\nabla f\left( {{\mathit{\boldsymbol{N}}_i}\left[ t \right]} \right) \end{array} \right] $ (14)

通过求解凸优化问题得到的每类重建图片将组成字典用作下一步骤的人脸识别分类,即${\rm{\{ }}{\boldsymbol{D}_i}{\rm{ = }}{\boldsymbol{M}_i}{\boldsymbol{N}_i}{\boldsymbol{X}_i}{\rm{\} }}_{i = 1}^K$

2.3 基于辅助字典的人脸识别分类

通过2.2节中的核范数低秩分解过程,可得到去除了类间相关性的低秩内容组成的训练字典${\rm{\{ }}{\boldsymbol{D}_i}{\rm{ = }}{\boldsymbol{M}_i}{\boldsymbol{N}_i}{\boldsymbol{X}_i}{\rm{\} }}_{i = 1}^K$。选定数据库中未参与算法训练和测试的$Q$类数据图片为辅助数据集。将其划分为训练集${\boldsymbol{D}_e}$和测试集${\boldsymbol{Y}_e} = [{\boldsymbol{Y}_e}^{(1)}, {\boldsymbol{Y}_e}^{(2)}, \cdots, {\boldsymbol{Y}_e}^{(q)}]$。并将通过其训练得到辅助字典$\boldsymbol{A} \in {\mathbb{R}^{d \times m}}$。优化目标函数为

$ \begin{array}{*{20}{c}} {\mathop {\min }\limits_{\mathit{\boldsymbol{A}},\mathit{\boldsymbol{\omega }}} \sum\limits_{i = 1}^Q {\psi \left( {\mathit{\boldsymbol{Y}}_e^{\left( i \right)} - \left[ {{\mathit{\boldsymbol{D}}_e},\mathit{\boldsymbol{A}}} \right]\left[ {\begin{array}{*{20}{c}} {\mathit{\boldsymbol{\omega }}_d^i}\\ {\mathit{\boldsymbol{\omega }}_a^i} \end{array}} \right]} \right)} + \lambda {{\left\| {{\mathit{\boldsymbol{\omega }}^i}} \right\|}_1} + }\\ {\eta \psi \left( {\mathit{\boldsymbol{Y}}_e^{\left( i \right)} - {\mathit{\boldsymbol{D}}_e}{\delta _{{i_l}}}\left( {\mathit{\boldsymbol{\omega }}_d^{\left( i \right)}} \right) - \mathit{\boldsymbol{A\omega }}_a^{\left( i \right)}} \right)} \end{array} $ (15)

式中,向量${\mathit{\boldsymbol{\omega }}^{(i)}} = [{\mathit{\boldsymbol{\omega }}_d}^{(i)}; {\mathit{\boldsymbol{\omega }}_a}^{(i)}]$为与测试图片$\boldsymbol{Y}_e^{(i)}$对应的稀疏参数, ${\delta _{{i_l}}}(\boldsymbol{\omega} _d^{(i)})$输出一个向量,其中唯一的非零原子是$\boldsymbol{\omega} _d^{(i)}$中与第${{i_l}}$类相关联的原子(${{i_l}}$指代辅助数据集$\boldsymbol{Y}_e^{(i)}$的标签)。使用文献[19]中提出的$\psi $(·)的定义与优化模型的求解方法。获取辅助字典$\boldsymbol{A}$后的分类优化问题为

$ \mathop {\min }\limits_\mathit{\boldsymbol{\omega }} \psi \left( {\mathit{\boldsymbol{y}} - \left[ {\mathit{\boldsymbol{D}},\mathit{\boldsymbol{A}}} \right]\left[ {\begin{array}{*{20}{c}} {{\mathit{\boldsymbol{\omega }}_d}}\\ {{\mathit{\boldsymbol{\omega }}_a}} \end{array}} \right]} \right) + \lambda {\left\| \mathit{\boldsymbol{\omega }} \right\|_1} $ (16)

加权重建残差模型分类得到测试图片的识别类别

$ \begin{array}{*{20}{c}} {{\mathit{\boldsymbol{l}}^ * } = }\\ {\mathop {\arg \min }\limits_{\mathit{\boldsymbol{l}} \in \left\{ {1,2, \cdots ,K} \right\}} {{\left\| {{\mathit{\boldsymbol{W}}^ * }\left( {\mathit{\boldsymbol{y}} - \left[ {\mathit{\boldsymbol{D}},\mathit{\boldsymbol{A}}} \right]\left[ \begin{array}{l} {\delta _l}\left( {\mathit{\boldsymbol{\omega }}_d^ * } \right)\\ \mathit{\boldsymbol{\omega }}_a^ * \end{array} \right]} \right)} \right\|}_2}} \end{array} $ (17)

式中,${\boldsymbol{W}^*}$为相应的权重矩阵,${\omega ^*} = [\omega _d^*; \omega _a^*]$为式(16)求得的最优解,可求解得到识别类别。

本文提出的基于多种秩近似分解和辅助字典学习的人脸识别算法旨在解决复杂遮挡、光照环境和训练样本少于测试样本这两个问题。算法中利用第1次秩近似分解将样本光照、遮挡等效果去除,得到初始低秩字典,为第2次低秩分解提供初始化数据,缩短算法运行时间。接下来,通过基于核范数的第2次低秩分解将训练样本映射到保留每类特定结构内容的子空间,去除了类间共同部分(如五官)的相关性,获得具有判别性的训练字典。最后,针对训练样本较少或受污染部分较多等问题,利用不参与训练分类的辅助数据进行干扰模拟,训练得到辅助字典。通过低秩字典和辅助字典的联立求解获得测试图片的所属类别。

3 实验结果与分析

本文算法在AR[20]数据库、CK+[21]数据库中进行测试分析,训练样本如图 3所示。

图 3 CK+库和AR库中的数据样本
Fig. 3 Example registered images from CK+[21], AR[20]
((a)CK+database; (b)AR database)

3.1 AR数据库中的人脸识别

结合本文算法,为了测试在遮挡、光照变化等多重污染的环境条件下,选择AR数据库来进行人脸识别。AR数据库包含了126个人的超过4 000幅正面图片。其中每个人各有26幅图片,分别包含了表情和光照变化的正面无遮挡人脸图片和佩戴墨镜、围巾等干扰的人脸图片等。于是,在实验过程中,将26幅图片根据不同变化分为两个部分,每个部分13幅图片,包括3幅佩戴墨镜、3幅佩戴围巾和7幅具有光照和表情变化的无遮挡人脸图片。预处理阶段,将所有图片转化为灰度图片后降采样至55×40=2 200个像素。在本文的实验中,选择AR数据库中由20个男性和20个女性构成的子集进行训练和测试。根据调整遮挡图片在训练和测试集中占据的不同比例来检验算法。

在本环节的实验中,为尽可能地模拟现实应用中可能出现的干扰情况。在许多应用环境下,训练过程可能无法获得充足的无遮挡内容,因此也要考虑在含有遮挡图片的情况下进行训练。不同于其他人脸识别算法中仅使用无遮挡人脸,从第1部分中选择不同比例的无遮挡图片和遮挡图片。从第2部分中挑选测试图片。根据遮挡物的不同,将佩戴墨镜的遮挡图片看做遮盖人脸的20%,佩戴围巾的遮挡图片看做遮盖人脸的40%。考虑到无遮挡图片中含有表情和光照条件的变化,因此在训练环节,能够充分贴近现实情况。

遮挡训练图片数量分布如下:

实验1从训练集中每个人的第1部分中选取7幅图片进行训练,其中包括无遮挡图片和墨镜(围巾)图片,墨镜图片和围巾图片的个数分别为1、2、3,即最多时有3幅墨镜(围巾)遮挡图片。由于无遮挡图片仍包括表情、光照等变化,为了考察无遮挡图片中表情变化和光照变化的影响,在进行遮挡图片个数为2的实验中,特别选择了表情光照变化较为剧烈的无遮挡图片作为主体训练样本和辅助训练样本。挑选的样本示例情况如图 4所示。

图 4 遮挡比例2/7中的训练集图片
Fig. 4 Training set in 2/7 occlusion percentage

可以看出,在进行遮挡图片比例为2/7的实验中,无遮挡图片均带有表情或光照变化,可以达到考察表情和光照变化对实验结果影响的目的。

实验2从训练集中每个人的第1部分选取7幅无遮挡图片、3幅佩戴墨镜图片和3幅佩戴围巾图片。

同时,选取未参与训练和测试的10~40类的人脸图片用来学习辅助字典,如第2章2.3小节中介绍的,用来模拟可能出现的光照、表情和遮挡变化。分别从每个人的26幅图片中选择7~10幅由无遮挡图片、佩戴墨镜或者围巾的人脸图片组成的数据集。

本文同样考虑了近年来若干优秀的分解分类识别算法,例如SRC、ESRC、RPCA+SRC等,同时也考虑了仅进行一次低秩分解的情况。通过测试结果可以得出,本文提出的算法能够在各个测试比例下有效地提高识别率。图 5展示了佩戴围巾和墨镜的不同情况下,不同算法的识别率变化。使用同样的训练和测试样本,选用了稀疏表示(SRC)、非凸稳健主成分分析法+稀疏表示(NRPCA+SRC)、非凸稳健主成分分析法+辅助字典(NRPCA+RADL)等方法进行对比,对比结果如图 5表 1表 2所示,可以看出,本文算法获得了最高的识别率。

图 5表 1表 2可以看出,当与传统的SRC算法, 以及单独使用非凸稳健主成分分析(Non-Convex RPCA)等算法进行对比时,本文算法可以获得最高的识别率。其中,当只进行两次基于不同秩近似范数的低秩分解时,识别率相比一次的分解有所提高。而当在多次分解的基础上再加入能够模拟数据变化情况的辅助字典后,识别率能够得到更为显著的提高。并且这一规律在不同的遮挡变化和比例的多个情况下均得到证明。值得注意的是,在3种不同遮挡比例实验的所有算法中,由于无遮挡图片的干扰因素相对复杂,遮挡图片占比2/7的实验的识别率最低。可以得出,在遮挡比例变化的同时,复杂表情和光照变化的训练图片仍会为实验结果带来影响。与正常挑选无遮挡图片训练样本的占比为1/7和3/7的情况相比,所有算法的识别效率均有所下降。因此考虑进一步消除变化复杂的无遮挡图片带来的影响也是进一步提升算法性能的目标。但不难发现,本文提出的算法受到表情、光照变化的影响相对较小,仍能在对比算法中获得最高的识别率。

图 5 AR数据库中不同遮挡图片比例的识别率
Fig. 5 Performance comparisons with different proportion of occlude images in AR dataset

表 1 不同的围巾佩戴图片比例下的识别率
Table 1 Comparisons of recognition with different percentages of scarf images

下载CSV
/%
算法 Scarf遮挡比例
14%=1/7 29%=2/7 43%=3/7
NRPCA+SRC 57.75 49.25 58
SRC 82.50 74.00 74
NRPCA+RADL 86.50 79.00 73
Without RADL 94.25 88.50 92.50
本文 97.75 92.00 95.25

表 2 不同的墨镜佩戴图片比例下的识别率
Table 2 Comparisons of recognition with different percentages of sunglasses images

下载CSV
/%
算法 Glasses遮挡比例
14%=1/7 29%=2/7 43%=3/7
NRPCA+SRC 69.25 67.25 68.75
SRC 86.50 78.50 81.00
NRPCA+RADL 87.25 79.50 82.50
Without RADL 96.25 85.50 92.25
本文 97.75 90.00 97.00

上述情况只考虑了表情变化、光照变化和单一的遮挡情况,当图片遮挡情况变为既有围巾又有墨镜的混合遮挡时,同时考虑加入不同比例的辅助数据。实验结果如表 3所示。

表 3 墨镜和围巾混合佩戴条件下的识别率
Table 3 Comparisons of recognition with scarf and sunglasses images

下载CSV
算法 类数 识别率/%
Without RADL 95.96
本文 10 96.75
本文 20 98.00
本文 20(男女) 97.75
本文 30 98.00
本文 40 97.88

3.2 表情变化下的人脸识别

与AR数据库的光照和遮挡变化相比,表情的不同变化也为人脸识别提出了挑战。在一般情况下,CK+数据库鲜少被用于人脸识别,但是在不同的表情变换下,也给人脸识别加大了难度。本文的算法能够很好地对同一人的不同表情进行分解,分解出的低秩人脸内容基本不包含表情变化内容,能够良好地提高其人脸识别效率。本文实验中仅选用每一个表情变化序列中达到表情峰值的最后4帧。选择数据库中包含25个人,共108个序列的子集,并满足每一个人至少在生气、厌恶、害怕、幸福、悲伤、惊讶这6种表情中包含有4种。因此,在训练集中,每个人大约采集12幅图片,剩余的图片用作测试。由于在CK+库的实验中,不存在遮挡、光照等变化,而通过凸优化求解分解得到的低秩内容能够高效地去除表情变化的影响。因此在这一实验环节,并不采用辅助字典建模可能出现的变化,而是直接使用分解后的低秩内容做成的字典,采用同伦算法[22]求解SRC中的$\lambda_1 $范数优化问题,并取得了良好的效果。图 6表 4展示了本文算法与其他算法的识别率比较情况。

图 6 CK+数据库中的人脸识别率
Fig. 6 Comparison of recognition use CK+ database

表 4 表情变化下的人脸识别率
Table 4 Comparisons of recognition with expression variant

下载CSV
算法 识别率/%
SRC 7.06
NRPCA+SRC 74.12
本文+NN 77.06
本文+SRC 88.8
本文+同伦 95.25

通过实验结果可以看出,本文算法在多个数据库中都获得优越的识别率。值得注意的是,在具有遮挡、光照、表情等复杂环境变化的数据库中,在不同比例的遮挡训练集条件中,本文算法均获得了较高的识别率。同时在训练数据比例少于测试数据的情况下,调整不同数量的辅助数据均能达到高于其他算法的实验效果。

4 结论

本文提出了一种将多次低秩分解和辅助字典相结合去除类间相关性的人脸识别算法。与其他类似算法相比,将非凸稳健主成分分析法分解得到的低秩内容作为二次低秩分解初始化的步骤,将两次分解得到的内容结合起来,并有效地加入辅助字典模拟遮挡、表情等变化。能够获得更高的识别率,对遮挡样本和采样较少的情况具有更强的鲁棒性。

未来可能的研究方向包括将算法应用于联立人脸和表情识别,模拟更为复杂的噪声状况,以期达到更为优异的结果。

参考文献

  • [1] Turk M A, Pentland A P. Face recognition using eigenfaces[C]//Proceedings of 1991 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Maui, HI:IEEE, 1991:586-591.[DOI:10.1109/CVPR.1991.139758]
  • [2] Belhumeur P N, Hespanha J P, Kriegman D J. Eigenfaces vs. Fisherfaces:recognition using class specific linear projection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997, 19(7): 711–720. [DOI:10.1109/34.598228]
  • [3] He X F, Yan S C, Hu Y X, et al. Facerecognition using laplacianfaces[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(3): 328–340. [DOI:10.1109/TPAMI.2005.55]
  • [4] Shan C F, Gong S G, McOwan P W. Robust facial expression recognition using local binary patterns[C]//Proceedings of IEEE International Conference on Image Processing. Genova, Italy:IEEE, 2005:Ⅱ-370-3.[DOI:10.1109/ICIP.2005.1530069]
  • [5] Jiang B H, Valstar M, Martinez B, et al. A dynamic appearance descriptor approach to facial actions temporal modeling[J]. IEEE Transactions on Cybernetics, 2014, 44(2): 161–174. [DOI:10.1109/TCYB.2013.2249063]
  • [6] Li L S, Ying Z L, Yang T R. Facial expression recognition by fusion ofgabor texture features and local phase quantization[C]//Proceedings of the 201412th International Conference on Signal Processing. Hangzhou, China:IEEE, 2015:1781-1784.[DOI:10.1109/ICOSP.2014.7015300]
  • [7] Lazebnik S, Schmid C, Ponce J. Beyond bags of features:spatial pyramid matching for recognizing natural scene categories[C]//Proceedings of 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York, NY, USA:IEEE, 2006:2169-2178.[DOI:10.1109/CVPR.2006.68]
  • [8] Candès E J, Li X D, Ma Y, et al. Robust principal component analysis?[J]. Journal of the ACM (JACM), 2011, 58(3): 11. [DOI:10.1145/1970392.1970395]
  • [9] Kang Z, Peng C, Cheng Q.Robust PCA via nonconvex rank approximation[C]//Proceedings of 2015 IEEE International Conference on Data Mining. Atlantic City, NJ, USA:IEEE, 2015:211-220.[DOI:10.1109/ICDM.2015.15]
  • [10] Georgakis C, Panagakis Y, Pantic M. Discriminant incoherent component analysis[J]. IEEE Transactions on Image Processing, 2016, 25(5): 2021–2034. [DOI:10.1109/TIP.2016.2539502]
  • [11] Jolliffe I T. Principal component analysis and factor analysis[M]. New York, NY: Springer New York, 1986: 115-128.
  • [12] Wright J, Yang A Y, Ganesh A, et al. Robust face recognition via sparserepresentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2): 210–227. [DOI:10.1109/TPAMI.2008.79]
  • [13] Deng W H, Hu J N, Guo J. Extended SRC:undersampled face recognition via intraclass variant dictionary[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(9): 1864–1870. [DOI:10.1109/TPAMI.2012.30]
  • [14] Bertsekas D P, Rheinboldt W. Constrained Optimization and Lagrange Multiplier Methods[M]. New York: Academic press, 2014.
  • [15] Lin Z C, Chen MM, Ma Y. The augmented lagrange multiplier method for exact recovery of corrupted low-rank matrices[J]. Eprint Arxiv, 2010, 09
  • [16] Wei C P, Chen C F, Wang Y C F. Robust face recognition with structurally incoherent low-rank matrix decomposition[J]. IEEE Transactions on Image Processing, 2014, 23(8): 3294–3307. [DOI:10.1109/TIP.2014.2329451]
  • [17] Cai J F, Candès E J, Shen Z W. A singular value thresholding algorithm for matrix completion[J]. Siam Journal on Optimization, 2010, 20(4): 1956–1982. [DOI:10.1137/080738970]
  • [18] Zou H, Hastie T, Tibshirani R. Sparse principal component analysis[M]//Everitt B, Hothorn T. An Introduction to Applied Multivariate Analysis with R. New York:Springer, 2006:231-235.[DOI:10.1007/978-1-4419-9650-3]
  • [19] Wei C P, Wang Y C F. Undersampled face recognition via robust auxiliary dictionary learning[J]. IEEE Transactions on Image Processing, 2015, 24(6): 1722–1734. [DOI:10.1109/TIP.2015.2409738]
  • [20] Martínez A M, Benavente R. The AR face database[R]. CVC Technical Report 24. Barcelona, Spain:Computer Vision Center, 1998.
  • [21] Lucey P, Cohn J F, Kanade T, et al. The Extended Cohn-Kanade Dataset (CK+):A complete dataset for action unit and emotion-specified expression[C]//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops. San Francisco, CA, USA:IEEE, 2010:94-101.[DOI:10.1109/CVPRW.2010.5543262]
  • [22] YangA Y, Sastry S S, Ganesh A, et al. Fast ℓ1-minimization algorithms and an application in robust face recognition:A review[C]//Proceedings of 2010 IEEE International Conference on Image Processing. Hong Kong, China:IEEE, 2010:1849-1852.[DOI:10.1109/ICIP.2010.5651522]