Print

发布时间: 2018-08-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170506
2018 | Volume 23 | Number 8




    图像分析和识别    




  <<上一篇 




  下一篇>> 





结构化低秩字典学习的人脸识别
expand article info 李开宇, 胡燕, 崔益峰, 王平, 徐贵力
南京航空航天大学, 南京 211106

摘要

目的 现实中采集到的人脸图像通常受到光照、遮挡等环境因素的影响,使得同一类的人脸图像具有不同程度的差异性,不同类的人脸图像又具有不同程度的相似性,这极大地影响了人脸识别的准确性。为了解决上述问题对人脸识别造成的影响,在低秩矩阵恢复理论的基础上提出了具有识别力的结构化低秩字典学习的人脸识别算法。方法 该算法基于训练样本的标签信息将低秩正则化以及结构化稀疏同时引入到学习的具有识别力的字典上。在字典学习过程中,首先利用样本的重建误差约束样本与字典之间的关系;其次将Fisher准则应用到稀疏编码过程中,使其编码系数具有识别能力;由于训练样本中的噪声信息会影响字典的识别力,所以在低秩矩阵恢复理论的基础上将低秩正则化应用到字典学习过程中;接着,在字典学习过程中加入了结构化稀疏使其不丢失结构信息以保证对样本进行最优分类;最后再利用误差重构法对测试样本进行分类识别。结果 本文算法在AR以及ORL人脸数据库上分别进行了实验仿真。在AR人脸数据库中,为了分析样本不同维数对实验结果造成的影响,选取了第一时期拍摄的每人6幅图像,包括1幅围巾遮挡,2幅墨镜遮挡以及3幅脸部表情变化以及光照变化(未被遮挡)的图像作为训练样本,同时选取相同组合的样本图像作为测试样本,无论哪种方法,图像的维度越高识别率越高。对比SRC(sparse representation based on classification)算法与DKSVD(discriminative K-means singular value decomposition)算法的识别率可知,DKSVD算法通过字典学习减缓了训练样本中的不确定因素对识别结果的影响;对比DLRD_SR(discriminative low-rank dictionary learning for sparse representation)算法与FDDL(Fisher discriminative dictionary learning)算法的识别率可知,当图像有遮挡等噪声信息存在时,字典低秩化可以提高至少5.8%的识别率;对比本文算法与DLRD_SR算法可知,在字典学习的过程中加入Fisher准则后识别率显著提高,同时理想稀疏值能保证对样本进行最优的分类。当样本图像的维度达到500维时人脸图像在有围巾、墨镜遮挡的情况下识别率可达到85.2%;其中墨镜和围巾的遮挡程度分别可以看成是人脸图像的20%和40%,为了验证本文算法在不同脸部表情变化、光照改变以及遮挡情况下的有效性,根据训练样本的具体图像组合情况进行实验。无论哪种样本图像组合,本文算法在有遮挡存在的样本识别中具有显著优势。在训练样本只包含脸部表情变化、光照变化以及墨镜遮挡图像的情况下,本文算法的识别率高于其他算法至少2.7%,在训练样本只包含脸部表情变化、光照变化以及围巾遮挡图像的情况下,本文算法的识别率高于其他算法至少3.6%,在训练样本包含脸部表情变化、光照变化、围巾遮挡以及墨镜遮挡图像的情况下,其识别率高于其他算法至少1.9%。在ORL人脸数据库中,人脸图像在无遮挡的情况下识别率达到95.2%,稍低于FDDL算法的识别率;在随机块遮挡程度达到20%时,相比较于SRC算法、DKSVD算法、FDDL算法以及DLRD_SR算法,本文算法的识别率最高;当随机块遮挡程度达到50%时,以上算法的识别率均不高,但本文算法的其识别率仍然最高。结论 本文算法在人脸图像受到遮挡等因素的影响时具有一定的鲁棒性,实验结果表明该算法在人脸识别方面具有可行性。

关键词

人脸识别; 低秩正则化; 标签信息; 结构化稀疏; Fisher准则; 字典学习

Structured low-rank dictionary learning for face recognition
expand article info Li Kaiyu, Hu Yan, Cui Yifeng, Wang Ping, Xu Guili
Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China
Supported by: National Natural Science Foundation of China(61473148, GGA1513701)

Abstract

Objective Face images collected from real people are usually influenced by environmental factors, such as illumination and occlusion. In this situation, face images from the same class have varying degrees of otherness, and face images from different classes have distinct degrees of similarity, which can greatly affect the accuracy of face recognition. To address these problems, a face recognition algorithm for discerning structured low-rank dictionary learning is put forward and it is based on the theory of low-rank matrix recovery. Method The proposed algorithm adds low-rank regularization and structured sparse to discern dictionary learning based on the label information of training samples. During dictionary learning, the proposed algorithm first adopts the reconstruction error of training samples to constrain the relationships between training samples and the dictionary. The algorithm then applies Fisher discrimination criterion to the coding coefficients of dictionary learning for the coding coefficients to maintain discrimination. The proposed algorithm also applies low-rank regularization to the dictionary on the basis of the theory of low-rank matrix recovery because the noise in the training samples can influence the discrimination of the dictionary. During dictionary learning, structured sparse is imposed to avoid losing structure information and guarantee optimal classification of samples. Finally, test samples can be classified on the basis of reconstruction error. Result Experiments regarding the proposed algorithm are performed on the AR and ORL face databases. In the AR face database, to analyze the effects of experimental results from the different dimensions of samples, training samples include six images in the first session, that is, one scarf occlusion image, two sunglasses occlusion images, and three facial expression change and illumination change images per person. Test samples are the same as training samples. Face recognition is higher as face image dimension is higher in any method. Comparing the face recognition rate of sparse representation based on classification (SRC) algorithm with that of discriminative KSVD (DKSVD) algorithm, DKSVD algorithm reduces the effects of recognition results from uncertain factors in training samples by dictionary learning. Comparing the face recognition rate of discriminative low-rank dictionary learning for sparse representation(DLRD_SR) algorithm with that of Fisher discriminative dictionary learning (FDDL) algorithm, the low-rank regularization of dictionary can improve the face recognition rate by at least 5.8% when images show noise information such as occlusion. Comparing the face recognition rate of the proposed algorithm with that of DLRD_SR algorithm, face recognition rate can be improved noticeably when Fisher discrimination criterion is imposed to dictionary learning, and the ideal sparse values guarantee the optimal classification of test samples. The face recognition rate of images of 500 dimensions, in which a part of images is occluded with scarf or sunglasses, is 85.2%. In the AR face database, the occlusion degrees using sunglasses and scarf can be regarded as 20% and 40% of the face image, respectively. To verify the validity of the proposed algorithm in different facial expression and illumination changes and with scarf and sunglasses occlusion, experiments are performed according to specific image combinations of training samples. In any image combination, the proposed algorithm exhibits prominent superiority in face recognition when the face images are occluded. In training samples of images containing only facial expression and illumination changes and sunglasses occlusion, the recognition rate of the proposed algorithm is higher than that of other algorithms by at least 2.7%. In training samples of images with only facial expression and illumination changes and scarf occlusion, the recognition rate of the proposed algorithm is higher than that of other algorithms by at least 3.6%. In training samples of images showing facial expression and illumination changes and sunglasses and scarf occlusions, the recognition rate of the proposed algorithm is higher than that of other algorithms by at least 1.9%.In the ORL face database, the face recognition rate of images without occlusion is 95.2%, which is slightly lower than the recognition rate of FDDL algorithm. When the degree of random block occlusion of face images increases up to 20%, the face recognition rate of the proposed algorithm is higher than SRC, DKSVD, FDDL, and DLRD_SR algorithms. When the degree of random block occlusion of face images increases up to 50%, the face recognition rates of the aforementioned algorithms are all low, whereas that of the proposed algorithm remains the highest. Conclusion The proposed algorithm features certain robustness when face images are influenced by different factors, such as occlusion. Results also show that the proposed algorithm possesses feasibility for face recognition.

Key words

face recognition; low-rank regularization; label information; structured sparse; Fisher discrimination criterion; dictionary learning

0 引言

人脸识别在生话中的很多领域都有着广泛的应用价值,对人脸识别方面的研究一直是图像识别的研究的热点。正常情况下,经典的人脸识别算法(主成分分析法、线性判别分析法[1-2]等)可达到很高的识别要求,但在非约束性条件下,算法性能就大大降低,即光照、表情、姿态等的变化较大时其鲁棒性不强。针对该不足,Wright等人[3]提出了基于稀疏表示的人脸识别算法(SRC)。但由于训练样本本身存在不确定因素以及噪声信息等,导致测试样本不能被很好地表示。同时,隐藏在训练样本中的具有识别力的信息也容易被忽略。所以,在特定的训练样本上学习字典显得尤为重要。

字典学习[4]的目的在于从训练样本中学习一个子空间,在该子空间中给定的测试样本可以被很好地表示或编码以进行后期的处理。多位学者提出了应用于人脸图像处理[5-7]及识别[8-10]的字典学习方法。如:Aharon等人[11]提出的KSVD算法,Zhang等人[12]在KSVD算法的基础上提出的具有识别力的KSVD(DKSVD)算法等。这些算法学习的共享字典丢失了字典原子与类别标签之间的一致性。因此,Jiang等人[13]提出了把标签信息与字典原子相结合的想法,从而加强了字典的识别力。Yang等人[14]提出了将Fisher准则加入到字典学习中(FDDL)的算法,该算法不仅将标签信息与字典原子相结合,而且使得编码系数也具有一定的识别力。但是,以上方法只能处理图像清晰以及带有小噪声污染的训练样本,当样本噪声污染过大时,这些算法学习的字典容易受到污染,影响字典的识别力。由于同类的训练样本线性相关,所以表示某一类样本的子字典应该合理低秩化[15]。Ma等人[16]将低秩正则化整合到稀疏表示中,在训练样本被污染的情况下取得了不错的结果,但是低秩正则化会造成训练样本中信息的丢失。

本文提出了学习具有识别力的结构化低秩字典算法,所学习的字典可以处理被大噪声污染过的训练样本。该字典中每一个子字典通过低秩化减少训练样本中噪声的影响,从而学习出有识别力的纯字典;编码系数遵循Fisher判别准则保证学习的字典具有更高的识别力;同时加入理想稀疏值 $\mathit{\boldsymbol{Q}}$ 保证对样本进行最优的分类。

1 FDDL算法研究

1.1 FDDL算法模型

给定训练样本$ \mathit{\boldsymbol{Y}} = \left[ {{\mathit{\boldsymbol{Y}}_1}, {\mathit{\boldsymbol{Y}}_2}, \cdots , {\mathit{\boldsymbol{Y}}_c}} \right] $,其中 $\mathit{\boldsymbol{Y}}$ 包含 $c$ 个不同类别的 $n$ 个样本,$ {\mathit{\boldsymbol{Y}}_i} \in {\boldsymbol{\rm{R}}^{d \times {n_i}}} $表示第 $i$ 类的样本, $d$ 表示每个样本向量的维数, $n$$i$表示第 $i$ 类样本的样本个数。每类样本学习一个子字典,最终整合成字典$ \mathit{\boldsymbol{D}} = \left[ {{\mathit{\boldsymbol{D}}_1}, {\mathit{\boldsymbol{D}}_2}, \cdots , {\mathit{\boldsymbol{D}}_c}} \right] $,其中 $c$ 表示类别数,$ {\mathit{\boldsymbol{D}}_i} = {\boldsymbol{\rm{R}}^{d \times {m_i}}} $表示对第 $i$ 类样本进行学习后得到的子字典, $m$$i$表示第 $i$ 类子字典的原子个数。

一般而言,训练样本应满足$ \mathit{\boldsymbol{Y}} \approx \mathit{\boldsymbol{DX}} $,其中$ \mathit{\boldsymbol{X}} = \left[ {{\mathit{\boldsymbol{X}}_1}, {\mathit{\boldsymbol{X}}_2}, \cdots , {\mathit{\boldsymbol{X}}_c}} \right] $ ${\mathit{\boldsymbol{X}}_i}$ 表示样本 ${\mathit{\boldsymbol{Y}}_i}$ 在字典 ${\mathit{\boldsymbol{D}}}$ 上的编码系数。FDDL算法模型为

$ {J_{\left( {\mathit{\boldsymbol{D}},\mathit{\boldsymbol{X}}} \right)}} = \mathop {\arg \min }\limits_{\left( {\mathit{\boldsymbol{D}},\mathit{\boldsymbol{X}}} \right)} \left( \begin{array}{l} \sum\limits_{i = 1}^c {r\left( {{\mathit{\boldsymbol{Y}}_i},\mathit{\boldsymbol{D}},{\mathit{\boldsymbol{X}}_i}} \right)} + \\ {\lambda _1}{\left\| \mathit{\boldsymbol{X}} \right\|_1} + {\lambda _2}F\left( \mathit{\boldsymbol{X}} \right) \end{array} \right) $ (1)

式中,$ r\left( {{\mathit{\boldsymbol{Y}}_i}, \mathit{\boldsymbol{D}}, {\mathit{\boldsymbol{X}}_i}} \right) $表示字典 $\mathit{\boldsymbol{D}}$ 的重建误差项,‖$\mathit{\boldsymbol{X}}$1表示编码系数的 $l$1正则化项, $F$($\mathit{\boldsymbol{X}}$)表示编码系数的Fisher判别式。

1.2 具有识别力的重建误差

样本 ${\mathit{\boldsymbol{Y}}_i}$ 在字典 $\mathit{\boldsymbol{D}}$ 上对应的编码系数$ \mathit{\boldsymbol{X}}_i^{} = \left[ {\mathit{\boldsymbol{X}}_i^1, \mathit{\boldsymbol{X}}_i^2, \cdots , \mathit{\boldsymbol{X}}_i^c} \right] $,其中 $\mathit{\boldsymbol{X}}_i^j$ 表示样本 ${\mathit{\boldsymbol{Y}}_i}$ 在子字典 ${\mathit{\boldsymbol{D}}_j}$ 上的编码系数。由于子字典 ${\mathit{\boldsymbol{D}}_i}$ 对应于第 $i$ 类,所以样本 ${\mathit{\boldsymbol{Y}}_i}$ 应当能被子字典 ${\mathit{\boldsymbol{D}}_i}$ 很好地表示,当 $i$ $j$ 时,样本 ${\mathit{\boldsymbol{Y}}_i}$ 应当不能被子字典 ${\mathit{\boldsymbol{D}}_j}$ 表示,所以对应于子字典 ${\mathit{\boldsymbol{D}}_i}$ 的编码系数$ \mathit{\boldsymbol{X}}_i^i $应当足够大,即最小化$ \left\| {{\mathit{\boldsymbol{Y}}_i} - {\mathit{\boldsymbol{D}}_i}\mathit{\boldsymbol{X}}_i^i} \right\|_{\rm{F}}^2 $,对应于子字典 ${\mathit{\boldsymbol{D}}_j}$($j$$i$)的编码系数 ${\mathit{\boldsymbol{X}}_i^j}$ 应当几乎为0,即最小化$ \sum\limits_{j = 1, j \ne i}^c {\left\| {{\mathit{\boldsymbol{D}}_j}\mathit{\boldsymbol{X}}_i^j} \right\|_{\rm{F}}^2} $。由于所有类别的样本 ${\mathit{\boldsymbol{Y}}_i}$ 都可由字典 $\mathit{\boldsymbol{D}}$ 表示,所以最小化$ \left\| {{\mathit{\boldsymbol{Y}}_i} - {\mathit{\boldsymbol{D}}_i}\mathit{\boldsymbol{X}}_i} \right\|_{\rm{F}}^2 $。定义$ r\left( {{\mathit{\boldsymbol{Y}}_i}, \mathit{\boldsymbol{D}}, {\mathit{\boldsymbol{X}}_i}} \right) $,将其作为具有识别力的重建误差项,并最小化其值。$ r\left( {{\mathit{\boldsymbol{Y}}_i}, \mathit{\boldsymbol{D}}, {\mathit{\boldsymbol{X}}_i}} \right) $

$ \begin{array}{*{20}{c}} {r\left( {{\mathit{\boldsymbol{Y}}_i},\mathit{\boldsymbol{D}},{\mathit{\boldsymbol{X}}_i}} \right) = \left\| {{\mathit{\boldsymbol{Y}}_i} - {\mathit{\boldsymbol{D}}_i}\mathit{\boldsymbol{X}}_i^i} \right\|_{\rm{F}}^2 + }\\ {\sum\limits_{j = 1,j \ne i}^c {\left\| {{\mathit{\boldsymbol{D}}_j}\mathit{\boldsymbol{X}}_i^j} \right\|_{\rm{F}}^2} + \left\| {{\mathit{\boldsymbol{Y}}_i} - \mathit{\boldsymbol{D}}{\mathit{\boldsymbol{X}}_i}} \right\|_{\rm{F}}^2} \end{array} $ (2)

1.3 用于稀疏编码的Fisher判别式

为了使编码系数 $\mathit{\boldsymbol{X}}$ 具有识别能力,将Fisher判别式[17]应用到编码系数中使得类内离散度尽可能小,类间离散度尽可能大。编码系数的类内离散度$ {S_{\rm{w}}}\left( \mathit{\boldsymbol{X}} \right) $和类间离散度$ {S_{\rm{b}}}\left( \mathit{\boldsymbol{X}} \right) $定义为

$ {S_{\rm{w}}}\left( \mathit{\boldsymbol{X}} \right) = \sum\limits_{i = 1}^c {\sum\limits_{{\mathit{\boldsymbol{x}}_k} \in {\mathit{\boldsymbol{X}}_i}} {\left( {{\mathit{\boldsymbol{x}}_k} - {{\mathit{\boldsymbol{\bar x}}}_i}} \right){{\left( {{\mathit{\boldsymbol{x}}_k} - {{\mathit{\boldsymbol{\bar x}}}_i}} \right)}^{\rm{T}}}} } $ (3)

$ {S_{\rm{b}}}\left( \mathit{\boldsymbol{X}} \right) = \sum\limits_{i = 1}^c {{n_i}\left( {{{\mathit{\boldsymbol{\bar x}}}_i} - \mathit{\boldsymbol{\bar x}}} \right){{\left( {{{\mathit{\boldsymbol{\bar x}}}_i} - \mathit{\boldsymbol{\bar x}}} \right)}^{\rm{T}}}} $ (4)

式中,$ {{\mathit{\boldsymbol{\bar x}}}_i} $是编码系数$ {{\mathit{\boldsymbol{X}}_i}} $的平均值,$ {{\mathit{\boldsymbol{\bar x}}}} $是编码系数 $\mathit{\boldsymbol{X}}$ 的平均值, $n$$i$是第 $i$ 类的样本数。由前可知在编码系数中引入了Fisher准则,定义 $F$($\mathit{\boldsymbol{X}}$)为

$ F\left( \mathit{\boldsymbol{X}} \right) = {\rm{tr}}\left( {{S_{\rm{w}}}\left( \mathit{\boldsymbol{X}} \right)} \right) - {\rm{tr}}\left( {{S_{\rm{b}}}\left( \mathit{\boldsymbol{X}} \right)} \right) + \eta \left\| \mathit{\boldsymbol{X}} \right\|_{\rm{F}}^2 $ (5)

最小化$ {\rm{tr}}\left( {{S_{\rm{w}}}\left( \mathit{\boldsymbol{X}} \right)} \right) - {\rm{tr}}\left( {{S_{\rm{b}}}\left( \mathit{\boldsymbol{X}} \right)} \right) $,即保证类内离散度尽可能小,类间离散度尽可能大。同时,$ \eta \left\| \mathit{\boldsymbol{X}} \right\|_{\rm{F}}^2 $项能够解决$ {\rm{tr}}\left( {{S_{\rm{w}}}\left( \mathit{\boldsymbol{X}} \right)} \right) - {\rm{tr}}\left( {{S_{\rm{b}}}\left( \mathit{\boldsymbol{X}} \right)} \right) $的非凸以及不稳定问题,通常设置 $\eta $ =1。

2 结构化低秩字典学习算法研究与设计

2.1 问题阐述

给定一个 $c$ 类的样本数据$ \mathit{\boldsymbol{Y}} = \left[ {{\mathit{\boldsymbol{Y}}_1}, {\mathit{\boldsymbol{Y}}_2}, \cdots , {\mathit{\boldsymbol{Y}}_c}} \right] $,其中 ${\mathit{\boldsymbol{Y}}_i}$ 表示第 $i$ 类的数据, ${\mathit{\boldsymbol{Y}}}$ 中可能包含噪声(如光照、污染等)。训练样本中的噪声信息会破坏字典的识别能力,而FDDL算法只能处理图像清晰或者噪声较小的训练样本。为了解决该问题,本文提出在低秩恢复理论的基础上将低秩正则化引入到字典学习中。

低秩矩阵恢复能够将被污染的矩阵 ${\mathit{\boldsymbol{Y}}}$ 分解为低秩部分 ${\mathit{\boldsymbol{DX}}}$ 和稀疏噪声部分 ${\mathit{\boldsymbol{E}}}$ ,即 $\mathit{\boldsymbol{Y}} = \mathit{\boldsymbol{DX}} + \mathit{\boldsymbol{E}}$ 。对于数据矩阵 ${\mathit{\boldsymbol{Y}}}$ ,其在字典 ${\mathit{\boldsymbol{D}}}$ 上的最优表示矩阵 ${\mathit{\boldsymbol{X}}}$ 应该是块对角阵,即

$ {\mathit{\boldsymbol{X}}^*} = \left( {\begin{array}{*{20}{c}} {X_1^*}&0& \cdots &0&0\\ 0&{X_2^*}& \cdots &0&0\\ \vdots&\vdots &{}& \vdots&\vdots \\ 0&0& \cdots &{X_{c - 1}^*}&0\\ 0&0& \cdots &0&{X_c^*} \end{array}} \right) $ (6)

字典$ \mathit{\boldsymbol{D}}{\rm{ = }}\left[ {{\mathit{\boldsymbol{D}}_1}, {\mathit{\boldsymbol{D}}_2}, \cdots , {\mathit{\boldsymbol{D}}_c}} \right] $包含 $c$ 个子字典,每类子字典 ${\mathit{\boldsymbol{D}}_i}$ 与类别 $i$ 相对应。系数$ {\mathit{\boldsymbol{X}}_i} = \left[ {\mathit{\boldsymbol{X}}_i^1, \mathit{\boldsymbol{X}}_i^2, \cdots , \mathit{\boldsymbol{X}}_i^c} \right] $是数据 ${\mathit{\boldsymbol{Y}}_i}$ 在字典 $\mathit{\boldsymbol{D}}$ 上的稀疏系数,其中系数 $\mathit{\boldsymbol{X}}_i^j$ 对应于子字典 ${\mathit{\boldsymbol{D}}_j}$ 。为了获得低秩和稀疏数据表示,字典 $\mathit{\boldsymbol{D}}$ 应当具备可识别以及重建的能力,所以在理想情况下,子字典 ${\mathit{\boldsymbol{D}}_i}$ 应当为第 $i$ 类数据的专有字典,不同类别图像的表示也应当各不相同。例如:第 $i$ 类的数据应当可以被第 $i$ 类的子字典 ${\mathit{\boldsymbol{D}}_i}$ 很好地表示,即$ {\mathit{\boldsymbol{Y}}_i} = {\mathit{\boldsymbol{D}}_i}\mathit{\boldsymbol{X}}_i^i + {\mathit{\boldsymbol{E}}_i} $,而子字典$ {\mathit{\boldsymbol{D}}_j}\left( {j \ne i} \right) $对应的编码系数应当几乎为0。

理想上的系数表示为$ \mathit{\boldsymbol{Q}} = \left[ {{\mathit{\boldsymbol{q}}_1}, {\mathit{\boldsymbol{q}}_1}, \cdots , {\mathit{\boldsymbol{q}}_L}} \right] \in {\boldsymbol{\rm{R}}^{N \times L}} $,其中 ${\mathit{\boldsymbol{q}}_i}$ 表示对应于样本数据 ${\mathit{\boldsymbol{y}}_i}$ 的编码, $N$ 表示字典的尺寸大小, $L$ 表示样本总数。假设样本数据 ${\mathit{\boldsymbol{y}}_i}$ 属于第 $M$ 类,理想情况下,系数表示 ${\mathit{\boldsymbol{q}}_i}$ 中对应于子字典 ${\mathit{\boldsymbol{D}}_M}$ 的所有系数应当为1或者接近于1,其余均为0或者接近于0。

尽管将数据矩阵 ${\mathit{\boldsymbol{Y}}}$ 分解为低秩部分 ${\mathit{\boldsymbol{DX}}}$ 和稀疏噪声部分 ${\mathit{\boldsymbol{E}}}$ 不能保证重建误差达到最小限度值,但是低秩和理想稀疏值 ${\mathit{\boldsymbol{Q}}}$ [18]相结合能够保证对样本进行最优的分类。

2.2 结构化低秩字典学习方法研究

2.2.1 结构化低秩字典模型设计

FDDL算法无法处理噪声信息较大的训练样本,所以本文提出一种结构化低秩字典学习的算法。该算法在FDDL算法的基础上将低秩正则化引入到字典学习中,同时为了能够保证对样本的最优分类,引入了理想稀疏值 ${\mathit{\boldsymbol{Q}}}$ 。假设现有样本$ \mathit{\boldsymbol{Y}} = \left[ {{\mathit{\boldsymbol{y}}_1}, {\mathit{\boldsymbol{y}}_2}, {\mathit{\boldsymbol{y}}_3}, {\mathit{\boldsymbol{y}}_4}} \right] $,其中 ${\mathit{\boldsymbol{y}}_1}$ ${\mathit{\boldsymbol{y}}_2}$ 属于第1类, ${\mathit{\boldsymbol{y}}_3}$ 属于第2类, ${\mathit{\boldsymbol{y}}_4}$ 属于第3类,字典$ \mathit{\boldsymbol{D}} = \left[ {{\mathit{\boldsymbol{D}}_1}, {\mathit{\boldsymbol{D}}_2}, {\mathit{\boldsymbol{D}}_3}} \right] $, 其中$ {\mathit{\boldsymbol{D}}_1} = \left[ {{\mathit{\boldsymbol{d}}_1}, {\mathit{\boldsymbol{d}}_2}} \right], {\mathit{\boldsymbol{D}}_2} = {\mathit{\boldsymbol{d}}_3}, {\mathit{\boldsymbol{D}}_3} = {\mathit{\boldsymbol{d}}_4} $,那么样本 $\mathit{\boldsymbol{Y}}$ 在字典 $\mathit{\boldsymbol{D}}$ 上的理想稀疏系数 $\mathit{\boldsymbol{Q}}$

$ \mathit{\boldsymbol{Q}} = \left[ {{\mathit{\boldsymbol{q}}_1},{\mathit{\boldsymbol{q}}_2},{\mathit{\boldsymbol{q}}_3},{\mathit{\boldsymbol{q}}_4}} \right] = \left[ {\begin{array}{*{20}{c}} 1&1&0&0\\ 1&1&0&0\\ 0&0&1&0\\ 0&0&0&1 \end{array}} \right] $ (7)

但是式(7)只是很理想下的情况,一般与样本所属类别对应的系数为1或者接近于1,其余系数为0或者接近于0即可。

建立字典模型为

$ {J_{\left( {\mathit{\boldsymbol{D}},\mathit{\boldsymbol{X}}} \right)}} = \arg \min \left( \begin{array}{l} \sum\limits_{i = 1}^c {r\left( {{\mathit{\boldsymbol{Y}}_i},\mathit{\boldsymbol{D}},{\mathit{\boldsymbol{X}}_i}} \right)} + \\ {\lambda _1}{\left\| \mathit{\boldsymbol{X}} \right\|_1} + {\lambda _2}F\left( \mathit{\boldsymbol{X}} \right) + \\ H\left( {\mathit{\boldsymbol{D}},\mathit{\boldsymbol{X}},\mathit{\boldsymbol{Q}}} \right) \end{array} \right) $ (8)

式中, $r$( ${\mathit{\boldsymbol{Y}}_i}$ , ${\mathit{\boldsymbol{D}}}$ , ${\mathit{\boldsymbol{X}}_i}$ )表示字典 ${\mathit{\boldsymbol{D}}}$ 的重建误差项,‖${\mathit{\boldsymbol{X}}}$1表示编码系数的 $l$1正则化, $F$(${\mathit{\boldsymbol{X}}}$)表示编码系数的Fisher判别式, $H$(${\mathit{\boldsymbol{D}}}$, ${\mathit{\boldsymbol{X}}}$, ${\mathit{\boldsymbol{Q}}}$)是字典低秩化与结构化表示。

2.2.2 字典低秩化与结构化表示

定义 $H$(${\mathit{\boldsymbol{D}}}$, ${\mathit{\boldsymbol{X}}}$, ${\mathit{\boldsymbol{Q}}}$)为

$ H\left( {\mathit{\boldsymbol{D}},\mathit{\boldsymbol{X}},\mathit{\boldsymbol{Q}}} \right) = \alpha \sum\limits_{i = 1}^c {{{\left\| {{\mathit{\boldsymbol{D}}_i}} \right\|}_*}} + \beta \left\| {\mathit{\boldsymbol{X}} - \mathit{\boldsymbol{Q}}} \right\|_{\rm{F}}^2 $ (9)

由于同一类别的训练样本线性相关且存在于低维子空间中,所以表示某一类样本的子字典应该合理低秩化。字典低秩化能够满足分离出所学习的字典中的噪声信息,从而学习出更加紧凑干净的字典。

在字典 ${\mathit{\boldsymbol{D}}}$ 低秩化过程中,由于秩函数的离散特性使得最小化rank(${\mathit{\boldsymbol{D}}}$)成为一个NP难题。为了解决该问题,将求解字典秩函数rank(${\mathit{\boldsymbol{D}}}$)的问题转变成求解字典核范数‖${\mathit{\boldsymbol{D}}}$*(字典 ${\mathit{\boldsymbol{D}}}$ 的核范数即为 ${\mathit{\boldsymbol{D}}}$ 的奇异值之和)的问题。所以为了让所有的子字典 ${\mathit{\boldsymbol{D}}}_i$ 都能够表示出第 $i$ 类的样本,必须对每个子字典 ${\mathit{\boldsymbol{D}}}_i$ 都进行秩优化,即最小化‖${\mathit{\boldsymbol{D}}}_i$*

训练样本以及学习的字典均加入了标签信息,为了使稀疏表示结构化,提出为训练样本重建一个块对角化的理想稀疏值 ${\mathit{\boldsymbol{Q}}}$ 。在字典学习过程中加入正则化项 $\left\| {\mathit{\boldsymbol{X}} - \mathit{\boldsymbol{Q}}} \right\|_{\rm{F}}^2$ ,从而保证对样本进行最优的分类。

2.2.3 结构化低秩字典优化算法的实现

结构化低秩字典学习优化过程主要分为两个部分:

1) 更新编码系数$ {\mathit{\boldsymbol{X}}_i}\left( {i = 1, 2, \cdots , c} \right) $,更新过程中固定字典 $\mathit{\boldsymbol{D}}$ 和所有的系数 $\mathit{\boldsymbol{X}}_j$($i$$j$),最后将所有更新过的系数 $\mathit{\boldsymbol{X}}_i$ ($i$=1, 2, …, $c$)整合成编码系数 $\mathit{\boldsymbol{X}}$

2) 更新子字典 $\mathit{\boldsymbol{D}}_i$ ($i$=1, 2, …, $c$),更新过程中固定 $\mathit{\boldsymbol{D}}_j$ ($j$$i$),由于在更新 $\mathit{\boldsymbol{D}}_i$ 的过程中,样本 $\mathit{\boldsymbol{Y}}_i$ $\mathit{\boldsymbol{D}}_i$ 上对应的编码系数 $\mathit{\boldsymbol{X}}_i^{i}$ 也同时更新,因此同时固定除系数 $\mathit{\boldsymbol{X}}_i^{i}$ 以外的其余系数。在初始化字典 $\mathit{\boldsymbol{D}}$ 后,按照此步骤不断地迭代更新系数 $\mathit{\boldsymbol{X}}$ 和字典 $\mathit{\boldsymbol{D}}$ ,直到满足停止标准后停止更新。最后,在学习低秩结构化字典的基础上对测试样本 $\mathit{\boldsymbol{y}}$ 进行分类。具体步骤如下:

1) 初始化字典 $\mathit{\boldsymbol{D}}$ , 训练样本 $\mathit{\boldsymbol{Y}}_i$ 对应的特征向量作为初始化子字典 $\mathit{\boldsymbol{D}}_i$ 的原子;

2) 更新编码系数 $\mathit{\boldsymbol{X}}_i$ ($i$=1, 2, …, $c$), 保持字典 $\mathit{\boldsymbol{D}}$ 和所有的系数 $\mathit{\boldsymbol{X}}_j$ ($j$$i$)不变,按类别顺序更新编码系数,将公式(8)简化为系数编码问题, 即

$ {J_{\left( {{\mathit{\boldsymbol{X}}_i}} \right)}} = \arg \mathop {\min }\limits_{{\mathit{\boldsymbol{X}}_i}} \left( \begin{array}{l} \left\| {{\mathit{\boldsymbol{Y}}_i} - {\mathit{\boldsymbol{D}}_i}\mathit{\boldsymbol{X}}_i^i} \right\|_{\rm{F}}^2 + \left\| {{\mathit{\boldsymbol{Y}}_i} - \mathit{\boldsymbol{D}}{\mathit{\boldsymbol{X}}_i}} \right\|_{\rm{F}}^2 + \\ \sum\limits_{j = 1,j \ne i}^c {\left\| {{\mathit{\boldsymbol{D}}_j}\mathit{\boldsymbol{X}}_i^j} \right\|_{\rm{F}}^2} + {\lambda _1}{\left\| {{\mathit{\boldsymbol{X}}_i}} \right\|_1} + \\ {\lambda _2}{F_i}\left( {{X_i}} \right) + \beta \left\| {{\mathit{\boldsymbol{X}}_i} - {\mathit{\boldsymbol{Q}}_i}} \right\|_{\rm{F}}^2 \end{array} \right) $ (10)

式(10)可由IPM[19]方法求得。

3) 更新子字典 $\mathit{\boldsymbol{D}}_i$ ($i$=1, 2, …, $c$):保持 $\mathit{\boldsymbol{D}}_j$ ($j$$i$)和除系数 $\mathit{\boldsymbol{X}}_i^{i}$ 以外的其余系数 $\mathit{\boldsymbol{X}}$ 不变,将式(8)简化为子字典问题,即

$ {J_{\left( {{\mathit{\boldsymbol{D}}_i}} \right)}} = \arg \min \left( \begin{array}{l} \left\| {{\mathit{\boldsymbol{Y}}_i} - {\mathit{\boldsymbol{D}}_i}\mathit{\boldsymbol{X}}_i^i - \sum\limits_{j = 1,j \ne i}^c {{\mathit{\boldsymbol{D}}_j}\mathit{\boldsymbol{X}}_i^j} } \right\|_{\rm{F}}^2 + \\ \left\| {{\mathit{\boldsymbol{Y}}_i} - {\mathit{\boldsymbol{D}}_i}\mathit{\boldsymbol{X}}_i^i} \right\|_{\rm{F}}^2 + \\ \sum\limits_{j = 1,j \ne i}^c {\left\| {{\mathit{\boldsymbol{D}}_j}\mathit{\boldsymbol{X}}_i^j} \right\|_{\rm{F}}^2} + \alpha {\left\| {{\mathit{\boldsymbol{D}}_i}} \right\|_*} \end{array} \right) $ (11)

$S$($\mathit{\boldsymbol{D}}_i$)为

$ S\left( {{\mathit{\boldsymbol{D}}_i}} \right) = \left\| {{\mathit{\boldsymbol{Y}}_i} - {\mathit{\boldsymbol{D}}_i}\mathit{\boldsymbol{X}}_i^i - \sum\limits_{j = 1,j \ne i}^c {{\mathit{\boldsymbol{D}}_j}\mathit{\boldsymbol{X}}_i^j} } \right\|_{\rm{F}}^2 + \left\| {{\mathit{\boldsymbol{Y}}_i} - {\mathit{\boldsymbol{D}}_i}\mathit{\boldsymbol{X}}_i^i} \right\|_{\rm{F}}^2 $

则式(11)可转换成

$ \begin{array}{*{20}{c}} {\mathop {\min }\limits_{{\mathit{\boldsymbol{D}}_i},\mathit{\boldsymbol{X}}_i^i,{\mathit{\boldsymbol{E}}_i}} {{\left\| {\mathit{\boldsymbol{X}}_i^i} \right\|}_1} + \alpha {{\left\| {{\mathit{\boldsymbol{D}}_i}} \right\|}_*} + \gamma {{\left\| {{\mathit{\boldsymbol{E}}_i}} \right\|}_{2,1}} + \lambda S\left( {{\mathit{\boldsymbol{D}}_i}} \right)}\\ {{\rm{s}}.\;{\rm{t}}.\;\;\;{\mathit{\boldsymbol{Y}}_i} - {\mathit{\boldsymbol{D}}_i}\mathit{\boldsymbol{X}}_i^i + {\mathit{\boldsymbol{E}}_i}} \end{array} $ (12)

式(12)根据增广拉格朗日乘子法(ALM)[20]求得

$ \begin{array}{*{20}{c}} {\mathop {\min }\limits_{{\mathit{\boldsymbol{D}}_i},{\mathit{\boldsymbol{E}}_i},\mathit{\boldsymbol{X}}_i^i} {{\left\| \mathit{\boldsymbol{Z}} \right\|}_1} + \alpha {{\left\| \mathit{\boldsymbol{J}} \right\|}_*} + \beta {{\left\| {{\mathit{\boldsymbol{E}}_i}} \right\|}_{2,1}} + \lambda S\left( {{\mathit{\boldsymbol{D}}_i}} \right) + }\\ {{\rm{tr}}\left[ {T_1^t\left( {{\mathit{\boldsymbol{Y}}_i} - {\mathit{\boldsymbol{D}}_i}\mathit{\boldsymbol{X}}_i^i - {\mathit{\boldsymbol{E}}_i}} \right)} \right] + }\\ {{\rm{tr}}\left[ {T_2^t\left( {{\mathit{\boldsymbol{D}}_i} - \mathit{\boldsymbol{J}}} \right)} \right] + {\rm{tr}}\left( {T_3^t\left( {\mathit{\boldsymbol{X}}_i^i - \mathit{\boldsymbol{Z}}} \right)} \right) + }\\ {\frac{\mu }{2}\left( {\left\| {{\mathit{\boldsymbol{Y}}_i} - {\mathit{\boldsymbol{D}}_i}\mathit{\boldsymbol{X}}_i^i + {\mathit{\boldsymbol{E}}_i}} \right\|_{\rm{F}}^2} \right) + }\\ {\left\| {{\mathit{\boldsymbol{D}}_i} - \mathit{\boldsymbol{J}}} \right\|_{\rm{F}}^2 + \left\| {\mathit{\boldsymbol{X}}_i^i - \mathit{\boldsymbol{Z}}} \right\|_{\rm{F}}^2} \end{array} $ (13)

式中, $T$1 $T$2 $T$3为拉格朗日乘子, $\mu > 0$ 为平衡因子。式(13)的迭代更新过程如下:

输入:初始化字典 $\mathit{\boldsymbol{D}}_i$ ,样本 $\mathit{\boldsymbol{Y}}_i$ ,参数$ \alpha , \beta , \lambda $

输出: $\mathit{\boldsymbol{D}}_i$ $\mathit{\boldsymbol{E}}_i$ $\mathit{\boldsymbol{X}}_i^{i}$

初始化: $\mathit{\boldsymbol{J}}$ =0, $\mathit{\boldsymbol{E}}_i$ =0, $T$1= $T$2= $T$3=0, $\mu $ =10-6 ${\mu _{\max }}$ =1030 $\varepsilon $ =10-8 $\rho $ =1.1。

(1) 固定其他变量,更新 $\mathit{\boldsymbol{Z}}$

$ \mathit{\boldsymbol{Z}} = \arg \mathop {\min }\limits_\mathit{\boldsymbol{Z}} \left\{ {\frac{1}{\mu }{{\left\| \mathit{\boldsymbol{Z}} \right\|}_1} + \frac{1}{2}\left\| {\mathit{\boldsymbol{Z}} - \left( {\mathit{\boldsymbol{X}}_i^i + \frac{{{T_3}}}{\mu }} \right)} \right\|_{\rm{F}}^2} \right\} $

(2) 固定其他变量更新 $\mathit{\boldsymbol{X}}_i^{i}$

$ \begin{array}{*{20}{c}} {\mathit{\boldsymbol{X}}_i^i = \left( {\mathit{\boldsymbol{D}}_i^t{\mathit{\boldsymbol{D}}_i} + } \right.}\\ {{{\left. \mathit{\boldsymbol{I}} \right)}^{ - 1}}\left( {\mathit{\boldsymbol{D}}_i^t\left( {{\mathit{\boldsymbol{Y}}_i} - {\mathit{\boldsymbol{E}}_i}} \right) + \mathit{\boldsymbol{Z}} + \frac{{\mathit{\boldsymbol{D}}_i^t{T_1} - {T_3}}}{\mu }} \right)} \end{array} $

(3) 固定其他变量更新 $\mathit{\boldsymbol{J}}$ ,同时归一化 $\mathit{\boldsymbol{J}}$ 的每列

$ \mathit{\boldsymbol{J}} = \arg \mathop {\min }\limits_\mathit{\boldsymbol{J}} \left\{ {\frac{\alpha }{\mu }{{\left\| \mathit{\boldsymbol{J}} \right\|}_ * } + \frac{1}{2}\left\| {\mathit{\boldsymbol{J}} - \left( {{\mathit{\boldsymbol{D}}_i} + \frac{{{T_2}}}{\mu }} \right)} \right\|_{\rm{F}}^2} \right\} $

(4) 固定其他变量更新 $\mathit{\boldsymbol{D}}_i$ ,同时归一化 $\mathit{\boldsymbol{D}}_i$ 的每列

$ \begin{array}{*{20}{c}} {{\mathit{\boldsymbol{D}}_i} = \left\{ {\frac{{2\lambda }}{\mu }\left[ {{\mathit{\boldsymbol{Y}}_i}\mathit{\boldsymbol{X}}_i^{it} + \left( {\sum\limits_{j = 1,j \ne i}^c {{\mathit{\boldsymbol{D}}_j}\mathit{\boldsymbol{X}}_i^j} } \right)\mathit{\boldsymbol{X}}_i^{it}} \right] + } \right.}\\ {\left. {{\mathit{\boldsymbol{Y}}_i}\mathit{\boldsymbol{X}}_i^{it} - {\mathit{\boldsymbol{E}}_i}\mathit{\boldsymbol{X}}_i^{it} + \mathit{\boldsymbol{J}} + \frac{{{T_1}\mathit{\boldsymbol{X}}_i^{it} - {T_2}}}{\mu }} \right\} \times }\\ {{{\left( {2\left( {\frac{\lambda }{\mu } + 1} \right)\mathit{\boldsymbol{X}}_i^i\mathit{\boldsymbol{X}}_i^{it} + I} \right)}^{ - 1}}} \end{array} $

(5) 固定其他变量更新 $\mathit{\boldsymbol{E}}_i$

$ \begin{array}{*{20}{c}} {{\mathit{\boldsymbol{E}}_i} = }\\ {\arg \mathop {\min }\limits_{{\mathit{\boldsymbol{E}}_i}} \left\{ {\frac{\beta }{\mu }{{\left\| {{\mathit{\boldsymbol{E}}_i}} \right\|}_{2,1}} + \frac{1}{2}\left\| {{\mathit{\boldsymbol{E}}_i} - \left( {{\mathit{\boldsymbol{Y}}_i} - {\mathit{\boldsymbol{D}}_i}\mathit{\boldsymbol{X}}_i^i + \frac{{{T_1}}}{\mu }} \right)} \right\|_{\rm{F}}^2} \right\}} \end{array} $

(6) 更新 $T$1 $T$2 $T$3

$ {T_1} = {T_1} + \mu \left( {{\mathit{\boldsymbol{Y}}_i} - {\mathit{\boldsymbol{D}}_i}\mathit{\boldsymbol{X}}_i^i - {\mathit{\boldsymbol{E}}_i}} \right) $

$ {T_2} = {T_2} + \mu \left( {{\mathit{\boldsymbol{D}}_i} - \mathit{\boldsymbol{J}}} \right) $

$ {T_3} = {T_3} + \mu \left( {\mathit{\boldsymbol{X}}_i^i - \mathit{\boldsymbol{Z}}} \right) $

(7) 更新 $\mu $

$ \mu = \min \left( {\rho \mu ,{\mu _{\max }}} \right) $

当满足$ {\left\| {{\mathit{\boldsymbol{D}}_i} - \mathit{\boldsymbol{J}}} \right\|_\infty } < \varepsilon $$ {\left\| {{\mathit{\boldsymbol{Y}}_i} - {\mathit{\boldsymbol{D}}_i}\mathit{\boldsymbol{X}}_i^i - {\mathit{\boldsymbol{E}}_i}} \right\|_\infty } < \varepsilon $$ {\left\| {\mathit{\boldsymbol{X}}_i^i - \mathit{\boldsymbol{Z}}} \right\|_\infty } < \varepsilon $时,停止迭代。

4) 迭代运算,观察经过第2)3)步骤的迭代后 $J$($\mathit{\boldsymbol{D}}$, $\mathit{\boldsymbol{X}}$)的值,如果其值大于等于设定的阈值或者到达最大迭代次数则直接输出稀疏编码 $\mathit{\boldsymbol{X}}$ 和字典 $\mathit{\boldsymbol{D}}$ ,否则继续执行步骤2)3)两步。

5) 分类:给定测试样本 $\mathit{\boldsymbol{y}}$ ,其在结构化低秩字典 $\mathit{\boldsymbol{D}}$ 上的编码系数为

$ \mathit{\boldsymbol{x}} = \arg \mathop {\min }\limits_\mathit{\boldsymbol{x}} \left\{ {\left\| {\mathit{\boldsymbol{y}} - \mathit{\boldsymbol{Dx}}} \right\|_2^2 + \varepsilon {{\left\| \mathit{\boldsymbol{x}} \right\|}_1}} \right\} $ (14)

式中,$ \mathit{\boldsymbol{x}} = \left[ {{\mathit{\boldsymbol{x}}_1};{\mathit{\boldsymbol{x}}_2}; \cdots ;{\mathit{\boldsymbol{x}}_c}} \right] $ ${\mathit{\boldsymbol{x}}_i}$ 表示对应于子字典 ${\mathit{\boldsymbol{D}}_i}$ 的编码系数。计算第 $i$ 类的残差

$ {e_i} = \left\| {\mathit{\boldsymbol{y}} - {\mathit{\boldsymbol{D}}_i}{\mathit{\boldsymbol{x}}_i}} \right\|_2^2 + \omega \left\| {\mathit{\boldsymbol{x}} - {{\mathit{\boldsymbol{\bar x}}}_i}} \right\|_2^2 $ (15)

式中, ${{\mathit{\boldsymbol{\bar x}}}_i}$ 表示第 $i$ 类别的平均系数, $\omega $ 是一个权重参数。判断测试样本 $\mathit{\boldsymbol{y}}$ 属于哪一类,即

$ identity\left( \mathit{\boldsymbol{y}} \right) = \arg \mathop {\min }\limits_i \left\{ {{e_i}} \right\} $ (16)

3 实验及分析

为验证本文算法的有效性,选用AR[21]和ORL[22]数据库进行实验仿真。同时将本文所提出的方法与SRC算法、DKSVD算法、FDDL算法以及DLRD_SR算法进行对比。

3.1 AR数据库

AR人脸数据库拥有126个人的图像,其总图像量超过4 000幅。每个人的图像由两个不同时期拍摄得到,每个时期包括13幅图像,其中7幅脸部表情及光照改变(未被遮挡),3幅墨镜遮挡和3幅围巾遮挡。图 1分别表示AR数据库中部分测试图像原图、低秩分解后的低秩图和稀疏噪声图。

图 1 AR数据库中的部分测试图像
Fig. 1 Partial test samples of AR face database((a)original images; (b)low-rank images; (c)sparse noise images)

实验中,选择该数据库中的100个人的图像作为实验样本。由于图像都是高维的,在进行训练和测试之前先采用PCA算法将训练样本和测试样本统一降到500维。墨镜和围巾的遮挡程度分别可以看成是人脸图像的20%和40%,为了验证所提出的算法在不同脸部表情及光照改变以及遮挡的情况下的有效性,根据训练样本和测试样本的具体图像组合情况进行实验。

情况1:随机选取每个人的第1时期拍摄图像中的7幅脸部表情及光照改变(未被遮挡)图像和1幅墨镜遮挡的图像共8幅图像作为训练样本,第1时期拍摄的图像中剩下的2幅墨镜遮挡的图像,第2时期拍摄的图像中7幅脸部表情及光照改变(未被遮挡)的图像和3幅墨镜遮挡的图像共12幅图像作为测试图像,即总共有训练样本800幅,测试样本1 200幅。表 1表示不同算法在情况1样本组合下的识别率。

表 1 不同算法在情况1的样本组合下的识别率
Table 1 Recognition rate of different methods under the first condition of sample combination

下载CSV
算法
SRC DKSVD FDDL DLRD_SR 本文
识别率/% 76.2 81.7 85.9 89.4 92.1

情况2 :随机选取每个人第1时期拍摄图像中的7幅脸部表情及光照改变(未被遮挡)的图像和1幅围巾遮挡的图像共8幅图像作为训练样本,第1时期拍摄的图像中剩下的2幅围巾遮挡图像, 第2时期拍摄的图像中7幅脸部表情及光照改变(未被遮挡)图像和3幅围巾遮挡图像共12幅作为测试图像,即总共有训练样本800幅,测试样本1 200幅。表 3表示不同算法在情况2样本组合下的识别率。

表 3 不同算法在情况3的样本组合下的识别率
Table 3 Recognition rate of different methods under the thirdly condition of sample combination

下载CSV
算法
SRC DKSVD FDDL DLRD_SR 本文
识别率/% 73.8 77.9 82.1 86.1 88.0

情况3:随机选取每个人的第1时期拍摄图像中的7幅脸部表情及光照改变(未被遮挡)图像, 1幅围巾遮挡图像和1幅墨镜遮挡图像共9幅图像作为训练样本,第1时期拍摄的图像中剩下的2幅围巾遮挡图像, 2幅墨镜遮挡图像以及第2时期拍摄的13幅图像共17幅作为测试图像,即总共有训练样本900幅和测试样本1 700幅。表 3表示不同算法在情况3样本组合下的识别率。

表 1表 3可知,无论是哪种样本组合,本文算法在有遮挡存在的样本识别中具有显著优势。由表 1可知,在训练样本只包含脸部表情及光照改变、墨镜遮挡图像的情况下,其识别率高于其他算法至少2.7%;由表 2可知,在训练样本只包含脸部表情及光照改变、围巾遮挡图像的情况下,其识别率高于其他算法至少3.6%;由表 3可知,在训练样本包含脸部表情及光照改变、围巾遮挡、墨镜遮挡图像的情况下,其识别率高于其他算法至少1.9%。

表 2 不同算法在情况2的样本组合下的识别率
Table 2 Recognition rate of different methods under the second condition of sample combination

下载CSV
算法
SRC DKSVD FDDL DLRD_SR 本文
识别率/% 75.5 79.2 83.6 87.9 91.5

为了分析样本不同维数对实验结果造成的影响,现选取第1时期拍摄的每人6幅图像,包括1幅围巾遮挡,2幅墨镜遮挡以及3幅脸部表情及光照改变(未被遮挡)的图像作为训练样本,同时选取第2时期拍摄的同样组合的每人6幅图像作为测试样本,同时将图像的维数分别降到44维、136维、255维和500维进行实验仿真。表 4表示图像在不同维度下,SRC算法、DKSVD算法、FDDL算法、DLRD_SR算法以及本文算法的识别率。

表 4 不同维度下5种算法的识别率
Table 4 Recognition rate with different dimensions of five methods

下载CSV
/%
算法 维度
44 136 255 500
SRC 55.3 66.3 70 71.8
DKSVD 55 71.7 77.8 79.7
FDDL 55.8 65.1 73.9 75.5
DLRD_SR 65.1 70.9 80.5 82.7
本文 70.1 74.3 83.4 85.2

分析表 4可知,无论哪种方法,图像的维度越高识别率越高。实验中的样本包含戴墨镜以及围巾的图像,对比SRC算法与DKSVD算法的识别率可知,DKSVD算法通过字典学习减缓了训练样本中的不确定因素对识别结果的影响;对比DLRD_SR算法与FDDL算法的识别率可知,当图像有遮挡等噪声信息存在时,字典低秩化可以提高至少5.8%的识别率;对比本文算法与DLRD_SR算法可知,在字典学习的过程中加入Fisher准则后识别率显著提高,同时理想稀疏值 $\mathit{\boldsymbol{Q}}$ 能保证对样本进行最优的分类。

3.2 ORL数据库

ORL人脸数据库拥有40个人在不同时刻下光照的变化、脸部表情以及脸部细节变化的图像,共400幅。实验中从每人的10幅图像中随机挑选5幅图像作为训练图像,剩下的5幅图像作为测试图像。在每幅图像上随机遮挡一部分,图 2表示ORL人脸数据库中被随机遮挡10%时的部分训练图像和测试图像。表 5表示在不同程度随机遮挡下的图像识别率,同时将本文提出的方法与SRC算法、DKSVD算法、FDDL算法以及DLRD_SR算法相比较。

图 2 随机遮挡10%的部分训练图像和测试图像
Fig. 2 Example of training images and testing images with 10% random block occlusions

表 5 ORL数据库中不同程度遮挡下的识别率
Table 5 Recognition rate with different level of occlusions on the ORL database

下载CSV
算法 遮挡程度/%
0 10 20 30 40 50
SRC 92 78.6 64.1 53.7 37.9 28.3
DKSVD 88.5 81.3 72.8 61.3 45.3 35.6
FDDL 96.6 86.4 75.5 63.1 49.2 37.1
DLRD_SR 92.1 90.7 81.8 75.9 63.2 57.4
本文 95.2 91.9 83.7 78.5 69.4 60.4

分析表 5可知,图像在有遮挡的情况下,本文算法相比较于其他方法识别率更高。在图像没有任何遮挡的情况下FDDL算法的识别率达到最高。随着遮挡程度的加大,其识别率快速下降,但本文提算法以及DLRD_SR算法识别率的下降幅度减缓很多。本文算法相较于DLRD_SR算法的识别率略高,说明Fisher准则在识别力上起到了一定的积极作用,同时字典学习过程中加入理想稀疏值 $\mathit{\boldsymbol{Q}}$ 可以提高人脸识别率。

4 结论

本文提出了学习具有识别力的结构化低秩字典。该字典有4个特点:1)所学习的子字典对对应类别样本的表示能力很强,对其他类别的样本的表示能力较弱;2)所学习的子字典均低秩化,能够分离出样本中的噪声信息;3)在稀疏编码过程中引入了Fisher准则,提高了字典的分类能力;4)基于标签信息,构建结构稀疏 $\mathit{\boldsymbol{Q}}$ 值从而将结构信息引入字典学习过程中,提高分类能力。由实验结果可知,本文提出的算法在人脸识别上尤其是对含有噪声信息或遮挡的人脸识别是有显著效果的。由于本文所提出的字典学习方法是基于人脸图像的识别而学习出的,因此对于其他识别如指纹识别、字符识别等,该字典学习方法是否仍具有优越的识别能力还有待进一步研究。

参考文献

  • [1] Wu W, Li J H. Research on face recognition based on PCA and LDA[J]. Science and Technology Information, 2008(36): 465–466. [伍威, 李晋惠. 基于PCA和LDA的人脸识别技术的研究[J]. 科技信息, 2008(36): 465–466. ]
  • [2] Fernandes S, Bala J. Performance analysis of PCA-based and LDA-based algorithms for face recognition[J]. International Journal of Signal Processing Systems, 2013, 1(1): 1–6. [DOI:10.12720/ijsps]
  • [3] Wright J, Yang A Y, Ganesh A, et al. Robust face recognition via sparse representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2): 210–227. [DOI:10.1109/TPAMI.2008.79]
  • [4] Lian Q S, Shi B S, Chen S Z. Research advances on dictionary learning models, algorithms and applications[J]. Acta Automatica Sinica, 2015, 41(2): 240–260. [练秋生, 石保顺, 陈书贞. 字典学习模型、算法及其应用研究进展[J]. 自动化学报, 2015, 41(2): 240–260. ]
  • [5] Elad M, Aharon M. Image denoisingvia sparse and redundant representations over learned dictionaries[J]. IEEE Transactions on Image Processing, 2006, 15(12): 3736–3745. [DOI:10.1109/TIP.2006.881969]
  • [6] Yang M, Zhang L. Gabor feature based sparse representation for face recognition with Gabor occlusion dictionary[C]//Proceedings of DaniilidisK, Maragos P, ParagiosN. Computer Vision-ECCV 2010. Berlin: Springer-Verlag, 2010: 448-461.
  • [7] Kuo H J, Liu Y C, Cheng Y C. Image processing system and method of improving human face recognition: US, 9133526 B2[P]. 2016-04-12.
  • [8] Ramirez I, Sprechmann P, Sapiro G. Classification and clustering via dictionary learning with structured incoherence and shared features[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, CA: Institute of Electrical and Electronic Engineers, 2010: 3501-3508.
  • [9] Wang J, Cai J F, Shi Y H, et al. Incoherent dictionary learning for sparse representation based image denoising[C]//Proceedings of IEEE International Conference on Image Processing. Paris, France: Institute of Electrical and Electronic Engineers, 2014: 4582-4586.
  • [10] Jiang H L. Face recognition algorithm based onsubspace analysis[J]. Computer Systems & Applications, 2017, 26(2): 151–157. [江华丽. 基于子空间分析的人脸识别算法[J]. 计算机系统应用, 2017, 26(2): 151–157. ]
  • [11] Aharon M, Elad M, Bruckstein A. rmK-SVD:an algorithm for designing overcompletedictionaries for sparse representation[J]. IEEE Transactions on Signal Processing, 2006, 54(11): 4311–4322. [DOI:10.1109/TSP.2006.881199]
  • [12] Zhang Q, Li B X. Discriminative K-SVD for dictionary learning in face recognition[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, CA: Institute of Electrical and Electronic Engineers, 2010: 2691-2698.
  • [13] Jiang Z L, Lin Z, Davis L S. Learning a discriminative dictionary for sparse coding via label consistent K-SVD[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2011: 1697-1704.
  • [14] Yang M, Zhang L, Feng X C, et al. Fisher discrimination dictionary learning for sparse representation[C]//Proceedings of IEEE International Conference on Computer Vision. Barcelona, Spain: Institute of Electrical and Electronic Engineers, 2011: 543-550.
  • [15] Chen X Y, Wang C H. Characterized dictionary-based low-rank representation for face recognition[J]. Journal of Computer Applications, 2016, 36(12): 3423–3428. [程晓雅, 王春红. 基于特征化字典的低秩表示人脸识别[J]. 计算机应用, 2016, 36(12): 3423–3428. ] [DOI:10.11772/j.issn.1001-9081.2016.12.3423]
  • [16] Ma L, Wang C H, Xiao B H, et al. Sparse representation for face recognition based on discriminative low-rank dictionary learning[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: Institute of Electrical and Electronic Engineers, 2012: 2586-2593.
  • [17] Zhang H X, Zheng Z L, Jia J, et al. Low-rank matrix recovery based on Fisher discriminant Criterion[J]. PR & AI, 2015, 28(7): 651–656. [张海新, 郑忠龙, 贾泂, 等. 基于Fisher判别准则的低秩矩阵恢复[J]. 模式识别与人工智能, 2015, 28(7): 651–656. ]
  • [18] Zhang Y M Z, Jiang Z L, Davis L S. Learning structured low-rank representations for image classification[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR: Institute of Electrical and Electronic Engineers, 2013: 676-683.
  • [19] Rosasco L, Verri A, Santoro M, et al. Iterative projection methods for structured sparsity regularization: MIT-CSAIL-TR-2009-050, CBCL-282[R]. Cambridge, MA: Massachusettes Institute of Technology, 2009.
  • [20] Bertsekas D P. Constrained Optimization and Lagrange Multiplier Methods[M]. New York: Academic Press, 1982.
  • [21] Martínez A, Benavente R. The AR face database: CVC techrep #24[R]. Bellaterra, Barcelona City: Computer Vision Center, 1998.
  • [22] Samaria F S, Harter A C. Parameterisation of a stochastic model for human face identification[C]//Proceedings of the 2nd IEEE Workshop on Applications of Computer Vision. Sarasota, FL, USA: Institute of Electrical and Electronic Engineers, 1994: 138-142.