Print

发布时间: 2018-01-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170301
2018 | Volume 23 | Number 1




    图像理解和计算机视觉    




  <<上一篇 




  下一篇>> 





改进重构权值的局部线性嵌入算法
expand article info 刘方原, 夏克文, 牛文佳
河北工业大学电子信息工程学院, 天津 300130

摘要

目的 局部线性嵌入(LLE)算法是机器学习、数据挖掘等领域中的一种经典的流形学习算法。为克服LLE算法难以有效处理噪声、大曲率和稀疏采样数据等问题,提出一种改进重构权值的局部线性嵌入算法(IRWLLE)。方法 采用测地线距离来描述结构,重新构造和定义LLE中的重构权值,即在某样本的邻域内,将测地距离与欧氏距离之比定义为结构权值;将测地距离与中值测地距离之比定义为距离权值,再将结构权值与距离权值的乘积作为重构权值,从而将流形的结构和距离两种信息进行有机的结合。结果 对经典的人工数据Swiss roll、S-curve和Helix进行实验,在数据中加入噪声干扰,同时采用稀疏采样的方式来生成数据集,并与原始LLE算法和Hessian局部线性嵌入(HLLE)算法进行比较。实验结果表明,IRWLLE算法对比于LLE算法和HLLE算法,能够更好地保持流形的近邻关系,对流形的展开更加完好。尤其是对于加入噪声的大曲率数据集Helix,IRWLLE展现出极强的鲁棒性。对ORL和Yale人脸数据库进行人脸识别实验,采用最近邻分类器进行识别,将IRWLLE算法的识别结果与LLE算法进行对比。对于ORL数据集,IRWLLE算法识别率为90%,原LLE算法的识别率为85.5%;对于Yale数据集,IRWLLE算法识别率为88%,原LLE算法的识别率为75%,可见IRWLLE在人脸识别率上也有很大提高。结论 本文提出的IRWLLE算法对比于原LLE算法,不仅将流形距离信息引入到重构权值中,而且还将结构信息加入其中,有效减少了噪声和流形外数据点的干扰,所以对于噪声数据具有更强的鲁棒性,能够更好地处理稀疏采样数据和大曲率数据,在人脸识别率上也有较大提升。

关键词

流形学习; 局部线性嵌入算法; 重构权值; 降维; 鲁棒性

Improved reconstruction weight-based locally linear embedding algorithm
expand article info Liu Fangyuan, Xia Kewen, Niu Wenjia
School of Electronics & Information Engineering, Hebei University of Technology, Tianjin 300130, China
Supported by: Natural Science Foundation of Hebei Province, China (E2016202341)

Abstract

Objective The development of science and technology has reduced the cost of data collection, increased data in geometric series, and caused data dimension reduction technology to be an important part of machine learning. Manifold learning method is a nonlinear dimensionality reduction technique that is widely used in the visualization, feature extraction, and solving of the computational complexity of high-dimensional data. Locally linear embedding (LLE) algorithm is a classical manifold learning algorithm in machine learning and data mining. The basic idea of the LLE algorithm is that any sampling point and its neighbors form a locally linear plane. Each nearest neighbor corresponds to a weight, and the sampling point can be linearly represented by the principle of minimizing the reconstruction error of the nearest neighbor. An improved reconstruction weight-based LLE (IRWLLE) algorithm is proposed to overcome the problem of the LLE algorithm, including noise, large curvature, and sparse sampling data. Method Geodesic distance is used to describe the structure and reconstruct weights and define the reconstruction weights in the LLE to overcome the shortcomings of the original LLE algorithm, which considers only distance factors and ignores structural factors. Structural and distance weights are added. Any sample is selected as the center point, and the nearest-neighbor point (sample) from the center point is selected as the local neighborhood according to Euclidean distance. In this neighborhood, the ratio of the geodesic distance to the Euclidean distance between the center and neighboring points is defined as the structural weight, and the ratio of the geodesic distance to the median geodesic distance between the center and neighboring points is defined as the distance weight. The product of structural and distance weights is defined as the reconstruction weight; thus, the structure and distance information of the manifold are organically combined. Geometric distance calculation method using the classic Dijkstra algorithm is commonly used in Isomap algorithm. For the distance weight, the median distance of the geodesic distance in a local neighborhood is fixed. A farther distance from the center sample point of a neighboring point indicates a smaller distance weight corresponding to this neighbor point, which is in line with the idea that "a greater distance from the neighborhood center means a smaller contribution to the reconstruction center." The geodesic distance divided by its value reduces the noise effect on the weight to a certain extent. In the structural weight part, the ratio of Euclidean distance to geodesic distance is selected to measure the linearity of the local neighborhood. A greater distance from the linear plane of a neighboring point indicates a smaller contribution to the reconstruction center point and a smaller structural weight of the adjacent point. This notion further emphasizes the importance of structure to weight and enhances noise immunity. Result Classical artificial data, such as Swiss roll, S-curve, and Helix, are experimented, and noise is added to the data. Sparse sampling is used to generate a data set. The proposed algorithm is compared with the original LLE algorithm and Hessian LLE (HLLE) algorithm. Results show that the IRWLLE algorithm is better than the LLE and HLLE algorithms by maintaining the neighbor relation of the manifold and improving the manifold. In particular, IRWLLE exhibits stronger robustness for the large curvature data set Helix. A face recognition experiment on ORL and Yale face databases is conducted by using a nearest-neighbor classifier, and the recognition result of the IRWLLE algorithm is compared with that of the LLE algorithm. For the ORL dataset, the recognition rate of the IRWLLE algorithm is 90%, whereas that of the original LLE algorithm is 85.5%. For the Yale dataset, the recognition rate of the IRWLLE algorithm is 88%, whereas that of the original LLE algorithm is 75%. Therefore, the face recognition rate of IRWLLE is also greatly improved. Conclusion The proposed IRWLLE algorithm is based on the original LLE algorithm. This proposed algorithm not only introduces manifold distance information into reconstruction weight but also adds structural information, thereby effectively reducing the interference from noise and data outside the manifold. The IRWLLE algorithm has high robustness to noise data and can manage sparse sampling and large curvature data. The face recognition rate of the IRWLLE algorithm is also enhanced.

Key words

Manifold learning; locally linear embedding; reconstruction weight; dimensionality reduction; robustness

0 引言

随着人类步入“大数据时代”,海量数据带来大量信息的同时,也制造了“维度灾难”。降维成为当前机器学习、模式识别、深度学习等领域的研究热点之一。长期以来,人们假设数据是全局线性结构或高斯分布的,这使得线性降维方法成为降维的主流。例如主成分分析(PCA)[1]、线性判别分析(LDA)[2]、多维尺度分析(MDS)[3]、独立成分分析(ICA)[4]等。

然而,实际中很多数据并非全局线性,流形学习(Manifold learning)方法应运而生,并被证明在处理非线性结构数据时更加行之有效。经典的流行学习方法包括等距特征映射(ISOMAP)[5]、局部线性嵌入算法(LLE)[6]、局部切空间排列算法(LTSA)[8]等。

LLE作为一种经典的流形学习算法, 由于其易于理解、方便实现、全局最优无需迭代等优点,在人脸图像识别[9]、肺结节检测[10]、轴承故障诊断[11]等方向得到了成功应用。但是,原始的LLE同样存在着诸多的问题:

1) 由于LLE假设数据均匀稠密采样,所以对那些受噪声污染、样本稀疏采样、曲率较大的数据,低维嵌入结果会被严重破坏;

2) 原始的流形学习算法均是无监督的,所以LLE没有很好地利用类别信息,降维结果不利于后期的识别分类;

3) 由于LLE是一种没有明确的映射表达式,所以对于新样本的泛化能力很弱。

针对上述问题,学者们从不同角度提出了改进算法。Donoho等人[12]提出一种Hessian局部线性嵌入(HLLE),用Hessian算子代替Laplacian算子,提升了处理不均匀采样数据的能力。Ridder[13]提出了一种利用类别标签的有监督的局部线性嵌入算法(SLLE),SLLE在计算邻近点间距离时,依据类别加入一个常数项,使得同类的样本在低维嵌入结果中离得更近,不同类的样本则离得更远。Wu等人[10]在SLLE基础上提出了SC2SLLE算法,在邻域选择机制中加入了斯皮尔曼相关系数,进一步增强了分类性能。He等人[14]提出了近邻保持嵌入算法(NPE),NPE通过对LLE算法进行线性逼近,得到一个转换矩阵,使新样本可以方便地映射到低维空间。文献[15]提出了一种半监督样本外点插值算法(SOSI),进一步提高了LLE的泛化性能。

现有的抗噪LLE算法[16]虽在一定程度上提升了鲁棒性,但是处理受强噪声干扰、曲率过大的数据还是不够理想,且仅仅考虑了邻域内的欧式距离因素,忽略了数据本身的流形结构。为了进一步提升LLE算法的抗噪以及处理大曲率数据的能力,以文献[17]提出的权值构造方案为基础并加以改进,提出改进重构权值的局部线性嵌入算法(IRWLLE),并通过人造数据和人脸数据实验来验证算法的有效性。

1 LLE算法中权值的计算

首先,LLE算法基本思想是任意一个样本点与其局部邻域内的近邻点构成一个局部线性平面,每一个近邻点对应一个权值,在重构误差最小化的原则下,该样本点可由这些近邻点线性表示。通过重构权值矩阵把高维观测空间与低维嵌入空间联系起来,在低维空间中,固定每个样本和它的近邻点的重构权值不变,通过最小化重构误差来得到高维向量在低维空间的嵌入结果。给定$D$维原始数据集$\mathit{\boldsymbol{X}} = \left( {{\mathit{\boldsymbol{x}}_1}, {\mathit{\boldsymbol{x}}_2}, \cdots, {\mathit{\boldsymbol{x}}_N}} \right) \in {{\bf{R}}^{D \times N}}$采样于$d $维流形$M $, $d<D $, $N$为样本个数,设$N$的全局低维坐标为$\mathit{\boldsymbol{Y}} = ({\mathit{\boldsymbol{y}}_1}, {\mathit{\boldsymbol{y}}_2}, \cdots, {\mathit{\boldsymbol{y}}_N}) \in {{\bf{R}}^{d \times N}}$

对于每一样本${\mathit{\boldsymbol{x}}_i}\left( {i = 1, 2, \cdots, N} \right)$,首先选择与其距离最近的$k$个样本作为局部邻域${\mathit{\boldsymbol{X}}_i} = \left( {{\mathit{\boldsymbol{x}}_{i1}}, {\mathit{\boldsymbol{x}}_{i2}}, \cdots, {\mathit{\boldsymbol{x}}_{ik}}} \right) \in {{\bf{R}}^{D \times k}}$${\mathit{\boldsymbol{x}}_{ij}}\left( {j = 1, 2, \cdots, k} \right)$${\mathit{\boldsymbol{x}}_i}$的第$j$个近邻样本。LLE认为${\mathit{\boldsymbol{x}}_i}$可由其近邻点线性重构,即${\mathit{\boldsymbol{x}}_i} = {w_{i1}}{\mathit{\boldsymbol{x}}_{i1}} + {w_{i2}}{\mathit{\boldsymbol{x}}_{i2}} + \cdots + {w_{ik}}{\mathit{\boldsymbol{x}}_{{\rm{ik}}}}$,其中${w_{ij}}\left( {j = 1, 2, \cdots, k} \right)$为近邻点${\mathit{\boldsymbol{x}}_{ij}}$所对应的重构权值,利用最小化重构误差来计算${\mathit{\boldsymbol{x}}_i}$对应的重构权值向量${\mathit{\boldsymbol{w}}_i} = {\left[{{w_{i1}}, {w_{i2}}, \ldots, {w_{ik}}} \right]^{\bf{T}}}$,即

$ \begin{array}{l} \mathop {{\rm{arg\ min}}}\limits_{{w_i}} {\left\| {{\mathit{\boldsymbol{x}}_i} - \sum\limits_{j = 1}^k {{w_{ij}}{\mathit{\boldsymbol{x}}_j}} } \right\|^2}\\ \;\;\;\;\;{\rm{s}}{\rm{.t}}{\rm{.}}\;\sum\limits_{j = 1}^k {{w_{ij}} = 1} \end{array} $ (1)

式中,${{w_{ij}}}$${{\mathit{\boldsymbol{x}}_{ij}}}$对应的重构权值。

若样本点${\mathit{\boldsymbol{x}}_j}$不是${\mathit{\boldsymbol{x}}_i}$的近邻,则${w_{ij}} = 0$。令$\mathit{\boldsymbol{B}} = \left[{\left( {{\mathit{\boldsymbol{x}}_1}-{\mathit{\boldsymbol{x}}_i}} \right), \left( {{\mathit{\boldsymbol{x}}_2}-{\mathit{\boldsymbol{x}}_i}} \right), \cdots, \left( {{\mathit{\boldsymbol{x}}_k}-{\mathit{\boldsymbol{x}}_i}} \right)} \right] $,再另$\mathit{\boldsymbol{G}} = {\mathit{\boldsymbol{B}}^{\rm{T}}}\mathit{\boldsymbol{B}}$为半正定$k$阶Gram方阵,${\mathit{\boldsymbol{e}}_k}$$k$维全1列向量,由约束条件$\sum\limits_{j = 1}^k {{w_{ij}} = 1} $,则式(1)可化为

$\begin{array}{l} {\rm{arg}}\;\mathop {{\rm{min}}}\limits_{{w_i}} {\left\| {\mathit{\boldsymbol{B}}{\mathit{\boldsymbol{w}}_i}} \right\|^2} = \mathop {{\rm{arg}}\;{\rm{min}}}\limits_{{w_i}} (\mathit{\boldsymbol{w}}_i^{\rm{T}}\mathit{\boldsymbol{G}}{\mathit{\boldsymbol{w}}_i})\\ \;\;\;\;\;\;\;\;{\rm{s}}{\rm{.t}}{\rm{.}}\;\;\;\mathit{\boldsymbol{e}}_k^{\rm{T}}{\mathit{\boldsymbol{w}}_i} = 1 \end{array} $ (2)

利用Lagrange乘数法计算此条件极值,得到邻域${\mathit{\boldsymbol{X}}_i}$对应的权重${\mathit{\boldsymbol{w}}_i} = {\mathit{\boldsymbol{e}}_k}\mathit{\boldsymbol{Ge}}_k^{\rm{T}}{\mathit{\boldsymbol{G}}^{ - 1}}{\mathit{\boldsymbol{e}}_{k}}$,实际操作中,只需先求解$\mathit{\boldsymbol{G}}{\mathit{\boldsymbol{w}}_i} = {\mathit{\boldsymbol{e}}_k}$,然后再将解向量${\mathit{\boldsymbol{w}}_i}$归一化,得到的上述权值${\mathit{\boldsymbol{w}}_i}$。对每一个样本重复以上步骤,从而得到总体的权重矩阵$\mathit{\boldsymbol{W}} = \left[{{\mathit{\boldsymbol{w}}_1}, {\mathit{\boldsymbol{w}}_2}, \cdots, {\mathit{\boldsymbol{w}}_N}} \right]$

LLE算法以局部线性结构为出发点,以重构权值矩阵作为高维观测空间与低维嵌入空间之间联系的纽带,并且低维嵌入结果具有平移、旋转、缩放不变性。LLE算法最后归结为稀疏矩阵的特征分解问题,具有解析的全局最优解,无需迭代,在保持局部特性的流形学习算法中具有里程碑式的意义。但LLE算法也存在抗噪性差、无法处理大曲率数据、对$k$值选取敏感、对数据要求高(匀称稠密采样)等问题。

2 改进的权值计算方法

针对原始LLE算法存在的不足,为了克服原始的权值只考虑距离因素而忽视结构因素的缺点,采用测地线(Geodesic)距离来描述结构,引出一种新的权值构造方法,加入结构权值$w_{ij}^S$和距离权值$w_{ij}^D$, 定义重构权值${w_{ij}}$$w_{ij}^D$$w_{ij}^S$乘积,即

$ {w_{ij}} = w_{ij}^S \cdot w_{ij}^D $ (3)

$ w_{ij}^S = {\mathit{D}_E}\left( {{\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_{ij}}} \right)/{D_G}\left( {{\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_{ij}}} \right) $ (4)

$ w_{ij}^D = {\rm{exp}}\left[{-{D_G}\left( {{\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_{ij}}} \right)/{d_m}} \right] $ (5)

式中,${D_E}\left( {{\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_{ij}}} \right)$${D_G}\left( {{\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_{ij}}} \right)$分别为样本${\mathit{\boldsymbol{x}}_i}$与其邻域内样本点${\mathit{\boldsymbol{x}}_{ij}}$间的欧氏距离和测地距离,${d_m}$为邻域内所有测地距离的中值。本文测地距离的计算选用经典的Dijkstra算法,其常用于ISOMAP算法之中。

对于距离权值$w_{ij}^D$来说,在某局部邻域中${d_m}$是固定的,某个近邻点$ {\mathit{\boldsymbol{x}}_{ij}}$距样本点${\mathit{\boldsymbol{x}}_{i}}$的测地距离越远,则$ - {D_G}\left( {{\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_{ij}}} \right)/{d_m}$就越小,这个近邻点${\mathit{\boldsymbol{x}}_{ij}}$所对应的$w_{ij}^D$也就越小,这符合“近邻点离得越远,对${\mathit{\boldsymbol{x}}_{i}}$重构的贡献值越小”的思想,除以中值${d_m}$在一定程度上减少了噪声对权值的影响。分析结构权值$w_{ij}^S$, 选择欧氏距离${D_E}\left( {{\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_{ij}}} \right)$与测地距离${D_G}\left( {{\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_{ij}}} \right)$的比值来衡量${\mathit{\boldsymbol{x}}_i}$的局部邻域的线性程度,近邻点${\mathit{\boldsymbol{x}}_{ij}}$越偏离线性平面其对重构${\mathit{\boldsymbol{x}}_i}$的贡献度越小,则该近邻点的结构权值$w_{ij}^S$就越小,进一步强调了结构对权值的重要性,提升了抗噪性。

IRWLLE算法分为以下3个环节:

1) 选择局部邻域。对于每一样本${\mathit{\boldsymbol{x}}_i}\left( {i = 1, 2, \cdots, N} \right)$,根据$k$近邻方法以欧氏距离为测度,选择与其距离最近的$k$个样本作为局部邻域${\mathit{\boldsymbol{X}}_i} = \left( {{\mathit{\boldsymbol{x}}_{i1}}, {\mathit{\boldsymbol{x}}_{i2}}, \cdots, {\mathit{\boldsymbol{x}}_{ik}}} \right) \in {{\bf{R}}^{D \times k}}$,其中${\mathit{\boldsymbol{x}}_{ij}}\left( {j = 1, 2, \cdots, N} \right)$${\mathit{\boldsymbol{x}}_i}$的第$j$个近邻。

2) 计算重构权值矩阵。对于每一个局部邻域${\mathit{\boldsymbol{X}}_i}$,计算出邻域内的欧氏距离和测地距离,并按式(3)—式(5)计算相应的新重构权值矩阵${\mathit{\boldsymbol{w}}_i}$。重复以上步骤得到总体的重构权值矩阵$\mathit{\boldsymbol{W}}$

3) 计算低维嵌入。固定之前到的重构权值矩阵$\mathit{\boldsymbol{W}}$,计算输入样本集${\mathit{\boldsymbol{X}}_i}$的低维嵌入坐标$\mathit{\boldsymbol{Y}}$。通过最小化重构误差来计算$\mathit{\boldsymbol{Y}}$,即

$ \begin{array}{l} \mathop {\;\;\;{\rm{arg\ min}}}\limits_Y {\sum\limits_{i = 1}^N {\left\| {{y_i} - \sum\limits_{j = 1}^k {{w_{ij}}{\mathit{\boldsymbol{y}}_j}} } \right\|} ^2}\\ {\rm{s}}{\rm{.t}}{\rm{.}}\;\;\sum\limits_{i = 1}^N {{\mathit{\boldsymbol{y}}_i} = 0}, \frac{1}{N}\sum\limits_{i = 1}^N {{\mathit{\boldsymbol{y}}_i}\mathit{\boldsymbol{y}}_i^{\rm{T}} = {\mathit{\boldsymbol{I}}_d}} \end{array} $ (6)

式中,${{\mathit{\boldsymbol{I}}_d}}$$d$阶单位矩阵。

${\mathit{\boldsymbol{y}}_i} = \mathit{\boldsymbol{Y}}{\mathit{\boldsymbol{I}}_i}, \mathit{\boldsymbol{M}} = {\left( {\mathit{\boldsymbol{I}} - \mathit{\boldsymbol{W}}} \right)^{\rm{T}}}\left( {\mathit{\boldsymbol{I}} - \mathit{\boldsymbol{W}}} \right)$,则式(6)可化为

$ \mathop {{\rm{arg\ min}}}\limits_Y {\sum\limits_{i = 1}^N {\left\| {\mathit{\boldsymbol{Y}}{\mathit{\boldsymbol{I}}_i} - \mathit{\boldsymbol{Y}}{\mathit{\boldsymbol{w}}_i}} \right\|} ^2} = \mathop {{\rm{arg\ min}}}\limits_Y \;{\rm{tr}}\left( {\mathit{\boldsymbol{YM}}{\mathit{\boldsymbol{Y}}^{\rm{T}}}} \right) $ (7)

则上述问题最终转化为求解矩阵$\mathit{\boldsymbol{M}}$的特征分解问题,即

$ \mathit{\boldsymbol{M}}{\mathit{\boldsymbol{Y}}^{\rm{T}}} = \lambda {\mathit{\boldsymbol{Y}}^{\rm{T}}} $ (8)

求得$\mathit{\boldsymbol{M}}$的最小的$d+1$个特征值对应的特征向量,注意到最小特征值为0,它所对应的特征向量为全1向量,所以必须剔除,剩下的$d$个特征向量即为低维嵌入结果$\mathit{\boldsymbol{Y}}$

经过以上分析,IRWLLE算法的流程为

输入:参数$k、d$,高维数据集

$ \mathit{\boldsymbol{X}} = \left( {{\mathit{\boldsymbol{x}}_1}, {\mathit{\boldsymbol{x}}_2}, \cdots, {\mathit{\boldsymbol{x}}_N}} \right) \in {{\bf{R}}^{D \times N}} $

输出:低维嵌入结果

$ \mathit{\boldsymbol{Y}} = \left( {{\mathit{\boldsymbol{y}}_1}, {\mathit{\boldsymbol{y}}_2}, \cdots, {\mathit{\boldsymbol{y}}_N}} \right) \in {{\bf{R}}^{d \times N}} $

1)选择局部邻域。对于某个样本${{\mathit{\boldsymbol{x}}_i}}$,根据欧氏距离选取$k$个最近临点构成局部邻域${{\mathit{\boldsymbol{X}}_i}}$

2) 计算重构权值矩阵。固定${{\mathit{\boldsymbol{X}}_i}}$,分别计算结构权值$w_{ij}^S$和距离权值$w_{ij}^D$得到${{\mathit{\boldsymbol{w}}_i}}$,重复以上过程得到总体的重构权值矩阵${\mathit{\boldsymbol{W}}}$

3) 计算低维嵌入。根据${\mathit{\boldsymbol{W}}}$,求矩阵$\mathit{\boldsymbol{M}} = {\left( {\mathit{\boldsymbol{I}} - \mathit{\boldsymbol{W}}} \right)^{\rm{T}}}\left( {\mathit{\boldsymbol{I}} - \mathit{\boldsymbol{W}}} \right)$的特征值分解,取第2到$d+1$小的特征值对应的特征向量组成低维嵌入${\mathit{\boldsymbol{Y}}}$

3 实验与分析

为了验证IRWLLE算法的有效性,分别对人造数据和人脸数据进行实验,并与原始LLE算法和Hessian局部线性嵌入(HLLE)算法进行比较。

3.1 人工数据实验

选取了流行学习经典的Swiss roll、S-curve和Helix这3种人工数据集来作为实验对象,通过与LLE算法和HLLE算法对比,分析改进算法的性能。为了验证各个算法的抗噪性和处理稀疏采样数据的能力,将3种人工数据分为400和1 000数据点、原始和加噪4种数据。

首先对于Swiss roll数据,它是一个3维的卷筒结构,好的流形算法可以恢复出Swiss roll的几何结构,例如卷曲曲面或平面,同时还能保持各个数据点的近邻关系,即颜色的渐变性。

图 1是Swiss roll数据通过各算法的处理结果。通过对比可以看出,IRWLLE算法面对稀疏采样的数据虽在一定程度上存在数据点重叠现象,但总体上仍然很好地保持了数据点的近邻关系,颜色渐变平稳,没有出现颜色交杂现象,而且对Swiss roll的结构展开也比较理想。而原始的LLE算法和HLLE算法无论怎样调节近邻参数$k$的取值,虽然也将数据降维2维,但是数据点间的近邻关系被严重破坏,颜色混杂,不利于分类学习。因此,可以看出IRWLLE算法在处理稀疏采样的数据时,对比原LLE算法具有明显的优势。

图 1 不同算法对原始Swiss roll数据(400点)的处理结果
Fig. 1 Results of different algorithms on the original Swiss roll data(400 points)
((a) raw Swiss roll data (400 points); (b) IRWLLE; (c) LLE; (d) HLLE)

图 2是400个混杂有高斯白噪声的数据通过各算法的处理结果。对比各结果发现, LLE和HLLE算法得到的结果仍然很不理想,噪声的加入使得数据点间的近邻关系更加混乱;反观IRWLLE算法,对比图 1(b)图 2(b)发现噪声对IRWLLE算法的结果几乎未造成影响,仍然具有很强的鲁棒性,这主要是由于噪声数据过于偏离流形,结构权值减少了其权重。

图 2 不同算法对加噪Swiss roll数据(400点)的处理结果
Fig. 2 Results of different algorithms on the noisy Swiss roll data(400 points)
((a) noisy Swiss roll data (400 points); (b) IRWLLE; (c) LLE; (d) HLLE)

对于S-curve数据和Helix曲线,限于篇幅只展示IRWLLE算法的抗噪能力,故固定取1 000个数据点,进行实验分析。

图 3(a)是原始的S-curve数据,图 3(b)是加入强噪声之后的S-curve数据,图 3(c)-(e)是各个算法对图 3(b)的处理结果。对比发现,加入强噪声之后LLE算法结果的近邻关系被破坏较为严重,边缘的深蓝色和中部的红色交杂在一起,降维效果最差;HLLE由于引入了Hessian算子在一定程度上减小了噪声数据的干扰,但是被错误排列的数据点仍然较多;观察图 3(c)可以发现,IRWLLE算法面对噪声数据最为鲁棒,3维“S”形流形被充分展开,而且近邻关系保持完好,只有极个别深蓝色点被错误排列,效果最佳。而且在实验中LLE和HLLE算法均对$k$值的选取敏感,不同取值的效果差距明显,参数选择困难,但是由于IRWLLE方法采用比值的形式,距离很远的近邻点权值很小,所以降维结果对$k$值的选取依赖性较小。

图 3 不同算法对加噪S-curve数据的处理结果
Fig. 3 Results of different algorithms on the noisy S-curve data
((a) raw S-curve data; (b) noisy S-curve data; (c) IRWLLE; (d) LLE; (e) HLLE)

图 4(a)是原始的Helix数据,图 4(b)是加入强噪声之后的Helix数据,肉眼以难以区分颜色的渐变关系。图 4(c)-(e)是各算法对图 4(b)的处理结果。对比图 4(b)(c)可以看出,虽然加噪数据已经十分“嘈杂”,但是IRWLLE算法依然能够发现数据的内在流形结构,对噪声干扰的鲁棒性非常强并且最大程度上保持了数据点间的近邻关系;反观图 4(d)(e)可以清楚地发现,LLE、HLLE算法对这种曲率极大且加入噪声的数据没有处理能力,不仅流形结构被严重破坏,而且近邻关系也显得杂乱无章。

图 4 不同算法对加噪Helix数据的处理结果
Fig. 4 Results of different algorithms on the noisy Helix data
((a) raw Helix data; (b) noisy Helix data; (c) IRWLLE; (d) LLE; (e) HLLE)

3.2 人脸数据实验

采用ORL和Yale人脸数据库进行人脸识别实验。ORL人脸数据库由剑桥大学AT&T实验室采集和整理,共400幅灰度人脸图像,每幅图像分辨率为92×112像素,包含40个人,每人10幅图像,呈现不同的表情、角度以及面部饰品的变化。选取每人的前5幅图像作为训练集,后5幅图像作为测试集。Yale人脸数据库包含了15人,每人11幅,共165幅人脸图像,图像分辨率为100×100像素。每人10幅图像,前5幅图像作为训练集,后5幅图像作为测试集。图 5图 6分别列举一些了ORL和Yale数据样本,其中每一行为一名志愿者,每行的前5幅为训练图像,后5幅为测试图像。

图 5 ORL人脸图像举例
Fig. 5 Examples of ORL face images
图 6 Yale人脸图像举例
Fig. 6 Examples of Yale face images

分别采用LLE和IRWLLE算法对整理好的ORL和Yale图像数据进行降维,并采用最近邻分类器进行人脸识别,改变参数$k$$d$来寻找每种降维算法所能达到的最大识别率,其中$k$是某样本${\mathit{\boldsymbol{x}}_i}$的近邻值个数,$d$是高维数据经过降维之后的维数,识别率为识别正确的测试样本数与总测试样本数之比。

表 1展示了LLE和IRWLLE算法在ORL和Yale人脸数据上的降维和识别效果的比较。对比发现,IRWLLE算法在识别率上较原始LLE有了显著提升。

表 1 人脸识别率
Table 1 Face recognition rate

下载CSV
数据集 算法 最大识别率/% 降维维数$d$ 近邻值$k$
ORL LLE 85.5 100 11
IRWLLE 90 95 6
Yale LLE 75 20 9
IRWLLE 88 40 11

4 结论

LLE算法是一种广泛研究和应用的流形降维算法,针对LLE算法存在的抗噪性差、难以处理大曲率数据、难以处理稀疏采样数据和对参数选择敏感问题,提出一种改进的局部线性嵌入算法IRWLLE,引入一种有别于原始LLE算法的重构权值矩阵的计算方法,将测地距离与欧氏距离之比定义为结构权值;将测地距离与中值测地距离之比定义为距离权值,通过结构权值与距离权值的乘积综合考虑了流形的结构和距离因素,思想明确易于实现。

通过对国际通用的经典人工数据和人脸数据的实验,表明IRWLLE算法具有良好的降维效果和识别率,有效地克服了原有算法的不足。但需指出的是,该改进方法并未引进样本的类别信息,也未考虑样本外问题,这些都是以后工作的重点。

参考文献

  • [1] Abdi H, Williams L J. Principal component analysis[J]. Wiley Interdisciplinary Reviews:Computational Statistics, 2010, 2(4): 433–459. [DOI:10.1002/wics.101]
  • [2] Zhong F J, Zhang J S. Linear discriminant analysis based on L1-norm maximization[J]. IEEE Transactions on Image Processing, 2013, 22(8): 3018–3027. [DOI:10.1109/TIP.2013.2253476]
  • [3] Borg I, Groenen P. Modern multidimensional scaling:theory and applications[J]. Journal of Educational Measurement, 2003, 40(3): 277–280. [DOI:10.1111/j.1745-3984.2003.tb01108.x]
  • [4] Hyvärinen A, Oja E. Independent component analysis:algorithms and applications[J]. Neural Networks, 2000, 13(4-5): 411–430. [DOI:10.1016/S0893-6080(00)00026-5]
  • [5] Tenenbaum J B, De Silva V, Langford J C. A global geometric framework for nonlinear dimensionality reduction[J]. Science, 2000, 290(5500): 2319–2323. [DOI:10.1126/science.290.5500.2319]
  • [6] Saul L K, Roweis S T. An introduction to locally linear embedding[J]. Journal of Machine Learning Research, 2001, 7(1): 1–13.
  • [7] Saul L K, Roweis S T. Think globally, fit locally:unsupervised learning of low dimensional manifolds[J]. Journal of Machine Learning Research, 2003, 4: 119–155. [DOI:10.1162/153244304322972667]
  • [8] Zhang Z Y, Zha H Y. Principal manifolds and nonlinear dimensionality reduction via tangent space alignment[J]. SIAM Journal on Scientific Computing, 2004, 26(1): 313–338. [DOI:10.1137/S1064827502419154]
  • [9] Tang Z J, Ruan L L, Qin C, et al. Robust image hashing with embedding vector variance of LLE[J]. Digital Signal Processing, 2015, 43: 17–27. [DOI:10.1016/j.dsp.2015.05.002]
  • [10] Wu P P, Xia K W, Yu H Y. Correlation coefficient based supervised locally linear embedding for pulmonary nodule recognition[J]. Computer Methods and Programs in Biomedicine, 2016, 136: 97–106. [DOI:10.1016/j.cmpb.2016.08.009]
  • [11] Wang X, Zheng Y, Zhao Z Z, et al. Bearing fault diagnosis based on statistical locally linear embedding[J]. Sensors, 2015, 15(7): 16225–16247. [DOI:10.3390/s150716225]
  • [12] Xing X L, Du S D, Wang K J. Robust hessian locally linear embedding techniques for high-dimensional data[J]. Algorithms, 2016, 9(2): #36. [DOI:10.3390/a9020036]
  • [13] De Ridder D, Kouropteva O, Okun O, et al. Supervised locally linear embedding[C]//Joint International Conference ICANN/ICONIP 2003. Istanbul, Turkey:Springer, 2003:333-341.[DOI:10.1007/3-540-44989-2_40]
  • [14] He X F, Cai D, Yan S C, et al. Neighborhood preserving embedding[C]//Proceedings of the 10th IEEE International Conference on Computer Vision. Beijing, China:IEEE, 2005:1208-1213.[DOI:10.1109/ICCV.2005.167]
  • [15] Vural E, Guillemot C. Out-of-sample generalizations for supervised manifold learning for classification[J]. IEEE Transactions on Image Processing, 2016, 25(3): 1410–1424. [DOI:10.1109/TIP.2016.2520368]
  • [16] Sun Y, Ye Q W, Wang X D, et al. Improved LLE algorithm based on sparse constraint[J]. Computer Engineering, 2013, 39(5): 53–56, 60. [孙洋, 叶庆卫, 王晓东, 等. 基于稀疏约束的LLE改进算法[J]. 计算机工程, 2013, 39(5): 53–56, 60. ] [DOI:10.3969/j.issn.1000-3428.2013.05.010]
  • [17] Du C, Zou H X, Sun J X, et al. Manifold learning algorithm based on modified local tangent space alignment[J]. Journal of Electronics & Information Technology, 2014, 36(2): 277–284. [杜春, 邹焕新, 孙即祥, 等. 基于改进局部切空间排列的流形学习算法[J]. 电子与信息学报, 2014, 36(2): 277–284. ] [DOI:10.3724/SP.J.1146.2013.00135]