发布时间: 2018-07-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170572
2018 | Volume 23 | Number 7

图像处理和编码

面向图像集分类的切空间稀疏表示算法

陈凯旋, 吴小俊

江南大学物联网工程学院, 无锡 214122

收稿日期: 2017-11-06; 修回日期: 2018-01-24

基金项目: 国家自然科学基金项目(61672265, 61373055)

第一作者简介: 陈凯旋, 1993年生, 男, 江南大学物联网工程学院计算机技术硕士研究生, 主要研究方向为计算机视觉、模式识别、黎曼流形。E-mail:kaixuan_chen_jnu@163.com.

中图法分类号: TP391.4

文献标识码: A

文章编号: 1006-8961(2018)07-0961-12

摘要

目的在基于图像集的分类任务中, 用SPD (symmetric positive definite)矩阵描述图像集, 并考虑所得到的黎曼流形, 已被证明对许多分类任务有较好的效果。但是, 已有的经典分类算法大多应用于欧氏空间, 无法直接应用于黎曼空间。为了将欧氏空间的分类方法应用于解决图像集的分类, 综合考虑SPD流形的LEM (Log-Euclidean metric)度量和欧氏空间分类算法的特性, 实现基于图像集的分类任务。方法通过矩阵的对数映射将SPD流形上的样本点映射到切空间中, 切空间中的样本点与图像集是一一对应的关系, 此时, 再将切空间中的样本点作为欧氏空间中稀疏表示分类算法的输入以实现图像集的分类任务。但是切空间样本的形式为对称矩阵, 且维度较大, 包含一定冗余信息, 为了提高算法的性能和运行效率, 使用NYSTRÖM METHOD和(2D)²PCA (two-directional two-dimensional PCA)两种方法来获得包含图像集的主要信息且维度更低的数据表示形式。结果在实验中, 对人脸、物体和病毒细胞3种不同的对象进行分类, 并且与一些用于图像集分类的经典算法进行对比。实现结果表明, 本文算法不仅具有较高的识别率, 而且标准差也相对较小。在人脸数据集上, 本文算法的识别率可以达到78.26%, 比其他算法高出10%左右, 同时, 具有最小的标准差2.71。在病毒数细胞据集上, 本文算法的识别率可以达到58.67%, 在所有的方法中识别率最高。在物体识别的任务中, 本文算法的识别率可以达到96.25%, 标准差为2.12。结论实验结果表明, 与一些经典的基于图像集的分类算法对比, 本文算法的识别率有较大的提高且具有较小的标准差, 对多种数据集有较强的泛化能力, 这充分说明了本文算法可以广泛应用于解决基于图像集的分类任务。但是, 本文是通过(2D)²PCA和NYSTRÖM METHOD对切空间中样本进行降维来获得更低维度的样本, 以提高算法的运行速度和性能。如何直接构建维度更低, 且具有判别性的SPD流形将是下一步的研究重点。

关键词

SPD流形; 图像集分类; NYSTRÖM METHOD; 双相2维主成分分析((2D)²PCA); 稀疏表示

Sparse representation in tangent space for image set classification

Chen Kaixuan, Wu Xiaojun

School of Internet of Things Engineering, Jiangnan University, Wuxi 214122, China

Supported by: National Natural Science Foundation of China (61672265, 61373055)

Abstract

Objective In image set classification, symmetric positive definite (SPD) matrices are usually utilized to model image sets.The resulting Riemannian manifold yields a high discriminative power in many visual recognition tasks.However, existing classic classification algorithms are mostly applied in the Euclidean space and cannot work directly on SPD matrices.To apply the classification algorithm of Euclidean space to image set classification, this work comprehensively reviews the unique Log-Euclidean metric (LEM) of the SPD manifold and the properties of the existing classical classification algorithm, and the classification task based on the image sets is achieved. Method Given that the SPD matrices lie on Riemannian space, we map the samples on the SPD manifold to the tangent space through logarithm mapping, and each sample in the tangent space corresponds to an image set.The form of the samples in the tangent space is a symmetrical matrix, and its dimensionality conforms with the samples on the SPD manifold.The symmetric matrix in the tangent space contains redundant information and has a large dimension.To improve the performance and efficiency of the algorithm, we need to reduce the dimensionality of the data in the tangent space.In our technique, we use the Nyström method and (2D)²PCA to obtain low-dimensional data that contain the main information of the image sets.1) The Nyström method can approximate the infinite-dimensional samples in the reproducing kernel Hilbert space (RKHS).The dimensionality of the samples mapped into the RKHS by kernel mapping is infinite, and the Riemannian kernel is obtained by the inner product of the samples in the tangent space using the LEM of the SPD manifold.For a set of $M$ training samples, the Riemannian kernel matrix $\mathit{\boldsymbol{K}} = {[k({\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j})]_{M \times M}}$ can be written as $\mathit{\boldsymbol{K}} \cong {\mathit{\boldsymbol{Z}}^{\bf{T}}}\mathit{\boldsymbol{Z}} = \mathit{\boldsymbol{V}}{\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}^{1/2}}{\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}^{1/2}}{\mathit{\boldsymbol{V}}^{\bf{T}}}$.Here, ${\mathit{\boldsymbol{Z}}_{d \times M}} = {\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}^{1/2}}{\mathit{\boldsymbol{V}}^{\bf{T}}}$, $\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}$ and $\mathit{\boldsymbol{V}}$ are the top $d$ eigenvalues and the eigenvectors of $\mathit{\boldsymbol{K}}$, where $d$ is the rank of the kernel matrix $\mathit{\boldsymbol{K}}$.The projection matrix can be denoted as ${\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}^{-1/2}}{\mathit{\boldsymbol{V}}^{\bf{T}}}$, and the $d$ -dimensional vector approximation of the random sample $\mathit{\boldsymbol{y}}$ in the RKHS can be written as ${\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}^{-1/2}}{\mathit{\boldsymbol{V}}^{\bf{T}}}{(k(\mathit{\boldsymbol{y}}, {\mathit{\boldsymbol{x}}_1}), \ldots, k(\mathit{\boldsymbol{y}}, {\mathit{\boldsymbol{x}}_M}))^{\rm{T}}}$.2) (2D)²PCA (two-directional two-dimensional PCA) is a well-known dimensionality reduction (DR) technique for two-dimensional data in machine learning and pattern recognition.(2D)²PCA overcomes the limitation of PCA of working only on one-dimensional data and of 2DPCA being used for the row and column DR of two-dimensional data to obtain two direction projection matrices.In our experiments, the row direction projection matrix ${\mathit{\boldsymbol{W}}_{\rm{R}}}$ is consistent with column direction projection matrix ${\mathit{\boldsymbol{W}}_{\rm{C}}}:\mathit{\boldsymbol{W}} = {\mathit{\boldsymbol{W}}_{\rm{R}}} = {\mathit{\boldsymbol{W}}_{\rm{C}}}$, in which ${\mathit{\boldsymbol{W}}_{D \times d}}$ is a projection matrix for the row and column directions, because the form of the samples in the tangent space is a symmetrical matrix.The sample $\mathit{\boldsymbol{x}} \in {{\bf{R}}^{D \times D}}$ can be reduced as $\mathit{\boldsymbol{x}}\prime = {\mathit{\boldsymbol{W}}^{\bf{T}}}\mathit{\boldsymbol{xW}}$, where $\mathit{\boldsymbol{x}}\prime \in {{\bf{R}}^{d \times d}}$ and an efficient low-dimensional representation of the sample in the tangent space is achieved.To this end, the SPD matrices are transformed into low-dimensional descriptors with respect to the corresponding image sets.The classical sparse representation classification algorithm, Fisher discrimination dictionary learning in Euclidean space, which has good recognition rates for single images, can be utilized to classify the points of low-dimensional descriptors. Result Our approach is used for several tasks, including face identification, object classification, and virus cell recognition, and we experiment on the YouTube celebrities (YTC), ETH-80, and Virus datasets.Results show that our algorithm has not only a higher recognition rate but also a relatively smaller standard deviation than several classical algorithms for image set classification, such as covariance discriminant learning (CDL) and projection metric learning.In the experiment on the ETH-80 dataset, our approach achieves a recognition rate of 96.25%, which indicates a considerable improvement over those of discriminative canonical correlations (DCC), CDL, and other classic methods.The standard deviation is only 2.12, which is smaller than that of the other methods; this finding indicates that our method has the best robustness on the ETH-80 dataset.For the YTC dataset, the recognition rate of our method is 78.26%, which is 10% higher than that of the other methods.This result shows the evident advantage of our method for the YTC dataset.The standard deviation is smallest, which shows that our method also has the best robustness for the YTC dataset.However, for the Virus dataset, our method has the highest recognition rate 58.67% but a large standard deviation.This finding indicates that the robustness of our method for this dataset is insufficient. Conclusion In this work, we consider the geometrical properties of the SPD manifolds and the related Riemannian metric and combine them with the classical classification algorithm of the Euclidean space to implement image set classification and achieve good results.Experimental results show that our proposed method achieves high accuracies and generally small standard deviation.Therefore, our method can be widely applied in image set classification.Our future work will focus on constructing a lower-dimensional and more discriminative SPD manifold than that in this research.

Key words

SPD manifold; image set classification; NYSTRÖM METHOD; (2D)²PCA; sparse representation

0 引言

基于图像集的分类问题在计算机视觉与模式识别领域获得了广泛的关注^[1-7]。在基于图像集的分类问题中, 由于图像集包含了更多的有效信息, 所以, 相比于将单个图像作为输入的分类, 将图像集作为输入进行分类可以得到更好的分类效果^{[2, 7]}。已经存在的方法主要关注点在于如何对图像集进行建模并度量他们之间的相似性。图像集的建模方法可以分为两类^[2]:参数模型表示和非参数模型表示。参数模型是用一个分布函数来表示一个图像集, 然后用KLD (Kullback-Leibler divergence)度量他们之间相似性^[8]。基于参数模型建模方法的主要挑战是模型中参数的估计, 尤其当训练样本与测试样本之间的统计相关性比较弱时, 模型中参数则会出现较大的波动。

非参数模型是一种更加灵活的方式。其中, 一个具有开创性的工作是用线性子空间去描述图像集^[9], 但是这个方法需要图像集中含有大量的样本。所以, 该方法不适用于图像集中的样本较少且样本变化较为复杂的情况。另一种比较有效的方法就是将一个图像集建模成一个非奇异协方差矩阵, 及SPD(symmetric positive definite)矩阵^{[5-6, 10-12]}。首先, 用SPD矩阵来表示图像集, 若图像集中样本的数量较少, 可以通过添加一些扰动来保证最终得到的协方差矩阵的正定性, 克服了线性子空间方法对图像集中样本需求量大的问题。其次, 即使图像集中样本的变化较为复杂, 也可以在计算协方差的过程中通过去平均化操作来减少样本变化所带来的影响, 所以, 用SPD矩阵来表示图像集具有一定的抗干扰能力。

本文采用的是非参数模型中用SPD矩阵来对图像集建模的方法。之所以用SPD矩阵来对图像集进行建模, 不仅仅考虑SPD矩阵建模的方法较好地克服了线性子空间方法的缺点, 还考虑到SPD流形所独有的LEM(Log-Euclidean metric)度量方法^{[5, 12]}, 该方法是通过对数运算将黎曼空间的样本点映射到其切空间中, 由于切空间可以被视为一个欧氏空间, 可以通过矩阵的$F$范数计算切空间中样本之间的距离来表示原黎曼流形上样本之间的距离。同时, 在切空间中, 可以直接使用欧氏空间的经典算法, 并将原本在欧氏空间的用于单幅图像的分类算法扩展到用于图像集的分类。近几年, 在欧氏空间的图像分类方法中, 稀疏表示与字典学习的方法引起了广大学者的浓厚兴趣。研究表明, 字典中原子不论是对于图像分类, 或是图像的重建都起到了至关重要的作用。所以, 为了充分体现字典在图像分类任务中的作用, 选择一个具有判别性的字典学习方法FDDL(Fisher discrimination dictionary learning)^[13-14], 且该方法在单幅图像的分类任务中具有较高的识别率。

本文并不是将映射到切空间后的对称矩阵直接展开成列向量然后作为FDDL的输入。因为原SPD矩阵的维度比较高, 对数映射只是单纯的将黎曼流形上的样本点映射到切空间中, 并没有改变样本的维度, 所以切空间的样本的维度也比较高并且包含一定的冗余信息。为了提高算法的性能和运行效率, 我们需要对切空间的样本进行降维, 且降维后的样本需保存图像集的主要信息。由于切空间中的样本是对称矩阵的形式, 所以类似于PCA(principal component analysis)和LDA(linear discriminant analysis)单向降维的方法并不适用。本文采用了NYSTRÖM METHOD^[15]和(2D)²PCA^[16]两种方法对切空间的数据进行降维处理。

1) NYSTRÖMMETHOD方法首先是将样本通过核映射将样本映射到再生核希尔伯特空间RKHS (reproducing Kernel Hilbert spaces)^[15], 在该空间中的样本的维度是无限维的, 但是可以通过对该空间中的核矩阵进行特征值分解, 得到其由前$d$个特征值所组成的对角矩阵及相对应的特征向量矩阵, 然后通过这两个矩阵来计算再生核希尔伯特空间样本的$d$维向量表示^[15], 它是核空间样本的低维向量表示形式。

2) (2D)²PCA方法^{[16, 17]}是一种可以对图像矩阵进行双向降维的方法, 切空间中的样本点恰好是对称矩阵, 在经过(2D)²PCA处理之后, 得到的是维度较低的对称矩阵, 并将较低维度的对称矩阵展开成列向量。上述两种方法得到的数据表示形式不仅仅维度较低, 同时, 包含了原样本的主要信息。

首先本文方法用SPD矩阵描述图像集, 使得图像集对应于SPD流形的样本点。由于SPD流形是一个非欧氏空间, 所以需将SPD流形的点映射到其切空间中^[5]。但是, 切空间的样本的维度依旧很高且含有一定的冗余信息, 所以, 使用(2D)²PCA和NYSTRÖM METHOD两种方法以获取低维度的且包含图像集主要信息的表示形式。最后, 将得到的低维度的数据作为FDDL算法^[13-14]的输入。图 1给出了本文方法的示意图。图中清楚地展现了使用NYSTRÖM METHOD和(2D)²PCA两种不同方法来获得低维数据以实现图像集分类任务的流程走向。流程路径:(a)-(b)-(c)-(d)-(e)-(h)是使用NYSTRÖM METHOD方法的流程图, 该流程在处理切空间的高维度的数据时, 通过将样本核映射到RKHS, 通过对核矩阵的特征值分解得到相应的投影矩阵, 来计算再生核希尔伯特空间中样本的向量表示。流程路径:(a)-(b)-(c)-(f)-(g)-(h)是使用(2D)²PCA方法的流程图, 该流程在处理切空间的高维度的数据时, 对高维度的对称矩阵进行双向降维处理, 得到维度较低且包含主要信息的对称矩阵, 并将较低维的对称矩阵展开成为列向量。

图 1 算法流程图

Fig. 1 The flow chart of the proposed method ((a) image set; (b) SPD manifold; (c) tangent space; (d) samples in RKHS; (e) approximations of samples in RKHS; (f) reduced samples via (2D)²PCA; (g) vectorize the samples; (h) classifier FDDL)

1 相关工作

1.1 SPD流形

现有图像集$\mathit{\boldsymbol{S}} = [{\mathit{\boldsymbol{s}}_1}, {\mathit{\boldsymbol{s}}_2}, \ldots, {\mathit{\boldsymbol{s}}_n}]$为一个包含$n$张样本的图像集, 其中${\mathit{\boldsymbol{s}}_i}$表示图像集中的第$i$个样本, 以$D$维向量的形式表示。图像集$\mathit{\boldsymbol{S}}$则可以用$D \times D$维的协方差矩阵^{[5-6, 9-10, 12]}表示, 即

$ \mathit{\boldsymbol{C}} = \frac{1}{{n-1}}\sum\limits_{i = 1}^n {({\mathit{\boldsymbol{s}}_i}-\mathit{\boldsymbol{\bar s}})} {({\mathit{\boldsymbol{s}}_i}-\mathit{\boldsymbol{\bar s}})^{\rm{T}}} $

(1)

这里的${\mathit{\boldsymbol{\bar s}}}$表示图像集$\mathit{\boldsymbol{S}}$中样本的均值。由于图像集中图像的数量往往会小于图像的维度, 则式(1)得到协方差矩阵并不正定, 所以需要加一些微小的扰动量, 即

$ {\mathit{\boldsymbol{C}}^*} = \mathit{\boldsymbol{C}} + \lambda \mathit{\boldsymbol{I}} $

(2)

$\mathit{\boldsymbol{I}}$是与$\mathit{\boldsymbol{C}}$有相同维度的单位矩阵, 根据文献[5]中的描述$\lambda $为扰动量, 添加该扰动可以确保${\mathit{\boldsymbol{C}}^*}$的正定性。此时, 图像集就被表示成了SPD矩阵, 而SPD流形就是由SPD矩阵所张成的非线性黎曼空间。

1.2 黎曼度量

由于不能把欧氏空间的分类算法直接用于流形上, 所以需使用对数映射将SPD流形上的点映射到切空间^{[5, 12, 18]}, 该映射过程可以被表示为

$ {\varphi _{{\rm{log}}}}:\mathit{\boldsymbol{M}} \to {\mathit{\boldsymbol{T}}_I}, \mathit{\boldsymbol{C}} \to {\rm{log}}\left( \mathit{\boldsymbol{C}} \right) $

(3)

$\mathit{\boldsymbol{T}_I}$为在单位矩阵$\mathit{\boldsymbol{I}}$处的切空间, 是一个由$D \times D$维对称矩阵张成的空间。在进行式(3)的运算之前, 需要对$\mathit{\boldsymbol{C}}$进行特征值分解$\mathit{\boldsymbol{C}} = \mathit{\boldsymbol{U \boldsymbol{\varSigma} }}{\mathit{\boldsymbol{U}}^{\bf{T}}}$, 然后再计算${\rm{log}}\left( \mathit{\boldsymbol{C}} \right)$, 即

$ {\rm{log}}\left( \mathit{\boldsymbol{C}} \right) = \mathit{\boldsymbol{U}}{\rm{log}}\left( \mathit{\boldsymbol{ \boldsymbol{\varSigma} }} \right){\mathit{\boldsymbol{U}}^{\bf{T}}} $

(4)

$\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}$为矩阵$\mathit{\boldsymbol{C}}$的特征值构成的对角矩阵, $\mathit{\boldsymbol{U}}$为特征值对应的特征向量矩阵。图 2给出了对数映射的示意图。经过对数映射后, 得到的样本点是对称矩阵的形式, 且每一个样本点对应于一个图像集。黎曼流形上的Log-Euclidean核函数则可以通过切空间中样本的内积来表示^[5], 即

$ k({\mathit{\boldsymbol{C}}_1}, {\mathit{\boldsymbol{C}}_2}) = {\rm{tr}}[{\rm{log}}({\mathit{\boldsymbol{C}}_1})\cdot{\rm{log}}({\mathit{\boldsymbol{C}}_2})] $

(5)

图 2 对数映射

Fig. 2 Logarithm mapping

由于$k({\mathit{\boldsymbol{C}}_i}, {\mathit{\boldsymbol{C}}_j}) = k({\mathit{\boldsymbol{C}}_j}, {\mathit{\boldsymbol{C}}_i})$, 所以由式(5)得到的核矩阵将是对称矩阵, 且文献[5]证明了该核函数满足Mercer’stheorem定理。

2 切空间中样本降维

切空间中对称矩阵的维度和原SPD矩阵的维度相同, 含有一定冗余的信息且维度较大, 不利于计算。所以需要对切空间的样本进行降维, 且降维后的样本需保存原样本的主要信息。NYSTRÖM METHOD^[15]是一种近似表示再生核希尔伯特空间样本的方法。(2D)²PCA^[16]是一种对图像矩阵直接进行双向PCA降维的方法。我们用以上两种方法来对切空间样本进行降维。

2.1 NYSTRÖM METHOD

为了得到切空间中样本的低维表示形式, 使用NYSTRÖM METHOD去近似表示切空间中的样本, 而NYSTRÖM METHOD是一种可以得到再生核希尔伯特空间中样本的近似表示的方法^[15], 所以, 首先需将切空间的对称矩阵映射到再生和希尔伯特空间^{[1, 5-6, 10-11, 15]}, 然后, 通过用NYSTRÖM METHOD方法得到样本在核空间的近似表示来作为该样本的低维向量表示。

现有训练样本集合$\mathit{\boldsymbol{X}} = \{ {\mathit{\boldsymbol{x}}_1}, {\mathit{\boldsymbol{x}}_2}, \ldots, {\mathit{\boldsymbol{x}}_m}\} $, 这里的${\mathit{\boldsymbol{x}}_\mathit{i}} \in {{\bf{R}}^{D \times D}}$为$\mathit{i}$个图像集在切空间中的表示形式。由式(5)可知, 可以通过切空间中样本的内积得到训练样本集合的核矩阵$\mathit{\boldsymbol{K}} \cong {\mathit{\boldsymbol{Z}}^{\bf{T}}}\mathit{\boldsymbol{Z}} = \mathit{\boldsymbol{V}}{\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}^{1/2}}{\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}^{1/2}}{\mathit{\boldsymbol{V}}^{\bf{T}}}$其中$\mathit{\boldsymbol{Z}} = {\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}^{-1/2}}{\mathit{\boldsymbol{V}}^{\bf{T}}}$, $\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}$和$\mathit{\boldsymbol{V}}$是核矩阵$\mathit{\boldsymbol{K}}$最大的$d$个特征值组成的对角矩阵和相对应的特征向量矩。对于任给的对称矩阵$\mathit{\boldsymbol{y}}$, 可得到它在核空间中的$d$维向量表示^[15], 即

$ \mathit{\boldsymbol{X}}^\prime{ _d}\left( \mathit{\boldsymbol{y}} \right) = {\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}^{- 1/2}}{\mathit{\boldsymbol{V}}^{\bf{T}}}{[k(\mathit{\boldsymbol{y}}, {\mathit{\boldsymbol{x}}_1}), \ldots, k(\mathit{\boldsymbol{y}}, {\mathit{\boldsymbol{x}}_m})]^{\bf{T}}} $

(6)

由式(6), 核空间中的训练样本集合$\mathit{\boldsymbol{X}}$可以被近似的表示为: $[\mathit{\boldsymbol{X}}^\prime{ _d}\left( {{\mathit{\boldsymbol{x}}_1}} \right), \ldots, \mathit{\boldsymbol{X}}^\prime{ _d}({\mathit{\boldsymbol{x}}_m})]$。算法1是NYSTRÖM METHOD方法的流程。

算法1:使用NYSTRÖM METHOD方法近似的表示再生希尔伯特空间中的数据

输入:

训练样本集合$\mathit{\boldsymbol{X}} = [{\mathit{\boldsymbol{x}}_1}, \ldots, {\mathit{\boldsymbol{x}}_m}], {\mathit{\boldsymbol{x}}_i} \in {{\bf{R}}^{D \times D}}$,

目标维度$d$, 任意样本$\mathit{\boldsymbol{y}}$。

输出:

任意样本$\mathit{\boldsymbol{y}}$的低维近似表示;

对角矩阵$\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}$和特征向量矩阵$\mathit{\boldsymbol{V}}$。

1) 计算训练样本集合$\mathit{\boldsymbol{X}}$的核矩阵$\mathit{\boldsymbol{K}}$, 并对该矩阵进行特征值分解;

2) 得到最大的$d$个特征值的对角矩阵$\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}$;

3) 得到与特征值对应的特征向量矩阵$\mathit{\boldsymbol{V}}$;

4) 通过式(6)计算得到样本$\mathit{\boldsymbol{y}}$的$d$维近似表示。

2.2 (2D)²PCA

相对于经典的降维方法PCA而言, (2D)²PCA是一种可以对2维数据降维的方法, 且与2DPCA^[17]只对2维数据及图像矩阵进行单方向降维不同, (2D)²PCA是一种可以对2维数据进行双向降维的方法^[16], 并在人脸识别和物体识别中有了广泛的应用。

如果有$\mathit{K}$类对象, 每一类有$\mathit{m}$个训练图像集, 则训练样本为切空间中的${K \times m}$个对称矩阵${\mathit{\boldsymbol{x}}_\mathit{i}} \in {{\bf{R}}^{D \times D}}$, 且和原SPD矩阵的维度相同。由于原(2D)²PCA方法是作用于图像矩阵的, 所以将切空间对称矩阵视为图像矩阵来看待, 则2维协方差矩阵^[17]可以定义为

$ \mathit{\boldsymbol{C}} = \frac{1}{{K \times m-1}}\sum\limits_{i = 1}^{K \times m} {{{({\mathit{\boldsymbol{x}}_i}-\mathit{\boldsymbol{\bar x}})}^{\rm{T}}}} ({\mathit{\boldsymbol{x}}_i}-\mathit{\boldsymbol{\bar x}}) $

(7)

${\mathit{\boldsymbol{\bar x}}}$为所有的对称矩阵的平均值, ${\mathit{\boldsymbol{x}}_i}$为第$i$个图像集对应的对称矩阵, 这里的$\mathit{\boldsymbol{C}}$只是仅仅从行方向计算得到的2维协方差矩阵。对$\mathit{\boldsymbol{C}}$进行特征值分解, 取最大的$d$个特征值对应的特征向量作为投影矩阵${\mathit{\boldsymbol{W}}_{\rm{R}}}$。同理, 从列方向计算的2维协方差矩阵^[16]为

$ \mathit{\boldsymbol{C}}^\prime = \frac{1}{{K \times m-1}}\sum\limits_{i = 1}^{K \times m} {({\mathit{\boldsymbol{x}}_i}-\mathit{\boldsymbol{\bar x}})} \;{({\mathit{\boldsymbol{x}}_i}-\mathit{\boldsymbol{\bar x}})^{\bf{T}}} $

(8)

对$\mathit{\boldsymbol{C}}^\prime $进行特征值分解, 取最大的$d$个特征值对应的特征向量作为投影矩阵${\mathit{\boldsymbol{W}}_{\rm{C}}}$。由于${\mathit{\boldsymbol{x}}_\mathit{i}}$为对称的矩阵, 所以${({\mathit{\boldsymbol{x}}_i}-\mathit{\boldsymbol{\bar x}})^{\rm{T}}} = ({\mathit{\boldsymbol{x}}_i}-\mathit{\boldsymbol{\bar x}})$, 且$\mathit{\boldsymbol{C}} = \mathit{\boldsymbol{C}}^\prime $。那么, 在行方向和列方向计算的投影矩阵是相等的, 所以可令$\mathit{\boldsymbol{W}} = {\mathit{\boldsymbol{W}}_{\rm{C}}} = {\mathit{\boldsymbol{W}}_{\rm{R}}}$, 通过学习得到的投影矩阵对切空间的样本$\mathit{\boldsymbol{y}}$进行(2D)²PCA处理得

$ \mathit{\boldsymbol{y}}^\prime = {\mathit{\boldsymbol{W}}^{\bf{T}}}\mathit{\boldsymbol{xW}} $

(9)

$\mathit{\boldsymbol{y}}^\prime $为通过(2D)²PCA降维得到的低维度的对称矩阵。算法2为(2D)²PCA的方法流程图。

算法2:使用(2D)²PCA对切空间中的对称矩阵进行双向降维

输入:

训练样本集合: $\mathit{\boldsymbol{X}} = \left[{{\mathit{\boldsymbol{x}}_1}, {\mathit{\boldsymbol{x}}_2}, \ldots, {\mathit{\boldsymbol{x}}_m}} \right], {\mathit{\boldsymbol{x}}_i} \in {{\bf{R}}^{D \times D}}$,

目标维度$d$, 任意样本$\mathit{\boldsymbol{y}}$。

输出:

投影矩阵${\mathit{\boldsymbol{W}}^{D \times d}}$;

降维后的维度为$d \times d$的对称矩阵。

1) 根据式(7)计算行方向的2维协方差矩阵并计算投影矩阵${\mathit{\boldsymbol{W}}_{\rm{R}}} \in {{\bf{R}}^{D \times d}}$;

2) 根据式(8)计算列方向的2维协方差矩阵并计算投影矩阵${\mathit{\boldsymbol{W}}_{\rm{C}}} \in {{\bf{R}}^{D \times d}}$;

3) 由于样本是对称矩阵, 可知${\mathit{\boldsymbol{W}}_{\rm{R}}} = {\mathit{\boldsymbol{W}}_{\rm{C}}} = \mathit{\boldsymbol{W}}$;

4) 根据式(9)计算出降维后的对称矩阵$\mathit{\boldsymbol{x}}\prime \in {{\bf{R}}^{d \times d}}$。

3 基于切空间稀疏表示的图像集分类

3.1 切空间中的字典学习和稀疏表示

经过2.1小节或者2.2小节的降维处理, 得到了图像集的低维表示形式, 且保存了图像集的主要信息。由于字典在稀疏表示和基于稀疏编码的图像分类中起着重要作用, 所以, 在对样本进行分类之前, 需要对低维的样本进行字典学习和稀疏编码。FDDL(Fisher判别字典学习)方法^[13-14]是欧氏空间中一个用于单幅图像分类的经典方法, 它可以学习到一个结构化的字典, 不仅字典内的原子具有较强的鉴别性, 而且表示系数也具有较小的类内散度和较大的类间散度。

现有$K$类训练样本$\mathit{\boldsymbol{X}} = [{\mathit{\boldsymbol{X}}_1}, {\mathit{\boldsymbol{X}}_2}, \ldots, {\mathit{\boldsymbol{X}}_K}]$, ${{\mathit{\boldsymbol{X}}_i}}$为第$i$类训练样本, 字典$\mathit{\boldsymbol{D}} = [{\mathit{\boldsymbol{D}}_1}, {\mathit{\boldsymbol{D}}_2}, \ldots, {\mathit{\boldsymbol{D}}_K}]$, $\mathit{\boldsymbol{A}} = [{\mathit{\boldsymbol{A}}_1}, {\mathit{\boldsymbol{A}}_2}, \ldots, {\mathit{\boldsymbol{A}}_K}]$为全部的训练样本$\mathit{\boldsymbol{X}}$在整个字典$\mathit{\boldsymbol{D}}$上的稀疏系数矩阵。其中${\mathit{\boldsymbol{A}}_i}$为第$i$类样本${\mathit{\boldsymbol{X}}_i}$在整个字典上的稀疏系数矩阵, 其中${\mathit{\boldsymbol{A}}_i} = [{\mathit{\boldsymbol{A}}_i}^1; \ldots ;{\mathit{\boldsymbol{A}}_i}^j; \ldots ;{\mathit{\boldsymbol{A}}_i}^K]$, 这里${\mathit{\boldsymbol{A}}_i}^j$为第$i$类样本${\mathit{\boldsymbol{X}}_i}$在子字典${{\mathit{\boldsymbol{D}}_j}}$上的稀疏系数矩阵。FDDL模型^[13-14]为

$ \begin{array}{l} {J_{(\mathit{\boldsymbol{D}}, \mathit{\boldsymbol{A}})}} = \mathop {{\text{arg min}}}\limits_{\left( {\mathit{\boldsymbol{D}}, \mathit{\boldsymbol{A}}} \right)} \{ r\left( {\mathit{\boldsymbol{X}}, \mathit{\boldsymbol{D}}, \mathit{\boldsymbol{A}}} \right) + {\mathit{\boldsymbol{\lambda }}_1}{\left\| \mathit{\boldsymbol{A}} \right\|_1} + {\mathit{\boldsymbol{\lambda }}_2}f\left( \mathit{\boldsymbol{A}} \right)\} \\ \;\;\;\;\;\;\;\;\;\;{\rm{s}}.{\rm{t}}.\;\;\;\;\;{\left\| {{\mathit{\boldsymbol{d}}_n}} \right\|_2} = 1, \forall n \end{array} $

(10)

这里的$r\left( {\mathit{\boldsymbol{X}}, \mathit{\boldsymbol{D}}, \mathit{\boldsymbol{A}}} \right)$是数据保真度判别项, ${\left\| \mathit{\boldsymbol{A}} \right\|_1}$为稀疏惩罚项, $f\left( \mathit{\boldsymbol{A}} \right)$是稀疏矩阵$\mathit{\boldsymbol{A}}$的判别项, ${\mathit{\lambda }_1}$和${\mathit{\lambda }_2}$是标量参数。数据保真度判别项$r\left( {\mathit{\boldsymbol{X}}, \mathit{\boldsymbol{D}}, \mathit{\boldsymbol{A}}} \right)$为

$ \begin{array}{l} r({\mathit{\boldsymbol{X}}_i}, \mathit{\boldsymbol{D}}, {\mathit{\boldsymbol{A}}_i}) = \left\| {{\mathit{\boldsymbol{X}}_i}-\mathit{\boldsymbol{D}}{\mathit{\boldsymbol{A}}_i}} \right\|_F^2 + \\ \left\| {{\mathit{\boldsymbol{X}}_i}-{\mathit{\boldsymbol{D}}_i}\mathit{\boldsymbol{A}}_i^i} \right\|_F^2 + \sum\limits_{\mathop {j = 1}\limits_{j \ne i} }^K {\left\| {{\mathit{\boldsymbol{D}}_j}\mathit{\boldsymbol{A}}_i^j} \right\|_F^2} \end{array} $

(11)

$\left\| {{\mathit{\boldsymbol{X}}_i}-\mathit{\boldsymbol{D}}{\mathit{\boldsymbol{A}}_i}} \right\|_\rm{F}^2$项是为了让整个字典$\mathit{\boldsymbol{D}}$能够很好的表示样本${\mathit{\boldsymbol{X}}_i}$, $\left\| {{\mathit{\boldsymbol{X}}_i}-{\mathit{\boldsymbol{D}}_i}\mathit{\boldsymbol{A}}_i^i} \right\|_\rm{F}^2$是在第1项的基础上使得子字典${{\mathit{\boldsymbol{D}}_i}}$能够更好地表示样本${{\mathit{\boldsymbol{X}}_i}}$, 而第3项则是一个不相关性约束。这样的字典是一个结构化的, 具有判别性的字典。

$f\left( \mathit{\boldsymbol{A}} \right)$为稀疏矩阵的判别项, 基于Fisher判别准则, 使得稀疏系数的类内散度尽可能的小同时要求类间散度尽可能的大, 即

$ \begin{array}{l} f\left( \mathit{\boldsymbol{A}} \right) = {\rm{tr}}({\mathit{\boldsymbol{S}}_{\rm{W}}}\left( \mathit{\boldsymbol{A}} \right))-\\ {\rm{tr}}({\mathit{\boldsymbol{S}}_{\rm{B}}}\left( \mathit{\boldsymbol{A}} \right)) + \eta \left\| \mathit{\boldsymbol{A}} \right\|_\rm{F}^2 \end{array} $

(12)

${\mathit{\boldsymbol{S}}_{\rm{W}}}\left( \mathit{\boldsymbol{A}} \right)$表示矩阵$\mathit{\boldsymbol{X}}$的类内散度, ${\mathit{\boldsymbol{S}}_{\rm{B}}}\left( \mathit{\boldsymbol{A}} \right)$表示矩阵$\mathit{\boldsymbol{A}}$的类间散度, $\left\| \mathit{\boldsymbol{A}} \right\|_\rm{F}^2$确保了函数$f\left( \mathit{\boldsymbol{A}} \right)$是一个凸函数并且使这个凸函数更加平滑, $\eta $为常数。其中${\mathit{\boldsymbol{S}}_{\rm{W}}}\left( \mathit{\boldsymbol{A}} \right)$, ${\mathit{\boldsymbol{S}}_{\rm{B}}}\left( \mathit{\boldsymbol{A}} \right)$为

$ {\mathit{\boldsymbol{S}}_{\rm{W}}}\left( \mathit{\boldsymbol{A}} \right) = \sum\limits_{i = 1}^K {\sum\limits_{{\mathit{\boldsymbol{a}}_k} \in {\mathit{\boldsymbol{A}}_i}} {({\mathit{\boldsymbol{a}}_k}-{\mathit{\boldsymbol{m}}_i})} {{({\mathit{\boldsymbol{a}}_k}-{\mathit{\boldsymbol{m}}_i})}^{\rm{T}}}} $

(13)

$ {\mathit{\boldsymbol{S}}_{\rm{B}}}\left( \mathit{\boldsymbol{A}} \right) = \sum\limits_{i = 1}^K {{\mathit{\boldsymbol{n}}_i}} ({\mathit{\boldsymbol{m}}_i}-\mathit{\boldsymbol{m}}){({\mathit{\boldsymbol{m}}_i}-\mathit{\boldsymbol{m}})^{\rm{T}}} $

(14)

${\mathit{\boldsymbol{m}}_i}$和$\mathit{\boldsymbol{m}}$是${\mathit{\boldsymbol{A}}_i}$和$\mathit{\boldsymbol{A}}$的平均向量, ${{\mathit{\boldsymbol{n}}_i}}$是${\mathit{\boldsymbol{X}}_i}$样本的数量。

在学习到的字典$\mathit{\boldsymbol{D}}$中, ${{\mathit{\boldsymbol{D}}_i}}$主要用来表达训练样本${{\mathit{\boldsymbol{X}}_i}}$, ${\mathit{\boldsymbol{A}}_i}$中的表示系数也更加的接近${{\mathit{\boldsymbol{m}}_i}}$和更加远离${\mathit{\boldsymbol{m}}_j}, i \ne j$。由于已经学习到的字典具有判别性, 且表示残差和表示系数也具有判别性, 因此, 可以得到更精确的分类效果。

3.2 样本分类

现若有属于第$i$类的测试样本$\mathit{\boldsymbol{y}}$, 那么它与第$i$样本的表示残差将会相对较小, 同时, 表示系数也会更加接近第$i$类平均稀疏系数${{\mathit{\boldsymbol{m}}_i}}$。在对测试样本进行分类之前, 首先要求得测试样本在字典$\mathit{\boldsymbol{D}}$上的稀疏系数

$ \mathit{\boldsymbol{\hat a}} = {\rm{arg }}\mathop {{\rm{min}}}\limits_\mathit{\boldsymbol{a}} \{ \left\| {\mathit{\boldsymbol{y}}-\mathit{\boldsymbol{Da}}} \right\|_2^2 + \lambda {\left\| \mathit{\boldsymbol{a}} \right\|_p}\} $

(15)

这里的$\gamma $为一个常数, ${\left\| \cdot \right\|_p}$表示${{\rm{l}}_p}$范数, $p$为1或2, Zhang等人的研究^[18]表明选择${{\rm{l}}_2}$范数将会在计算的速度上有较大的提升。

算法3:基于切空间稀疏表示的图像集分类算法

输入:

图像集训练样本TR和测试样本TT;

训练样本标签${{\rm{L}}_{{\rm{TR}}}}$和测试样本标签${{\rm{L}}_{{\rm{TT}}}}$。

输出:

分类正确率$R$。

1) 根据式(1), 用SPD矩阵对图像集建模;

2) 根据式(4)将SPD流形上的样本映射到切空间中;

3) 利用算法1的NYSTRÖM METHOD方法和算法2的(2D)²PCA获取切空间样本的低维表示;

4) 用欧氏空间的分类算法FDDL对降维后数据进行分类。

将得到的稀疏系数表示为$\mathit{\boldsymbol{\hat a}} = [{{\mathit{\boldsymbol{\hat a}}}_1};{{\mathit{\boldsymbol{\hat a}}}_2}; \ldots ;{{\mathit{\boldsymbol{\hat a}}}_K}]$, ${{{\mathit{\boldsymbol{\hat a}}}_i}}$表示在子字典${{\mathit{\boldsymbol{D}}_i}}$上的稀疏系数, 通过以下的方式来进行分类, 即

$ {e_i} = \left\| {\mathit{\boldsymbol{y}}-{\mathit{\boldsymbol{D}}_i}{{\mathit{\boldsymbol{\hat a}}}_i}} \right\|_2^2 + \mathit{\boldsymbol{w}}\cdot\left\| {\mathit{\boldsymbol{\hat a}}-{\mathit{\boldsymbol{m}}_i}} \right\|_2^2 $

(16)

$\mathit{\boldsymbol{w}}$为平衡两项之间贡献的权重, 通过

$ {\rm{Label}}\left( \mathit{\boldsymbol{y}} \right) = {\rm{arg }}\mathop {{\rm{min}}}\limits_i \{ {e_i}\} $

(17)

Label表示样本所属的类别, 通过式(17)将测试样本分到残差最小的一类。

图像集包含了大量的信息, 用协方差描述图像集具有较强的鲁棒性, 但是协方差描述得到的SPD矩阵是黎曼流形上的点, 欧氏空间的分类算法无法直接作用于SPD矩阵。对数映射可以将SPD矩阵映射到切空间, 但切空间样本的维度较高且包含一定的冗余信息, 所以需对切空间中的样本进行降维, 然后, 将降维后的样本作为FDDL算法的输入以实现图像集的分类任务。算法3给出了本文方法的主要步骤。

4 实验结果与分析

为了验证本文方法的泛化性, 在3个公开的数据集上进行测试, 它们分别应用于对象分类、人脸识别和病毒细胞识别。这3个数据集分别是ETH-80^[19]基准数据集、YouTube Celebrities(YTC)^[5]基准数据集和Virus病毒细胞基准数据集^[20], 并且在每个数据集上, 将10次迭代实验的平均识别率和标准差作为最终的结果。

同时, 为了更好地验证本文方法的有效性, 把本文方法与DCC(discriminative canonical correlations)^[2]、CDL(covariance discriminant learning)^[5]、PML(projection metric learning)^[21]、GDA (grassman discriminant analysis) ^[22]、LEML(log-Euclidean metric learning)^[6]、SPDML^[10]等基于图像集分类的经典算法进行比较。其中DCC是一种通过训练样本及典型相关分析来学习判别函数, PML和GDA是线性子空间描述图像集, 并考虑线性子空间所处的格拉斯曼流形, 利用格拉斯曼流形的特点和度量方法学习判别函数, 从而实现图像集的分类任务。CDL和LEML都应用于SPD流形的图像集分类方法, 和本文所采用的图像集建模方法一致。

根据文献[5]的描述, 为防止奇异矩阵的出现, 扰动量$\lambda $设置为${10^{-3}} \times {\rm{tr}}\left( \mathit{\boldsymbol{C}} \right)$, 在实验中, 3个数据集上的$\lambda $的值均与文献[5]保持一致。FDDL模型中的参数, 通过交叉验证, 将字典学习过程中的参数${\lambda _1}$、${\lambda _2} $设置为0.005和0.05, 分类过程中的$\gamma $和$w$置为0.005和0.5。在切空间样本降维的过程中, 使用NYSTRÖM METHOD方法时, 并没选取前$d$个特征值所对应的特征向量, 而是保留了核矩阵特征值分解后的全部特征向量, 所以最终的样本的维度等于该数据集中训练样本个数, 即在ETH-80数据上的维度为40、Virus数据集上的维度为45和YTC数据集上的维度为141。而在使用(2D)²PCA进行降维时, 综合考虑算法的识别率和运算时间两方面因数, 在3个数据集上, 将目标维度$d$均置为70。

文中不同的方法被描述为:

1) NN_AIRM:对SPD流形上的样本用AIRM度量进行最近邻分类。

2) NN_Stein:对SPD流形上的样本用Stein度量进行最近邻分类。

3) NN_Jeffrey:对SPD流形上的样本用Jeffrey度量进行最近邻分类。

4) NN_T:经过log映射后, 对切空间的样本用NN分类器分类。

5) NN_(2D)²PCA:对切空间的样本先进行(2D)²PCA处理, 然后再用NN分类器进行分类。

6) NN_NYSTRÖM:对切空间的样本先映射到再生核希尔伯特空间, 用NYSTRÖM方法的近似的表示, 再用NN分类器来分类。

7) Proposed_(2D)²PCA:对切空间的样本先进行(2D)²PCA处理, 最后再用FDDL进行分类。及图 1中的流程(a)-(b)-(c)-(f)-(g)-(h)。

8) Proposed_NYSTRÖM:对切空间的样本先映射到再生核希尔伯特空间, 用NYSTRÖM方法的近似的表示, 最后用FDDL进行分类。及图 1中的流程(a)-(b)-(c)-(d)-(e)-(h)。

4.1 ETH-80数据集

ETH-80数据集^[19]中含有8个类别物体, 它们分别是:苹果、汽车、牛、水杯、狗、马、梨和西红柿。其中, 每个类中含有10个图像集, 每个图像集中有41张从不同角度拍摄的物体照片。把每个图片的尺寸调整为20×20像素, 并且在每一类图像集中, 任意选5个图像集作为训练样本, 剩下的5个图像集作为测试样本。图 3为ETH-80的数据集部分图像, 表 1为各算法在ETH-80上的平均结果。

图 3 ETH-80数据集中的部分图像

Fig. 3 Part of images in the ETH-80 dataset

表 1 各算法在ETH-80上的平均结果
Table 1 The average results of algorithms on ETH-80

下载CSV

方法	平均识别率/%±标准差
DCC^[2]	90.75±4.42
CDL^[5]	93.75±3.43
GDA^[22]	93.25±4.80
PML^[21]	90.00±3.07
LEML^[6]	92.25±2.19
SPMDL_AIRM^[10]	90.75±3.34
SPMDL_Stein^[10]	90.50±3.87
NN_T	87.25±3.62
NN_(2D)²PCA	89.25±2.06
NN_NYSTRÖM	91.25±3.58
Proposed_(2D)²PCA	96.25±2.12
Proposed_NYSTRÖM	95.75±3.74

4.2 YouTube数据集

YouTube Celebrities(YTC)数据集^[5]包含47个类, 由于每一类的样本所包含的图像集的个数不一样, 所以从每一类的样本中选取9个图像集用于实验, 在每一次的实验中, 任选3个图像集作为训练样本, 剩下的6个图像集作为测试样本, 图像集中每个图片的尺寸调整为20×20。图 4为YTC中的部分图像, 表 2为各算法在YTC上的结果。

图 4 YTC数据集中的部分图像

Fig. 4 Part of images in the YTC dataset

表 2 各算法在YTC上的平均结果
Table 2 The average results of algorithms on YTC

下载CSV

方法	平均识别率/%±标准差
DCC^[2]	65.48±3.51
CDL^[5]	68.76±2.96
GDA^[22]	65.78±3.34
PML^[21]	67.62±3.32
SPMDL_AIRM^[10]	64.66±2.92
SPMDL_Stein^[10]	61.57±3.43
NN_T	63.40±3.39
NN_(2D)²PCA	69.65±3.55
NN_NYSTRÖM	60.99±3.61
Proposed_(2D)²PCA	76.42±2.56
Proposed_NYSTRÖM	78.26±2.71

4.3 Virus数据集

Virus数据集^[20]中含有15个类别, 每个类中含有5个图像集, 每个图像集中有20张从不同角度拍摄的照片。把每个图片的尺寸调整为20×20像素, 并且在每一类图像集中, 任意选3个图像集作为训练样本, 剩下2个图像集作为测试样本。图 5为Virus的数据集部分图像, 表 3为各算法在Virus数据集上的平均结果。

图 5 Virus数据集中的部分图像

Fig. 5 Part of images in theVirus dataset

表 3 各算法在Virus数据集上的平均结果
Table 3 The average results of algorithms on Virus

下载CSV

方法	平均识别率/%±标准差
DCC^[2]	27.67±4.17
CDL^[5]	45.30±5.65
GDA^[22]	47.00±2.49
PML^[21]	17.33±4.66
NN_T	24.33±3.16
NN_(2D)²PCA	43.33±5.67
NN_NYSTRÖM	48.13±8.70
Proposed_(2D)²PCA	55.00±7.07
Proposed_NYSTRÖM	58.67±5.71

这些实验结果是在每个数据集上做10次的迭代实验获得的, 通过所得10次实验结果的平均值和标准差来作为最终的结果, 由表 1、表 2和表 3可以看出本文方法的识别率与其他几个基于图像集的分类算法对比都有一定的提高, 而且本文方法还与NN_T、NN_(2D)²PCA和NN_NYSTRÖM3个最近邻的分类方法作对比, 这样就更好地体现出本文方法中每个步骤的有效性与合理性。在ETH-80数据集上, 本文方法的识别率可以达到96.25%, 相对于3个最近邻的方法、DCC和CDL等经典的方法有较大的提高, 同时其标准差仅为2.12, 也是所有的方法中较小的, 说明了本文方法在ETH-80这个数据集上不仅仅具有较高的识别率, 同时还具有较好的鲁棒性。在YTC数据集上, 本文方法的识别率可以达到78.26%, 高出其他方法10个百分点左右, 说明本文方法在YTC这样的人脸数据集上优势很明显, 同时其标准差相对于其他算法也相对较小, 所以本文方法在YTC数据集上依旧具有较好的鲁棒性。但是在使用NYSTRÖMMETHOD和(2D)²PCA两种不同降维方法然后直接用最近邻分类时, 识别率有一定的差别, 从实验结果可以看出在YTC数据集上使用(2D)²PCA来对切空间的数据进行降维会有更好的效果, 而NN_NYSTRÖM的表现则不太理想。在Virus病毒细胞数据集上, 同样从识别率和标准差两个方面来考虑, 本文方法在任然具有较好的识别率, 但是鲁棒性并不是很好。通过对3个最近邻的方法的实验结果分析, 鲁棒性不足的原因可能是, 图像集中有效的信息在降维的过程中被当成噪声处理。在3个最近邻的方法的与Proposed_(2D)²PCA和Proposed_NYSTRÖM对比中。除了NN_NYSTRÖM方法在YTC数据上的表现欠佳, NN_(2D)²PCA或者NN_NYSTRÖM的识别率都比NN_T的识别率要高, 这说明了在切空间中对数据的降维是有效的, Proposed_NYSTRÖM和Proposed_(2D)²PCA在3个数据集上的分类效果又都比NN_NYSTRÖM和NN_(2D)²PCA的效果好, 这样的结果说明了FDDL的有效性。至此, 本文方法中每一个过程所用到的方法对整个算法的性能的提高都起到了良好的效果, 最终, 使得本文方法在基于图像集的分类任务中优于其他的经典算法。

4.4 参数对算法的影响

在切空间中, 样本为400×400对称矩阵, 若对样本直接展开成列向量去进行分类, 则会导致样本的维度过高和计算量过大的问题, 且识别率没有实质性的提高。为了使本文方法兼备良好的识别率和运行效率, 需要对切空间的数据进行降维。降维的目标是为了得到更低维的数据, 且保存了数据集的主要信息, 以及算法的性能及识别率不能有明显的降低。图 6给出的是算法Proposed_(2D)²PCA的识别率随着切空间样本的维度变化的折线图, 其中$x$轴的值是(2D)²PCA过程中投影矩阵的中$d$, 该值所对应的降维后的样本是${d \times d}$的对称矩阵。$y$轴对应的是算法的识别率。由图 6可以看出当$d$在10~40之间的时候, 算法的识别率浮动比较大, 这主要是因为当维度过低时, 会丢失图像集中的有效的信息。当$d$达到70之后算法的识别率趋于平稳, 这是因为当$d$达到70时, 降维后的样本的已经包含了图像集的主要信息, 所以识别率就不会随着维度的增加而有太大的改变, 且识别率几乎是达到了最好的效果。综合考虑算法的识别率和运行效率, 实验中, 对3个数据集上的样本进行(2D)²PCA降维的过程中, 投影矩阵的$d$的值均设为70。

图 6 (2D)²PCA中投影矩阵的$d$对结果的影响

Fig. 6 The impact of the parameter $d$ to the classification rates

4.5 运行时间的对比

为了验证本文算法的性能, 将本文方法与NN_AIRM、NN_Stein和NN_Jeffrey等一些最近邻的方法以及CDL方法做对比。表 4给出了各个方法在数据集ETH-80的平均时间。表中时间是在ETH-80 10次迭代实验的平均时间。由表 4中的数据可以看出, Proposed_(2D)²PCA方法相对于Proposed_NYSTRÖM方法的时间相对要长一点。这是因为即使(2D)²PCA降维之后样本是一个70×70的对称矩阵, 但是, 展开成列向量任然维度会比较高, 对后面FDDL中字典学习任会造成较大的运算量, 但这两个方法都比NN_AIRM、NN_Stein和NN_Jeffrey效率要好很多, 说明相对于直接在SPD流形上用最近邻的方法来说, 本文方法效率更高。值得一提的是, 虽然Proposed_NYSTRÖM方法运行时间不是最短的, 但是3.74 s的运行时间也相对较小, 说明我们的方法具有较高的运行效率。

表 4 各方法在ETH-80上的平均运行时间
Table 4 The average run time of algorithms on ETH-80

下载CSV

方法	时间/s
CDL	1.23
NN_AIRM	31.06
NN_Stein	20.48
NN_Jeffrey	19.65
NN_T	4.17
NN_(2D)²PCA	2.30
NN_NYSTRÖM	1.99
Proposed_(2D)²PCA	12.63
Proposed_NYSTRÖM	3.74

5 结论

通过用SPD矩阵描述图像集, 使得每个图像集对应于SPD流形上的一个点, 将一个基于图像集的分类问题转化为对于SPD流形上样本点的分类问题。由于SPD流形上的样本处于一个非线性的黎曼空间, 所以即便是转变成了样本点的分类问题, 也不能直接利用欧氏度量以及欧氏空间的分类算法来对样本点进行分类。所以使用对数映射, 将SPD流形上的样本映射到切空间, 然后, 用欧氏空间中的分类算法对映射到切空间的样本进行分类。在对切空间中的样本进行分类之前, 通过两种不同方法对切空间的样本进行降维, 以提高算法的效率和性能。至此, 将欧氏空间中基于单幅图片的分类算法(FDDL)与黎曼流形结合起来, 实现了图像集的分类任务, 并且在3个数据集上取得较好的效果。本文为了提高算法的效率和性能, 通过(2D)²PCA和NYSTRÖM METHOD两种方法获得切空间中样本的低维表示。接下来, 如何直接构建维度更低, 且具有判别性的SPD流形将是下一步的研究重点。

参考文献

[1] Cherian A, Sra S. Riemannian dictionary learning and sparse coding for positive definite matrices[J]. IEEE Transactions on Neural Networks and Learning Systems, 2017, 28(12): 2859–2871. [DOI:10.1109/TNNLS.2016.2601307]

[2] Kim T K, Kittler J, Cipolla R. Discriminative learning and recognition of image set classes using canonical correlations[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(6): 1005–1018. [DOI:10.1109/TPAMI.2007.1037]

[3] Wang R P, Shan S G, Chen X L, et al. Manifold-manifold distance with application to face recognition based on image set[C]//Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, AK, USA: IEEE, 2008: 1-8. [DOI:10.1109/CVPR.2008.4587719]

[4] Hu Y Q, Mian A S, Owens R. Sparse approximated nearest points for image set classification[C]//Proceedings of 2011 IEEE Conference on Computer Vision and Pattern Recognition. Colorado Springs, CO, USA: IEEE, 2011: 121-128. [DOI:10.1109/CVPR.2011.5995500]

[5] Wang R P, Guo H M, Davis L S, et al. Covariance discriminative learning: a natural and efficient approach to image set classification[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE, 2012: 2496-2503. [DOI:10.1109/CVPR.2012.6247965]

[6] Huang Z W, Wang R P, Shan S G, et al. Log-euclidean metric learning on symmetric positive definite manifold with application to image set classification[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille, France: ICML, 2015: 720-729.

[7] Faraki M, Harandi M T, Porikli F. Image set classification by symmetric positive semi-definite matrices[C]//Proceedings of 2016 IEEE Winter Conference on Applications of Computer Vision. Lake Placid, NY, USA: IEEE, 2016: 1-8. [DOI:10.1109/WACV.2016.7477621]

[8] Arandjelovic O, Shakhnarovich G, Fisher J, et al. Face recognition with image sets using manifold density divergence[C]//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA: IEEE, 2005: 581-588. [DOI:10.1109/CVPR.2005.151]

[9] Yamaguchi O, Fukui K, Maeda K I. Face recognition using temporal image sequence[C]//Proceedings of the 3rd IEEE International Conference on Automatic Face and Gesture Recognition. Nara, Japan: IEEE, 1998: 318-323. [DOI:10.1109/AFGR.1998.670968]

[10] Harandi M, Salzmann M, Hartley R. Dimensionality reduction on SPD manifolds:the emergence of geometry-aware methods[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(1): 48–62. [DOI:10.1109/TPAMI.2017.2655048]

[11] Harandi M T, Salzmann M, Hartley R. From manifold to manifold: geometry-aware dimensionality reduction for SPD matrices[C]//Proceedings of the 13th European Conference on Computer Vision. Cham: Springer, 2014: 17-32. [DOI:10.1007/978-3-319-10605-2_2]

[12] Ren J Y, Wu X J. Sparse coding for symmetric positive definite matrices with application to image set classification[C]//Proceedings of the 5th International Conference on Intelligence Science and Big Data Engineering. Image and Video Data Engineering. Cham: Springer, 2015: 637-646. [DOI:10.1007/978-3-319-23989-7_64]

[13] Yang M, Zhang L, Feng X C, et al. Sparse representation based fisher discrimination dictionary learning for image classification[J]. International Journal of Computer Vision, 2014, 109(3): 209–232. [DOI:10.1007/s11263-014-0722-8]

[14] Yang M, Zhang L, Feng X C, et al. Fisher discrimination dictionary learning for sparse representation[C]//Proceedings of 2011 IEEE International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011: 543-550. [DOI:10.1109/ICCV.2011.6126286]

[15] Faraki M, Harandi M T, Porikli F. Approximate infinite-dimensional region covariance descriptors for image classification[C]//Proceedings of the 2015 IEEE International Conference on Acoustics, Speech and Signal Processing. Brisbane, QLD, Australia: IEEE, 2015: 1364-1368. [DOI:10.1109/ICASSP.2015.7178193]

[16] Zhang D Q, Zhou Z H. (2D)² 2PCA:two-directional two-dimensional PCA for efficient face representation and recognition[J]. Neurocomputing, 2005, 69(1-3): 224–231. [DOI:10.1016/j.neucom.2005.06.004]

[17] Yang J, Zhang D, Frangi A F, et al. Two-dimensional PCA:a new approach to appearance-based face representation and recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 26(1): 131–137. [DOI:10.1109/TPAMI.2004.1261097]

[18] Pennec X, Fillard P, Ayache N. A Riemannian framework for tensor computing[J]. International Journal of Computer Vision, 2006, 66(1): 41–66. [DOI:10.1007/s11263-005-3222-z]

[19] Jayasumana S, Hartley R, Salzmann M, et al. Kernel methods on the Riemannian manifold of symmetric positive definite matrices[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition, 2013: 73-80. [DOI:10.1109/ICVPR.2013.17]

[20] Kylberg G, Uppström M, Sintorn I M. Virus texture analysis using local binary patterns and radial density profiles[C]//Iberoamerican Congress on Pattern Recognition. Springer, Berlin, Heidelberg, 2011: 573-580. [DOI:10.1007/978-3-642-25085-9_68]

[21] Huang Z W, Wang R P, Shan S G, et al. Projection metric learning on Grassmann manifold with application to video based face recognition[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 140-149. [DOI:10.1109/CVPR.2015.7298609]

[22] Hamm J, Lee D D. Grassmann discriminant analysis: a unifying view on subspace-based learning[C]//Proceedings of the 25th International Conference on Machine Learning. Helsinki, Finland: ACM, 2008: 376-383. [DOI:10.1145/1390156.1390204]

摘要

关键词

Abstract

Key words

0 引言

1 相关工作

1.1 SPD流形

1.2 黎曼度量

2 切空间中样本降维

2.1 NYSTRÖM METHOD

2.2 (2D)2PCA

3 基于切空间稀疏表示的图像集分类

3.1 切空间中的字典学习和稀疏表示

3.2 样本分类

4 实验结果与分析

4.1 ETH-80数据集

4.2 YouTube数据集

4.3 Virus数据集

4.4 参数对算法的影响

4.5 运行时间的对比

5 结论

参考文献

2.2 (2D)²PCA