|
发布时间: 2018-07-16 |
图像处理和编码 |
|
|
收稿日期: 2017-11-06; 修回日期: 2018-01-24
基金项目: 国家自然科学基金项目(61672265, 61373055)
第一作者简介:
陈凯旋, 1993年生, 男, 江南大学物联网工程学院计算机技术硕士研究生, 主要研究方向为计算机视觉、模式识别、黎曼流形。E-mail:kaixuan_chen_jnu@163.com.
中图法分类号: TP391.4
文献标识码: A
文章编号: 1006-8961(2018)07-0961-12
|
摘要
目的 在基于图像集的分类任务中, 用SPD (symmetric positive definite)矩阵描述图像集, 并考虑所得到的黎曼流形, 已被证明对许多分类任务有较好的效果。但是, 已有的经典分类算法大多应用于欧氏空间, 无法直接应用于黎曼空间。为了将欧氏空间的分类方法应用于解决图像集的分类, 综合考虑SPD流形的LEM (Log-Euclidean metric)度量和欧氏空间分类算法的特性, 实现基于图像集的分类任务。方法 通过矩阵的对数映射将SPD流形上的样本点映射到切空间中, 切空间中的样本点与图像集是一一对应的关系, 此时, 再将切空间中的样本点作为欧氏空间中稀疏表示分类算法的输入以实现图像集的分类任务。但是切空间样本的形式为对称矩阵, 且维度较大, 包含一定冗余信息, 为了提高算法的性能和运行效率, 使用NYSTRÖM METHOD和(2D)2PCA (two-directional two-dimensional PCA)两种方法来获得包含图像集的主要信息且维度更低的数据表示形式。结果 在实验中, 对人脸、物体和病毒细胞3种不同的对象进行分类, 并且与一些用于图像集分类的经典算法进行对比。实现结果表明, 本文算法不仅具有较高的识别率, 而且标准差也相对较小。在人脸数据集上, 本文算法的识别率可以达到78.26%, 比其他算法高出10%左右, 同时, 具有最小的标准差2.71。在病毒数细胞据集上, 本文算法的识别率可以达到58.67%, 在所有的方法中识别率最高。在物体识别的任务中, 本文算法的识别率可以达到96.25%, 标准差为2.12。结论 实验结果表明, 与一些经典的基于图像集的分类算法对比, 本文算法的识别率有较大的提高且具有较小的标准差, 对多种数据集有较强的泛化能力, 这充分说明了本文算法可以广泛应用于解决基于图像集的分类任务。但是, 本文是通过(2D)2PCA和NYSTRÖM METHOD对切空间中样本进行降维来获得更低维度的样本, 以提高算法的运行速度和性能。如何直接构建维度更低, 且具有判别性的SPD流形将是下一步的研究重点。
关键词
SPD流形; 图像集分类; NYSTRÖM METHOD; 双相2维主成分分析((2D)2PCA); 稀疏表示
Abstract
Objective
In image set classification, symmetric positive definite (SPD) matrices are usually utilized to model image sets.The resulting Riemannian manifold yields a high discriminative power in many visual recognition tasks.However, existing classic classification algorithms are mostly applied in the Euclidean space and cannot work directly on SPD matrices.To apply the classification algorithm of Euclidean space to image set classification, this work comprehensively reviews the unique Log-Euclidean metric (LEM) of the SPD manifold and the properties of the existing classical classification algorithm, and the classification task based on the image sets is achieved.
Method
Given that the SPD matrices lie on Riemannian space, we map the samples on the SPD manifold to the tangent space through logarithm mapping, and each sample in the tangent space corresponds to an image set.The form of the samples in the tangent space is a symmetrical matrix, and its dimensionality conforms with the samples on the SPD manifold.The symmetric matrix in the tangent space contains redundant information and has a large dimension.To improve the performance and efficiency of the algorithm, we need to reduce the dimensionality of the data in the tangent space.In our technique, we use the Nyström method and (2D)2PCA to obtain low-dimensional data that contain the main information of the image sets.1) The Nyström method can approximate the infinite-dimensional samples in the reproducing kernel Hilbert space (RKHS).The dimensionality of the samples mapped into the RKHS by kernel mapping is infinite, and the Riemannian kernel is obtained by the inner product of the samples in the tangent space using the LEM of the SPD manifold.For a set of
Key words
SPD manifold; image set classification; NYSTRÖM METHOD; (2D)2PCA; sparse representation
0 引言
基于图像集的分类问题在计算机视觉与模式识别领域获得了广泛的关注[1-7]。在基于图像集的分类问题中, 由于图像集包含了更多的有效信息, 所以, 相比于将单个图像作为输入的分类, 将图像集作为输入进行分类可以得到更好的分类效果[2, 7]。已经存在的方法主要关注点在于如何对图像集进行建模并度量他们之间的相似性。图像集的建模方法可以分为两类[2]:参数模型表示和非参数模型表示。参数模型是用一个分布函数来表示一个图像集, 然后用KLD (Kullback-Leibler divergence)度量他们之间相似性[8]。基于参数模型建模方法的主要挑战是模型中参数的估计, 尤其当训练样本与测试样本之间的统计相关性比较弱时, 模型中参数则会出现较大的波动。
非参数模型是一种更加灵活的方式。其中, 一个具有开创性的工作是用线性子空间去描述图像集[9], 但是这个方法需要图像集中含有大量的样本。所以, 该方法不适用于图像集中的样本较少且样本变化较为复杂的情况。另一种比较有效的方法就是将一个图像集建模成一个非奇异协方差矩阵, 及SPD(symmetric positive definite)矩阵[5-6, 10-12]。首先, 用SPD矩阵来表示图像集, 若图像集中样本的数量较少, 可以通过添加一些扰动来保证最终得到的协方差矩阵的正定性, 克服了线性子空间方法对图像集中样本需求量大的问题。其次, 即使图像集中样本的变化较为复杂, 也可以在计算协方差的过程中通过去平均化操作来减少样本变化所带来的影响, 所以, 用SPD矩阵来表示图像集具有一定的抗干扰能力。
本文采用的是非参数模型中用SPD矩阵来对图像集建模的方法。之所以用SPD矩阵来对图像集进行建模, 不仅仅考虑SPD矩阵建模的方法较好地克服了线性子空间方法的缺点, 还考虑到SPD流形所独有的LEM(Log-Euclidean metric)度量方法[5, 12], 该方法是通过对数运算将黎曼空间的样本点映射到其切空间中, 由于切空间可以被视为一个欧氏空间, 可以通过矩阵的
本文并不是将映射到切空间后的对称矩阵直接展开成列向量然后作为FDDL的输入。因为原SPD矩阵的维度比较高, 对数映射只是单纯的将黎曼流形上的样本点映射到切空间中, 并没有改变样本的维度, 所以切空间的样本的维度也比较高并且包含一定的冗余信息。为了提高算法的性能和运行效率, 我们需要对切空间的样本进行降维, 且降维后的样本需保存图像集的主要信息。由于切空间中的样本是对称矩阵的形式, 所以类似于PCA(principal component analysis)和LDA(linear discriminant analysis)单向降维的方法并不适用。本文采用了NYSTRÖM METHOD[15]和(2D)2PCA[16]两种方法对切空间的数据进行降维处理。
1) NYSTRÖMMETHOD方法首先是将样本通过核映射将样本映射到再生核希尔伯特空间RKHS (reproducing Kernel Hilbert spaces)[15], 在该空间中的样本的维度是无限维的, 但是可以通过对该空间中的核矩阵进行特征值分解, 得到其由前
2) (2D)2PCA方法[16, 17]是一种可以对图像矩阵进行双向降维的方法, 切空间中的样本点恰好是对称矩阵, 在经过(2D)2PCA处理之后, 得到的是维度较低的对称矩阵, 并将较低维度的对称矩阵展开成列向量。上述两种方法得到的数据表示形式不仅仅维度较低, 同时, 包含了原样本的主要信息。
首先本文方法用SPD矩阵描述图像集, 使得图像集对应于SPD流形的样本点。由于SPD流形是一个非欧氏空间, 所以需将SPD流形的点映射到其切空间中[5]。但是, 切空间的样本的维度依旧很高且含有一定的冗余信息, 所以, 使用(2D)2PCA和NYSTRÖM METHOD两种方法以获取低维度的且包含图像集主要信息的表示形式。最后, 将得到的低维度的数据作为FDDL算法[13-14]的输入。图 1给出了本文方法的示意图。图中清楚地展现了使用NYSTRÖM METHOD和(2D)2PCA两种不同方法来获得低维数据以实现图像集分类任务的流程走向。流程路径:(a)-(b)-(c)-(d)-(e)-(h)是使用NYSTRÖM METHOD方法的流程图, 该流程在处理切空间的高维度的数据时, 通过将样本核映射到RKHS, 通过对核矩阵的特征值分解得到相应的投影矩阵, 来计算再生核希尔伯特空间中样本的向量表示。流程路径:(a)-(b)-(c)-(f)-(g)-(h)是使用(2D)2PCA方法的流程图, 该流程在处理切空间的高维度的数据时, 对高维度的对称矩阵进行双向降维处理, 得到维度较低且包含主要信息的对称矩阵, 并将较低维的对称矩阵展开成为列向量。
1 相关工作
1.1 SPD流形
现有图像集
$ \mathit{\boldsymbol{C}} = \frac{1}{{n-1}}\sum\limits_{i = 1}^n {({\mathit{\boldsymbol{s}}_i}-\mathit{\boldsymbol{\bar s}})} {({\mathit{\boldsymbol{s}}_i}-\mathit{\boldsymbol{\bar s}})^{\rm{T}}} $ | (1) |
这里的
$ {\mathit{\boldsymbol{C}}^*} = \mathit{\boldsymbol{C}} + \lambda \mathit{\boldsymbol{I}} $ | (2) |
1.2 黎曼度量
由于不能把欧氏空间的分类算法直接用于流形上, 所以需使用对数映射将SPD流形上的点映射到切空间[5, 12, 18], 该映射过程可以被表示为
$ {\varphi _{{\rm{log}}}}:\mathit{\boldsymbol{M}} \to {\mathit{\boldsymbol{T}}_I}, \mathit{\boldsymbol{C}} \to {\rm{log}}\left( \mathit{\boldsymbol{C}} \right) $ | (3) |
$ {\rm{log}}\left( \mathit{\boldsymbol{C}} \right) = \mathit{\boldsymbol{U}}{\rm{log}}\left( \mathit{\boldsymbol{ \boldsymbol{\varSigma} }} \right){\mathit{\boldsymbol{U}}^{\bf{T}}} $ | (4) |
$ k({\mathit{\boldsymbol{C}}_1}, {\mathit{\boldsymbol{C}}_2}) = {\rm{tr}}[{\rm{log}}({\mathit{\boldsymbol{C}}_1})\cdot{\rm{log}}({\mathit{\boldsymbol{C}}_2})] $ | (5) |
由于
2 切空间中样本降维
2.1 NYSTRÖM METHOD
为了得到切空间中样本的低维表示形式, 使用NYSTRÖM METHOD去近似表示切空间中的样本, 而NYSTRÖM METHOD是一种可以得到再生核希尔伯特空间中样本的近似表示的方法[15], 所以, 首先需将切空间的对称矩阵映射到再生和希尔伯特空间[1, 5-6, 10-11, 15], 然后, 通过用NYSTRÖM METHOD方法得到样本在核空间的近似表示来作为该样本的低维向量表示。
现有训练样本集合
$ \mathit{\boldsymbol{X}}^\prime{ _d}\left( \mathit{\boldsymbol{y}} \right) = {\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}^{- 1/2}}{\mathit{\boldsymbol{V}}^{\bf{T}}}{[k(\mathit{\boldsymbol{y}}, {\mathit{\boldsymbol{x}}_1}), \ldots, k(\mathit{\boldsymbol{y}}, {\mathit{\boldsymbol{x}}_m})]^{\bf{T}}} $ | (6) |
由式(6), 核空间中的训练样本集合
算法1:使用NYSTRÖM METHOD方法近似的表示再生希尔伯特空间中的数据
输入:
训练样本集合
目标维度
输出:
任意样本
对角矩阵
1) 计算训练样本集合
2) 得到最大的
3) 得到与特征值对应的特征向量矩阵
4) 通过式(6)计算得到样本
2.2 (2D)2PCA
相对于经典的降维方法PCA而言, (2D)2PCA是一种可以对2维数据降维的方法, 且与2DPCA[17]只对2维数据及图像矩阵进行单方向降维不同, (2D)2PCA是一种可以对2维数据进行双向降维的方法[16], 并在人脸识别和物体识别中有了广泛的应用。
如果有
$ \mathit{\boldsymbol{C}} = \frac{1}{{K \times m-1}}\sum\limits_{i = 1}^{K \times m} {{{({\mathit{\boldsymbol{x}}_i}-\mathit{\boldsymbol{\bar x}})}^{\rm{T}}}} ({\mathit{\boldsymbol{x}}_i}-\mathit{\boldsymbol{\bar x}}) $ | (7) |
$ \mathit{\boldsymbol{C}}^\prime = \frac{1}{{K \times m-1}}\sum\limits_{i = 1}^{K \times m} {({\mathit{\boldsymbol{x}}_i}-\mathit{\boldsymbol{\bar x}})} \;{({\mathit{\boldsymbol{x}}_i}-\mathit{\boldsymbol{\bar x}})^{\bf{T}}} $ | (8) |
对
$ \mathit{\boldsymbol{y}}^\prime = {\mathit{\boldsymbol{W}}^{\bf{T}}}\mathit{\boldsymbol{xW}} $ | (9) |
算法2:使用(2D)2PCA对切空间中的对称矩阵进行双向降维
输入:
训练样本集合:
目标维度
输出:
投影矩阵
降维后的维度为
1) 根据式(7)计算行方向的2维协方差矩阵并计算投影矩阵
2) 根据式(8)计算列方向的2维协方差矩阵并计算投影矩阵
3) 由于样本是对称矩阵, 可知
4) 根据式(9)计算出降维后的对称矩阵
3 基于切空间稀疏表示的图像集分类
3.1 切空间中的字典学习和稀疏表示
经过2.1小节或者2.2小节的降维处理, 得到了图像集的低维表示形式, 且保存了图像集的主要信息。由于字典在稀疏表示和基于稀疏编码的图像分类中起着重要作用, 所以, 在对样本进行分类之前, 需要对低维的样本进行字典学习和稀疏编码。FDDL(Fisher判别字典学习)方法[13-14]是欧氏空间中一个用于单幅图像分类的经典方法, 它可以学习到一个结构化的字典, 不仅字典内的原子具有较强的鉴别性, 而且表示系数也具有较小的类内散度和较大的类间散度。
现有
$ \begin{array}{l} {J_{(\mathit{\boldsymbol{D}}, \mathit{\boldsymbol{A}})}} = \mathop {{\text{arg min}}}\limits_{\left( {\mathit{\boldsymbol{D}}, \mathit{\boldsymbol{A}}} \right)} \{ r\left( {\mathit{\boldsymbol{X}}, \mathit{\boldsymbol{D}}, \mathit{\boldsymbol{A}}} \right) + {\mathit{\boldsymbol{\lambda }}_1}{\left\| \mathit{\boldsymbol{A}} \right\|_1} + {\mathit{\boldsymbol{\lambda }}_2}f\left( \mathit{\boldsymbol{A}} \right)\} \\ \;\;\;\;\;\;\;\;\;\;{\rm{s}}.{\rm{t}}.\;\;\;\;\;{\left\| {{\mathit{\boldsymbol{d}}_n}} \right\|_2} = 1, \forall n \end{array} $ | (10) |
这里的
$ \begin{array}{l} r({\mathit{\boldsymbol{X}}_i}, \mathit{\boldsymbol{D}}, {\mathit{\boldsymbol{A}}_i}) = \left\| {{\mathit{\boldsymbol{X}}_i}-\mathit{\boldsymbol{D}}{\mathit{\boldsymbol{A}}_i}} \right\|_F^2 + \\ \left\| {{\mathit{\boldsymbol{X}}_i}-{\mathit{\boldsymbol{D}}_i}\mathit{\boldsymbol{A}}_i^i} \right\|_F^2 + \sum\limits_{\mathop {j = 1}\limits_{j \ne i} }^K {\left\| {{\mathit{\boldsymbol{D}}_j}\mathit{\boldsymbol{A}}_i^j} \right\|_F^2} \end{array} $ | (11) |
$ \begin{array}{l} f\left( \mathit{\boldsymbol{A}} \right) = {\rm{tr}}({\mathit{\boldsymbol{S}}_{\rm{W}}}\left( \mathit{\boldsymbol{A}} \right))-\\ {\rm{tr}}({\mathit{\boldsymbol{S}}_{\rm{B}}}\left( \mathit{\boldsymbol{A}} \right)) + \eta \left\| \mathit{\boldsymbol{A}} \right\|_\rm{F}^2 \end{array} $ | (12) |
$ {\mathit{\boldsymbol{S}}_{\rm{W}}}\left( \mathit{\boldsymbol{A}} \right) = \sum\limits_{i = 1}^K {\sum\limits_{{\mathit{\boldsymbol{a}}_k} \in {\mathit{\boldsymbol{A}}_i}} {({\mathit{\boldsymbol{a}}_k}-{\mathit{\boldsymbol{m}}_i})} {{({\mathit{\boldsymbol{a}}_k}-{\mathit{\boldsymbol{m}}_i})}^{\rm{T}}}} $ | (13) |
$ {\mathit{\boldsymbol{S}}_{\rm{B}}}\left( \mathit{\boldsymbol{A}} \right) = \sum\limits_{i = 1}^K {{\mathit{\boldsymbol{n}}_i}} ({\mathit{\boldsymbol{m}}_i}-\mathit{\boldsymbol{m}}){({\mathit{\boldsymbol{m}}_i}-\mathit{\boldsymbol{m}})^{\rm{T}}} $ | (14) |
在学习到的字典
3.2 样本分类
现若有属于第
$ \mathit{\boldsymbol{\hat a}} = {\rm{arg }}\mathop {{\rm{min}}}\limits_\mathit{\boldsymbol{a}} \{ \left\| {\mathit{\boldsymbol{y}}-\mathit{\boldsymbol{Da}}} \right\|_2^2 + \lambda {\left\| \mathit{\boldsymbol{a}} \right\|_p}\} $ | (15) |
这里的
算法3:基于切空间稀疏表示的图像集分类算法
输入:
图像集训练样本TR和测试样本TT;
训练样本标签
输出:
分类正确率
1) 根据式(1), 用SPD矩阵对图像集建模;
2) 根据式(4)将SPD流形上的样本映射到切空间中;
3) 利用算法1的NYSTRÖM METHOD方法和算法2的(2D)2PCA获取切空间样本的低维表示;
4) 用欧氏空间的分类算法FDDL对降维后数据进行分类。
将得到的稀疏系数表示为
$ {e_i} = \left\| {\mathit{\boldsymbol{y}}-{\mathit{\boldsymbol{D}}_i}{{\mathit{\boldsymbol{\hat a}}}_i}} \right\|_2^2 + \mathit{\boldsymbol{w}}\cdot\left\| {\mathit{\boldsymbol{\hat a}}-{\mathit{\boldsymbol{m}}_i}} \right\|_2^2 $ | (16) |
$ {\rm{Label}}\left( \mathit{\boldsymbol{y}} \right) = {\rm{arg }}\mathop {{\rm{min}}}\limits_i \{ {e_i}\} $ | (17) |
Label表示样本所属的类别, 通过式(17)将测试样本分到残差最小的一类。
图像集包含了大量的信息, 用协方差描述图像集具有较强的鲁棒性, 但是协方差描述得到的SPD矩阵是黎曼流形上的点, 欧氏空间的分类算法无法直接作用于SPD矩阵。对数映射可以将SPD矩阵映射到切空间, 但切空间样本的维度较高且包含一定的冗余信息, 所以需对切空间中的样本进行降维, 然后, 将降维后的样本作为FDDL算法的输入以实现图像集的分类任务。算法3给出了本文方法的主要步骤。
4 实验结果与分析
为了验证本文方法的泛化性, 在3个公开的数据集上进行测试, 它们分别应用于对象分类、人脸识别和病毒细胞识别。这3个数据集分别是ETH-80[19]基准数据集、YouTube Celebrities(YTC)[5]基准数据集和Virus病毒细胞基准数据集[20], 并且在每个数据集上, 将10次迭代实验的平均识别率和标准差作为最终的结果。
同时, 为了更好地验证本文方法的有效性, 把本文方法与DCC(discriminative canonical correlations)[2]、CDL(covariance discriminant learning)[5]、PML(projection metric learning)[21]、GDA (grassman discriminant analysis) [22]、LEML(log-Euclidean metric learning)[6]、SPDML[10]等基于图像集分类的经典算法进行比较。其中DCC是一种通过训练样本及典型相关分析来学习判别函数, PML和GDA是线性子空间描述图像集, 并考虑线性子空间所处的格拉斯曼流形, 利用格拉斯曼流形的特点和度量方法学习判别函数, 从而实现图像集的分类任务。CDL和LEML都应用于SPD流形的图像集分类方法, 和本文所采用的图像集建模方法一致。
根据文献[5]的描述, 为防止奇异矩阵的出现, 扰动量
文中不同的方法被描述为:
1) NNAIRM:对SPD流形上的样本用AIRM度量进行最近邻分类。
2) NNStein:对SPD流形上的样本用Stein度量进行最近邻分类。
3) NNJeffrey:对SPD流形上的样本用Jeffrey度量进行最近邻分类。
4) NNT:经过log映射后, 对切空间的样本用NN分类器分类。
5) NN(2D)2PCA:对切空间的样本先进行(2D)2PCA处理, 然后再用NN分类器进行分类。
6) NNNYSTRÖM:对切空间的样本先映射到再生核希尔伯特空间, 用NYSTRÖM方法的近似的表示, 再用NN分类器来分类。
7) Proposed(2D)2PCA:对切空间的样本先进行(2D)2PCA处理, 最后再用FDDL进行分类。及图 1中的流程(a)-(b)-(c)-(f)-(g)-(h)。
8) ProposedNYSTRÖM:对切空间的样本先映射到再生核希尔伯特空间, 用NYSTRÖM方法的近似的表示, 最后用FDDL进行分类。及图 1中的流程(a)-(b)-(c)-(d)-(e)-(h)。
4.1 ETH-80数据集
4.2 YouTube数据集
4.3 Virus数据集
Virus数据集[20]中含有15个类别, 每个类中含有5个图像集, 每个图像集中有20张从不同角度拍摄的照片。把每个图片的尺寸调整为20×20像素, 并且在每一类图像集中, 任意选3个图像集作为训练样本, 剩下2个图像集作为测试样本。图 5为Virus的数据集部分图像, 表 3为各算法在Virus数据集上的平均结果。
表 3
各算法在Virus数据集上的平均结果
Table 3
The average results of algorithms on Virus
这些实验结果是在每个数据集上做10次的迭代实验获得的, 通过所得10次实验结果的平均值和标准差来作为最终的结果, 由表 1、表 2和表 3可以看出本文方法的识别率与其他几个基于图像集的分类算法对比都有一定的提高, 而且本文方法还与NNT、NN(2D)2PCA和NNNYSTRÖM3个最近邻的分类方法作对比, 这样就更好地体现出本文方法中每个步骤的有效性与合理性。在ETH-80数据集上, 本文方法的识别率可以达到96.25%, 相对于3个最近邻的方法、DCC和CDL等经典的方法有较大的提高, 同时其标准差仅为2.12, 也是所有的方法中较小的, 说明了本文方法在ETH-80这个数据集上不仅仅具有较高的识别率, 同时还具有较好的鲁棒性。在YTC数据集上, 本文方法的识别率可以达到78.26%, 高出其他方法10个百分点左右, 说明本文方法在YTC这样的人脸数据集上优势很明显, 同时其标准差相对于其他算法也相对较小, 所以本文方法在YTC数据集上依旧具有较好的鲁棒性。但是在使用NYSTRÖMMETHOD和(2D)2PCA两种不同降维方法然后直接用最近邻分类时, 识别率有一定的差别, 从实验结果可以看出在YTC数据集上使用(2D)2PCA来对切空间的数据进行降维会有更好的效果, 而NNNYSTRÖM的表现则不太理想。在Virus病毒细胞数据集上, 同样从识别率和标准差两个方面来考虑, 本文方法在任然具有较好的识别率, 但是鲁棒性并不是很好。通过对3个最近邻的方法的实验结果分析, 鲁棒性不足的原因可能是, 图像集中有效的信息在降维的过程中被当成噪声处理。在3个最近邻的方法的与Proposed(2D)2PCA和ProposedNYSTRÖM对比中。除了NNNYSTRÖM方法在YTC数据上的表现欠佳, NN(2D)2PCA或者NNNYSTRÖM的识别率都比NNT的识别率要高, 这说明了在切空间中对数据的降维是有效的, ProposedNYSTRÖM和Proposed(2D)2PCA在3个数据集上的分类效果又都比NNNYSTRÖM和NN(2D)2PCA的效果好, 这样的结果说明了FDDL的有效性。至此, 本文方法中每一个过程所用到的方法对整个算法的性能的提高都起到了良好的效果, 最终, 使得本文方法在基于图像集的分类任务中优于其他的经典算法。
4.4 参数对算法的影响
在切空间中, 样本为400×400对称矩阵, 若对样本直接展开成列向量去进行分类, 则会导致样本的维度过高和计算量过大的问题, 且识别率没有实质性的提高。为了使本文方法兼备良好的识别率和运行效率, 需要对切空间的数据进行降维。降维的目标是为了得到更低维的数据, 且保存了数据集的主要信息, 以及算法的性能及识别率不能有明显的降低。图 6给出的是算法Proposed(2D)2PCA的识别率随着切空间样本的维度变化的折线图, 其中
4.5 运行时间的对比
为了验证本文算法的性能, 将本文方法与NNAIRM、NNStein和NNJeffrey等一些最近邻的方法以及CDL方法做对比。表 4给出了各个方法在数据集ETH-80的平均时间。表中时间是在ETH-80 10次迭代实验的平均时间。由表 4中的数据可以看出, Proposed(2D)2PCA方法相对于ProposedNYSTRÖM方法的时间相对要长一点。这是因为即使(2D)2PCA降维之后样本是一个70×70的对称矩阵, 但是, 展开成列向量任然维度会比较高, 对后面FDDL中字典学习任会造成较大的运算量, 但这两个方法都比NNAIRM、NNStein和NNJeffrey效率要好很多, 说明相对于直接在SPD流形上用最近邻的方法来说, 本文方法效率更高。值得一提的是, 虽然ProposedNYSTRÖM方法运行时间不是最短的, 但是3.74 s的运行时间也相对较小, 说明我们的方法具有较高的运行效率。
表 4
各方法在ETH-80上的平均运行时间
Table 4
The average run time of algorithms on ETH-80
方法 | 时间/s |
CDL | 1.23 |
NNAIRM | 31.06 |
NNStein | 20.48 |
NNJeffrey | 19.65 |
NNT | 4.17 |
NN(2D)2PCA | 2.30 |
NNNYSTRÖM | 1.99 |
Proposed(2D)2PCA | 12.63 |
ProposedNYSTRÖM | 3.74 |
5 结论
通过用SPD矩阵描述图像集, 使得每个图像集对应于SPD流形上的一个点, 将一个基于图像集的分类问题转化为对于SPD流形上样本点的分类问题。由于SPD流形上的样本处于一个非线性的黎曼空间, 所以即便是转变成了样本点的分类问题, 也不能直接利用欧氏度量以及欧氏空间的分类算法来对样本点进行分类。所以使用对数映射, 将SPD流形上的样本映射到切空间, 然后, 用欧氏空间中的分类算法对映射到切空间的样本进行分类。在对切空间中的样本进行分类之前, 通过两种不同方法对切空间的样本进行降维, 以提高算法的效率和性能。至此, 将欧氏空间中基于单幅图片的分类算法(FDDL)与黎曼流形结合起来, 实现了图像集的分类任务, 并且在3个数据集上取得较好的效果。本文为了提高算法的效率和性能, 通过(2D)2PCA和NYSTRÖM METHOD两种方法获得切空间中样本的低维表示。接下来, 如何直接构建维度更低, 且具有判别性的SPD流形将是下一步的研究重点。
参考文献
-
[1] Cherian A, Sra S. Riemannian dictionary learning and sparse coding for positive definite matrices[J]. IEEE Transactions on Neural Networks and Learning Systems, 2017, 28(12): 2859–2871. [DOI:10.1109/TNNLS.2016.2601307]
-
[2] Kim T K, Kittler J, Cipolla R. Discriminative learning and recognition of image set classes using canonical correlations[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(6): 1005–1018. [DOI:10.1109/TPAMI.2007.1037]
-
[3] Wang R P, Shan S G, Chen X L, et al. Manifold-manifold distance with application to face recognition based on image set[C]//Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, AK, USA: IEEE, 2008: 1-8. [DOI:10.1109/CVPR.2008.4587719]
-
[4] Hu Y Q, Mian A S, Owens R. Sparse approximated nearest points for image set classification[C]//Proceedings of 2011 IEEE Conference on Computer Vision and Pattern Recognition. Colorado Springs, CO, USA: IEEE, 2011: 121-128. [DOI:10.1109/CVPR.2011.5995500]
-
[5] Wang R P, Guo H M, Davis L S, et al. Covariance discriminative learning: a natural and efficient approach to image set classification[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE, 2012: 2496-2503. [DOI:10.1109/CVPR.2012.6247965]
-
[6] Huang Z W, Wang R P, Shan S G, et al. Log-euclidean metric learning on symmetric positive definite manifold with application to image set classification[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille, France: ICML, 2015: 720-729.
-
[7] Faraki M, Harandi M T, Porikli F. Image set classification by symmetric positive semi-definite matrices[C]//Proceedings of 2016 IEEE Winter Conference on Applications of Computer Vision. Lake Placid, NY, USA: IEEE, 2016: 1-8. [DOI:10.1109/WACV.2016.7477621]
-
[8] Arandjelovic O, Shakhnarovich G, Fisher J, et al. Face recognition with image sets using manifold density divergence[C]//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA: IEEE, 2005: 581-588. [DOI:10.1109/CVPR.2005.151]
-
[9] Yamaguchi O, Fukui K, Maeda K I. Face recognition using temporal image sequence[C]//Proceedings of the 3rd IEEE International Conference on Automatic Face and Gesture Recognition. Nara, Japan: IEEE, 1998: 318-323. [DOI:10.1109/AFGR.1998.670968]
-
[10] Harandi M, Salzmann M, Hartley R. Dimensionality reduction on SPD manifolds:the emergence of geometry-aware methods[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(1): 48–62. [DOI:10.1109/TPAMI.2017.2655048]
-
[11] Harandi M T, Salzmann M, Hartley R. From manifold to manifold: geometry-aware dimensionality reduction for SPD matrices[C]//Proceedings of the 13th European Conference on Computer Vision. Cham: Springer, 2014: 17-32. [DOI:10.1007/978-3-319-10605-2_2]
-
[12] Ren J Y, Wu X J. Sparse coding for symmetric positive definite matrices with application to image set classification[C]//Proceedings of the 5th International Conference on Intelligence Science and Big Data Engineering. Image and Video Data Engineering. Cham: Springer, 2015: 637-646. [DOI:10.1007/978-3-319-23989-7_64]
-
[13] Yang M, Zhang L, Feng X C, et al. Sparse representation based fisher discrimination dictionary learning for image classification[J]. International Journal of Computer Vision, 2014, 109(3): 209–232. [DOI:10.1007/s11263-014-0722-8]
-
[14] Yang M, Zhang L, Feng X C, et al. Fisher discrimination dictionary learning for sparse representation[C]//Proceedings of 2011 IEEE International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011: 543-550. [DOI:10.1109/ICCV.2011.6126286]
-
[15] Faraki M, Harandi M T, Porikli F. Approximate infinite-dimensional region covariance descriptors for image classification[C]//Proceedings of the 2015 IEEE International Conference on Acoustics, Speech and Signal Processing. Brisbane, QLD, Australia: IEEE, 2015: 1364-1368. [DOI:10.1109/ICASSP.2015.7178193]
-
[16] Zhang D Q, Zhou Z H. (2D)2 2PCA:two-directional two-dimensional PCA for efficient face representation and recognition[J]. Neurocomputing, 2005, 69(1-3): 224–231. [DOI:10.1016/j.neucom.2005.06.004]
-
[17] Yang J, Zhang D, Frangi A F, et al. Two-dimensional PCA:a new approach to appearance-based face representation and recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 26(1): 131–137. [DOI:10.1109/TPAMI.2004.1261097]
-
[18] Pennec X, Fillard P, Ayache N. A Riemannian framework for tensor computing[J]. International Journal of Computer Vision, 2006, 66(1): 41–66. [DOI:10.1007/s11263-005-3222-z]
-
[19] Jayasumana S, Hartley R, Salzmann M, et al. Kernel methods on the Riemannian manifold of symmetric positive definite matrices[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition, 2013: 73-80. [DOI:10.1109/ICVPR.2013.17]
-
[20] Kylberg G, Uppström M, Sintorn I M. Virus texture analysis using local binary patterns and radial density profiles[C]//Iberoamerican Congress on Pattern Recognition. Springer, Berlin, Heidelberg, 2011: 573-580. [DOI:10.1007/978-3-642-25085-9_68]
-
[21] Huang Z W, Wang R P, Shan S G, et al. Projection metric learning on Grassmann manifold with application to video based face recognition[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 140-149. [DOI:10.1109/CVPR.2015.7298609]
-
[22] Hamm J, Lee D D. Grassmann discriminant analysis: a unifying view on subspace-based learning[C]//Proceedings of the 25th International Conference on Machine Learning. Helsinki, Finland: ACM, 2008: 376-383. [DOI:10.1145/1390156.1390204]