|
发布时间: 2019-08-16 |
图像分析和识别 |
|
|
收稿日期: 2018-12-18; 修回日期: 2019-03-07
基金项目: 国家自然科学基金项目(61432008, 61472423, U1636220)
第一作者简介:
唐永强, 1992年生, 男, 博士研究生, 主要研究方向为计算机视觉、数据挖掘、机器学习。E-mail:tangyongqiang2014@ia.ac.cn.
中图法分类号: TP391
文献标识码: A
文章编号: 1006-8961(2019)08-1338-11
|
摘要
目的
大数据环境下的多视角聚类是一个非常有价值且极具挑战性的问题。现有的适合大规模多视角数据聚类的方法虽然在一定程度上能够克服由于目标函数非凸性导致的局部最小值,但是缺乏对异常点鲁棒性的考虑,且在样本选择过程中忽略了视角多样性。针对以上问题,提出一种基于自步学习的鲁棒多样性多视角聚类模型(RD-MSPL)。方法
1)通过在目标函数中引入结构稀疏范数
关键词
多视角学习; 聚类; 自步学习; 鲁棒; 多样性
Abstract
Objective
In real-world applications, datasets naturally comprise multiple views. For instance, in computer vision, images can be described by different features, such as color, edge, and texture; a web page can be described by the words appearing on the web page itself and the hyperlinks pointing to them; and a person can be recognized by their face, fingerprint, iris, and signature. Clustering aims to explore meaningful patterns in an unsupervised manner. In the era of big data, with the rapid increase of multi-view data, obtaining better clustering performance than any single view by using complementary information from different views is a valuable and challenging task. Popular multi-view clustering methods can be roughly divided into two categories:spectral clustering based and nonnegative matrix factorization (NMF) based. Multi-view spectral clustering methods can have superior performance in nonlinear separate data partitioning. However, the high computational complexity due to the feature decomposition of Laplacian matrix limits their applications in large-scale data clustering. Conversely, the classical
Key words
multi-view learning; clustering; self-paced learning; robust; diversity
0 引言
多视角数据在实际应用中非常常见,在多视角数据中,一组数据对象由多个视角的数据实例组成。例如,在计算机视觉中,图像可以由颜色、边缘、纹理等特征表示;网页可以由页面文本或指向它们的链接表示;一个人可以通过面部、指纹、虹膜和签名等方式来识别[1-3]。在大数据时代,随着多视角数据量的增加,如何以无监督聚类的方式高效探索数据中不同视角间蕴含的有意义模式是一个非常有价值同时也极具挑战性的任务。
多视角聚类旨在同时分析多个视角数据实例的特性,其基本假设为不同视角中表示相同数据对象的数据实例属于相同的簇[4]。当前受到较多关注的多视角聚类方法主要包含基于谱聚类和基于非负矩阵分解两大类。谱聚类是一种从图论中演化出来的聚类方法,主要思想是将样本看做图的节点,样本之间的相似性看做图的边,通过求解构造的图的规范化最小割问题达到聚类目的[5]。目前多视角谱聚类已有广泛研究[6-9],其核心思想在于最小化不同视角之间的差异或寻找一致的相似度矩阵[4]。多视角谱聚类方法在非线性可分的数据上表现优异,然而谱聚类在对拉普拉斯矩阵做特征分解时计算复杂度高,限制了其在大规模数据聚类问题上的应用。
非负矩阵分解(NMF)的目标是将一个非负矩阵分解为两个低维的非负子矩阵。非负矩阵分解及其扩展算法已被证明与多种聚类算法等价,包括经典的
MSPL方法虽然能在一定程度上避免陷入局部最小值,但是缺乏对异常点鲁棒性考虑,且在样本选择过程中忽略了视角多样性。为了解决以上两个问题,本文提出一种基于自步学习的鲁棒多样性多视角自步学习模型(RD-MSPL),通过在目标函数中引入结构稀疏范数
1 多视角聚类相关方法
给定由维度为
$ \sum\limits_{i = 1}^k {\sum\limits_{x \in {\mathit{\boldsymbol{C}}_i}} {\left\| {\mathit{\boldsymbol{x}} - {\mathit{\boldsymbol{u}}_i}} \right\|_2^2} } $ | (1) |
式中,
为求解该问题,Ding等人[14]提出一种基于非负矩阵分解的求解思路,将式(1)改写为
$ \begin{array}{c}{\min\limits_{U, F}\|\boldsymbol{X}-\boldsymbol{U} \boldsymbol{F}\|_{2}^{2}} \\ {\text { s.t. } F_{i j} \in\{0, 1\}, \sum\limits_{i=1}^{k} F_{i j}=1} \\ {\forall j=1, 2, \cdots, n}\end{array} $ | (2) |
式中,
式(2)虽然为
$ \begin{array}{c}{\min\limits_{\boldsymbol{U}^{(v)}, \boldsymbol{F}} \sum\limits_{v=1}^{V}\left\|\boldsymbol{X}^{(v)}-\boldsymbol{U}^{(v)} \boldsymbol{F}\right\|_{2}^{2}} \\ {\text { s. t. } F_{i j} \in\{0, 1\}, \sum\limits_{i=1}^{k} F_{i j}=1, \forall j=1, 2, \cdots, n}\end{array} $ | (3) |
式中,
值得注意的是,单视角的式(2)和多视角的式(3)均是非凸优化问题,在优化过程中极易陷入局部最小值。为缓解这一问题,Xu等人[13]提出一种多视角自步学习聚类模型(MSPL),将自步学习范式引入式(3)中,在优化过程中通过逐步增加自步正则项的惩罚系数,将样本按照从简单到复杂的顺序加入到聚类过程中,其形式化为
$ \begin{array}{c}{\min\limits_{\boldsymbol{X}^{(v)}, \boldsymbol{F}, \boldsymbol{W}} \sum\limits_{v=1}^{V}\left\|\left(\boldsymbol{X}^{(v)}-\boldsymbol{U}^{(v)} \boldsymbol{F}\right) \operatorname{diag}\left(\sqrt{\boldsymbol{w}^{(r)}}\right)\right\|_{2}^{2}+f(\boldsymbol{W} ; \lambda)} \\ {\text { s.t. } F_{i j} \in\{0, 1\}, \sum\limits_{i=1}^{k} F_{i j}=1, \forall j=1, 2, \cdots, n} \\ {\boldsymbol{w}^{(v)} \in[0, 1]^{n}, \forall v \in[1, V]}\end{array} $ | (4) |
式中,
$f(\boldsymbol{W} ; \lambda)=-\lambda \sum\limits_{v=1}^{V} \sum\limits_{i=1}^{n} w_{i}^{(v)}$ | (5) |
在该正则项约束下,视角
$ w_{i}^{(v) *}=\left\{\begin{array}{ll}{1} & {l_{i}^{(v)} \leqslant \lambda} \\ {0} & {l_{i}^{(v)}>\lambda}\end{array}\right. $ | (6) |
式中,
2 本文方法
为了解决MSPL方法中存在的问题,本文提出了基于自步学习的鲁棒多样性多视角聚类模型,并针对该模型给出了高效的求解算法。
2.1 基于自步学习的鲁棒多样性多视角模型
MSPL方法虽然能在聚类过程中同时考虑不同样本和视角的差异,并取得优异的性能表现,但是存在以下两方面不足:1)由于
为克服异常点的非鲁棒问题,本文提出用
$f\left(\boldsymbol{W} ; \lambda_{1}, \lambda_{2}\right)=-\lambda_{1} \sum\limits_{v=1}^{V} \sum\limits_{i=1}^{n} w_{i}^{(v)}-\lambda_{2}\|\boldsymbol{W}\|_{2, 1}$ | (7) |
由于
综上所述,本文提出的基于自步学习的鲁棒多样性多视角聚类模型可形式化为
$ \begin{array}{c}{\min\limits_{\boldsymbol{U}^{(v)}, \boldsymbol{F}, \boldsymbol{W}} \sum\limits_{v=1}^{V}\left\|\left(\boldsymbol{X}^{(v)}-\boldsymbol{U}^{(v)} \boldsymbol{F}\right) \operatorname{diag}\left(\boldsymbol{w}^{(v)}\right)\right\|_{2, 1}+} \\ {f\left(\boldsymbol{W} ; \lambda_{1}, \lambda_{2}\right)} \\ {\text { s.t. } F_{i j} \in\{0, 1\}, \sum\limits_{i=1}^{k} F_{i j}=1, \forall j=1, 2, \cdots, n}\\ \boldsymbol{w}^{(v)} \in[0, 1]^{n}, \quad \forall v \in[1, V]\end{array} $ | (8) |
式中,自步正则项
2.2 模型求解
所提模型的求解难点在于
$ \begin{array}{c}{\min\limits_{\boldsymbol{U}^{(v)}, \boldsymbol{D}^{(v)}} \sum\limits_{v=1}^{V} \operatorname{tr}\left\{\left(\boldsymbol{X}^{(v)}-\boldsymbol{U}^{(v)} \boldsymbol{F}\right) \times\right.} \\ {\operatorname{diag}\left(\boldsymbol{w}^{(v)}\right) \boldsymbol{D}^{(v)}\left(\boldsymbol{X}^{(v)}-\boldsymbol{U}^{(v)} \boldsymbol{F}\right)^{\mathrm{T}} \}+f\left(\boldsymbol{W} ; \lambda_{1}, \lambda_{2}\right)}\end{array} $ | (9) |
式中,
$D_{i i}^{(v)}=\frac{1}{2\left\|\boldsymbol{e}_{i}^{(v)}\right\|_{2}}, \quad \forall i=1, 2, \cdots, n$ | (10) |
式中,
1) 固定
$\frac{\partial \boldsymbol{J}}{\partial \boldsymbol{U}^{(v)}}=-2 \boldsymbol{X}^{(v)} \widetilde{\boldsymbol{D}}^{(v)} \boldsymbol{F}^{\mathrm{T}}+2 \boldsymbol{U}^{(v)} \boldsymbol{F} \widetilde{\boldsymbol{D}}^{(v)} \boldsymbol{F}^{\mathrm{T}}$ | (11) |
式中,
$\boldsymbol{U}^{(v)}=\boldsymbol{X}^{(v)} \widetilde{\boldsymbol{D}}^{(v)} \boldsymbol{F}^{\mathrm{T}}\left(\boldsymbol{F} \widetilde{\boldsymbol{D}}^{(v)} \boldsymbol{F}^{\mathrm{T}}\right)^{-1}$ | (12) |
2) 固定
$ \begin{array}{c}{\min\limits_{\boldsymbol{F}} \sum\limits_{v=1}^{V} \operatorname{tr}\left\{\left(\boldsymbol{X}^{(v)}-\boldsymbol{U}^{(v)} \boldsymbol{F}\right) \widetilde{\boldsymbol{D}}^{(v)}\left(\boldsymbol{X}^{(v)}-\boldsymbol{U}^{(v)} \boldsymbol{F}\right)^{\mathrm{T}}\right\}=} \\ {\min\limits_{\boldsymbol{F}} \sum\limits_{v=1}^{V} \sum\limits_{i=1}^{n} \widetilde{\boldsymbol{D}}_{i i}^{(v)}\left\|\boldsymbol{x}_{i}^{(v)}-\boldsymbol{U}^{(v)} \boldsymbol{f}_{i}\right\|_{2}^{2}=} \\ {\min\limits_{\boldsymbol{F}} \sum\limits_{i=1}^{n}\left(\sum\limits_{v=1}^{V} \widetilde{\boldsymbol{D}}_{i i}^{(v)}\left\|\boldsymbol{x}_{i}^{(v)}-\boldsymbol{U}^{(v)} \boldsymbol{f}_{i}\right\|_{2}^{2}\right)}\end{array} $ | (13) |
为求解式(13),将其解耦为
$ \begin{array}{c}{\min\limits_{\boldsymbol{f}} \sum\limits_{v=1}^{V} \tilde{\boldsymbol{d}}^{(v)}\left\|\boldsymbol{x}^{(v)}-\boldsymbol{U}^{(v)} \boldsymbol{f}\right\|_{2}^{2}} \\ {\text { s.t. } f_{k} \in\{0, 1\}, \sum\limits_{k=1}^{K} f_{k}=1}\end{array} $ | (14) |
式中,
$\boldsymbol{f}^{*}=\underset{\boldsymbol{e}_{j}}{\arg \min } \sum\limits_{v=1}^{V} \widetilde{d}^{(v)}\left\|\boldsymbol{x}^{(v)}-\boldsymbol{U}^{(v)} \boldsymbol{e}_{j}\right\|_{2}^{2}$ | (15) |
3) 为求解W,固定
$ \begin{array}{c}{\min\limits_\boldsymbol{W} \sum\limits_{v=1}^{V}\left\|\left(\boldsymbol{X}^{(v)}-\boldsymbol{U}^{(v)} \boldsymbol{F}\right) \operatorname{diag}\left(\boldsymbol{w}^{(v)}\right)\right\|_{2, 1}+} \\ {f\left(\boldsymbol{W} ; \lambda_{1}, \lambda_{2}\right)=\min\limits_\boldsymbol{W} \sum\limits_{v=1}^{V} \sum\limits_{i=1}^{n} w_{i}^{(v)}\left\|\boldsymbol{x}_{i}^{(v)}-\boldsymbol{U}^{(v)} \boldsymbol{f}_{i}\right\|_{2}-} \\ {\lambda_{1}\|\boldsymbol{W}\|_{1}-\lambda_{2}\|\boldsymbol{W}\|_{2, 1}=\min\limits_\boldsymbol{W} \sum\limits_{v=1}^{V} \sum\limits_{i=1}^{n} w_{i}^{(v)} l_{i}^{(r)}-} \\ {\lambda_{1}\|\boldsymbol{W}\|_{1}-\lambda_{2}\|\boldsymbol{W}\|_{2, 1}}\end{array} $ | (16) |
受文献[15]求解方法的启发,将同一视角
$ w_{i}^{(v) *}=\left\{\begin{array}{l}{1} & {l_{i}^{(v)}<\lambda_{1}+} \\ {} & {\lambda_{2} \frac{1}{\sqrt{{rank}\left(l_{i}^{(v)}\right)}+\sqrt{{rank}\left(l_{i}^{(v)}\right)-1}}}\\ {0}&{其他} \end{array}\right. $ | (17) |
式中,
4) 固定
通过以上4步,迭代更新
输入:多视角特征
输出:聚类结果
初始化:随机初始化指示矩阵
迭代过程:
1) 根据式(12)更新聚类中心矩阵
2) 根据式(13)更新聚类指示矩阵
3) 根据式(16)(17)更新样本权值矩阵
4) 根据式(10)更新对角矩阵
5) 更新
6) 检查是否满足迭代停止条件:
在代码实现过程中,
3 实验与结果分析
本文所有方法在4.0 GHz CPU, 160 GB RAM和12 GB高速缓存TITANX GPU环境下运行,采用Linux操作系统,由MATLAB R2015b编程实现。
3.1 数据集描述
选择4个公开数据集验证本文所提算法的有效性,所选数据集的基本信息如表 1所示。
表 1
实验数据集
Table 1
Experimental datasets
数据集 | 样本 | 视角 | 类别 |
Extended Yale B | 640 | 3 | 10 |
Notting-Hill | 4 660 | 3 | 5 |
COIL-20 | 1 440 | 3 | 20 |
Scene15 | 4 485 | 3 | 15 |
4个数据集的组成如下:
1) Extended Yale B数据集[9]包含38个人在不同光照条件下的每人64幅正面人脸图像,本文使用前10个人共640个样本,提取光照强度(intensity)、LBP[17]和Gabor[18]3种特征。其中,LBP特征的采样尺度为8个像素,划分块数量为7×8;Gabor特征在
2) Notting-Hill数据集[19]来源于电影《诺丁山》,收集了5个角色在76个片段中的4 660幅人脸图像,大小为120×150像素,本文将其下采样至40×50像素,特征提取方式与Extended Yale B数据集一致。
3) COIL-20数据集[20]由从不同角度观测得到的包含20种通用对象的1 440幅图像组成,每个类别72个样本,本文将这些图像下采样至32×32像素,按照与Extende Yale B数据集相同方式提取特征。
4) Scene15数据集包含办公室、厨房、客厅、卧室等15种场景,每种场景包括210~410个样本。本文提取3类手工设计特征:视觉词袋金字塔直方图特征(PHOW)[21]、成对旋转不变共现局部二进制模式特征(PRI-CoLBP)[22]和CENTRIST特征[23],提取方式详见文献[21-23]。
3.2 对比方法
为验证本文方法的有效性,与6种最相关方法进行对比。
1) RMKMC[11]。鲁棒多视角
2) MSPL[13]。首次将自步学习引入多视角聚类,但是缺乏考虑模型鲁棒性及视角多样性,为本文重要的对比基准。
3)
4) Con-MC。将所有视角的特征简单拼接,在拼接后的特征上运行所提方法。
5) D-MSPL。不考虑所提方法鲁棒性,仅考虑视角多样性,即将式(8)中的
6) R-MSPL。不考虑所提方法视角多样性,仅考虑鲁棒性,即将式(7)自步正则项中
本文所提方法的自步学习参数
3.3 评价指标
本文选取ACC、NMI、AR、F-score、Precision和Recall等6种评价指标来全面客观地评价模型性能。
1) 指标ACC。假设聚类样本数为
$f_{\mathrm{ACC}}=\frac{\sum\limits_{i=1}^{N} \delta\left(t_{i}, {map}\left(r_{i}\right)\right)}{N}$ | (18) |
式中
$ \delta(a, b)=\left\{\begin{array}{ll}{1} & {a=b} \\ {0} & { 其他}\end{array}\right. $ | (19) |
映射函数
2) 指标NMI。归一化互信息(NMI)是一种衡量两个聚类之间共享信息量多少的信息理论度量,能够较为可靠地评价不平衡数据集聚类效果。假设
$ \begin{array}{c}{f_{\mathrm{NMI}}\left(\boldsymbol{C}, \boldsymbol{C}^{\prime}\right)=} \\ {\frac{\sum\limits_{i=1}^{K} \sum\limits_{j=1}^{S}\left|\boldsymbol{C}_{i} \cap \boldsymbol{C}_{j}^{\prime}\right| \lg \frac{N\left|\boldsymbol{C}_{i} \cap \boldsymbol{C}_{j}^{\prime}\right|}{|\boldsymbol{C}_{i}||\boldsymbol{C}_{j}^{\prime}|}}{\sqrt{\left(\sum\limits_{i=1}^{K}\left|\boldsymbol{C}_{i}\right| \lg \frac{\left|\boldsymbol{C}_{i}\right|}{N}\right)\left(\sum\limits_{j=1}^{S}\left|\boldsymbol{C}_{j}^{\prime}\right| \lg \frac{\left|\boldsymbol{C}_{j}^{\prime}\right|}{N}\right)}}}\end{array} $ | (20) |
3) 指标AR、F-score、Precision和Recall。将聚类视为一系列决策,这些决策的目标是将每个数据集包含的
对于以上6项指标,值越大表示模型性能越好。
3.4 实验结果
3.4.1 RD-MSPL与对比方法的性能比较
表 2—表 5是每个方法在4个数据集上的详细结果,从中可得出以下结论:
表 2
在Extended Yale B数据集上的聚类结果(均值±标准差)
Table 2
Clustering results (mean±standard deviation) on Extended Yale B dataset
算法 | NMI | ACC | AR | F-score | Precision | Recall |
RMKMC | 0.071±0.036 | 0.165±0.022 | 0.019±0.016 | 0.123±0.012 | 0.115±0.014 | 0.132±0.012 |
MSPL | 0.024±0.028 | 0.135±0.012 | 0.007±0.014 | 0.118±0.013 | 0.098±0.010 | 0.151±0.025 |
RD-SSPLbest | 0.128±0.043 | 0.192±0.030 | 0.037±0.017 | 0.155±0.017 | 0.125±0.012 | 0.210±0.046 |
Con-MC | 0.126±0.046 | 0.191±0.033 | 0.017±0.008 | 0.163±0.007 | 0.109±0.005 | 0.336±0.088 |
D-MSPL | 0.130±0.024 | 0.210±0.021 | 0.035±0.008 | 0.142±0.008 | 0.128±0.007 | 0.158±0.015 |
R-MSPL | 0.078±0.030 | 0.170±0.016 | 0.021±0.013 | 0.123±0.011 | 0.117±0.011 | 0.130±0.014 |
RD-MSPL | 0.135±0.028 | 0.214±0.026 | 0.038±0.010 | 0.146±0.010 | 0.129±0.008 | 0.170±0.024 |
注:加粗字体为最优值。 |
表 3
在Notting-Hill数据集上的聚类结果(均值±标准差)
Table 3
Clustering results (mean±standard deviation) on Notting-Hill dataset
算法 | NMI | ACC | AR | F-score | Precision | Recall |
RMKMC | 0.729±0.067 | 0.760±0.103 | 0.665±0.117 | 0.743±0.088 | 0.713±0.104 | 0.778±0.074 |
MSPL | 0.760±0.081 | 0.766±0.118 | 0.711±0.133 | 0.766±0.101 | 0.728±0.117 | 0.812±0.098 |
RD-SSPLbest | 0.692±0.055 | 0.752±0.085 | 0.648±0.100 | 0.727±0.077 | 0.708±0.077 | 0.749±0.081 |
Con-MC | 0.712±0.069 | 0.740±0.091 | 0.635±0.119 | 0.716±0.092 | 0.708±0.094 | 0.726±0.095 |
D-MSPL | 0.767±0.063 | 0.792±0.083 | 0.711±0.103 | 0.776±0.080 | 0.763±0.075 | 0.790±0.087 |
R-MSPL | 0.374±0.277 | 0.526±0.192 | 0.324±0.285 | 0.476±0.220 | 0.470±0.223 | 0.482±0.217 |
RD-MSPL | 0.787±0.066 | 0.808±0.093 | 0.738±0.109 | 0.796±0.085 | 0.779±0.082 | 0.813±0.090 |
注:加粗字体为最优值。 |
表 4
在COIL-20数据集上的聚类结果(均值±标准差)
Table 4
Clustering results (mean±standard deviation) on COIL-20 dataset
算法 | NMI | ACC | AR | F-score | Precision | Recall |
RMKMC | 0.754±0.022 | 0.587±0.057 | 0.525±0.051 | 0.544±0.047 | 0.489±0.064 | 0.644±0.028 |
MSPL | 0.741±0.031 | 0.549±0.061 | 0.497±0.058 | 0.528±0.053 | 0.436±0.069 | 0.679±0.025 |
RD-SSPLbest | 0.723±0.017 | 0.531±0.036 | 0.475±0.033 | 0.507±0.030 | 0.409±0.039 | 0.672±0.037 |
Con-MC | 0.744±0.030 | 0.556±0.052 | 0.479±0.065 | 0.512±0.058 | 0.403±0.069 | 0.720±0.043 |
D-MSPL | 0.759±0.017 | 0.594±0.048 | 0.520±0.045 | 0.547±0.041 | 0.477±0.055 | 0.645±0.027 |
R-MSPL | 0.668±0.210 | 0.545±0.178 | 0.470±0.219 | 0.500±0.204 | 0.457±0.201 | 0.558±0.200 |
RD-MSPL | 0.772±0.016 | 0.620±0.041 | 0.547±0.040 | 0.573±0.037 | 0.510±0.049 | 0.656±0.022 |
注:加粗字体为最优值。 |
表 5
在Scene 15数据集上的聚类结果(均值±标准差)
Table 5
Clustering results (mean±standard deviation) on Scene 15 dataset
算法 | NMI | ACC | AR | F-score | Precision | Recall |
RMKMC | 0.505±0.008 | 0.468±0.022 | 0.309±0.009 | 0.359±0.008 | 0.347±0.012 | 0.361±0.014 |
MSPL | 0.478±0.016 | 0.416±0.040 | 0.270±0.021 | 0.329±0.018 | 0.281±0.026 | 0.402±0.022 |
RD-SSPLbest | 0.471±0.010 | 0.449±0.027 | 0.305±0.017 | 0.331±0.015 | 0.329±0.018 | 0.364±0.014 |
Con-MC | 0.503±0.011 | 0.474±0.034 | 0.313±0.014 | 0.362±0.011 | 0.334±0.023 | 0.405±0.024 |
D-MSPL | 0.510±0.011 | 0.471±0.031 | 0.310±0.014 | 0.352±0.012 | 0.356±0.017 | 0.354±0.010 |
R-MSPL | 0.511±0.010 | 0.479±0.033 | 0.312±0.013 | 0.360±0.011 | 0.354±0.017 | 0.365±0.007 |
RD-MSPL | 0.514±0.007 | 0.481±0.018 | 0.316±0.008 | 0.364±0.007 | 0.360±0.009 | 0.368±0.009 |
注:加粗字体为最优值。 |
1) 提出的RD-MSPL算法总体优于最相关的两个多视角
2) RD-MSPL在4个数据集上的表现均优于其两个变体D-MSPL和R-MSPL,证实了对模型鲁棒性和视角多样性考虑的有效性。从4个数据集上的实验结果还可以看出,RD-MSPL对R-MSPL的性能提升(ACC分别提高3.6%、28.2%、7.5%、0.2%)总体高于对D-MSPL的提升(ACC分别提高0.4%、1.7%、2.6%、1%),说明相比于模型鲁棒性,视角多样性对所提模型的影响更为显著。
3) 在4个数据集上,提出的融合了多个视角信息的RD-MSPL的ACC指标均优于表现最优的单个视角RD-SSPLbest,分别提升了2.2%、5.6%、8.9%和3.2%,证明了所提方法在多视角信息融合方面的有效性。此外,RD-MSPL显著优于Con-MC,除个别数据集的极少指标外,ACC指标分别提升2.3%、6.8%、6.4%和0.7%。原因在于所提方法能够保持多视角数据结构,更有效地探索视角之间关联关系。
3.4.2 多视角特征的贡献
如图 1所示,虽然Extended Yale B、Notting-Hill和COIL-20均使用intensity、LBP、Gabor等3种特征,但是3种特征在不同数据集上的贡献存在显著差异。例如,在Extended Yale B数据集上,由于光照强度变化较大,因此相比于LBP和Gabor,光照强度特征intensity判别力更强,而在Notting-Hill和COIL-20数据集上,LBP特征的聚类表现更优。基于以上分析可以发现,不同数据集之间的特性差异很大,很难设计一种对所有数据集均适用的特征。为解决这一问题,很自然的一种想法是对多种特征做融合,其中最简单直观的融合方法是将多种特征做拼接。从图 1可以看出,虽然对特征简单拼接也能取得与仅使用该数据集单视角最优特征相似的效果,但是由于拼接后的特征维度过高且缺乏明确物理意义,限制了其性能的进一步提升。
不同于特征的简单拼接,所提出的RD-MSPL方法能够更为有效地利用多个视角之间的互补信息。为了更好地说明这一点,图 2给出在Notting-Hill数据集上所提方法分别在单视角和多视角条件下的混淆矩阵,从图 2可以看出,虽然LBP特征在所有3种特征中总体表现最优,但是易将第3类混淆为第5类;与此相反,Gabor特征虽然总体表现较差,但是能较好区分第3类。3种特征各有所长,而RD-MSPL能够有效获取3种特征的互补信息。
3.4.3 模型参数灵敏度分析
4 结论
针对大规模多视角数据聚类场景,提出一种基于自步学习的鲁棒多样性多视角聚类模型,并给出了高效求解算法。所提模型能有效克服异常点对聚类性能的影响,在聚类过程中逐步加入不同视角下的多样性样本,在避免局部最小值的同时,更好地获取了不同视角的互补信息。在4个广泛使用的公开数据集上的实验结果表明,所提模型能够更有效地探索视角之间关联关系,聚类性能优于现有的两个最相关多视角聚类方法,验证了所提模型考虑鲁棒性和样本多样性的有效性。下一步的研究工作主要包含两方面,一方面,由于本文方法基于线性流形假设,不适合非线性关系类型的数据,因此今后的研究工作目标是将现有方法与核方法结合使其应用范围更广;另一方面,本文方法中涉及到的两个自步学习参数在无监督情况下很难事先设定,下一步工作将设计一种自适应的策略来自动寻找最优参数值。
参考文献
-
[1] Xie Y, Tao D C, Zhang W S, et al. On unifying multi-view self-representation for clustering by tensor multi-rank minimization[J]. International Journal of Computer Vision, 2018, 126(11): 1157–1179. [DOI:10.1007/s11263-018-1086-2]
-
[2] Chao G Q, Sun S L, Bi J B. A survey on multi-view clustering[J]. arXiv: 1712.06246, 2017.
-
[3] Zhao Y W, Zhang E H, Lu J W, et al. Gait recognition via multiple features and views information fusion[J]. Journal of Image and Graphics, 2009, 14(3): 388–393. [赵永伟, 张二虎, 鲁继文, 等. 多特征和多视角信息融合的步态识别[J]. 中国图象图形学报, 2009, 14(3): 388–393. ] [DOI:10.11834/jig.20090302]
-
[4] Zong L L. Research on multi-view clustering[D]. Dalian: Dalian University of Technology, 2017. [宗林林.多视角聚类研究[D].大连: 大连理工大学, 2017.] http://cdmd.cnki.com.cn/Article/CDMD-10141-1017188571.htm
-
[5] Liu X P, Lu J T, Xie W J. Foot plant detection based on spectral clustering algorithm for motion capture data[J]. Journal of Image and Graphics, 2014, 19(9): 1306–1315. [刘晓平, 陆劲挺, 谢文军. 运动捕捉数据中足迹的谱聚类检测方法[J]. 中国图象图形学报, 2014, 19(9): 1306–1315. ] [DOI:10.11834/jig.20140907]
-
[6] Wang X B, Guo X J, Lei Z, et al. Exclusivity-consistency regularized multi-view subspace clustering[C]//Proceedings of the 30th IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 1-9.[DOI: 10.1109/CVPR.2017.8]
-
[7] Wang Y, Wu L, Lin X M, et al. Multiview spectral clustering via structured low-rank matrix factorization[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(10): 4833–4843. [DOI:10.1109/TNNLS.2017.2777489]
-
[8] Yin M, Gao J B, Xie S L, et al. Multiview subspace clustering via tensorial t-product representation[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019, 30(3): 851–864. [DOI:10.1109/TNNLS.2018.2851444]
-
[9] Zhang C Q, Fu H Z, Liu S, et al. Low-rank tensor constrained multiview subspace clustering[C]//Proceedings of the 15th IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 1582-1590.[DOI: 10.1109/ICCV.2015.185]
-
[10] Li T, Ding C. The relationships among various nonnegative matrix factorization methods for clustering[C]//Proceedings of the 6th IEEE International Conference on Data Mining. Hong Kong, China: IEEE, 2006: 362-371.[DOI: 10.1109/ICDM.2006.160]
-
[11] Cai X, Nie F P, Huang H. Multi-view K-means clustering on big data[C]//Proceedings of the 23rd International Joint Conference on Artificial Intelligence. Beijing: AAAI Press, 2013: 2598-2604.
-
[12] Xu J L, Han J W, Nie F P, et al. Re-weighted discriminatively embedded
$K$ -means for multi-view clustering[J]. IEEE Transactions on Image Processing, 2017, 26(6): 3016–3027. [DOI:10.1109/TIP.2017.2665976] -
[13] Xu C, Tao D C, Xu C. Multi-view self-paced learning for clustering[C]//Proceedings of the 24th International Conference on Artificial Intelligence. Buenos Aires, Argentina: AAAI Press, 2015: 3974-3980.
-
[14] Ding C, He X F, Simon H D. Nonnegative Lagrangian relaxation of K-means and spectral clustering[C]//Proceedings of the 16th European Conference on Machine Learning. Porto, Portugal: Springer, 2005: 530-538.[DOI: 10.1007/11564096_51]
-
[15] Jiang L, Meng D Y, Yu S I, et al. Self-paced learning with diversity[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal: MTI Press, 2014: 2078-2086.
-
[16] Zhang D W, Meng D Y, Han J W. Co-saliency detection via a self-paced multiple-instance learning framework[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(5): 865–878. [DOI:10.1109/TPAMI.2016.2567393]
-
[17] Ojala T, Pietikainen M, Maenpaa T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971–987. [DOI:10.1109/TPAMI.2002.1017623]
-
[18] Lades M, Vorbruggen J C, Buhmann J, et al. Distortion invariant object recognition in the dynamic link architecture[J]. IEEE Transactions on Computers, 1993, 42(3): 300–311. [DOI:10.1109/12.210173]
-
[19] Zhang Y F, Xu C S, Lu H Q, et al. Character identification in feature-length films using global face-name matching[J]. IEEE Transactions on Multimedia, 2009, 11(7): 1276–1288. [DOI:10.1109/TMM.2009.2030629]
-
[20] Cao X C, Zhang C Q, Fu H Z, et al. Diversity-induced multi-view subspace clustering[C]//Proceedings of the 28th IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 586-594.[DOI: 10.1109/CVPR.2015.7298657]
-
[21] Bosch A, Zisserman A, Munoz X. Image classification using random forests and ferns[C]//Proceedings of the 11th IEEE International Conference on Computer Vision. Rio de Janeiro, Brazil: IEEE, 2007: 1-8.[DOI: 10.1109/ICCV.2007.4409066]
-
[22] Qi X B, Xiao R, Li C G, et al. Pairwise rotation invariant co-occurrence local binary pattern[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(11): 2199–2213. [DOI:10.1109/TPAMI.2014.2316826]
-
[23] Wu J X, Rehg J M. CENTRIST:a visual descriptor for scene categorization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1489–1501. [DOI:10.1109/TPAMI.2010.224]
-
[24] Cai D, He X F, Han J W. Document clustering using locality preserving indexing[J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17(12): 1624–1637. [DOI:10.1109/TKDE.2005.198]
-
[25] Manning C D, Raghavan P, Schütze H. Introduction to Information Retrieval[M]. Cambridge: Cambridge University Press, 2008.