发布时间: 2016-08-25
摘要点击次数: 288
全文下载次数: 39
DOI: 10.11834/jig.20160806
2016 | Volumn 21 | Number 8

图像分析和识别

多核支持向量域描述在基于图像集合匹配的人脸识别中的应用

曾青松

广州番禺职业技术学院信息工程学院, 广州 511483

收稿日期: 2015-09-18; 修回日期: 2016-04-19

基金项目: 广东省自然科学基金项目(2015A030313807)

第一作者简介: 曾青松(1976—), 男, 副教授, 2014年于中山大学获通信与信息系统专业博士学位, 主要研究方向为模式识别与数据挖掘。E-mail:qingsongzeng@163.com

中图法分类号: TP309.2

文献标识码: A

文章编号: 1006-8961(2016)08-1021-07

摘要

目的图像集匹配是当前模式识别领域研究的一个热点，其核心问题是如何对图像集合建模并度量两个模型的相似性，为此提出一种基于支持向量域描述的人脸识别的方法。方法支持向量域描述是一种基于支持向量机学习的数据描述方法，可以用于图像集合建模，但是单一的核函数不能准确地描述具有多中心分布的数据。本文通过多核学习扩展了支持向量域描述，提高其对多中心分布数据的表达能力。进一步借助与位置相关的方法对样本动态加权，解决全局权重参数所带来的问题。结果在公开的基于集合的人脸识别数据库上进行测试，在Honda/UCSD、CMU MoBo和YouTube数据库上，本文方法的识别率分别达到100 %、98.72 %和62.34 %。结论实验结果表明，在光照条件受控制的监控环境中，本文方法是有效的，并取得了优于其他基于集合匹配的人脸识别算法。

关键词

集合匹配; 模式识别; 人脸识别; 支持向量域描述; 距离度量; 多核学习

Multi-kernel support vector domain description and its application in facial recognition based on image set matching

Zeng Qingsong

School of Information and Technology, Guangzhou Panyu Polytechnic, Guangzhou 511483, China

Supported by: Natural Science Foundation of Guangdong Province, China(2015A030313807)

Abstract

Objective Image set matching has attracted increasing attention in the field of pattern recognition. For set-based image matching, the key issues can be categorized on the basis of the processes of representing the image set and measuring the similarity between two sets. Method Support vector domain description (SVDD) is a recently developed method based on support vector machine learning. SVDD is a boundary one-class learning method that maximizes the availability of samples that do not belong to the target class in refining its decision boundary, and can be used to describe a set of objects. Accordingly, each image set is described with a hypersphere, and the problem of image set matching is converted into the measure of the distance between two hyperspheres. Using support vector machine learning, each image set from the original input space is mapped into a high-dimensional feature space and modeled with support vector domain to handle the underlying non-linearity in the data space. In the feature space, a hypersphere encloses most of the mapped data. Thereafter, a novel metric is proposed based on domain-domain distance in a high-dimensional feature space; the distance between two image sets is then converted into the distance between pair-wise domains. However, the SVDD model has a disadvantageously simple form with only a single kernel information. Selecting the best kernel parameters is difficult and the constructed hypersphere is considerably sensitive to the trade-off parameter. Multiple kernel learning methods apply multiple kernels instead of merely one specific kernel function and its corresponding parameters. Recent developments in composition kernel learning for classification motivated us to apply a position-based weighting instead of the same global trade-off parameter to discriminate the importance of samples. Furthermore, considering the SVDD model 's disadvantageously simple form with only one kernel and the difficulty of selecting the best kernel parameters, we propose a multi-kernel SVDD model, which can flexibly describe the data distribution boundary in the feature space after analyzing the space of multi-kernel mapping. This study utilizes the nearest neighbor classifier to obtain the class label. Result This study 's experimental settings reach 100 %, 98.72 %, and 62.34 % recognition rate in the public Honda/UCSD, CMU MoBo, and YouTube video database, respectively. Conclusion Given that multi-kernel learning can improve the efficiency of kernel selection and automatically evaluate the relative importance of the candidate kernels, the multi-kernel SVDD model flexibly describes the data distribution boundary in the feature space and provides a considerably accurate data description for the multifaceted context of the multi-model data set. Experiments conducted on public data sets demonstrate that the multi-kernel SVDD improves prediction accuracy and assists in characterizing the properties of complex data.

Key words

set matching; pattern recognition; face recognition; support vector domain description; distance measure; multiple kernel learning

0 引言

人脸识别经过近40年的发展，涌现出很多的识别算法，依据用于识别的图像数量不同可分为基于单幅图像和基于集合的识别两类。基于单幅图像的人脸识别技术已经非常成熟。监控环境中，人们容易获取更多的视频图像，但是图像分辨率、清晰度等都不是很满意。利用多帧图像能够提供更多的信息，通过信息互补能够弥补单帧图像信息丢失的缺陷，这一特征促进了基于多图像的人脸识别技术^[1]的发展，但是实际应用中，由于光照等因素的影响，识别任务仍然具有挑战性。

通常输入的图像集构成线性子空间、仿射包或者流形^[2]，因而可以直接用这些技术建模图像集合，并通过分析样本数据和模型结构来实现模型之间的相似性度量。互子空间^[3]方法将图像集投影到低维线性子空间，通过计算图像序列生成的子空间之间的主角度量两个集合的相似性。仿射包方法^[4]使用图像集构成的两个仿射包中距离最近的两个点之间的几何距离来度量相似性。格拉斯曼流形上的图嵌入鉴别分析方法^[5]，将集合匹配问题嵌入到图嵌入鉴别分析框架^[6-7]，取得很好的识别效果。Wang等人^[8]扩展了子空间距离，将两个流形之间的距离转换为计算成对的局部模型之间距离计算问题。

基于图像集合匹配的人脸识别技术的关键是如何提取基于集合的特征表达和计算两个集合之间的相似性。本文使用支持向量域描述(SVDD)技术对数据集合进行建模。SVDD是最近发展起来的基于支持向量学习的数据描述方法，但是经典的SVDD使用单一的核函数对数据集合进行描述^[9]，这导致很难对多中心的数据进行准确的表达。在经典的SVDD中一般使用高斯核^[10]，但是很难选择核参数。为了解决这些问题，通过多核学习^[11-12]扩展了SVDD，提高SVDD对多中心数据集合的表达能力，进一步利用位置相关的权重对特征空间中样本动态加权^[13]，解决全局单一的平衡参数的缺陷。

1 多核支持向量域描述

设X=[x₁, x₂, …, x_N]表示含有N个样本的矩阵，每一列表示一幅图像，式中，x_i∈R^D表示第i幅图像的向量化表示，D是空间的维数。

1.1 支持向量域描述

支持向量域描述通过一个非线性映射函数Φ将样本投影到高维特征空间，并寻找一个能够围住大部分样本的最小闭球来表示整个图像集合。这个过程可以用最小化以下模型来表达，即

$F\left({R, \mu, {\xi _i}} \right)={R^2} + C\sum\limits_{i=1}^N {{\xi _i}} $

(1)

满足条件||Φ(x_i)－μ²||≤R²+ξ_i，ξ_i≥0，||·||表示欧氏距离，μ、R分别表示球心和半径，松弛变量ξ_i≥0，平衡参数C控制对噪声点的惩罚。引入拉格朗日函数，

$\begin{array}{l} L\left({R, \mu, {\xi _i}, {\beta _i}, {\alpha _i}} \right)={R^2} + C\sum\limits_{i=1}^N {{\xi _i}}-\sum\limits_{i=1}^N {{\alpha _i}{\xi _i}}-\\ \; \;\; \;\; \sum\limits_{i=1}^N {{\beta _i}\left({{R^2} + {\xi _i}-{{\left| {\phi \left({{x_i}} \right)-\mu } \right|}^2}} \right)} \end{array}$

(2)

式中，{β_i}_i=1^N是拉格朗日乘子。L对R, μ和ξ_i求偏导，并令其为0，得到$\sum\limits_{i=1}^N {{\beta _i}}=1$, $\mu=\sum\limits_{i=1}^N {{\beta _i}\boldsymbol{\phi} } \left({{x_i}} \right)$和α_i=C-β_i，代入式(2)中消去参数α_i，得到问题式(1)的对偶表达，即

$\mathop {\max }\limits_{{\beta _i}} \left\{ {\sum\limits_{i=1}^N {{\beta _i}K\left({{x_i}, {x_i}} \right)-} \sum\limits_{i, j=1}^N {{\beta _i}{\beta _j}K\left({{x_i}, {x_j}} \right)} } \right\}$

(3)

满足约束条件$\sum\limits_{i=1}^N {{\beta _i}}=1$，0≤β_i≤C，内积〈(Φ(x_i), Φ(x_j)〉由相应的高斯核K(x_i, x_j)=exp(－q||x_i－x_j||²)代替，q是高斯核宽度参数。

根据拉格朗日乘子β_i的大小可以将输入空间的样本分为3类:1)内点，β_i=0，表示球的内部的点；2)支持向量，0 < β_i < C，表示球面上的点；3)边界支持向量，β_i=C，特征空间中球外部的点。特别的，如果C≥1，因为关系$\sum\limits_{i=1}^N {{\beta _i}}=1$=1，所以不存在任何外点，因此参数C控制着外点的数量。

1.2 多核支持向量域描述

式(1)描述的SVDD模型严重依赖于权衡参数C。参数C决定了超球体的大小，从而影响超球体表面样本的分布。在核空间，如果样本点离样本集合中心的距离越远，则成为离群点的可能性就越大，在原始输入空间，该样本与其他样本越远，即该样本越孤立，因此可以赋予一个与位置相关的权重来描述孤立程度。基于上述分析，Wang^[13]通过对不同位置的样本赋予不同权来代替目标函数中的参数C，进一步提高了数据域的描述能力。

多核学习(MKL)使用多个核代替单一核函数以及相应的核参数能够提高核函数自动选择能力。本文应用多核学习的方法扩展SVDD，增强SVDD对多中心分布的数据域的描述能力。考虑含有N个样本，每个样本有V(V>1)个视图的数据集合$\boldsymbol{X}=\left\{ {{x_i}} \right\}_{i=1}^N$, ${x_i} = \left\{ {x_i^{\left( v \right)}} \right\}_{v = 1}^V,x_i^{\left( v \right)} \in {{\bf{R}}^{d\left( v \right)}}$。假设样本被隐式地射到特征空间并用V个核矩阵$\left\{ {{K^{\left(v \right)}}} \right\}_{v=1}^V$来表示，相应地非线性映射函数和特征空间分别为$\left\{ {{\phi ^{\left(v \right)}}} \right\}_{v=1}^V$和$\left\{ {{\boldsymbol{H}^{\left(v \right)}}} \right\}_{v=1}^V$。为了充分利用多个视图的信息，考虑凸组合$\tilde K=\sum\limits_{v=1}^V {{d_v}{K^{\left(v \right)}}} $，d_v≥0表示视图的权重，满足约束$\sum\limits_{v=1}^V {{d_v}}=1$。很容易验证${\tilde K}$仍然是一个核矩阵，即满足正定对称性。

多核SVDD可以表达为

$\left\{ \begin{array}{l} \mathop {\min }\limits_{R, \mu, {\xi _i}, {d_v}} \left\{ {{R^2} + \sum\limits_{i=1}^N {{w_i}{\xi _i}} } \right\}\\ {\rm{s}}{\rm{.t}}.\; \;\; \;\; \;{\left\| {\tilde \phi \left({{x_i}} \right)-\mu } \right\|^2} \le {R^2} + {\xi _i}\\ {\xi _i} \ge 0, \;\; \forall i\\ \sum\limits_{v=1}^V {{d_v}=1, {d_v} \ge 0} \end{array} \right.$

(4)

式中，μ、R分别是超球的半径和球心，松弛变量ξ_i≥0，d_v≥0是视图的权重，满足条件$\sum\limits_{v=1}^V {{d_v}}=1$，$ \tilde \phi \left(x \right)={\left[{\sqrt {{d_1}} {\phi ^{\left(1 \right)}}\left(x \right), \sqrt {{d_2}} {\phi ^{\left(2 \right)}}\left(x \right), \cdots, \sqrt {{d_v}} {\phi ^{\left(v \right)}}\left(x \right)} \right]^{\rm{T}}}$为非线性映射函数。权重参数w_i的选择将在实验部分详细介绍。

为求解式(4)中的问题，可以使用文献[14]中提出的用于解决多核SVM问题的方法，本文借鉴该思路解决多核支持向量域问题。首先假设权重向量d已知，求解式(4)描述的最优化问题；然后使用固定的β_i参数，使用梯度下降法更新权重向量d。为了计算多核支持向量域描述，建立模型

$\mathop {\min }\limits_d J\left(\boldsymbol{d} \right)$

(5)

权重向量d=[d₁, d₂, …, d_v]^T满足目标函数

$J\left(\boldsymbol{d} \right)=\left\{ \begin{array}{l} \mathop {\min }\limits_{R, \mu, {\xi _i}} \left\{ {{R^2} + \sum\limits_{i=1}^N {{w_i}{\xi _i}} } \right\}\\ {\rm{s}}{\rm{.t}}.\; \;\; \;\; \;{\left\| {\tilde \phi \left({{x_i}} \right)-\mu } \right\|^2} \le {R^2} + {\xi _i}\\ {\xi _i} \ge 0, \;\; \forall i \end{array} \right.$

(6)

类似于经典SVDD的计算，应用拉格朗日定理，得到问题式(6)的对偶表达，即

$\begin{array}{l} \mathop {\max }\limits_{{\beta _i}} \left\{ {\sum\limits_{i=1}^N {{\beta _i}} \sum\limits_{v=1}^V {{d_v}{K^{\left(v \right)}}\left({{x_i}, {x_i}} \right)}-} \right.\\ \; \;\; \left. {\sum\limits_{i, j=1}^N {{\beta _i}{\beta _j}} \sum\limits_{v=1}^V {{d_v}{K^{\left(v \right)}}\left({{x_i}, {x_j}} \right)} } \right\} \end{array}$

(7)

对于给定的权重向量d，J(d)退化为标准的SVDD问题的目标函数，可以通过任何的经典SVDD方法来求解，相应的核为$\tilde K\left({{x_i}, {x_j}} \right)=\sum\limits_{v=1}^V {{d_v}{K^{\left(v \right)}}\left({{x_i}, {x_j}} \right)} $。为了计算J对d的偏导数，记J(d)是方程式(6)的最优解, J(d)可以当成一个隐函数，然后给定d，由于强对偶性，J(d)也是该目标函数的对偶问题的目标函数值。可以得到

$\begin{array}{l} J\left(d \right)=-\sum\limits_{i, j=1}^N {\beta _i^*\beta _j^*} \sum\limits_{v=1}^V {{d_v}{K^{\left(v \right)}}} \left({{x_i}, {x_j}} \right) + \\ \; \;\; \;\; \;\; \;\; \;\; \;\sum\limits_{i=1}^N {\beta _i^*} \sum\limits_{v=1}^V {{d_v}{K^{\left(v \right)}}\left({{x_i}, {x_i}} \right)} \end{array}$

(8)

式中，β^*是方程式(7)的最优解。J(d)对d_v求偏导，得到

$\begin{array}{l} \frac{{\partial J}}{{\partial {d_v}}}=-\sum\limits_{i, j=1}^N {\beta _i^*\beta _j^*{K^{\left(v \right)}}} \left({{x_i}, {x_j}} \right) + \\ \; \;\; \;\; \;\; \;\; \;\; \sum\limits_{i=1}^N {\beta _i^*{K^{\left(v \right)}}} \left({{x_i}, {x_i}} \right) \end{array}$

(9)

这是一个带线性约束的非线性最优化问题，可以通过投影梯度方法求解。当J的梯度更新，d也跟着被更新。这一步可以通过降低梯度然后投影到梯度方向，满足d是非负的约束。具体更新策略如下：

${\boldsymbol{d}^{\left({t + 1} \right)}} \leftarrow {\boldsymbol{d}^{\left(t \right)}} + {\gamma _t}{\boldsymbol{D}_t}$

(10)

式中，D_t是梯度下降方向向量。步长γ_t的大小可以通过一个线性搜索来确定。多核支持向量域描述方法的主要步骤如下：

初始化：$d_v^{\left(1 \right)}=\frac{1}{V}, v=1, 2, \cdots, V, t \leftarrow 1$。

1)通过核函数为$\tilde K=\sum\limits_{v=1}^V {d_v^{\left(t \right)}{K^{\left(v \right)}}} $的标准SVDD算法计算J(d)；

2)计算$\frac{{\partial J}}{{\partial {d_v}}}$；

3)计算梯度下降方向D_t和最优的步长γ_t；

4)更新权重向量: ${d^{\left({t + 1} \right)}} \leftarrow {d^{\left(t \right)}} + {\gamma _t}{D_t}, t \leftarrow t + 1$；

如果终止条件满足，则结束，否则返回步骤1)。

2 图像集合的建模

设SV和BSV分别表示支持向量和边界向量的集合，图像集合可以表达为D(μ, R, f (x))={ SV, BSV, μ, f(x)}。式中, 核半径函数f(x)定义为样本到超球中心的高斯核半径距离的平方f(x)=||Φ(x)-μ||²。半径R表示所有支持向量到球心距离的最大值。设数据域D(μ, R, f(x))和$\boldsymbol{\bar D}\left({\bar \mu, \bar R, \bar f\left(x \right)} \right)$分别表示图像集合X=[x₁, x₂, …, x_N]和$\boldsymbol{\bar X}=\left[{{{\bar x}_1}, {{\bar x}_2}, \cdots, {{\bar x}_{\bar N}}} \right]$的支持向量域描述。数据域D和${\boldsymbol{\bar{D}}}$之间的距离定义为球心距离$\left\| {\mu-\bar \mu } \right\|$与两个的半径之和$R + \bar R$的比值：$d\left({\boldsymbol{D}, \boldsymbol{\bar {D}}} \right)=\frac{{\left\| {\mu-\bar \mu } \right\|}}{{R + \bar R}}$。

$\begin{array}{l} f\left(x \right)={\left\| {\tilde \phi \left(x \right)-\mu } \right\|^2}={\left\| {\left. {\tilde \phi \left(x \right)-\sum\limits_{j=1}^N {{\beta _j}\phi \left({{x_j}} \right)} } \right|} \right.^2}=\\ \; \sum\limits_{v=1}^V {{K^{\left(v \right)}}\left({x, x} \right)-2\sum\limits_{j=1}^N {{\beta _j}} \sum\limits_{v=1}^V {{d_v}{K^{\left(v \right)}}} \left({x, {x_j}} \right)} + \\ \; \;\; \;\; \;\sum\limits_{i, j=1}^N {{\beta _i}{\beta _j}} \sum\limits_{v=1}^V {{d_v}{K^{\left(v \right)}}\left({{x_i}, {x_j}} \right)} \end{array}$

(11)

核空间中，球心向量μ的长度、两个超球球心之间的距离$\left\| {\mu-\bar \mu } \right\|$为

$\begin{array}{l} {\left\| \mu \right\|^2}={\left\| {\sum\limits_{i=1}^N {{\beta _i}\tilde \phi } \left({{x_i}} \right)} \right\|^2}=\sum\limits_{i, j=1}^N {{\beta _i}{\beta _j}} \left\langle {\tilde \phi \left({{x_i}} \right), \tilde \phi \left({{x_j}} \right)} \right\rangle=\\ \; \;\; \;\; \;\; \;\; \sum\limits_{i, j=1}^N {{\beta _i}{\beta _j}} \sum\limits_{v=1}^V {{d_v}{K^{\left(v \right)}}} \left({{x_i}, {x_j}} \right) \end{array}$

(12)

$\begin{array}{l} {\left\| {\mu-\bar \mu } \right\|^2}={\left\| {\sum\limits_{i=1}^V {{\beta _i}\tilde \phi \left({{x_i}} \right)}-\sum\limits_{j=1}^{\bar N} {{{\bar \beta }_i}\tilde \phi \left({{{\bar x}_j}} \right)} } \right\|^2}=\\ \sum\limits_{i, j=1}^N {{\beta _i}{\beta _j}} \sum\limits_{v=1}^V {{d_v}{K^{\left(v \right)}}} \left({{x_i}, {x_j}} \right) + \sum\limits_{i, j=1}^{\bar N} {{{\bar \beta }_i}{{\bar \beta }_j}} \sum\limits_{v=1}^V {{{\bar d}_v}{K^{\left(v \right)}}} \left({{{\bar x}_i}, {{\bar x}_j}} \right)-\\ \; \;\; {\rm{2}}\sum\limits_{i=1}^N {\sum\limits_{j=1}^{\bar N} {{{\bar \beta }_i}{{\bar \beta }_j}} } \sum\limits_{v=1}^V {\sqrt {{d_v}{{\bar d}_v}} } {K^{\left(v \right)}}\left({{x_i}, {{\bar x}_j}} \right)=\\ {\left\| \mu \right\|^2} + {\left\| {\bar \mu } \right\|^2}-2\sum\limits_{i=1}^N {\sum\limits_{j=1}^{\bar N} {{{\bar \beta }_i}{{\bar \beta }_j}} } \sum\limits_{v=1}^V {\sqrt {{d_v}{{\bar d}_v}} } {K^{\left(v \right)}}\left({{x_i}, {{\bar x}_j}} \right) \end{array}$

(13)

式中，$\left({{x_i}, {\beta _i}, \cdots } \right) \in \boldsymbol{SV} \cup \boldsymbol{BSV}, \left({{{\bar x}_j}, {{\bar \beta }_j}, \cdots } \right) \in \boldsymbol{\overline {SV}} \cup \boldsymbol{\overline {BSV}} $。

具体应用时，数据库中的第i个图像集合首先通过数据域描述表示为数据域模型D_i，测试阶段，先计算查询图像集合的数据域描述模型Q，然后通过公式${\hat n}$=arg $\mathop {\min }\limits_n $ d(Q, D_n)确定查询集合的类标。

3 实验设置与结果分析

实验环境：Intel(R) Xeon(R) E7-4807双1.87 GHZ CPU(2×6核)、64 GB内存、Windows Server 2008。

3.1 数据库

ETH80数据库包含8类对象(苹果、小汽车、牛、杯子、狗、马、梨和西红柿)，每个类别包含10个对象。每个个体包含不同视角下的41幅图像，主要用于物体分类。每一个体所有41幅图像当成一个图像集合，每类物体有10个图像集合，整个数据库共80个集合。

Honda/UCSD数据库是业界用于做人脸识别跟踪或者识别的标准视频数据库，共包含19个人的59段视频。该数据库包含人的不同姿态、表情变化。整个数据库的视频在室内录制，质量比较高，每个视频包含300 500帧，并且被分割成多个视频片段，每个片段包含大约60帧。本文采用Viola等人提出的^[15]静态人脸检测算子对每一个静态帧进行人脸检测。

CMU MoBo数据库最初收集的目的是为了研究远距离人的身份识别问题。每一个人包含4种不同的走路方式(慢走、快走、斜身走、带球走)，这些视频是在固定位置摄像机拍摄的。本文使用它的一个子集，包含96个视频序列，24种不同的主题(在跑步机上行走，每一个人包含4段视频)，每一个序列包含大约300帧。

YouTube数据库视频文件全部来自于YouTube网站，用于视频人脸跟踪与识别任务。整个库包含47个人的1 910段视频，每个人的视频片段分为3个小节，每一个小节对应不同的采集时间与场景，每个小节包含至少3段视频，大部分的视频都超过100帧。这个数据库包含大范围的姿态、光照和表情变化，本文使用文献[16]给出的对象跟踪算法，提取相应的人脸图像。

3.2 比较的方法和设置

比较6种基于集合的图像匹配方法：互子空间方法(MSM)^[3]、流形—流形距离(MMD)^[8]、格拉斯曼流形鉴别分析(GDA)^[17]、格拉斯曼流形上图嵌入鉴别分析(GGDA)^[5]、图像集稀疏最近邻逼近(SANP)^[4]和协方差学习(CDL)^[18]。实验基于原文公开代码，采用文献[8]的实验设置方法：检测到的人脸图像经过直方图均衡化处理之外无任何其他处理。Honda/UCSD和YouTube数据库使用灰度特征，CMU MoBo数据库使用LBP(local binary pattern)特征。各种算法的参数根据经验调节为最佳识别率状态。特别的，MSM/MMD使用PCA保留95 %的能量。MMD算法欧氏距离和测地距离比设置为2.0，使用最大典型相关，近邻参数设置为12。SANP方法使用文献[4]的权重参数解决最优化问题，使用PCA保持95 %的能量。GDA算法采用投影核，GGDA^[5]算法参考原文作者的代码实现进行了修改，实现了最简单的二分图结构，并使用最大典型相关计算核函数，邻域参数k设置为2。

本文方法中，为计算式(16)中的权重参数，首先计算核距离矩阵D=[D_l|l=1, …, N]。

$\begin{array}{l} {D_l}={\left\| {\tilde \phi \left({{x_l}} \right)-\frac{1}{N}\sum\limits_{j=1}^N {\tilde \phi \left({{x_j}} \right)} } \right\|^2}=\\ \; \;\tilde K\left({{x_l}, {x_l}} \right) + \frac{1}{{{N^2}}}\sum\limits_{i, j=1}^N {\tilde K} \left({{x_i}, {x_j}} \right)-\\ \; \;\; \;\; \;\; \;\; \;\; \;\; \frac{2}{N}\sum\limits_{j=1}^N {\tilde K} \left({{x_l}, {x_j}} \right) \end{array}$

(14)

然后定义权重

$\begin{array}{l} {{\tilde w}_i}=\mathop {\max }\limits_{l=1, \cdots, N} \left\{ {{D_l}} \right\}-{D_i}\\ \; \;\; {w_i}=\frac{{{{\tilde w}_i}}}{{\mathop {\max }\limits_{l=1, \cdots, N} {{\tilde w}_l}}} \end{array}$

(15)

给定一个含有M个图像集合的数据集{X_i}_i=1^M，式中，X_i=[x_{i, 1}, x_{i, 2}, …, x_{i, N_i}]表示第i个图像集合。一般地我们使用高斯核，那么目标是找到一个最优的核，其核参数σ²∈(σ_min², σ_max²)，$\sigma _{\min }^2=\arg \; \mathop {\min }\limits_m \; \mathop {\min }\limits_{i, j, i \ne j} \left\| {{x_{m, i}}-{x_{m, j}}} \right\|_2^2$, $ \sigma _{\min }^2=\arg \; \mathop {\min }\limits_m \; \mathop {\min }\limits_{i, j} \left\| {{x_{m, i}}-{x_{m, j}}} \right\|_2^2$，但是很难得到这个参数。为了避免选择最优的参数，在σ_min²与σ_max²之间通过随机采样的方法得到一组核参数，然后利用多核学习的方法学习这一组核的不同权重来平衡各个核的重要性。

3.3 实验结果与分析

表 1列出了ETH80数据库中8种对象SVDD模型的超球半径R和球心模长平方||μ²||的值。虽然不能得到球心的具体坐标，但是可以计算两个超球球心之间的距离。

表 1 ETH80数据库上各对象的参数值
Table 1 Parameter value of each object on ETH80 database

下载CSV

参数	苹果	小汽车	牛	杯子	狗	马	梨	西红柿
R	0.663	0.636	0.634	0.584	0.634	0.634	0.618	0.650
${\left\\| \mu \right\\|^2}$	0.440	0.405	0.402	0.341	0.402	0.402	0.382	0.442

我们发现不同的超球拥有不同的半径和球心模长平方。尽管对象牛、狗和马的半径R以及中心模长平方非常接近，但是最终的距离不同，例如：(牛, 狗)=0.139，(牛, 马)=0.137，(狗, 马)=0.153。因此本文定义的距离可以用于度量两个超球之间的相似性。本文设计的距离还存在一些问题，由于牛、狗和马的超球半径R和球心模长平方几乎接近，所以不能很好地识别为马，1只狗被识别为马，2匹马被识别为狗，但是其他的对象都能完全正确地识别。

如表 2所示，在Honda/UCSD数据库上，本文方法取得了最好结果，达到了100 %的识别率。在CMU MoBo、YouTube数据库上，本文提出的多核SVDD取得了最好的识别结果。数据库是从真实的网络视频中截取的片段，该数据库的视频质量比较差，带有一定的噪声污染，可以看成是多中心分布的数据源。本文改进的方法能够很好地描述样本分布的边界，它能够更加准确地描述复杂分布的数据。此外SVDD的去噪声的特征能够有效地克服噪声的干扰。从表 2的实验结果分析，在YouTube数据库上，所有算法在这个数据库上取得的结果都比较差，但是本文提出的多核方法取得的结果相对好于其他的算法。

表 2 数据库上5次随机实验的平均识别率(RR)、方差(STD)和平均计算时间
Table 2 Average recognition rate, standard value and average computing time of five random experiments

下载CSV

方法	Honda/UCSD		CMU MoBo		YouTube
方法	RR/%(STD)	时间/s	RR/%(STD)	时间/s	RR/%(STD)	时间/s
MSM^[3]	88.21(2.90)	1.08	97.14(1.12)	4.98	53.40(0.48)	1.71
MMD^[8]	86.16(4.66)	14.27	94.69(2.74)	181.56	55.96(0.95)	34.97
GDA^[17]	91.80(1.15)	2.02	96.73(1.12)	41.09	55.96(1.61)	4.49
GGDA^[5]	90.26(3.34)	8.37	95.51(0.91)	242.75	49.15(3.48)	78.54
SANP^[4]	96.92(2.15)	5 248	96.73(1.12)	2 576	64.47(1.21)	5 662
CDL^[18]	95.90(2.29)	21.32	95.51(0.91)	21 095	48.09(3.32)	77.59
本文	100.0(0.0)	3.02	98.72(1.83)	28.96	62.34(1.61)	5.25

从实验的结果分析，改进的方法能够高效地解决集合匹配问题，同时发现SANP和CDL两种方法在性能上明显比其他的算法要差，这可能由于仿射子空间方法复杂的最优化过程和基于样本的匹配策略导致其性能的下降。

4 结论

图像集匹配是模式识别领域研究的热点问题之一。虽然现在有若干较有效的图像集匹配方法，但是由于多视角、多光照变化等复杂环境所导致的多局部模型分布下的无监督图像集匹配问题仍然是一个具有挑战性的问题。支持向量域描述不仅对一类数据具有很好的描述能力，而且SVDD算法在例外点检测和降噪方面表现非常优秀。前期利用支持向量域对数据集合进行建模，从多局部模型的角度解决多中心数据分布的问题^[10]，但是支持向量域描述使用单一的核函数对数据集合进行描述，单一的核函数很难准确地对多中心的数据进行准确的表达，而且很难选择核参数和处理SVDD中的平衡参数。为了解决这些问题，本文从多核学习的角度，扩展了SVDD，提高SVDD对多中心数据集合的表达能力，并借助位置正则的方法，对特征空间中样本动态加权，有效地解决全局单一平衡参数所带来的问题。

在求解多核学习的问题过程中，本文通过对目标函数的梯度下降方法寻找多核学习的权，但针对具体问题, 对核参数的选取、多核权系数的设定目前还没有形成一个合理统一的模式，常用的方法只能凭借经验、实验对比、大范围的搜索或通过交叉验证等进行寻优^[12]。后续将通过局部多核学习进一步提高学习算法对多中心数据的描述能力。

参考文献

[1] Yan Y, Zhang Y J. State-of-the-art on video-based face recognition[J].Chinese Journal of Computers,2009,32(5): 878–886. [ 严严, 章毓晋. 基于视频的人脸识别研究进展[J].计算机学报,2009,32(5): 878–886.] [DOI:10.3724/SP.J.1018.2009.00878]

[2] Zeng Q S. Locality preserving projection on Riemannian manifold for image set matching[J].Journal of Image and Graphics,2014,19(3): 414–420. [ 曾青松. 黎曼流形上的保局投影在图像集匹配中的应用[J].中国图象图形学报,2014,19(3): 414–420.] [DOI:10.11834/jig.20140311]

[3] Yamaguchi O, Fukui K, Maeda K I. Face recognition using temporal image sequence[C]//Proceedings of the 3rd IEEE International Conference on Automatic Face and Gesture Recognition. Nara, Japan: IEEE, 1998: 318-323. [DOI: 10.1109/AFGR.1998.670968]

[4] Hu Y Q, Mian A S, Owens R. Face recognition using sparse approximated nearest points between image sets[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(10): 1992–2004. [DOI:10.1109/TPAMI.2011.283]

[5] Harandi M T, Sanderson C, Shirazi S, et al. Graph embedding discriminant analysis on Grassmannian manifolds for improved image set matching[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE, 2011: 2705-2712. [DOI: 10.1109/CVPR.2011.5995564]

[6] Lu G F, Lin Z, Jin Z. Optimal discriminant analysis based on kernel extension of graph embedding and face recognition[J].Journal of Software,2011,22(7): 1561–1570. [ 卢桂馥, 林忠, 金忠. 基于核化图嵌入的最佳鉴别分析与人脸识别[J].软件学报,2011,22(7): 1561–1570.] [DOI:10.3724/SP.J.1001.2011.03843]

[7] Yan S C, Xu D, Zhang B Y, et al. Graph embedding and extensions: a general framework for dimensionality reduction[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(1): 40–51. [DOI:10.1109/TPAMI.2007.250598]

[8] Wang R P, Shan S G, Chen X L, et al. Manifold-manifold distance with application to face recognition based on image set[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, Alaska, USA: IEEE, 2008: 1-8. [DOI: 10.1109/CVPR.2008.4587719]

[9] Zeng Q S. Image set matching based on support vector domain description[J].Pattern Recognition and Artificial Intelligence,2014,27(8): 735–740. [ 曾青松. 基于支持向量域描述的图像集匹配[J].模式识别与人工智能,2014,27(8): 735–740.] [DOI:10.3969/j.issn.1003-6059.2014.08.008]

[10] Zeng Q S, Lai J H, Wang C D. Multi-local model image set matching based on domain description[J].Pattern Recognition,2014,47(2): 694–704. [DOI:10.1016/j.patcog.2013.08.025]

[11] Gönen M, Alpaydın E. Multiple kernel learning algorithms[J].The Journal of Machine Learning Research,2011,12: 2211–2268.

[12] Wang H Q, Sun F C, Cai Y N, et al. On multiple kernel learning methods[J].ACTA Automatica Sinica,2010,36(8): 1037–1050. [ 汪洪桥, 孙富春, 蔡艳宁, 等. 多核学习方法[J].自动化学报,2010,36(8): 1037–1050.] [DOI:10.3724/SP.J.1004.2010.01037]

[13] Wang C D, Lai J H. Position regularized support vector domain description[J].Pattern Recognition,2013,46(3): 875–884. [DOI:10.1016/j.patcog.2012.09.018]

[14] Rakotomamonjy A, Bach F, Canu S, et al. More efficiency in multiple kernel learning[C]//Proceedings of the 24th International Conference on Machine Learning. Corvallis, Oregon, USA: ACM, 2007: 775-782. [DOI: 10.1145/1273496.1273594]

[15] Viola P, Jones M J. Robust real-time face detection[J].International Journal of Computer Vision,2004,57(2): 137–154. [DOI:10.1023/B:VISI.0000013087.49260.fb]

[16] Ross D A, Lim J, Yang M H. Adaptive probabilistic visual tracking with incremental subspace update[C]//Proceedings of the 8th European Conference on Computer Vision. Berlin Heidelberg: Springer, 2004: 470-482. [DOI: 10.1007/978-3-540-24671-8_37]

[17] Hamm J, Lee D D. Grassmann discriminant analysis: a unifying view on subspace-based learning[C]//Proceedings of the 25th International Conference on Machine Learning. Helsinki, Finland: ACM, 2008: 376-383. [DOI: 10.1145/1390156.1390204]

[18] Wang R P, Guo H M, Davis L S, et al. Covariance discriminative learning: a natural and efficient approach to image set classification[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE, 2012: 2496-2503. [DOI: 10.1109/CVPR.2012.6247965]