Print

发布时间: 2017-04-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.20170407
2017 | Volume 22 | Number 4




    图像处理和编码    




  <<上一篇 




  下一篇>> 





整合全局—局部度量学习的人体目标再识别
expand article info 张晶, 赵旭
上海交通大学自动化系, 系统控制与信息处理教育部重点实验室, 上海 200240

摘要

目的 人体目标再识别的任务是匹配不同摄像机在不同时间、地点拍摄的人体目标。受光照条件、背景、遮挡、视角和姿态等因素影响,不同摄相机下的同一目标表观差异较大。目前研究主要集中在特征表示和度量学习两方面。很多度量学习方法在人体目标再识别问题上了取得了较好的效果,但对于多样化的数据集,单一的全局度量很难适应差异化的特征。对此,有研究者提出了局部度量学习,但这些方法通常需要求解复杂的凸优化问题,计算繁琐。 方法 利用局部度量学习思想,结合近几年提出的XQDA(cross-view quadratic discriminant analysis)和MLAPG(metric learning by accelerated proximal gradient)等全局度量学习方法,提出了一种整合全局和局部度量学习框架。利用高斯混合模型对训练样本进行聚类,在每个聚类内分别进行局部度量学习;同时在全部训练样本集上进行全局度量学习。对于测试样本,根据样本在高斯混合模型各个成分下的后验概率将局部和全局度量矩阵加权结合,作为衡量相似性的依据。特别地,对于MLAPG算法,利用样本在各个高斯成分下的后验概率,改进目标损失函数中不同样本的损失权重,进一步提高该方法的性能。 结果 在VIPeR、PRID 450S和QMUL GRID数据集上的实验结果验证了提出的整合全局—局部度量学习方法的有效性。相比于XQDA和MLAPG等全局方法,在VIPeR数据集上的匹配准确率提高2.0%左右,在其他数据集上的性能也有不同程度的提高。另外,利用不同的特征表示对提出的方法进行实验验证,相比于全局方法,匹配准确率提高1.3%~3.4%左右。 结论 有效地整合了全局和局部度量学习方法,既能对多种全局度量学习算法的性能做出改进,又能避免局部度量学习算法复杂的计算过程。实验结果表明,对于使用不同的特征表示,提出的整合全局—局部度量学习框架均可对全局度量学习方法做出改进。

关键词

人体目标再识别; 度量学习; 局部度量学习; 整合全局—局部度量学习; 高斯混合模型

Global-local metric learning for person re-identification
expand article info Zhang Jing, Zhao Xu
Department of Automation, Shanghai Jiao Tong University, Key Laboratory of System Control and Information Processing, Ministry of Education, Shanghai 200240, China
Supported by: National Natural Science Foundation of China (61273285, 61673269, 61375019)

Abstract

Objective The task in person re-identification is to match snapshots of people from non-overlapping camera views at different times and places. Intra-class images from different cameras show varying appearances due to variations in illumination, background, occlusion, viewpoint, and pose. Feature representation and metric learning are two major research directions in person re-identification. On the one hand, some studies focus on feature descriptors, which are discriminative for different classes and robust against intra-class variations. On the other hand, numerous metric learning algorithms have achieved good performance in person re-identification. The comparison of all the samples with a single global metric is inappropriate for handling heterogeneous data. Several researchers have proposed local metric learning. However, these methods generally require complicated computations to solve convex optimization problems. Method To improve the performance of metric learning algorithms and avoid complex computation, this study applies the concept of local metric learning and combines global metric learning algorithms, such as cross-view quadratic discriminant analysis (XQDA) and metric learning by accelerated proximal gradient (MLAPG). In the training stage, all the samples are softly partitioned into several clusters using the Gaussian mixture model (GMM). Local metrics are learned on each cluster using metric learning methods, such as XQDA and MLAPG. Meanwhile, a global metric is also learned for the entire training set. In the testing stage, the posterior probabilities of the testing samples that are aligned to each GMM component are computed. For each pair of samples, the local metrics weighted by their posterior probabilities of GMM components and the global metric weighted by a cross-validated parameter are integrated into the final metric for similarity evaluation. In this manner, we use different metrics to measure various pairs of samples, which is more suitable for heterogeneous data sets. In particular, we also propose an effective local metric learning strategy for MLAPG by modifying the weights of the loss values of the sample pairs in the loss function with the posterior probabilities of the samples aligned to each GMM component. Result We conduct experiments on three challenging data sets of person re-identification (i.e., VIPeR, PRID 450S, and QMUL GRID). Experimental results show that the proposed approach achieves better performance compared with traditional global metric learning methods. It performs significantly better on the VIPeR data set, providing more complex variations of backgrounds and clothes than on the other data sets, thereby improving matching accuracy by approximately 2.0%. In addition, we also conduct experiments on different types of feature representations for person re-identification to verify the generalized effectiveness of the proposed method. The matching accuracy is improved by approximately 1.3% to 3.4% with different feature descriptors. This result shows that the proposed approach can improve performance regardless of which feature descriptor is used. Conclusion We propose a novel framework for integrating global and local metric learning methods by taking advantages of both metric learning approaches. Numerous recent global metric learning approaches can be integrated into the proposed framework to obtain improved performance in the person re-identification problem. Compared with certain local metric learning approaches, the proposed framework integrates global metric learning methods flexibly and effectively. It doesn't require complicated computation unlike other local metric learning approaches. Moreover, the proposed metric learning framework can be applied to many feature representation approaches.

Key words

person re-identification; metric learning; local metric learning; integrated global-local metric learning; Gaussian mixture model

0 引言

人体目标再识别是智能视频监控领域的重要问题,其任务是匹配无重叠视域的多个摄像机下的人体目标。由于光照条件、背景、遮挡、视角、姿态等变化因素,同一目标在不同摄像机视角下会呈现不同的外观。针对这些难点问题,研究者提出了不同的解决方法。

目前的研究主要集中在特征表示[1-4]和度量学习[2, 5-9]两方面。特征表示通常需要计算样本的局部颜色和纹理特征,有效的特征表示既对目标有很强的区分力,又对光照和视角等变化具有鲁棒性,如显著特征匹配[1]、局部最大出现频次 (LOMO) 特征[2]、利用特征融合网络 (FFN) 提取的增强深度特征[3]和层级高斯 (GOG) 特征[4]等方法。

度量学习的目标是学习适应于样本特征的度量,保证类内样本相似度高,类间样本相似度低。KISSME[6]是一种简单直接的度量学习方法,它用高斯模型分别拟合类内和类间样本差值的分布,利用两个高斯分布的对数似然比推导出马氏距离。Liao等人[2]在此基础上提出了交叉视角的二次判别分析 (XQDA) 方法,对样本的低维特征子空间和度量矩阵同时进行学习。加速近端梯度度量学习 (MLAPG) 方法[5]将度量矩阵约束为半正定矩阵,以最小化对数损失函数为目标,用加速近端梯度法求解优化问题。上述方法均属于全局度量学习,其思想是用训练得到的单一度量衡量数据集内的全部样本特征,对于多样化的数据集,全局方法存在一定局限性。

局部度量学习可以适应数据集的局部特性,对不同样本进行比较时,强调样本特征间的局部差异。局部对齐的特征交叉视角变换方法[9]根据交叉视角变换的相似性划分图像集,在每个子集上学习局部分类器。大间隔局部度量学习 (LMLML) 方法[10]通过高斯混合模型划分训练集,以最小化损失函数为目标,通过求解凸优化问题计算一系列的局部度量矩阵,当特征维度较高,局部度量矩阵参数数目增多时,问题的求解过程较为复杂。

图 1以VIPeR数据集[11]中的样本为例,展示了全局度量学习和局部度量学习方法的比较,图中每个方框内同一列的两个样本来源于不同相机拍摄的同一目标。全局度量从整个训练集上学习得到,可适应数据集的整体特性,相比于通用的欧氏距离可大幅度提高匹配准确率。但由于背景和衣着颜色等变化,人体目标再识别数据集中的样本通常具有多样性,用单一度量去衡量全部样本,可能会忽略相似样本间的局部差异。局部度量学习首先根据样本相似性,将样本划分为多个训练子集,如图 1所示,具有相似背景或衣着的样本被划分在同一子集,然后在各个局部训练集上对相似样本间细微的局部差异进行学习。

图 1 全局度量学习和局部度量学习比较
Fig. 1 Comparison of global and local metric learning

根据上述方法的特点,本文利用局部度量学习思想,结合近几年提出的XQDA[2]和MLAPG[5]等简单有效的全局方法,提出了一种新的整合全局和局部度量学习算法。在训练阶段,利用高斯混合模型 (GMM) 对训练样本进行聚类,对每个聚类内的样本分别进行度量学习,得到一系列局部度量矩阵;同时在整个训练集上学习全局度量。测试阶段,将局部度量和全局度量加权结合,用于衡量样本间的相似性。局部度量的权重根据样本在高斯混合模型各成分下的后验概率计算得到,全局度量的权重通过交叉验证确定。

本文提出了一种整合全局和局部度量学习方法的框架,利用该框架可对很多现有的全局方法进行改进。在VIPeR、PRID 450S和QMUL GRID等多个人体目标再识别数据集上的实验结果验证了本文方法的有效性。此外,本文还利用不同的特征表示进行实验,证明了提出的方法对不同的特征表示具有泛化能力,可广泛应用于对现有方法的改进。

1 度量学习

相比于欧氏距离和L1范数等通用的距离表示,度量学习可以适应样本的特征,即使在特征描述子区分力不够的情况下,通过度量学习依然可以得到较高的匹配准确率。本节对近几年提出的几种全局和局部度量学习方法作简要介绍。

1.1 全局度量学习

马氏距离是度量学习中常用的距离表示,对样本$ \boldsymbol{x}_i $$ \boldsymbol{x}_j $,马氏距离表示为$ {({\mathit{\boldsymbol{x}}_i}-{\mathit{\boldsymbol{x}}_j})^{\rm{T}}}\mathit{\boldsymbol{M}}({\mathit{\boldsymbol{x}}_i}-{\mathit{\boldsymbol{x}}_j}) $,其中M称为度量矩阵。XQDA[2]和MLAPG[5]是人体目标再识别问题中有效的全局度量学习方法,本文以这两种方法为例,将全局方法整合到所提出的全局—局部度量学习框架内。

1.1.1 XQDA

交叉视角的二次判别分析法 (XQDA)[2]是在保持直接简单原则的度量 (KISSME)[6]和贝叶斯人脸方法[12]基础上提出的。该方法用高斯模型分别拟合类内和类间样本特征的差值分布。根据两个高斯分布的对数似然比推导出马氏距离。对样本$ \boldsymbol{x}_i $$ \boldsymbol{x}_j$,XQDA推导得到的马氏距离表示为

$ d\left( {{\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j}} \right) = {\left( {{\mathit{\boldsymbol{x}}_i}-{\mathit{\boldsymbol{x}}_j}} \right)^{\rm{T}}}\left( {\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_{_I}^{^{-1}}-\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_{_E}^{^{ - 1}}} \right)({\mathit{\boldsymbol{x}}_i} - {\mathit{\boldsymbol{x}}_j}) $ (1)

式中,ΣIΣE分别是类内和类间样本差值分布的协方差矩阵。XQDA方法将特征子空间学习和度量学习同时进行,对特征降维的同时,考虑到维数降低对度量学习结果的影响。对原始特征$ {\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j} \in {{\bf{R}}^d} $,XQDA通过学习映射矩阵$ \mathit{\boldsymbol{W}} \in {{\bf{R}}^{d \times r}}(r < d) $,将原始特征映射到低维子空间。因此,式 (1) 中的距离函数定义转化为

$ {d_W}({\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j}) = {({\mathit{\boldsymbol{x}}_i}-{\mathit{\boldsymbol{x}}_j})^{\rm{T}}}\cdot\mathit{\boldsymbol{W}}\left( {\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_{_I}^{^{\prime-1}}-\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_{_E}^{^{\prime - 1}}} \right){\mathit{\boldsymbol{W}}^{\rm{T}}}({\mathit{\boldsymbol{x}}_i} - {\mathit{\boldsymbol{x}}_j}) $ (2)

式中,$ \mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_{_I}^{^\prime } = {\mathit{\boldsymbol{W}}^{\rm{T}}}{\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_I}\mathit{\boldsymbol{W}} $$\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_{_E}^{^\prime } = {\mathit{\boldsymbol{W}}^{\rm{T}}}{\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_E}\mathit{\boldsymbol{W}} $。求解时,对矩阵$ \mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_{_I}^{^{-1}}{\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_E} $进行特征值分解,矩阵W由前$ r $个最大特征值对应的特征向量构成。

1.1.2 MLAPG

MLAPG方法[5]以最小化对数逻辑损失函数为目标,通过加速近端梯度法[13]求解约束问题。优化目标为所有训练样本的损失函数

$ F\left( \mathit{\boldsymbol{M}} \right) = \sum\limits_{i = 1}^n {\sum\limits_{j = 1}^m {{w_{i, j}}} } {f_M}({\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j}) $ (3)

式中,${f_M}({\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j}) $是定义的样本对 ($ \boldsymbol{x}_i $, $ \boldsymbol{x}_j $) 的对数逻辑损失值,${w_{ij}} $用来平衡类内和类间样本损失值的权重,由类内和类间样本总对数N+N-确定,如果$ \boldsymbol{x}_i$$ \boldsymbol{x}_j $来自同一类别,${w_{ij}} $=1/N+;否则${w_{ij}} $=1/N-。优化问题表示为

$ {\rm{min}}\;F\left( \mathit{\boldsymbol{M}} \right)\;\;{\rm{s}}{\rm{.t}}.\mathit{\boldsymbol{M}} \succ = 0 $ (4)

式中,$ \mathit{\boldsymbol{M}} \succ = 0 $表示M是半正定矩阵。用加速近端梯度法[13]求解式 (4),该方法计算速度快,并在人体目标再识别问题上取得了不错的效果。

1.2 局部度量学习

对于样本特征复杂多样的数据集,局部度量学习方法[8-10, 14-16]更加灵活,在计算不同样本间的相似性时采用不同的度量,以适应相似样本间的局部差异。

大间隔的局部度量学习 (LMLML) 方法[10]通过求解最大化间隔的凸优化问题得到一系列局部度量矩阵,在计算两个样本间的相似性时,根据样本的“软”划分,将各个局部度量加权结合。LMLML在手写数字识别、人脸验证、文本分类等数据集上取得了很好的效果。但该方法需要求解复杂的凸优化问题,优化参数数目与样本特征维数正相关,当样本特征维度较高时,参数增多,求解过程复杂。由于人体目标再识别问题的特征维度通常很高,LMLML方法不适合直接应用。

局部对齐特征交叉视角变换方法[9]根据图像样本的交叉视角变换的相似性划分训练集,具有相似变换的样本被映射到同一特征空间。非线性局部度量学习 (NLML) 方法[8]利用神经网络学习多个非线性局部度量,并将局部度量和全局度量结合。实例特定度量 (ISD) 方法[14]对每一个训练样本学习不同的分类器,通过度量传播来实现每个分类器的训练。

本文利用局部度量学习思想,结合人体目标再识别问题上常用的全局度量学习方法,提出了整合全局—局部度量学习框架。很多现有的全局方法都可以被应用到该框架内,由于增加了对相似样本间的局部差异的学习,本文提出的框架可以在现有的全局学习方法基础上进一步提高匹配准确率。

2 特征表示

特征表示是人体目标再识别问题的另一个主要研究方向,很多研究者提出了一些区分度高、鲁棒性强的特征,如局部最大出现频次 (LOMO) 特征[2]、层级高斯 (GOG) 特征[4]和特征融合网络 (FFN) 提取的增强深度特征[3]等。本文利用这些不同的特征对提出的方法进行实验验证。

LOMO特征[2]对光照、亮度、视角等变化具有鲁棒性。该特征首先应用多尺度的Retinex变换[17]对图像预处理,以克服光照变化引起的颜色扭曲;然后在图像上滑窗提取特征,在每个滑窗内计算颜色和纹理直方图,直方图的每一维表示了某种特征的出现频次;对同一个水平条内的滑窗,取每一维特征的最大值作为这一水平条的特征,这样保证了特征对视角变化的鲁棒性;上述特征计算过程在3个尺度进行,保证了特征的尺度不变性。最终特征维度为26 960维。

GOG特征[4]是基于像素特征层级分布的一种区域描述子。首先图像被划分为一些较大的区域,每一个区域由一些更小的区块组成;在每个区块内提取像素特征,包括位置坐标、梯度、颜色等;用高斯分布拟合区块内的像素特征作为区块的特征表示;再用另一个高斯分布拟合较大区域内的所有区块的特征作为区域的特征描述子。

Wu等人[3]提出的特征融合网络有效结合了人工设计特征和卷积神经网络 (CNN)[18]特征。将改进的局部特征集 (ELF16) 描述子[19]和CNN特征联合映射到统一空间。通过反向传播算法,CNN网络参数将会受到人工设计特征的影响。

3 全局—局部度量整合学习

文本提出了一个整合全局—局部度量学习框架,既保留了全局度量学习方法计算简便的优势,同时由于结合了局部度量学习思想,在训练过程中更关注相似样本间细微的局部差异,在匹配准确率方面对全局方法做出有效改进。

3.1 整体模型

图 2图 3分别展示了本文方法的训练和测试流程。训练阶段,用包含K个成分的高斯混合模型对训练样本进行聚类,对同一聚类的样本分别单独进行度量学习,得到一系列的局部度量矩阵$ {\mathit{\boldsymbol{M}}_k}(k = 1, 2, \cdots, K) $;同时用训练集的全部样本训练全局度量矩阵M0

图 2 整合全局—局部度量学习训练流程
Fig. 2 training procedure of integrated global-local metric learning approach
图 3 整合全局—局部度量学习测试流程
Fig. 3 testing procedure of integrated global-local metric learning approach

测试阶段,将训练得到的全局和局部度量矩阵加权结合用于样本间相似性的计算。局部度量矩阵$ {\mathit{\boldsymbol{M}}_k} $的权重根据测试样本在高斯混合模型第$ k $个成分下的后验概率计算得到,全局度量矩阵M0的权重通过交叉验证方法确定,由此得到整合全局和局部度量的矩阵M0。接下来详细介绍本文方法的局部度量训练过程和整合全局—局部度量的测试策略。

3.2 局部度量训练

高斯混合模型由多个单高斯成分构成,可用来拟合复杂的样本分布。该方法用于聚类时,可根据样本属于某个高斯成分的后验概率大小,得到样本属于某个聚类的概率,这样的聚类方式是对训练集的“软”划分。

在训练阶段,用包含K个成分的高斯混合模型拟合训练集内全部样本的特征分布,根据样本特征在各个成分下的最大后验概率划分局部训练集。接下来,使用传统的全局度量学习方法,对每个局部训练集内的样本单独进行度量学习,得到一系列的局部度量矩阵$ {\mathit{\boldsymbol{M}}_k}(k = 1, 2, \cdots, K) $

由于不同相机下的同一目标表观差异较大,在高斯混合模型下,同一目标的图像可能属于不同聚类。为降低局部度量学习的过拟合风险,我们希望每个局部训练集的样本数目充足。因此,如果样本 ($ \boldsymbol{x}_j $, $ \boldsymbol{y}_i $) 属于第$k $个聚类,其中$ \boldsymbol{x}_j $表示样本特征,$ \boldsymbol{y}_j $表示样本类别,对于样本 ($ \boldsymbol{x}_j $, $ \boldsymbol{y}_j $),若$ \boldsymbol{y}_i $=$ \boldsymbol{y}_j $,无论$ \boldsymbol{x}_j $$ \boldsymbol{x}_i $是否在同一聚类,都将进入到聚类$ k $对应的局部训练集,各个局部训练子集之间存在样本重叠。如图 4所示,样本$ \boldsymbol{x}_i $$ \boldsymbol{x}_j $表示同一目标,根据样本在高斯混合模型各成分后验概率的最大值,$ \boldsymbol{x}_j $被划分到局部子集1,$ \boldsymbol{x}_i $被划分到局部子集3。在这种情况下,进行局部度量训练时,样本$ x_i $$ x_j $将同时被划分到局部训练子集1和3中分别进行局部度量学习。

图 4 同一类别的样本被划分到不同聚类
Fig. 4 Samples with the same label are partitioned into different clusters

为了保证样本在各高斯成分上的后验概率平滑,聚类用的特征维度不宜过高[10],因此在聚类前使用主成分分析 (PCA) 法[20]进行特征降维。由于这一步只是初步聚类,对特征的区分力要求不高,特征维度降低对最终结果不会有负面影响。另外,计算高斯混合模型参数时,由于特征维度较高,各个高斯成分的协方差矩阵包含大量的未知参数,在训练样本数目有限的前提下,参数过多会产生较大误差,对此实验中可将各个高斯成分的协方差矩阵约束为对角矩阵[21]

3.3 整合全局—局部度量

全局度量学习中的马氏度量表示为

$ {d^2}({\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j}, \mathit{\boldsymbol{M}}) = {({\mathit{\boldsymbol{x}}_i}-{\mathit{\boldsymbol{x}}_j})^{\rm{T}}}\mathit{\boldsymbol{M}}({\mathit{\boldsymbol{x}}_i}-{\mathit{\boldsymbol{x}}_j}) $ (5)

本文用整合全局和局部度量的函数$ \mathcal{M}({\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j}) $代替度量矩阵M,即

$ \mathcal{M}({\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j}) = {w_0}{\mathit{\boldsymbol{M}}_0} + \sum\limits_{k = 1}^K {{w_k}} ({\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j}){\mathit{\boldsymbol{M}}_k} $ (6)

式中,M0是全局度量矩阵,$ {\mathit{\boldsymbol{M}}_k}(k = 1, 2, \cdots, K) $是在每个局部训练集上学习得到的局部度量矩阵,权重$ {w_k}(k = 1, 2, \cdots, K) $定义为

$ {w_k}\left( {{\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j}} \right) = p\left( {k|{\mathit{\boldsymbol{x}}_i}} \right) + p(k|{\mathit{\boldsymbol{x}}_j}) $ (7)

式中,$ p(k|{\mathit{\boldsymbol{x}}}_i) $表示样本$\boldsymbol{x}_i $由高斯混合模型的第$ k $个高斯成分生成的概率。

$ {w_k}({\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j}) $作为局部度量矩阵在整合度量中的权重,样本$ \boldsymbol{x}_i $$ \boldsymbol{x}_j $属于第$ k $个高斯成分的概率越大,对应的局部度量矩阵$ \boldsymbol{M}_k $在整合度量的计算中发挥的作用越大。在人体目标再识别数据集上,利用高斯混合模型将背景和衣着相似的目标划分在同一局部训练集,对每个局部训练集单独进行度量学习,可以更好地区分这些较相似的目标。M0是从所有训练样本学习得到的全局度量矩阵,$ {w_0} $用于平衡全局度量M0和局部度量$ \boldsymbol{M}_k $对整合度量的影响。特别地,当$ {w_0}=0 $=0时,整合度量中不包含全局度量矩阵M0,这时称为纯局部度量学习。理论上,高斯成分数K越大,模型对相似样本间细微差别的学习能力越强,但容易在训练数据集上过拟合。当K=0或$ w_0 $→∞时,整合度量矩阵$ \mathcal{M}({\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j}) $和全局度量矩阵M0一致。

3.4 局部MLAPG

1.1.2节介绍了MLAPG算法的原理,该方法使用了非对称权重策略,类内和类间样本在损失函数中使用不同的权重。在式 (3) 中,${w_{ij}} $是样本对 ($ \boldsymbol{x}_i $, $ \boldsymbol{x}_j $) 的损失值权重。因此,我们可以考虑通过修改权重${w_{ij}} $来实现基于MLAPG方法的局部度量学习,该方法被称为局部MLAPG。

为了在第$ k $个局部训练子集上学习局部度量$ {\mathit{\boldsymbol{M}}_k} $,我们用$ w_{_{ij}}^{^k} $代替式 (3) 中的${w_{ij}} $$w_{_{ij}}^{^k} $定义为

$ w_{_{ij}}^{^k} = {w_{ij}}(p(k|{\mathit{\boldsymbol{x}}_i}) + p(k|{\mathit{\boldsymbol{x}}_j})) $ (8)

式中,$ p(k|{\mathit{\boldsymbol{x}}_i}) $表示样本$x_i $由高斯混合模型第$ k $个成分生成的后验概率。与式 (3) 一致,如果$ \boldsymbol{x}_i $$ \boldsymbol{x}_j $表示同一类样本,${w_{ij}} $=1/N+,否则${w_{ij}} $=1/N-。因此局部度量学习可通过最小化式 (9) 所示的目标函数进行。

$ \begin{array}{l} {F_k}\left( {{\mathit{\boldsymbol{M}}_k}} \right) = \sum\limits_{i = 1}^n {\sum\limits_{j = 1}^m {w_{_{ij}}^{^k}} } f{M_k}\left( {{\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j}} \right)\\ {\rm{s}}{\rm{.t}}.\;\;{\mathit{\boldsymbol{M}}_k} \succ = 0 \end{array} $ (9)

式中,$ {f_{{M_k}}}({\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j}) $表示样本对 ($ \boldsymbol{x}_i $, $ \boldsymbol{x}_j $) 在使用度量矩阵$ {\mathit{\boldsymbol{M}}_k} $时的对数损失值,$ {\mathit{\boldsymbol{M}}_k}$被约束为半正定矩阵。

4 实验验证

在VIPeR[11]、PRID 450S[22]、QMUL GRID[23]数据集上进行实验,从度量学习和特征表示两个角度验证提出的方法。XQDA和MLAPG两种全局度量学习方法被应用到提出的框架中;同时为了验证本文方法的泛化能力,使用第2节中介绍的3种特征表示进行实验。结果表明,本文提出的整合全局—局部度量学习框架可对多种全局度量学习方法做出改进,并能适应于不同的特征表示。特别地,在4.4节中对3.4节提出的局部MLAPG方法单独进行实验验证。

4.1 实验设置及评价标准

累计匹配特征 (CMC) 曲线[24]和Rank-1准确率是人体目标再识别问题的常用评价标准,CMC曲线反映了从排名在前$ r $位的匹配结果中找到正确结果的概率,当$ r $=1时,对应的Rank-1准确率表示精准匹配的目标在测试集上的占比。

VIPeR、PRID 450S、QMUL GRID数据集各自包含了两个无重叠视域的相机下的人体目标图像。实验中,其中一个相机视角下的图像组成备选集,另一视角的图像组成查询集,人体目标再识别的任务就是对查询集中的每个样本,在备选集中寻找其同一目标的匹配。在通常的实验设置中,将数据集随机划分为两部分,一半用于训练,另一半用于测试,重复10次随机实验,对实验结果取平均值。例如,对VIPeR数据集进行实验时,普遍做法是将632对目标随机分成不重叠的两部分,其中316对用于训练,另外316对用于测试,重复10次随机实验,对每次实验结果的CMC曲线和Rank-1准确率取平均值,作为最终结果。

实验中的参数,PCA降维后的特征维度、高斯混合模型成分数K和全局度量矩阵权重$ w_0 $的设置通过交叉验证方法进行优化。

4.2 人体目标再识别数据集

VIPeR数据集[11]是人体目标再识别研究中最常用的数据集。包含两个摄像机拍摄的632对目标,每个目标在两个相机下各有一幅图像,其背景、光照、视角和姿态等存在很大变化。图像统一大小为128×48像素。

PRID 450S[22]包含了两个静态相机视角下的450对行人目标图像,每幅图像的尺寸不是统一的。在实验中,为了利用文献[2]提出的方法计算LOMO特征,首先将图像尺寸统一到128×64像素大小,再进行特征计算。

QMUL GRID数据集[23]包含拍摄于地下车站的250对目标图像,另外还有775幅图像不属于这250个目标,并且没有类别标签,可用来扩充测试用的备选集。该数据集的图像分辨率较低,且亮度和视角变化很大。实验中每次取125对图像做训练,另外125对图像和775幅没有类别标签的图像一起构成测试集。

4.3 整合全局—局部度量学习验证

本文实现了基于XQDA和MLAPG两种方法的整合全局—局部度量学习实验,特征表示采用LOMO特征,实验结果表明,本文提出的框架可以提高这两种全局方法的匹配准确率。

表 1展示了在VIPeR、PRID 450S和QMUL GRID数据集上,Rank-1, Rank-10, Rank-20这3个等级的准确率情况。相比于全局度量学习方法,本文提出的整合全局—局部度量学习框架有效地提升了匹配准确率。在VIPeR数据集上,对XQDA方法,Rank-1准确率提升1.99%,对MLAPG方法,Rank-1准确率提升1.74%。在PRID 450S数据集上,本文所提出方法的Rank-1准确率在XQDA方法基础上提高了1.02%;在MLAPG方法基础上提高了0.97%。对于QMUL GRID数据集,在该数据集上复现文献[2, 5]的方法,并在完全相同的训练集和测试集划分情况下,使用本文提出的方法。与传统的全局方法相比,提出的方法在该数据集上的效果有小幅提升。其中,基于XQDA和MLAPG的整合全局—局部度量学习方法的Rank-1准确率分别提高了0.48%和0.40%。

表 1 整合全局-局部度量学习与全局方法准确率
Table 1 accuracy of integrated global-local metric learning and global approaches

下载CSV
/%
数据集 方法 $ r $=1 $ r $=10 $ r $=20
VIPeR 整合全局-局部XQDA 41.99 82.50 92.25
XQDA[2] 40.00 80.51 91.08
整合全局-局部MLAPG 42.47 83.45 93.29
MLAPG[5] 40.73 82.34 92.37
PRID
450S
整合全局-局部XQDA 60.62 89.82 94.62
XQDA[2] 59.60 89.60 93.91
整合全局-局部MLAPG 59.73 90.44 95.56
MLAPG[5] 58.76 90.31 95.33
QMUL
GRID
整合全局-局部XQDA 18.80 44.08 55.52
XQDA[2] 18.32 44.08 55.44
整合全局-局部MLAPG 18.08 43.44 55.92
MLAPG[5] 17.68 43.28 55.28

实验结果表明,本文提出的方法尤其适用于背景变化复杂的数据集,在非常有挑战性的VIPeR数据集上,相比于传统的全局度量学习方法,本文方法的准确率提升了2.0%左右。在其他数据集上也有一定提升作用,但效果不如VIPeR数据集明显。主要原因在于,相比于VIPeR数据集,PRID 450S和QMUL GRID数据集在同一相机下的目标背景基本一致,而VIPeR数据集内的样本包含较大的背景和衣着颜色等差异。在局部度量学习之前,使用高斯混合模型对训练集划分,可初步区分不同背景和衣着的目标图像,将相似的图像划分到同一局部训练集,再对每个局部训练集内的样本间的细微差异单独进行学习。因此,对于VIPeR这种背景变化复杂的数据集,本文提出的整合全局—局部度量学习方法可以有效地对相似样本间的局部差异进行学习,因此可更大幅度提升匹配准确率。

4.4 局部度量学习验证

专门进行局部度量学习方法的实验验证。一方面,实现了基于XQDA和MLAPG的纯局部度量学习算法,即式 (6) 中${w_0}=0 $; 另一方面,实现了3.4节提出的通过改进样本的损失权重而实现的局部MLAPG算法。实验在VIPeR数据集上进行,使用LOMO特征。所有局部度量学习方法的实验参数保持一致,PCA降维后的特征维度为41,高斯混合模型成分数为5。

表 2展示了上述3种方法的匹配准确率与XQDA和MLAPG两种全局方法的对比情况,局部MLAPG算法的表现优于其他两种局部度量学习和原始的全局方法,在VIPeR数据集上的Rank-1匹配准确率达到41.39%。

表 2 局部度量学习方法准确率
Table 2 Accuracy of local metric learning methods

下载CSV
/%
方法 $ r $=1 $ r $=10 $ r $=20
局部MLAPG 41.39 83.13 93.39
整合全局-局部MLAPG ($ w_0 $=0) 40.16 81.84 91.65
整合全局-局部XQDA ($ w_0 $=0) 37.78 79.30 90.13
MLAPG[5] 40.73 82.34 92.37
XQDA[2] 40.00 80.51 91.08

4.5 不同特征表示验证

为了验证提出的度量学习框架的泛化能力,本文使用LOMO[2]、GOG[4]和增强深度特征[3]3种不同的特征表示方法进行实验。结果表明,本文提出的方法在使用多种不同的特征表示情况下,均可提高全局方法的匹配效果。

在VIPeR数据集上进行实验,对不同的特征表示使用基于XQDA的整合全局—局部度量学习方法。其中LOMO特征是经过归一化的,可直接用于度量学习,GOG和增强的深度特征没有经过归一化。而对于高维特征来说,归一化处理对提高方法效果是非常重要的[25]。因此,对于GOG和增强的深度特征,在未经过归一化的原始特征和经过范数归一化后的特征上分别进行实验。

表 3展示了基于XQDA的整合全局—局部度量学习方法在使用不同特征表示情况下的实验结果。表格中将本文提出的方法简称为“整合XQDA”,对于每种特征表示,将整合XQDA方法和原始的全局XQDA方法的实验结果进行对比。本文方法在不同的特征表示下的表现均优于相应的全局方法,尤其对于未归一化的原始特征,提出的方法会更大幅度提高匹配准确率。

表 3 整合全局-局部度量学习方法和全局方法在使用不同特征表示情况下的准确率
Table 3 Accuracy of integrated global-local metric learning and global approaches with different features

下载CSV
/%
方法 $ r $=1 $ r $=10 $ r $=20
LOMO[2]+整合XQDA 41.99 82.50 92.25
LOMO[2]+XQDA[2] 40.00 80.51 91.08
GOG (原始)[4]+整合XQDA 42.15 83.67 91.90
GOG (原始)[4]+XQDA[2] 38.77 81.30 91.36
GOG (归一化)[4]+整合XQDA 43.89 85.16 93.64
GOG (归一化)[4]+XQDA[2] 42.53 84.40 92.97
FFN (原始)[3]+整合XQDA 31.58 71.80 83.99
FFN (原始)[3]+XQDA[2] 28.86 68.13 81.14
FFN (归一化)[3]+整合XQDA 32.59 73.86 86.49
FFN (归一化)[3]+XQDA[2] 30.13 72.75 85.73

5 结论

本文提出一种灵活的整合全局—局部度量学习框架,可对现研究阶段的很多全局度量学习方法做出改进,并对不同的特征表示具有泛化能力。利用高斯混合模型划分训练集,将XQDA和MLAPG等一些简单有效的全局方法应用到局部度量学习框架中。此外,针对MLAPG,通过改进样本损失值在整体损失函数中的权重实现局部度量学习,进而改进原始方法的实验效果。本文提出的方法既提高了人体目标再识别的匹配准确率,又避免了局部度量学习算法复杂的凸优化求解过程。在多个数据集上的实验效果验证了提出的整合全局—局部度量学习算法的优越性。该方法尤其适用于背景和衣着颜色差异较大,或摄像头数目较多的多样化数据集,可更大幅度提升全局方法的效果。但对于摄像头数目较少,背景相对固定且单一的应用场景,本文方法的性能相比于全局方法的提升效果不够明显。

模型参数选择目前主要依赖于实验,未来的研究工作将对PCA降维后的维度、GMM的成分数等参数的选择过程进行理论方面的优化。另外,在局部MLAPG方法中,GMM的成分数对应着模型的训练次数,当GMM的高斯成分数目较多时,该方法训练过程的计算开销较大,下一步研究将考虑进一步降低局部MLAPG方法训练过程的计算开销。

参考文献

  • [1] Zhao R, Ouyang W L, Wang X G. Person re-identification by salience matching[C]//Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney, NSW, Australia:IEEE, 2013:2528-2535.[DOI:10.1109/ICCV.2013.314]
  • [2] Liao S C, Hu Y, Zhu X Y, et al. Person re-identification by local maximal occurrence representation and metric learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA:IEEE, 2015:2197-2206.[DOI:10.1109/CVPR.2015.7298832]
  • [3] Wu S X, Chen Y C, Li X, et al. An enhanced deep feature representation for person re-identification[C]//Proceedings of 2016 IEEE Winter Conference on Applications of Computer Vision. Lake Placid, NY, USA:IEEE, 2016:1-8.[DOI:10.1109/WACV.2016.7477681]
  • [4] Matsukawa T, Okabe T, Suzuki E, et al. Hierarchical Gaussian descriptor for person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA:IEEE, 2016:1363-1372.[DOI:10.1109/CVPR.2016.152]
  • [5] Liao S C, Li S Z. Efficient PSD constrained asymmetric metric learning for person re-identification[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile:IEEE, 2015:3685-3693.[DOI:10.1109/ICCV.2015.420]
  • [6] Köstinger M, Hirzer M, Wohlhart P, et al. Large scale metric learning from equivalence constraints[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA:IEEE, 2012:2288-2295.[DOI:10.1109/CVPR.2012.6247939]
  • [7] Zheng W S, Gong S G, Xiang T. Person re-identification by probabilistic relative distance comparison[C]//Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA:IEEE, 2011:649-656.[DOI:10.1109/CVPR.2011.5995598]
  • [8] Huang S Y, Lu J W, Zhou J, et al. Nonlinear local metric learning for person re-identification[J/OL]. arXiv Preprint arXiv:1511.05169, 2015. 2015-11-16[2016-11-24].https://arxiv.org/abs/1511.05169v1.
  • [9] Li W, Wang X G. Locally aligned feature transforms across views[C]//Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA:IEEE, 2013:3594-3601.[DOI:10.1109/CVPR.2013.461]
  • [10] Bohné J, Ying Y M, Gentric S, et al. Large margin local metric learning[C]//Proceeding of the 13th European Conference on Computer Vision. Zurich, Switzerland:Springer International Publishing, 2014:679-694.[DOI:10.1007/978-3-319-10605-2_44]
  • [11] Douglas G, Brennan S, Tao H. Evaluating appearance models for recognition, reacquisition, and tracking[C]//Proceedings of 2007 IEEE International Workshop on Performance Evaluation of Tracking and Surveillance. Rio de Janeiro, Brazil:IEEE, 2007:41-47.
  • [12] Moghaddam B, Jebara T, Pentland A. Bayesian face recognition[J]. Pattern Recognition, 2000, 33(11): 1771–1782. [DOI:10.1016/S0031-3203(99)00179-X]
  • [13] Tseng P. On accelerated proximal gradient methods for convex-concave optimization[J/OL]. 2008-05-21[2016-11-24].http://www.csie.ntu.edu.tw/b97058/tseng/papers/apgm.pdf.
  • [14] Zhan D C, Li M, Li Y F, et al. Learning instance specific distances using metric propagation[C]//Proceedings of the 26th Annual International Conference on Machine Learning. Montreal, Quebec, Canada:ACM, 2009:1225-1232.[DOI:10.1145/1553374.1553530]
  • [15] Saxena S, Verbeek J. Coordinated local metric learning[C]//Proceedings of 2015 IEEE International Conference on Computer Vision Workshop. Santiago, Chile:IEEE, 2015:369-377.[DOI:10.1109/ICCVW.2015.56]
  • [16] Schroff F, Kalenichenko D, Philbin J. Facenet:a unified embedding for face recognition and clustering[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA:IEEE, 2015:815-823.[DOI:10.1109/CVPR.2015.7298682]
  • [17] Jobson D J, Rahman Z, Woodell G A. A multiscale retinex for bridging the gap between color images and the human observation of scenes[J]. IEEE Transactions on Image Processing, 1997, 6(7): 965–976. [DOI:10.1109/83.597272]
  • [18] Jia Y Q, Shelhamer E, Donahue J, et al. Caffe:convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM International Conference on Multimedia. Orlando, Florida, USA:ACM, 2014:675-678.[DOI:10.1145/2647868.2654889]
  • [19] Chen Y C, Zheng W S, Lai J H. Mirror representation for modeling view-specific transform in person re-identification[C]//Proceedings of the 24th International Conference on Artificial Intelligence. Buenos Aires, Argentina:AAAI Press, 2015:3402-3408.
  • [20] Wold S, Esbensen K, Geladi P. Principal component analysis[J]. Chemometrics and Intelligent Laboratory Systems, 1987, 2(1-3): 37–52. [DOI:10.1016/0169-7439(87)80084-9]
  • [21] Vedaldi A, Fulkerson B. VLFeat:an open and portable library of computer vision algorithms[C]//Proceedings of the 18th ACM International Conference on Multimedia. Firenze, Italy:ACM, 2010:1469-1472.[DOI:10.1145/1873951.1874249]
  • [22] Roth P M, Hirzer M, Köstinger M, et al. Mahalanobis distance learning for person re-identification[M]//Gong S G, Cristani M, Yan S C, et al. Person Re-Identification. London, Britain:Springer, 2014:247-267.[DOI:10.1007/978-1-4471-6296-4_12]
  • [23] Loy C C, Xiang T, Gong S G. Multi-camera activity correlation analysis[C]//Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA:IEEE, 2009:1988-1995.[DOI:10.1109/CVPR.2009.5206827]
  • [24] Porikli F, Divakaran A. Multi-camera calibration, object tracking and query generation[C]//Proceedings of the 2003 International Conference on Multimedia and Expo. Baltimore, MD, USA:IEEE, 2003:653-656.[DOI:10.1109/ICME.2003.1221002]
  • [25] Sánchez J, Perronnin F, Mensink T, et al. Image classification with the fisher vector:Theory and practice[J]. International Journal of Computer Vision, 2013, 105(3): 222–245. [DOI:10.1007/s11263-013-0636-x]