Print

发布时间: 2016-11-25
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.20161106
2016 | Volumn 21 | Number 11




    图像分析和识别    




  <<上一篇 




  下一篇>> 





多特征融合与独立测度学习的行人再识别
expand article info 齐美彬, 胡龙飞, 蒋建国, 高灿
合肥工业大学计算机与信息学院, 合肥 230009

摘要

目的 由于行人图像受到光照、视角、遮挡和行人姿态等变化的影响,在视觉上容易形成很大的外观差异,对行人再识别造成干扰。为了提高行人再识别的准确性,针对以上问题,提出一种基于多特征融合与独立测度学习的行人再识别算法。 方法 首先通过图像增强算法对原始图像进行处理,减少因光照变化产生的影响,然后对处理后的图像进行非均匀分割,同时提取行人图像的HSV、RGS、LAB和YCbCr 4种颜色特征和SILTP(scale invariant local ternary pattern)纹理特征,在基于独立距离测度学习方法下,融合行人的多种特征,学习得到行人图像对的相似度度量函数,最后将行人图像对的相似度进行加权匹配,实现行人再识别。 结果 在VIPeR、iLIDS和CUHK01这3个数据集上进行实验,其中Rank1(排名第1的搜索结果即为待查询人的比率)分别达到42.7%、43.6%和43.7%,Rank5(排名前5的搜索结果中包含待查询人的比率)均超过70%,识别率有了显著提高,具有实际应用价值。 结论 提出的多特征融合与独立测度学习的行人再识别算法,能够有效表达行人图像信息,且对环境变化具有较强的鲁棒性,有效提高了识别率。

关键词

行人再识别; 多特征融合; 测度学习; SILTP特征; 非均匀分割

Person re-identification based on multi-features fusion and independent metric learning
expand article info Qi Meibin, Hu Longfei, Jiang Jianguo, Gao Can
School of Computer and Information, Hefei University of Technology, Hefei 230009, China
Supported by: National Natural Science Foundation of China(61371155);Science and Technology Brainstorm Project of Anhui Province(1301b042023)

Abstract

Objective Person re-identification is a very challenging problem and has practical application value. It plays an important role in video surveillance systems because it can reduce human efforts in searching for a target from a large number of videos. However, the pedestrian's image is easily affected by illumination changes, different viewpoints, varying poses, complicated background and the problem of occlusion and scale. It is likely to form a lot of differences in appearance and that causes interference in person re-identification. To solve this problem, many studies concentrate on designing a feature representation or metric learning method. For the above problem, this study proposes a robustness algorithm based on multi-features fusion and independent metric learning for person re-identification. Method First, the original images are processed by image enhancement algorithm to reduce the impact of illumination changes. This enhancement algorithm is committed to making the image closer to the human visual characteristics. Then, using the method of non-uniform segmentation processes images. At the same time, processed images are extracted from four color features including HSV, RGS, LAB and YCbCr feature and a texture feature of SILTP (scale invariant local ternary pattern).What's more, through multi-features fusion and independent metric learning, the algorithm gets a similarity measure function of the related person. Finally, the algorithm weights the original similarity and gets the ultimate similarity achieving person re-identification. Result The proposed method is demonstrated on three public benchmark datasets including VIPeR, iLIDS and CHUK01. Each dataset has its own different characteristics. And experimental results show that the proposed method achieves a higher accuracy rate with excellent features and particular method of fusion and learning compared with other similar algorithms. The proposed method achieves a 42.7% rank-1 (represents the correct matched pair) on VIPeR benchmark and respectively 43.6% and 43.7% on iLIDS and CHUK01 benchmark. It is worth mentioning that the rank-5 (represents the expectation of the matches at rank 5) are more than 70% on the three datasets. It greatly improves the recognition rate and has practical application value. Conclusion The experimental results show that the proposed method can more effectively express pedestrian's image information. Furthermore, the proposed method has strong robustness to illumination changes, different viewpoints, varying poses, complicated background and the problem of occlusion and scale and effectively improves the recognition rate.

Key words

person re-identification; multi-features fusion; metric learning; SILTP feature; non-uniform segmentation

0 引言

行人再识别指的是在无重叠视域多摄像机监控系统中,判断摄像机A场景下出现的行人目标是否出现在摄像机B场景下,在跨摄像机多目标跟踪和检索方面有很大的应用价值。但是由于监控视频中行人图像分辨率低,监控场景中存在着光照变化,视角变化,行人姿态变化,遮挡问题以及摄像机自身属性不同等原因,导致同一个行人在不同条件下的外观表现出很大差异,使行人再识别面临很多重大挑战。为了应对这些挑战,广大研究者提出了很多解决方法。目前行人再识别研究方法主要分为特征表达[1-5]和度量学习[6-10]两类。

特征表达的目的是建立一种对环境变化具有鲁棒性的行人特征描述子。在特征方面,行人再识别主要使用的特征有颜色、纹理、形状、梯度以及区域描述子等。特征提取前可以进行前景分割、人体结构检测等操作,一般是将提取到的特征进行串联,得到更具区分性的特征。文献[1]采用协方差矩阵描述行人的局部特征,文献[2]提出了多特征融合的方法对行人特征加以描述,文献[3]采用分割的技术提取人的前景,并利用行人区域的对称性和非对称性将人的前景划分成不同的区域。对于每个区域,提取带权重的颜色直方图特征、极大稳定颜色区域特征和重复度高的结构区域特征描述它们。文献[4]将人体平均分成6个水平条块,在每个水平条内将提取的RGB、HSV、YCbCr和CIE Lab 4种颜色特征直方图串联在一起得到行人图像特征。文献[5]利用LBP(local binary pattern)特征和21个滤波器特征来描述图像中的行人。虽然特征描述的算法模型简单,但是由于在光照变化、视角变化以及姿态变化等情况下,同一个人的外观变化往往很大,很难提取出鲁棒性和区分性的特征描述。

距离测度学习在行人再识别研究中有着广泛应用。当数据集规模较大时,基于特征表达的行人再识别很难准确快速地识别出查询目标,因此要选择合适的度量标准来区分不同的行人。基于距离测度学习的行人再识别是通过机器学习得到一个测度矩阵,利用该矩阵,可以使同类样本之间的距离减小,异类样本之间的距离增大,增加特征之间的可分离性。文献[6]提出一种保持简单有效原则下的距离测度学习算法(KISSME)。文献[7]采用多方向显著性权值学习的方法来度量一对行人图像的相似度。文献[8]提出一种基于距离测度与局部自适应阈值规则的联合模型,形成一个二次分类器来进行识别。文献[9]提出一种交叉视角二次判别分析算法,在判别子空间中学习得到度量函数。文献[10]提出采用核学习的思想,把低维线性不可分的特征空间投影到高维可分的非线性空间中后再进行度量学习。但文献[10]没有考虑到不同颜色空间对行人图像描述的差异性,同时对行人的局部信息表征能力不足,受光照影响较大。

针对行人图像因光照变化、视角变化、行人姿态变化等原因导致的外观差异,在基于文献[10]核学习的思想上,提出一种基于多特征融合与独立测度学习的行人再识别算法。该算法首先通过Retinex图像增强算法[11]对原始图像进行处理,以减少行人图像因光照变化而产生的影响;然后按照行人图像的结构对图像进行非均匀分割,最大化保留行人图像的局部信息;同时提取4种颜色特征和SILTP纹理特征[12];最后在基于独立的距离测度学习方法下,将行人相似度加权融合,实现相关行人的匹配。

1 多特征融合与独立测度学习的行人再识别算法

1.1 相似度度量函数的学习

行人再识别是关联不同摄像机下出现的行人目标,其目的是匹配相同的行人目标、区分不同的行人目标。文献[6]从统计学角度考虑,提出一种KISSME算法,对于给定的一对有序行人图像对($i$, $j$),其特征表示为(${{\mathit{\pmb{x}}}_{i}}$, ${{\mathit{\pmb{x}}}_{j}}$),则这对行人图像相似度可以表示为

$\delta \left( {{\mathit{\pmb{x}}}_{i}},{{\mathit{\pmb{x}}}_{j}} \right)=\log \frac{{{P}_{S}}\left( {{\mathit{\pmb{x}}}_{i}},{{\mathit{\pmb{x}}}_{j}} \right)}{{{P}_{D}}\left( {{\mathit{\pmb{x}}}_{i}},{{\mathit{\pmb{x}}}_{j}} \right)}$ (1)

式中,PS(${{\mathit{\pmb{x}}}_{i}}$, ${{\mathit{\pmb{x}}}_{j}}$)表示($i$, $j$)属于相关行人对的概率,PD(${{\mathit{\pmb{x}}}_{i}}$, ${{\mathit{\pmb{x}}}_{j}}$)表示($i$, $j$)属于不相关行人对的概率,S表示相关行人对特征空间,D表示不相关行人对特征空间。如果($i$, $j$)属于相关行人对的概率越大,即PS(${{\mathit{\pmb{x}}}_{i}}$, ${{\mathit{\pmb{x}}}_{j}}$)越大,PD(${{\mathit{\pmb{x}}}_{i}}$, ${{\mathit{\pmb{x}}}_{j}}$)越小,则δ(${{\mathit{\pmb{x}}}_{i}}$, ${{\mathit{\pmb{x}}}_{j}}$)越大,反之亦然。因此可以根据δ(${{\mathit{\pmb{x}}}_{i}}$, ${{\mathit{\pmb{x}}}_{j}}$)的大小对待选行人图像进行排序,找到相似度最大的图像。

根据文献[6],相关行人对和不相关行人对在特征空间中服从均值为0,协方差矩阵ΣSΣD的多维正态分布,则

$\begin{align} & \ \ \ \ \ \ \ {{P}_{S}}\left( {{\mathit{\pmb{x}}}_{i}},{{\mathit{\pmb{x}}}_{j}} \right)= \\ & \left( 1/\sqrt{2\mathit{\pi} \left| {{\mathit{\pmb{\Sigma}} }_{S}} \right|} \right){{\text{e}}^{-1/2{{\left( {{\mathit{\pmb{x}}}_{i}}-{{\mathit{\pmb{x}}}_{j}} \right)}^{\text{T}}}\mathit{\pmb{\Sigma}} _{S}^{-1}\left( {{\mathit{\pmb{x}}}_{i}}-{{\mathit{\pmb{x}}}_{j}} \right)}} \\ \end{align}$ (2)

$\begin{align} & \ \ \ \ \ \ \ {{P}_{D}}\left( {{\mathit{\pmb{x}}}_{i}},{{\mathit{\pmb{x}}}_{j}} \right)= \\ & \left( 1/\sqrt{2\mathit{\pi} \left| {{\mathit{\pmb{\Sigma}} }_{D}} \right|} \right){{\text{e}}^{-1/2{{\left( {{\mathit{\pmb{x}}}_{i}}-{{\mathit{\pmb{x}}}_{j}} \right)}^{\text{T}}}\mathit{\pmb{\Sigma}} _{D}^{-1}\left( {{\mathit{\pmb{x}}}_{i}}-{{\mathit{\pmb{x}}}_{j}} \right)}} \\ \end{align}$ (3)

则相似度函数可表示为

$\begin{align} & \ \ \ \ \delta \left( {{\mathit{\pmb{x}}}_{i}},{{\mathit{\pmb{x}}}_{j}} \right)=\log \frac{{{P}_{S}}\left( {{\mathit{\pmb{x}}}_{i}},{{\mathit{\pmb{x}}}_{j}} \right)}{{{P}_{D}}\left( {{\mathit{\pmb{x}}}_{i}},{{\mathit{\pmb{x}}}_{j}} \right)}= \\ & \log \frac{1}{\sqrt{2\mathit{\pi} \left| {{\mathit{\pmb{\Sigma}} }_{S}} \right|}}-\log \frac{1}{\sqrt{2\mathit{\pi} \left| {{\mathit{\pmb{\Sigma}} }_{D}} \right|}}+ \\ & \ \ \ \ \frac{1}{2}{{\left( {{\mathit{\pmb{x}}}_{i}}-{{\mathit{\pmb{x}}}_{j}} \right)}^{\text{T}}}\mathit{\pmb{\Sigma}} _{D}^{-1}\left( {{\mathit{\pmb{x}}}_{i}}-{{\mathit{\pmb{x}}}_{j}} \right)- \\ & \ \ \ \ \frac{1}{2}{{\left( {{\mathit{\pmb{x}}}_{i}}-{{\mathit{\pmb{x}}}_{j}} \right)}^{\text{T}}}\mathit{\pmb{\Sigma}} _{S}^{-1}\left( {{\mathit{\pmb{x}}}_{i}}-{{\mathit{\pmb{x}}}_{j}} \right) \\ \end{align}$ (4)

式中

${{\mathit{\pmb{\Sigma}} }_{S}}=\frac{1}{N}\sum\limits_{S\left( i,j \right)\in S}{\left( {{\mathit{\pmb{x}}}_{i}}-{{\mathit{\pmb{x}}}_{j}} \right){{\left( {{\mathit{\pmb{x}}}_{i}}-{{\mathit{\pmb{x}}}_{j}} \right)}^{\text{T}}}}$ (5)

${{\mathit{\pmb{\Sigma}} }_{D}}=\frac{1}{N}\sum\limits_{D\left( i,j \right)\in D}{\left( {{\mathit{\pmb{x}}}_{i}}-{{\mathit{\pmb{x}}}_{j}} \right){{\left( {{\mathit{\pmb{x}}}_{i}}-{{\mathit{\pmb{x}}}_{j}} \right)}^{\text{T}}}}$ (6)

因为相似度函数中的常量不影响行人相似度的度量,故将式(4)简记为

$\begin{align} & \delta \left( {{\mathit{\pmb{x}}}_{i}},{{\mathit{\pmb{x}}}_{j}} \right)={{\left( {{\mathit{\pmb{x}}}_{i}}-{{\mathit{\pmb{x}}}_{j}} \right)}^{\text{T}}}\mathit{\pmb{\Sigma}} _{D}^{-1}\left( {{\mathit{\pmb{x}}}_{i}}-{{\mathit{\pmb{x}}}_{j}} \right)- \\ & \ \ \ \ \ \ {{\left( {{\mathit{\pmb{x}}}_{i}}-{{\mathit{\pmb{x}}}_{j}} \right)}^{\text{T}}}\mathit{\pmb{\Sigma}} _{D}^{-1}\left( {{\mathit{\pmb{x}}}_{i}}-{{\mathit{\pmb{x}}}_{j}} \right)= \\ & \ \ {{\left( {{\mathit{\pmb{x}}}_{i}}-{{\mathit{\pmb{x}}}_{j}} \right)}^{\text{T}}}\left( \mathit{\pmb{\Sigma}} _{D}^{-1}-\mathit{\pmb{\Sigma}} _{S}^{-1} \right)\left( {{\mathit{\pmb{x}}}_{i}}-{{\mathit{\pmb{x}}}_{j}} \right) \\ \end{align}$ (7)

M=ΣD-1ΣS-1,则M即为所求的测度矩阵。

由于原始特征空间线性不可分,导致识别效果差。文献[10]提出通过相应的核函数将原始特征空间投影到更易区分的非线性空间,再在投影后的区间内训练得到测度矩阵M,利用核函数变换后

${{\mathit{\pmb{\Sigma}} }_{KS}}=\frac{1}{N}\sum\limits_{S\left( i,j \right)\in S}{\left( {{\mathit{\pmb{k}}}_{i}}-{{\mathit{\pmb{k}}}_{j}} \right)}{{\left( {{\mathit{\pmb{k}}}_{i}}-{{\mathit{\pmb{k}}}_{j}} \right)}^{\text{T}}}$ (8)

${{\mathit{\pmb{\Sigma}} }_{KD}}=\frac{1}{N}\sum\limits_{D\left( i,j \right)\in D}{\left( {{\mathit{\pmb{k}}}_{i}}-{{\mathit{\pmb{k}}}_{j}} \right)}{{\left( {{\mathit{\pmb{k}}}_{i}}-{{\mathit{\pmb{k}}}_{j}} \right)}^{\text{T}}}$ (9)

$\mathit{\pmb{M}}=\mathit{\pmb{\Sigma}} _{KD}^{-1}-\mathit{\pmb{\Sigma}} _{KS}^{-1}$ (10)

则可将式(7)转换为

$\begin{align} & \delta \left( {{\mathit{\pmb{k}}}_{i}},{{\mathit{\pmb{k}}}_{j}} \right)={{\left( {{\mathit{\pmb{k}}}_{i}}-{{\mathit{\pmb{k}}}_{j}} \right)}^{\text{T}}}\mathit{\pmb{\Sigma}} _{KD}^{-1}\left( {{\mathit{\pmb{k}}}_{i}}-{{\mathit{\pmb{k}}}_{j}} \right)- \\ & \ \ \ \ \ \ {{\left( {{\mathit{\pmb{k}}}_{i}}-{{\mathit{\pmb{k}}}_{j}} \right)}^{\text{T}}}\Sigma _{KS}^{-1}\left( {{\mathit{\pmb{k}}}_{i}}-{{\mathit{\pmb{k}}}_{j}} \right)= \\ & \ \ {{\left( {{\mathit{\pmb{k}}}_{i}}-{{\mathit{\pmb{k}}}_{j}} \right)}^{\text{T}}}\mathit{\pmb{M}}\left( {{\mathit{\pmb{k}}}_{i}}-{{\mathit{\pmb{k}}}_{j}} \right) \\ \end{align}$ (11)

式中,(${{\mathit{\pmb{k}}}_{i}}$, ${{\mathit{\pmb{k}}}_{j}}$)表示行人图像对投影后的特征,M即为在投影后特征空间内所求的测度矩阵。

文献[4, 10]将提取的多种颜色特征向量进行串联,学习得到一个测度矩阵M,再进行相似度度量,该方法没有考虑到不同特征空间对行人图像描述的差异性。为了充分体现不同空间对特征表达的区别,同时又能充分利用不同特征优势互补的效果,本文选取多种特征,并采用独立测度学习的方法,在多个独立空间内分别提取颜色特征(${{\mathit{\pmb{c}}}_{i}}$, ${{\mathit{\pmb{c}}}_{j}}$)n和纹理特征(t$i$, t$j$),$i$, $j$=1, 2, …, N; n=1, 2, 3, 4;$i$, $j$表示行人对,n表示不同的颜色特征空间,N为行人图像总数,然后对提取的特征单独学习测度矩阵M1, M2, …, M5,这样可以得到基于不同空间的度量准则。在此基础上,对测试样本在不同空间内的相似度进行加权融合,得到最终的相似度。

采用4种颜色特征和一种纹理特征进行学习,假设颜色特征空间分别表示为C1C4,纹理特征空间表示为T,则经过学习可以得到5个测度矩阵M1M5,通过式(11),可以得到5个空间内的相似度δ1δ5δ1δ4分别表示4种颜色空间下的相似度,δ5表示纹理空间下的相似度,则样本之间最终的相似度为

$\begin{align} & \delta =a\cdot \left( {{\delta }_{1}}+{{\delta }_{2}}+{{\delta }_{3}}+{{\delta }_{4}} \right)+ \\ & \ \ \ \ \ \ \ \ \ \left( 1-a \right)\cdot {{\delta }_{5}} \\ \end{align}$ (12)

设定4种颜色空间内的相似度权值相同,$a$和1-$a$为颜色空间和纹理空间内的相似度权值。通过实验证实,当$a$∈[0.2, 0.4]时,算法识别率达到最优。本文以下实验中权值$a$统一设置为0.4。

1.2 行人图像的特征表示

当前的行人再识别算法通常用颜色特征和纹理特征作为行人特征描述,本文在多个色彩空间内提取颜色特征,同时提取SILTP纹理特征,两种特征结合作为行人图像的特征描述。

1.2.1 行人图像的增强与分割

颜色是描述行人图像的一种重要特征,但由于光照变化,阴影覆盖等原因,会导致同一个行人在不同视域下产生很大的外观差异。

图 1(a)是VIPeR数据集中的部分原图像,其中同一行表示同一个摄像机下的行人,同一列两幅图像表示同一个行人。可以看出,即使是同一个行人,由于光照阴影等原因,行人图像的颜色也会发生很大变化,这样提取的颜色特征就会受到很大干扰,影响行人匹配。引入Retinex算法,对行人图像进行处理,该算法模仿人类视觉系统,致力于使图像更接近于人眼所看到的样子。经过该算法处理后的图像,具有更加鲜明的颜色信息,特别是阴影区域的细节部分能够得到有效的增强。如图 1(b)是利用Retinex算法增强后的图像,可以看出,处理后的图像细节部分更加突出,颜色信息更加丰富,阴影区域的差异明显减弱。

图 1 VIPeR数据集部分图像处理前后对比
Fig. 1 Comparing before and after image processing on the VIPeR dataset ((a) original images; (b) processed images)

由于受到行人姿态变化、视角变化及遮挡等因素的影响,使提取的特征不能准确表达行人图像信息。为应对这种挑战,采用非均匀分割的方法对行人图像进行分割。根据躯干和腿部表达信息的能力,将图像按图 2进行划分,同时去除受背景干扰比较大的区域,即图像顶部和底部(行人头部以上的区域和脚部以下的区域)。这种划分方式保留了行人图像局部信息的同时也减少了背景的干扰。实验结果表明,这种分块方法在一定程度上减少了行人图像因姿态变化、视角变化及遮挡等因素产生的影响,且经过测试,当躯干部分和腿部分别划分为5块和3块时,本文方法的识别率达到最优。

图 2 行人图像的非均匀分割
Fig. 2 Non-uniform segmentation of image

1.2.2 颜色特征和纹理特征描述

颜色空间有很多种,其中包含基色颜色空间(RGB)和色度、亮度分离的颜色空间(HSV、YCbCr和LAB)。因为不同的颜色空间采用不同的衡量标准,对每幅图像描述的侧重点也各不相同。为此分别从RGS、HSV、YCbCr和CIE Lab 4种颜色空间中提取行人图像的颜色特征。其中RGS定义为R=R/(R+G+B),G=G/(R+G+B),S=(R+G+B)/3。因为RGS空间的描述方法与物体表面的反射系数以及传感器参数等因素无关[13],所以采用此空间可以有效降低光照影响;采用HSV空间对物体进行描述,能够直观的表达物体色彩的明暗及色调,此空间对光照变化不敏感,方便进行颜色之间的对比;YCbCr是一种亮度和色度分离的颜色空间,它可以有效避免两种属性间的相互干扰;LAB包括了人眼可以看见的所有色彩模式,它的表示范围比RGB更广泛,且描述方式与光线及设备无关。以上4种颜色空间具有互补性,从不同的角度对同一对象进行描述更能体现出样本间的差异性。实验结果表明,4个颜色空间内的相似度融合可以有效提高识别率。

按照图 2提出的图像划分标准,对每个水平条块的每个颜色空间的每个通道单独提取16维的颜色直方图特征,其中图像被划分为8个水平条块,共采用4种颜色空间,每个颜色空间包括3个通道,故对每幅行人图像的每个颜色空间可以提取384维(8×3×16)的颜色特征。再对所有行人图像进行特征提取,最后得到N×384的特征矩阵,其中N为行人总数。原始特征经过RBF-χ2核投影后维度较高且存在较多的冗余信息,因此采用PCA (principle component analysis)算法将投影后特征维度降到60。

为了更好地描述行人图像的局部信息,采用尺度不变三值模式提取行人图像纹理信息。SILTP是一种改进的LBP描述算子。它对区域范围噪声具有很好的鲁棒性,特别是当检测区域很暗,或者被阴影覆盖或者包含更多噪声的情况时,该算子都具有较强的适应性。同时,SILTP算子具有尺度不变性,这使得它对亮度变化具有更强的鲁棒性,即使光线突然从暗到亮变化,SILTP特征也只是受到很小的影响。如图 3所示为本文算法中SILTP算子的编码过程。

图 3 SILTP算子编码过程
Fig. 3 Encoding process of SILTP operator

假设一幅图像像素点的位置为(${{x}_{c}},{{y}_{c}}$),SILTP编码方式为

$\text{SILTP}_{Q,R}^{t}\left( {{x}_{c}},{{y}_{c}} \right)=\underset{k=0}{\overset{Q-1}{\mathop{\oplus }}}\,{{s}_{t}}\left( {{I}_{c}},{{I}_{k}} \right)$ (13)

${{s}_{t}}\left( {{I}_{c}},{{I}_{k}} \right)=\left\{ \begin{array}{*{35}{l}} 01 & {{I}_{k}}>\left( 1+t \right){{I}_{c}} \\ 10 & {{I}_{k}}<\left( 1-t \right){{I}_{c}} \\ 00 & 其他 \\ \end{array} \right.$ (14)

式中,Ic是图像中心像素点的灰度值,Ik是半径为RQ邻域所对应的像素点的灰度值,⊕是将所有邻域的二进制值连成字符串,t为阈值范围。如图 3所示,按式(13)(14)将图像二进制编码,再按逆时针顺序将中心点编码为0010010100001001。由图 3可以看出,即使图像出现一定范围内的噪声或尺度变化,SILTP编码值仍保持不变,说明了该算子对光照变化等问题具有较强的鲁棒性。

按照图 2提出的图像划分标准,对每个水平条提取阈值为0.3,半径为1的8邻域和半径为2的16邻域两种模式下的SILTP特征,每种模式下的维度为81维,同时将8个水平条块特征进行串联,故每幅行人图像可以提取1 296维(8×2×81)的纹理特征。再对所有行人图像进行特征提取,最后得到N×1 296的特征矩阵。同样采用RBF-χ2核进行投影,并用PCA算法将投影后的特征维度降到60。

1.3 算法操作步骤

1)输入数据集内的所有图像,运用Retinex算法对输入的图像进行处理。

2)对处理后的图像,按照非均匀分割的方式在4个颜色空间中提取颜色特征(${{\mathit{\pmb{c}}}_{i}},{{\mathit{\pmb{c}}}_{j}}$)$n$和纹理特征(t$i$, t$j$), $i$, $j$=1, 2, …, N; $n$=1, 2, 3, 4;$i$, $j$表示行人对,$n$表示不同的颜色特征空间,N为图像总数。

3)对提取的特征分别进行核投影,并在投影后的空间内根据式(8)—(10)学习得到5个测度矩阵M1M5

4)在测试集数据中利用M1M5和式(11),分别计算每对行人图像对的相似度,再将不同空间内的相似度进行加权融合,得到每对行人之间的最终相似度。

2 实验结果及分析

算法在VIPeR[14]、iLIDS[15]和CUHK01[16]3个数据集上进行测试。对每项测试,在同等条件下重复10次实验,每次随机选择测试集和训练集,取10次结果平均值作为本项测试的最终结果,并采用累积匹配特性(CMC)曲线进行评价。CMC曲线是指在行人图像库中搜索待查询的行人,前r个搜索结果中找到的待查询人比率。第1匹配率(r=1)很重要,它表示的是真正的识别能力。但是当r取值较小时,由于可以通过人眼识别查找目标,因此也具有现实意义。

2.1 VIPeR数据集的测试结果

VIPeR数据集是由632对行人的1 264幅图像组成,每个行人有两幅图像,如图 1(a)所示,其中同一列中的行人图像为同一个人。每对行人图像来源于不同的摄像头场景。同一个行人的外观由于姿态、视角、光照和背景的变化存在很大差异。

为了验证Retinex增强算法对本文算法的影响,表 1给出了是否使用Retinex算法进行增强处理的实验对比。实验中测试样本集和训练样本集均为316对行人图像。

表 1 本文算法是否使用Retinex增强算法的识别率
Table 1 Matching rates of the proposed algorithm whether using Retinex enhancement algorithm

下载CSV
/%
Retinex算法 Rank1 Rank5 Rank10 Rank20
不增强 39.2 70.8 81.2 90.5
增强 42.7 74.5 85.4 92.8

表 1实验数据可以看出,Rank1、Rank5、Rank10都至少提高了3%,由此可以说明,相比于不经过处理的图像而言,本文算法在提取行人特征和学习测度函数之前使用Retinex算法可以有效改善图像质量,提高行人再识别的识别率。

为了验证提取的SILTP纹理特征对本文算法的影响,表 2给出了不使用纹理特征以及使用LBP特征和SILTP特征的实验对比。

表 2 本文算法使用不同纹理特征的识别率
Table 2 Matching rates of the proposed algorithm based on different texture features

下载CSV
/%
纹理特征 Rank1 Rank5 Rank10 Rank20
35.3 65.7 79.6 88.3
LBP 39.6 71.3 82.9 90.1
SILTP 42.7 74.5 85.4 92.8

表 2实验数据可以看出,相对于不用纹理特征而言,融合了LBP或SILTP纹理特征后,Rank1分别提高了4.3%和7.4%,Rank5至Rank20也有了明显提升,本文所使用的SILTP特征相比于LBP特征更具鲁棒性,取得了更好的效果。

为了验证非均匀分割方法对本文算法的影响,表 3给出了不对图像分割、6块均匀分割以及本文分割算法的实验对比。

表 3 本文算法使用不同分割方法的识别率
Table 3 Matching rates of the proposed algorithm based on different segmentation methods

下载CSV
/%
图像分割 Rank1 Rank5 Rank10 Rank20
20.3 48.5 62.8 75.9
6块均分 41.0 72.2 83.2 92.6
本文非均分 42.7 74.5 85.4 92.8

表 3实验数据可以看出,相对于没有对图像分块而言,采用6块均匀分割方法或者本文提出的分割算法后,行人再识别的识别率都有了一定提升,其中Rank1分别提高了20.7%和22.4%。非均匀分割方法按图像信息量对局部图像进行处理,同时减弱背景影响,相比于6块均匀分割的效果更好。

为了验证独立学习测度矩阵与非独立学习测度矩阵对本文算法的影响,表 4给出了基于独立测度学习与非独立测度学习方法的实验对比。

表 4 本文算法使用独立与非独立测度学习的识别率
Table 4 Matching rates of the proposed algorithm based on independent and non-independent metric learning

下载CSV
/%
学习方法 Rank1 Rank5 Rank10 Rank20
非独立 37.1 70.2 81.6 92.2
独立 42.7 74.5 85.4 92.8

表 4实验数据可以看出,Rank1和Rank5分别提高了5.6%和4.3%。相比于将不同空间特征向量串联在一起学习得到一个测度矩阵而言,分别在各自的特征空间中单独进行学习,再用得到的多个测度矩阵分别求解行人图像对的相似度,这样更能体现不同特征空间的特点,有效利用不同特征空间优势互补的效果,提高行人再识别的识别率。

表 5为在VIPeR数据集上,测试集P=316时本文算法与已有算法的性能比较。从表 5中数据可以看出,本文算法性能优于基于特征类算法中的SDALF,基于度量学习的PCCA、KISSME、kLFDA、SCNCD、LOMO、MLAPG以及文献[4, 10]等算法。本文算法结合核投影思想,对图像采取非均匀分割,在基于独立测度学习的方法下,融合优异特征,使行人再识别的性能有了一定提升。其中Rank1达到42.7%,Rank5达到70%以上,在一定程度上已经能够运用到工程实践中。在刑事侦查等方面,刑侦人员可以在行人再识别返回的前r个结果中快速搜索出待查询的人,大大提高侦办效率。

表 5 不同算法在VIPeR数据集上的识别率(P=316)
Table 5 Matching rates of different methods on VIPeR (P=316)

下载CSV
/%
算法 Rank1 Rank5 Rank10 Rank20
PCCA[17] 19.2 48.8 64.9 80.2
KISSME[6] 19.6 52.8 62.2 77.0
SDALF[3] 19.8 38.9 49.3 65.7
文献[4] 29.7 59.8 73.0 84.1
kLFDA[18] 32.3 65.8 79.7 90.9
SCNCD[19] 37.8 68.5 81.2 90.4
LOMO[9] 40.0 68.1 80.5 91.0
MLAPG[20] 40.7 69.9 82.3 92.3
文献[10] 40.7 72.3 83.9 92.0
本文 42.7 74.5 85.4 92.8

2.2 iLIDS数据集的测试结果

iLIDS数据集中共119个行人,其中每个行人包含28幅图像不等。该数据集是从机场收集得到的,行人图像有严重遮挡和光照变化等问题。实验中对每个行人随机选取两幅图像,这样得到一个具有119对相关行人对的图像库。由于行人图像尺寸不完全相同,实验中将图像尺寸统一设置为高128像素,宽48像素。随机选取59对行人图像做训练,剩下60对行人图像做测试。如表 6所示为本文算法与已有行人再识别算法的性能比较。

表 6 不同算法在iLIDS数据集上的识别率
Table 6 Matching rates of different methods on iLIDS

下载CSV
/%
算法 Rank1 Rank5 Rank10 Rank20
PCCA[17] 24.1 53.3 69.2 84.8
KISSME[6] 28.0 54.2 67.9 81.6
SLD2L[21] 33.3 65.0 80.0 90.3
kLFDA[18] 36.9 65.3 78.3 89.4
文献[10] 38.3 66.5 79.0 88.3
本文 43.6 71.3 82.0 90.1

表 6中数据可知,针对iLIDS数据集,本文算法相比于基于判别字典学习的SLD2L算法,基于度量学习的PCCA、KISSME、kLFDA以及文献[10]等算法,在识别率上都有了一定提升。在基于文献[10]核学习的思想上,本文算法性能有了很大提升,其中Rank1达到43.6%,Rank5至Rank20也有明显提升,证明了本文算法的优越性。

2.3 CHUK01数据集的测试结果

CHUK01数据集中的图像是在校园环境中拍摄得到的,共971个行人的3 884幅图像,每人包含4幅图像,分别为前后景图像和侧面图像。实验中,从前后景图像中随机选取一幅,侧面图像中随机选取一幅,这样得到的数据集具有显著的视角变化、姿态变化和光照变化。同样将图像尺寸统一设置为高128像素,宽48像素。其中训练集为485对行人图像,测试集为486对行人图像,如表 7所示为本文算法与已有行人再识别算法的性能比较。

表 7 不同算法在CHUK01数据集上的识别率
Table 7 Matching rates of different methods on CHUK01

下载CSV
/%
算法 Rank1 Rank5 Rank10 Rank20
PCCA[17] 17.8 42.4 55.9 69.1
KISSME[6] 17.9 38.1 48.0 58.8
kLFDA[18] 29.1 55.2 66.4 77.3
MFA[18] 29.6 55.8 66.4 77.3
文献[10] 36.1 62.6 72.6 81.9
本文 43.7 70.8 79.0 87.3

表 7中数据可知,针对CHUK01数据集,本文算法相比于基于度量学习的PCCA、KISSME、kLFDA、MFA以及文献[10]等算法相比,在识别率上有了显著提升,其中Rank1达到了43.7%,Rank5至Rank20也有了很大提升,通过在CHUK01数据集上的对比同样说明了本算法的优越性。

2.4 权值$a$取值不同时算法性能比较

由1.1节式(12)可知,行人图像最终的相似度为δ。为了分析权值$a$取值不同时对算法性能的影响,图 4给出了在3种数据集上不同权值$a$下,本文算法性能的对比实验。

图 4 算法在3种数据集上不同权值$a$下的性能比较
Fig. 4 Performances at different weights $a$ on the three datasets ((a) VIPeR dataset; (b) iLIDS dataset; (c) CUHK01 dataset)

通过实验可以看出,$a$的取值对本文算法性能影响较大。当$a$取值过小时,颜色空间相似度比重小,纹理空间相似度比重大,由于纹理信息与图像像素灰度值的空间分布有关,缺少图像固有的颜色属性,导致算法效果较差;当$a$取值过大时,颜色空间相似度比重大,纹理空间相似度比重小,由于颜色特征表示的是图像像素的统计信息,而缺少空间分布信息,导致识别率较低;当$a$取值在0.20.4之间时,颜色空间与纹理空间内的相似度取得较优的互补性,既保留了图像固有的颜色属性,又引入了图像的空间分布信息,使算法性能达到最优。

3 结论

行人再识别问题的研究面临着许多挑战,其中光照变化、视角变化、行人姿态变化以及遮挡等情况是该领域比较突出的几大问题。已有的行人再识别方法一般是把特征向量串联并建立特征模型,但这种方法忽视了不同特征对图像描述的差异性。本文提出一种基于距离测度学习的行人再识别方法,将行人多种特征分别进行处理,通过图像增强和对图像的非均匀分割,减少了光照变化及复杂背景的影响;结合颜色特征和纹理特征,采用独立测度学习方法,将行人间的相似度进行加权,更准确地描述了行人图像特征。实验结果证实,本文算法有效提高了行人再识别的性能,具有实际应用价值。但是本文在相似度融合时所采用的权重系数仍不具备一般性,本文系数是由测试直接分配得到,无法自适应地找到特征之间的最佳权重,未来的工作可以融合其他类型特征,并且通过学习的方式得到不同条件下的最优权重。

参考文献

  • [1] Bąk S, Corvee E, Brémond F, et al. Person re-identification using spatial covariance regions of human body parts[C]//Proceedings of the 7th IEEE International Conference on Advanced Video and Signal Based Surveillance. Boston, USA: IEEE, 2010: 435-440.[DOI: 10.1109/AVSS.2010.34]
  • [2] Fan C X, Zhu H, Lin G F, et al. Person re-identification based on multi-features[J]. Journal of Image and Graphics , 2013, 18 (6) : 711–717. [ 范彩霞, 朱虹, 蔺广逢, 等. 多特征融合的人体目标再识别[J]. 中国图象图形学报 , 2013, 18 (6) : 711–717. DOI:10.11834/jig.20130614 ]
  • [3] Bazzani L, Cristani M, Murino V. Symmetry-driven accumulation of local features for human characterization and re-identification[J]. Computer Vision and Image Understanding , 2013, 117 (2) : 130–144. DOI:10.1016/j.cviu.2012.10.008
  • [4] Du Y N, Ai H Z. A statistical inference approach for person re-identification[J]. Journal of Electronics & Information Technology , 2014, 36 (7) : 1612–1618. [ 杜宇宁, 艾海舟. 基于统计推断的行人再识别算法[J]. 电子与信息学报 , 2014, 36 (7) : 1612–1618. DOI:10.3724/SP.J.1146.2013.01144 ]
  • [5] Liu C X, Gong S G, Loy C C, et al. Person re-identification: what features are important?[C]//Proceedings of the 12th European Conference on Computer Vision. Florence, Italy: Springer, 2012: 391-401.[DOI: 10.1007/978-3-642-33863-2_39]
  • [6] K stinger M, Hirzer M, Wohlhart P, et al. Large scale metric learning from equivalence constraints[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2012: 2288-2295.[DOI: 10.1109/CVPR.2012.6247939]
  • [7] Chen Y, Huo Z H. Person re-identification based on multi-directional saliency metric learning[J]. Journal of Image and Graphics , 2015, 20 (12) : 1674–1683. [ 陈莹, 霍中花. 多方向显著性权值学习的行人再识别[J]. 中国图象图形学报 , 2015, 20 (12) : 1674–1683. DOI:10.11834/jig.20151212 ]
  • [8] Li Z, Chang S Y, Liang F, et al. Learning locally-adaptive decision functions for person verification[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR: IEEE, 2013: 3610-3617.[DOI: 10.1109/CVPR.2013.463]
  • [9] Liao S C, Hu Y, Zhu X Y, et al. Person re-identification by local maximal occurrence representation and metric learning[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA: IEEE, 2015: 437-456.[DOI: 10.1109/CVPR.2015.7298832]
  • [10] Qi M B, Tan S S, Wang Y X, et al. Multi-feature subspace and kernel learning for person re-identification[J]. Acta Automatica Sinica , 2016, 42 (2) : 299–308. [ 齐美彬, 檀胜顺, 王运侠, 等. 基于多特征子空间与核学习的行人再识别[J]. 自动化学报 , 2016, 42 (2) : 299–308. DOI:10.16383/j.aas.2016.c150344 ]
  • [11] Jobson D J, Rahman Z, Woodell G A. A multiscale retinex for bridging the gap between color images and the human observation of scenes[J]. IEEE Transactions on Image Processing , 1997, 6 (7) : 965–976. DOI:10.1109/83.597272
  • [12] Liao S C, Zhao G Y, Kellokumpu V, et al. Modeling pixel process with scale invariant local patterns for background subtraction in complex scenes[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, CA: IEEE, 2010: 702-708.[DOI: 10.1109/CVPR.2010.5539817]
  • [13] Gevers T, Smeulders A W M. Color-based object recognition[J]. Pattern Recognition , 1999, 32 (3) : 453–464. DOI:10.1016/S0031-3203(98)00036-3
  • [14] Gray D, Tao H. Viewpoint invariant pedestrian recognition with an ensemble of localized features[C]//Proceedings of the 10th European Conference on Computer Vision. Marseille, France: Springer, 2008, 5302: 262-275.[DOI: 10.1007/978-3-540-88682-2_21]
  • [15] Zheng W S, Gong S G, Xiang T. Associating groups of people[C]//Proceedings of the 20th British Machine Vision Conference. London, UK: IEEE, 2009: 1-11.[DOI: 10.5244/C.23.23]
  • [16] Zhao R, Ouyang W L, Wang X G. Learning mid-level filters for person re-identification[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH: IEEE, 2014: 144-151.[DOI: 10.1109/CVPR.2014.26]
  • [17] Mignon A, Jurie F. PCCA: a new approach for distance learning from sparse pairwise constraints[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE, 2012: 2666-2672.[DOI: 10.1109/CVPR.2012.6247987]
  • [18] Xiong F, Gou M R, Camps O, et al. Person re-identification using kernel-based metric learning methods[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014, 8695: 1-16.[DOI: 10.1007/978-3-319-10584-0_1]
  • [19] Yang Y, Yang J M, Yan J J, et al. Salient color names for person re-identification[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014: 536-551.[DOI: 10.1007/978-3-319-10590-1_35]
  • [20] Liao S C, Li S Z. Efficient PSD constrained asymmetric metric learning for person re-identification[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 3685-3693.[DOI: 10.1109/ICCV.2015.420]
  • [21] Jing X Y, Zhu X K, Wu F, et al. Super-resolution person re-identification with semi-coupled low-rank discriminant dictionary learning[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015: 695-704.[DOI: 10.1109/CVPR.2015.7298669]