Print

发布时间: 2019-04-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180370
2019 | Volume 24 | Number 4




    图像分析和识别    




  <<上一篇 




  下一篇>> 





区域块分割与融合的行人再识别
expand article info 蒋建国1,2, 杨宁1, 齐美彬1,2, 陈翠群1
1. 合肥工业大学计算机与信息学院, 合肥 230009;
2. 工业安全与应急技术安徽省重点实验室, 合肥 230009

摘要

目的 由于摄像机视角和成像质量的差异,造成行人姿态变化、图像分辨率变化和光照变化等问题的出现,从而导致同一行人在不同监控视频中的外观区别很大,给行人再识别带来很大挑战。为提高行人再识别的识别率,针对行人姿态变化问题,提出一种区域块分割和融合的行人再识别算法。方法 首先根据人体结构分布,将行人图像划分为3个局部区域。然后根据各区域在识别过程中的作用不同,将GOG(Gaussian of Gaussian)特征、LOMO(local maximal occurrence)特征和KCCA(Kernel canonical correlation analysis)特征的不同组合作为各区域特征。接着通过距离测度算法学习对应区域之间的相似度,并通过干扰块剔除算法消除图像中出现的无效干扰块,融合有效区域块的相似度。最后将行人图像对的全局相似度和各局部区域相似度进行融合,实现行人再识别。结果 在4个基准数据集VIPeR、GRID、PRID450S和CUHK01上进行了大量实验,其中Rank1(排名第1的搜索结果即为待查询人的比例)分别为62.85%、30.56%、71.82%和79.03%,Rank5分别为86.17%、51.20%、91.16%和93.60%,识别率均有显著提高,具有实际应用价值。结论 提出的区域块分割和融合方法,能够去除图像中的无用信息和干扰信息,同时保留行人的有效信息并高效利用。该方法在一定程度上能够解决行人姿态变化带来的外观差异问题,大幅度地提升识别率。

关键词

行人再识别; 人体结构信息; 区域块分割; 干扰块剔除; 区域块融合

Person re-identification with region block segmentation and fusion
expand article info Jiang Jianguo1,2, Yang Ning1, Qi Meibin1,2, Chen Cuiqun1
1. School of Computer Science and Information Engineering, Hefei University of Technology, Hefei 230009, China;
2. Anhui Province Key Laboratory of Industry Safety and Emergency Technology, Hefei 230009, China
Supported by: National Natural Science Foundation of China (61876056, 61771180, 61174170); Key Research and Development Project of Anhui Province, China (1704d0802183)

Abstract

Objective The person re-identification task is of great value in multi-target tracking and the target retrieval of multi-cameras. Thus, it has received increasing attention in the field of computer vision and widespread interest among researchers at home and abroad in recent years. The differences in camera viewing angles and imaging quality lead to variations in pedestrian posture, image resolution, and illumination. These variations make the appearance of the same pedestrian in various surveillance videos considerably different. This difference, in turn, causes severe interference in person re-identification. To improve the recognition rate of person re-identification and solve the posture changing problem, this study proposes a person re-identification algorithm with region block segmentation and fusion on the basis of human body structure information. Method First, according to the distribution of the human body structure, a pedestrian image is divided into three local regions:the head part (the H region), the shoulder-knee part (the SK region), and the leg part (the L region). These local regions are enlarged to the original image size using a bilinear interpolation method, which can enhance the expression of the regions and fully use the region information. Second, according to the different roles of each local region in the recognition process, the Gaussian of Gaussian (GOG) feature is extracted from the H and the L regions. The GOG feature, the local maximal occurrence (LOMO) feature, and the kernel canonical correlation analysis (KCCA) feature are extracted from the SK region because the SK region contains the most abundant information of pedestrian images. Extracting numerous features in the SK region can increase the diversity of the region information and strengthen the role of the region in the re-identification process. Third, the interference block removal (IBR) algorithm is used to eliminate the invalid blocks in the image and fuse the similarities of the effective blocks. Given the differences in posture and viewpoint, some objects might appear in one image and be absent in another image of the same person captured by another camera. Such objects may cause large changes in the color and texture information of the pedestrian's corresponding body regions. These changes result in disturbances to the recognition process. The regions in which such objects are located are called interference blocks in this study. By observing the location of the interference blocks, we find that the interference blocks are distributed from the shoulder to the knee of pedestrians. Therefore, the IBR algorithm uses the image of the SK region. According to the human body structure distribution, the IBR algorithm horizontally divides the SK region into the chest part (h1 block), the lumbar part (h2 block), and the leg part (h3 block); and vertically divides the region into the left-arm part (v1 block), the torso part (v2 block), and the right-arm part (v3 block). Then, the GOG feature, LOMO feature, and KCCA feature are extracted from each block. The three features of each block are fed to the similarity measure function to obtain the three similarities between the corresponding blocks. The three similarities of the same block are merged to form the final similarity of the block. When the final similarities of the six block (h1, h2, h3, v1, v2, v3) pairs are calculated, the similarities of the three horizontal block (h1, h2, h3) pairs are compared to find the block with the smallest similarity, which is the interference block in the horizontal direction. The interference block in the vertical direction is found in the same manner. When the two interference blocks are removed, the influence of the interference block on the overall pedestrian similarity can be eliminated. After the interference blocks are removed, the similarities of the remaining four blocks are fused as the similarity of the SK region. Finally, the global similarity of the pedestrian image pair and the similarities of the three local regions (H, L, and SK) are combined to realize person re-identification. Result Many experiments are conducted on four benchmark datasets, namely, VIPeR, GRID, PRID450S, and CUHK01. The results of rank 1 (represents the proportion of queried people) for the four datasets are 62.85%, 30.56%, 71.82%, and 79.03%. The results of rank 5 are 86.17%, 51.20%, 91.16%, and 93.60%. The experimental results show the considerable improvement of recognition rates for the small and large datasets. Thus, the proposed algorithm offers practical application value. Conclusion Experimental results show that the proposed method can effectively express the image information of pedestrians. Furthermore, the proposed region block segmentation and fusion algorithm can remove useless and interference information in images as much as possible under the guidance of human body structure information. It can also preserve the effective information of pedestrians and use it effectively. This method can solve the differences in pedestrian appearance caused by changes in pedestrian posture to a certain extent and greatly improve recognition rates.

Key words

person re-identification; human structure information; region block segmentation; interference block removal; region block fusion

0 引言

由于行人再识别任务在跨摄像机的多目标跟踪和目标检索方面的应用价值巨大,所以其在计算机视觉领域受到了越来越多的关注。行人再识别是指当一个行人被多个视域不重叠的摄像机拍摄到时,在大量的干扰行人中跨视域匹配该行人。然而在跨视域环境下视觉角度、身体姿态和光照条件等会发生很大变化,从而造成行人外观产生很大改变。在视频监控环境下,行人的识别主要依靠外貌和衣着,衣着相似的其他行人很容易对识别过程产生影响。因此行人再识别仍然存在许多待解决的问题。目前行人再识别的研究以研究方法来分,主要分为基于传统方法的行人再识别[1-4]和基于深度学习的行人再识别[5-9]

基于传统方法的行人再识别一般是从特征表达和距离测度学习两方面进行。特征表达的目标就是提取出有区分性且对视角、姿态、光照和背景的变化具有鲁棒性的特征。近年来,研究人员以RGB等颜色特征、SILTP(scale invariant local ternary pattern)[10]等纹理特征和形状特征等底层特征为基础,提取出性能良好的特征,例如LOMO[11]特征、GOG[12]特征和KCCA[13]特征等,并取得了不错的结果。距离测度学习的目标是获得能够准确度量图像间相似度的测度准则,该准则应尽可能使不相关目标之间距离增大,相关目标之间距离减小。距离测度的方法可分为预定义的测度和学习得到的测度。前者采用欧几里德距离[14]、协方差距离[15]等现成的距离测度度量,而后者则试图利用图像对之间的固有不变性。因为可以充分利用训练数据,所以基于学习的测度模型通常比无学习的测度模型有更好的表现。Chen等人[16]提出了一种基于学习的测度算法SCSP(spatially constrained similarity function on polynomial feature map),该算法同时考虑了马氏距离和双线性距离, 并利用ADMM(alternating direction method of multipliers)优化算法,较大提升了再识别的性能。Zhang等人[17]通过NFST(null Foley-Sammon transfer)学习得到零空间的映射矩阵,该算法在零空间中将相同行人的特征向量映射为同一个点,不同行人映射为不同的点,从而保证同一行人间的距离远小于不同行人间的距离。

基于深度学习的行人再识别一般是搭建出一个深度学习框架,在这个框架中进行特征提取或测度学习,通过目标函数进行参数优化,完成学习任务。目前基于深度学习的行人再识别取得了很不错的结果[5-6]。然而实验数据量仍然不充足,进行深度学习的设备费用仍然昂贵,并且深度学习算法的高复杂性也导致其无法直接应用在计算能力较弱的系统中。因此基于传统方法的行人再识别仍然需要不断研究。

本文主要针对因视角变化和行人姿态变化导致的行人图像外观差异,提出一种区域块分割与融合的传统图像行人再识别算法。该算法首先利用人体结构分布指导行人图像进行区域分割,然后依据分割后的区域块的各自特性提取各区域块的特征,通过距离测度算法获取区域相似度,最后剔除图像中的无效区域块,融合有效区域块,完成行人匹配。

1 人体结构引导的区域块分割

由于摄像机拍摄角度的不同,身体姿态出现很大变化是行人再识别中普遍存在的问题。这个问题带来的行人外观差异会在很大程度上限制行人再识别算法的有效性。在行走过程中行人具有相对稳定的几何结构,保证身体对应部分进行相似度计算并比较,可以在一定程度上消除姿态变化带来的影响。所以人体结构等空间约束信息被广泛使用来应对姿态变化带来的外观差异。Farenzena等人[14]考虑人体结构的对称性和不对称性,从身体各部位提取局部特征。文献[10]提取密集的局部特征,并将这些局部特征串联起来以隐式编码行人的空间布局。Zhao等人[8]利用深度学习的方法提出了一个身体区域定位网络,该网络能较精确地定位人体的身体区域。受到文献[8]的启发,本文提出了一种身体结构信息引导的区域块分割方法BSS(body structure segmentation)。

人体的主要组成部分为头部、躯干和四肢。如图 1(a)所示,图像中除行人信息外还包含不少背景信息。BSS的主要目的是尽可能将行人信息保留,同时最大程度地去除背景信息。考虑到传统行人再识别在计算能力较弱的系统中更具优势,行人图像的分割不适宜采用很复杂的方法。BSS就是一种简单且有效的方法。因为行人手臂部位受姿势变化影响大,其在图像中的位置和范围变化大,所以将手臂部位和躯干部位组合成一个区域。同时考虑到行人肩膀到膝盖这一区域含有丰富的行人信息,BSS将行人图像分割为头部(H区)、肩—膝部(SK区)和腿部(L区)3个区域,如图 1(b)所示。与其他传统分割方式相比,BSS更注重身体结构的分布,且分割后的局部区域包含的背景信息更少。同时BSS对局部区域进行双线性插值增大操作,从而可以对行人身体部位的信息进行充分利用。

图 1 人体结构引导的区域块分割
Fig. 1 Region block segmentation with human body structure
((a) the distribution of the human body structure; (b) the segmentation of the front image)

2 干扰块剔除和区域块融合

摄像机视角的改变除了会导致行人姿态的改变,还会使一些原来视角下不存在的物体出现在视野里。如图 2(a)所示,同一列为同一行人,摄像机拍摄了行人正面和侧面图像。在正面状态下,行人的背包未出现在图像视野中。然而在侧面状态下,背包等行人附属物(以橘色实线框标注)出现在图像中,导致行人对应身体区域的颜色和纹理信息产生较大变化,从而对识别过程造成干扰,本文称这种附属物所在区域为干扰块。类似地,在图 2(b)中仅在背面图像中出现的背包和挎包同样也造成干扰块的产生。不同于前面两种情况,如图 2(c)所示,尽管各视角下的图像中均未出现背包和挎包,但是行人的服饰或穿着方式的变化,使得行人对应的身体区域的颜色和纹理特征发生很大改变,此时行人衣物所在区域成为干扰块。

图 2 VIPeR[18] 数据集上的干扰块和伪干扰块实例
Fig. 2 The examples of interference blocks and pseudo- interference blocks in VIPeR[18]
((a) situation one; (b) situation two; (c) situation three; (d) situation four)

然而,不是所有的行人附属物都会产生干扰块。如图 2(d)所示,行人背包或手提袋(以绿色实线框标注)在图像中出现,不同的是这些附属物在各个视角下均有出现,所以行人图像中对应身体部位的颜色和纹理信息未出现较大差异,本文称这样的附属物为伪干扰块。而且由于包袋的款式和颜色各异,此时包袋就成为该行人与其他行人的显著区别,利用它们能够帮助识别行人。特别地,当行人衣物和背包等附属物在不同视角下均发生较大改变时,行人衣物和背包所在区域均成为干扰块。因此,干扰块的准确定义是只出现在单一或少数视角下的行人身体上的附属物体或附属区域。

干扰块的存在会对行人再识别过程产生很大影响。为解决这一影响,本文设计了一种有效的算法——干扰块剔除算法IBR(interference block removal)。通过对干扰块出现位置的观察,可以发现干扰块基本上分布在行人肩膀到膝盖这一范围内,因此IBR算法的处理对象是SK区域的图像。

图 3(a)所示,首先采用双线性插值方法将BSS分割后得到的SK区图像放大为原图大小。然后根据人体结构分布和干扰块的形状信息,将SK区在水平方向上均匀分割成胸部、腰部和腿部3个区域,在垂直方向上均匀分割成左边臂、躯干和右边臂3个区域,并将这6个子区域依次命名为h1块、h2块、h3块、v1块、v2块和v3块。接着在每一个子块中分别提取GOG、LOMO和KCCA 3种特征,再通过相似度度量函数得到对应子块间的3种特征的3个相似度,最后将同一子块的3个相似度进行融合构成这一子块的最终相似度。如图 3(b)所示,在计算出6个子块对(h1、h2、h3、v1、v2、v3)间的相似度后,将3个水平子块对的相似度进行比较,找出相似度最小的子块,该子块即为水平方向上的干扰块区域。同样地,找出垂直方向上的干扰块区域, 去除这两块区域信息即可消除干扰块对行人整体相似度的影响。

图 3 干扰块的剔除过程与有效块的融合过程
Fig. 3 Removing process of interference blocks and the fusing process of effective blocks
((a)preprocessing of SK region and the similarity calculations of blocks; (b)removing and fusing of region blocks)

图 3(a)所示,行人挎包只出现在了摄像机$b$拍摄的背面图像中,h2、v2和v3块由于挎包的出现(红色实线框标注),区域块的颜色和纹理信息发生很大改变,导致行人图像对h2子块间、v2子块间以及v3子块间的相似度很低,从而影响最终的识别结果。如果将h2、v2和v3块均作为无效区域剔除,那么在消除干扰块不利影响的同时也剔除了不少有用信息。因此IBR算法在每个方向上只去除受干扰最多的区域块,即在每个方向上保留相似度最大的两块区域块。因此,SK区的相似度${f_{{\rm{SK}}}}$

$ \begin{array}{l} \;\;\;\;\;\;\;\;{f_{{\rm{SK}}}}(\mathit{\boldsymbol{x}}_a^{{\rm{SK}}}, \mathit{\boldsymbol{x}}_b^{{\rm{SK}}}) = \sum\limits_{i \in \{ {\rm{h}}1, {\rm{h}}2, {\rm{h}}3, {\rm{v}}1, {\rm{v}}2, {\rm{v}}3\} } {f(\mathit{\boldsymbol{x}}_a^{{\rm{S}}{{\rm{K}}_i}}, \mathit{\boldsymbol{x}}_b^{{\rm{S}}{{\rm{K}}_i}})} - \\ \mathop {{\rm{min}}}\limits_{j \in \{ {\rm{h}}1, {\rm{h}}2, {\rm{h}}3\} } (f(\mathit{\boldsymbol{x}}_a^{{\rm{SK}}_j}, \mathit{\boldsymbol{x}}_b^{{\rm{SK}}_j})) - \mathop {{\rm{min}}}\limits_{k \in \{ {\rm{v}}1, {\rm{v}}2, {\rm{v}}3\} } (f(\mathit{\boldsymbol{x}}_a^{{\rm{SK}}_k}, \mathit{\boldsymbol{x}}_b^{{\rm{SK}}_k})) \end{array} $ (1)

式中,$\mathit{\boldsymbol{x}}_a^{{\rm{SK}}}, \mathit{\boldsymbol{x}}_b^{{\rm{SK}}}$分别为图像$a$和图像$b$的SK区域的特征,${\mathit{\boldsymbol{x}}_a^{{\rm{S}}{{\rm{K}}_i}}, \mathit{\boldsymbol{x}}_b^{{\rm{S}}{{\rm{K}}_i}}}$分别为图像$a$和图像$b$的SK区域的子块$i$的特征,$f\left( \cdot \right)$为相似度函数。

然而有些行人图像中并不存在干扰块,但IBR算法一定会去除相似度最小的子块,这会造成有用信息的过多损失,为弥补这些损失,最终行人相似度需要加入行人的全局图像的相似度,因此,行人图像$a$$b$间的最终相似度为

$ f({\mathit{\boldsymbol{x}}_a}, {\mathit{\boldsymbol{x}}_b}) = \sum\limits_{p \in \{ {\rm{H}}, {\rm{L}}, {\rm{SK}}\} } {f(\mathit{\boldsymbol{x}}_a^p, \mathit{\boldsymbol{x}}_b^p) + {f_{\rm{g}}}({\mathit{\boldsymbol{x}}_a}, {\mathit{\boldsymbol{x}}_b})} $ (2)

式中,${\mathit{\boldsymbol{x}}_a}, {\mathit{\boldsymbol{x}}_b}$分别为图像$a$$b$的全局特征,${\mathit{\boldsymbol{x}}_a^p, \mathit{\boldsymbol{x}}_b^p}$分别为图像$a$$b$的局部区域$p$的特征,${{f_{\rm{g}}}({\mathit{\boldsymbol{x}}_a}, {\mathit{\boldsymbol{x}}_b})}$为图像$a$$b$间的全局相似度。

3 特征提取

行人图像中包含大量信息,有效的特征表示是完成行人再识别任务的基础。因为不同的行人穿着相同或相似的衣服是时有发生的,所以仅依靠单一颜色或纹理特征都不能很好地解决行人再识别问题。本文利用多特征融合方式将GOG特征、LOMO特征和KCCA特征进行分数级融合(score-level)[1, 17]来提取图像局部和全局特征。

KCCA特征利用一个各向异性的高斯核对原图像进行映射操作,从而提取出HSV、RGB和Lab 3种加权颜色直方图特征。LOMO特征高效融合了HSV特征和SILTP纹理特征,并通过最大值的操作使得LOMO特征能够应对视角变化。与这两种统计信息特征不同的是GOG特征。GOG特征直接利用图像各像素点自身的信息,首先对每个像素点提取包含位置、梯度和颜色信息的8维特征向量,然后通过块高斯操作融合局部块内各像素点的特征,再通过区域高斯操作融合局部块特征,最终获得具有良好区分性和鲁棒性的整幅图像的特征。

因为GOG特征可以高效融合图像像素点的各类信息得到具有区分性且维数较小的特征,所以本文对H区、L区、SK区以及全局图像均提取颜色分量采用RGB的GOG特征,即GOG_RGB特征。SK区包含了行人图像中最丰富的信息,是再识别过程中的关键区域。为加强SK区在再识别过程中的作用,增加其区域特征的多样性,SK区还提取了LOMO特征和KCCA特征。为了发挥不同特征各自的优点,本文采用分数级融合,即将不同特征分别送入测度矩阵得到相似度信息后再对各相似度进行加法融合。

4 实验结果与分析

实验是基于MATLAB R2016b实现的,实验平台:16 GB、Intel(R) Core(TM) i7-4790 @3.60 GHz处理器。本文算法在VIPeR(viewpoint invariant pedestrain recognition)[18]、GRID[19]、PRID450S[20]和CUHK01[21]4个数据集上进行测试。实验在相同条件下重复进行10次,每次实验均随机生成测试集和训练集,取10次结果的平均值作为本项测试的最终结果,并采用累积匹配特性(CMC)曲线进行评价。CMC曲线表示的是同一个待查询行人出现在不同大小的候选人列表的概率。第1匹配率(Rank1)表示算法真正的识别能力。

为验证本文算法的有效性,采用SCSP和NFST两种距离测度方法进行实验。SCSP测度借鉴深度学习的方式,将距离测度作为一项学习任务,通过复杂的优化算法计算出行人之间的相似度。NFST测度是在一个零空间中计算行人对之间的距离,计算较简单,不需要对特征进行降维和正则化操作。通过在这两种不同的测度上进行实验,证明本文算法不论是利用计算复杂的测度方法还是利用计算较简单的测度方法,均可以实现不错的结果。本文在使用SCSP测度算法时全局特征额外提取了SCSP特征,以充分发挥该测度的作用。

4.1 VIPeR数据集的测试结果

VIPeR数据集包含了632个行人,每个行人有来自两个不同的摄像机拍摄的两张图片。实验中随机选择316个行人构成训练集,剩下的316个行人构成测试集。实验结果如表 1所示。

表 1 不同算法在VIPeR数据集上的识别率
Table 1 Recognition rates of different methods on VIPeR dataset

下载CSV
/%
算法 Rank1 Rank5 Rank10 Rank20
NFST[17] 42.28 71.46 82.94 92.06
文献[22] 42.47 - 83.45 93.29
文献[1] 49.05 74.08 84.43 93.10
GOG[12] 49.7 79.7 88.7 94.5
SCSP[16] 53.54 82.59 91.49 96.65
本文(NFST) 51.80 79.40 89.46 95.76
本文(SCSP) 62.85 86.17 93.07 97.41
注:加粗字体为该排列(Rank)下的最优结果,“-”表示原文献未提供该排列下的结果。

表 1实验数据显示,本文算法取得了很好的结果。当距离测度采用SCSP时,本文算法的Rank1达到62.85%,比采用相同测度的文献[16]的结果高出9.31%。当距离测度采用NFST时,本文算法的Rank1为51.8%,比采用相同测度的文献[17]的结果高出9.52%。识别结果的显著提升反映了本文算法的有效性。由于SCSP测度算法计算了行人特征之间的两种距离,同时通过ADMM优化算法对映射矩阵不断优化,与NFST相比,可以学习到不同行人特征间更本质的关系。所以SCSP测度的识别结果优于NFST。

4.2 GRID数据集的测试结果

GRID数据集共有1 275张行人图片,其中有250个行人,每个行人的两张图片来自两个不同的摄像机。此外,数据集还包含了775张额外的行人图片,这775张行人图片不属于前面250人中的任何一人。每次实验随机选取125对行人构成训练集,剩余的125对行人和额外的775张不相关行人图像构成测试集。实验结果如表 2所示。

表 2 不同算法在GRID数据集上的识别率
Table 2 Recognition rates of different methods on GRID

下载CSV
/%
算法 Rank1 Rank5 Rank10 Rank20
LOMO[11] 16.56 33.8 41.84 52.40
BRSF[23] 23.96 - 54.56 63.24
SCSP[16] 24.24 44.56 54.08 65.20
GOG[12] 24.7 47.0 58.4 69.0
本文(NFST) 27.92 46.16 56.56 67.44
本文(SCSP) 30.56 51.20 60.80 71.44
注:加粗字体为该排列(Rank)下的最优结果,“-”表示原文献未提供该排列下的结果。

由于GRID数据集的行人图像分辨率较低、行人姿态和图像颜色变化大,所以在该数据集上行人再识别算法的识别率较低。如表 2所示,不论是采用NFST测度还是采用SCSP测度,本文算法均取得了不错的结果。当距离测度采用NFST时,Rank1为27.92%。当距离测度采用SCSP时,Rank1为30.56%,比文献[12]的结果高出5.86%。从中可以看出本文算法的性能良好。

4.3 PRID450S数据集的测试结果

PRID450S数据集也是一个比较经典的行人再识别数据集,是PRID2011数据集的扩展数据集,一共拍摄了450个行人,共900张行人图片,每个行人的两张图片来自两个不同的摄像机。每次实验随机选取225个行人构成训练集,剩余的225个行人构成测试集。实验结果如表 3所示。

表 3 不同算法在PRID450S数据集上的识别率
Table 3 Recognition rates of different methods on PRID450S

下载CSV
/%
算法 Rank1 Rank5 Rank10 Rank20
文献[24] 48.0 76.2 86.2 92.9
文献[22] 60.62 - 89.82 94.62
FNN[25] 66.62 86.84 92.84 96.89
GOG[12] 68.4 88.8 94.5 97.8
本文(NFST) 70.0 89.20 92.93 96.04
本文(SCSP) 71.82 91.16 95.73 97.56
注:加粗字体为该排列(Rank)下的最优结果,“-”表示原文献未提供该排列下的结果。

表 3所示,本文算法在两种测度上均取得不错的结果。当距离测度采用SCSP时,实现了表 3中的最好结果,其中Rank1为71.82%,比文献[12]的结果高出3.42%,反映了本文算法的良好性能。

4.4 CUHK01数据集的测试结果

CUHK01数据集是一个比较大的数据集,共有971对行人的3 884张行人图片。CUHK01只包含来自两个摄像机的图片,每个摄像机对每个行人拍摄两张图片,所以每个行人共有4张图片。每次实验随机选取485对行人构成训练集,剩余的486对行人构成测试集。实验结果如表 4所示。

表 4 不同算法在CUHK01数据集上的识别率
Table 4 Recognition rates of different methods on CUHK01

下载CSV
/%
算法 Rank1 Rank5 Rank10 Rank20
FNN[25] 55.51 78.40 83.68 92.59
LOMO[11] 63.21 83.89 90.04 94.16
NFST[17] 64.98 84.96 89.92 94.36
GOG[12] 67.3 86.9 91.8 95.9
文献[1] 70.45 87.92 92.67 96.34
本文(NFST) 76.83 91.34 95.02 97.47
本文(SCSP) 79.03 93.60 96.89 98.81
注:加粗字体为该排列(Rank)下的最优结果。

表 4所示,本文算法的结果在两种测度上均实现了显著提升。其中,在NFST测度下本文方法的Rank1为76.83%,比文献[1]的结果高出6.38%。在SCSP测度下本文方法的Rank1达到79.03%,比文献[1]的结果高出8.58%。实验结果表明本文算法在较大的数据集上也有不错的效果。

4.5 BSS分割和IBR算法有效性的验证

为简便高效地验证本文算法的有效性,本文只采用GOG_RGB特征和SCSP测度在VIPeR数据集上进行对比实验。

为验证BSS分割方法的有效性,实验中依次对未分割的整幅图像、采用BSS分割但未采用放大操作的图像和采用BSS分割并采用放大操作的图像提取图像特征并计算相似度,并且实验中未使用IBR算法。表 5给出实验的对比结果。

表 5 图像是否使用BSS分割方法的识别率
Table 5 Recognition rates of whether the image uses BSS segmentation

下载CSV
/%
图像状态 Rank1 Rank5 Rank10 Rank20
无分割 40.73 72.66 83.67 90.89
分割未放大 41.42 71.90 83.54 91.49
分割并放大 43.73 74.87 84.56 92.82
注:加粗字体为该排列(Rank)下的最优结果。

表 5的实验结果可以看出,采用BSS分割方法的实验结果好于没有采用BSS分割的结果,其中Rank1可以提高3%,证明了BSS分割方法的有效性,可以在保留行人有效信息的同时去除无效的背景信息。同时可以发现相对于直接使用分割后的原图像,对分割后图像进行放大操作会进一步提升识别率,其中Rank1提高了2.31%,证明了双线性插值放大的有效作用。

IBR算法处理的是SK区图像中的干扰块,因此实验中采用的是经过分割并放大后的图像。同时为更好地体现IBR算法的有效性,在实验中加入了行人全局图像的特征。表 6给出实验中是否使用IBR算法的实验对比。

表 6 本文算法是否使用IBR剔除的识别率
Table 6 Recognition rates of whether the proposed algorithm uses IBR removal

下载CSV
/%
IBR算法 Rank1 Rank5 Rank10 Rank20
不使用 49.08 77.66 87.97 94.21
使用 50.13 78.86 88.26 94.68
注:加粗字体为该排列(Rank)下的最优结果。

表 6所示,当未采用IBR算法时,实验结果的Rank1为49.08%。当采用IBR算法之后,Rank1提升了1.05%。这表明使用IBR算法可以消除干扰块对识别过程产生的不利影响,从而提高识别率。

为验证IBR算法对于干扰块的定位和分割方法的有效性,实验中依次对SK区采用不同的分割方法进行实验。表 7给出实验的对比结果。

表 7 SK区采用不同分割方法的识别率
Table 7 Recognition rates of the different segmentation methods in the SK region

下载CSV
/%
分割方法 Rank1 Rank5 Rank10 Rank20
均分成3块 50.13 78.86 88.26 94.68
均分成4块 50.64 78.93 88.99 94.80
均分成5块 48.23 76.52 88.07 94.23
注:加粗字体为该排列(Rank)下的最优结果。

表 7所示,将SK区在水平和垂直方向均等分割成4块时可以取得最好的识别率,将SK区均等分割成3块时,Rank1会比均等分割成4块时下降0.51%,将SK区均等划分成5块时,Rank1相较均等划分成4块时下降2.41%。同时,随着SK区划分块数的增加,IBR算法的计算量会大幅度增加。因此,选择均等分成3块是达到整体性能最优的分割方法。

从实验结果可以看出,IBR算法的识别性能随着SK区划分块数的增加而降低。这是因为摄像机的拍摄视角和行人姿态存在较大变化,导致干扰块的大小和位置也产生很大改变。而细致精确的分割方法,对于视觉角度的改变和行人姿态的变化较为敏感,导致分割后的局部区域容易产生区域不对齐的情况,从而降低识别率。但是行人图像对的粗糙区域间的对齐比较稳定,所以将SK区分别在水平方向和垂直方向上分为3块的分割方法可以在实现局部区域检测精度的同时,对于视角和姿态变化具有一定的鲁棒性。

除此之外,相较于均匀分割,非均匀分割在剔除干扰块阶段,可能会因为局部区域的面积较小,剔除的干扰信息较少,也可能因为局部区域的面积较大,剔除的有效信息较多,从而无法稳定地发挥IBR算法的优势。所以将SK区在水平和垂直方向上均等分割为3个子区域,可以较快速准确地定位并分割出图像中的干扰块。

5 结论

本文针对行人再识别中因摄像机视角变化而产生的行人外观差异的问题,利用人体结构信息,通过BSS分割将行人图像按头部、肩—膝部和腿部3个部分进行划分并提取各部分特征,保证对应区域之间进行相似度计算,在一定程度上解决了视角变化带来的行人外观差异问题。同时通过IBR算法去除因姿态变化而产生的干扰块。实验结果证明本文算法显著地提高了行人再识别的性能,具有实际应用的可能。不过,本文的分割方法比较简单,实验中不能自适应地对行人身体部位进行精确分割,使后续特征提取以及IBR算法产生一定误差,未来的工作可以针对图像中行人定位以及前景分割来继续提高行人再识别的性能。除此之外,更加有效地融合不同特征,设计出更有区分性和鲁棒性的特征也值得更进一步的研究。

参考文献

  • [1] Chu H F, Qi M B, Liu H, et al. Local region partition for person re-identification[J]. Multimedia Tools and Applications, 2017. [DOI:10.1007/s11042-017-4817-4]
  • [2] Qi M B, Hu L F, Jiang J G, et al. Person re-identification based on multi-features fusion and independent metric learning[J]. Journal of Image and Graphics, 2016, 21(11): 1464–1472. [齐美彬, 胡龙飞, 蒋建国, 等. 多特征融合与独立测度学习的行人再识别[J]. 中国图象图形学报, 2016, 21(11): 1464–1472. ] [DOI:10.11834/jig.20161106]
  • [3] Qi M B, Wang C C, Jiang J G, et al. Person re-identification based on multi-feature fusion and alternating direction method of multipliers[J]. Journal of Image and Graphics, 2018, 23(6): 827–836. [齐美彬, 王慈淳, 蒋建国, 等. 多特征融合与交替方向乘子法的行人再识别[J]. 中国图象图形学报, 2018, 23(6): 827–836. ] [DOI:10.11834/jig.170507]
  • [4] You J J, Wu A C, Li X, et al. Top-push video-based person re-identification[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 1345-1353.[DOI:10.1109/CVPR.2016.150]
  • [5] Zheng W S, Li X, Xiang T, et al. Partial person re-identification[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 4678-4686.[DOI:10.1109/ICCV.2015.531]
  • [6] Wei L H, Zhang S L, Yao H T, et al. GLAD: global-local-alignment descriptor for pedestrian retrieval[C]//Proceedings of the 25th ACM International Conference on Multimedia. Mountain View, CA, USA: ACM, 2017: 420-428.[DOI:10.1145/3123266.3123279]
  • [7] Liu H, Jie Z Q, Jayashree K, et al. Video-based person re-identification with accumulative motion context[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2018, 28(10): 2788–2802. [DOI:10.1109/TCSVT.2017.2715499]
  • [8] Zhao H Y, Tian M Q, Sun S Y, et al. Spindle net: person re-identification with human body region guided feature decomposition and fusion[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 907-915.[DOI:10.1109/CVPR.2017.103]
  • [9] Li D W, Chen X T, Zhang Z, et al. Learning deep context-aware features over body and latent parts for person re-identification[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 7398-7404.[DOI:10.1109/CVPR.2017.782]
  • [10] Liao S C, Zhao G Y, Kellokumpu V, et al. Modeling pixel process with scale invariant local patterns for background subtraction in complex scenes[C]//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, CA, USA: IEEE, 2010: 1301-1306.[DOI:10.1109/CVPR.2010.5539817]
  • [11] Liao S C, Hu Y, Zhu X Y, et al. Person re-identification by local maximal occurrence representation and metric learning[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 2197-2206.[DOI:10.1109/CVPR.2015.7298832]
  • [12] Matsukawa T, Okabe T, Suzuki E, et al. Hierarchical Gaussian descriptor for person re-identification[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 1363-1372.[DOI:10.1109/CVPR.2016.152]
  • [13] Lisanti G, Masi I, del Bimbo A. Matching people across camera views using kernel canonical correlation analysis[C]//Proceedings of 2014 International Conference on Distributed Smart Cameras. Venezia Mestre, Italy: ACM, 2014: #10.[DOI:10.1145/2659021.2659036]
  • [14] Farenzena M, Bazzani L, Perina A, et al. Person re-identification by symmetry-driven accumulation of local features[C]//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, CA, USA: IEEE, 2010: 2360-2367.[DOI:10.1109/CVPR.2010.5539926]
  • [15] Bąk S, Corvee E, Bremond F, et al. Person re-identification using spatial covariance regions of human body parts[C]//Proceedings of the 7th IEEE International Conference on Advanced Video and Signal Based Surveillance. Boston, MA, USA: IEEE, 2010: 435-440.[DOI:10.1109/AVSS.2010.34]
  • [16] Chen D P, Yuan Z J, Chen B D, et al. Similarity learning with spatial constraints for person re-identification[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 1268-1277.[DOI:10.1109/CVPR.2016.142]
  • [17] Zhang L, Xiang T, Gong S G. Learning a discriminative null space for person re-identification[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 1239-1248.[DOI:10.1109/CVPR.2016.139]
  • [18] Gray D, Tao H. Viewpoint invariant pedestrian recognition with an ensemble of localized features[C]//Proceedings of the 10th European Conference on Computer Vision. Marseille, France: Springer, 2008: 262-275.[DOI:10.1007/978-3-540-88682-2_21]
  • [19] Loy C C, Xiang T, Gong S G. Time-delayed correlation analysis for multi-camera activity understanding[J]. International Journal of Computer Vision, 2010, 90(1): 106–129. [DOI:10.1007/s11263-010-0347-5]
  • [20] Roth P M, Hirzer M, Köstinger M, et al. Mahalanobis distance learning for person re-identification[M]//Gong S G, Cristani M, Yan S C, et al. Person Re-Identification. London: Springer, 2014: 247-267.[DOI:10.1007/978-1-4471-6296-4_12]
  • [21] Li W, Zhao R, Wang X G. Human reidentification with transferred metric learning[C]//Proceedings of the 11th Asian Conference on Computer Vision. Daejeon, Korea: Springer, 2012: 31-44.[DOI:10.1007/978-3-642-37331-2_3]
  • [22] Zhang J, Zhao X. Global-local metric learning for person re-identification[J]. Journal of Image and Graphics, 2017, 22(4): 472–481. [张晶, 赵旭. 整合全局-局部度量学习的人体目标再识别[J]. 中国图象图形学报, 2017, 22(4): 472–481. ] [DOI:10.11834/jig.20170407]
  • [23] Zhang N, Zhang F X, Wang Q, et al. Learning bidirectional relationship similarity function for person re-identification[J]. Computer Systems & Applications, 2018, 27(5): 33–40. [张娜, 张福星, 王强, 等. 基于双向关系相似度函数学习的行人再识别[J]. 计算机系统应用, 2018, 27(5): 33–40. ] [DOI:10.15888/j.cnki.csa.006354]
  • [24] Liu Q, Hou L, Peng Z Y. Invariant feature and kernel distance metric learning based person re-identification[J]. Journal of Image and Signal Processing, 2018, 7(2): 65–73. [刘琦, 侯丽, 彭章友. 基于不变特征和核距离度量学习的行人再识别[J]. 图像与信号处理, 2018, 7(2): 65–73. ] [DOI:10.12677/JISP.2018.72008]
  • [25] Wu S X, Chen Y C, Li X, et al. An enhanced deep feature representation for person re-identification[C]//Proceedings of 2016 IEEE Winter Conference on Applications of Computer Vision. Lake Placid, NY, USA: IEEE, 2016.[DOI:10.1109/WACV.2016.7477681]