Print

发布时间: 2019-11-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190042
2019 | Volume 24 | Number 11




    图像分析和识别    




  <<上一篇 




  下一篇>> 





多形状局部区域神经网络结构的行人再识别
expand article info 陈亮雨, 李卫疆
昆明理工大学信息工程与自动化学院, 昆明 650500

摘要

目的 目前,行人再识别领域将行人图像的全局和局部特征相结合的方法已经成为基本的解决方法。现有的基于局部特征的方法更多的是侧重于定位具有特定的语义区域,这样增加了学习难度,并且对于差异较大的图像场景不具有鲁棒性。为了解决上述问题,通过对网络结构进行改进提出一种多形状局部区域网络(MSPN)结构,它具有多分支并将横向和纵向条状的特征作为局部特征,能够端到端进行训练。方法 网络的多个分支设计可以同时获得多粒度和多形状的局部特征,其中一个分支表示全局特征的学习,两个分支表示横条状不同粒度的局部特征学习,最后一个分支表示竖条状局部特征学习。网络不再学习定位具有特定语义的区域,而是将图像提取的特征切分成横向和竖向的若干条作为局部特征。不同分支条的形状和数量不一致,最后获得不同粒度或不同形状的局部特征信息。因为切分方向的不同,多粒度多形状的局部特征缓解了行人在不同图像中无法对齐的问题。结果 在包括Market-1501、DukeMTMC-ReID和CUHK03在内的主流评估数据集上的综合实验表明,多形状局部区域神经网络和现有的主要方法相比具有更好的表现。其中在数据集Market-1501上达到84.57%的平均准确率(mAP)和94.51%的rank-1准确率。结论 多形状局部区域网络能够学习得到判别能力更强的深度学习模型,从而有效地提升行人再识别的准确率。

关键词

公共安全; 监控; 行人再识别; 卷积神经网络; 深度学习; 局部区域特征

Multishape part network architecture for person re-identification
expand article info Chen Liangyu, Li Weijiang
Department of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China
Supported by: National Natural Science Foundation of China(61363045)

Abstract

Objective Person re-identification (ReID) aims to associate the same pedestrian across multiple cameras. It has attracted rapidly increasing attention in the computer vision community because of its importance for many potential applications, such as video surveillance analysis and content-based image/video retrieval. Person ReID is a challenging task. First, when a single person is captured by different cameras, the illumination conditions, background clutter, occlusion, observable human body parts, and perceived posture of the person can be dramatically different. Second, even within a single camera, the aforementioned conditions can vary through time as the person moves and engages in different actions (e.g., suddenly taking something out of a bag while walking). Third, a gallery itself usually consists of diverse images of a single person from multiple cameras, which, given the above factors, generate high intraclass variation that impedes the generalization of learned representations. Fourth, compared with images in problems such as object recognition or detection, images in person ReID benchmarks are usually of lower resolution, making it difficult to extract distinctive attributes to distinguish one identity from another. The success of deep convolutional networks has introduced powerful representations with high discrimination and robustness for pedestrian images and enhanced the performance of ReID. The combination of global and local features has been an essential solution to improve discriminative performances in person ReID tasks. Previous methods based on local features focused on locating regions with specific predefined semantics, which increased the learning difficulty and did not have robustness for different scenarios. In this study, a multishape part network (MSPN) that has horizontal and vertical strip features as local features is designed. This network can train from end to end. Method We carefully design the MSPN, which is a multibranch deep network architecture consisting of one branch for global feature representations and three branches for local feature representations. MSPN no longer learns to locate regions with specific semantics. Instead, the features extracted from images are divided into horizontal and vertical ones. The shape and partition of different branches are different. Local feature information with different granularities is finally obtained. Our network can be compatible with the horizontal and vertical dislocation of different image features of the same pedestrian because of the different directions of partition. Result Comprehensive experiments implemented on mainstream evaluation data sets, including Market-1501, DukeMTMC-ReID, and CUHK03, indicate that our method robustly achieves state-of-the-art performances. Conclusion A pedestrian recognition method based on MSPN, which can obtain a high discriminative representation of different pedestrians, is proposed in this study. The performance of person ReID is improved effectively.

Key words

public security; surveillance; person re-identification; convolutional neural network(CNN); deep learning; part local feature

0 引言

行人再识别(ReID)是研究跨多个监控摄像头检索行人的任务。行人再识别算法既具研究价值同时又极富挑战性,能够实现跨越时间和空间对目标人体(人群)进行跟踪、匹配与身份鉴定,也是近年来计算机视觉的研究热点之一。

随着行人再识别技术的不断成熟,这项技术也开始展现出它巨大的应用价值。在刑侦领域,行人再识别算法对人体特征进行建模的特性与刑侦工作对人体图像检索的需求相契合。在零售领域,行人再识别算法能够帮助商场超市经营者获取有效的顾客轨迹,识别顾客身份,从而深入挖掘可以利用的商业价值。在智慧城市中,相应智能系统的成功实施也依赖于鲁棒、高性能的行人再识别算法。由于来自监控视频的图像的场景复杂性,存在的困难点需要克服,例如光线、遮挡、图像模糊等客观因素。另外,行人的穿着多样,同一人穿不同的衣服,不同的人穿相似的衣服等等也对行人再识别技术提出更高的要求。行人的姿态多变导致人脸上广泛使用的对齐技术也在ReID失效。行人的数据获取难度远远大于人脸识别数据获取难度,而行人的信息复杂程度又远远大于人脸,这两个因素叠加在一起使得ReID的算法研究变得更加困难,也更加重要。2012年以来,以卷积神经网络(CNN)为代表的深度学习模型在计算机视觉领域取得了巨大成功。同时,CNN也带动了行人再识别领域的研究,将行人再识别的准确率提升到了一个新的水平。

行人表示的直观方法是从图像上提取行人全局特征。通过学习全局特征来捕捉最显著的外观特征, 从而表示不同行人的身份。然而,在监控场景中捕获的图像通常具有较高的复杂性,会对大规模行人检索场景的特征学习造成影响,降低准确性。由于行人检索训练数据集的规模有限、多样性较弱,在全局特征学习过程中一些不显著或不常见的细节信息容易被忽略。因此全局特征难以表示类间相似、类内差异很大的数据集。

为了缓解这个问题,从图像中定位重要的身体部位表示当前行人的局部特征已被证实对提高行人再识别准确率是有效的。每个定位的局部特征只包含来自整个行人的小部分信息。定位重要身体部位时会过滤掉这些部位区域以外的其他信息。通过定位局部特征可以获得更多和行人身份相关的信息作为全局特征的有效补充。行人再识别基于局部特征的方法中,根据定位局部特征方式的不同可分为3类:1)定位具有结构信息的局部区域,如根据人体的先验知识[1-4]或学习的行人姿态[5-6]。2)用区域建议(region proposal)[7-8]的方法定位局部区域。3)通过注意力机制定位重要区域[9-12]。但在一些特殊情况下,这些方法的有效性会受到影响。首先,姿态变化或遮挡会影响局部特征表示的可靠性。其次,这些方法几乎只关注具有固定语义的区域,但不能涵盖所有具有区分性信息的区域。并且,这些方法大多不是端到端的方式学习,增加了学习难度。

与以往的方法不同,本文将整个特征图横向等分和竖向等分得到条状局部特征。由于横向切分相比竖向切分更符合行人图像特点,因此以往更多地利用横向切分而极少用到竖向切分,本文研究发现同时采用横向切分和竖向切分可以取得更好的效果。

本文提出一种多形状局部区域网络(MSPN),主要贡献如下:

1) 设计了一个多形状局部区域网络,具有多个分支。不同的分支对全局特征和不同的局部特征进行学习,竖向切分得到的局部特征能与横向切分得到的局部特征形成互补。

2) 将DropBlock[13]加入到网络,增加了网络的鲁棒性。

1 行人再识别的相关工作

随着深度学习的蓬勃发展,使用深度神经网络学习特征已成为行人再识别任务的常见方法。文献[14-15]首先将深度孪生网络(siamese network)结构引入行人再识别并结合身体部位特征学习,实现了与当时手动提取特征相比更好的效果。

Zheng等人[16]提出使用ResNet-50作为主干网络的IDE,作为使用深度学习在行人再识别任务上的性能基准。之后许多方法相继提出来改善深度行人再识别的性能。文献[17-18]通过计算图像对中间层特征,用精心设计的机制表达局部区域间的相互关系。Xiao等人[19]介绍了域引导随机失活(domain guided dropout),它可以增强网络模型在不同域数据集中的泛化能力。Zhong等人[20]将重排序策略引入到行人再识别任务,通过修改排序结果提高准确性。

近年,一些深度神经网络的ReID方法将性能提高到非常高的水平。Zhang等人[4]在训练阶段引入了基于局部区域特征的最短路径规划与互学习匹配算法提高度量学习性能。文献[3, 21]均将输入图像的特征切分成若干横条。Bai等人[21]通过LSTM(long short-term memory)将切分后的局部特征融合起来,并融合在分类学习与度量学习中得到的全局特征,取得很好的效果。而Sun等人[3]提出直接拼接局部特征作为最终表示和部分精炼池化(refined part pooling)。

在所有改进策略中,结合图像的局部特征是相对更有效的。本文总结了3种局部特征学习的方式:1)根据人体结构先验知识确定区域;2)通过区域建议(region proposal)的方法定位身体部位;3)利用注意力机制增强特征区分性。在文献[1-3]中,根据人体结构先验知识,将图像在水平方向上分割成若干横条,学习局部特征表示。文献[6, 22]利用姿态估计方法预测人体的landmarks信息,然后裁剪出更精确的人体区域。为了在没有特别精确的预测器的情况下定位语义区域,在某些基于局部特征(part)的方法[8-9, 11-12, 23]中采用了区域建议(region proposal)的方法[24-25]。注意力机制可以使网络提取更具区分性特征,在文献[9-11]中提高了网络模型的区分能力。在本文方法中,使用简单的横条和竖条作为局部特征学习的局部区域。

目前行人再识别实验结果最好的方法大多来自基于局部特征的方法,而现有的基于局部特征的方法大多无法获取满意的局部区域特征,因此设计一个能够更好提取局部区域特征的网络是必要的。

2 多形状局部区域神经网络结构

2.1 网络结构

多形状局部区域神经网络结构如图 1所示。本文网络所用的骨干网络是resnet50,它在很多行人再识别任务中都有着较好的表现[3-4, 21]。基于resnet50,将conv4_X后的网络分成4个独立的分支,这4个分支的网络部分与原始resnet50结构的conv5_X相似。并在网络的conv3_X和conv4_X的输出位置上加入DropBlock。表 1展示了本文网络的结构设置。

图 1 多形状局部区域神经网络结构的示意图
Fig. 1 Illustration of multi-shape part network architecture

表 1 本文网络结构设置对比
Table 1 Comparison of the settings for three branches in our network

下载CSV
分支名 分支号 特征大小 特征维度 特征名
Global 1 12×4 256 $\mathit{\boldsymbol{g}}$
Part-H-2 2 24×8 256×2+256 $1{\mathit{\boldsymbol{p}}_i}|_1^2$
Part-H-3 3 24×8 256×3+256 $2{\mathit{\boldsymbol{p}}_i}|_1^3$
Part-Ⅴ-2 4 24×8 256×2+256 $3{\mathit{\boldsymbol{p}}_i}|_1^2$

表 1中Global分支在conv5_1 block中采用stride-2卷积进行下采样,然后进行全局平均池化(GAP)得到2 048维的特征${\mathit{\boldsymbol{f}}_1}$,再对${\mathit{\boldsymbol{f}}_1}$采用1×1卷积进行降维,得到256维的特征${\mathit{\boldsymbol{h}}_1}$。然后进行批归一化处理(BN)和ReLU,最终进入全连接层和交叉熵损失。该分支学习具有区分性信息的全局特征$\mathit{\boldsymbol{g}}$表示,因此将该分支命名为全局分支。

其余3个分支与全局分支共享相同的网络结构。本文conv5_1 block中不采用下采样操作,并且每个分支的输出特征在水平或竖直方向上均匀分割成若干条状特征作为局部特征$\left\{ {1{\mathit{\boldsymbol{p}}_i}|_1^2, 2{\mathit{\boldsymbol{p}}_i}|_1^3, 3{\mathit{\boldsymbol{p}}_i}|_1^2} \right\}$,局部特征的后面部分操作与全局特征分支相似,这样便可提取局部特征。本文对切分得到的条状局部特征采用全局最大池化(GMP)操作。将网络的这些分支称为Part-H(Ⅴ)-$N$分支,其中H表示水平方向切分特征图,Ⅴ表示竖直方向切分特征图,$N$表示切分的数量。如表 1中的第2个分支命名为Part-H-2, 最后一个分支命名为Part-Ⅴ-2。

2.2 局部特征的横向和竖向切分

图 1所示,用了两个分支{Part-H-2,Part-H-3}做横向切分,分别将本分支最后1个卷积层的特征图切分成两份$\left\{ {1{\mathit{\boldsymbol{p}}_1}, 1{\mathit{\boldsymbol{p}}_2}} \right\}$和3份$\left\{ {2{\mathit{\boldsymbol{p}}_1}, 2{\mathit{\boldsymbol{p}}_2}, 2{\mathit{\boldsymbol{p}}_3}} \right\}$。多种横向切分方式能够得到多粒度的局部特征。由于输入的行人图像较窄,只采用一个将特征图切分成两份$\left\{ {3{\mathit{\boldsymbol{p}}_1}, 3{\mathit{\boldsymbol{p}}_2}} \right\}$的竖向分支。图 2展示了被切分的特征图所对应的图像切分。

图 2 Tensor $\boldsymbol{T}$的3种切分方式
Fig. 2 Three partition methods of Tensor $\boldsymbol{T}$

然后,在切分后的条状局部特征图$\left\{ {1{\mathit{\boldsymbol{p}}_i}|_1^2, 2{\mathit{\boldsymbol{p}}_i}|_1^3, 3{\mathit{\boldsymbol{p}}_i}|_1^2} \right\}$上进行全局池化操作,同一个行人不同的两幅图像只要在对应的局部特征上具有相同的部位特征,即便部位特征在对应局部特征图上的位置不一致,而在全局池化后依然能得到相差不多的结果。因此,横向切分分支和竖向切分分支相当于增强了网络提取特征的横向和竖向不对齐的容错率。

图 3中,蓝色线条表示错误的切分方向,黄色线条表示正确的切分方向。图 3(a)中左右两张图包含的是同一行人,但两张图中的行人图像因为无法对齐,容易被判断成不同的两个行人。左图行人在图正中,右图的行人在图中偏下的位置,若采用黄线表示的横向切分,则上端切分出的大部分是背景和很少部分人头,而左图上端切分出的是人的上半身。若图 3(a)采用蓝线表示的竖向切分,则左右两图对应的切分后的局部特征包含相差不多的身体部位,再将局部特征做全局池化,忽略掉不重要的信息,左右两图便更容易匹配。图 3(b)左右两图包含的也是同一个行人。根据蓝线和黄线切分结果可以看出,采用黄线表示的横向切分能让两图的局部特征更好地匹配。因此,根据不同的图像,对应的合理的切分方式不同。

图 3 多形状局部区域
Fig. 3 Multi-shape part
((a) vertical strip; (b) horizontal strip)

采用softmax激活函数作为全局特征和每个局部特征的分类器,softmax损失表达为

$ L_{\mathrm{softmax}}=-\sum\limits_{i=1}^{N} \log \frac{\exp \left(W_{y_{i}}^{T} \boldsymbol{h}_{i}\right)}{\sum\limits_{k=1}^{c} \exp \left(W_{k}^{T} \boldsymbol{h}_{i}\right)} $ (1)

式中,$N$是mini-batch的大小,$C$是训练数据集的种类数, ${\mathit{\boldsymbol{h}}_i}$是输入的图像特征, $W_{y_{i}}^{T}$$W_{k}^{T}$都表示全连接层的权重。

在训练阶段,每个分类器预测输入图像行人的身份标签,并用交叉熵损失作为监督;在测试阶段,将特征${\mathit{\boldsymbol{p}}_i}(i = 1, 2, \cdots, 8)$拼接起来作为输入图像的最终表示。

2.3 DropBlock

DropBlock是由Ghiasi等人[13]提出的一种正则化方法。多形状局部区域神经网络中,一般通过加入DropBlock提高了网络鲁棒性。目前神经网络设计的时候,通常会在全连接网络后加DropOut由于全连接层参数过多而产生过拟合,但DropOut加到卷积层通常没有效果。卷积层的特征图中相邻位置元素在空间上共享语义信息,虽然DropOut方法将整个特征图随机丢弃元素,但相邻的元素依然可以有该位置的语义信息。而如果将特征图按块(block)丢弃,则在分类和分割网络中达到了较好的效果。本文将DropBlock放到骨干网络resnet50的conv3_x和conv4_x后, 以期优化行人再识别网络。

3 实验

3.1 实验数据集

本文使用3个数据集进行评估,即Market-1501[26]、DukeMTMC-reID[27]和CUHK03[14]

1) Market-1501数据集包括由6个摄像头(其中5个高清摄像头和1个低清摄像头)拍摄到的1 501个行人、32 668个检测到的行人矩形框。每个行人至少由2个摄像头捕获到,并且在一个摄像头中可能具有多幅图像。训练集有751人,包含12 936幅图像,平均每个人有17.2幅训练图像;测试集有750人,包含19 732幅图像,平均每个人有26.3幅测试图像。3 368幅查询图像的行人检测矩形框是人工绘制的,而gallery中的行人检测矩形框则是使用DPM(deformable part model)检测器[28]检测得到的。

2) DukeMTMC数据集是一个大规模标记的多目标多摄像机行人跟踪数据集。它提供了一个由8个同步摄像机记录的新型大型高清视频数据集,具有7 000多个单摄像机轨迹和超过2 700多个独立人物,DukeMTMC-reID[29]是DukeMTMC数据集的行人再识别子集,包含1 404个人,16 522幅训练图像,2 228幅查询图像和17 661幅gallery图像,并且提供了人工标注的bounding box。

3) CUHK03数据集的图像采集于香港中文大学(CUHK)校园。数据以“cuhk-03.mat”的MAT文件格式存储,含有1 467个不同的人物,由5对摄像头采集。

3.2 实验设置及评价标准

使用深度学习框架pytorch来实现本文方法。实验所用的硬件配置如下,GPU:GTX TITAN X(显存12 GB)、内存128 GB、CPU:Intel(R) Xeon(R) CPU E5-2620 v3(主频2.40 GHz)。

实验设置batch size为64,输入图像的大小调整为384×128像素,选用resnet50作为骨干网络,采用在ImageNet上训练的参数作为预训练模型。初始学习率为0.06,在20个epoch和40个epoch时分别将学习率衰减到0.012和0.002 4。训练图像采用随机水平翻转做数据扩增,经过60个epoch训练停止。选用动量设置为0.9的SGD(stochastic gradient descent)作为优化器。

本文评价行人再识别方法采用rank-1, rank-5和rank-10的累计匹配特性(CMC)和平均准确率(mAP)。

3.3 在Market-1501数据集上的实验结果

Market-1501数据集的实验结果如表 2。MSPN w/o drop表示MSPN不带DropBlock的实验,MSPN w/o part-Ⅴ-2表示MSPN去除竖向切分的分支part-Ⅴ-2后的实验。

表 2 在数据集Market-1501上的比较结果
Table 2 Comparison results on Market-1501 dataset

下载CSV
/%
方法 mAP CMC
rank 1 rank 5 rank 10
MSPN 84.57 94.51 97.68 98.40
本文 MSPN w/o drop 84.37 94.26 97.82 98.34
MSPN w/o 83.61 93.81 97.34 98.43
PCB+RPP[3] 81.6 93.8 97.5 98.5
PCB[3] 77.4 92.3 97.2 98.2
GLAD*[30] 73.9 89.9 - -
MultiScale[31] 84.1 88.9 - -
局部特征的深度学习 PartLoss[8] 69.3 88.2 - -
PDC*[6] 63.4 84.4 92.7 94.9
MultiLoss[2] 64.4 83.9 - -
PAR[12] 84.9 88.2 90.5 94.7
HydraPlus[11] 85.1 76.9 91.3 94.5
MultiRegion[33] 41.2 66.4 85.0 90.2
DML[34] 68.8 87.7 - -
Transfer[35] 65.5 83.7 - -
全局特征的深度学习 Triplet Loss[36] 69.1 84.9 94.2 -
PAN[37] 63.4 82.8 - -
SVDNet[38] 62.1 82.3 92.3 95.2
SOMAnet[39] 47.9 73.9 - -
注:*表示需要辅助部件标签的方法,加粗数值表示最优结果,“-”代表原论文没有给出结果,w/o表示没有采用。

实验结果表明基于局部的方法通常得到更好的评估分数。本文提出的网络MSPN依靠合理的局部区域划分方式取得最好的结果。不带part-Ⅴ-2分支的MSPN与MSPN相比mAP低0.96%,rank-1低0.5%,MSPN相比没有DropBlock的MSPN带来0.2%的mAP提升,0.25%的rank-1提升,这表明DropBlock和part-Ⅴ-2分支对模型有正向提升,part-Ⅴ-2分支能够提高1.26%的mAP精度,具有较明显作用。

MSPN w/o part-Ⅴ-2与只用到横向切分的方法PCB+RPP进行对比,mAP有2.01%的提升,rank-1相差不多,性能好于PCB+RPP。

3.4 在数据集DukeMTMC-ReID上的实验结果

数据集DukeMTMC-ReID实验如表 3所示。

表 3 在数据集DukeMTMC-ReID上比较结果
Table 3 Comparison results on DukeMTMC-ReID dataset

下载CSV
/%
方法 mAP rank-1
MSPN(本文) 75.96 87.12
MSPN w/o drop 75.30 86.98
MSPN w/o part-Ⅴ-2 74.52 86.06
SVDNet[38] 56.8 76.7
AOS[7] 62.1 79.2
HA-CNN[9] 63.8 80.5
GSRW[40] 66.4 80.7
DuATM[2] 64.6 81.8
PCB+RPP[3] 69.2 83.3
PSE+ECN[23] 75.7 84.5
DNN-CRF[21] 69.5 84.9
GP-reid[41] 72.8 85.2
注:加粗字体表示最优结果。

表 3可以看出MSPN相比其他方法取得最好的实验结果。没有part-Ⅴ-2分支的MSPN与MSPN相比mAP低1.44%,rank-1低1.06%,MSPN相比没有DropBlock的MSPN带来mAP 0.78%的提升,0.14%的rank-1提升,这表明了竖向切分分支part-Ⅴ-2给网络带来了整体提升,DropBlock也展示出一定的效果。

MSPN w/o part-Ⅴ-2相比同样只有横向切分成局部区域的PCB mAP有5.32%的提升,rank-1有2.76%的提升。可以看到在数据集DukeMTMC-ReID上本文方法优势明显。

3.5 在数据集CUHK03上的实验结果

数据集CUHK03实验如表 4所示,MSPN相比其他方法取得最好的实验结果。

表 4 在数据集CUHK03上的比较结果
Table 4 Comparison results on CUHK03 dataset

下载CSV
/%
方法 mAP rank-1
MSPN(本文) 66.52 68.73
MSPN w/o drop 66.12 68.35
MSPN w/o part-Ⅴ-2 65.85 67.95
PCB+RPP[3] 57.5 63.7
MLFN[42] 47.8 52.8
HA-CNN[9] 48.6 41.7
SVDNet[38] 37.3 41.5
PAN[20] 34 36.3
IDE[16] 19.7 21.3
注:加粗字体表示最优结果。

没有part-Ⅴ-2分支的MSPN与MSPN相比mAP低0.97%,rank-1低0.78%,MSPN相比没有DropBlock的MSPN带来mAP 0.4%的提升,0.38%的rank-1提升。

相比对特征图进行横向切分的PCB+RPP,MSPN在mAP上高出9.02%,rank-1高出5.03%,具有明显的优势。

图 4展示了在Market-1501数据集中通过几幅检索图像用MSPN检索得到的排序前10的结果。排序前10的图像中绿色边缘框的图像和检索图像属于同一人,红色边缘框则不为同一人。图 4中的行人图像检索结果展示了多形状局部区域网络(MSPN)很强的鲁棒性。无论被检索图像中的行人姿态、位置和视角如何变化都得到了很好的排序结果。

图 4 数据集Market-1501实验结果示例
Fig. 4 Example of experimental results on Market-1501 datasets by MSPN

4 结论

本文提出了一种多形状部件网络行人再识别方法,它的特点是:1)多分支深度学习网络,整个网络训练是端到端的;2)多形状部件网络,其中两个分支分别将特征图均匀横向切分成两部分和三部分,形成不同粒度的局部区域学习;3)多形状部件网络,其中一个分支将特征图竖向切分成两部分,使竖向切分的局部特征和横向切分的局部特征相结合,提高不同图像特征对齐的容错率;4)将DropBlock模块加入到多形状部件网络;5)在最流行的3个公开数据集(Market-1501、CUHK03和DukeMTMC-reID)上取得当前最好的结果之一。下一步将会围绕多形状部件网络与注意力机制相结合进行研究。

参考文献

  • [1] Cheng D, Gong Y H, Zhou S P, et al. Person re-identification by multi-channel parts-based CNN with improved triplet loss function[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 1335-1344.[DOI: 10.1109/CVPR.2016.149]
  • [2] Li W, Zhu X T, Gong S G. Person re-identification by deep joint learning of multi-loss classification[C]//Proceedings of the 26th International Joint Conference on Artificial Intelligence. Melbourne, Australia, 2017: 2194-2200.[DOI: 10.24963/ijcai.2017/305]
  • [3] Sun Y F, Zheng L, Yang Y, et al. Beyond part models: person retrieval with refined part pooling (and a strong convolutional baseline)[C]//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018: 501-518.[DOI: 10.1007/978-3-030-01225-0_30]
  • [4] Zhang X, Luo H, Fan X, et al. AlignedReID: surpassing human-level performance in person re-identification[EB/OL].2018-11-22[2019-06-02].https://arxiv.org/pdf/1711.08184.pdf.
  • [5] Zhao H Y, Tian M Q, Sun S Y, et al. Spindle net: person reidentification with human body region guided feature decomposition and fusion[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 907-915.[DOI: 10.1109/CVPR.2017.103]
  • [6] Su C, Li J N, Zhang S L, et al. Pose-driven deep convolutional model for person re-identification[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 3980-3989.[DOI: 10.1109/ICCV.2017.427]
  • [7] Huang H J, Li D W, Zhang Z, et al. Adversarially occluded samples for person re-identification[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 5098-5107.[DOI: 10.1109/CVPR.2018.00535]
  • [8] Yao H T, Zhang S L, Zhang Y D, et al. Deep representation learning with part loss for person re-identification[EB/OL].2017-11-16[2019-06-02].https://arxiv.org/pdf/1707.00798.pdf.
  • [9] Li W, Zhu X T, Gong S G. Harmonious attention network for person re-identification[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 2285-2294.[DOI: 10.1109/CVPR.2018.00243]
  • [10] Liu H, Feng J S, Qi M B, et al. End-to-end comparative attention networks for person re-identification[J]. IEEE Transactions on Image Processing, 2017, 26(7): 3492–3506. [DOI:10.1109/TIP.2017.2700762]
  • [11] Liu X H, Zhao H Y, Tian M Q, et al. Hydraplus-net: attentive deep features for pedestrian analysis[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 350-359.[DOI: 10.1109/ICCV.2017.46]
  • [12] Zhao L M, Xi L, Zhuang Y T, et al. Deeply-learned part-aligned representations for person re-identification[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 3219-3228.[DOI: 10.1109/ICCV.2017.349]
  • [13] Ghiasi G, Lin T Y, Le Q V. DropBlock: a regularization method for convolutional networks[C]//Proceedings of Advances in Neural Information Processing Systems. 2018: 10727-10737.
  • [14] Li W, Zhao R, Xiao T, et al. DeepReID: deep filter pairing neural network for person re-identification[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE, 2014: 152-159.[DOI: 10.1109/CVPR.2014.27]
  • [15] Yi D, Lei Z, Liao S C, et al. Deep metric learning for person reidentification[C]//Proceedings of the 22nd International Conference on Pattern Recognition. Stockholm, Sweden: IEEE, 2014: 34-39.[DOI: 10.1109/ICPR.2014.16]
  • [16] Zheng L, Yang Y, Hauptmann A G. Person re-identification: past, present and future[EB/OL].2016-10-10[2019-06-02].https://arxiv.org/pdf/1610.02984.pdf.
  • [17] Ahmed E, Jones M, Marks T K. An improved deep learning architecture for person re-identification[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 3908-3916.[DOI: 10.1109/CVPR.2015.7299016]
  • [18] Varior R R, Haloi M, Wang G. Gated siamese convolutional neural network architecture for human re-identification[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016: 791-808.[DOI: 10.1007/978-3-319-46484-8_48]
  • [19] Xiao T, Li H S, Ouyang W L, et al. Learning deep feature representations with domain guided dropout for person re-identification[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 1249-1258.[DOI: 10.1109/CVPR.2016.140]
  • [20] Zhong Z, Zheng L, Cao D L, et al. Re-ranking person re-identification with k-reciprocal encoding[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 3652-3661.[DOI: 10.1109/CVPR.2017.389]
  • [21] Bai X, Yang M K, Huang T T, et al. Deep-person: learning discriminative deep features for person re-identification[EB/OL].2018-07-04[2019-06-02].https://arxiv.org/pdf/1711.10658.pdf.
  • [22] Sun Y, Wang X G, Tang X O. Deeply learned face representations are sparse, selective, and robust[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 2892-2900.[DOI: 10.1109/CVPR.2015.7298907]
  • [23] Li D W, Chen X T, Zhang Z, et al. Learning deep context-aware features over body and latent parts for person re-identification[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 7398-7407.[DOI: 10.1109/CVPR.2017.782]
  • [24] Girshick R. Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 1440-1448.[DOI: 10.1109/ICCV.2015.169]
  • [25] Jaderberg M, Simonyan K, Zisserman A, et al. Spatial transformer networks[C]//Proceedings of Advances in Neural Information Processing Systems[EB/OL].2016-02-04[2019-06-02].https://arxiv.org/pdf/1506.02025.pdf.
  • [26] Zheng L, Shen L Y, Tian L, et al. Scalable person re-identification: a benchmark[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 1116-1124.[DOI: 10.1109/ICCV.2015.133]
  • [27] Zheng Z D, Zheng L, Yang Y. Unlabeled samples generated by GAN improve the person re-identification baseline in vitro[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 3774-3782.[DOI: 10.1109/ICCV.2017.405]
  • [28] Felzenszwalb P, McAllester D, Ramanan D. A discriminatively trained, multiscale, deformable part model[C]//Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, AK, USA: IEEE, 2008: 1-8.[DOI: 10.1109/CVPR.2008.4587597]
  • [29] Ristani E, Solera F, Zou R, et al. Performance measures and a data set for multi-target, multi-camera tracking[C]//Proceedings of European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016: 17-35.[DOI: 10.1007/978-3-319-48881-3_2]
  • [30] Wei L H, Zhang S L, Yao H T, et al. GLAD: global-local-alignment descriptor for pedestrian retrieval[C]//Proceedings of the 25th ACM International Conference on Multimedia. Mountain View, California, USA: ACM, 2017: 420-428.[DOI: 10.1145/3123266.3123279]
  • [31] Chen Y B, Zhu X T, Gong S G. Person re-identification by deep learning multi-scale representations[C]//Proceedings of 2017 IEEE International Conference on Computer Vision Workshops. Venice, Italy: IEEE, 2017: 2590-2600.[DOI: 10.1109/ICCVW.2017.304]
  • [32] Su C, Li J N, Zhang S L, et al. Pose-driven deep convolutional model for person re-identification[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 3980-3989.[DOI: 10.1109/ICCV.2017.427]
  • [33] Ustinova E, Ganin Y, Lempitsky V. Multi-region bilinear convolutional neural networks for person re-identification[C]//Proceedings of the 14th IEEE International Conference on Advanced Video and Signal Based Surveillance. Lecce, Italy: IEEE, 2017: 1-6.[DOI: 10.1109/AVSS.2017.8078460]
  • [34] Zhang Y, Xiang T, Hospedales T M, et al. Deep mutual learning[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 4320-4328.[DOI: 10.1109/CVPR.2018.00454]
  • [35] Geng M Y, Wang Y W, Xiang T, et al. Deep transfer learning for person re-identification.[EB/OL].2016-11-16[2019-06-02].https: //arxiv.org/pdf/1611.05244.pdf.
  • [36] Hermans A, Beyer L, Leibe B. In defense of the triplet loss for person re-identification[EB/OL].2017-11-21[2019-06-02].https://arxiv.org/pdf/1611.05244.pdf.
  • [37] Zheng Z D, Zheng L, Yang Y. Pedestrian alignment network for large-scale person re-identification[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2018. [DOI:10.1109/TCSVT.2018.2873599]
  • [38] Sun Y F, Zheng L, Deng W J, et al. SVDNet for pedestrian retrieval[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 3820-3828.[DOI: 10.1109/ICCV.2017.410]
  • [39] Barbosa I B, Cristani M, Caputo B, et al. Looking beyond appearances:synthetic training data for deep CNNs in re-identification[J]. Computer Vision and Image Understanding, 2018, 167: 50–62. [DOI:10.1016/j.cviu.2017.12.002]
  • [40] Shen Y T, Li H S, Xiao T, et al. Deep group-shuffling random walk for person re-identification[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 2265-2274.[DOI: 10.1109/CVPR.2018.00241]
  • [41] Si J L, Zhang H G, Li C G, et al. Dual attention matching network for context-aware feature sequence based person re-identification[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 5363-5372.[DOI: 10.1109/CVPR.2018.00562]
  • [42] Chang X B, Hospedales T M, Xiang T. Multi-level factorisation net for person re-identification[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 2109-2118.[DOI: 10.1109/CVPR.2018.00225]