发布时间: 2018-07-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170557
2018 | Volume 23 | Number 7

图像分析和识别

两路互补对称CNN结构的行人再识别

朱福庆¹, 孔祥维¹, 付海燕¹, 田奇²

1. 大连理工大学信息与通信工程学院, 大连 116024;

2. 美国德州大学圣安东尼奥分校计算机科学系, 圣安东尼奥 TX 78249 美国

收稿日期: 2017-10-26; 修回日期: 2018-01-29

基金项目: 国家自然科学基金项目（61772111，61502073）

第一作者简介: 朱福庆, 1987年生, 男, 大连理工大学信息与通信工程学院信号与信息处理专业博士, 主要研究方向为图像检索, 行人再识别和深度学习。E-mail:fuqingzhu@mail.dlut.edu.cn;
付海燕, 女, 高级工程师, 研究方向为图像检索和计算机视觉。E-mail:fuhy@dlut.edu.cn;
田奇, 男, 教授, 研究方向为多媒体信息检索、模式识别和计算机视觉。E-mail:qitian@cs.utsa.edu.

中图法分类号: TP391.41

文献标识码: A

文章编号: 1006-8961(2018)07-1052-09

摘要

目的行人再识别的任务是研究如何在海量监控数据中准确地识别出某个特定场合中曾经出现过的人，已成为公共安全领域中一项新的且具有挑战性的研究课题。其挑战在于，行人在图像中有较大的姿态、视角、光照等变化，这些复杂的变化会严重影响行人再识别性能。近年来，以卷积神经网络（CNN）为代表的深度学习方法在计算机视觉领域取得了巨大的成功，也带动了行人再识别领域的相关研究。CNN有效地克服了行人变化，取得较高的准确率。然而，由于行人再识别数据集中行人标注量小，利用现有的一路CNN模型，其训练过程并不够充分，影响了深度学习模型的鉴别能力。为了解决上述问题，通过对网络结构进行改进，提出一种两路互补对称的CNN结构用于行人再识别任务。方法本文方法每次同时输入两路样本，其中每路样本之间具有互补特性，此时在有限的训练样本下，输入的组合会更加多样化，CNN模型的训练过程更加丰富。结果对本文提出的方法在两个公开的大规模数据集（Market-1501和DukeMTMC-reID）上进行实验评估，相比于基线方法有稳定的提升，相比于现存的其他一些方法，其结果也有竞争力。在Market-1501数据集上，1选识别正确率和平均精度均值分别达到了73.25%和48.44%。在DukeMTMC-reID数据集上，1选识别正确率和平均精度均值分别达到了63.02%和41.15%。结论本文提出的两路互补对称CNN结构的行人再识别方法，能够在现有的有限训练样本下，更加充分地训练CNN模型，学习得到鉴别能力更强的深度学习模型，从而有效地提升行人再识别的性能。

关键词

公共安全; 监控; 行人再识别; 卷积神经网络; 深度学习; 两路结构; 互补对称

Two-stream complementary symmetrical CNN architecture for person re-identification

Zhu Fuqing¹, Kong Xiangwei¹, Fu Haiyan¹, Tian Qi²

1. School of Information and Communication Engineering, Dalian University of Technology, Dalian, Liaoning 116024, China;

2. Department of Computer Science, University of Texas at San Antonio, San Antonio TX 78249, USA

Supported by: National Natural Science Foundation of China (61772111, 61502073)

Abstract

Objective Person re-identification aims to identify persons of interest, who appear in particular scenarios, from mass surveillance data. Accurately implementing this process is critical. Thus, person re-identification has become a novel and challenging research topic for the community of public security. The main challenge is the pedestrian variations in images, which are as follows. First, pedestrian poses have complex varieties due to different human activities. Second, numerous camera perspectives exist because of the varying locations. Third, illumination differs in each period. These pedestrian variations compromise the performance of person re-identification. Recently, the CNN-based deep learning method has achieved great success in vision community applications. CNN has also led to the research of person re-identification, which has been demonstrated in several related works. The deep model, which can overcome these complex pedestrian variations effectively, has achieved better accuracy than traditional person re-identification methods. However, the number of annotated pedestrian images in the existing person re-identification dataset is relatively small due to the difficulty of pedestrian annotation in practice. Under this limited training set, the training process of the CNN model is insufficient using the existing one-stream architecture. Consequently, the discriminative ability of the learned deep model is compromised. To address these problems, we propose a two-stream complementary symmetrical CNN model, which has an improved network structure, for person re-identification. Method The newly designed architecture uses two-stream samples as input simultaneously. Each stream has complementary characteristics due to the concatenation of the fully connected layers. The input combination is diversified under the limited training set. The training process of the CNN model is richer. Result We evaluate the proposed method and the baseline on two large-scale public person re-identification datasets, namely, Market-1501 and DukeMTMC-reID. On the Market-1501 dataset, the rank-1 and mAP accuracies are 73.25% and 48.44%, respectively. On the DukeMTMC-reID dataset, the rank-1 and mAP accuracies are 63.02% and 41.15%, respectively. The proposed method yields a competitive performance against several existing person re-ID methods. Meanwhile, the proposed method exhibits its effectiveness by showing a stable improvement over the baseline. Conclusion In this work, we propose a novel two-stream complementary symmetrical CNN architecture for person re-identification. With the use of the newly designed CNN architecture, the training process of the CNN model can be adequate even under a limited training set. Therefore, the learned CNN model can obtain a high discriminative representation of different pedestrians, and the performance of person re-identification is improved effectively.

Key words

public security; surveillance; person re-identification; convolutional neural network; deep learning; two-stream architecture; complementary and symmetry

0 引言

近年来，随着国家对公共安全问题的日益重视以及监控设备的快速发展，大量的监控摄像头应用在易发生公共安全事件的人群密集场所，如：商场、学校、医院、公园、社区、企事业单位、体育场馆、大型广场、车站和机场等。监控摄像头的出现给公安机关的案件侦破带来了极大便利，如：嫌疑人追捕、跨场景人物搜索、异常事件检测等等。大量的监控摄像头，形成了一个巨大的监控网络。尽管加强了监控系统的可靠性，但给监控数据的管理和分析带来了巨大的挑战。目前监控系统多采用实时摄像加人工参与的方式进行监察，海量的监控数据，对负责监看监控视频的人员来说是一个极大的难题。原因有两方面：1)监控系统是实时产生数据，造成数据量的规模巨大；2)实时监控数据记录的是一个随机变化的场景，监看人员在长时间的观察过程中，存在着难以长时间集中注意力的情况。可见，这种人工参与的监察机制已经不能适用于现今监控数据的管理和分析。而行人再识别技术的出现，克服了人工参与的监察机制中存在的不足。

行人再识别^[1-2]的任务是研究如何在海量监控数据中准确地识别出某个特定场合中曾经出现过的人，其中的监控数据以图像数据为主。其任务的挑战在于，行人在图像中有较大的姿态、视角等复杂的变化；此外，拍摄过程中，光照的不同也会使行人的外观发生较大变化。以上变化将会严重影响行人再识别的性能。2012年以来，以卷积神经网络(CNN)为代表的深度学习模型在计算机视觉领域取得了巨大成功。同时，CNN也带动了行人再识别领域的研究。相比于传统的手工设计的行人再识别方法，基于CNN的行人再识别方法可以更加有效地克服行人的复杂变化，取得了更高的性能。然而，行人再识别与其他计算机视觉任务(如图像分类)不同，由于对行人进行标注十分困难，造成了现有的数据集中行人标注量小。目前最大的行人再识别数据集Market-1501^[3]的训练集共有12 936幅图像，共751个行人，每个行人平均仅有17.2幅图像，远小于通用的图像分类数据集，如ImageNet^[4](约有一百万幅图像，共1 000个类别，每个类别平均有1 000幅图像)。在这种有限的训练集上，训练现有的一路CNN模型，会使得CNN模型的训练过程不够充分。

本文尝试通过网络结构的改进，设计一种两路互补对称的CNN结构用于行人再识别任务。在这种两路结构中，每次同时输入两路样本。此时，相比于以往的一路CNN模型，这种两路CNN模型的输入组合形式更加地多样化，适合学习得到鉴别能力更强的深度学习模型。其中，一路和两路CNN模型的输入情况对比如图 1所示。

图 1 一路和两路CNN模型的输入情况对比示意图

Fig. 1 Illustration of the input comparison of one-stream and two-stream CNN models

本文提出一种两路互补对称CNN结构的行人再识别方法，主要贡献如下：

1) 利用现存CNN模型的基本骨架，提出了一种两路互补对称的CNN结构。该结构的输入是两路数据，能够在现有的有限训练样本下，更加充分地训练CNN模型，学习得到鉴别能力更强的深度学习模型，从而有效地提升行人再识别的性能。

2) 所提出的两路互补对称CNN结构的行人再识别方法，分别在两个公开的大规模行人再识别数据集(Market-1501和DukeMTMC-reID)上进行了实验评估，取得了较高的准确率。此外，所提出的方法具有扩展性，可以扩展到其他一些基于CNN的行人再识别方法中。

1 行人再识别的相关工作

行人再识别一般可分为传统的手工设计方法和基于深度学习的方法，下面分别介绍：

1) 传统的手工设计的行人再识别方法主要工作有两方面：特征设计^[5-7]和距离度量学习^[8-10]。特征设计的思路是设计一种具有鉴别性和鲁棒性的行人图像表示，使得对行人的表达更加准确。受到图像的局部特征具有更强鉴别能力的启发，Bazzani等人^[11]设计了一种基于局部特征的对称驱动累积描述符(SDALF)；Zheng等人^[3]在词袋(BoW)模型基础上，提出一种无监督颜色名称的描述符；Li等人^[12]在SIFT描述符^[13]和颜色直方图基础上，学习了一种跨视图的字典。在不同视图下，获得了更有效的行人表示；Ma等人^[14]在局部特征的基础上，通过使用Fisher Vector来改进行人再识别的性能；Liao等人^[10]提出一种新的行人特征描述符LOMO，克服了光照和视角的变化。距离度量学习的思路是通过学习一个映射，使得相同行人之间特征的距离更加近，而不同行人之间特征的距离更加远。这方面有代表性的工作有：基于经典的Rank SVM的方法^{[7, 9]}、基于Boosting的方法^[8]，以及其他一些在图像分类和图像检索任务上常用的KISSME^[15]、ITML^[16]和LMNN^[17]方法等等。

2) 基于深度学习的方法在行人再识别领域取得了比传统手工设计的方法更高的性能，其主要有两种模型，分别是：Siamese模型和identification模型。Siamese模型主要用于人脸认证和人脸识别，而identification模型主要用于图像分类和目标检测。早期的基于深度学习的行人再识别方法往往采用Siamese模型，原因是数据集的规模比较小。随着行人再识别数据集规模的发展，identification模型才被更加广泛地采用，并且取得了更加卓越的行人再识别性能，主要原因是identification模型可以更加充分地利用行人图像的监督信息。使用Siamese模型的行人再识别方法，其代表工作如下：Yi等人^[18]将行人图像沿水平方向分成有重叠的3块，送入到Siamese模型，并在最后连结一起，训练得到带有更强空间信息的模型；Ahmed等人^[19]在Siamese模型上，通过计算近邻的距离，来学习一个跨图像的特征表示，来提高模型的鲁棒性；Varior等人^[20]提出在Siamese模型的卷积层后插入一个“门函数”，来更加精确地捕捉行人细节；Cheng等人^[21]设计一个三元组模式的Siamese模型，先在第1个卷积层之前划分为4个重叠的部分，后在全连接层对这四个部分进行融合，来学习得到鉴别能力更强的深度模型。使用identification模型的行人再识别方法，其代表工作如下：Xiao等人^[22]利用identification模型从多个数据集上来训练行人，并在各个全连接的神经元上加一个impact分数，更好地学习深度模型；Zheng等人^[23]利用生成对抗网络(GAN)^[24]生成一些与行人再识别的训练样本相对应的样本，这些样本增加了原始训练集的多样性。利用identification模型来重新训练网络，本质上是一种半监督学习策略，改进了已有模型的鉴别能力；Sun等人^[25]在identification模型基础上，通过奇异值向量分解(SVD)来对所学习的向量进行“去相关”操作，取得了更高的行人再识别性能。

本文工作的研究动机是基于identification模型的深度学习方法已在行人再识别领域取得卓越的性能，而在通用的identification模型基础上，进行网络结构的改进是有意义的，可以获得鉴别能力更强的深度学习模型，进一步地提升行人再识别的性能。

2 两路互补对称CNN结构

首先介绍基线(baseline)方法；然后阐述所提出的两路互补对称CNN结构的行人再识别方法，包括模型的整体结构以及网络训练和行人再识别过程。

2.1 基线方法

本文所采用的基线方法是：在行人再识别的训练集上，利用通用的一路基于identification的CNN模型，学习一个“行人身份鉴别性的嵌入”，使得训练后得到的深度学习模型对不同的行人具有区分能力。

具体是：使用现存的经典CNN模型的骨架，即：使用了AlexNet^[26]和ResNet-50^[27]模型中全部的卷积层和全连接层，并且采用了相关文献[26-27]中提供的默认设置，除了修改最后一个全连接层的输出为行人再识别训练集中不同行人的总数。基线方法的CNN模型是在ImageNet^[4]数据集上所得到的预训练模型“微调”(fine-tuning)，此时CNN模型的收敛速度更快。尤其在行人再识别训练集的规模不是特别大的情形下，这种训练策略更加有效，实现了区分不同行人的目的。

下面介绍基线方法中网络训练过程：行人再识别训练集记为$\mathit{\boldsymbol{D}}=\{\mathit{\boldsymbol{x}}_{i}, \mathit{\boldsymbol{y}}_{i}\}^{N}_{i=1}$，行人图像为$\mathit{\boldsymbol{x}}_{i}$，身份(ID)是$\mathit{\boldsymbol{y}}_{i}$。行人图像首先处理为256×256像素大小，之后随机裁剪为一个固定尺寸(注：AlexNet是227×227像素，ResNet-50是224×224像素)，经过处理后的行人图像被送入到CNN模型的数据层，作为网络的输入。网络训练的目标是通过学习，得到一个深度学习模型$M$。其相当于是一个映射：$f(\mathit{\boldsymbol{x}}, \theta)∈\mathbb{R}^{C}$，式中，$\theta $表示CNN模型中各层的参数。在每个小批量(mini-batch)的迭代过程中，参数$\theta $使用随机梯度下降(SGD)算法来更新。第$t$次迭代中，更新当前参数$\theta _{t}$，即

$ {\theta _{t + 1}} = {\theta _t} + \gamma \cdot \frac{1}{{\left| {{\mathit{\boldsymbol{D}}_t}} \right|}} + \sum\limits_{\left( {x, y \in {D_t}} \right)} {{\nabla _{{\theta _t}}}\left[ {l\left( {\mathit{\boldsymbol{x}}, \mathit{\boldsymbol{y}}} \right)} \right]} $

(1)

式中，$γ$表示学习率，$\mathit{\boldsymbol{D}}_{t}$是从$\mathit{\boldsymbol{D}}$中随机拿出的小批量(mini-batch)样本集，$\nabla $表示梯度运算，$l$表示损失函数，这里为SoftMax损失函数。SoftMax损失函数作为监督信号，来指导网络训练过程。随着训练过程的进行，损失函数的值逐渐下降。此时，所训练的网络是收敛的。

行人再识别过程是：利用网络训练过程中得到的深度学习模型$\mathbb{M}$作为特征提取器，对查询集(probe)和候选集(gallery)中的行人图像提取中间层的响应(注：AlexNet为FC7层的响应，ResNet-50为Pool5层的响应)作为其特征表示。在图像特征的基础上，来执行“跨摄像头”检索，即计算查询集(probe)和候选集(gallery)中样本之间图像特征的距离，将距离排序，最终的行人再识别性能根据排序列表来评估。

2.2 提出的两路互补对称CNN结构

在本节中，阐述所提出的两路互补对称CNN结构的行人再识别方法。模型的整体结构，如图 2所示(以AlexNet^[26]模型为例)。相比于基线方法(即现存的一路CNN模型)，本文提出的两路CNN模型每次同时输入两路样本，输入组合形式更加地多样化。其中，每路中间层的结构相同，可认为是“对称的”，但彼此并不共享参数；通过连结两路模型中的最后一个全连接层，使得两路中各个层之间相互地作用，彼此相互促进，可认为是“互补的”。identification模型的网络训练过程，其目标是：给定一个训练集，学习一个最优的映射，使得预测行人的结果更贴近于其真实的身份(ID)。一方面，训练集中的样本越丰富，学习得到的模型，其泛化能力越强；另一方面，对于某个特定行人，由于是在“跨摄像头”下采集的行人图像，外观上的“差异”较明显，通过特定行人内的不同行人图像的联合，使得样本之间可以相互补充，来缩小外观上的“差异”。因此，所设计的结构更加适合学习得到鉴别能力更强的深度学习模型，从而提升行人再识别的性能。

图 2 两路互补对称卷积神经网络结构的示意图

Fig. 2 Illustration of two-stream complementary symmetry CNN architecture

在提出的两路互补对称CNN结构中，每次同时输入两幅行人图像，这两幅图像属于相同行人。这些样本对(pair)是利用相同行人所对应的所有样本进行两两组合，采用全排列的形式。其中，行人图像在送入网络数据层之前的预处理过程与基线方法保持一致。每路卷积层和全连接层的结构和设置都相同，每路CNN模型都是在ImageNet^[4]数据集上所得到的预训练模型“微调”。图 2中，以AlexNet^[26]模型为例进行了展示，每路中的全连接层FC6和FC7都分别与各自的卷积层相连，将两路中的全连接层FC7进行串联，记为FC7_concat。$N_{1}=4~096$ 维，$N_{2}=8~192$ 维。3个全连接层(即两个FC7层和一个FC7_concat层)分别与全连接层FC8相连，FC8层的输出数目(即$N_{3}$)和训练集中的行人总数相同。通过3个SoftMax损失函数共同作为监督信号，来指导网络训练过程。具体为：3个损失函数相加的总和作为网络的损失。如果所提出的两路互补对称CNN结构的中间骨架部分换成了ResNet-50^[27]网络，由于ResNet-50的最后一层不是全连接层FC7，而是池化层Pool5，此时用Pool5代替FC7，连接后的Pool5层可记为：Pool5_concat。其中：$N_{1}=2~048$ 维，$N_{2}=4~096$ 维。所提出的两路互补对称CNN结构的网络训练策略和过程与基线方法相同，这里就不再重复叙述。

行人再识别过程是：利用网络训练过程中得到的深度学习模型作为特征提取器，对查询集(probe)和候选集(gallery)中的行人图像提取中间层的响应(AlexNet为FC7_concat层的响应，ResNet-50为Pool5_concat层的响应)作为其特征表示。在图像特征的基础上，来执行“跨摄像头”检索，即计算查询集(probe)和候选集(gallery)中样本之间图像特征的距离，将距离排序，最终的行人再识别性能根据排序列表来评估。

3 实验

首先介绍所使用的实验数据集，然后介绍实验设置及评价标准，最后对实验结果进行分析。

3.1 实验数据集

在Market-1501^[3]和DukeMTMC-reID^[23]两个公开数据集上进行实验。评估了基线方法和本文提出的方法，对结果进行了分析，并与一些现存的行人再识别方法进行了比较，以验证本文提出的方法的有效性。

Market-1501数据集：包含1 501个行人，共32 668幅图像，共由6个相机拍摄，对于每个人，平均有21.8幅图像，且由多个不相邻相机拍摄。按照文献[3]的策略，1 501个行人分成751个人的样本作为训练集，750个人的样本作为测试集，本文使用训练集中的90%样本来训练CNN模型，剩余的10%样本作为验证。

DukeMTMC-reID数据集：包含1 404个行人，共36 411幅图像，共由8个相机拍摄，对于每个人，平均有25.9幅图像，且由多个不相邻相机拍摄。按照文献[23]的策略，1 404个行人分成702个人的样本作为训练集，702个人的样本作为测试集，本文使用训练集中所有的样本来训练CNN模型，无验证过程。

3.2 实验设置及评价标准

使用深度学习框架CAFFE^[28]来实现所提出的方法。实验所用的硬件配置如下，GPU：GTX 1080(显存：8GB)、内存：128 GB、CPU：Intel酷睿8核i7处理器(主频3.60 GHz)。

使用在行人再识别方法中被广泛采用的累计匹配特性(CMC)曲线、1选识别正确率(rank-1 accuracy)和平均精度均值(mean Average Precision, mAP)来评估方法的性能。CMC曲线表示需要被查询的真值图像出现在不同长度的候选序列中的概率。1选识别正确率表示被查询的真值图像出现在候选序列第1个位置的概率。mAP是所有查询样本正确率—召回率曲线下面积的平均，反映了行人再识别方法总体的性能。

3.3 在Market-1501数据集上的实验结果

在Market-1501数据集上，利用AlexNet和ResNet-50模型的骨架，所得到的基线方法和本文提出的方法的实验结果比较，如表 1所示。

表 1 在Market-1501数据集上，基线方法和本文方法的比较
Table 1 Results comparison of the baseline and the proposed method on Market-1501 dataset

下载CSV

/%
方法	AlexNet		ResNet-50
方法	rank-1	mAP	rank-1	mAP
基线	56.03	32.41	72.54	46.00
本文	61.16	36.67	73.25	48.44

结果表明，本文方法在基线方法的基础上有稳定的提升。具体为：在AlexNet模型上，1选识别正确率提高了5.13%，mAP提高了4.26%;在ResNet-50模型上，1选识别正确率提高了0.71%，mAP提高了2.44%。

此外，在ResNet-50模型上，本文方法的1选识别正确率和mAP分别为73.25%和48.44%。此时，行人再识别的性能达到了较高水平。

图 3(a)展示了在Market-1501数据集上，基线方法和本文方法分别使用AlexNet和ResNet-50模型时的CMC曲线。可以观测到，从排名1到排名10，本文方法的匹配正确率要高于基线方法，实验结果再次验证了本文方法的有效性。即在有限的训练集上，所提出的方法可以充分地利用训练样本，从而获得鉴别能力更强的深度学习模型，用于行人再识别任务。

图 3 基线方法和本文提出的方法的CMC对比

Fig. 3 CMC comparison of the baseline and the proposed method ((a) Market-1501 dataset; (b) DukeMTMC-reID dataset)

3.4 在DukeMTMC-reID数据集上的实验结果

在DukeMTMC-reID数据集上，利用AlexNet和ResNet-50模型的骨架，得到的基线方法和本文方法的实验结果比较，如表 2所示。

表 2 在DukeMTMC-reID数据集上，基线方法和本文方法的比较
Table 2 Results comparison of the baseline and the proposed method on DukeMTMC-reID

下载CSV

/%
方法	AlexNet		ResNet-50
方法	rank-1	mAP	rank-1	mAP
基线	44.12	23.55	59.34	38.24
本文	44.48	24.41	63.02	41.15

结果表明，本文方法在基线方法的基础上有稳定的提升。具体为：在AlexNet模型上，1选识别正确率提高了0.36%，mAP提高了0.86%；在ResNet-50模型上，1选识别正确率提高了3.68%，mAP提高了2.91%。

此外，在ResNet-50模型上，本文方法的1选识别正确率和mAP分别为63.02%和41.15%。此时，行人再识别的性能达到了较高水平。

图 3(b)展示了在DukeMTMC-reID数据集上，基线方法和本文提出的方法分别使用AlexNet和ResNet-50模型时的CMC曲线。可以观测到，从排名1到排名10，本文方法的匹配正确率要高于基线方法。

3.5 本文方法与现存行人再识别方法的比较

将本文方法与一些现存的行人再识别方法进行比较，包括传统手工设计的方法和基于深度学习的方法。行人图像特征表示是基于颜色名称(Color Names)的词袋(BoW)^[3]模型的统计直方图。距离度量学习方法包括：KISSME^[15]、ITML^[16]和LMNN^[17]等。特别地，仅利用BoW特征，不配合距离度量学习方法，这里列出了相关论文中行人再识别性能最好方法BoW+HS^[3]的结果。其他一些现存的行人再识别方法包括：semi-supervised deep attribute learning (SSDAL)^[29]、temporal model adaptation (TMA)^[30]、end-to-end comparative attention network (End-to-end CAN)^[31]、GAN+LSRO^[23]、SVDNet^[25]和IDE+Re-ranking^[32]等。

由于DukeMTMC-reID数据集才公开不久，所以本节仅列出了在Market-1501数据集上的对比结果，如表 3所示。

表 3 在Market-1501数据集上，本文方法与现存行人再识别方法的比较
Table 3 Results comparison with some existing person re-identification methods on Market-1501 dataset

下载CSV

/%
方法	Market-1501
方法	rank-1	mAP
BoW+HS^[3]	47.25	21.88
BoW+KISSME^[15]	39.61	17.73
BoW+ITML^[16]	38.21	17.05
BoW+LMNN^[17]	34.00	15.66
SSDAL^[29]	39.40	19.60
TMA^[30]	47.92	22.31
End-to-end CAN^[31]	48.24	24.43
GAN+LSRO^[23] (ResNet-50)	78.06	56.23
SVDNet^[25] (AlexNet)	80.50	55.90
SVDNet^[25] (ResNet-50)	82.30	62.10
IDE+Re-ranking^[32] (AlexNet)	58.79	42.06
IDE+Re-ranking^[32] (ResNet-50)	74.85	59.87
本文方法(AlexNet)	61.16	36.67
本文方法(ResNet-50)	73.25	48.44

结果表明，本文提出的方法取得了有竞争力的行人再识别性能，优于一些现存的行人再识别方法，如文献[3, 15-17, 29-31]等。然而，与文献[23, 25, 32]中的结果相比，本文方法性能上处于劣势。原因有两方面：

1) 本文方法是基于单模型的，在默认的网络设置下进行网络结构的改进，没有加入任何已有方法的强化步骤。如在CNN模型中添加额外的层(layer)和重排序(re-ranking)的过程等等。

2) 本文方法，仅使用自身已有的训练样本集来训练网络，并没有通过其他手段来生成更多的训练数据。

4 结论

本文提出了一种两路互补对称CNN结构的行人再识别方法，能够在现有的有限训练样本下，更加充分地训练CNN模型，学习得到鉴别能力更强的深度学习模型。在两个公开的大规模数据集(Market-1501和DukeMTMC-reID)上取得了较高的行人再识别性能，验证了所提出的方法的有效性。然而，本文中所提出的两路互补对称CNN结构具有更高的训练代价。随着GPU设备计算能力的进一步发展，这种劣势将会逐渐降低。

此外，所提出的两路互补对称CNN结构是对通用identification模型的继承，即：所提出的方法可以扩展到其他基于identification模型的深度学习方法中，继而提升其他方法的性能。

目前基于深度学习的行人再识别方法中，深度学习模型的鉴别能力还有一定的提升空间，而行人再识别任务中的行人样本有其独特之处。后续工作将尝试通过其他计算机视觉任务，如：姿势估计(pose estimation)，将行人姿势估计和深度学习模型相结合，对行人建模，更加精确地对行人进行表达，有效地提升行人再识别性能。

参考文献

[1] Chen Y, Huo Z H. Person re-identification based on multi-directional saliency metric learning[J]. Journal of Image and Graphics, 2015, 20(12): 1674–1683. [陈莹, 霍中花. 多方向显著性权值学习的行人再识别[J]. 中国图象图形学报, 2015, 20(12): 1674–1683. ] [DOI:10.11834/jig.20151212]

[2] Qi M B, Hu L F, Jiang J G, et al. Person re-identification based on multi-features fusion and independent metric learning[J]. Journal of Image and Graphics, 2016, 21(11): 1464–1472. [齐美彬, 胡龙飞, 蒋建国, 等. 多特征融合与独立测度学习的行人再识别[J]. 中国图象图形学报, 2016, 21(11): 1464–1472. ] [DOI:10.11834/jig.20161106]

[3] Zheng L, Shen L Y, Tian L, et al. Scalable person re-identification: a benchmark[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 1116-1124. [DOI:10.1109/ICCV.2015.133]

[4] Deng J, Dong W, Socher R, et al. Imagenet: a large-scale hierarchical image database[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA: IEEE, 2009: 248-255. [DOI:10.1109/CVPR.2009.5206848]

[5] Zhao R, Ouyang W L, Wang X G. Person re-identification by salience matching[C]//Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney, NSW, Australia: IEEE, 2013: 2528-2535. [DOI:10.1109/ICCV.2013.314]

[6] Su C, Yang F, Zhang S L, et al. Multi-task learning with low rank attribute embedding for person re-identification[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 3739-3747. [DOI:10.1109/ICCV.2015.426]

[7] Zhao R, Ouyang W L, Wang X G. Learning mid-level filters for person re-identification[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE, 2014: 144-151. [DOI:10.1109/CVPR.2014.26]

[8] Shen Y, Lin W Y, Yan J C, et al. Person re-identification with correspondence structure learning[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 3200-3208. [DOI:10.1109/ICCV.2015.366]

[9] Prosser B, Zheng W S, Gong S G, et al. Person re-identification by support vector ranking[C]//Proceedings of British Machine Vision Conference. Aberystwyth, UK: BMVA Press, 2010: 1-11. [DOI:10.5244/C.24.21]

[10] Liao S C, Hu Y, Zhu X Y, et al. Person re-identification by local maximal occurrence representation and metric learning[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 2197-2206. [DOI:10.1109/CVPR.2015.7298832]

[11] Bazzani L, Cristani M, Murino V. Symmetry-driven accumulation of local features for human characterization and re-identification[J]. Computer Vision and Image Understanding, 2013, 117(2): 130–144. [DOI:10.1016/j.cviu.2012.10.008]

[12] Li S, Shao M, Fu Y. Cross-view projective dictionary learning for person re-identification[C]//Proceedings of the 24th International Conference on Artificial Intelligence. Buenos Aires, Argentina: AAAI Press, 2015: 2155-2161. http://dl.acm.org/citation.cfm?id=2832548&preflayout=tabs

[13] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91–110. [DOI:10.1023/B:VISI.0000029664.99615.94]

[14] Ma B P, Su Y, Jurie F. Local descriptors encoded by fisher vectors for person re-identification[C]//Proceedings of European Conference on Computer Vision. Florence, Italy: Springer, 2012: 413-422. [DOI:10.1007/978-3-642-33863-2_41]

[15] Köstinger M, Hirzer M, Wohlhart P, et al. Large scale metric learning from equivalence constraints[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE, 2012: 2288-2295. [DOI:10.1109/CVPR.2012.6247939]

[16] Davis J V, Kulis B, Jain P, et al. Information-theoretic metric learning[C]//Proceedings of the 24th International Conference on Machine learning. Corvalis, Oregon, USA: ACM, 2007: 209-216. [DOI:10.1145/1273496.1273523]

[17] Weinberger K Q, Blitzer J, Saul L K. Distance metric learning for large margin nearest neighbor classification[C]//Proceedings of the 18th International Conference on Neural Information Processing Systems Vancouver. British Columbia, Canada: MIT Press, 2005: 1473-1480.

[18] Yi D, Lei Z, Liao S C, et al. Deep metric learning for person re-identification[C]//Proceedings of the 201422nd International Conference on Pattern Recognition. Stockholm, Sweden: IEEE, 2014: 34-39. [DOI:10.1109/ICPR.2014.16]

[19] Ahmed E, Jones M, Marks T K. An improved deep learning architecture for person re-identification[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 3908-3916. [DOI:10.1109/CVPR.2015.7299016]

[20] Varior R R, Haloi M, Wang G. Gated Siamese convolutional neural network architecture for human re-identification[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, Netherlands: Springer, 2016: 791-808. [DOI:10.1007/978-3-319-46484-8_48]

[21] Cheng D, Gong Y H, Zhou S P, et al. Person re-identification by multi-channel parts-based CNN with improved triplet loss function[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 1335-1344. [DOI:10.1109/CVPR.2016.149]

[22] Xiao T, Li H S, Ouyang W L, et al. Learning deep feature representations with domain guided dropout for person re-identification[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 1249-1258. [DOI:10.1109/CVPR.2016.140]

[23] Zheng Z D, Zheng L, Yang Y. Unlabeled samples generated by GAN improve the person re-identification baseline in vitro[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 3774-3782. [DOI:10.1109/ICCV.2017.405]

[24] Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks[J]. arXiv: 1511. 06434, 2015. http://www.researchgate.net/publication/284476553_Unsupervised_Representation_Learning_with_Deep_Convolutional_Generative_Adversarial_Networks

[25] Sun Y F, Zheng L, Deng W J, et al. SVDNet for pedestrian retrieval[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 3820-3828. [DOI:10.1109/ICCV.2017.410]

[26] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada, USA: Curran Associates Inc., 2012: 1097-1105. http://dl.acm.org/citation.cfm?id=2999257

[27] He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 770-778. [DOI:10.1109/CVPR.2016.90]

[28] Jia Y Q, Shelhamer E, Donahue J, et al. Caffe: convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM International Conference on Multimedia. Orlando, Florida, USA: ACM, 2014: 675-678. [DOI:10.1145/2647868.2654889]

[29] Su C, Zhang S L, Xing J L, et al. Deep attributes driven multi-camera person re-identification[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, Netherlands: Springer, 2016: 475-491. [DOI:10.1007/978-3-319-46475-6_30]

[30] Martinel N, Das A, Micheloni C, et al. Temporal model adaptation for person re-identification[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, Netherlands: Springer, 2016: 858-877. [DOI:10.1007/978-3-319-46493-0_52]

[31] Liu H, Feng J S, Qi M B, et al. End-to-end comparative attention networks for person re-identification[J]. IEEE Transactions on Image Processing, 2017, 26(7): 3492–3506. [DOI:10.1109/TIP.2017.2700762]

[32] Zhong Z, Zheng L, Cao D L, et al. Re-ranking person re-identification with k-reciprocal encoding[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 3652-3661. [DOI:10.1109/CVPR.2017.389]