论文引用格式:Li K, Gong X and Fan J F. 2023. Spatiotemporal distance and multiple networks mutual learning-relevant pedestrian re-identification. Journal of Image and Graphics, 28(05):1409-1421(引用格式:李宽, 龚勋, 樊剑锋. 2023. 结合时空距离的多网络互学习行人重识别. 中国图象图形学报, 28(05):1409-1421)[0 引 言行人重识别是指在不同监控摄像头下找到同一行人。随着人们对安全需求的增加,大量摄像头安装在各种监控场景中,如学校、机场、商城和医院等。而人工搜寻效率低,结果不可靠,行人重识别能实时检测匹配行人,适应了大数据下对行人监测的需求,逐渐成为学术热点问题。由于行人数据标记需要的巨大工作量,实际应用存在较多困难。跨域重识别能利用有标注的源域数据信息辅助训练无标注的目标域数据,具有应用潜力。但由于跨域带来的背景、光照以及摄像头角度等差异,识别准确率往往也会急剧下降。目前主流的无监督行人重识别主要由生成伪标签阶段和利用伪标签优化模型两个阶段组成,其中伪标签生成的可靠性是影响模型最终效果的主要因素。Zeng等人(2020)利用PK Sample(pharmacokinetic sample)的方法进行层次聚类,以提高聚类的精度。Zheng等人(2021)提出了一种基于标签迁移的群感知特征学习策略,通过在线精炼伪标签,以改进多组伪标签优化。但这些方法没有考虑不同摄像头的影响可能导致不同摄像头下的类内距离大于相同摄像头下的类间距离,因此,即使是离聚类中心较近的数据,它的伪标签结果也并不可靠,这样便不可避免地使网络向着错误方向进行训练。因此,本文增加了一个分摄像头的维度,保证了生成标签的可靠性。此外,由于单骨干网络提取特征的单一性,在千变万化的实际场景中,以上方法并不能保证较好地泛化能力。Zhang等人(2018)提出了多网络互学习,且用平均学生模型的方法防止多网络导致的误差放大。本文在该方法的基础上,提出了分摄像头多网络互学习行人重识别框架。在重识别的匹配排序阶段,目前有很多排序优化的算法。Zhong等人(2017)提出的互邻匹配 Re-Ranking方法利用待搜寻行人图像和搜寻到的前几幅图像的邻域图像是否互相包含来判断结果的准确性。Sarfraz等人(2018)将一幅图像与另一幅图像的相邻图像距离累加来当做新距离,它不需要对每个图像对都计算一次排名,减少了计算量。但将这些算法应用于真实场景仍对机器性能提出了巨大的挑战。上面的一些方法对排序的优化都基于已得到的图像间的距离,但数据中还包含了时间戳信息,这类信息没有得到有效利用。为此,本文利用数据集中的时间信息,并增加了时空这两个维度,在时间消耗接近原始排序的前提下提升了行人搜索性能。本文的贡献主要有以下方面:1)对数据集中每个单独的摄像头下图像进行聚类生成伪标签,以此作为优化标准之一,提升伪标签质量;2)利用教师学生网络互学习的方法学习更多特征,不仅接受来自自身标签的监督,还利用协同网络的学习经验来进一步提升泛化能力;3)利用数据的时间戳信息和摄像头信息,在时空维度上优化行人搜索匹配,降低了时间消耗。同时,该方法在传统的有监督重识别场景中也能提高搜索性能。1 相关方法1.1 无监督跨域行人重识别由于手动标注数据的高成本,目前无监督跨域行人重识别受到广泛关注。相关探索主要分为3个方面,即优化特征分布、生成对抗网络和自监督学习。1)优化特征分布。该方法思想为减小源域和目标域特征分布的差距,从而减少跨域带来的模型性能损失。Mekhazni等人(2020)提出一种基于最大均值差异(maximum mean discrepancy,MMD)的减小源域与目标域特征分布差距的方法,Jin等人(2020)方法的思想是分离正样本对和负样本对距离的概率分布。但这类方法存在局限性,并不能保证源域、目标域的特征差距小于期望值,在跨域场景下,存在较大的性能下降。2)生成对抗网络(generative adversarial network,GAN)。该方法使用GAN将源域图像转换到目标域。Deng等人(2018)在cycleGAN的基础上进行改进,新增了两个约束条件,一个是生成的目标域风格图像应该与其相应的源域图像相似,这是为了能利用源域图像的ID(identity document)信息;另一个是使生成的目标域风格图像与原有目标域中图像都不同,因为源域与目标域行人ID没有重叠。但基于GAN的方法对GAN生成图像的质量要求较高,GAN训练慢,生成的目标域风格图像与真实数据集的相似度不可保证,实验结果与其他方法相比有一定差距。3)自监督学习。自监督学习通常采用自监督和生成伪标签的方法,利用伪标签来不断微调模型,这是目前主流的研究方向。Fan等人(2018)提出一种利用聚类来生成伪标签的重识别方法。对于生成的伪标签,它将距离聚类中心最近的数据伪标签看做可靠伪标签,并利用这些标签来进行训练。Ge等人(2020)在判断可信伪标签的基础上做了改进,添加了一个记忆模块来存储源域和目标域的聚类中心,用以保留全局训练的特征,防止模型过度偏向错误方向。耿伟峰等人(2023)使用图神经网络融合了样本特征与类别表示等多层次信息,增强了自监督信息的可靠性。本文以自监督学习为基础,并针对以上方法没有考虑的在跨域问题中起主要影响的背景、视角变化等因素,添加了摄像头维度,约束了跨摄像头带来的伪标签预测错误影响。同时利用互学习来挖掘更多特征,使模型在各种场景都能保持良好性能。1.2 重识别排序优化算法在行人重识别场景中,最常见的排序优化算法为Re-Ranking。该算法基于如下假设:对于某幅待搜索的行人图像,在搜索集中,假如某图像的邻近图像包含了待搜索图像,则该图像为正确匹配的可能性更大。Jegou等人(2010)引入了上下文相异度度量,利用相邻向量的相似度更新图像间距离,Bai 等人(2009)利用流形距离在查询和被查询对象中找到最短路径,利用最短路径上的图像计算新的度量距离,Zhong等人(2017)利用k-reciprocal编码对图像进行重排序。但以上研究都有一个共同的问题,即额外的计算量需要花费大量的内存空间和时间成本。为此,Zhang等人(2020)利用GPU(graphics processing unit)并行计算的方法加快了重排序。但该方法额外的内存消耗仍然存在,而且没有从根本上降低算法复杂度。与上述研究不同,本文从算法角度提出了一个适配于重识别的重排序算法,大幅减少了时间和空间代价。2 算法描述2.1 总体框架如图1所示,本文算法框架主要由伪标签生成模块、多网络互学习模块和排序优化模块组成。10.11834/jig.220668.F001图1本文算法框架模块图Fig.1Framework of our method ((a) pseudo label generation module; (b) mutual learning module; (c) spatio-temporal distance retrieval module)伪标签生成模块根据全局和摄像头分别生成伪标签yt和ytl,并在分摄像头阶段添加了时空信息;特征互学习模块利用教师学生网络的互学习训练出更具有泛化性的模型;时空距离排序模块利用时空距离对最终结果进行行人检索优化。每次迭代开始之前,图像先通过伪标签生成模块进行全局伪标签yt和摄像头伪标签ytl的生成,然后在特征互学习模块中利用生成的伪标签yt和ytl进行特征学习,最后利用时空距离排序模块进行行人检索。2.2 伪标签生成模块在无监督领域自适应训练的每个迭代中,伪标签yt和yyl的生成如图2所示。10.11834/jig.220668.F002图2伪标签生成模块Fig.2Pseudo label generation module伪标签生成包括3个步骤,具体如下:1)对于目标域的样本图像,每个网络模型提取卷积特征,并将多个网络模型提取的特征进行平均以确定集成特征。具体为fxt, i=∑k=1Kfxt,iγkK (1)式中,xt,i为输入图像,K为模型数量, γk为第k个模型的参数,fxt,i 为第i幅图像平均后向量。2)对fxt进行K-Means聚类,将所有目标域样本划分为Ut个不同的类,生成作为训练样本Xt的伪标签Yt。3)对Xt中所有处于Uc个摄像头下的子集Xtl,其中l∈[1,Uc],由于相同摄像头下相同行人的时间戳较为接近,因此将图像的特征fXtl与时间戳信息Timel的拼接gXtl分别进行K-Means聚类,将所有目标域样本在不同子集下划分为Utl个不同的类,上述Timel为时间戳的独热编码,分别生成所有子集训练样本Xtl的伪标签Ytl。2.3 多网络互学习模块2.3.1 总体流程本模块采用了两阶段的训练方案,包括在源域的有监督预训练学习和目标域的无监督自适应学习。在初始阶段,在源域数据集上以有监督的方式对具有不同网络架构的多个模型进行预训练。然后利用未标记的目标域样本进行多个网络模型的深度互学习无监督训练,使模型适应目标域。在目标域数据集中,利用伪标签生成模块的伪标签yt和ytl,通过优化分类损失与三元组损失对各个网络模型进行微调。此外,将各个网络模型的时间平均模型的输出视为软伪标签作为优化基准,从而减少伪标签噪音的影响。本文采用3个骨干网络模型,两两之间互学习,以使网络模型优化。2.3.2 源域有监督损失对于每一个网络模型而言,首先以有监督的方式预训练一个深度神经网络模型Mk,该模型由预训练网络模型γk参数化,与行人重识别任务常用的损失函数一致,本文使用标签平滑的交叉熵损失函数与三元组损失函数进行源域预训练。Mk将每个样本图像xi转换为特征,γk表示网络模型的参数,fxiγk表示将样本图像xi输入到网络模型参数设置为γk的网络模型中提取得到的特征,图像xi属于标签j的预测概率,表示为pjxiγk。标签平滑的交叉熵损失定义为Lidk=1N∑i=1N ∑j=1Uqj×logpjxiγk (2)式中,如果j=yi,那么qj=1-ε+ε/U,否则qj=ε/U,ε是一个小常数,在后续实验中设置为0.1,N为图像个数,U为聚类类别数。令 disn=exp fxiγk-fxi-γk disp=exp fxiγk-fxi+γk式中,xi+表示xi的正样本,xi-表示负样本。·表示L2范式。三元组损失定义为Ltrik=1N∑i=1Nlogdisndisn+disp (3)最后的总损失计算为Lsk=Lidk+Ltrik (4)式中,k代表第k个网络模型。2.3.3 目标域互学习损失互学习模块如图3所示。在每次迭代中,首先将目标域中的同一批图像输入到所有由γk参数化的Mk网络模型中,以预测分类置信度pjxt,iγk特征表示fxt,iγk。为了将知识从一个网络模型转移到另一个网络模型,每个网络模型的类预测可以作为训练其他网络模型的软标签。为防止误差放大,本文添加了时间平均模型,网络模型Mk的时间平均模型在当前迭代T时的参数记为ΓTk,其更新式为10.11834/jig.220668.F003图3互学习模块Fig.3Ensemble learning moduleΓTk=α∙ΓT-1k+1-α×γk (5)式中,α∈0,1为尺度因子,这里设置为0.999,初始时间平均参数为Γ0k=γk。使用网络模型Mk的时间平均模型预测每个身份j的概率为pjxt,iΓTk,计算特征表示为fXt,iΓTk。通过整合原始网络模型M与时间平均模型Γ,本文提出了互损失函数。将两个网络模型Mk和Mm的身份损失定义为Mk的类预测和Mm的时间平均模型类预测之间的交叉熵,以及各摄像头内标签预测与另一模型Mm的时间平均模型各摄像头内标签预测之间的交叉熵之和,前者称为互分类损失,后者称为摄像头内互分类损失。互分类损失的函数计算式为Lmidk←m=-1Nt∑i=1Nt∑j=1Utpj(xt,iΓTm)×log(pj(xt,iγk)) (6)式中,Nt为图像总数,Ut为聚类类别数。摄像头内互分类损失的函数计算式为Lminidk←m=∑l=1L-1Ntl∑i=1Ntl∑j=1Utlpj(xt,ilΓTm)×log(pj(xt,ilγk))  (7)式中,L为目标域训练集摄像头数目,Ntl为某摄像头下图像总数,Utl为该摄像头下聚类类别数。设网络模型Mk的互分类损失为所有其他网络模型所学习的上述损失的平均值,则Lmidk=1K-1∑m≠kK(Lmidk←m+Lminidk←m) (8)与互分类损失函数类似,对于每个网络模型Mk,定义其他网络模型的时间平均模型Mm学习的互三元组损失为两个相似的二元交叉熵,全局互三元组损失为Lmtrik←m=-1Nt∑i=1Nt(soft(xt,iΓTm)×log(soft(xt,iγk))+(1-soft(xt,iΓTm))×log)(1-soft(xt,iγk))) (9)式中,soft·为样本对之间特征距离的softmax变换。单个摄像头内互三元组损失为Lmintrilk←m=-1Ntl∑i=1Nt(soft(xt,ilΓTm)×log(soft(xt,ilγk))+(1-soft(xt,ilΓTm))×log(1-soft(xt,ilγk))) (10)网络模型Mk的互三元组损失计算为所有其他网络模型的上述互三元组损失的平均值,即Lmtrik=1K-1∑m≠kKLmtrik←m+∑l=1LLmintrilk←m (11)互三元组损失函数所起到的作用与互分类损失函数类似,都是为了使不同网络模型间进行相互学习,互三元组损失函数减少了网络模型间三元组损失的差异,从而使网络模型训练得到的特征分布能够同时被多个网络模型约束,以增强模型的鲁棒性。如图4所示,互学习损失函数充分利用了网络模型的输出进行互相约束。10.11834/jig.220668.F004图4互学习损失Fig.4Mutual learning loss2.3.4 目标域自身损失为了从伪标签yt与摄像头内标签ytl中学习稳定和有区别的知识,本文引入了各个网络模型自身的投票损失,包括投票分类损失和投票三元组损失。在每个网络模型Mk上,对于整体伪标签yt,定义投票分类损失为带有标签平滑的交叉熵,具体为Lidk=1Nt∑i=1Nt ∑j=1Utqjlog pjxt,iγk (12)式中,如果j=yt,i,那么qj=1-ε+ε/Ut,否则qj=ε/Ut,ε是一个小常数,设为0.1,Nt为图像个数,Ut为聚类类别数。同样,对于摄像头内伪标签,定义单个摄像头下的投票分类损失为Linidk=1Ntl∑i=1Ntl ∑j=1Utl(qj×log(pj (xt,ilγk))) (13)所有摄像头的投票分类损失Linidk为Linidk= ∑l=1LLinidlk (14)式中,如果j=yt,il,那么qj=1-ε+ε/Utl,否则qj=ε/Utl,ε是一个小常数,设为0.1。总体的投票分类损失Lallidk为Lallidk=Lidk+Linidk (15)为了更好地学习到稳定的知识,令dist,n=exp fxt,iγ-fxt,i-γdist,p=exp fxt,iγ-fxt,i+γ定义投票三元组损失为Ltrik=1Nt∑i=1Ntlog dist,ndist,n+dist,p (16)同样,为了模型能学习到单个摄像头下更为鲁棒的信息,令dist,nl=exp fxt,ilγ-fxt,i-lγdist,pl=exp fxt,ilγ-fxt,i+lγ定义单个摄像头内部的投票三元组损失为Lintrilk=1Ntl∑i=1Ntllog dist,nldist,nl+dist,pl (17)所有摄像头内部的投票三元组损失Lintrik为Lintrik=∑l=1LLintrilk (18)总体的投票分类损失Lallidk定义为Lallidk=Lidk+∑l=1LLinidlk (19)投票损失定义为分类损失和三元组损失的总和,具体为Lvotk=Lalltrik+Lallidk (20)上述投票损失使用聚类生成得到的伪标签优化交叉熵损失与三元组损失,增强各个网络模型自身的特征表示能力,从而在互学习过程中能够使用更具备辨别能力的有效知识进行互相的学习。2.3.5 总体损失最终的总体损失定义为每个网络模型互相学习所造成的损失之和。即Lall=∑k=1KLvotk+Lmtrik+Lmidk (21)式中,Lall表示所有网络模型的损失函数之和,K表示所训练骨干网络模型的个数。2.4 时空距离检索模块就行人重识别任务而言,常见的公开数据集与真实场景下摄像头间的时空信息(如拍摄图像时的时间戳与摄像头编号)往往可以很容易获取。因此本文设计了一种通过时间戳与摄像头编号信息进行排序优化的方法,以提升最终推理的性能。本文算法对排序优化的流程如图5所示,具体步骤如下:10.11834/jig.220668.F005图5时空距离检索流程图Fig.5Spatio-temporal distance retrieva map1)时间戳与摄像头信息获取。在经常用于行人重识别任务的Market1501与DukeMTMC-ReID(Duke multi-tracking multi-camera re-identification)数据集上,可以通过文件名获取到当前图像的具体时间戳与摄像头编号信息。而在真实场景下,时间戳与摄像头编号信息的获取也不需要大量的计算成本。2)目标域训练集特征聚类生成伪标签。对于本文的无监督领域自适应行人重识别而言,关注的是目标域测试集的推理结果,而源域的时间戳与摄像头信息并不适用于目标域,所以排序优化所需要关注的仅是目标域的信息,但是目标域训练集并没有标签,因此需要对目标域训练集特征进行聚类生成伪标签,本文采用DBSCAN(density-based spatial clustering of applications with noise)算法进行聚类。3)摄像头时间评分。根据相同伪标签的摄像头编号与时间戳的分布,统计生成不同摄像头间的时间差分布Tij,记摄像头i与摄像头j之间时间差的分布在第k次更新后为Tijk,其中k∈[0,N],N为目标训练集图像个数,它统计了i和j摄像头下在第k次更新后相同时间差的行人个数。对每个伪标签进行统计,当其同时存在于摄像头i与摄像头j上时,计算其平均帧的时间差t,并对Tij进行更新,具体为Tijkt=Tijk-1t+1 (22)式中,Tij(t)初始为0。定义Num(xi,xj)为同时位于图像xi与图像xj所处的摄像头上,且处于同一时间差区间内的伪标签个数,定义Sumcamxi,camxj为在图像xi所处摄像头与图像xj所处摄像头同时存在的伪标签的个数。摄像头时间评分为Dstxi,xj=Numxi, xjSumcamxi,camxj (23)4)联合距离推理。将摄像头时间评分与余弦距离进行结合,虽然摄像头时间评分Dstxi,xj在统计时是一个处于0,1的概率,与余弦距离所处区间-1,1的差异较小,但两者在推理过程中权重应该有所不同,令sccam=1+exp -ωDstxi, xjsccos=1+2exp -ωcosxi, xj最终的联合距离为Jxi, xj=1sccam+sccos (24)式中,cosxi,xj 表示图像xi与图像xj特征间的余弦距离,ω为可进行人为调整的超参数。3 实验及分析3.1 实验数据集与评估指标由于现有的公开数据集中,对时间戳标注并没有给予足够的关注,仅有Zheng等人(2015)提出的Market-1501和Ristani 等人(2016)提出的DukeMTMC-ReID数据集上有着明确的时间戳标注,因此为了验证根据时间戳与摄像头信息排序优化的有效性,本文在目标域设定为Market-1501,源域设定为DukeMTMC-ReID,以及目标域设定为DukeMTMC-ReID,源域设定为Market-1501两种情况下对所提出的方法进行评估。Market-1501数据集是于2015年夏季在清华大学校园拍摄采集的,包含6个不同摄像头的32 668幅图像,1 501个行人身份。DukeMTMC-ReID数据集是DukeMTMC的子集,是从美国杜克大学2014年校园监控录像中采集的,包含8个不同摄像头的36 411幅图像,1 812个行人身份。在评估中,采用累计匹配特征曲线(cumulative match characteristic,CMC)和平均精度均值(mean average precision,mAP)作为评估指标。3.2 实验设置本文中模型的训练分为两个阶段:源域的预训练和目标域的无监督自适应。在源域的预训练阶段,首先在源数据集上使用3个网络模型进行有监督的预训练。本文采用DenseNet-121(densely connected convolutional network-121)、ResNet-50(residual network-50)和inception-v3(inception network-v3)这3种架构作为骨干网络,并使用在ImageNet上预先训练的参数对其进行初始化。批量大小设为64,用16个随机选择的标签和4个随机抽样的图像对64幅图像进行采样,以计算三元组损失。本文使用Adam优化参数,并设置weight decay为0.000 5。初始学习率设置为0.000 35,在总共80个epoch中,在第40和第70个epoch时,初始学习率降低到之前值的1/10。3.3 实验参数分析本文的超参数包括K-Means聚类簇个数、DBSCAN的搜索半径,以及摄像头时间距离计算公式使用的ω。为了确定本文一系列超参数的选取对网络模型性能的影响,进行了详尽的参数分析实验。在无监督领域自适应阶段进行聚类过程中,本文对聚类方法以及其中参数进行选取。本文分别使用了K-Means聚类方法与DBSCAN聚类方法,并对其中参数进行调整以进行实验。首先是K-Means聚类中类别数超参数的确定,基于Market-1501与DukeMTMC-ReID数据集其测试集原本类别量,设置K-Means聚类类别数分别为500,700,900。其次是DBSCAN聚类方法中参数的确定,本文对目标域训练集输入源域预训练网络模型提取出的特征进行了k距离kt的计算,kt计算结果如图6所示。可以看出,预训练网络模型所提取的目标域训练集特征其k距离范围取值在0.3~1.0之间。因此将DBSCAN聚类的扫描半径eps设置在0.4~1.0间滑动选取,间隔为0.2。10.11834/jig.220668.F006图6无监督领域自适应聚类的k距离曲线Fig.6Curve of k-distance of unsupervised neighborhood adaptive clustering推理结果如表1所示。可以发现,在使用DBSCAN聚类方法并将扫描半径设置为0.8时,进行无监督领域自适应学习的聚类阶段产生的推理结果最好。但是其他聚类生成伪标签方法使用的是K-Means聚类方法,且聚类数量设置为500,为了与其他方法进行公平对比,因此后续实验使用K-Means(500)聚类生成伪标签训练得到的模型作为对比实验使用的模型。表1 无监督领域自适应学习聚类过程中不同聚类方法及参数下的实验结果Table 1 Experimental results under different clustering methods and parameters in unsupervised domainadaptive learning clustering process/%10.11834/jig.220668.T001方法mAPRank1Rank5Rank10K-Means(500)75.390.293.594.8K-Means(700)75.890.693.895.1K-Means(900)75.290.193.395.0DBSCAN(0.4)73.689.392.093.4DBSCAN(0.6)74.889.793.494.6DBSCAN(0.8)76.391.494.295.2DBSCAN(1.0)75.390.493.694.7注:加粗字体表示各列最优结果。同时,为了验证在摄像头时间距离构建中聚类方法对模型推理结果的影响,同样对聚类方法的参数进行了分析。K-Means聚类参数与前文一致,设置为500,700,900。DBSCAN聚类方法的扫描半径参数eps选取方式亦与前文一致,本文对目标域训练集输入网络模型提取出的特征进行了kt的计算,结果如图7所示。10.11834/jig.220668.F007图7摄像头时间距离构建聚类的k距离曲线Fig.7Curve of k-distance of the camera time distance clustering由图7可以得知,扫描半径eps的合理取值范围大致在0.3~1.1之间。将扫描半径eps取值范围设置为[0.3, 1.1],间隔为0.2,整体实验结果如表2所示。不难发现,DBSCAN聚类方法在摄像头时间距离构造过程中进行聚类效果更为优秀。表2 摄像头时间距离构建过程中不同聚类方法及参数下的实验结果Table 2 Experimental results under different clustering methods and parameters in camera timedistance construction process/%10.11834/jig.220668.T002方法mAPRank1Rank5Rank10KMeans(500)72.188.491.393.6KMeans(700)73.389.291.893.9KMeans(900)72.688.991.493.8DBSCAN(0.3)72.488.891.793.8DBSCAN(0.5)73.489.392.093.8DBSCAN(0.7)73.989.793.294.5DBSCAN(0.9)74.890.493.794.5DBSCAN(1.1)76.391.494.295.2注:加粗字体表示各列最优结果。最后,为了验证ω取值对网络模型的影响,设置ω的取值范围为[3,7],间隔为1。结果如表3所示,可以发现,当ω设置为5时,摄像头时间距离与余弦距离进行共同推理的效果最好。这个取值可以在特征间余弦距离不失真的基础上有效使用摄像头时间距离。表3 摄像头时间距离构建过程中不同聚类方法及参数下的实验结果Table 3 Experimental results under different clustering methods and parameters in camera timedistance construction process/%10.11834/jig.220668.T003ωmAPRank1Rank5Rank10375.290.493.694.6475.890.893.995.0576.391.494.295.2675.490.693.794.6774.890.293.294.4注:加粗字体表示各列最优结果。为验证互学习中网络个数的影响,分别对单网络(即不采用互学习)、双网络、三网络进行对比实验,实验结果分别如表4和表5所示。由表4和表5可以看到,互学习能有效结合多网络的特征提取能力,提升模型性能,而本文采用的三网络性能也高于双网络。综合考虑计算资源耗费与模型性能提升,本文采用三网络模型。10.11834/jig.220668.T004表5源域为Market-1501目标域为DukeMTMC-ReIDTable 5Table of experimental results of different number of networks with Market-1501 as the source domain and DukemtMC-ReID as the target domain网络mAPRank1Rank5Rank10den69.386.594.996.7inc63.076.487.690.9res65.877.588.691.3den+inc68.886.294.296.2inc+res66.486.093.995.9res+den72.286.494.796.4den+inc+res76.089.996.097.5注:den表示DenseNet-121,inc表示inception-v3,res表示ResNet-50。设置下的不同网络个数实验结果/%表4 源域为DukeMTMC-ReID目标域为Market-1501设置下的不同网络个数实验结果表Table 4 Experimental results of different number ofnetworks with DukemtMC-ReID as the source domain andMarket-1501 as the target domain/%10.11834/jig.220668.T005表5源域为Market-1501目标域为DukeMTMC-ReID设置下的不同网络个数实验结果Table 5Table of experimental results of different number of networks with Market-1501 as the source domain and DukemtMC-ReID as the target domain网络mAPRank1Rank5Rank10den60.475.386.089.5inc53.673.080.683.2res54.574.083.887.6den+inc60.475.785.688.1inc+res58.874.484.187.3res+den61.375.985.888.3den+inc+res66.179.688.392.2注:den表示DenseNet-121,inc表示inception-v3,res表示ResNet-50。%3.4 实验结果分析为了评估所提方法的有效性,设计对比实验,将本文方法与当前的一些具有代表性的方法进行比较,包括手工特征方法(unsupervised cross-dataset transfer learning,UMDL)(Peng等,2016)、基于特征对齐的方法(unsupervised camera-aware domain adaptation framework,UCDA-CCE)(Qi等,2019)、基于生成对抗网络的方法(similarity preserving generative adversarial network,SPGAN)(Deng等,2018)、CamStyle(camera style generative adversarial network)(Zhong等,2018b)、HHL(hetero-homogeneous learning)(Zhong等,2018a)和ECN(exemplar camera neighborhood)(Zhong等,2019)、基于聚类进行伪标签预测的方法PTG(person transfer gan)(Wei等,2018)、UDAP(unsupervised domain adaptive re-identification)(Song等,2020)、 MEB-Net(multiple expert brainstorming network)(Zhai等,2020)、GLT(group-aware label transfer)(Zheng等,2021a)、HCD(hierarchical cluster dynamics)(Zheng等,2021b)和SAT(self-adaptative techniques)(Bertocco等,2021),对比结果如表6和表7所示,其中,所有对比方法均采用公开发表的结果。10.11834/jig.220668.T006表6源域为DukeMTMC-ReID目标域为Market-1501设置下本文方法与其他方法的对比结果Table 6Comparison results between the proposed method and other methods under the setting of source domain DukemtMC-ReID and target domain Market-1501方法mAPRank1Rank5Rank10UMDL12.434.552.659.6UCDA-CCE30.960.4--SPGAN26.757.775.882.4CamStyle27.458.878.284.3HHL31.462.278.884.0ECN43.075.187.691.6PTG20.545.560.766.7UDAP53.775.889.593.2MEB-Net76.089.996.097.5SAT78.492.996.997.8GLT79.592.296.597.8HCD80.091.9--本文82.595.397.998.4注:加粗字体表示各列最优结果,“-”表示无公开数据。%从表6可以看出,在源域为DukeMTMC-ReID、目标域为Market-1501数据集的实验中,本文方法的mAP和Rank1准确率分别为82.5%和95.3%,较对比方法中指标最高的方法HCD分别高出2.5%和3.4%。从表7可以看出,在源域为Market1501、目标域为DukeMTMC-ReID数据集的实验中,本文方法的mAP和Rank1准确率分别为75.3%和90.2%,较对比方法中指标最高的方法SAT分别高出2.7%和4.8%。这些数据说明了本文使用的摄像头内伪标签构造与深度互学习框架能使网络从图像中提取出更多有用的信息。表7 源域为Market-1501目标域为DukeMTMC-ReID设置下本文方法与其他方法的对比结果Table 7 Comparison results between the proposed method and other methods under the setting of source domainMarket-1501 and target domain DukemtMC-ReID/%10.11834/jig.220668.T007方法mAPRank1Rank5Rank10MDL7.318.531.437.6UCDA-CCE31.047.7--SPGAN26.246.462.368.0CamStyle25.148.462.568.9HHL27.246.961.066.7ECN40.463.375.880.4PTG16.430.043.448.5UDAP49.068.480.183.5MEB-Net66.179.688.392.2GLT69.282.090.292.8HCD70.182.0--SAT72.685.092.193.9本文75.390.293.594.8注:加粗字体表示各列最优结果,“-”表示无公开数据 。同时,为了验证本文各模块的效果,分别在4种不同设置下进行消融实验,主要检测了摄像头内伪标签构造及基于时间戳和摄像头排序优化的作用,实验结果如图8—图11所示。其中,-表示去除该模块,+表示添加该模块。可以看出,摄像头时空距离的引入不仅使无监督领域自适应设置下的行人重识别任务最终推理的性能大幅提升,并且适用于传统的闭集设置下的行人重识别任务。而真实场景下摄像头标签与时间标签并不是难以获取的信息,因此本文方法可以广泛应用于大量场景。10.11834/jig.220668.F008图8DukeMTMC-ReID到Market-1501消融实验结果Fig.8Ablation results of DukeMTMC-ReID to Market-150110.11834/jig.220668.F009图9Market-1501到DukeMTMC-ReID消融实验结果Fig.9Ablation results of Market-1501 to DukeMTMC-ReID10.11834/jig.220668.F010图10Market-1501数据集消融实验结果Fig.10Market-1501 ablation experiment results10.11834/jig.220668.F011图11DukeMTMC-ReID数据集消融实验结果Fig.11DukeMTMC-ReID ablation experiment results4 结 论本文针对无监督领域自适应行人重识别任务,提出了一种结合时空距离的分摄像头互学习方法。其中,摄像头内伪标签的构造利用了数据的时间信息,这比直接使用特征聚类生成的数据集整体伪标签更为可靠,减少了模型对夹杂噪音的整体伪标签的依赖。同时,深度互学习的框架使模型的鲁棒性得到了提升。在此基础上,引入了数据集中摄像头信息及时间戳信息进行排序优化,相比于现有的排序优化算法大幅降低了内存和时间消耗,且进一步提高了行人重识别模型的准确度。本文方法有效解决了无监督领域自适应问题中伪标签噪音的影响,拓展了数据集的使用方法,提出了一种新的排序搜索算法。但是,本文只用了互学习过程中的一个模型,没有充分利用多网络的丰富信息。未来的工作可从如何整合多网络提取一个聚合特征入手,提升最终特征抽取器的泛化性。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读