论文引用格式:Zhang P, Zhang X L, Bao Y T, Ben X Y and Shan C F. 2023. Cloth-changing person re-identification: a summary. Journal of Image and Graphics, 28(05):1242-1264(引用格式:张鹏, 张晓林, 包永堂, 贲晛烨, 单彩峰. 2023. 换装行人重识别研究进展. 中国图象图形学报, 28(05):1242-1264)[0 引 言行人重识别(person re-identification, Re-ID)又称行人再识别,是视频监控系统中一项重要的自动化行人检索技术,旨在衔接目标对象在不同监控区域内的运动轨迹,实现跨时间、跨地点和跨设备的行人跟踪(罗浩 等,2019;Ye等,2022)。针对大规模视频监控系统,行人重识别技术提高了行人检索效率和准确性,弥补了固定摄像头的视觉局限,在智慧城市、监控安全、司法侦查和疫情防控等领域均具有重要应用价值。传统行人重识别(Zheng等,2017a;姚足 等,2021;Ye等,2022)研究主要聚焦于短时间跨度场景,旨在建立行人短时间内连续穿过多个无交叉监控区域间的身份联系。传统行人重识别面临光照变化、摄像头视角差异和遮挡等因素影响,是计算机视觉领域一项十分具有挑战性的任务。目前,大多数关于行人重识别的研究针对传统行人重识别场景,通过特征设计(Gray和Tao,2008;Ma等,2012;Liao等,2015)与特征学习(Zheng等,2017a,2019;Li等,2018;Aich等,2021)等方式挖掘行人外观判别特征,取得了优异的性能。伴随长时间跨度行人检索需求,换装行人重识别,也称长时间跨度行人重识别,开始引起关注(Zhang等,2018;Huang等,2019)。与传统行人重识别不同,换装行人重识别针对长时间跨度场景,如图1所示,目的是建立目标行人长时间跨度下在视频监控下的身份联系。10.11834/jig.220702.F001图 1行人重识别应用场景示意图Fig.1An illustration of person Re-ID application scenarios在长时间跨度场景下,目标行人通常会更换着装,导致行人外观特征身份判别性降低,造成传统行人重识别方法在换装场景下性能严重下降。图2展示了传统方法在短时间跨度数据集MARS(motion analysis and re-identification set) (Zheng等,2018)和换装数据集CVID-ReID(cloth-varing video Re-ID)(Zhang等,2021)上的性能比较。10.11834/jig.220702.F002图2传统方法在短时间跨度数据集MARS和换装数据集CVID-ReID上的性能比较Fig.2Comparison of performance between traditional methods on short-term dataset MARS and long-term cloth-changing dataset CVID-ReID值得注意的是,步态识别也是一类不依赖于行人着装特征的远距离行人身份识别技术,步态特征常用于解决行人重识别问题(Jin等,2022)。不同的是,步态识别主要面向固定场景下身份识别问题,而换装行人重识别是一种更加广义的面向开放场景的跨场景跨时间行人检索技术(Wang等,2003;Zhang等,2021)。换装行人重识别通常从RGB图像中提取鉴别信息,除步态特征以外,行人几何特征(Chen等,2021)、头部特征(Shi等,2022)和属性特征(Zheng等,2019)等均具有十分重要的作用。目前,换装行人重识别研究处于起步阶段,涌现出大量解决方案,相关研究技术路线总结如图3所示。针对换装行人重识别的研究可以归纳为基于非视觉传感器的方法和基于视觉相机的方法。基于非视觉传感器的方法从行人数据采集方式入手,借助深度传感器(Barbosa等,2012;Munaro 等,2014a,b; Haque等,2016)或射频装置(Fan等,2020)等信号采集设备获取着装影响较小的特征。然而这些设备在实际监控系统中很少部署,难以大规模应用和推广。因此,基于视觉相机的方法近年来引起大量研究者兴趣(Gou等,2016;Zhang等,2018;Qian等,2020;Chen等,2021;Lee等,2021;Eom等,2022;Gu等,2022;Jin等,2022)。该方法可以直接借助现有视频监控摄像头获取RGB图像或视频数据,从图像或视频中显式或隐式地学习行人体形、轮廓、步态和属性等着装无关身份判别特征。根据特征获取方式,基于视觉相机的方法可以分为基于显式特征设计或学习的方法、基于特征解耦的方法和基于隐式数据驱动自适应学习的方法。基于显式特征设计或学习的方法旨在手工设计或显式学习行人着装无关特征,例如步态/运动信息(Gou等,2016;Zhang等,2018,2021;Jin等,2022)、人脸(Xue等,2018;Wan等,2020;Shi等,2022)、轮廓(Yang等,2021)和体形(Hong等,2021;Li等,2021;Chen等,2022)。基于特征解耦的方法通过解耦图像特征分离出与着装无关的身份判别特征(Qian等,2020;Eom等,2022;Yu等,2021)。基于隐式数据驱动自适应学习的方法通过深度神经网络自适应行人着装情况,从数据中隐式学习着装无关特征(Huang等,2020,2021;Shu等,2021;Jia等,2022)。10.11834/jig.220702.F003图3换装行人重识别研究技术路线总结Fig.3A summary of research routline for cloth-changing person re-identification本文梳理2012年以来换装行人重识别相关研究,重点围绕换装行人重识别关键技术、数据集与评估方式,综述国内外研究现状,探讨换装行人重识别面临的主要挑战和难点,并展望未来的发展趋势。1 换装行人重识别发展概述换装行人重识别的根本问题是提取对着装、视角和光照等因素具有鲁棒性的身份判别特征进行相似性度量。作为广义行人重识别(Zajdel等,2005)的一个子问题,换装行人重识别最早在2012年引起关注,经历了由依赖深度传感器到普通视觉相机,由手工设计特征到数据驱动学习特征,由监督学习到无监督学习的发展历程,部分关键技术及时间节点如图4所示。10.11834/jig.220702.F004图4换装行人重识别发展重要事件Fig.4Milestones of the long-term person Re-ID2012年,Barbosa等人(2012)提出使用深度传感器重建人体3D模型,通过身体测量挖掘提取软生物特征进行相似性度量。由于深度传感器良好的3D人体重建效果,基于深度传感器的方法在一段时间内被广泛采纳。然而,深度传感器在实际监控系统中很少部署,难以大规模推广和应用。2016年,Gou等人(2016)提出基于普通视觉相机的解决方案,通过编码行人运动轨迹提取行人步态和运动模式等软生物特征进行相似性度量。借助度量学习理论,Gou等人(2016)方法的性能证明了基于普通视觉相机方法的潜力。随着深度学习在传统行人重识别上的成功(Li等,2014;Ahmed等,2015;Cheng等,2016;Zheng等,2017b;Li等,2018;Sun等,2018;Zheng等,2019),Huang等人(2019,2020)提出Celeb-ReID数据集,并使用端到端的卷积神经网络进行自适应特征学习,借助简单的距离度量(欧氏距离或余弦距离)便可实现良好的性能,为深度学习在换装行人重识别上的应用打下了基础。随后,Qian等人(2020)尝试将特征解耦引入深度卷积网络,为换装行人重识别提供了新思路。Yu等人(2020)提出COCAS(clothes changing person set)大规模换装行人数据集,为训练大规模深度神经网络提供了数据支撑。Fan等人(2020)提出使用射频信号弱化行人换装问题,开辟了换装行人重识别新方向。Zhang等人(2021)提出从视频中学习时空特征,提供了基于视频序列的换装行人重识别新思路。Li等人(2022a)提出无监督换装行人重识别,不需要额外的行人标注信息,对工业界实际应用具有重要的研究意义。随着计算机视觉技术的快速发展,传统行人重识别研究日趋成熟。作为行人重识别的一个子问题,换装行人重识别研究呈现多领域结合趋势,近几年涌现出大量大规模数据集和研究方法,换装行人重识别研究进入了一个新的阶段。2 数据集与评估方式2.1 数据集比较换装行人重识别是一个新兴问题,其快速发展离不开数据集。尤其伴随深度学习技术的发展,涌现出大量大规模数据集。这些数据集的获取方式、场景、行人个数和样本数量等特点各异,促进了该领域的蓬勃发展。根据数据集的获取方式和组成形式,这些数据集可以分为RGBD数据集、射频数据集、图像数据集和视频数据集。2.1.1 RGBD数据集早期研究中,广泛采用基于深度传感器的方法,提出了PAVIS(pattern analysis and computer vision)(Barbosa等,2012)、BIWI(Munaro等,2014a)、IAS-Lab(intelligent autonomous systems laboratory)(Munaro等,2014a)和DPI-T(depth-based person identification from top)(Haque等,2016)等RGBD行人数据集。1)PAVIS数据集是最早的一个换装行人数据集,深度信息来源于1个Kinect深度传感器。该数据集共包含79个人,每个人包括Cooperative、Walking1、Walking2和Backwards等4组拍摄场景,共316个行人序列,1 580幅RGBD图像。该数据库为基于深度传感器的行人重识别方法奠定了基础。2)BIWI数据集和IAS-Lab数据集同样使用1个Kinect深度相机在实验室内采集行人行走视频序列。BIWI训练集包含50个人的Kinect SDK同步的RGB图像、深度图像、分割图和骨架数据,共50个序列,测试集包含训练集中的28个人Still和Walking两种状态的56个序列。测试序列与训练序列采集于不同日期、不同位置,包含了着装更换情况。为了准确估计非正面行人骨架,IAS-Lab数据集采用OpenNI(open natural interaction)和NITE(natural interaction engine)采集了11个人的33段序列。3)DPI-T数据集包含12个人的655个RGBD视频序列,其中训练集300个序列,测试集355个序列,平均每个人包含5类着装。另外,该数据集考虑了俯视视角、非受控环境等影响因素。2.1.2 射频数据集射频信号(radio frequency,RF)能够穿透衣服反射行人的体形和轮廓等信息,且保密性强,不易泄露生物特征信息,最近被用于换装行人重识别。美国麻省理工大学提出唯一一个射频换装行人重识别数据集,包含两个子集RRD-Campus(RF re-identification dataset-campus)和RRD-Home(Fan等,2020)。RRD-Campus数据集包含100个人的863段视频与射频同步序列,通过对应视频序列辅助标注射频序列行人身份(identity,ID)。这些射频序列由5个安装在校园中不同位置的射频装置采集,其对应视频序列由安装在相同位置的RGB视觉相机拍摄,拍摄时间为15天。RRD-Home数据集包含38个人的6 305条射频序列。这些射频序列由安装在19个家庭中的射频装置采集获得,采集时间为127天,包含丰富的着装变化情况。另外,与RRD-Campus不同,RRD-Home利用穿戴式加速器辅助射频序列中行人标注。然而,在实际监控系统中,射频装置很少部署应用。2.1.3 RGB图像数据集RGB行人图像易于获取,且可以充分利用现有的视频监控系统,广泛应用于行人重识别研究。目前,大多数换装行人重识别研究也针对行人RGB图像数据集。例如,Celeb-ReID(Huang等,2020)、PRCC(person Re-ID under moderate clothing change)(Yang等,2021)、VC-Clothes(virtually changing-clothes)(Wan等,2020)、Real28(Wan等,2020)、LTCC(long-term cloth-changing)(Qian等,2020)、COCAS(clothes changing person set)(Yu等,2020)、NKUP(Wang等,2020)、LaST(large-scale spatio-temporal)(Shu等,2022)和DeepChange(Xu和Zhu,2022)等。1)Celeb-ReID是首个大规模换装行人重识别图像数据集。该数据集通过爬取网络中的名人图像,共采集1 052个名人的34 186幅图像,使用Mask R-CNN(mask region-based convolutional neural network)(He等,2017)检测行人区域,并将其尺寸调整为256 × 128像素。由于图像爬取于社交分享平台,时间跨度大,每个名人平均超过70%的图像穿着不同的服装。该数据集促进了深度神经网络在换装行人重识别中的应用。2)PRCC数据集是中山大学采集的一个室内数据集,包含221个人的33 698幅图像,平均每个人152幅图像。该数据集由3个不同位置的RGB视觉摄像头拍摄,其中,两个摄像头下同一行人穿着相同服装,另一摄像头下穿着不同服装。实验中,训练集包含150个人,测试集包含另外71个人。该数据集不仅考虑了光照、遮挡和视角等因素,还包含了适度变装情形。3)VC-Clothes是一个使用GTA5(grand theft auto v)渲染的虚拟合成数据集,共包含4种场景下512个人的19 060幅图像,其中256个人的9 449幅图像用于训练,剩余256个人的8 591幅图像用于注册,1 020幅图像用于测试。该数据集同时涉及室内和室外场景,且每个人包含1~3套不同的服装,增加了数据集的难度。4)Real28是一个真实场景换装行人数据集,覆盖室内、室外的4种不同场景。该数据集采集于不同的3天,包含28个人的4 324幅图像。该数据集规模较小,难以训练复杂的神经网络模型,通常仅用于测试阶段。5)LTCC是复旦大学和英国萨里大学采集的大规模室内换装行人重识别数据集。该数据集采集时间历时2个月,图像来自于办公楼内的12个监控摄像头,包括152个人的17 138幅图像。根据是否更换着装,该数据集划分为换装数据集和非换装数据集两个子集。换装数据集包含91个人的14 756幅图像,涉及417类着装,其中每个人着装类型包括2~14种;非换装数据集包含剩余61个人的2 382幅图像。该数据库采集于真实监控环境,是目前涵盖相机数最多的室内换装行人重识别数据集。6)NKUP采集于南开大学校园,覆盖室内、室外15种场景。该数据集采集时间历时3个月,使用YoloV3(you only look once version 3)(Redmon和Farhadi,2018)进行行人检测,KCF(kernelized correlation filters)(Henriques等,2015)进行行人跟踪,共采集107个人的9 738幅图像,其中79个人的图像中包含多种着装情况,训练集中平均每人包含2.2种着装,测试集中平均每人包含2.6种着装。7)COCAS是目前涵盖最多行人的真实场景换装行人重识别数据集,并采用人工方式标注行人图像。该数据集采集于4个不同的日期,采用30个RGB摄像头,共采集5 266个人的62 382幅图像,其中每个人包含2~3种不同着装,每种着装下拍摄2~5幅图像,2 800个人的图像用于训练,剩余2 466个人的图像用于测试。截止2022年,在真实监控场景设置下,该数据集覆盖最多监控区域,涉及最多行人ID数量8)LaST数据集来源于电影视频,是目前最大规模的换装行人重识别数据集,包含10 862个人的228 156幅图像。该数据集涵盖大量变化的场景,例如,河边、山中、公园以及室内等,包含丰富的时间、天气和着装变化,其中76%的行人发生着装更换,每个人最多有24种着装。另外,该数据集是首个提供着装类型标注的行人重识别数据集。9)DeepChange是目前包含最多图像的真实监控场景下换装行人重识别数据集。该数据集采用17个监控摄像头进行数据采集,采用Faster R-CNN(Ren等,2017)检测行人,共标注1 121个人的178 407幅图像,其中,450个人的75 083幅图像用于训练,150个人的22 841像图像用于验证,521个人的80 483幅图像用于测试。该数据集采集时间长达一年,包含不同日期、月份、季节和年份的行人图像,覆盖大量行人换装数据,是目前覆盖时间范围最广的真实监控场景下换装行人重识别数据集。2.1.4 RGB视频数据集监控视频数据包含丰富的时空信息,对遮挡鲁棒性强,广泛应用于行人重识别研究。然而,在长时间跨度场景下,RGB视频数据较图像数据更加难以标注。因此,目前RGB数据集通常规模较小,例如TSD(train station dataset)(Gou等,2016)、Motion-ReID(Zhang等,2018)和CVID-ReID(cloth-varying video Re-ID)(Zhang等,2021)。1)TSD视频数据集采集于美国的一个公共火车站,该数据集包含1台高清相机采集的9个人的长度为41~451帧的81条序列,其中,每个人的3条序列与其他序列穿着不同服装,且行人尺寸调整为64 × 128像素。2)Motion-ReID数据集由澳大利亚悉尼科技大学采集,该数据集包含2台监控摄像机拍摄的30个人的240条室内视频序列,每个行人都穿着2套服装在摄像头前按照不同的方向走过,共形成8个子集。与TSD不同,该数据集包含原始视频数据和标注信息。3)CVID-ReID是一个网络视频数据集,该数据集包含从视频社交媒体上爬取的90个人的2 980段视频序列。由于这些视频来源于不同的网站,每个人至少包含5套不同的着装,是目前包含着装类型最多、规模最大的视频换装行人重识别数据集。以上数据集的细节与比较如表1所示。其中,MT(moderate-term)表示适度时间跨度,LT(long-term)表示长时间跨度。大部分数据库时间跨度为几天,包含部分适度换装。随着深度学习在行人重识别领域的广泛应用,换装行人重识别数据集的规模也在不断扩大,图5展示了几个典型换装行人重识别数据库的示例,覆盖场景由单一简单室内场景到多个复杂场景,时间跨度由几天到几个月,数据量规模由几百到几十万,一定程度上弥补了早期研究中缺乏数据的问题,但仍然存在不足。1)数据量问题。换装行人重识别数据采集和标注相对困难,经历时间更长久,数据规模远小于人脸识别、图像分类等经典计算机视觉问题。过少的训练数据易导致过拟合问题,难以学习出有效的判别模式。2)时间跨度问题。现存数据集大多在几天内采集完成,且一天内采集时间较短,难以覆盖光照变化、天气变化、季节变化和背景变化等复杂情况。DeepChange数据集将采集时间延长到1年,充分考虑了这些变化给行人重识别带来的影响。然而DeepChange数据集中同一行人包含的着装数量依然有限,难以满足模型学习潜在身份特征的需求。3)换装数量问题。在真实场景下,行人在同一季节通常由几套服装进行互相搭配,在不同季节或年份,着装种类会进行更替。但是,现存数据集每个行人通常仅包含少量的着装搭配,难以满足长时间跨度下行人重识别任务需求。4)遮挡、视角问题。遮挡与视角问题是行人重识别任务中最重要的挑战和难点。RGB图像数据更易受到这两个因素的影响,导致模型难以学习到有效的判别特征。视频数据在一定程度上可以弥补这些缺点,然而,当前视频数据集如TSD、Motion-ReID、CVID-ReID等规模较小,且尚未公开使用。10.11834/jig.220702.T001表 1现存换装行人重识别数据集比较Table 1Comparison of the existing cloth-changing person Re-ID datasets数据格式数据集ID数图像数序列数相机数场景/来源行人检测时间跨度着装数量是否公开RGBDPAVIS791 580316Kinect,1实验室OpenNIMT部分换装是BIWI50530106Kinect,1实验室Kinect SDKMT部分换装是IAS-Lab1116533Kinect,1实验室OpenNI+NITEMT部分换装是DPI-T12-655Kinect,1非受控室内-MT5否射频RRD-Campus100-863Radio, 5/ RGB,5非受控室内视频MT部分换装否RRD-Home38-6 305Radio,19非受控室内加速器LT换装否RGB图像Celeb-ReID1 05234 186-变化街拍/网络Mask R-CNNLT70%是PRCC22133 698-RGB,3非受控室内-MT2是VC-Clothes51219 060-Virtual, 4室内、室外Mask R-CNNMT1~3是Real28284 324-RGB,4室内、室外Mask R-CNNMT部分换装是LTCC15217 138-RGB,12室内Mask R-CNNLT2~14是NKUP1079 738-RGB,15室内、室外YoloV3+KCFLT2.2是COCAS5 26662 382-RGB,30室内、室外手工MT2~3否LaST10 862228 156-变化电影手工LT76%是DeepChange1 121178 407-RGB,17室外Faster R-CNNLT换装是RGB视频TSD9-81RGB,1室内-MT2否Motion-ReID3024 480240RGB,2室内手工MT2否CVID-reID9077 9352980vary网络手工LT5否注:“-”表示相关数据不可获得。10.11834/jig.220702.F005图 5典型换装行人数据库样本示例Fig.5Examples of typical cloth-changing datasets2.2 评估方法与传统行人重识别相同,换装行人重识别的性能评估标准主要包括累计匹配(cumulative match characteristics,CMC)曲线和平均精度均值(mean average accuracy,mAP)。给定查询集G和注册集Q,行人重识别任务根据查询样本qi与注册集中候选样本gj之间的相似度排序,使用CMC曲线计算Rank-K命中率,具体为CMCK=1N∑i=1N1ki≤K0其他 (1)式中,ki表示第i个行人的第k个匹配结果,如果前K个样本中有匹配结果,则为1,否则为0。K=1表示首位预测准确。在实际行人重识别应用场景中,K通常取5,10,20,返回相似度排序靠前的多个检索结果供人工判断,提供准确性。平均精度反映了查准率(P)与查全率(R)之间的全局信息,通常由P-R曲线与坐标轴之间的面积来表示,即mAP=∫01PRdR (2)除此以外,平均逆负惩罚(mean inverse negative penalty,mINP)(Ye等,2022)也用于评估行人重识别模型性能,以克服CMC和mAP评估中简单样本占据优势的问题,其定义为mINP=1N∑i1-NPi (3)式中,NPi度量第i个待查询行人匹配到最难样本的惩罚,定义为NPi=Rih-GiRih (4)式中,Rih表示最难样本的排序位置,Gi表示第i个待查询行人所有的匹配结果数量。针对换装行人重识别,Huang等人(2020)定义了鲁棒性值衡量模型对传统行人重识别和换装行人重识别间的有效性,定义为RSP=scLP×scSPscLP-scSP+1 (5)式中,scLP和scSP分别表示换装行人重识别和传统行人重识别场景下的准确率, P∈mAP,CMCK表示不同的评价指标。2.3 小结本节介绍了换装重识别的数据集和性能评估标准。目前,已有十几个由深度传感器、无线射频和视频监控相机等设备采集的专门针对换装行人重识别的数据集。尤其是近年提出了大量基于视觉相机的数据集,规模越来越大,考虑因素越来越详细,体现了这个领域的快速蓬勃发展。然而,现存数据集也存在一些缺点:1)数据规模依旧难以支撑大规模神经网络训练;2)同一行人的着装数量有限,难以体现实际场景中换装频率;3)数据集采集时间间隔不够长,难以体现跨年行人身体体形的变化。3 换装行人重识别关键技术现有换装行人重识别使用的关键技术中,根据数据采集和样本类型,可以分为基于非视觉传感器的方法和基于视觉相机的方法。基于非视觉相机的方法利用深度相机或射频装置采集行人信息,从深度图或射频信号中提取行人轮廓、体形等判别信息。基于视觉相机的方法采用视觉监控相机采集RGB图像或视频,从图像/视频中设计或学习身份判别特征。基于视觉相机的方法又可以分为基于显式特征构建或学习的方法、基于特征解耦的方法和隐式数据驱动的自适应学习方法。3.1 基于非视觉传感器的方法3.1.1 基于深度传感器的方法深度传感器,例如Kinect、Asus Xtion Pro等能够快速采集深度信息,重建行人在3维(3D)空间内的体形结构,能在一定程度上克服模型对着装颜色、纹理等外观信息的依赖。因此,深度传感器在初期广泛应用于换装行人重识别。这类方法通常可以分为两类。1)通过3D人体进行测量提取行人软生物特征信息;2)通过神经网络模型从深度图像序列中学习时空信息。3D人体测量是常见的软生物特征表示方法,旨在通过测量关节点间的距离、关节点与地板的距离、3D人体关节点间曲面的测地线距离等描述行人的几何结构和体形轮廓信息,然后进行加权距离度量。Barbosa等人(2012)将这些特征分为基于骨架点的特征和基于3D人体轮廓的特征,如图6所示。10.11834/jig.220702.F006图6身体测量与软生物特征构建(Barbosa等,2012)Fig.6Body measurement and soft-biometric feature construction (Barbosa et al., 2012) ((a) distance feature of joints;(b) 3D contour feature)基于骨架点的特征包括:d1: 头部到地板的欧氏距离;d2: 躯干和腿长的比例;d3: 身高;d4: 脖子到地板的欧氏距离;d5: 脖子到左肩的欧氏距离;d6: 脖子到右肩的欧氏距离;d7: 躯干中心到右肩的欧氏距离。基于3D人体轮廓的特征包括:d8: 躯干中心到左肩的测地线距离;d9: 躯干中心到左髋关节的测地线距离;d10: 躯干中心到右髋关节的测地线距离。另外,3D人体通常使用点云表示,Munaro等人(2014a)通过点云对齐计算3D人体之间的相似性,以实现行人重识别目的。两个点云之间的相似性用适配分数(fitness score)表示。给定两个3D人体点云P1和P2,P2相对于P1的适配分数定义为f2→1=1N∑pi∈P2pi-qj* (6)式中,N表示P2中云点的个数,pi表示点云P2的第i个云点,qi*定义为qi*=argminqj∈P1pi-qj (7)基于3D人体测量的方法不需要使用复杂的机器学习模型进行特征学习和推理,易于快速部署和测试。该方法依赖高质量3D人体数据,然而,在实际应用中身体易受宽松着装遮挡,导致深度相机无法准确估计3D人体结构,造成特征可靠性下降。因此,基于3D人体测量的方法常用于室内等可控的环境。利用神经网络模型从3D人体行走序列数据中隐式学习具有判别性的微小特征是另外一种方法(Haque等,2016;Zhang等,2021)。其中,美国斯坦福大学提出的RAM(recurrent attention model)模型就是一个典型代表,如图7所示。RAM模型以3D点云序列为输入,包含采样层(glimpse layer)、卷积神经网络(convolutional neural network,CNN)编码器(Ji等,2013)和循环注意力单元(recurrent attention unit,RAU)(Mnih等,2014),分别完成局部块提取、特征压缩与编码和判别性特征提取。该网络的核心是循环注意力单元,由长短记忆单元(long short-term memory unit,LSTM)(Hochreiter和Schmidhuber,1997)、行为网络(action network)和定位网络(location network)构成。其中,行为网络根据LSTM输出的隐态预测输入样本的ID标签,定位网络根据LSTM输出隐态的分布随机选取下一个局部块采样。通过强化学习方式训练定位网络,不断进行采样,在一定程度上克服了样本不足的问题,同时也使网络能够更加关注3D感兴趣区域,增强提取微小身份特征的能力,在PAVIS数据集上的Rank-1达到了41.3%。10.11834/jig.220702.F007图7基于行人点云序列的RAM模型流程图(Haque等,2016)Fig.7Flowchart of RAM model based on pedestrian point cloud(Haque et al., 2016)3.1.2 基于射频信号的方法无线装置发出的射频信号能够穿透衣服,遇到人体发生信号反射。接收装置收到的反射信息在一定程度上反映了行人的体形信息,如图8所示。10.11834/jig.220702.F008图8RGB图像与射频热力图同步采集示意图(Fan等,2020)Fig.8Synchronized RGB image and RF heatmaps (Fan et al., 2020)相对于RGB图像,射频信号隐私性更好。鉴于这些优点,射频信号被用于换装行人重识别研究(Fan等,2020)。然而,射频信号包含的信息有限,由于射频信号的单向反射性(Beckmann和Spizzichino,1987),造成身体部分信号会丢失,导致射频信号中身份判别信息不足。另外,射频信号主要反映了行人在环境中的位置信息,易误导机器学习模型学习到非身份信息。美国麻省理工大学的Fan等人(2020)提出一个多任务学习框架RF-ReID(radio frequency re-identification),如图9所示,包含行人重识别和骨架预测两个任务。10.11834/jig.220702.F009图9RF-reID多任务学习模型流程图(Fan等,2020)Fig.9Flowchart of RF-reID multi-task learning model(Fan et al., 2020)为克服单帧射频信号信息丢失问题,行人重识别网络中嵌入了一个层次注意力机制聚集射频序列中各帧包含的体形和运动信息。通过结合三元组损失(Hermans等,2017)和ID(identification)身份损失(Zheng等,2015)约束网络提取身份特征信息。同时,为了避免行人位置等无关环境信息的影响,引入了一个环境判别器,借助对抗训练削弱环境对特征学习的影响。另外,骨架预测任务作为行人重识别的一个辅助任务,可辅助行人重识别网络学习到行人的几何特征和行走模式,同时避免行人重识别网络陷入过拟合。该工作证明了射频信号在换装重识别应用中的有效性。然而,射频信号易受无线信号衰减、背景环境等因素的影响,难以大规模推广与应用。3.1.3 小结本节总结了基于非视觉传感器的换装行人重识别关键技术,主要包括基于深度相机的方法和基于射频信号的方法。前者利用深度相机采集深度信息进行3D空间内人体重建,然后通过身体测量构建或深度网络模型学习行人判别特征;后者利用无线WI-FI(wireless fidelity)装置发射射频信号,借助射频信号的反射特性提取体形、步态等身份判别特征。这两类方法在一定程度上克服了着装外观的影响,在相对开放环境中取得了一定效果。然而,深度相机和射频发射—接收装置在实际监控系统中很少部署,难以大规模应用。3.2 基于视觉相机的方法由于监控系统大多采用RGB视觉相机,基于视觉图像/视频的行人重识别是计算机视觉领域中最热门的研究任务之一。研究者提出了大量基于RGB图像/视频的换装行人重识别方法。根据特征构建或学习方式,这些工作可以分为3类:显式特征构建或学习、特征解耦和隐式数据驱动自适应学习。3.2.1 基于显式特征构建或学习的方法显式特征构建或学习是当前换装行人重识别的一个重要研究方向,该类方法主要通过对行人生物特征进行显性描述,挖掘生物特征中潜在的身份判别信息。本节根据生物特征的类型,对这些方法进行分类总结,并通过典型论文对其原理进行简单分析。人脸(face)包含丰富的身份信息,是该类方法中常采用的一种生物特征信息(Xue等,2018;Wan等,2020;Shi等,2022;胡蓝青 等,2022)。这类方法通常借助人脸检测模型,例如MTCNN(multitask cascaded convolutional neural network)(Zhang等,2016)和Pyramidbox(Tang等,2018)或人体解析模型(Güler等,2018)检测出人脸,然后微调人脸识别模型(Wen等,2016)提取人脸中包含的身份判别信息。由于监控环境下,行人图像由摄像头远距离采集,行人图像的分辨率通常较低,易导致人脸检测错误甚至无法检测出清晰的人脸。另一方面,由于行人行走方向和摄像头视角的多样性,很多情况下无法获得高质量的正面人脸图像。因此,人脸特征有很大的局限性,通常无法单独用于行人重识别研究。为了克服这个问题,如图10所示,现有方法大都采用与行人图像全局或局部特征相结合的方式。10.11834/jig.220702.F010图10基于人脸的典型方法思路Fig.10Idea of the classical face-based methods轮廓(contour)和体形(shape)特征反映了人体的几何结构特点,具有唯一性,且不易受到着装颜色、纹理变化的影响,是另一种广泛应用于换装行人重识别的生物特征(Zheng等,2021;Yang等,2021;Chen等,2021,2022;Hong等,2021)。这类方法的核心是构建轮廓模型或轮廓特征约束,从轮廓/体形中提取身份判别信息。根据轮廓的种类,这些方法可以归纳为两类:基于2D轮廓模型的方法和基于3D人体重建的方法。最简单的2D轮廓模型是步态轮廓图(gait silhouette)(Lee和Grimson,2002), 其在步态识别任务中广泛应用(Wang等,2003;Liu和Sarkar,2004;Veres等,2004),充分证明了步态轮廓中含有身份判别信息。Hong等人(2021)将步态轮廓图引入换装重识别研究,提出一个形状—外观交互式学习模型FSAM(fine-grained shape-apperance mutual learning)。FASM由形状和外观两个分支构成。外观分支由行人重识别损失函数约束,直接从RGB图像中学习着装无关特征,而形状分支首先通过人体解析模型(Li等,2022b)获得步态轮廓,然后使用行人重识别损失约束从步态轮廓中学习形状相关特征信息。训练过程中,两个分支由Kullback-Leibler散度和稠密特征相似性约束联系在一起,进行交互式学习,以形状分支作为约束,对外观分支获得的着装无关信息进行补充,获得兼顾“微身份”外观信息(Zhang等,2021)和形状信息的判别性身份特征。与直接使用2D轮廓图不同,另外一种有效的思路是由2D轮廓图构建特征模板,例如步态能量图(Han和Bhanu,2006)、梯度能量图(Hofmann和Rigoll,2012)和运动历史图(Ahad等,2012)等。然而这些步态特征模板大多基于视频序列数据,受限于完整的步态周期,难以直接应用于基于静态图像的换装行人重识别问题。另外,行人的轮廓图相似性较高,轮廓的局部曲度特征难以直接学习与表示,限制了轮廓数据在换装行人重识别中的应用。为了解决这些问题,Chen等人(2021)提出基于轮廓速写的空间极变换图。如图11所示,给定一幅RGB行人图像,首先使用嵌套边缘检测模型(Xie和Tu ,2015)生成轮廓速写图,然后采用可微极变换表征行人轮廓局部区域的曲线变化规律。可微极变换包括两步:计算采样间隔和采样。令θi∈-π,π,表示第i次采样角度, rj=j×R/M表示第j次采样半径。其中,N和M分别表示角度θi和半径rj采样的次数,R表示最大采样半径,则在直角坐标系中相应采样坐标位置为xi,j=rjcosθi,  yi,j=rjsinθi (8)式中,xi,j, yi,j表示原轮廓速写图的坐标, i,j表示可微极变换后的空间极变换图V∈RN×M第i行第j列,其对应的像素值vi,j可由一个可微双线性采样核函数(Jaderberg 等,2015)计算获得,表示为vi,j=∑h=1H∑w=1Wuh,w×1-xi,j-w+×1-yi,j-h+ (9)式中,·+=max0,·, uh,w是原始轮廓速写图在坐标h,w处的像素值。生成的空间极变换图如图11所示,能够更加直观反映行人轮廓曲线变化特点,且不易受图像旋转和尺度缩放的影响,利于特征提取模型挖掘轮廓曲线特征。10.11834/jig.220702.F011图11微分极变换示意图Fig.11Illustration of differential polar transformation与图像空间相比,3D人体不易受摄像头视角和行人姿态等变化因素影响,利于行人人体轮廓曲线和体形结构等软生物特征表达。然而,重构3D人体通常依赖深度传感器,难以在实际监控环境中大规模部署和应用。但是,随着基于单帧RGB图像的3D人体重建(Alldieck等,2012;Loper等,2015;Bogo等,2016;Kolotouros等,2019;Bhatnagar等,2020;Lin等,2021)技术的日益成熟,从图像中恢复3D人体已不再困难。3D人体重建本质上是基于身体姿态和身体形状等先验信息恢复人体3D结构,而软生物特征身份判别信息提取本质上是挖掘人体体形特征和轮廓曲线信息,两个任务紧密相关。因此,基于RGB图像的3D人体重建也适用于换装行人重识别研究(Zheng等,2021;Chen等,2021)。Zheng等人(2021)首次将3D人体重建引入行人重识别。该工作借助3D点云表示人体,通过构建K近邻图模型提取身体局部结构信息。与Zheng等人(2021)直接使用3D重建作为输入不同,Chen等人(2021)将3D 人体重建作为一个辅助监督任务,将3D重建过程中行人身体几何参数分解为身体体形参数和姿态参数,从形状参数中学习身份特征,与RGB图像中的“微身份”信息结合进行行人重识别,其流程如图12所示。10.11834/jig.220702.F012图123D人体重建辅助换装行人重识别模型流程图(Chen等,2021)Fig.12Flowchart of 3D body reconstruction assisted cloth-changing person Re-ID(Chen et al., 2021)步态(gait)或运动(motion)特征反映了行人的行走方式,且不易受到着装颜色、纹理等外观信息的影响(王科俊和侯本博,2007;张红颖和包雯静,2022)。作为一种软生物特征,步态和运动特征也适用于换装行人重识别(Gou等,2016;Zhang等,2018,2021;Jin等,2022)。由于摄像机视角、行人姿态的多样性,步态轮廓图通常难以直接应用于复杂的开放监控场景。早期工作中,Gou等人(2016)和Zhang等人(2018)利用行人的稠密运动轨迹(Wang和Schmid,2013)构建行人运动特征。随着深度学习在计算机视觉各领域取得成功,基于深度学习的运动特征提取被用于换装行人重识别。Zhang等人(2021)提出一个包含时空特征提取和运动特征提取的双流网络,前者从行人视频序列中直接提取运动特征和“微身份”外观特征,后者首先进行3D骨架估计,从行人骨架序列中学习行人运动特征和身体结构特征。该模型在传统行人重识别和换装重识别上都取得了良好的效果。Jin等人(2022)认为步态识别可以作为一个辅助任务驱动行人重识别模型学习着装无关的运动特征。如图13所示,该模型提出一个包括步态分支和重识别分支的双流网络。步态分支首先通过一个步态预测模块从单张步态轮廓中预测整个步态序列,然后通过步态特征提取模型,例如GaitSet(Chao等,2019)提取步态特征。行人重识别分支通过一个行人重识别主干模型(He等,2016;Sun等,2018;Zheng等,2019)从RGB图像中提取隐含的身份特征。两个分支通过最小化最大平均差异(maximum mean discrepancy,MMD)(Gretton等,2012)将两个分支联系起来,使步态分支约束行人重识别模型学习步态相关的身份判别特征。10.11834/jig.220702.F013图13步态约束的换装行人重识别示意图Fig. 13An illustration of gait regularized cloth-changing person Re-ID本小节介绍了基于视觉相机的换装行人重识别方法。从特征种类角度可分为人脸、形状/轮廓、步态/运动3类,从特征获取方式可分为手工和学习两类,从输入类型可分为图片和视频。表2汇总并比较了这些典型方法的特点,为后续研究提供参考。10.11834/jig.220702.T002表 2基于显性生物特征的换装行人重识别方法比较Table 2Comparison of explicit biometric feature for cloth-changing person Re-ID方法人脸形状/轮廓步态/运动手工构建表征学习图像视频其他特点Gou等人(2016)--是是--是稠密运动轨迹Zhang等人(2018)--是是--是稠密运动轨迹Xue等人(2018)是---是是-同时预测着装是否相同Wan等人(2020)是---是是-同时提取全局和局部外观特征Zheng等人(2021)-3D点云--是是-K近邻图模型Hong等人(2021)-2D轮廓--是是-姿态约束形状提取与外观特征提取交互式学习Chen等人(2021)-3D--是是-3D人体重建辅助形状特征提取+外观特征提取Yang等人(2021)-轮廓速写--是是-空间极变换图+形状特征提取Zhang等人(2021)-3D骨架是-是-是微身份网络+运动特征网络Chen等人(2022)-轮廓速写--是是-交互式提取外观/形状的局部/全局特征Shi等人(2022)是---是是-同时提取全局外观特征Jin等人(2022)-2D轮廓-是是-使用步态识别约束行人重识别网络注:“-”表示不包含此类特征。3.2.2 基于特征解耦的方法对于给定任务,特征解耦(Reed等,2014)指从任务中分离出任务相关特征和无关特征。在换装行人重识别任务中,如何从行人特征中去除着装颜色、纹理等身份无关特征对于提高模型性能具有至关重要的作用。因此,特征解耦也广泛应用于换装行人重识别(Qian等,2020;Shu等,2021;Eom等,2022;Li等,2021;Yu等,2021;Xu等,2021;Jia等,2022)。本节将这些方法归纳为外部信号引导的特征解耦和基于生成对抗网络的特征解耦,并论述基本原理和代表方法。外部信号引导的特征解耦通常由额外的条件信息引导特征分离,例如关节信息(Qian等,2020)、服装模板(Shu等,2021)。图14给出了一个典型的条件引导的行人特征解耦模型(Qian等,2020;Shu等,2021)的示意图,其用关节点作为控制条件,结合服装分类约束,将图像提取的行人特征分离为着装特征和身份判别特征。服装模板是另外一种常用的引导条件,Shu等人(2021)借助人体解析模型分离出行人的着装区域,然后通过像素随机采样填充着装区域,消除着装颜色、纹理等信息的影响。10.11834/jig.220702.F014图14关节点引导的特征解耦模型示意图(Qian等,2020)Fig.14An illustration of key points guided feature disentanglement model(Qian et al., 2020)基于生成对抗网络的方法是另外一种常用的行人解耦技术(Eom等,2022;Li等,2021;Yu等,2021;Xu等,2021;Jia等,2022)。生成对抗网络(generative adversarial network,GAN)(Goodfellow等,2014)是一种图像生成技术,其由一个生成器和一个判别器构成。在训练过程中,通过交替优化使生成器生成的图像尽可能骗过判别器,同时使判别器鉴别能力足够强,能够区分输入图像是生成图像还是真实图像,最终达到纳什均衡,使生成器合成的图像能够以假乱真。 经典的生成对抗网络合成的图像是随机的,后续工作cGAN(conditional GAN)(Mirza 和 Osindero,2014;Isola等,2017)和CycleGAN(cycle-consistent adversarial network)(Zhu等,2017)分别实现了有条件控制图像生成结果和非成对图像风格转换等功能,促进了GAN在行人重识别中的应用。Zheng等人(2017b)最早将GAN应用于行人重识别,采用随机生成数据增广数据集。为了解决换装行人重识别中特征解耦问题,Zheng等人(2019)和Xu等人(2021)在cGAN和cycleGAN的基础上,利用跨身份图像生成解耦外观和体形信息。Xu等人(2021)提出的特征解耦网络如图15所示。其中,着装编码器Ec用于生成行人外观特征f,身份编码器Ei用于生成与着装无关的身份特征s,例如体形、姿态等。该模型通过在隐空间内对外观特征和身份特征进行两两组合,使来自同一个人的特征组合能够重建原始图像,来自不同人的特征组合能够实现某一姿态下着装的替换。由于缺乏跨身份合成换装图像的真实图像,该模型借鉴CycleGAN的思想,使换装图像能够通过反向生成重构原始图像。通过上述行人内跨姿态及行人间跨着装图像生成,该类模型在隐空间内实现了外观特征和体形特征的解耦分离。10.11834/jig.220702.F015图15基于GAN的特征解耦网络示意图(Xu等,2021)Fig.15An illustration of GAN-based feature disentanglement network(Xu et al.,2021)与上述跨行人图像生成不同,Li等人(2021)利用RGB图像对应的灰度图提取身份特征,而利用同一行人的另外一幅RGB图像提取着装颜色信息,在隐空间内通过将灰度图提取的身份信息与RGB图像提取的颜色相结合,重构灰度图对应的RGB图像。同时,利用一个判别器使灰度图与其对应的RGB图像生成的特征不可区分,迫使在隐空间内灰度图与其对应的RGB图像生成相同的特征信息,以此实现身份信息和颜色信息的分离。尽管该种方法在一定程度上实现了特征解耦,但不能完全实现着装纹理特征与行人身份特征的分离。Yu等人(2021)则利用着装掩膜对行人着装进行分离,通过替换着装实现跨着装行人生成,以此解耦着装信息。Eom等人(2022)在图像合成过程中采用身份更换技术对特征分解,并通过约束身份无关特征的分布使身份相关特征和身份不相关特征不相关。该方法在传统行人重识别和长时间跨度行人重识别都获得了良好的性能。本小节介绍了基于特征解耦的换装行人重识别方法,主要包括基于外部信号的特征解耦和基于生成对抗网络的特征解耦。前者需要额外的条件信息作为监督,引导模型进行特征分离,而后者大多不需要额外的信号进行约束,而是通过跨身份生成、着装更换生成等方式实现特征解耦。基于特征解耦的方法具有很直观的假设基础和理论基础,通常能够取得良好的效果。另一方面,这类方法在特征解耦的同时伴随着图像合成,具有很好的可视化效果和可解释性。3.2.3 基于数据驱动自适应的方法随着深度学习在计算机视觉各领域的成功,基于数据驱动自适应的方法广泛应用于行人重识别(Ye等,2022)。当数据量足够大时,数据驱动学习的模型能够自适应类内样本间的差异,学习利于分类的判别性特征。然而,换装行人重识别数据量通常有限,造成模型提取的特征具有偏向性。为了克服这个问题,Huang等人(2019)采用微调策略,通过不断调整在传统行人重识别数据集上的预训练模型参数,使网络能够克服着装带来的影响。为了能够感知同一行人的着装变化,Huang等人(2020)引入胶囊模块,使向量神经元胶囊能够同时感知类内行人着装情况和身份信息。通过在换装数据集上调整模型参数,这种方法能够自适应学习到着装无关特征,但是在部分换装数据情况下易导致次优的效果。为了解决这个问题,Huang等人(2021)提出一个着装状态感知感知模型,通过动态约束行人特征,使模型能够处理部分换装情形,如图16所示,该模型由类内约束(intra-class regularization,ICR)分支和类间增强(inter-class enforcement,ICE)分支构成。ICE分支和ICR分支采用相同的行人重识别预训练模型。训练过程中,ICR分支主干网络参数固定,用于生成着装特征。通过对着装特征聚类,可感知类内着装情况。ICE分支用于产生身份判别特征,用于行人重识别。两个分支通过特征约束模块联系在一起,使模型在无着装标注情况下感知行人是否更换着装,即着装状态。10.11834/jig.220702.F016图16着装状态感知模型示意图Fig.16An illustration of clothing status awareness model本小节总结了数据驱动自适应在换装行人重识别中的典型方法。该类方法直接从换装数据中隐式学习身份相关特征,对数据依赖性强,需要大量换装数据调整模型参数。另外,与显性生物特征和特征解耦相比,该类方法采用“黑盒”结构,特征的可解释性差。3.2.4 小结本节总结了换装行人重识别研究最新进展和相应关键技术。这些方法归纳为两大类:基于非视觉传感器的方法和基于视觉相机的方法。前者主要使用深度传感器、无线射频装置,在相对开放环境中取得了良好的效果。然而,深度传感器和无线射频装置在实际监控系统中很少部署,因此,基于视觉相机的方法是近几年研究的热点。基于视觉相机的方法归为3类:基于显性生物特征的方法、基于特征解耦的方法和基于数据驱动自适应学习的方法。基于数据驱动自适应学习的方法对数据依赖严重,且可解释性较差,针对这方面的工作相对较少。与之相比,基于显性生物特征的方法和基于特征解耦的方法可解释性强,是近几年研究的热点,出现在知名期刊和会议上的工作也逐年增多,推动了该领域的快速发展。4 比较与讨论本节通过对典型算法进行性能比较,梳理换装行人重识别的发展趋势。由于非视觉数据集和视觉数据集上的方法采用数据不同,本文将这些方法分别进行比较。表3总结比较了基于深度数据集方法的性能、特征形式和基本特点。由表中结果可知,基于深度学习方法的Rank-1性能远超基于人体测量的方法,证明深度学习方法相对于人体测量能够减少身份信息的损失,具有更强的特征表征能力。然而,深度相机部署成本远高于视觉相机,其在实际监控系统中尚未大规模普及应用。近年来,大量研究转向基于普通监控视觉相机的解决方案。10.11834/jig.220702.T003表3PAVIS数据集上典型算法比较Table3Comparison of the typical methods on PAVIS方法Rank-1/%特征形式基本特点Barbosa等人(2012)15.0骨架人体测量Munaro等人(2014a)28.6骨架人体测量Haque等人(2016)41.33D点云循环注意力模型表4总结比较了典型方法在基于视觉相机数据集PRCC上的性能和基本特点。由表4可知,换装行人重识别的性能近两年不断提升,涌现出大量研究工作,其中,Shu等人(2021)发表在IEEE Processing Letters上的最新工作取得了最高的Rank-1准确率,达到65.8%。然而,由于换装数量有限,着装变化与其他影响因素(摄像头视角变化、光照变化、姿态差异以及遮挡等)交织在一起,使换装行人重识别更具挑战性,当前方法远不能满足实际应用需求。另一方面,显性特征构建和表示、特征解耦的特征解释性强。由表4可知,这两类方法性能较好,是当前换装行人重识别中最热门的两个思路。10.11834/jig.220702.T004表4基于视觉相机的方法在PRCC数据集上比较Table 4Comparison of visual/RGB-based methods on PRCC dataset方法名称来源Rank-1/%mAP/%类型特点Huang等人(2021)RCSANetICCV31.631.5数据驱动自适应着装状态感知模块Xu等人(2021)AFD-NetIJCAI42.8-特征解耦使用GAN进行跨身份跨姿态行人重建Yang等人(2020)SPT+ASET-PAMI34.4-显性特征构建和表示通过极变换构建空间极变换图,然后进行特征学习Shu等人(2021)SGPST-SPL65.861.2特征解耦通过像素采样模糊行人着装特征Li等人(2021)CASE-NetWACV39.5-特征解耦借助灰度图进行跨样本行人重建Shi等人(2021)IRANetIVC54.953.0特征构建和学习人脸特征和身体特征融合Chen等人(2021)CHGT-MM48.8-显性特征表示层次轮廓图与RGB图像交互式学习Jia等人(2021)Pos-NegT-IP54.965.8特征解耦数据增广Shu等人(2022)LASTT-CSVT57.554.7数据驱动自适应深度度量学习和mAP优化Chen等人(2021)3DSLCVPR51.3-显性特征表示通过3D人体重建约束特征学习Hong等人(2021)FSAMCVPR54.5-显性特征表示轮廓特征与图像特征交互式学习Jin等人(2022)GI-ReIDCVPR37.55-显性特征表示通过步态预测辅助特征学习注:“-”表示相关数据不可获得。总体看来,基于视觉相机的换装行人重识别是近几年研究的热点,大量相关工作发表在知名学术会议或者期刊上,各类方法呈现百花齐放局面,并且研究的重心逐渐向解释性强的方法偏移,且呈现多模态特征融合的趋势。表4仅给出了基于RGB图像的有监督换装行人重识别方法,而无监督方法和基于视频的换装行人重识别研究相对较少,本文未做整理和分析。5 研究难点与未来展望尽管换装行人重识别研究已经持续了多年,但是早期研究工作主要利用深度传感器对3D人体重建的优点,对设备依赖性强,难以在实际监控系统中大规模部署和应用。基于视觉相机的换装行人重识别是近几年兴起的一个研究热点,近两年取得了很大突破。本文介绍的方法主要侧重于解决着装变化带来的影响,分离出外观无关的身份特征。然而,实际应用场景中,着装变化通常与光照变化、摄像机视角差异、姿态变化以及遮挡等因素交织在一起,极大程度地增加了换装行人重识别问题的挑战性,暴露出当前研究的不足,主要体现在以下方面:1)数据集问题。尽管近几年相继提出了十几个数据集,但依旧存在一些问题。例如,数据规模不足,难以覆盖复杂的应用环境和行人换装频率;数据采集时间间隔有限;缺少单一摄像头下的多视角数据等。2)特征对齐。摄像机视角差异和行人姿态变化易导致行人图像发生自遮挡和形变,影响行人体形和结构信息的提取。然而,大多数现存方法依靠网络模型自适应这些差异,而未做显式处理。3)遮挡。遮挡问题是行人重识别中的一个经典问题,传统行人重识别中遮挡可由局部特征对齐进行解决。而换装行人重识别中,遮挡易破坏行人的体形结构,现有方法难以由未遮挡部分推断人体的整体结构特征。4)表征能力有限。现有方法大都直接从RGB图像出发,通过设计约束条件提取形状、运动以及“微身份”等一个或几个身份相关特征,容易造成信息损失,削弱特征的表征能力。5)泛化能力问题。现有数据集规模相对较小,而现有方法大都基于深度学习,随着网络层数加深,深度学习模型易过拟合现有的小数据集,使学习到的特征具有偏向性,无法应用于复杂多变的真实环境。综上,尽管现有换装重识别研究已经取得了很大进展,仍有很多遗留问题和缺陷值得未来进一步深入研究。关于未来可能的研究方向,本文认为可以从如下几个方面考虑:1)构建大规模视频换装行人数据集。与单帧图像数据相比,视频数据包含具有身份判别性的步态/运动信息,能够根据视频序列的连续性对遮挡帧进行估计,克服遮挡问题,并且能够根据行人运动过程中的视角和姿态变化重建准确性更高的3D人体。同时,根据视频行人数换装据集探究基于视频的方法具有极大的潜力。2) 3D人体重建驱动的特征学习。3D空间内,人体不易受视角、姿态等变化因素的影响,利于人体体形和结构特征的提取和度量。近年来,随着3D人体重建技术的成熟(Loper等,2015;Kolotouros 等,2019;Bhatnagar等,2020;Lin等,2021),从RGB图像或视频中恢复3D人体已不再是难题。Chen等人(2021)初步验证了3D重建有助于行人体形特征的表达,但仅将3D重建作为一个辅助的任务,没有充分利用3D人体的特性。因此,如何将3D重建和换装行人重识别有机结合起来,重建具有身份保持的3D人体是未来一个值得探讨的问题。另一方面,3D人体通常采用点云表示,如何设计专门的特征表征模型从3D人体提取身份判别信息也是值得研究的内容。3)结合行人属性分析。行人属性分析(Tan等,2019;Wang等,2022b)旨在构建“人物画像”,对行人的属性进行语义描述,这些属性可作为软生物特征辅助行人重识别性能。另一方面,在某些应用中,例如罪犯侦查,通常需要根据目击证人对罪犯的简单属性描述进行行人追踪。针对具体的换装行人重识别,对行人体形、姿态和性别等描述有助于指导行人身份特征提取,而对行人携带物、着装类型等属性的描述则有助于指导模型削弱这些因素的影响。因此,结合属性识别与换装行人重识别是将来一个极具潜力的研究方向。4)多模态特征融合学习。本文综述的方法大都采用单模态数据或将其他模态数据作为约束信息。Xu和Zhu(2022)将RGB图像、灰度图、轮廓图和关节点等多模态数据提取的特征进行简单拼接融合,证明了其有效性。然而,多模态融合过程中,存在信息模态差异和特征冗余。因此,如何利用多模态数据构建信息互补的多模态特征融合模型是未来一个可行的研究思路。5)无监督换装行人重识别。上文综述的换装行人重识别研究均属于有监督学习,严重依赖标注数据。然而,换装行人重识别数据采集和标注代价较高,是制约换装行人重识别研究的主要瓶颈之一。无监督学习不依赖数据标签且泛化能力较好,是当前计算机视觉领域研究的一个热点。另外,行人重识别数据集中存在大量的无标注数据,如何将无监督学习与换装行人重识别问题结合起来,充分利用无标签数据是一个具有潜力的研究方向。例如将无标注数据作为着装种类的来源,利用上文提到的生成对抗网络进行类内换装数据增广,借助流行的对比学习思想(Fan等,2022;Wang和Qi,2022a),采用自监督方式最小化合成换装样本与原始输入样本间特征差异,学习更具泛化性的特征表示形式。6)多任务交互式学习。多任务学习能够提高模型的泛化性能,增强特征的表达能力。换装行人重识别任务与3D人体重建、特征解耦与重构、行人属性识别以及动作识别等任务均具有紧密联系。这些相关任务,有助于协助行人重识别模型学习表征能力强的着装无关特征。因此,基于多任务学习框架,构建多任务交互式学习的统一模型将是未来一个极具潜力的研究方向。6 结语换装行人重识别是行人重识别任务的一个重要子问题,在监控安全、案件侦查和疫情流调等方面具有十分重要的应用价值。相对传统行人重识别,换装行人重识别针对长时间跨度场景,面临行人着装更换带来的外观特征判别性差问题。换装行人重识别尚处于起步阶段,近几年已有工作对该问题展开研究,但限于大规模行人换装数据集稀缺以及换装的不可预见性,当前研究仍面临巨大的性能瓶颈,也缺乏系统性的综述总结和对该问题的深入分析。本文系统总结了换装行人重识别研究现状,涵盖主要数据集和评估方式、主要工作与技术内容以及当前研究面临的难点,对换装行人重识别进行全面综述。通过梳理主要数据集与评估方式,本文旨在为大规模行人换装数据集的构建以及换装行人重识别性能的科学评估提供指导和建议。通过对近年来主要方法的归纳和对比,本文归纳了当前研究的不足和存在的挑战,并梳理出可能的研究方向和思路,为未来研究提供参考,期望能够推动该领域的发展以及在监控系统中的应用。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读