论文引用格式:Wang S J, Dou Z P, Fan Y X and Li Y L. 2023. ReID2.0: from person ReID to portrait interpretation. Journal of Image and Graphics, 28(05):1326-1345(引用格式:王生进, 豆朝鹏, 樊懿轩, 李亚利. 2023. ReID2.0:从行人再识别走向人像态势计算. 中国图象图形学报, 28(05):1326-1345)[0 引 言行人再识别研究从技术上可分成行人检测和行人检索两个主要部分。当给定原始视频序列后,首先提取出视频帧,接着对每一帧图像进行行人检测,所有检测到的行人便构成了一个行人检索库(gallery)。然后,当输入一个待查询对象(query)时,将其送入检索库进行特征匹配,最终返回查询结果。其中,行人检测是一个独立的研究方向。因此,通常所指的行人再识别一般只包括行人检索部分。即给定一幅行人图像,从检索库中返回所有包含这一行人目标图像的过程,而不包含行人检测的过程。因此,行人再识别问题可以看做是图像检索的一个子问题,但在实际应用中包含视频图像的行人检测部分。在实际应用方面,行人再识别最大的应用需求来自于公共安防领域和新型商业领域,同时在人机交互领域也有该技术的位置。在公共安防领域,人脸识别是公共安防领域确定目标身份的最有力的技术手段之一。然而,人脸识别有着一项无法克服的障碍,即传统人脸识别要求被采集对象需要以要求的角度、距离配合相机成像,即采取所谓的合作方式;随着技术发展,半合作条件下的人脸识别也逐渐具备了技术可行性。尽管如此,在实际公共安防应用中,存在大量的非合作场景,被监视对象不会配合相机成像,可能不会察觉自己处于被拍摄状态,在一些极端情况下,甚至可能刻意遮挡脸部等关键生物特征。因此,公共安防领域迫切需要一种能够克服该困难的技术——行人再识别,以提供新的技术支持,在较大空间范围和较长时间跨度上追踪到目标人。以行人再识别技术为支撑,使得从背影找到人脸、并由此识别人脸成为可能。此外,在商业新零售领域,行人再识别技术也具有良好的应用前景。商业实体零售大数据中,需要分析客户的行走路径,对某些商品的关注程度,由此获取客户对商品的感兴趣度,建立不同商品之间的兴趣关联。行人再识别能够通过成像及分析,在较大空间范围和较长时间跨度上,将客户对不同商品的关注行为联系起来,具有很高的商业应用价值。除了有很强的实际应用价值外,行人再识别任务也有很大的理论研究价值。与目前较为成熟的人脸识别问题相比,行人再识别任务的不同在于,识别对象为非合作目标,即获取行人视频图像时,只能通过预先架设的摄像头在一个开放环境中捕捉行人目标,无法要求行人主动配合相机成像。这给行人再识别任务带来了许多新的难点。尽管2006 年就提出了行人再识别的概念,但因为技术不成熟,产业界很少问津,鲜有应用场景,直到2015年后,开始有企业试图涉足行人再识别技术应用。究其原因,正是因为行人再识别面临着非常大的技术挑战。核心问题及关键技术是如何从时变表观图像中学习有效图像特征表达、学习如何从元图像数据空间映射到具有鉴别性的特征空间。总体而言,行人再识别中,行人成像存在显著的姿态、视角、光照以及成像质量等变化,还经常面临一定范围遮挡等困难。这些问题通常难以在成像环节进行控制或避免。主要表现如下:1)视角变化大。与人脸识别任务相比,虽然捕捉到的人脸也存在一定的视角变化,但基本能保证人脸方向大致正对相机。而行人再识别问题中得到的图像,行人可能以各种角度面对相机,在水平方向上行人可能以侧面甚至背面朝向摄像头。2)严重的遮挡。在开放式环境中,行人所在空间往往有许多物体对行人造成遮挡,如来往的车辆、行人之间的相互遮挡等。遮挡的行人对行人再识别造成了极大难度。3)姿态多变。在人脸识别问题中,人脸对齐是一个不可缺少的环节,然而,在行人再识别问题中,行人在行走过程中身体姿态变化极大,且人体关节远多于面部关键点,使得行人对齐难以实现,行人对齐准确率远低于人脸对齐。4)光照变化大。行人图像可能是在一天的不同时段获得的,光照强度的差别十分大。白天与夜晚拍摄得到的同一行人图像,行人表观差异巨大,即便是人为观察也很难识别。另外,相比人脸识别任务,行人再识别任务中所用的数据采集难度更大,标注更困难,学术界已有的数据集规模远小于人脸识别数据集。在已有数据集上得到的特征提取器往往存在较严重的过拟合现象。如将某一数据集上得到的模型直接用于另一数据集,性能会急剧下降。为了更适应实际需求,行人再识别中的跨域问题有很大的研究意义,并且挑战巨大。因此,从过去近10年至今,学术界特别是机器学习和计算机视觉领域的研究者对此投入了极大的关注,行人再识别研究成为热点,历届国际本领域几大顶会和著名期刊均有诸多行人再识别论文发表。本文整体安排如图1所示。首先,从任务、应用需求、技术挑战、关键技术、数据集以及评价指标等方面介绍行人再识别任务。其次,针对提到的技术挑战,介绍了对应的解决方案。然后,探讨了行人再识别存在的问题,进一步提出了人像态势计算任务,并对相应的概念进行了探讨。最后,介绍本文构建的对于人像态势计算的基准数据集,并进行分析讨论,给出了评测指标的建议,以促进人像态势计算任务的发展。10.11834/jig.220700.F001图1本文整体结构Fig.1Overall structure of this paper1 行人再识别1.1 行人再识别研究特点与主要关键技术考虑到行人再识别任务的应用价值和理论挑战,在充分了解和分析的基础上可以发现,面向行人再识别任务普遍采用的深度学习方法中,最重要的是需要解决行人特征学习问题,即行人深度特征学习。如图2所示,行人再识别完整流程分为行人检测和行人检索两部分。给定原始图像或视频,先对齐进行行人检测,并将所有检测结果以限制框形式(bounding box)汇聚在一起,形成图像库(gallery)。再识别时,给定查询图像(query),在图像库中检索与其同身份的行人。具体过程是:对查询图像和库图像分别提取特征,并逐一比较查询图像特征与库图像特征的相似性(例如以欧氏距离为相似性度量)。最后,按照相似性由大至小排序的方式,返回查询结果。返回结果形式与图像检索相似,故行人再识别也称为行人检索。在上述流程中,通常将行人检测作为一项独立任务进行研究。而行人再识别更多地强调给定查询图像、提取特征以及返回正确查询结果的过程。毫无疑问,特征是否具有足够强的表达、鉴别能力,是决定查询结果好坏的最关键因素。实际上,绝大部分视觉任务都与特征表达能力有极强的联系。在行人再识别这一计算机视觉新兴的细分领域,特征学习也自然而然地成为至关重要的一个环节。10.11834/jig.220700.F002图 2行人再识别任务的完整流程Fig.2The complete process of person re-identification ((a) pedestrian detection; (b) person re-identification)在行人再识别任务的深度学习方法中,深度度量学习是关键技术之一。深度度量学习采用非常直接的学习目标,即判断两幅图像是否属于同一个行人。该学习目标与行人再识别的初衷完全一致。具体来讲,度量学习将图像以样本对的形式输入到深度网络中,当样本对中的两幅图像来自于同一个行人时,标识为正样对;反之,两幅图像来自于不同行人,则标识为负样对。训练时,网络通过学习鉴别正负样本对,获得对行人的鉴别能力。值得指出的是,尽管度量学习有时被认为与特征学习属于不同的研究范畴,但实际上度量学习提供了一种有效的特征学习方式,通过深度度量学习可以获得一个具有鉴别力的深度特征空间,在这个空间中,来自同一身份的所有样本(图像特征)彼此相似,而来自不同身份的样本彼此相远。早期行人再识别训练样本较少,而这种“组队”产生样本的训练方式,能够获取相对较多的直接训练样本。然而,这种方式也有明显的缺点,它将ID(identity) 级别的行人身份标注信息退化为二值化的样本对标签,无法利用ID 级标注这种更强的监督信息。在Market-1501 等大规模数据集出现后,越来越多的研究发现,采用深度分类学习通常能够获得更好的效果。在采用Siamese 网络结构的方法(Varior等,2016;Ahmed等,2015;Cheng等,2016;Shi等,2016)中,Varior等人(2016)提出的Gated Siamese联合长短注意力机制(long short-term memory)来学习不同分割部件之间的关联。深度分类学习采用图像分类的方式训练深度模型,即训练深度模型鉴别训练集上每幅图像所属的行人ID。当一个模型能够在训练集上很好地识别行人身份时,该模型往往嵌入了具有鉴别能力的特征空间。这种模型通常称为IDE(identity discrminative embedding)模式。相比于深度度量学习,这种方式充分利用了标签中含有的强监督信息。Geng等人(2016)、Zheng等人(2019a)、Xiao等人(2016)、Ustinova等人(2017)、Zheng等人(2021)和Dou等人(2022)都采用了这种方法。在大规模数据集上,这种方式通常取得比深度度量学习更好的鉴别能力。然而,两种方式本身是相互相容的,与在相近的人脸识别任务上取得的经验一致,将两种方式联合起来能够互相强化,取得更好的特征学习效果。除以上两类方法外,不同方法还根据不同场景进行针对性设计来提升行人再识别的性能。史维东等人(2020)提出一种融合形变与遮挡机制的行人再识别算法,提高了网络应对行人姿态改变以及遮挡问题的能力。郑鑫等人(2020)提出了基于注意力机制和多属性分类的行人再识别方法,采用全局分支和局部分支相结合的方法,关注具有显著性特征的行人部件,忽略带有干扰信息的其他部件,学习到了行人的显著性特征,有效解决了行人遮挡和不对齐的问题。沈庆等人(2020)通过交错卷积构建4个分支来提取多分辨率的行人特征,既对行人不同粒度特征进行抽取,也对不同分支特征进行交互,对行人进行了高效的特征表示。1.2 主要数据集及评价指标目前, 行人再识别广泛采用两种评价指标, 分别是累积匹配特征曲线(cumulative matching characteristic,CMC)和平均准确率均值(mean average precision,mAP)。CMC是图像检索中常用的一个评价指标,关注的是给定查询图像,在排序结果最相似的前N 个结果中存在正确匹配这一事件的发生概率,简称前N 选正确率(Rank-N正确率),或缩写为R-N正确率(如R-1正确率、R-5 正确率等)。对于同一个方法,CMC将返回一个随N单调递增的概率值。行人再识别采用排序方式返回查询结果,可以看成一个检索排序问题,因此采用CMC作为评价指标。一般来讲,mAP 指标关注召回率与准确率二者的兼顾能力。考虑mAP 的原因是,给定一个查询图像,当图像库中存在一幅以上的正确匹配时,CMC 指标不足以完全反映方法在召回率方面的性能。例如,假设某幅查询图像能够在首次检索时就得到一个正确的匹配结果,但剩余的若干正确匹配却难以召回,导致CMC指标很高,却并不能反映方法的综合性能。而mAP 指标综合考虑了准确率和召回率,是在准确率—召回率(precision-recall,PR)曲线基础上计算得到,是PR 曲线下的面积值。为了推进行人再识别问题的研究,研究人员构建了若干行人再识别数据集。常用的有Gray等人(2007)提出的VIPeR,Li等人(2014)提出的CUHK03,Zheng等人(2015a)提出的Market-1501,Ristani等人(2016)提出的DukeMTMC-reID和Wei等人(2018)提出的MSMT17等。VIPeR 数据集含有632 个行人,共1 264 幅图像。每个行人有两幅图像,分别采集自两个不同摄像头。视频图像中行人框的标注完全依靠手工完成。该数据集的测试方法随机将632对行人图像进行分组,一半用于训练,一半用于测试,重复10 次,得到平均结果。CUHK03 数据图像采集于香港中文大学,由6个摄像头采集得到,共13 164 幅图像,包含1 467 个行人,数据量远大于此前公开的行人再识别数据集,是第1个足以进行深度学习的大规模行人重识别数据集。除了数据规模外,还有以下特点:1)除了人工标注行人框外,提供了由行人检测器DPM(deformable part model)获得的行人框,使得到的图像数据更接近真实场景。由于行人检测器不准确,会导致得到的行人图像存在偏移、遮挡、身体部位缺失等。2)数据采集自多个摄像头。这意味着同一个行人出现在多个不同摄像头下,采集到的图像有更丰富的角度变换,使得识别难度增大。3)图像采集时间持续数月。从而使得由于天气变换引起的光照等因素变化更加丰富。该数据集的测试方法有两种。一是随机选出100 个行人作为测试集,1 160 个行人作为训练集,100 个行人作为验证集,重复20次。二是类似Market-1501的测试方法,将数据集分为包含767 个行人的训练集和700 个行人的测试集,测试时随机选择一幅作为query,剩下作为gallery。Market-1501数据集是在清华大学校园中采集的视频图像。采集图像时,架设了6个摄像头,包括5个高清摄像头和1个低清摄像头。数据集规模大于CUHK03数据集,共拍摄到1 501个行人,得到32 668 个行人矩形框。每个行人至少有2个摄像头捕捉到,并且在同一摄像头下可能采集多幅同一行人图像。训练集有751 人,包含12 936 幅图像,平均每人17.2幅图像;测试集有750人,包含19 732 幅图像,平均每人26.3 幅图像。数据集中,查询图像有3 368 幅,检测矩形框由人工标注完成,而查询库中的行人矩形框由行人检测器检测得到,使用的行人检测器也是DPM。DukeMTMC-reID是行人跟踪数据集DukeMTMC 的一个子集。DukeMTMC是行人跟踪数据集,使用了8 台摄像机获取高清视频数据,录制了7 000多个行人轨迹,包含2 700多个行人。DukeMTMC-reID中包含1 404个出现在多摄像头下的行人和408个只出现在一个摄像头下的行人,数据集共提供36 411个行人框。数据集中702个行人的16 522 幅图像用于训练,另702人的2 228幅图像作为测试时的query 图,17 661幅图作为gallery。MSMT17 是一个涵盖多场景多时段且更接近真实场景的大型行人再识别数据集,使用了15个摄像头在校园内采集图像,包括12个室外摄像头和3 个室内摄像头。监控视频选择1个月内不同天气的4天,每天采集3小时,包含早上、中午、下午3个时段。数据集使用了更先进的行人检测器Faster RCNN(regions with convolutional neural network),最终得到4 101 个行人的126 441个行人框。与其他数据集相比有以下优势:1)包含更多行人ID、行人检测框和摄像头;2)更复杂的场景和背景内容,包含室内室外场景;3)多时段拍摄,光照变化剧烈;4)使用了更可靠的行人检测器。纵观行人再识别数据集的发展可以看到,早期的数据集规模相对较小,随着深度学习方法的出现,对数据集规模要求越来越高,出现了CUHK03,Market-1501,DukeMTMC-reID等更大规模的数据集,满足深度学习模型训练的要求。另外,数据集的采集使用更多的摄像头,并且覆盖更丰富的场景,更接近实际应用场景。2 行人再识别问题研究进展本文针对ReID的几个关键问题开展研究,包括特征优化问题、特征配准问题和部分遮挡问题。2.1 基于深度网络特征空间正交优化的行人再识别2.1.1 权向量相关性及其影响在物体识别研究和应用中,通用做法是采用基于深度网络的深度模型特征作为物体特征描述。通过理论上深入研究,发现虽然深度特征的鉴别性能有了提升,但是深度特征仍然存在冗余,而存在的冗余会影响特征的鉴别力。针对这个问题,本文提出基于深度网络的特征空间正交优化理论以及深度特征学习方法SVDNet(singular vector decomposition network)。通过对特征空间对应的权矩阵施加正交约束,可实现在深度特征学习中进一步降低特征冗余,提高特征鉴别力。在其他模式识别问题上也获得了良好的效果,具有一般性科学意义。实验结果表明,所提出的方法有效降低了投影向量之间的相关性,生成了更具鉴别性的全连接层(fully connnected,FC)描述子,显著提高了行人再识别的准确性。特征空间正交优化的深度特征学习方法SVDNet解决的问题点如图3所示。这些权向量位于卷积神经网络(convolutional neural network,CNN)的最后全连接层,例如CaffeNet的FC8或者ResNet-50(residual network)的FC层。本文使用DukeMTMC-reID数据集中的3个训练ID 进行示例,分别是红色、粉色和蓝色着装的女性行人。图中绿色和黑色带箭头虚线所示的向量分别是两个不同ID 的测试图像在最终全连接层之前的特征。在一个基线CNN模型中,红色和粉色权向量高度相关,并对特征表达引入了有害的冗余。10.11834/jig.220700.F003图 3权向量空间相关性及其负面影响的示例说明Fig.3Illustration of weight vector spatial correlation and its negative effects2.1.2 SVDNet的网络模型SVDNet的网络模型如图4所示。在最终FC层之前,SVDNet使用一个权向量互相正交的本征层(eigenlayer)作为特征表达层。在测试阶段,本征层的输入或输出都可以用于特征表达。给定两幅待比较的图像xi和xj,本文用hi和hj表示它们在EigenLayer之前的特征,用fi和fj表示经EigenLayer投影后的特征,并通过欧氏距离比较这两幅图像特征,具体为 Dij=fi-fj2=fi-fjTfi-fj=hi-hjTWWThi-hj=hi-hjTUSVTVSTUThi-hj (1)式中,U,S ,V 的定义在W=USVT中给出。由于V是一个单位正交阵,式(1)等效为Dij=hi-hjTUSSTUThi-hj (2)式(2)说明,使用W=USVT时,任意两幅图像特征之间的距离Dij保持不变。因此,在张弛迭代的步骤中,模型的鉴别力是100%保留的。10.11834/jig.220700.F004图 4特征空间正交优化方法SVDNet的网络模型Fig.4Structure of the feature space orthogonal optimization method SVDNet深度学习中的网络模型庞大、参数冗余,在行人再识别任务中,由于训练集规模相对较小,容易出现过拟合风险。通过分析特征表达层,发现这种参数冗余不仅不必要,甚至还会严重降低特征鉴别力。因此,采用特征表达层的权矩阵正交优化方法,将特征表达层权矩阵解读为特征空间一组模板,通过奇异值(singular value decomposition,SVD)分解,将模板正交化,降低特征之间的相关性;同时,设计了一种特殊的训练方法——张弛迭代法,通过循环迭代“SVD 分解”、“保持正交微调”和“放弃正交微调”,不断提高特征鉴别能力,取得了显著的性能提升。SVDNet方法与最高性能(state-of-the-art,SOTA)(截止2017年5月)的对比结果如表1所示。模板可视化的结果如图5所示。将W视为输入特征空间的模板,可以看到,在第1、2行的Baseline模型中,隐含了一些不相关模板,但也隐含了大量相似的模板。第3行的SVDNet结果显示,减少了冗余、丰富了模板,优化了特征表达。同时,证明了该方法在图像分类任务中具有一定的提升效果。10.11834/jig.220700.T001表1SVDNet与最高性能的对比结果Table 1Comparisons with state-of-the-art methods方法DukeMTMC数据集CUHK03-NP数据集R1mAPR1mAPBoW+kissme25.112.26.46.4LOMO+XQDA30.817.012.811.5Baseline(R)65.544.121.319.7GAN (R)67.747.1--PAN (R)71.651.536.334.0SVDNet (C)67.645.827.724.9SVDNet (R)76.756.841.537.3注:“-”表示相关方法在数据集上未测试。R1代表Rank-1。方法中(C)和(R)分别代表网络结构使用的是CaffeNet和ResNet-50。%10.11834/jig.220700.F005图5模板可视化结果Fig.5Visualization of the templates((a) example A and four highly-correlated examples; (b) example A and four uncorrelated examples; (c) examples after our method)提出的基于SVDNet的行人检索方法,缓解了由于全连接层描述子间的相关性所导致的影响基于欧氏距离的检索性能降低的问题。表1的实验结果表明,本文方法有效降低了投影向量之间的相关性,生成了更具鉴别性的全连接层描述子,显著提高了行人再识别的准确性。CaffeNet 模型在Market-1501数据集上的Rank-1准确度从55.3%提高到80.5%,ResNet-50的准确度从73.8%提高到82.3%(Sun等,2017)。2.2 基于语义部件学习的行人再识别在行人再识别研究中,非刚体行人的特征配准对识别性能具有较大影响,是一个急需解决的瓶颈问题。为解决该关键技术问题,提出一种基于广义部件的行人部件特征学习方法,包括部件特征学习结构(part-based convolutional baseline,PCB)和部件提纯方法(refined part pooling,RPP),有效解决了行人再识别中准确定位、对齐各个部件的问题,可以减小部件检测误差,提高部件特征鉴别力,进而提高了行人再识别方法的性能。很多学术研究机构和公司将PCB方法作为 baseline(Sun等,2018)。提出的使用部件级特征作为细粒度信息可用于行人图像描述的方法。所提方法不使用姿态估计这样的外部资源,而是考虑每个部件内部的内容一致性,实现了特征图上的每个像素到部件特征的精确定位。实验证明,所提方法可以使基线性能获得提升。在Market-1501数据集上,mAP和Rank-1的精度分别为(77.4 + 4.2)%和(92.3 + 1.5)%,较大程度超过了当时的最先进性能水平。2.2.1 行人语义部件特征学习为了挖掘行人身体结构信息、提高特征鉴别力,较为直观的一种做法是针对各个语义部件提取特征。一般的做法是借助于额外的模型来定位人体的语义部件,如行人分割、关键点检测等。然而这种做法对语义部件误差非常敏感。为此,提出了利用非局部相似性(supervised non-local similarity,SNS)学习提高语义部件特征学习的方法,减轻背景的影响,学习更具鉴别力的部件特征。图6是设计的基于语义部件的行人部件特征学习模型。其中,具体创新包括:1)舍弃了直接利用噪声较大的姿态估计或行人分解结果作为语义部件的方式,提出利用语义部件的中心点作为相对可靠的线索,搜寻更鲁棒的语义部件。2)以每个语义部件的中心点为锚点,通过非局部相似性吸收其周围特征并最终形成部件特征。3)在非局部相似性学习过程中,施加不同部件锚点互斥约束,使学到的部件特征同时在全局感受和局部感受中取得较好平衡,进一步提高特征鉴别力。在4种常见语义部件检测方法基础上,均提高了re-ID准确度,取得了有竞争力的re-ID性能。表2是利用4种不同精度方法检测语义部件的结果。可以看出,本文方法能稳定提高re-ID准确率,且对检测噪声更为鲁棒。10.11834/jig.220700.F006图 6基于语义部件的行人部件特征学习模型Fig.6A semantic part-based feature learning model for pedestrian parts10.11834/jig.220700.T002表2利用 4 种不同精度方法检测语义部件的结果Table 2Results about 4 methods regarding different accuracy模型Market-1501数据集DukeMTMC-reID数据集R1R5R10mAPR1R5R10mAPIDE87.394.696.970.174.485.189.355.4P-baseline (Open Pose)86.994.496.466.774.685.389.455.8H-baseline (EDFNet)88.295.196.973.176.687.390.561.4H-baseline (DeepLab V2)89.595.797.375.179.087.991.164.9H-baseline (DeepLab V3+)90.596.397.576.980.288.591.766.2SNS (Open Pose)89.696.397.573.878.187.390.260.5SNS (EDANet)90.796.597.777.881.188.491.266.5SNS (DeepLab V2)91.396.897.878.281.888.891.767.9SNS (DeepLab V3+)91.597.198.078.682.489.392.168.7注:加粗字体表示各列最优结果,R1、R5和R10分别代表Rank-1、Rank-5和Rank-10。%2.2.2 行人广义部件特征学习进一步研究发现,可以舍弃语义部件这一直观做法,以更高视角考虑学习部件特征的重要前提,即当同一个部件在不同图像中总能很好地对齐,就可以成为很好的部件,而并不需要依赖人对“部件”的直观理解。基于这样的认识,通过研究行人广义部件特征学习,提出两种解决方案。1)提出一种用于广义部件特征学习的卷积神经网络模型PCB(part-based convolutional baseline)。PCB具有良好的通用性,能够使用各种部件提取策略学习广义部件特征,并最终显著提高行人再识别准确率。尤其是采用均匀分割时,模型结构简洁,准确率相对于其他分割策略更高,刷新了国际领先水平。除此之外,PCB结构简单、在跨数据集场景下具有良好的泛化能力,能够与多种损失函数相容,这些优点保证了PCB能够用做一个很好的行人部件特征学习基线方法。2)提出一种弱监督的部件提纯池化RPP(refined part pooling)方法,通过提纯初始部件进一步提高PCB 性能。提纯之后,卷积特征上相似的列向量被归纳到同一个部件中,使每个部件内部更加一致。给定各种不同的部件提取策略,RPP都能够有效提纯初始部件并提高所学部件特征的鉴别能力。RPP在PCB基础上进一步提高了性能。在 PCB模型中,输入图像经过主干网络的卷积层换成一个3D的张量T。 PCB在T上提取p个部件并将各个部件中的列向量取平均,产生相应个数的列向量g。随后,通过一个尺寸为 1×1 的卷积层将列向量g降维成列向量h。最后,列向量h被输入到一个ID分类器中。ID分类器由一个全连接层及一个串联其后的 Softmax 函数构成。在测试阶段,将p个部件的特征串联起来,形成输入图像的最终描述子。提出的PCB 模型如图7所示。图8是部件特征的卷积基线和部件提纯池化方法结合后的部分结果示例。表3给出了PCB和RPP在3个公开数据集上的实验结果。在Market-1501数据集上,PCB&RPP在baseline的基础上将R-1指标提高了7.0%。在DukeMTMC-reID数据集上,PCB&RPP将baseline的R-1指标提高了4.0%,刷新了SOTA(state of the art)。PCB能够与各种部件提取特征合作,并且,均匀分割高效且准确。RPP能够提纯各种粗部件并提高re-ID准确率。PCB&RPP方法简单有效,在实际场景中已经得到应用,且有多个学术研究采用为baseline,在3个大规模reID数据集上刷新(2018年上半年)SOTA。10.11834/jig.220700.F007图7基于部件特征的卷积基线模型Fig.7Part-based convolutional baseline (PCB) model10.11834/jig.220700.F008图8部件特征的卷积基线和部件提纯池化方法结合后的部分结果示例Fig.8Results of combining part-based convolutional baseline and refined part pooling((a) example 1; (b) example 2; (c) example 3; (d) example 4)10.11834/jig.220700.T003表3部件特征的卷积基线和部件提纯池化方法结合后的数值实验结果Table 3Experimental results of combining part-based convolutional baseline and refined part pooling模型特征维度Market-1501DukeMTMC-reIDCUHKR1R5R10mAPR1R5R10mAPR1R5R10mAPIDEPool2 04885.394.096.368.573.284.087.652.843.862.771.238.9IDEFC25683.893.195.867.772.483.087.151.643.362.571.038.3Variant 1G12 28886.795.296.569.473.984.688.153.043.662.971.338.8Variant 1H1 53685.694.396.368.372.883.387.252.544.163.071.539.1Variant 2G12 28891.296.697.775.080.288.891.362.852.672.480.945.8Variant 2H1 53691.096.697.675.380.088.190.462.654.073.781.447.2PCB-UG12 28892.397.298.277.482.690.592.268.859.777.785.253.2PCB-UH1 53692.497.097.977.382.890.392.067.961.378.685.654.2PCB-U+RPPG12 28893.897.598.581.684.592.294.471.562.879.886.856.7PCB-U+RPPH1 53693.197.498.381.084.392.093.970.763.780.686.957.5注:加粗字体表示各列最优结果,𝒢 代表将图7中不同部件得到的列向量g串联后得到的特征,ℋ 代表将图7中不同部件得到的列向量h串联后得到的特征,R1、R5和R10分别代表Rank-1、Rank-2和Rank-10。%2.3 遮挡等信息不完全条件下的行人部件学习针对实际行人再识别系统中大量行人被部分成像(部分图像缺失)问题,Sun等人(2019)提出了感知区域可见性的部件特征学习方法。这种思路对应的方法称为感知可见性的部件特征模型(visibility-aware part model,VPM)。该方法创新及特色主要有3点:1)将部件特征学习引入到部分成像行人再识别问题,使该问题也受益于细粒度特征;2)提出感知区域可见性的部件特征学习,在提取部件特征的同时,预测部件可见性,从而能够在比较两幅图像时聚焦在它们共同的区域;3)区域可见性能力的学习采用自监督,特征学习过程也受到自监督辅助。该方法不仅刷新了部分成像条件下的行人再识别国际领先水平,还具有计算高效的特点。在多个partial re-ID数据集上刷新SOTA。研究成果在CVPR2019发表。图9是本文设计的VPM 网络模型。首先,在完整行人图像上定义p=m×n个紧密排列的矩形区域(图中以p=3×1作为示例)。训练时,VPM将一个部分行人图像缩放到固定尺寸,并将其输入到层叠的卷积层中以生成 一个3D 张量T。再通过一个区域定位器进行像素级别的区域分类。具体地,区域定位器预测每个像素g属于各个区域的概率,从而产生p个概率分布图。得到概率分布图之后,VPM 在张量T上使用带权平均操作,为每个区域提取区域特征,并将各个概率分布图通过求和产生相应的区域可见性得分。测试时,VPM 作为一个整体,输出p个区域特征以及同等数量的可见性得分。表4给出了VPM在两个公开数据集上的实验结果。在Partial-REID数据集上,本文方法在R-1指标上超过了SFR(spatial feature reconstruction)10.8%。10.11834/jig.220700.F009图 9可见性感知模型Fig.9Visibility-aware part model10.11834/jig.220700.T004表 4可见性感知模型VPM 的数值实验结果Table 4Results of visibility-aware part model方法Partial-REID数据集Partial-iLIDS数据集R1R3R1R3MTMC23.727.317.726.1AMC+SWM37.346.021.032.8DSR50.770.058.867.2SFR56.978.563.974.8VPM (Bottom)53.273.253.662.3VPM (Top)64.383.667.276.5VPM (Bilateral)67.781.965.574.8注:加粗字体表示各列最优结果,R1和R3分别代表Rank-1和Rank-3。%经过更进一步研究,针对深度神经网络提取特征的主流框架,提出一种基于特征对齐的深度表达方法,在特征图层实现配准(feature alignment layer,FAL),初步解决了行人再识别中的特征配准问题。针对行人再识别问题中存在的两个问题在方法上进行创新和改进。1)输入图像中不可避免存在背景噪声,影响行人特征提取;2)由于行人检测器不准确,导致图像中行人位置存在偏移,无法位于图像正中央。相应地,主要做了3个工作,分别为:结合分割的行人再识别方法、基于特征校正层的行人再识别方法和基于自监督特征校正层的行人再识别方法。前一个方法很直接地引入了额外的分割信息作为辅助,后两个方法是基于注意力机制的方法,使网络关注图中更有鉴别力的区域,取得性能上的提升。结合分割的行人再识别方法主要是针对消除背景噪声提出的,设计了一个两路神经网络结构用于提取行人特征。网络的两路分别用于提取原图特征和分割后的图中前景(行人)部分特征,最后将两路特征进行融合,作为最终的特征表达。这样得到的特征既包含整幅图的特征,又包含专门针对前景部分的特征。整幅图的特征能弥补由于分割丢失的部分细节信息,前景特征能够抑制背景引入的噪声。另外,为了得到分割结果,在自行构建的行人分割数据集上训练了一个行人分割网络。实验证明,结合分割的行人再识别方法能有效提高行人再识别准确率。但是,该方法依赖额外的分割结果,并且两路网络使训练和测试的计算代价增大。基于特征校正层的行人再识别方法能够同时解决背景噪声和行人位置偏移的问题,该方法是一种基于注意力机制的方法。如图10所示,本文提出了一个特征校正层,该层能主动关注到特征图中感兴趣区域。10.11834/jig.220700.F010图10基于特征层对齐的深度表达方法在特征图层实现框架Fig.10Framework for the feature alignment layer通过对特征图进行像素级重排列将感兴趣区域校正到特征图中心,同时对感兴趣区域进行拉伸,使其尽可能充满整幅特征图,抑制背景部分特征。特征校正层能插入到已有的卷积神经网络中,且网络依然能完成端到端训练。实验证明,与结合分割的方法相比,基于特征校正层的方法的识别效果更优,且不会引入太多的额外计算开销。另外,与已有的其他行人再识别方法进行比较,该方法的性能与其他最好方法的性能相当。基于自监督特征校正层的行人再识别方法是在特征校正层基础上进一步改进。特征校正层是基于注意力机制的方法,与以往其他基于注意力机制的方法一样,完全依赖网络自主去学习和关注到图中重要的区域。提出的自监督特征校正层,则通过自监督的方式指导网络学习过程,从而使网络能更好地关注到特征图中有鉴别力的区域。具体做法是从原始图象中随机裁剪出若干幅图像作为网络输入图,根据这些输入图在原图中的位置信息和特征校正层输出的目标位置图得到注意力损失函数,从而监督和指导特征校正层的训练。最终实验结果表明,引入自监督机制后,特征校正层能更准确地关注到感兴趣区域,从而进一步提升识别准确率。提出的特征对齐层方法,实现了能同时缓解目标的不对齐和背景噪声所造成的性能影响。在实验中,本文方法在Market-1501、DukeMTMC-reID和CUHK03三个行人再识别数据集上,与最先进的方法相比,产生了具有竞争力的结果。同时,该方法提高了CUB-200-2011上具有竞争力的细粒度识别基线(Xu等,2018)。2.4 小结针对行人再识别中存在的几个关键问题,本文提出了相应的解决方案。1)针对在学习过程中,深度特征存在的冗余问题,提出了基于深度网络的特征空间正交优化理论。通过对特征空间的权矩阵施加正交约束,降低了特征冗余,提高了特征鉴别力。2)针对行人再识别中存在的特征粒度大,无法对行人进行精细的描述以及非刚体行人造成的特征配准问题,提出了基于语义部件学习的再识别方法。该方法能够学习到细粒度的部件特征。此外,提出了非局部相似性学习来提纯部件特征,提高特征的鉴别力。在检索时,通过计算对应部件之间的相似性,实现了特征的配准。3)针对图像中行人信息不完全问题(遮挡和部分成像),提出了感知区域可见性的部件特征学习方法。该方法在提取部件特征的同时预测部件的可见性,从而能够在比较两幅图象时,聚焦在它们共同的区域,减小了遮挡和部分成像问题带来的影响。同时,提出了基于特征对齐的深度表达方法,解决了行人再识别中的特征配准问题。3 人像态势计算(ReID2.0)尽管针对行人再识别的几个关键问题提出了相应的解决方法,并取得了一定的效果,但在复杂的现实场景中,再识别性能仍然不佳。原因在于,目前的行人再识别技术主要依赖行人的服装信息,未能从多视角表观信息对行人形成综合性的观测描述。同时,对行人的综合感知能力也是类人智能体的需求之一。由此,本文提出人像态势计算的新思路。3.1 理念与初衷:行人再识别走向ReID2.0虽然行人再识别研究取得了一定进展,但也开始遇到瓶颈。除了前面提及的特征优化、部件对齐和遮挡问题之外,不同ID的行人穿着相似或相同服装的情况和同一个ID的行人穿着不同服装的情况对现有的行人再识别技术来说是一个难以攻克的技术壁垒。人类具有综合感知能力,可以从多视角表观信息中对目标物形成观测描述。想象一下,在街上遇到一位即使看不清面孔的熟悉朋友,会下意识地立即完成感知:这位朋友是谁谁谁。进一步泛化推广,看到一位行人,除了服装信息之外,还会感知更加全面的信息,男士还是女士?年龄有多大?体型如何?也能注意到其状态,例如姿势;并且通过面部表情还可以感知其心理状态。尽管以往的ReID方法利用单一任务模型中可能包含了隐式的观测信息,但现阶段特征的解耦是一道无法跨越的难题。因此,以往的ReID方法无法解决上述问题。自深度学习出现突破以来,计算机处理许多特定任务的能力已超过人类。例如,面部识别系统可以从数亿人脸中找到目标人。另一方面,这些能力与开发类人智能体所需的能力并不完全吻合。朝着通用人工智能的目标,许多尝试也在进行中。在总结了行人再识别的发展后,本文提出了人像态势计算这一新课题,专注于如何实现综合感知能力,试图将人类“在街上遇到朋友”时表现出的感知能力赋能到机器上。又如在图像分割领域,基于综合感知思想的任务包括全景分割,它结合了语义和实例分割。而在计算机视觉和自然语言处理的交叉领域,视觉问答具有相似的特点。从“遇到朋友”的实例中,发现与该过程相关的现有任务包括行人属性识别和行人再识别。那么新问题是:应该以什么方式组合这些任务?通过引入人像态势计算,机器智能提供了一个多视角的观测和描述。人像态势计算是基于人类对人的整体观测、感知和描述。为了构建计算模型,将其定义为像态、形态、神态和意态4个要素。为支撑人像态势计算的研究,进一步推进行人再识别研究的进展,本文构建了数据集Portrait250K,用于人像态势计算研究。在Portrait250K数据集中,重点标注了像态、形态和神态要素。每个要素都包含若干子任务,包括各种属性识别任务。由于现有的行人再识别属于对像态的感知,故也将人像态势计算称为ReID2.0。3.2 相关研究以人为中心的研究是计算机视觉领域的热点,近几年在人机交互、智能安防和医学健康等领域获得了重要进展和诸多应用。引入人像态势计算这一任务,意图在于以行人再识别研究为基础实现对人的全面观测和描述。3.2.1 与人像相关的任务一个与人像态势计算相关的任务是行人属性识别(pedestrian attribute recognition,PAR),其目的是预测目标人物的属性。PAR的现有方法包括Jia等人(2021)为代表提出的视觉注意力机制,Bourdev等人(2011)设计的身体部件划分方法和以 Wang 等人(2016)为代表设计的属性关系挖掘方法等。虽然这个任务已经得到了一定的研究和讨论,但在存在视角变化、可变光照、低分辨率、遮挡和模糊等情况下仍然是困难的。人像态势计算与PAR的核心区别在于,前者是从多个相对独立的方面来分析人像。近10年来,提出了许多用于PAR的数据集,但都不能满足人像态势计算的需要。除了与属性识别相关的任务外,行人再识别 (ReID)也是人像态势计算的子任务之一。行人再识别的典型基线方法通过测量查询图像和图库图像的特征向量(在复杂模型中可能不止一个)之间的距离来进行检索。与许多其他视觉任务一样,好的 ReID模型的关键是学习良好的表征。显然,如果模型能够获得更多的监督来帮助学习更好的表征,例如人像的各种属性,将有助于提高性能。3.2.2 多任务学习现实世界中的任务在很多情况下是相互关联的,多任务学习(multi-task learning,MTL)试图同时解决多个任务以获得更好的泛化性能。此外,任务之间不相关的信息也有助于减少过拟合。人像态势计算关注各种侧面的态势和其子任务之间的关联关系。MTL的研究主要集中在结构设计和优化方法两个子问题上。为MTL设计网络结构的本质是使不同任务之间共享子网和参数,主流策略大致可以分为两类,即硬共享(如 Hu和Singh(2021)设计的方案)和软共享(如 Gao等人(2019)设计的方案)。硬共享方法将整个模型分为两部分,靠近输入的子网由所有任务共享,然后为每个任务独立分支出模块。软共享方法通常对于每个任务都有端到端的独立模块,而这些模块可以在网络的不同阶段进行交互。对于多任务产生的多个损失,获得总损失的最简单方法是手动为其分配权重。一种更灵活有效的方法是根据任务的不确定性来计算权重。3.3 人像态势概念探讨行人再识别研究经历了约10年的高速发展,学术上取得了初步成果,少数应用落地。但仍然存在尚未解决的一些问题,促使对ReID问题进行进一步的思考。场景中,同一ID不同服装的ReID如何解决?不同ID同一服装的ReID如何解决?此外,随着ReID的发展,如何实现深度人像描述?在以人为中心的理念指导下如何观测和感知人的全面状态表征?这些都是需要研究的课题。人像态势是构建深度人像描述的一个途径,包含人的像态、形态、神态和意态。像态表征人脸和生物特征的表观信息;形态表征人体的静止和序贯体型体态信息;神态表征人脸的面部表情和情绪信息;意态表征行为过程和意图预测。按照这个范式定义,构成人像态势计算的内涵。在人机交互和智能安防中,人是核心关键的要素。像态感知两个维度,一是对感知对象的物理特征进行精准认知,以表达颜色、尺寸等;二是对这些特征组合的表象进行属性描述,以表达是什么,如人脸、行人及其属性。像态包含人脸、性别、年龄以及行人外表等表观特征。形态感知两个维度,一是对感知对象的静止肢体特征进行认知,以表达动作、姿态等;二是对感知对象的肢体变化特征进行描述,以表达做什么,如步态、奔跑和逆行等。形态包含多种人体肢体特征,如姿态、体形、体态和步态等。神态感知人的表情、微表情和情绪。一是对感知对象的面部表情特征进行认知,以表达如喜怒哀乐;二是对感知对象的面部神色特征进行描述,以表达其内心的波动、思想的意识和精神的状态,通常不为人的意志所控制。神态主要用于表达人的内心状态,如神态自若、神色慌张和精神恍惚等。意态体现人的行为动作和意图,主要体现在基于前三态识别的逻辑推理而进行计算,且与相关信息有关联。对感知对象行为意图、目标和后果的显性特征进行认知;对行为的意图、目标和后果背后的隐性特征进行认知,以预测趋势,进而判断与其他事件的关联、影响及可能后果。意态的显性特征认知较为容易实现,意态的隐性特征认知难度较大,但在实际的事件预测中是不可缺少的。综上所述,基于行人再识别和人像属性识别,本文提出了人像态势分析,并为观察人像设计了4个层次,希望达成机器视觉对人像高层次的、全面的分析和理解。4 基准数据集4.1 Portrait250K 基准数据集构建目前由于人像态势识别的难度大,完全按照上述四态构建数据集条件尚不成熟。为此,本文构建了一个人像态势计算基准数据集。收集了来自各国的51部电影和电视剧的250 000 幅人像,并手工标记了8种标签,对应8个子任务。图像和标签的分布表现出现实世界中自然存在的许多特征,包括但不限于长尾分布或不平衡分布、多样的遮挡、截断、光照变化以及服装、妆容和背景环境的变化。为了获得人像边界框,使用了多目标跟踪技术。多目标跟踪旨在连续地估计视频中对象的边界框和身份。Wang 等人(2020)提出的 JDE(jointly learns the detector and embedding model)模型联合输出检测结果和相应的表征,是一个简洁快速的系统。提取JDE模型每隔一些帧输出的边界框,最终获得250 000幅分辨率为256×128 像素的图像。这些图像需要标记身份、性别、年龄、体型、身高、表情以及全身和手臂姿势的标签。十几位专业的标注员完成了对这些图像的8个标签的人工标注。为了减少不同标注员主观判断的影响,每个标注员只标注一个属性,因此每个属性只有一个或两个标注员标注。图11展示了数据集中的部分图像以及对应标签。10.11834/jig.220700.F011图11人像态势基准数据集Portrait250K包含的标签和图像示例Fig.11Sample images from the Portrait250K dataset4.2 数据集特征和统计信息1)半监督的ID。训练集和库集中没有ID标签的图像分别有86 516和57 724幅,占总数的60%以上。其中,大多数不是无法识别而是不属于重要角色,标注员没有提供ID标签。2)多标签表情分类。由于面部表情的复杂性,本文给少量的图像赋予了多个表情标签,使得这里的表情分类任务成为一个多标签问题。3)长尾、不平衡分布。每个ID拥有的图像数量呈现出显著的长尾分布,并且其他属性的每个标签之间的样本分布也严重不平衡。其他工作可能使用不平衡因子,即最大类中的样本数除以最小类的样本数来表示长尾分布的严重程度。而在Portrait250K中,长尾分布是自然形成而非人为构建的,上述不平衡因子会忽略除极端情况外的其他类别,因此没有参考价值。经济学中使用基尼系数来判断收入的公平性,但无法更详细地描述分配情况。本文设计了LTSk(long tail score)(k比例的长尾分数)指标来衡量长尾分布的严重程度。具体为LTSk=minxTy≥k⋅y1 x1k×N (3)式中,x 是长度为N 的布尔向量,y 记录了每个标签对应的样本数。N 是标签的数量,1-范数代表元素和。LTSk 表示头部样本占所有样本的比例为k时,头部样本的富集程度。值越接近0表示富集越严重。本文计算了再识别领域的基准数据集Market-1501和本文的Portrait250K关于LTS0.2的数值,结果如表5所示。很明显,Portrait250K有更严重的长尾分布。对于其他再识别数据集也是如此,因为它们都是以类似的方式收集的。10.11834/jig.220700.T005表 5人像态势数据集的长尾分布(LTS0.2指标)Table 5Long-tail distribution of our dataset子集Portrait250KMarket-1501train0.0860.400query0.0740.766gallery0.0700.4464.3 评测指标的建议为了衡量模型的性能,实现评估和比较,并突出人像态势计算研究的初衷,本文为每个子任务设计了指标,并提出一个统一的度量标准,将所有8项任务的评测指标整合在一起来评估模型的整体性能,称为态势分析质量(portrait interpretation quality,PIQ)。PIQ反映了本文的系统性视角,为每个子任务合理分配权重。此外,本文在多任务学习的范式下设计了一个基线方法,并专注于多任务表示学习,提出了特征空间分离方案以及一个简单的度量学习损失。最后,通过实验证明了人像态势计算研究的可行性和优越性。接下来,首先介绍每个子任务的度量标准,然后描述基于每个子任务的度量标准的 PIQ 计算。1)再识别人物评测指标。再识别任务常用的评估指标是 CMC曲线和mAP,二者都是通过对查询集中所有样本的性能进行平均来计算的。当查询集中的样本几乎均匀分布在每个ID中时,这是相当合理的,这也是Market-1501等常用再识别数据集的实际情况。但在包括Portrait250K在内的更一般情况下,在大规模查询集中不同ID上的样本分布不平衡时,上述指标会增加头部ID的权重。如果查询图像在ID之间均匀采样,查询集的大小将受到尾部 ID大小的限制,从而导致测试集不够充分。针对这个问题,本文提出了Macro CMC和Macro mAP。与CMC曲线和mAP的不同之处在于,Macro CMC和Macro mAP会先计算查询集中每个ID的平均性能,然后在所有ID之间取平均值。再识别任务旨在执行跨域目标检索。但是,由于电影拍摄中常用的固定镜头技术,即使在连续的几帧中只选择一帧,也会有很多相似的帧。类似的帧对除ReID以外的任务没有太大影响。与去除它们相比,保留这些相似的帧在某种程度上相当于数据增强。但是对于再识别任务,如果在图库集中存在任何查询图像的相似帧,则该查询将成为一个简单的样本,因为模型只需要将相似图像映射到嵌入空间的邻近点,这会影响评估的有效性。其他再识别数据集不存在这个问题,因为其测试集是由不同相机拍摄的图像组成的。为了解决这个问题,需标记出相似的图像。这里,本文使用了感知哈希算法,它可以为每幅图像生成一个哈希值,通过计算它们对应的哈希值的汉明距离可以衡量两幅图像的相似度。本文将相似度超过阈值的图像标记为一组,并且在测试期间不考虑与查询在同一组中的图库图像。2)分类任务评测指标。对于分类任务,由于样本在不同标签上的分布不平衡,通常使用 F1-score,即精确率和召回率的调和平均值进行评估。与 Macro CMC和Macro mAP 类似,本文使用 Macro F1-score。3)PIQ 指标。性别、年龄、体型和身高分类是关于像态的任务,身体和手臂动作分类是关于形态的任务。统一的度量指标 PIQ 平等地考虑态势分析的3个方面,即给每个方面分配相同的权重。不过需要注意的是,再识别任务虽然属于像态感知,但相对独立且重要,所以将其独立出来。PIQ的计算式为PIQ=ReID+App+Pos+Emo4 (4)式中,ReID表示再识别任务的指标,采用Macro Rank-1 和Macro mAP的平均值。App表示像态分析的度量指标,采用性别,年龄,体型和身高的F1-score的平均值。Pos表示形态分析的度量指标,采用上肢动作和身体动作的F1-score的平均值。Emo表示神态分析的度量指标,采用表情分类的F1-score。4.4 基线方法本文为人像态势分析任务设计了一种基线方法FSS(feature space split),如图12所示。提出的框架使用HRNet-W32(high-resolution network)作为统一的特征提取器,将得到的特征向量按照3种态势进行划分,为每个任务对应的分类器提供不同的特征向量。同时,使用带有度量学习损失的BNNecks(batch normalization neck)来改善类别之间的区分。10.11834/jig.220700.F012图12人像态势分析的基准方法Fig.12Baseline method for portrait interpretation本文认为各个态势的表示是自然独立的,因此将特征空间划分为3个子空间,分别存储来自3个态势的信息。这种说法很容易成立,因为像态相同的人(同一个人)可以做出不同的姿势或有不同的情绪,反之亦然。在实践中,本文直接将主干网络输出的特征向量分为3部分。对于每一个子任务,性别、年龄、体型和身高的分类都属于像态感知,但它们之间并不相关,所以它们会对应像态特征向量中不相交的部分。再识别任务只关注与身份相关的信息,也就是与像态相关的信息。所以它使用的特征向量就是分配给像态的特征向量,包括相关子任务的维度和一些没有分配给任何子任务的维度。通过引入有关各种属性的信息,可以通过更多的监督来指导再识别任务,从而提高性能。对于形态,身体和手臂动作分类是相对相关的任务,所以本文让这两个任务共享一些维度,而每个任务都有自己独立的维度。神态感知只有一个子任务,因此无需进一步划分。对于一个分类任务,更多的标签通常需要更复杂的特征空间来使其可区分,所以本文让每个任务对应的特征向量的维数与相关标签的数量成正比。度量学习可以帮助模型学习到更好的表示,在细粒度图像分类、人脸识别和再识别等领域有很多应用。利用度量学习损失,同一类别的样本在特征空间被拉近,否则被推开。本文对特征向量计算各种度量学习损失以提高类间区分性能。使用上述基线方法,本文最终获得的PIQ性能为0.495。其中,ReID任务的Rank-1和mAP分别为0.351和0.536,性别、年龄、体型、身高、全身姿势、手臂姿势和表情分类任务分别为0.823, 0.685,0.444,0.650,0.561,0.530,0.340。具体结果见表6。可以看出,相对于单任务基线和简单多任务基线,本文的方法获得了更好的结果,证明了人像态势分析任务的可行性和优越性。实验结果也体现了本文提出的数据集的难度。10.11834/jig.220700.T006表 6人像态势数据集基线方法数值实验结果Table 6Experimental results of the baseline method of portrait interpretation模型行人再识别像态形态神态PIQmAPR1性别年龄体型身高全身姿势手臂姿势表情Single-Task0.4240.6030.8850.7170.2870.6150.5270.6340.2020.480Sim-MTL0.3140.5090.8470.7220.4720.7080.6240.5960.1830.473FSS0.3510.5360.8230.6850.4440.6500.5610.5300.3400.4955 结语行人再识别是计算机视觉研究领域当前公认的挑战性前沿课题,具有重要的理论研究和应用价值。针对行人再识别中的理论和关键技术已经开展了近10年的研究,取得了一定的研究成果。行人再识别技术的突破,初步解决了跨视域摄像机行人目标跟踪的瓶颈问题,推动了智能视频安防应用。非刚体非合作目标同时产生时变与形变,大类内方差,小训练样本,要求高泛化能力,视角变化大,光照影响严重。针对上述问题,本文重点在特征表达理论上开展创新研究,对行人的鉴别性特征进行深入研究。针对目前物体识别中普遍采用的深度网络特征仍然存在冗余进而影响特征鉴别力的问题,提出了基于深度网络的特征空间正交优化理论。针对非刚体行人的特征配准这一瓶颈问题,提出了一种基于广义部件的行人部件特征学习方法,并提出一种特征图层配准方法,有效解决了非刚体行人再识别中的特征配准问题。现有的关于人像的研究在行人属性识别和行人再识别等问题上取得了一定成果,但总体而言仍存在不足。1)缺乏挖掘各种任务之间的相互关系及其可能带来的好处;2)针对每个任务专门设计深度模型,效率偏低;3)无法应对实际场景中统一模型和全面综合感知的需求。对此,在前期行人再识别研究的基础上,本文对人像态势计算ReID2.0进行研究,并构建Portrait250K基准数据集。人像态势计算从一个新的系统性角度诠释了针对人像的多视角观测和感知。基于多任务学习的框架,人像态势计算对人像的静态属性和动态状态进行综合观测和描述。本文构建的Portrait250K数据集包含250 000幅标记了身份、性别、年龄、体型、身高、表情以及全身和手臂姿势的图像。此外,本文为这项任务提出了评价指标PIQ,为人像态势计算的进一步研究提供了参考。
使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,
确定继续浏览么?
复制成功,请在其他浏览器进行阅读
复制地址链接在其他浏览器打开
继续浏览