摘要:步态识别具有对图像分辨率要求低、可远距离识别、无需受试者合作、难以隐藏或伪装等优势,在安防监控和调查取证等领域有着广阔的应用前景。然而在实际应用中,步态识别的性能常受到视角、着装、携物和遮挡等协变量的影响,其中视角变化最为普遍,并且会使行人的外观发生显著改变。因此,提高步态识别对视角的鲁棒性一直是该领域的研究热点。为了全面认识现有的跨视角步态识别方法,本文对相关研究工作进行了梳理和综述。首先,从基本概念、数据采集方式和发展历程等角度简要介绍了该领域的研究背景,在此基础上,整理并分析了基于视频的主流跨视角步态数据库;然后,从基于3维步态信息的识别方法、基于视角转换模型的识别方法、基于视角不变特征的识别方法和基于深度学习的识别方法4个方面详细介绍了跨视角步态识别方法。最后,在CASIA-B(CASIA gait database, dataset B)、OU-ISIR LP(OU-ISIR gait database, large population dataset)和OU-MVLP(OU-ISIR gait database, multi-view large population dataset)3个数据库上对该领域代表性方法的性能进行了对比分析,并指出跨视角步态识别的未来研究方向。
摘要:目的行人重识别旨在解决多个非重叠摄像头下行人的查询和识别问题。在很多实际的应用场景中,监控摄像头获取的是低分辨率行人图像,而现有的许多行人重识别方法很少关注真实场景中低分辨率行人相互匹配的问题。为研究该问题,本文收集并标注了一个新的基于枪球摄像头的行人重识别数据集,并基于此设计了一种低分辨率行人重识别模型来提升低分辨率行人匹配性能。方法该数据集由部署在3个不同位置的枪机摄像头和球机摄像头收集裁剪得到,最终形成包含200个有身份标签的行人和320个无身份标签的行人重识别数据集。与同类其他数据集不同,该数据集为每个行人同时提供高分辨率和低分辨率图像。针对低分辨率下的行人匹配难题,本文提出的基准模型考虑了图像超分、行人特征学习以及判别3个方面因素,并设计了相应的超分模块、特征学习模块和特征判别器模块,分别完成低分辨率图像超分、行人特征学习以及行人特征判断。结果提出的基准模型在枪球行人重识别数据集上的实验表明,对比于经典的行人重识别模型,新基准模型在平均精度均值(mean average precision,mAP)和Rank-1指标上分别提高了3.1%和6.1%。结论本文构建了典型的低分辨率行人重识别数据集,为研究低分辨率行人重识别问题提供了重要的数据来源,并基于该数据集研究了低分辨率下行人重识别基础方法。研究表明,提出的基准方法能够有效地解决低分辨行人匹配问题。
摘要:目的文本到图像的行人重识别是一个图像文本跨模态检索的子任务,现有方法大都采用在全局特征匹配的基础上加入多个局部特征进行跨模态匹配。这些局部特征匹配的方法都过分复杂且在检索时会大幅减慢速度,因此需要一种更简洁有效的方法提升文本到图像的行人重识别模型的跨模态对齐能力。对此,本文基于通用图像文本对大规模数据集预训练模型,对比语言—图像预训练(contrastive language-image pretraining,CLIP),提出了一种温度投影匹配结合CLIP的文本到图像行人重识别方法。方法借助CLIP预训练模型的跨模态图像文本对齐的能力,本文模型仅使用全局特征进行细粒度的图像文本语义特征对齐。此外,本文提出了温度缩放跨模态投影匹配(temperature-scaled cross modal projection matching,TCMPM)损失函数来进行图像文本跨模态特征匹配。结果在本领域的两个数据集上与最新的文本到图像行人重识别方法进行实验对比,在CUHK-PEDES(CUHK person description)和ICFG-PEDES(identity-centric and fine-grained person description)数据集中,相比于现有性能较好的局部匹配模型,本文方法Rank-1值分别提高了5.92%和1.21%。结论本文提出的基于双流Transformer的文本到图像行人重识别方法可以直接迁移CLIP的跨模态匹配知识,无须冻结模型参数训练或接入其他小模型辅助训练。结合提出的TCMPM损失函数,本文方法仅使用全局特征匹配就在检索性能上大幅超过了现有局部特征方法。
摘要:目的可见光—红外跨模态行人再识别旨在匹配具有相同行人身份的可见光图像和红外图像。现有方法主要采用模态共享特征学习或模态转换来缩小模态间的差异,前者通常只关注全局或局部特征表示,后者则存在生成模态不可靠的问题。事实上,轮廓具有一定的跨模态不变性,同时也是一种相对可靠的行人识别线索。为了有效利用轮廓信息减少模态间差异,本文将轮廓作为辅助模态,提出了一种轮廓引导的双粒度特征融合网络,用于跨模态行人再识别。方法在全局粒度上,通过行人图像到轮廓图像的融合,用于增强轮廓的全局特征表达,得到轮廓增广特征。在局部粒度上,通过轮廓增广特征和基于部件的局部特征的融合,用于联合全局特征和局部特征,得到融合后的图像表达。结果在可见光—红外跨模态行人再识别的两个公开数据集对模型进行评估,结果优于一些代表性方法。在SYSU-MM01(Sun Yat-sen University multiple modality 01)数据集上,本文方法rank-1准确率和平均精度均值(mean average precision,mAP)分别为62.42%和58.14%。在RegDB(Dongguk body-based person recognition database)数据集上,本文方法rank-1和mAP分别为84.42%和77.82%。结论本文将轮廓信息引入跨模态行人再识别,提出一种轮廓引导的双粒度特征融合网络,在全局粒度和局部粒度上进行特征融合,从而学习具有判别性的特征,性能超过了近年来一些具有代表性的方法,验证了轮廓线索及其使用方法的有效性。
摘要:目的低质量3维人脸识别是近年来模式识别领域的热点问题;区别于传统高质量3维人脸识别,低质量、高噪声是低质量3维人脸识别面对的主要问题。围绕低质量3维人脸数据噪声大、依赖单张有限深度数据提取有效特征困难的问题,提出了一种联合软阈值去噪和视频数据融合的低质量3维人脸识别方法。方法首先,针对低质量3维人脸中存在的噪声问题,提出了一个即插即用的软阈值去噪模块,在网络提取特征的过程中对特征进行去噪处理。为了使网络提取的特征更具有判别性,结合softmax和Arcface(additive angular margin loss for deep face recognition)提出的联合渐变损失函数使网络提取更具有判别性特征。为了更好地利用多帧低质量视频数据实现人脸数据质量提升,提出了基于门控循环单元的视频数据融合模块,实现了视频帧数据间互补信息的有效融合,进一步提高了低质量3维人脸识别准确率。结果实验在两个公开数据集上与较新方法进行比较,在Lock3DFace(low-cost kinect 3D faces)开、闭集评估协议上,相比于性能第2的方法,平均识别率分别提高了0.28%和3.13%;在Extended-Multi-Dim开集评估协议上,相比于性能第2的方法,平均识别率提高了1.03%。结论提出的低质量3维人脸识别方法,不仅能有效缓解低质量噪声带来的影响,还有效融合了多帧视频数据的互补信息,大幅提高了低质量3维人脸识别准确率。
摘要:目的光流估计是计算机视觉研究中的一个重要方向,尽管光流估计方法不断改进,但光照变化条件下光流计算精度的提高仍然是一个尚待解决的挑战。人脸反欺诈方法对于确保人脸识别系统的安全性十分重要,光照鲁棒的脸部运动光流特征能为人脸活体检测提供有关运动和结构的可靠信息。为了获得对含光照变化视频中物体运动的理解能力并应用于人脸活体检测,提高系统性能,提出了一种基于结构纹理感知视网膜模型的鲁棒光流估计方法。方法基于Retinex理论,通过结构纹理感知方式将图像中的反射分量与光照分量充分解耦。由于反射分量具有丰富的纹理信息且光照分量中包含部分有用的结构信息,因此对所提取的光照分量进行滤波操作后再与反射分量一起融合到光流模型中,有效提高了光流估计的鲁棒性。为使模型所获光流具有更好的边缘保持性,采用光滑—稀疏正则化约束方式进行最小化求解。本文给出了求解优化问题的数值方法。结果采用MPI Sintel数据集图像序列,与PWC-Net、DCFlow+KF和FDFlowNet(fast deep flownet)等主流算法进行对比实验,本文方法在Clean和Final数据集中均得到最低的平均终点误差(end-point error,EPE),分别为2.473和4.807,在3个公开数据集上进行的评测进一步验证了本文方法的鲁棒性。最后,将所提取的脸部运动光流特征在人脸反欺诈数据集上进行了活体检测对比实验,对比实验结果验证了提出的光流估计算法更具鲁棒性,改善了人脸活体检测的效果。结论提出的光流计算模型,在不同光照变化条件下具有良好的鲁棒性,更适合于人脸活体检测应用。本项目代码链接为https://github.com/Xiaoxin-Liao/STARFlow。
摘要:目的虹膜识别是具有发展前景的生物特征认证方式,然而现有的一些方法无法在远距离、非协作状态下捕获的低质量图像中表现出较好的性能,极大阻碍了虹膜识别在实际中的应用部署。为此,提出一种基于卷积神经网络的网络模型,使用眼周和虹膜进行有效融合,克服单一模态生物特征的局限性,增强生物特征身份认证方式的可靠性和安全性。方法为了能够提取鲁棒性更强的辨别特征,将空间注意力机制和特征重用方法进行结合,有效减轻了在前向传播过程中梯度消失的问题。同时,引入中间融合表达层,根据不同模态低、中、高层特征信息对融合策略产生的贡献值自适应地学习相对应的权重,并通过加权组合的方式有效地融合生成鲁棒性更强的辨别特征,极大提升了虹膜识别在远距离、非协作状态下的识别性能。结果在3个公开数据集ND-IRIS-0405(notre dame)、CASIA(Institute of Automation,Chinese Academy of Sciences)-Iris-M1-S3以及CASIA-Iris-Distance上进行测试,本文方法EER(equal error rate)值分别为0.19%,0.48%,1.33%,优于对比方法,表明了本文方法的优越性。结论本文提出的中间融合表达层融合方法能够有效融合眼周和虹膜在不同阶段的语义信息,生成判别性更强的特征模板,提升了远距离、非协作状态下虹膜识别的性能。
摘要:目的基于步态剪影的方法取得了很大的性能提升,其中通过水平划分骨干网络的输出从而学习多身体部位特征的机制起到了重要作用。然而在这些方法对不同部位的特征都是以相对独立的方式进行提取,不同部位之间缺乏交互,有碍于识别准确率的进一步提高。针对这一问题,本文提出了一个新模块用于增强步态识别中的多部位特征学习。方法本文将“分离—共享”机制引入到步态识别的多部位特征学习过程中。分离机制允许每个部位学习自身独有的特征,主要通过区域池化和独立权重的全连接层进行实现。共享机制允许不同部位的特征进行交互,由特征归一化和特征重映射两部分组成。在共享机制中,特征归一化不包含任何参数,目的是使不同部位的特征具有相似的统计特性以便进行权值共享;特征重映射则是通过全连接层或逐项乘积进行实现,并且在不同部位之间共享权重。结果实验在步态识别领域应用最广泛的数据集CASIA-B(Institute of Automation, Chinese Academy of Sciences)和OUMVLP上进行,分别以GaitSet和GaitPart作为基线方法。实验结果表明,本文设计的模块能够带来稳定的性能提升。在CASIA-B背包条件下,本文提出的模块相对于GaitSet和GaitPart分别将rank-1的识别准确率提升了1.62%和1.17%。结论本文设计了一个新的模块用于增强步态识别的多部位特征学习过程,能够在不显著增加计算代价的条件下带来稳定的性能提升。