摘要:三维穿衣人体重建,在计算机图形学和三维视觉领域占有重要地位,广泛应用于多个方向。人体穿衣的多样性和动作的复杂性使得穿衣人体的高保真重建变得极其困难。深度学习技术优化了数据特征提取、隐式几何表示和神经渲染等关键环节,也推动了高保真穿衣人体重建技术的革命性进步。本文综述了人体重建的基本流程和组成模块,如各类输入数据、人体几何与动作表示、参数化模型以及三维到二维的渲染技术。同时,介绍了公开的穿衣人体数据集,简要回顾了近10年来人体重建算法的快速发展。本文详细探讨了几种主要的重建方法:稠密视角重建、非刚性运动重建(non-rigid structure from motion, NRSFM)、基于像素对齐的隐式几何重建以及生成模型方法。特别是,稠密视角重建能够生成高质量的人体几何,而NRSFM方法减少了对多视角的需求。基于像素对齐的方法重建细节丰富的人体几何,而生成模型方法利用多模态输入信息实现重建。最后总结了现有方法,并展望了未来研究方向,包括实现低成本高保真重建、加速重建过程和增强重建结果的可编辑性,以及在自然环境下进行重建的可能性。本文总结了近年来穿衣人体重建技术的进步,同时指出了未来研究可能集中的方向。
摘要:在智能交通系统中,车辆作为最普及的交通工具,常被不法分子利用,使其成为一种安全隐患,因此,实现监控设备下的车辆身份识别一直是一个研究热点。车辆标志(简称车标)是车辆的特殊身份,包含着车辆品牌制造商的基本信息,相比车牌、车型和车色,车标具有相对独立和可靠的特性。车辆标志识别能够快速、精准地缩小车辆查询范围,为案件侦破、交通自动化管理等有效降低搜索成本,因此车辆标志识别在车辆身份识别中尤其重要。本文对近十年内的主流车标识别方法进行了系统概述,为车标识别领域的后续研究者提供参考。1)简要阐述了在智能交通系统中车标识别技术的研究背景和重要性。2)根据车标识别过程中是否依赖手工提取特征,将目前国际主流的车标识别方法归纳为传统的车标识别方法和基于深度学习的车标识别方法,并分别总结了这两类方法的优劣。随后,分类、梳理和评价了这两类方法中现有的各种算法。3)针对车标数据集稀少导致难以评价各类算法性能、影响车标识别研究进展的问题,详细介绍了3种公开车标数据集:XMU(Xiamen University Vehicle Logo Dataset)、HFUT-VL(Vehicle Logo Dataset from Hefei University of Technology)和VLD-45(Vehicle Logo Dataset-45),并给出下载地址,可供研究者进行实验和测试。4)描述了4种常用的评价指标,并在公开数据集上基于这些评价指标对车标识别方法开展实验,并对实验结果进行比较和分析。5)综述现有车标识别技术中存在的一些问题与挑战,对未来车标识别的研究方向做出预测和展望。
摘要:文本识别技术可以分为光学字符识别(optical character recognition, OCR)和场景文本识别(scene text recognition,STR),其中STR是在OCR基础上针对日益复杂的应用场景衍生出来的。依托深度学习,OCR技术近年来取得了长足进步并大规模商业落地,但深度学习面临的对抗样本攻击问题也给OCR带来了安全威胁。目前大多数OCR模型均存在识别自然扰动和防御对抗样本攻击能力差的问题,如OCR模型在噪声、水印和梯度等攻击算法下的识别准确率大大降低。相比图像领域,文本识别领域的对抗样本攻击研究还远远不够。文本识别通常被视为一个序列到序列的问题,其中输入(如图像中的像素)和输出(像素对应的字符)都是序列,这使得对抗样本的生成更具挑战性。本文对文本识别的对抗样本攻击和防御方法进行研究综述,梳理了近年来文本识别领域的对抗样本攻击方法并进行对比分析,根据攻击类型、应用场景和模型可知性,对攻击方式进行了系统分类。具体来说,按照攻击类型,可分为基于梯度的攻击、基于优化的攻击和基于生成模型的攻击;按照应用场景,可以分为OCR攻击和STR攻击;按照模型可知性,可分为白盒攻击和黑盒攻击。除了回顾文本识别对抗样本攻击方法,还简要介绍了防御技术,具体分为数据预处理、文本篡改检测和传统对抗防御技术。通过这些技术的应用,可以有效地提升文本识别模型的安全性和鲁棒性。最后,总结了文本识别领域对抗样本攻击及防御面临的挑战,并对未来发展方向做出展望。
摘要:目的随着自动驾驶和辅助驾驶的快速发展,交通标志识别研究变得越来越重要。但是现阶段交通标志识别算法对交通标志识别的精度较低,尤其在面对目标背景较为复杂、光照不足和小目标交通标志的场景时,更加容易出现错检和漏检情况。针对以上问题,提出了一种改进YOLOv7(you only look once version 7)的交通标志识别模型。方法首先,采用空间金字塔池化快速跨级部分连接(spatial pyramid pooling fast cross stage partial concat,SPPFCSPC)方法,替换YOLOv7算法使用的空间金字塔池化跨级部分连接(spatial pyramid pooling cross stage partial concat,SPPCSPC)方法,提高算法的特征提取能力。其次,采用加权双向特征金字塔网络(bi-directional feature pyramid network,BiFPN),增强算法的多尺度特征融合能力。接着,采用一种新的框间距离度量的归一化Wasserstein距离(normalized Wasserstein distance,NWD)方法,解决传统的IoU(intersection over union)度量对小目标交通标志检测过于敏感的问题。最后,使用特征内容的感知重组(content-aware reassembly of feature,CARAFE)算子,通过输入的特征,自适应生成上采样内核,有效地增加模型的感受域,更好地利用目标周边的信息,减少交通标志错检和漏检情况。结果实验结果表明,在减少算法参数量的基础上,改进算法在TT100K交通标志数据集上的mAP@0.5和mAP@0.5∶0.9值分别达到了92.50%和72.21%,较原始的YOLOv7算法分别提高了3.24%和1.83%。同时,在具有小目标特性的CCTSDB交通标志数据集和整理的国外交通标志数据集上验证了模型改进的有效性。结论通过实验验证和主客观评价,证明了本文改进算法的可行性,能够有效地对多种环境下的小目标交通标志进行识别,并在降低算法参数量的前提下,进一步提高了YOLOv7算法对交通标志识别的平均精度。
摘要:目的新兴视频服务的功能参数设置将会直接影响到用户的认知状态,进一步影响用户体验质量,称为功能性用户体验质量(functional quality of experience, fQoE)。脑电信号蕴含丰富的大脑活动信息,能够揭示复杂脑活动中的脑网络模式,为fQoE提供可靠的评估依据。为此,本文首次提出了一个基于脑电的脑网络构建方法以评估fQoE,并研究fQoE背后的神经机制。方法首先,通过改变功能参数诱发不同水平的fQoE,并同步收集脑电数据;然后,从脑电数据中提取单电极和多电极特征并以图结构进行融合,用以全面表征用户使用视频服务时的大脑状态;最后,使用基于自注意力图池化的脑网络构建模型来识别对fQoE敏感的脑网络,为fQoE提供可解释性,并进行分类以完成fQoE评估。结果本文以弹幕视频服务的弹幕覆盖率这一功能参数为例验证了方法的科学性和可行性。实验表明,提出的评估方法在多种视频类型的fQoE评估中均达到了满意的效果,最佳识别准确率分别为86%(鬼畜类)、81%(科技类)、80%(舞蹈类)、82%(影视类)和84%(音乐类)。结论来自fQoE相关的脑网络分析结果表明,额极、额中回、顶叶和颞叶的脑连接数量减少预示着观看弹幕视频的fQoE更高,即观看体验更好,同时也证明了功能参数通过影响人的脑状态进一步导致了fQoE的改变。本文的评估方法为fQoE的精确评估和视频服务功能参数的优化提供了来自神经生理学的定量工具和理论依据。