最新刊期

    2020 25 11

      序言和编者按

    • 序言

      2020, 25(11)
        
      12
      |
      16
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55700428 false
      更新时间:2024-05-07

      综述

    • 面部动作单元检测方法进展与挑战

      李勇, 曾加贝, 刘昕, 山世光
      2020, 25(11): 2293-2305. DOI: 10.11834/jig.200343
      面部动作单元检测方法进展与挑战
      摘要:人脸动作编码系统从人脸解剖学的角度定义了一组面部动作单元(action unit,AU),用于精确刻画人脸表情变化。每个面部动作单元描述了一组脸部肌肉运动产生的表观变化,其组合可以表达任意人脸表情。AU检测问题属于多标签分类问题,其挑战在于标注数据不足、头部姿态干扰、个体差异和不同AU的类别不均衡等。为总结近年来AU检测技术的发展,本文系统概述了2016年以来的代表性方法,根据输入数据的模态分为基于静态图像、基于动态视频以及基于其他模态的AU检测方法,并讨论在不同模态数据下为了降低数据依赖问题而引入的弱监督AU检测方法。针对静态图像,进一步介绍基于局部特征学习、AU关系建模、多任务学习以及弱监督学习的AU检测方法。针对动态视频,主要介绍基于时序特征和自监督AU特征学习的AU检测方法。最后,本文对比并总结了各代表性方法的优缺点,并在此基础上总结和讨论了面部AU检测所面临的挑战和未来发展趋势。  
      关键词:面部动作单元(AU);静态图像面部动作单元检测;动态视频面部动作单元检测;弱监督学习;标注数据不足   
      113
      |
      178
      |
      3
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55700430 false
      更新时间:2024-05-07
    • 深度人脸表情识别研究进展

      李珊, 邓伟洪
      2020, 25(11): 2306-2320. DOI: 10.11834/jig.200233
      深度人脸表情识别研究进展
      摘要:随着人脸表情识别任务逐渐从实验室受控环境转移至具有挑战性的真实世界环境,在深度学习技术的迅猛发展下,深度神经网络能够学习出具有判别能力的特征,逐渐应用于自动人脸表情识别任务。目前的深度人脸表情识别系统致力于解决以下两个问题:1)由于缺乏足量训练数据导致的过拟合问题;2)真实世界环境下其他与表情无关因素变量(例如光照、头部姿态和身份特征)带来的干扰问题。本文首先对近十年深度人脸表情识别方法的研究现状以及相关人脸表情数据库的发展进行概括。然后,将目前基于深度学习的人脸表情识别方法分为两类:静态人脸表情识别和动态人脸表情识别,并对这两类方法分别进行介绍和综述。针对目前领域内先进的深度表情识别算法,对其在常见表情数据库上的性能进行了对比并详细分析了各类算法的优缺点。最后本文对该领域的未来研究方向和机遇挑战进行了总结和展望:考虑到表情本质上是面部肌肉运动的动态活动,基于动态序列的深度表情识别网络往往能够取得比静态表情识别网络更好的识别效果。此外,结合其他表情模型如面部动作单元模型以及其他多媒体模态,如音频模态和人体生理信息能够将表情识别拓展到更具有实际应用价值的场景。  
      关键词:人脸表情识别(FER);真实世界;深度学习;综述   
      138
      |
      251
      |
      9
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55700427 false
      更新时间:2024-05-07
    • 基于rPPG的生理指标测量方法综述

      牛雪松, 韩琥, 山世光
      2020, 25(11): 2321-2336. DOI: 10.11834/jig.200341
      基于rPPG的生理指标测量方法综述
      摘要:远程光电容积脉搏波描记法(remote photoplethysmography,rPPG)是指通过摄像头等传感器来捕捉由心动周期造成的皮肤颜色周期性变化的技术。利用rPPG技术可以提取血液体积脉冲信号,进而测量心率、呼吸率和心跳变异性等心动周期相关的生理指标。近年基于rPPG的生理指标测量方法取得了飞速发展,准确性和鲁棒性已得到了大幅提高。该类技术的算法流程主要包括图像/视频的获取和感兴趣区域提取、血液体积脉冲信号提取和生理指标测量等步骤。基于这一算法流程,本文从算法所依据的假设或先验知识出发,对相关文献进行了总结和讨论。此外,还从评测任务、评测数据、评测指标及评测协议等4个方面系统整理针对基于rPPG的生理指标测量方法的评价体系。最后,本文讨论了该领域当前所面临的挑战并展望了可能的技术路线。  
      关键词:远程光电容积脉搏波描记法(rPPG);心动周期;生理指标测量;文献综述;算法评测   
      423
      |
      298
      |
      3
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55700429 false
      更新时间:2024-05-07
    • 面部表情分析进展和挑战

      彭小江, 乔宇
      2020, 25(11): 2337-2348. DOI: 10.11834/jig.200308
      面部表情分析进展和挑战
      摘要:面部表情分析是计算机通过分析人脸信息尝试理解人类情感的一种技术,目前已成为计算机视觉领域的热点话题。其挑战在于数据标注困难、多人标签一致性差、自然环境下人脸姿态大以及遮挡等。为了推动面部表情分析发展,本文概述了面部表情分析的相关任务、进展、挑战和未来趋势。首先,简述了面部表情分析的几个常见任务、基本算法框架和数据库;其次,对人脸表情识别方法进行了综述,包括传统的特征设计方法以及深度学习方法;接着,对人脸表情识别存在的问题与挑战进行总结思考;最后,讨论了未来发展趋势。通过全面综述和讨论,总结以下观点:1)针对可靠人脸表情数据库规模小的问题,从人脸识别模型进行迁移学习以及利用无标签数据进行半监督学习是两个重要策略;2)受模糊表情、低质量图像以及标注者的主观性影响,非受控自然场景的人脸表情数据的标签库存在一定的不确定性,抑制这些因素可以使得深度网络学习真正的表情特征;3)针对人脸遮挡和大姿态问题,利用局部块进行融合的策略是一个有效的策略,另一个值得考虑的策略是先在大规模人脸识别数据库中学习一个对遮挡和姿态鲁棒的模型,再进行人脸表情识别迁移学习;4)由于基于深度学习的表情识别方法受很多超参数影响,导致当前人脸表情识别方法的可比性不强,不同的表情识别方法有必要在不同的简单基线方法上进行评测。目前,虽然非受控自然环境下的表情分析得到较快发展,但是上述问题和挑战仍然有待解决。人脸表情分析是一个比较实用的任务,未来发展除了要讨论方法的精度也要关注方法的耗时以及存储消耗,也可以考虑用非受控环境下高精度的人脸运动单元检测结果进行表情类别推断。  
      关键词:面部表情分析;人脸表情识别(FER);卷积神经网络(CNN);深度学习;迁移学习   
      188
      |
      0
      |
      7
      <HTML>
      <Meta-XML>
      <引用本文> <批量引用> 55700426 false
      更新时间:2024-05-07

      数据集论文

    • 真实环境下的多模态情感数据集MED

      陈静, 王科俊, 赵聪, 殷超群, 黄自强
      2020, 25(11): 2349-2360. DOI: 10.11834/jig.200215
      真实环境下的多模态情感数据集MED
      摘要:目的情感识别的研究一直致力于帮助系统在人机交互的环节中以更合适的方式来对用户的需求进行反馈。但它在现实应用中的表现却较差。主要原因是缺乏与现实应用环境类似的大规模多模态数据集。现有的野外多模态情感数据集很少,而且受试者数量有限,使用的语言单一。方法为了满足深度学习算法对数据量的要求,本文收集、注释并准备公开发布一个全新的自然状态下的视频数据集(multimodal emotion dataset,MED)。首先收集人员从电影、电视剧、综艺节目中手工截取视频片段,之后通过注释人员对截取视频片段的标注最终得到了1 839个视频片段。这些视频片段经过人物检测、人脸检测等操作获得有效的视频帧。该数据集包含7种基础情感和3种模态:人脸表情,身体姿态,情感语音。结果为了提供情感识别的基准,在本文的实验部分,利用机器学习和深度学习方法对MED数据集进行了评估。首先与CK+数据集进行了对比实验,结果表明使用实验室环境下收集的数据开发算法很难应用到实际中,然后对各个模态进行了基线实验,并给出了各个模态的基线。最后多模态融合的实验结果相对于单模态的人脸表情识别提高了4.03%。结论多模态情感数据库MED扩充了现有的真实环境下多模态数据库,以推进跨文化(语言)情感识别和对不同情感评估的感知分析等方向的研究,提高自动情感计算系统在现实应用中的表现。  
      关键词:真实环境;多模态;人脸表情;身体姿态;情感语音;数据集   
      58
      |
      51
      |
      1
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55700491 false
      更新时间:2024-05-07

      人脸表情识别

    • 持续学习改进的人脸表情识别

      江静, 邓伟洪
      2020, 25(11): 2361-2369. DOI: 10.11834/jig.200315
      持续学习改进的人脸表情识别
      摘要:目的大量标注数据和深度学习方法极大地提升了图像识别性能。然而,表情识别的标注数据缺乏,训练出的深度模型极易过拟合,研究表明使用人脸识别的预训练网络可以缓解这一问题。但是预训练的人脸网络可能会保留大量身份信息,不利于表情识别。本文探究如何有效利用人脸识别的预训练网络来提升表情识别的性能。方法本文引入持续学习的思想,利用人脸识别和表情识别之间的联系来指导表情识别。方法指出网络中对人脸识别整体损失函数的下降贡献最大的参数与捕获人脸公共特征相关,对表情识别来说为重要参数,能够帮助感知面部特征。该方法由两个阶段组成:首先训练一个人脸识别网络,同时计算并记录网络中每个参数的重要性;然后利用预训练的模型进行表情识别的训练,同时通过限制重要参数的变化来保留模型对于面部特征的强大感知能力,另外非重要参数能够以较大的幅度变化,从而学习更多表情特有的信息。这种方法称之为参数重要性正则。结果该方法在RAF-DB(real-world affective faces database),CK+(the extended Cohn-Kanade database)和Oulu-CASIA这3个数据集上进行了实验评估。在主流数据集RAF-DB上,该方法达到了88.04%的精度,相比于直接用预训练网络微调的方法提升了1.83%。其他数据集的实验结果也表明了该方法的有效性。结论提出的参数重要性正则,通过利用人脸识别和表情识别之间的联系,充分发挥人脸识别预训练模型的作用,使得表情识别模型更加鲁棒。  
      关键词:深度学习;表情识别(FER);人脸识别(FR);预训练网络;持续学习;参数重要性正则   
      115
      |
      258
      |
      1
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55700520 false
      更新时间:2024-05-07
    • 多任务学习和对抗学习结合的自发与非自发表情识别

      郑壮强, 姜其胜, 王上飞
      2020, 25(11): 2370-2379. DOI: 10.11834/jig.200264
      多任务学习和对抗学习结合的自发与非自发表情识别
      摘要:目的如何提取与个体身份无关的面部特征以及建模面部行为的时空模式是自发与非自发表情识别的核心问题,然而现有的自发与非自发表情识别工作尚未同时兼顾两者。针对此,本文提出多任务学习和对抗学习结合的自发与非自发表情识别方法,通过多任务学习和对抗学习捕获面部行为的时空模式以及与学习身份无关的面部特征,实现有效的自发与非自发表情区分。方法所提方法包括4部分:特征提取器、多任务学习器、身份判别器以及多任务判别器。特征提取器用来获取与自发和非自发表情相关的特征;身份判别器用来监督特征提取器学习到的特征,与身份标签无关;多任务学习器预测表情高峰帧相对于初始帧之间的特征点偏移量以及表情类别,并试图迷惑多任务判别器;多任务判别器辨别输入是真实的还是预测的人脸特征点偏移量与表情类别。通过多任务学习器和多任务判别器之间的对抗学习,捕获面部行为的时空模式。通过特征提取器、多任务学习器和身份判别器的协同学习,学习与面部行为有关而与个体身份无关的面部特征。结果在MMI(M&M initiative)、NVIE(natural visible and infrared facial expression)和BioVid(biopotential and video)数据集上的实验结果表明本文方法可以学习出与个体身份相关性较低的特征,通过同时预测特征点偏移量和表情类别,有效捕获自发和非自发表情的时空模式,从而获得较好的自发与非自发表情识别效果。结论实验表明本文所提出的基于对抗学习的网络不仅可以有效学习个体无关但表情相关的面部中特征,而且还可以捕捉面部行为中的空间模式,而这些信息可以很好地改善自发与非自发表情识别。  
      关键词:自发与非自发表情识别;对抗学习;多任务学习;面部行为的时空模式;个体身份无关的面部特征   
      30
      |
      28
      |
      1
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55700538 false
      更新时间:2024-05-07
    • 采用时空注意力机制的人脸微表情识别

      李国豪, 袁一帆, 贲晛烨, 张军平
      2020, 25(11): 2380-2390. DOI: 10.11834/jig.200325
      采用时空注意力机制的人脸微表情识别
      摘要:目的微表情是人自发产生的一种面部肌肉运动,可以展现人试图掩盖的真实情绪,在安防、嫌疑人审问和心理学测试等有潜在的应用。为缓解微表情面部肌肉变化幅度小、持续时间短所带来的识别准确率低的问题,本文提出了一种用于识别微表情的时空注意力网络(spatiotemporal attention network,STANet)。方法STANet包含一个空间注意力模块和一个时间注意力模块。首先,利用空间注意力模块使模型的注意力集中在产生微表情强度更大的区域,再利用时间注意力模块对微表情变化更大因而判别性更强的帧给予更大的权重。结果在3个公开微表情数据集(The Chinese Academy of Sciences microexpression,CASME;CASME II;spontaneous microexpression database-high speed camera,SMIC-HS)上,使用留一交叉验证与其他8个算法进行了对比实验。实验结果表明,STANet在CASME数据集上的分类准确率相比于性能第2的模型Sparse MDMO(sparse main directional mean optical flow)提高了1.78%;在CASME II数据集上,分类准确率相比于性能第2的模型HIGO(histogram of image gradient orientation)提高了1.90%;在SMIC-HS数据集上,分类准确率达到了68.90%。结论针对微表情肌肉幅度小、产生区域小、持续时间短的特点,本文将注意力机制用于微表情识别任务中,提出了STANet模型,使得模型将注意力集中于产生微表情幅度更大的区域和相邻帧之间变化更大的片段。  
      关键词:微表情识别;分类;面部特征;深度学习;注意力模型;时空注意力   
      78
      |
      170
      |
      5
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55700559 false
      更新时间:2024-05-07
    • 结合自监督学习和生成对抗网络的小样本人脸属性识别

      疏颖, 毛龙彪, 陈思, 严严
      2020, 25(11): 2391-2403. DOI: 10.11834/jig.200334
      结合自监督学习和生成对抗网络的小样本人脸属性识别
      摘要:目的人脸属性识别是计算机视觉和情感感知等领域一个重要的研究课题。随着深度学习的不断发展,人脸属性识别取得了巨大的进步。目前基于深度学习的人脸属性识别方法大多依赖于包含完整属性标签信息的大规模数据集。然而,对于小样本数据集的属性标签缺失问题,人脸属性识别方法的准确率依然较低。针对上述问题,本文提出了一种结合自监督学习和生成对抗网络的方法来提高在小样本数据集上的人脸属性识别准确率。方法使用基于旋转的自监督学习技术进行预训练得到初始的属性识别网络;使用基于注意力机制的生成对抗网络得到人脸属性合成模型,对人脸图像进行属性编辑从而扩充训练数据集;使用扩充后的训练数据集对属性识别网络进行训练得到最终模型。结果本文在小样本数据集UMD-AED(University of Maryland attribute evaluation dataset)上进行了实验并与传统的有监督学习方法进行了比较。传统的有监督学习方法达到了63.24%的平均准确率,而所提方法达到了69.01%的平均准确率,提高了5.77%。同时,本文在CelebA(CelebFaces attributes dataset)、LFWA(labeled faces in the wild attributes dataset)和UMD-AED数据集上进行了使用自监督学习和未使用自监督学习的对比实验,验证了自监督学习在小样本数据集上的有效性。结论本文所提出的结合自监督学习和生成对抗网络的人脸属性识别方法有效提高了小样本数据集上属性识别的准确率。  
      关键词:人脸属性识别;自监督学习;生成对抗网络(GAN);数据增强;小样本训练   
      32
      |
      131
      |
      5
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55700580 false
      更新时间:2024-05-07

      精神状况评估

    • 深度空时婴幼儿表情识别模型下的ASD自动筛查

      唐传高, 郑文明, 宗源, 仇娜娜, 闫思蒙, 翟梦瑶, 柯晓燕
      2020, 25(11): 2404-2414. DOI: 10.11834/jig.200360
      深度空时婴幼儿表情识别模型下的ASD自动筛查
      摘要:目的高危孤独症谱系障碍(high-risk autism spectrum disorder,HR-ASD)筛查依赖于医师的临床评估和问卷量表,传统筛查方式效率低,亟需一种高效的自动筛查工具。为了满足自动筛查的需求,本文提出一种基于婴幼儿表情分析的孤独症谱系障碍自动筛查方法。方法首先入组30例8~18个月的婴幼儿,包括10例ASD疑似患儿(HR-ASD)和20例正常发育婴幼儿;引入静止脸范式,并利用该范式诱发婴幼儿在社交压力条件下的情绪调节行为;提出一种面向婴幼儿视频表情识别的深度空时特征学习网络,首先在大规模公开数据集AffectNet预训练空域特征学习模型,然后在自建婴幼儿面部表情视频数据集RCLS&NBH+(Research Center of Learning Science&Nanjing Brain Hospital dataset+)上训练时空特征学习模型,从而建立一个较精准的婴幼儿表情识别模型;基于该模型深度特征序列的一阶统计量,构建婴幼儿社交压力环境下的表情行为症状与精神健康状态之间的关联,采用机器学习方法实现自动筛查。结果1)基于婴幼儿表情人工标注的结果,发现:在1 min静止期,高危组的婴幼儿中性表情持续时长相对正常对照组偏高(p < 0.01),而其他表情未发现有统计学意义的差异;2)提出的深度空时特征学习网络在本研究的30例婴幼儿面部表情视频数据集上的总体平均识别率达到了87.1%,3类表情预测结果与人工标注结果具有较高的一致性,其中Kappa一致性系数达到0.63,Pearson相关系数达到0.67;3)基于面部表情深度特征序列一阶统计量的精神健康状态预测性能达到灵敏度70%,特异性90%,分类正确率83.3%(置换检验p < 0.05)。结论本文提出的基于婴幼儿面部表情深度特征序列一阶统计量的精神健康状态自动预测模型是有效的,有助于实现高危孤独症谱系障碍自动筛查。  
      关键词:孤独症谱系障碍(ASD);自动筛查;深度空时神经网络;婴幼儿表情识别;精神健康状态预测   
      29
      |
      52
      |
      1
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55700638 false
      更新时间:2024-05-07
    • 面部动态特征描述的抑郁症识别

      安昳, 曲珍, 许宁, 尼玛扎西
      2020, 25(11): 2415-2427. DOI: 10.11834/jig.200322
      面部动态特征描述的抑郁症识别
      摘要:目的抑郁症是一种严重的精神类障碍,会显著影响患者的日常生活和工作。目前的抑郁症临床评估方法几乎都依赖于临床访谈或问卷调查,缺少系统有效地挖掘与抑郁症密切相关模式信息的手段。为了有效帮助临床医生诊断患者的抑郁症严重程度,情感计算领域涌现出越来越多的方法进行自动化的抑郁症识别。为了有效挖掘和编码人们面部含有的具有鉴别力的情感信息,本文提出了一种基于动态面部特征和稀疏编码的抑郁症自动识别框架。方法在面部特征提取方面,提出了一种新的可以深层次挖掘面部宏观和微观结构信息的动态特征描述符,即中值鲁棒局部二值模式—3D正交平面(median robust local binary patterns from three orthogonal planes,MRELBP-TOP)。由于MRELBP-TOP帧级特征的维度较高,且含有部分冗余信息。为了进一步去除冗余信息和保留关键信息,采用随机映射(random projection,RP)对帧级特征MRELBP-TOP进行降维。此外,为了进一步表征经过降维后的高层模式信息,采用稀疏编码(sparse coding,SC)来抽象紧凑的特征表示。最后,采用支持向量机进行抑郁程度的估计,即预测贝克抑郁分数(the Beck depression inventory-II,BDI-II)。结果在AVEC 2013(the continuous audiovisual emotion and depression 2013)和AVEC2014测试集上,抑郁程度估计值与真实值之间的均方根误差(root mean square error,RMSE)分别为9.70和9.22,相比基准算法,识别精度分别提高了29%和15%。实验结果表明,本文方法优于当前大多数基于视频的抑郁症识别方法。结论本文构建了基于面部表情的抑郁症识别框架,实现了抑郁程度的有效估计;提出了帧级特征描述子MRELBP-TOP,有效提高了抑郁症识别的精度。  
      关键词:抑郁症;中值鲁棒局部二值模式—3D正交平面;局部二值模式;稀疏编码;随机映射   
      34
      |
      387
      |
      2
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55700682 false
      更新时间:2024-05-07

      生理信号和心理状态分析

    • 多视角神经网络非接触式脉搏信号提取

      赵昶辰, 居峰, 冯远静
      2020, 25(11): 2428-2438. DOI: 10.11834/jig.200415
      多视角神经网络非接触式脉搏信号提取
      摘要:目的远程光体积描记(remote photoplethysmography,rPPG)是一种基于视频的非接触式心率测量技术,受到学者的广泛关注。从视频数据中提取脉搏信号需要同时考虑时间和空间信息,然而现有方法往往将空间处理与时间处理割裂开,从而造成建模不准确、测量精度不高等问题。本文提出一种基于多视角2维卷积的神经网络模型,对帧内和帧间相关性进行建模,从而提高测量精度。方法所提网络包括普通2维卷积块和多视角卷积块。普通2维卷积块将输入数据在空间维度做初步抽象。多视角卷积块包括3个通道,分别从输入数据的高—宽、高—时间、宽—时间3个视角进行2维卷积操作,再将3个视角的互补时空特征进行融合得到最终的脉搏信号。所提多视角2维卷积是对传统单视角2维卷积网络在时间维度的扩展。该方法不破坏视频原有结构,通过3个视角的卷积操作挖掘时空互补特征,从而提高脉搏测量精度。结果在公共数据集PURE(pulse rate detection dataset)和自建数据集Self-rPPG(self-built rPPG dataset)上的实验结果表明,所提网络提取脉搏信号的信噪比相比于传统方法在两个数据集上分别提高了3.92 dB和1.92 dB,平均绝对误差分别降低了3.81 bpm和2.91 bpm;信噪比相比于单视角网络分别提高了2.93 dB和3.20 dB,平均绝对误差分别降低了2.20 bpm和3.61 bpm。结论所提网络能够在复杂环境中以较高精度估计出受试者的脉搏信号,表明了多视角2维卷积在rPPG脉搏提取的有效性。与基于单视角2维神经网络的rPPG算法相比,本文方法提取的脉搏信号噪声、低频分量更少,泛化能力更强。  
      关键词:心率测量;神经网络;远程光体积描记(rPPG);多视角卷积;时空特征   
      167
      |
      712
      |
      1
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55700683 false
      更新时间:2024-05-07
    • 面向远程光体积描记的人脸检测与跟踪

      赵昶辰, 梅培义, 冯远静
      2020, 25(11): 2439-2450. DOI: 10.11834/jig.200314
      面向远程光体积描记的人脸检测与跟踪
      摘要:目的远程光体积描记(remote photoplethysmograph,rPPG)是一种基于视频的非接触心率测量方法,通过跟踪人脸皮肤区域并从中提取周期性微弱变化的颜色信号估计出心率。目前基于级联回归树的人脸地标方法训练的Dlib库,由于能快速准确定位人脸轮廓,正逐渐被研究者用于跟踪皮肤感兴趣区域(region of interest,ROI)。由于实际应用中存在地标无规则抖动,且现有研究没有考虑目标晃动的影响,因此颜色信号提取不准确,心率估计精度不佳。为了克服以上缺陷,提出一种基于Dlib的抗地标抖动和运动晃动的跟踪方法。方法本文方法主要包含两个步骤:首先,通过阈值判断两帧间地标的区别,若近似则沿用地标,反之使用当前帧地标以解决抖动问题。其次,针对运动晃动,通过左右眼地标中点计算旋转角度,矫正晃动的人脸,保证ROI在运动中也能保持一致。结果通过信噪比(signal-to-noise,SNR)、平均绝对误差(mean absolute error,MAE)和均方根误差(root mean squared error,RMSE)来评价跟踪方法在rPPG中的测量表现。经在UBFC-RPPG(stands for Univ.Bourgogne Franche-Comté Remote PhotoPlethysmoGraphy)和PURE(Pulse Rate Detection Dataset)数据集测试,与Dlib相比,本文方法rPPG测量结果在UBFC-RPPG中SNR提高了约0.425 dB,MAE提高0.291 5 bpm,RMSE降低0.645 3 bpm;在PURE中SNR降低了0.041 1 dB,MAE降低0.065 2 bpm,RMSE降低0.271 8 bpm。结论本文方法相比于Dlib有效提高跟踪框稳定性,在静止和运动中都能跟踪相同ROI,适合rPPG应用。  
      关键词:远程光体积描记(rPPG);心率测量;目标跟踪;人脸地标;旋转矫正   
      62
      |
      342
      |
      2
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55700754 false
      更新时间:2024-05-07
    • 面向情绪调节的多模态人机交互技术

      张凯乐, 刘婷婷, 刘箴, 庄寅, 柴艳杰
      2020, 25(11): 2451-2464. DOI: 10.11834/jig.200251
      面向情绪调节的多模态人机交互技术
      摘要:目的现代社会存在心理问题的人日趋增多,及时调节其负面情绪对社会和谐稳定具有重要现实意义。传统的情绪调节方法需要花费大量人力,为此提出一种面向情绪调节的多模态人机交互方法,识别用户情绪,采用文本对话和体感交互实现对用户情绪的调节。方法综合运用了表情识别、文本对话和手势来实现对用户情绪的识别,构建了具有情绪表现力的智能体。用户的表情识别采用支持向量机方法,文本对话采用基于规则和融入情绪因素的Seq2Seq模型实现。设计了聊天、过生日和互动游戏(打篮球)等交互剧情,采用手势和肢体动作来辅助交互。为了更好地体现情绪调节的作用,在互动游戏中设计了强化学习算法,可根据用户的情绪反馈来自动调整游戏难度,最终让用户情绪调整到积极状态。结果通过实验发现,采用单模态交互很难感知到用户的背景信息,因此对用户的情绪识别可能出现误判。而采用多模态的人机交互方式,可以通过文本对话了解用户的背景信息,从而对用户情绪的识别更为合理。在多模态的人机交互剧情中,用户能以更自然的方式实现情景互动,智能体在多模态交互中更能发挥情绪调节作用。结论本文提出一种基于多模态人机交互的情绪调节方法,该方法不需要昂贵的硬件设备,便于推广普及,为消极情绪的调节提供了一种可计算方案。  
      关键词:人机交互(HCI);情绪调节;机器学习;情感计算;多模态   
      153
      |
      764
      |
      3
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 55700772 false
      更新时间:2024-05-07
    0