Print

发布时间: 2018-05-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170401
2018 | Volume 23 | Number 5




    图像分析和识别    




  <<上一篇 




  下一篇>> 





融合表情和BVP生理信号的双模态视频情感识别
expand article info 任福继1,2, 于曼丽1, 胡敏1, 李艳秋1
1. 合肥工业大学计算机与信息学院情感计算与先进智能机器安徽省重点实验室, 合肥 230009;
2. 德岛大学先端技术科学教育部, 德岛 7708502, 日本

摘要

目的 针对当前视频情感判别方法大多仅依赖面部表情、而忽略了面部视频中潜藏的生理信号所包含的情感信息,本文提出一种基于面部表情和血容量脉冲(BVP)生理信号的双模态视频情感识别方法。方法 首先对视频进行预处理获取面部视频;然后对面部视频分别提取LBP-TOP和HOG-TOP两种时空表情特征,并利用视频颜色放大技术获取BVP生理信号,进而提取生理信号情感特征;接着将两种特征分别送入BP分类器训练分类模型;最后利用模糊积分进行决策层融合,得出情感识别结果。结果 在实验室自建面部视频情感库上进行实验,表情单模态和生理信号单模态的平均识别率分别为80%和63.75%,而融合后的情感识别结果为83.33%,高于融合前单一模态的情感识别精度,说明了本文融合双模态进行情感识别的有效性。结论 本文提出的双模态时空特征融合的情感识别方法更能充分地利用视频中的情感信息,有效增强了视频情感的分类性能,与类似的视频情感识别算法对比实验验证了本文方法的优越性。另外,基于模糊积分的决策层融合算法有效地降低了不可靠决策信息对融合的干扰,最终获得更优的识别精度。

关键词

表情; 生理信号; 视频颜色放大; 模糊积分; 双模态

Dual-modality video emotion recognition based on facial expression and BVP physiological signal
expand article info Ren Fuji1,2, Yu Manli1, Hu Min1, Li Yanqiu1
1. School of Computer and Information of Hefei University of Technology, Anhui Province Key Laboratory of Affective Computing and Advanced Intelligent Machine, Hefei 230009, China;
2. University of Tokushima, Graduate School of Advanced Technology & Science, Tokushima 7708502, Japan
Supported by: National Natural Science Foundation of China(61672202, 61432004, 61502141); National Natural Science Foundation of China-Shenzhen Joint Fund Key Projects(U1613217)

Abstract

Objective With the continuous development of artificial intelligence, researchers and scholars from other fields have become increasingly interested in providing computers with the capability to understand the emotions conveyed by(human beings and naturally interact with them. Therefore, emotion recognition has gradually become one of the key points of research to achieve harmonious human-computer interaction. The performance of video emotion recognition algorithms critically depends on the quality of the extracted emotion information. Previous research showed that facial expression is the most direct method to convey emotional information. Thus, current works usually rely on facial expressions only to complete emotion recognition. Feature extraction methods based on facial expression images are mostly based on gray images. However, during the conversion of color images into gray images, the latent physiological signals in the color information and the hidden physiological signals contained in facial videos that have discriminant information for emotion recognition are lost. In this study, a novel dual-modality video emotion recognition method for fusion decision, which combines facial expressions and blood volume pulse (BVP) physiological signals that can be extracted from facial videos, is introduced to overcome this problem. Method First, the video is preprocessed (including face detection and normalization) to acquire a sequence of video frames that contain only the face image. The LBP-TOP feature is an effective local texture descriptor, whereas the HOG-TOP feature is a gradient-based local shape descriptor that can compensate for the lack of LBP-TOP feature extraction in image edge and direction information. Thus, in this study, we extract the LBP-TOP and HOG-TOP features from the video frames and fuse the two facial expression features. We use video color amplification technology to process the original video and extract the BVP physiological signal from the processed video. Then, the emotional feature of physiological signals can be extracted from the BVP physiological signal. Afterward, the two features are inputted into the BP classifier to train the classification models. Finally, the fuzzy integral is used to fuse the posterior probability information obtained by the two classifiers to obtain the final emotion recognition result. Result Considering that the current commonly used video emotion databases cannot satisfy the requirements for extracting the BVP signal, we conduct experimental verification by using the self-built facial expression video database. Each group of experiments was cross-validated, and the final results were averaged to increase the credibility of the experiment. The average recognition rates of single modality, i.e., facial expression or physiological signal, are 80% and 63.75%, respectively, whereas the emotion recognition result of the fusion of the two modalities is up to 83.33%, which is higher than that of each single modality before fusion. This finding indicates that the fusion decision algorithm with facial expression and BVP physiological signal is effective for emotion recognition. The experimental results of other fusion methods, namely, the D-S evidence theory and the maximum value rule, are 71% and 80%, respectively, which are lower than that of the fuzzy integral method. In addition, the recognition rate of our method is 2% and 2.5% higher than the results of the two existing video emotion recognition methods. Conclusion The dual-modality space-time feature fusion method proposed in this study characterizes the emotion information contained in the facial videos from two aspects, i.e., the facial expression and the physiological signals, to make full use of the emotional information of the video. The experimental results show that this algorithm can make full use of the emotion information of the video and effectively improve the classification performance of video emotion recognition. The effectiveness of our proposed method in comparison to that of similar video emotion recognition algorithms is verified. In addition, the fuzzy integral is used to fuse two different modalities at the decision level. The reliability of different classifiers in the fusion process is considered and compared with that of D-S evidence theory and the maximum value rule. The influence of unreliable decision-making information on the fusion decision is effectively reduced. Finally, a high recognition accuracy is obtained by the proposed fusion method. The contrast experiment with other fusion methods also proves the superiority of the proposed fusion method.

Key words

facial expression; physiological signal; video color amplification technology; fuzzy integral; dual-modality

0 引言

随着人工智能的不断发展,人们希望计算机在交互的过程中能够理解人类传达的情感,并能够带有情感的与人类自然交流,因此为实现和谐的人机交互,情感识别逐渐成为研究的关键技术之一。情感表达最直接的方式是通过面部表情来完成,表情描述特征主要分为基于静态图片和动态视频两类。目前比较经典的静态表情描述特征有局部二值模式(LBP)[1],梯度方向直方图(HOG)[2]和Gabor[3]特征等,虽然对于静态的表情识别,可以取得较好效果, 但是静态图片仅是对表情某瞬间的捕捉,无法描述表情的动态变化过程,因此,基于动态视频的情感识别逐渐得到研究学者的关注。Zhao等人[4]提出LBP-TOP(local binary pattern from three orthogonal planes)时空特征提取方法,该方法可以有效提取图像序列的动态纹理特征。考虑到静态信息和动态信息在特征描述上的互补性,Zhao等人[5]采用LBP-TOP和Gabor多方向直方图融合的方法获取情感特征。Chen等人[6]受LBP-TOP启发提出了梯度方向直方图-3维正交平面(HOG-TOP)特征提取方法,有效地提取了视频图像的边缘和方向信息,并将其与LBP-TOP特征在CK库上作对比,验证其所提方法的有效性。此外,Fan等人[7]利用光流法表示面部运动特征,并结合3维金字塔梯度直方图特征(PHOG-TOP)实现情感判别,取得了不错的效果。

虽然面部表情看起来可以直观地显示情感的变化,但是许多内在的情感变化过程并没有伴随视觉的面部活动被感知,人们可以掩饰和隐藏他们的情感体验,使观察者误会表情的含义。同时基于面部表情图像的特征提取方法大多基于灰度图像,在彩色图像转换为灰度图像的过程中,也会丢失部分信息。对视觉表情不足之处一个好的弥补方法是通过生理信号来分析人体潜在的情感状态。大量的研究表明,情感具有生理可分性[8-12]。王蓓等人[12]对面部表情和生理信号分别进行特征层融合和决策层融合,并将两种融合结果作对比,实验结果表明在两种模态信息量差异明显的情况下,基于特征层融合的双模态情感识别方法效果不如决策层融合理想。Tsai等人[8]从皮肤电、手指温度和心率信号中提取生理特征,然后结合12种面部表情特征进行情感判别。Kortelainen等人[9]则采用呼吸频率和心率变异性两路生理信号与面部纹理特征相结合的方法进行双模态情感识别。此类生理信号均是在受控环境下通过专门的生理采集仪器获得,且均属于接触式,数据的采集过程较为复杂,也耗费人力,容易给被试者带来不适,因此在实际应用中具有一定的局限性。血容量脉冲(BVP)信号是一种由心脏周期性地收缩和扩张,导致脸部血容量周期性地变化所形成的微弱的生理信号,与其他生理信号相比,它可由普通光学摄像头拍摄人脸彩色视频获取,无需与人体接触。研究表明,BVP信号中包含有心率值和呼吸频率值[13-15],当人紧张或害怕时,由于血液不能及时流到动脉末梢,BVP信号幅度偏低,而当人处于放松状态时,随着血液流至末梢,BVP信号幅度增加。考虑到BVP信号的这些特性,本文提出一种基于面部表情和BVP生理信号的双模态视频情感识别方法。

在情感特征描述上,本文采用LBP-TOP和HOG-TOP两种特征融合的方法。其中,LBP-TOP是一种有效的局部纹理描述算子,能够有效地描述图像纹理特征,计算简单,且具有一定的灰度不变性和旋转不变性。HOG-TOP是基于梯度的局部形状描述算子,可以弥补LBP-TOP特征在图像方向和边缘信息特征提取上的缺失,提高表情特征对光照和几何形变的鲁棒性。为了得到增强的BVP生理信号,本文利用颜色放大技术[16]对视频信号进行放大,然后再提取BVP生理信号的情感特征。在情感分类上,本文首先利用BP神经网络训练两种不同模态的特征,得到不同分类决策信息。然后通过模糊积分融合算法将两种模态得到的分类信息进行决策层融合,最后得到情感识别结果。实验结果表明,本文提出的基于视频的情感识别方法能够取得较好的决策性能,在识别准确度上高于单个模态和一些现有的识别方法。

1 特征提取

1.1 表情特征提取

1.1.1 局部二值模式-3维正交平面(LBP-TOP)

局部二值模式(LBP)通过将中心像素点的邻域像素值与中心点的像素值作比较得到二进制编码,然后将此二进制编码对应的十进制编码值作为该中心像素点的LBP特征值。LBP-TOP是将2维平面的LBP扩展到3维空间的改进算法,它把视频看成是视频序列在$ X、Y、T$3个坐标轴上的堆叠,其中$ XY$平面提供空间纹理信息,$ XT$$ YT$平面记录时间或运动信息,适用于视频的动态特征提取,图 1给出了3个平面的示例图像。

图 1 视频在$ XY、XT$$ YT$平面的展示
Fig. 1 The video is displayed on the $ XY、XT$ and $ YT$ planes

LBP-TOP特征提取时,把每个像素点看成是3个正交平面的相交点。对于一个视频帧序列,首先将所有的图像帧进行相同大小的分块;然后对每一个分块视频序列选取中间帧的像素点为中心,分别计算其在$ XY、XT$$ YT$这3个正交平面上的LBP编码,并进行直方图统计;最后将3个正交平面下的直方图特征进行级联,即得到该视频序列的LBP-TOP直方图特征,具体流程如图 2所示。

图 2 LBP-TOP特征
Fig. 2 LBP-TOP features

1.1.2 梯度方向直方图-3维正交平面(HOG-TOP)

HOG最早是用来行人检测的,HOG的基本思想是物体的外观和形状可以被梯度分布或边缘方向信息很好地表示。图像中任一像素点$ (x, y)$处的灰度值表示为$ H(x, y)$,其水平方向和垂直方向的梯度为

$ \left\{ \begin{array}{l} {G_x}\left( {x,y} \right) = H\left( {x + 1,y} \right) - H\left( {x - 1,y} \right)\\ {G_y}\left( {x,y} \right) = H\left( {x,y + 1} \right) - H\left( {x,y - 1} \right) \end{array} \right. $ (1)

像素点$ (x, y)$处的梯度幅值和梯度方向为

$ G\left( {x,y} \right) = \sqrt {{G_x}{{\left( {x,y} \right)}^2} + {G_y}{{\left( {x,y} \right)}^2}} $ (2)

$ \theta = \arctan \left( {\frac{{{G_y}\left( {x,y} \right)}}{{{G_x}\left( {x,y} \right)}}} \right) $ (3)

$ \mathit{\theta }$的取值范围为[0,3600],将[0,3600]平均划分成$ n$个方向,构成直方图的$ n$个范围,将每个像素点处的梯度幅值加到$ \mathit{\theta }$对应的方向内,得到图像的梯度方向直方图。HOG-TOP类似于LBP-TOP将HOG由2平面扩展到3维空间,即在3正交平面上的梯度,其中心像素点$ (x, y, t)$在3正交平面的梯度幅值和梯度方向分别为

$ \left\{ \begin{array}{l} {G_{xy}}\left( {x,y,t} \right) = \sqrt {{G_x}{{\left( {x,y,t} \right)}^2} + {G_y}{{\left( {x,y,t} \right)}^2}} \\ {G_{xt}}\left( {x,y,t} \right) = \sqrt {{G_x}{{\left( {x,y,t} \right)}^2} + {G_t}{{\left( {x,y,t} \right)}^2}} \\ {G_{yt}}\left( {x,y,t} \right) = \sqrt {{G_y}{{\left( {x,y,t} \right)}^2} + {G_t}{{\left( {x,y,t} \right)}^2}} \end{array} \right. $ (4)

$ \left\{ \begin{array}{l} {\theta _{xy}}\left( {x,y} \right) = \arctan \left( {\frac{{{G_y}\left( {x,y,t} \right)}}{{{G_x}\left( {x,y,t} \right)}}} \right)\\ {\theta _{xt}}\left( {x,t} \right) = \arctan \left( {\frac{{{G_t}\left( {x,y,t} \right)}}{{{G_x}\left( {x,y,t} \right)}}} \right)\\ {\theta _{yt}}\left( {x,y} \right) = \arctan \left( {\frac{{{G_t}\left( {x,y,t} \right)}}{{{G_y}\left( {x,y,t} \right)}}} \right) \end{array} \right. $ (5)

式中,$ G_{xt}$$ G_{yt}$分别是3个平面的梯度幅值,$ \mathit{\theta }_{xy}$, $ \mathit{\theta }_{xt}$$ \mathit{\theta }_{yt}$分别代表3个平面的梯度方向, $ G_x$, $ G_y$$ G_t$分别表示3个方向的梯度。图像序列的梯度方向直方图特征计算过程和LBP-TOP特征计算过程类似,求取每个像素点在3个正交平面的直方图, 最后级联得到。

当要比较的动态特征具有不同的空间和时间尺寸时,必须对直方图向量$ \mathit{\boldsymbol{H}}$进行归一化以获得一致的描述:本文采用$ {\rm L}_2$范式进行归一化,即

$ \mathit{\boldsymbol{h}} = \frac{\mathit{\boldsymbol{H}}}{{\sqrt {\left\| \mathit{\boldsymbol{H}} \right\|_2^2 + {\varepsilon ^2}} }} $ (6)

式中,$ \mathit{\boldsymbol{h}}$为归一化后的直方图向量,$ \mathit{\varepsilon }$是用以防止除数为0的微小常量,本文取$ \mathit{\varepsilon }$ =0.001。

1.2 BVP生理信号特征提取

随着心脏周期性地跳动,人脸部的血容量也在周期性地变化,由于血液和其周围组织相比吸收光线的能力更强,因此随着血容量的不同其反射光在发生着相应的变化,造成脸部的颜色也在随之发生变化,即形成了BVP生理信号。由于BVP信号的变化细微,且在获取的过程中融入不少噪声,因此本文在提取BVP信号之前首先对视频序列进行预处理,包括放大和去噪,然后再对处理后视频序列进行BVP情感特征提取。

1.2.1 BVP信号提取

信号放大的思想是放大视频中颜色的变化,由于RGB颜色空间无法将色度信息和亮度信息分离,而信号的变化主要体现在色度信息中,因此本文采用可以把图像的亮度信息和色度信息分离的YIQ彩色空间。其中Y通道代表图像的亮度,I和Q分别表示由橙色到青色和由紫色到黄绿色的颜色变化,包含图像的色度信息。从RGB转换到YIQ的转换公式为

$ \left\{ \begin{array}{l} Y = 0.299R + 0.587G + 0.114B\\ I = 0.596R - 0.275G - 0.312B\\ Q = 0.212R - 0.523G + 0.311B \end{array} \right. $ (7)

视频颜色放大主要是结合空间和时间处理方式来放大视频中颜色的微小变化。其过程如图 3所示,首先对输入的视频进行颜色空间变换,然后采用高斯金字塔将视频分解成不同的空间频带,接着在时间域内对金字塔顶层的每个像素进行时域理想带通滤波(频率范围为[0, 4]Hz,对应[0, 240]的脉冲频率)。完成滤波操作后,本文利用放大因子$ \mathit{\mu }$ ($ \mathit{\mu }$取经验值100)对滤波后的视频进行放大,再把放大后的视频序列进行重构并与视频原图像合并,得到预处理后的人脸视频序列。

图 3 视频图像序列颜色放大过程示意图
Fig. 3 The process of video image sequence color enlargement

由于血液对绿光的吸收能力较强,因此绿色光的变化更能真实反映血容量的变化,而在YIQ空间中,绿色信息包含在Q通道内,因此,本文对预处理后的视频序列计算每幅图像Q通道的像素均值,即得到干净的BVP信号,图 4为BVP信号示意图。

图 4 BVP信号
Fig. 4 BVP signal

经过视频颜色放大算法后得到的BVP信号,仅是增加了幅值而并没有改变信号的频率特性,且每个信号都设置相同的放大因子,因此放大过程并不会影响BVP信号的情感特征提取。

1.2.2 BVP信号特征提取

本文对BVP生理信号提取多个特征,包括时域[10]和频域[11]等。令$ \mathit{\boldsymbol{Z}}$代表着一个BVP信号$ \mathit{\boldsymbol{Z}}\rm{=}\left[{{\mathit{z}}_{\rm{1}}}\rm{, }{{\mathit{z}}_{\rm{2}}}\rm{, }{{\mathit{z}}_{\rm{3}}}\rm{, }\cdots \rm{, }{{\mathit{z}}_{\mathit{N}}} \right]$$ N$代表视频帧的长度,首先在时间序列上对该信号提取下列能够反映BVP信号变化规律的统计学特征,用来表征血管的收缩情况,提供有关交感神经的活动信息,包括均值、标准差、一阶差分信号的绝对值均值、二阶差分信号的绝对值均值,以及归一化差分信号的绝对值均值。具体计算公式为

$ {\mu _z} = \frac{1}{N}\sum\limits_{i = 1}^N {{z_i}} $ (8)

$ {\sigma _z} = \sqrt {\frac{1}{N}\sum\limits_{i = 1}^N {{{\left( {{z_i} - {\mu _z}} \right)}^2}} } $ (9)

$ {\delta _z} = \frac{1}{{N - 1}}\sum\limits_{i = 1}^{N - 1} {\left| {{z_{i + 1}} - {z_i}} \right|} $ (10)

$ {\zeta _z} = \frac{{{\sigma _z}}}{{{\delta _z}}} $ (11)

$ {\gamma _z} = \frac{1}{{N - 2}}\sum\limits_{i = 1}^{N - 2} {\left| {{z_{i + 2}} - {z_i}} \right|} $ (12)

$ {\xi _z} = \frac{{{\gamma _z}}}{{{\delta _z}}} $ (13)

为了获得BVP信号的子带频谱,将原信号进行傅里叶变换,把0~4 Hz等分成5个不重叠的子带,计算每个子带的能量均值和频谱熵,并求取在0.8~2 Hz范围内功率谱的最大幅值对应的频率F0,频谱熵的计算公式为

$ {H_{sub}} = - \sum\limits_{i = 1}^N {{f_i} \cdot {{\log }_2}\left( {{f_i}} \right)} $ (14)

式中,$ f_i$是频谱的第$ i$个频率分量的能量$ F_i$的归一化,具体公式为

$ {f_i} = \frac{{{F_i}}}{{\sum\limits_{i = 1}^N {{F_i}} }};\;\;\;\;i = 1, \cdots ,N $ (15)

再把5个子频带分成两份,前两个子带频谱看成是低频带LF,后3个看成是高频带HF,分别求取低频和高频的能量比值和熵比值。

心率变化(HRV)指连续心跳之间的时间间隔,通过计算BVP信号连续峰值之间的差值来得到,通常被用于区分积极和消极情绪。本文将HRV在时间序列上构成的信号称为G信号。类似于BVP信号,对G信号分别求取均值、标准差等统计学特征。记录G信号相邻点之间的差值大于50 ms的个数,并求取它与BVP信号总的峰值个数的比值,然后将其作为衡量情感变化的生理信号特征之一。

本文基于BVP信号得到的情感特征共有32个,由于这些特征可能会掺杂着部分冗余,而这些冗余特征不仅会增加程序运行的时间成本还可能会降低识别精度,影响算法的整体性能,故本文采用顺序后向选择(SBS)算法[11]选取最优的情感相关特征,表 1给出了SBS算法的结果。

表 1 选用的情感特征
Table 1 The selected emotional featuress

下载CSV
特征 描述
Y_diff_1 BVP信号一阶差分标准差
Y_power_ratio 低频高频能量比
Y_entroy_ratio 低频高频熵比值
Y_entroy_mean BVP信号熵均值
Y_power_mean BVP信号能量均值
F0 0.8-2HZ功率谱密度峰值对应频率
G_mean G信号均值
G_std G信号标准差
G_diff_1 G信号的一阶差分标准差
G_diff_2 G信号的二阶差分标准差
NN_50 G信号相邻点之间的差值大于50ms个数
NN_ratio NN_50与BVP信号峰值个数的比值

2 融合表情和BVP生理信号的双模态情感识别方法

由于模糊积分不需要先验知识为基础,且不要求各分类器证据完全独立,放宽了多分类器融合时的限制条件,成为目前常用的一种决策层融合方法。模糊积分的关键是模糊密度的确定,模糊密度刻画分类器在融合过程中的可靠性,采用文献[17]的方法,利用训练样本先验静态信息结合各传感器判决包含的动态信息对模糊密度进行自适应动态赋值。本文的双模态情感识别系统流程如图 5所示。

图 5 双模态情感识别系统流程图
Fig. 5 The flow chart of dual-modality emotion recognition

本文方法具体步骤如下:

输入:待测样本$ X$

输出:待测样本$ X$的情感类别。

1) 对待测视频逐帧进行人脸检测和归一化;

2) 采用$ k$均值聚类的方法,对人脸视频进行聚类,用$ k$幅人脸图像来代替整个视频;

3) 将聚类得到的每幅图像等分成互不重叠的矩形子块。从前往后依次选取相邻的3幅图像,依次求取每个子块的LBP-TOP特征和HOG-TOP特征,然后分别将每个子块的LBP-TOP特征和HOG-TOP特征进行级联,最后将级联后LBP-TOP特征和HOG-TOP特征串联得到最终的表情特征;

4) 按照1.2节的方法对人脸视频进行放大和去噪,得到预处理后的视频图像,然后提取BVP信号,并对该信号提取情感特征;

5) 按照步骤1)—步骤4),处理训练库中的所有视频,获得训练样本集的表情和BVP生理信号特征;

6) 分别将训练样本提取到的表情和BVP生理信号特征送入BP神经网络,训练BP分类器;

7) 利用训练好的BP分类器得到待测视频属于不同情感类别的概率值;

8) 利用模糊积分将两种不同模态的决策信息进行融合,得到最终的分类结果。

均值聚类算法的时间复杂度为$ {\rm O}(k\times n_1\times m)$,其中$ k$为最终聚类的数目,$ n_1$为初始数据对象个数,$ m$为迭代次数。表情特征计算过程的时间复杂约为$ {\rm O}(k\times n_2\times n_3)$,其中$ k$为均值聚类算法中的最终聚类数目,也即是视频帧数,$ n_2$为分块数,$ n_3$为每块像素点数。视频颜色放大算法的时间复杂度约为$ {\rm O}(n_4\times n_5)$,其中$ n_4$为每幅图像的像素点数,$ n_5$为视频帧数。BP分类器分类过程的时间复杂度约为$ {\rm O}(n_6^2)$,这里忽略分类器的训练时间复杂度,且分类器的隐含层数为1。本文模糊积分融合过程的时间复杂度为$ {\rm O}(n_7)$。其他过程忽略不计,总的时间复杂度约为${\rm O}(k\times n_1\times m+ k\times n_2\times n_3+ n_4\times n_5+n_6^2+n_7)$

3 实验与分析

3.1 实验数据库

考虑到目前常用的表情视频数据库CK+和MMI视频较短,不满足提取BVP信号的要求,因此本文采用实验室自建库来验证所提方法的有效性。

电影视频是一种融合声音和图片两个通道信息的诱发素材,能够唤起被测试者较强的情绪生理反应,因此本实验采用电影视频作为情感诱发素材。由于个体之间存在差异性,不同参与者对相同视频表现出的情感程度不同,因此本实验为每种情感的诱发准备了多个视频素材,让每位参与者自己决定所使用的素材。在实验过程中参与者的自我报告非常重要,故在实验过程中,要求每位参与者每个视频观看两次,第一次要求参与者认真观看并录制视频,第二次将素材和录制的视频同时播放给参与者观看,帮助参与者回忆并确定出情感比较强烈的时间段,然后从中剪切出满足要求的时间段。每段视频中只包含有一种情感,视频一般是从情绪微弱到情绪丰富再到情绪微弱。实验数据采集流程图如图 6所示。

图 6 实验数据采集流程图
Fig. 6 The flow chart of experimental data acquisition

视频拍摄是在自然室内环境下的笔记本电脑上完成,采用AMCap软件和罗技c525摄像头完成。每段视频长度为10 s,以30帧/s采集,统一保存成640×480像素分辨率,RGB彩色空间和AVI视频格式。拍试者与摄像头之间的水平距离约为0.5 m,视频拍摄环境如图 7所示。

图 7 视频拍摄环境示意图
Fig. 7 Video capture environment

本文采集的数据库共有10个人,参与者的年龄在17—27岁,其中有3名男性和7名女性,视频数据库总共包括4种情感:高兴、恐惧、悲伤、愤怒,每人每种情感包含6个视频,部分图片如图 8所示。

图 8 自建库部分表情图像
Fig. 8 Partial expression images of self-built dataset

3.2 实验结果与分析

实验是在Window 10系统下(CPU 3.60 GHz内存12 GB),使用MATLAB 2012a实现。实验时,从每人每种情感视频中随机选取4个做训练,2个做测试,共有160个训练样本和80个测试样本。为了增加实验的可信度,每组实验进行五次交叉验证,最终结果取平均值。

实验1  表情单模态情感识别时,分块数对识别率的影响。在利用LBP-TOP和HOG-TOP算法对表情图像进行特征描述时,仅利用图像整体获取到的特征可能对图像的细节表现不够充分,因此本文采用对图像均匀分块的形式获取纹理和形状特征。由于分块数的多少会直接影响特征的维数,分块数越多,特征维数越高,运算的时间复杂度也越大;分块数过少,得到的特征不能充分描述图像的纹理和形状信息。因此本文在自建库上进行分块数实验,旨在寻找一个最合适的分块数。实验结果如图 9所示,从图 9中可以看出,随着分块数的增多识别率逐渐增加,当分块数为6×6时,识别率达到最高,当分块数超过6×6后,识别率开始逐渐下降。对于LBP-TOP和HOG-TOP特征描述算法来说,在一定范围内, 分块数越多,描述的纹理和形状信息越丰富,因此得到的识别性能越好。随着分块数的增加,不同子块内的像素点的个数在慢慢减少,此时,算子的特征描述能力也在慢慢减弱,因此会出现识别性能先上升后下降的趋势。

图 9 分块数与识别率关系图
Fig. 9 Relationship between the number of blocks and the recognition rate

实验2  均值聚类数$ k$对表情特征识别性能的影响。本文采用$ k$均值聚类的方法将一段视频聚类成$ k$帧,由于$ k$值会直接影响算法的识别性能,为了寻找合适的$ k$值,本文做了多组实验,其结果如图 10所示。由图 10可以看出,起初由于帧数不足导致提取的表情特征不够充分,识别率比较低。随着帧数的增多识别率逐渐增加,当帧数增加到一定值时,识别率开始趋于平缓。过量的帧数会造成信息的冗余度增加,且时间复杂度也会相应增加。本文从识别精度和运行效率两方面考虑,取$ k$=10。表 2给出在分块数为6×6时,帧集合$ k$=10时的表情单模态实验结果。

图 10 帧集合数$ k$与识别率关系图
Fig. 10 Relationship between frame number and recognition rate

表 2 表情单模态情感识别实验结果
Table 2 The experimental results on expression mono-modality

下载CSV
类别 测试样本数 平均正确识别数 平均识别率 标准差
高兴 20 18 90 0.031 6
恐惧 20 15.2 76 0.037 4
悲伤 20 16.6 83 0.024 6
生气 20 14.2 71 0.037 4
总计 80 64 80 0.007 9

实验3  金字塔分解层数对BVP生理信号识别性能的影响。当对图像进行高斯金字塔分解时,由于金字塔顶层包含更多的是图像轮廓信息,底层则主要描述图像细节信息,而BVP变化信息位于金字塔的中间层,因此需要对视频每帧图像进行指定层数的高斯分解,此时分解层数的多少将会对生理信号的识别精度造成一定的影响。图 11为分解层数与BVP生理信号识别性能间的关系示意图。由图 11可以看出,当分解层数取4时,取得识别性能最佳。分解层数过多或过少都会造成得到的BVP变化信息不充分,无法准确放大血液容积变化,从而导致识别精度不佳。表 3给出了分解层数取4时,BVP生理信号单模态情感识别结果。

图 11 分解层数与识别率关系图
Fig. 11 The relationship between the number of layers and the recognition rate

表 3 BVP生理信号单模态情感识别实验结果
Table 3 The experimental results on BVP signal mono-modality

下载CSV
类别 测试样本数 平均正确识别数 平均识别率 标准差
高兴 20 14.6 73 0.024 5
恐惧 20 12.8 64 0.020 0
悲伤 20 10.6 53 0.024 5
生气 20 13 65 0.031 6
总计 80 51 63.75 0.013 7

实验4  融合前后,不同表情特征的识别性能对比。为了验证本文表情特征融合的有效性,将VLBP和融合前后不同算法得到的识别性能进行对比,如表 4所示。由表 4可以看出,融合前后不同算法得到的识别性能均高于VLBP。HOG-TOP和LBP-TOP算法融合后的识别率相比于融合前都有所提高,但在识别时间上有所增加。在适当的范围内,牺牲时间效率来换取识别率是可行的,实验结果验证了本文表情特征融合算法的有效性。

表 4 基于表情的不同特征提取方法的识别性能对比
Table 4 Comparison of recognition performance of different feature extraction methods based on expression

下载CSV
特征 平均识别率/% 每帧平均识别时间/ms
VLBP 73.25 391.09
LBP-TOP 76.75 197.48
HOG-TOP 77.5 98.03
LBP-TOP+HOG-TOP 80 235.11

实验5  不同融合算法的识别率对比。表 5给出其他融合算法和本文融合算法的识别率对比。本文采用模糊积分将两种不同的模态进行决策层融合,相比D-S证据融合和最大值规则,考虑了不同分类器在融合中的可靠程度,减少了不可靠决策信息对融合决策的影响,最终取得了较高的识别率。由表 2表 3可知,表情和BVP生理信号单模态的识别率分别为80%和63.75%,在本实验中,利用模糊积分融合后的识别精度达到83.33%,进一步说明了融合方法的有效性。

表 5 不同融合方法的识别率对比
Table 5 Comparison of recognition rates of different fusion methods

下载CSV
融合方法 平均识别率
D-S证据 0.71
最大值规则 0.80
模糊积分 0.832 5

实验6  不同情感识别算法的识别率对比。表 6给出了本文方法与文献[5]和文献[7]方法在实验室自建库上的识别率和平均时间对比。

表 6 本文方法与其他方法的识别率对比
Table 6 Recognition rate comparison between other methods and our method

下载CSV
方法 平均识别率 每帧平均识别时间/ms
Fan[7] 0.807 5 247
Zhao[5] 0.812 5 298
本文 0.832 5 326

4 结论

本文提出一种基于表情和BVP生理信号的双模态视频情感识别方法,即分别从面部特征和生理信号两个方面对视频中包含的情感进行表征和判别。融合后得到的特征一方面包含了直接观测的视觉信息,另一方面又挖掘了情感识别中潜在的真实情感,有效地降低了误判的可能性。此外,相比于传统的生理信号检测,本文提出的利用BVP生理信号进行情感检测,无需与人接触,只需一个普通的网络摄像头即可完成,在情感识别上,更具便捷性且更有利于推广。

本文算法融合了多种特征,它们分别从不同角度对视频序列中的关键帧进行情感表达,应用到实际场景中,可能会存在特征训练时间复杂度较高等问题,可以通过离线训练来解决。此外,由于生理信号情感识别精确度不高会影响双模态融合的最终结果,在后续工作中,将研究如何进一步提高生理信号情感判别的准确性,从而提高视频情感识别的精度。

参考文献

  • [1] Cao J Q, Tong C. Facial expression recognition based on LBP-EHMM[C]//Proceedings of Congress on Image and Signal Processing. Sanya, Hainan, China: IEEE, 2008: 371-375. [DOI:10.1109/cisp.2008.119]
  • [2] Dahmane M, Meunier J. Emotion recognition using dynamic grid-based HoG features[C]//Proceedings of 2011 IEEE International Conference on Automatic Face & Gesture Recognition and Workshops. Santa Barbara, CA, USA: IEEE, 2011: 884-888. [DOI:10.1109/fg.2011.5771368]
  • [3] Gu W F, Xiang C, Venkatesh Y V, et al. Facial expression recognition using radial encoding of local Gabor features and classifier synthesis[J]. Pattern Recognition, 2012, 45(1): 80–91. [DOI:10.1016/j.patcog.2011.05.006]
  • [4] Zhao G Y, Pietikainen M. Dynamic texture recognition using local binary patterns with an application to facial expressions[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(6): 915–928. [DOI:10.1109/tpami.2007.1110]
  • [5] Zhao L, Wang Z C, Zhang G X. Facial expression recognition from video sequences based on spatial-temporal motion local binary pattern and Gabor multiorientation fusion histogram[J]. Mathematical Problems in Engineering, 2017, 2017: #7206041. [DOI:10.1155/2017/7206041]
  • [6] Chen J K, Chen Z H, Chi Z R, et al. Facial expression recognition in video with multiple feature fusion[J]. IEEE Transactions on Affective Computing, 2016. [DOI:10.1109/taffc.2016.2593719]
  • [7] Fan X J, Tjahjadi T. A spatial-temporal framework based on histogram of gradients and optical flow for facial expression recognition in video sequences[J]. Pattern Recognition, 2015, 48(11): 3407–3416. [DOI:10.1016/j.patcog.2015.04.025]
  • [8] Chang C Y, Tsai J S, Wang C J, et al. Emotion recognition with consideration of facial expression and physiological signals[C]//2009 IEEE Symposium on Computational Intelligence in Bioinformatics and Computational Biology. Nashville, TN, USA: IEEE, 2009: 278-283. [DOI:10.1109/cibcb.2009.4925739]
  • [9] Kortelainen J, Tiinanen S, Huang X H, et al. Multimodal emotion recognition by combining physiological signals and facial expressions: a preliminary study[C]//Proceedings of 2012 Annual International Conference of the IEEE Engineering in Medicine and Biology Society. San Diego, CA, USA: IEEE, 2012: 5238-5241. [DOI:10.1109/embc.2012.6347175]
  • [10] Maaoui C, Pruski A. A comparative study of SVM kernel applied to emotion recognition from physiological signals[C]//Proceedings of the 5th International Multi-Conference on Systems, Signals and Devices. Amman, Jordan: IEEE, 2008: 1-6. [DOI:10.1109/ssd.2008.4632891]
  • [11] Kim J, André E. Emotion recognition based on physiological changes in music listening[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(12): 2067–2083. [DOI:10.1109/tpami.2008.26]
  • [12] Wang B. A study of bimodal emotion recognition based on facial expression and biological signals[D]. Nanjing: Southeast University, 2014. [王蓓. 基于面部表情和生理信号的双模态情感识别研究[D]. 南京: 东南大学, 2014.] http://www.wanfangdata.com.cn/details/detail.do?_type=degree&id=Y2706490
  • [13] Osman A, Turcot J, El Kaliouby R. Supervised learning approach to remote heart rate estimation from facial videos[C]//Proceedings of the 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Ljubljana, Slovenia: IEEE, 2015: 1-6. [DOI:10.1109/fg.2015.7163150]
  • [14] Poh M Z, Mcduff D J, Picard R W. Advancements in noncontact, multiparameter physiological measurements using a webcam[J]. IEEE Transactions on Biomedical Engineering, 2011, 58(1): 7–11. [DOI:10.1109/tbme.2010.2086456]
  • [15] Monkaresi H, Calvo R A, Yan H. A machine learning approach to improve contactless heart rate monitoring using a webcam[J]. IEEE Journal of Biomedical and Health Informatics, 2014, 18(4): 1153–1160. [DOI:10.1109/jbhi.2013.2291900]
  • [16] Wu H Y, Rubinstein M, Shih E, et al. Eulerian video magnification for revealing subtle changes in the world[J]. ACM Transactions on Graphics, 2012, 31(4): #65. [DOI:10.1145/2185520.2185561]
  • [17] Fu Y W, Li X, Zhuang Z W. A decision level fusion algorithm for target recognition with fuzzy densities determined adaptively[J]. Acta Electronica Sinica, 2004, 32(9): 1433–1435. [付耀文, 黎湘, 庄钊文. 一种自适应模糊密度赋值的决策层融合目标识别算法[J]. 电子学报, 2004, 32(9): 1433–1435. ] [DOI:10.3321/j.issn:0372-2112.2004.09.006]