Print

发布时间: 2017-01-25
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.20170105
2017 | Volumn 22 | Number 1




    图像分析和识别    




  <<上一篇 




  下一篇>> 





复合时空特征的双模态情感识别
expand article info 王晓华1, 侯登永1, 胡敏1, 任福继1,2
1. 合肥工业大学计算机与信息学院情感计算与先进智能机器安徽省重点实验室, 合肥 230009;
2. 德岛大学先端技术科学教育部, 日本 德岛 7708502

摘要

目的 针对体积局部二值模式应用到视频帧特征提取上,特征维数大,对光照及噪声鲁棒性差等问题,提出一种新的特征描述算法-时空局部三值模式矩(TSLTPM)。考虑到TSLTPM描述的仅是纹理特征,本文进一步融合3维梯度方向直方图(3DHOG)特征来增强对情感视频的描述。 方法 首先对情感视频进行预处理获得表情和姿态序列;然后对表情和姿态序列分别提取TSLTPM和3DHOG特征,计算测试序列与已标记的情感训练集特征间的最小欧氏距离,并将其作为独立证据来构造基本概率分配;最后使用D-S证据联合规则得到情感识别结果。 结果 在FABO数据库上进行实验,表情和姿态单模态分别取得83.06%和94.78%的平均识别率,在表情上分别比VLBP(体积局部二值模式)、LBP-TOP(三正交平面局部二值模式)、TSLTPM、3DHOG高9.27%、12.89%、1.87%、1.13%;在姿态上分别比VLBP、LBP-TOP、TSLTPM、3DHOG高24.61%、27.55%、1.18%、0.98%。将两种模态进行融合以后平均识别率达到96.86%,说明了融合表情和姿态进行情感识别的有效性。 结论 本文提出的TSLTPM特征将VLBP扩展成时空三值模式,能够有效降低维数,减少光照和噪声对识别的影响,与3DHOG特征形成复合时空特征有效增强了情感视频的分类性能,与典型特征提取算法的对比实验也表明了本文算法的有效性。另外,与其他方法的对比实验也验证了本文融合方法的优越性。

关键词

表情; 姿态; 时空局部三值模式矩; 3维方向梯度直方图; Dempster-Shafer证据理论

Dual-modality emotion recognition based on composite spatio-temporal features
expand article info Wang Xiaohua1, Hou Dengyong1, Hu Min1, Ren Fuji1,2
1. School of Computer and Information of Hefei University of Technology, Anhui Province Key Laboratory of Affective Computing and Advanced Intelligent Machine, Hefei 230009, China;
2. University of Tokushima, Graduate School of Advanced Technology & Science, Tokushima 7708502, Japan
Supported by: National Natural Science Foundation of China (61300119, 61432004)

Abstract

Objective In view of existing algorithms, volume local binary pattern is applied to the feature extraction of video frames. However, problems such as large feature dimension, weak robustness to illumination, and noise exist. This study proposes a new feature description algorithm, which is temporal-spatial local ternary pattern moment. This algorithm introduces three value patterns, and it is extended to the temporal-spatial series to describe the variety of pixel values among adjacent frames. The value of texture feature is represented by the energy values of the three value model matrixes, which are calculated according to the gray-level co-occurrence matrix. Considering that the temporal-spatial local ternary pattern moment only describes the texture feature, it lacks the expression of image edge and direction information. Therefore, it cannot fully describe the characteristics of emotional videos. The feature of 3D histograms of oriented gradients is further fused to enhance the description of the emotion feature. Composite spatio-temporal features are obtained by combining two different features. Method First, the emotional videos are preprocessed, and five frame images are obtained by K mean clustering, which are used as the expression and body posture emotion sequences. Second, TSLTPM and 3DHOG features are extracted from the expression and gesture emotion sequences, and the minimum Euclidean distance of the feature between the test sequence and labeled emotion training set is calculated. The calculated value is used as independent evidence to construct the basic probability assignment function. Finally, according to the rules of D-S evidence theory, the expression recognition result is obtained by fused BPA. Result Experimental results on the bimodal expression and body posture emotion database show that complex spatio-temporal features exhibit good recognition performance. The average recognition rates of 83.06% and 94.78% are obtained in the single model identification of facial expressions and gestures, respectively, compared with other algorithms. The average recognition rate of the single-expression model is 9.27%, 12.89%, 1.87%, and 1.13% higher than those of VLBP, LBP-TOP, TSLTPM, and 3DHOG, respectively. The average recognition rate of the single-gesture model is 24.61%, 27.55%, 1.18%, and 0.98% higher than those of VLBP, LBP-TOP, TSLTPM, and 3DHOG, respectively. The average recognition rate after the fusion of these two models is 96.86%, which is higher than the rate obtained by a single model. This result confirms the effectiveness of emotion recognition under the fusion of expression and gesture. Conclusion The TSLTPM feature proposed in our paper extends the VLBP, which is effective in describing the local features of video images, into the temporal-spatial local ternary pattern. The proposed feature has low dimensionality, and it can enhance the robustness to illumination and noise. The composite spatio-temporal features fused with 3DHOG and TSLTPM can fully describe the effective information of emotional videos, and it enhances the classification performance of such videos. The effectiveness of the proposed algorithm in comparison with other typical feature extraction algorithms is also demonstrated. The proposed algorithm is proven suitable for identifying the emotion of static background videos, and the superiority of the fusion method in this study is verified.

Key words

facial expression; body posture; temporal-spatial local ternary pattern moment; 3D histograms of oriented gradients; Dempster-Shafer evidence theory

0 引言

现如今,计算机视觉和人工智能发展相当迅速,人机交互应运而生,人类迫切希望计算机具有同人类一样的感情,可以理解人类的情感,这就要求将情感维度引入人机交互,使计算机具有情感感知和识别能力。情感的表达可以通过多种方式实现,主要包括面部表情[1]、姿势动作[2]、言语[3]等。其中,面部表情是通过采集人脸面部图像获得,姿势动作是通过手部、头部等运动产生,言语也是情感表达的一个重要渠道。人类通过多种模态与外界进行情感交流,与此同时,外界也通过不同方式获知人类的情感状态。

早期关于情感识别方面的研究大多基于单模态,比如人脸表情识别[4]、姿态情感识别和语音情感识别等[5-8]。文献[2]研究了通过姿势来识别儿童玩游戏时的各种情感状态。体积局部二值模式(VLBP) [9]是一种在LBP算法上扩展的算子,它通过结合时空和外观信息应用于运动特征提取。受其启发,Zhao等人[10]对VLBP算子进行改进,提出VLBP-TOP特征提取方法,并利用最近邻分类器基于图像序列中的面部表情实现情感的判别。VLBP和VLBP-TOP都是LBP的空时扩展形式,其特征向量长度随着邻域点的个数增加而快速增长,同时其忽略了局部区域的对比度信息,而对比度信息可以表征局部灰度值变化的强度。介此,本文提出一种新的特征描述算法-时空局部三值模式矩,其利用三值模式矩阵的能量值来描述每帧图像沿时间轴的灰度值强度变化,特征维数小,对噪声和光照变化表现良好的鲁棒性。

既然人类的情感状态是通过多种方式表达的,那么仅通过单模态进行情感识别就会存在一定的局限性,双模态或者多种模态的情感识别正逐渐成为目前研究的主流趋势。闫静杰等人[11]针对人脸表情和动作姿态开展双模态情感识别,提出一种基于双边稀疏偏最小二乘的情感识别方法,从视频图像中提取空时特征向量,计算复杂度低,但识别率不高。Shan等人[12]首先对表情和姿态分别提取空时特征,然后使用典型相关分析方法将两种特征进行融合,最后使用支持向量机进行分类识别。文献[7]提出采用MHI-HOG和图像的梯度直方图特征,通过时间归一化来描述两种模态的情感识别过程。Gunes和Piccard对表情和姿态的双模态情感识别研究进行了大量探索和研究[13-16],首先提出一个识别框架,然后建立了基于表情和姿态的双模态情感数据库,应用基于视频的隐马尔可夫模型和最大投票顶点帧的方法进行情感识别研究。尽管实验取得了不错的效果,但是实时特征提取处理相当复杂,涉及到光流、边缘、跟踪等处理,在实际应用中无法满足实时性的要求。本文提出的TSLTPM算法在本质上提取的是图像局部纹理变化信息,缺乏对图像边缘和方向信息的表达,3维方向梯度直方图用来描述时空域局部像素的分布,可以有效提取图像边缘和方向信息,弥补单一特征的局限性,与TSLTPM提取的纹理特征形成很好的互补模式。

综上所述,提出一种融合TSLTPM和3DHOG特征的双模态情感识别方法。首先将视频中的面部表情和上身姿态看成由每帧图像沿时间轴堆叠而成的3维时空体。然后分别从图像序列中提取TSLTPM和3DHOG两种特征。在匹配阶段,通过计算测试序列与已标记的情感训练集特征间的最小欧氏距离,将其作为独立证据来构造基本概率分配函数(BPA),使用D-S证据理论合成规则获得情感识别的最终结果。与现有的特征提取方法相比,本文方法可从帧序列中直接提取时空特征,不需要对视频帧时间对齐,可避免视频帧序列持续时间不同所造成的后果。同时在分类识别上,D-S证据理论融合两种模态的有效数据信息,可以克服单一模态信息表达的局限性,得到更为可靠、准确的结果。

1 TSLTPM和3DHOG特征

1.1 体积局部二值模式(VLBP)

对于视频中$t$时刻图像It中像素位置$x$,考虑以其为中心的P邻域窗口及其前后两帧的像素窗口,可以得到像素值向量为

$ \begin{array}{l} \boldsymbol{T} = (g_{_{t - 1}}^c,g_{t - 1}^0, \ldots g_{t - 1}^{P - 1},g_t^0, \ldots ,g_t^{P - 1},\\ \;\;\;\;\;\;\;\;\;\;g_{t + 1}^0,g_{t + 1}^{P - 1}, \ldots g_{t + 1}^c) \end{array} $ (1)

式中,$g$kc($k$=$t$-1,$t$$t$+1)表示$k$时刻图像Ik像素中心像素位置$x$的灰度值;$g$ti(i=0, 1, …, P-1)表示$t$时刻位于$x$邻域的像素灰度值;$g$$t$-1i$g$$t$+1i(i=0, 1, …, P-1)分别表示$t$-1和$t$+1时刻的两帧图像处于位置$x$邻域的像素灰度值。

通过将中心位置的像素值$g$tc作为阈值对周围的像素值进行二值化处理,可以得到像素二值向量

$ \begin{array}{l} \boldsymbol{V} = v(s(g_{t - 1}^c - g_t^c),s(g_{t - 1}^0 - g_t^c), \ldots ,s(g_{t - 1}^{P - 1} - g_t^c),\\ \;\;\;\;\;s(g_t^0 - g_t^c), \ldots ,s(g_t^{P - 1} - g_t^c),s(g_{t + 1}^0 - g_t^c),\\ \;\;\;\;\;\;\;\;\;\;\;s(g_{t + 1}^{P - 1} - g_t^c), \ldots ,s(g_{t + 1}^c - g_t^c)) \end{array} $ (2)

$ s\left( x \right) = \left\{ {\begin{array}{*{20}{l}} 1 &{x \ge 0}\\ 0 &{x < 0} \end{array}} \right. $ (3)

V由3P+2个0/1比特组成,其十进制编码值计算公式为

$ {A_{{\rm{VLBP}}}}\left( {R,P} \right) = \sum\limits_{q = 0}^{3P + 1} {{v_q}{2^q}} $ (4)

图 1表示上述过程在R=1, P=4下建模及其计算过程。对视频帧序列逐帧采样邻域点灰度值,并将其与中间帧的灰度值进行比较并二值化,最后对得到的二进制序列进行十进制编码得到VLBP特征。

图 1 AVLBP(1, 4)的计算流程
Fig. 1 AVLBP(1, 4) calculation process

由VLBP的计算公式可知,仅对于4邻域,图像的特征维数就达到214,且特征维数随邻域个数呈指数增长。同时,VLBP虽然能够较好地反映图像纹理的空间结构特征,但是却忽略了局部区域的对比度信息,且算法本身容易受到光照变化及噪声的影响。介此本文提出一种新的特征描述算法-时空局部三值模式矩,通过自定义阈值,将VLBP的时空二值模式扩展成三值模式,然后计算三值模式矩阵的能量值作为图像的纹理特征值,可以有效地降低特征维数。

1.2 时空局部三值模式矩(TSLTPM)

TSLTPM是对VLBP算子进行改进,在量化阶段,通过自定义阈值ε,增加-1值模式,采用三进值编码模式。同时考虑到相近的三进制序列经十进制编码后数值相差很大,使得相似纹理特征无法落入直方图相邻区域,导致直方图分布过于稀疏,特征分布不集中。借鉴灰度共生矩阵[17]在研究灰度图像纹理空间相关特性的思想,通过计算三值模式矩阵的能量值来作为中心位置像素值的特征值,则能有效地避免直方图过于稀疏的问题。

将式(3)变换为三值编码模式,具体定义为

$ s\prime \left( {x,\varepsilon } \right) = \left\{ {\begin{array}{*{20}{l}} 1 &{x > \varepsilon }\\ 0 &{\left| x \right| \le \varepsilon }\\ { - 1} &{ x < - \varepsilon } \end{array}} \right. $ (5)

TSLTPM增加了-1值模式,通过对视频帧序列逐帧采样邻域点灰度值,并计算其与中间帧的灰度值差值,差值在[-ε, ε]范围内,被量化为0,大于ε被量化为1,小于被量化为-1,三值模式在一定程度上减少了极端像素点对算法的影响,降低了对光照变化的敏感度。

自适应阈值ε的计算步骤如下:

1) 计算中心像素值$g$jc在(R, P)邻域内的对比度值

$ \begin{array}{l} \;\;\;\;\;\;\;\;\Delta g_j^i = g_j^i - g_j^c\\ i = 0,1, \ldots ,P - 1;{\rm{ }}j = {\rm{ }}t - 1,t,t + 1 \end{array} $ (6)

2) 统计中心像素值$g$jc的对比度值,求其均值为

$ \overline {\Delta g} = (\sum\limits_{i = 0}^{p - 1} {\sum\limits_{j = t - 1}^{t + 1} {\Delta g_j^i/3P} } $ (7)

3) 利用各对比度值和均值计算方差为

$ S = \left( {\sum\limits_{i = 0}^{p - 1} {\sum\limits_{j = t - 1}^{t + 1} {{{\left( {\Delta g_j^i - \overline {\Delta g} } \right)}^2}} } } \right)/3P $ (8)

4) 由方差近似估计阈值为

$ \varepsilon = \sqrt S $ (9)

在计算阈值ε的过程中,方差可以有效地表征图像灰度值的对比度变化,方差越大,纹理灰度值变化越大,反之越小。同时,阈值随中心像素值邻域点的变化而变化,对不同样本具有一定的自适应性。在一般情况下,阈值ε受样本变化的影响较小,变动的范围比较有限,具有很强的稳定性。从以上特性可以看出,ε可以有效度量局部灰度值的变化关系。

舍弃前后两帧中心像素值,即$g_{t - 1}^c$$g_{t + 1}^c$,将上述式(2)得到的像素三值向量V表示成一个3×P矩阵

$ \boldsymbol{M} = \left[ {\begin{array}{*{20}{c}} {s(g_{t - 1}^0 - g_t^c)}&{s(g_{t - 1}^1 - g_t^c)}& \cdots &{s(g_{t - 1}^{p - 1} - g_t^c)}\\ {s(g_t^0 - g_t^c)}&{s(g_t^1 - g_t^c)}& \cdots &{s(g_t^{p - 1} - g_t^c)}\\ {s(g_{t + 1}^0 - g_t^c)}&{s(g_{t + 1}^1 - g_t^c)}& \cdots &{s(g_{t + 1}^{p - 1} - g_t^c)} \end{array}} \right] $ (10)

在式(10)中,每一行表示每一帧的三进制序列,每一列表示相邻帧对应位置的三进制序列。灰度共生矩阵的纹理特征量描述符角二阶矩(ASM)能量,是对图像纹理的灰度变化稳定程度的度量,反映了图像灰度分布均匀程度和纹理粗细度。借鉴这一思想,对M求取ASM能量。纵向统计字符跳变次数,即‘-1’→‘-1’、‘-1’→‘0’、‘-1’→‘1’、‘0’→‘-1’、‘0’→‘0’、‘0’→‘1’、‘1’→‘-1’、‘1’→‘0’、‘1’→‘1’的跳变次数,得到M的灰度共生矩阵

$ G\prime = \left\{ {\begin{array}{*{20}{c}} {}&{\begin{array}{*{20}{c}} { - 1}&0&1 \end{array}}\\ {\begin{array}{*{20}{c}} { - 1}\\ 0\\ 1 \end{array}}&{\left[ {\begin{array}{*{20}{c}} {{m_{ - 1, - 1}}}&{{m_{ - 1,0}}}&{{m_{ - 1,1}}}\\ {{m_{0, - 1}}}&{{m_{0,0}}}&{{m_{0,1}}}\\ {{m_{1, - 1}}}&{{m_{1,0}}}&{{m_{1,1}}} \end{array}} \right]} \end{array}} \right\}{\rm{ }} $ (11)

相应的能量表达式变为

$ {E_{{\rm{ASM}}}} = \sum\limits_{i = - 1}^1 {\sum\limits_{j = - 1}^1 {G{{\left( {i,j} \right)}^2}} } $ (12)

在灰度共生矩阵G中,跳变次数大小反应了相邻两帧图像纹理变化的程度。如果其值集中在对角线分布,说明相邻两帧之间纹理未发生变化或发生较大变化,也即相邻两帧之间未产生动作变化或动作幅度较大,此时ASM有较大值;如果其值分布较均匀,说明相邻帧之间纹理发生部分变化,也即相邻帧之间产生小幅动作变化,此时ASM有较小值。ASM值的大小衡量当前纹理变化是否稳定,能够有效描述帧间的运动信息,由此可以有效表征图像的纹理特征。

由以上的计算过程分析得出,VLBP统计直方图的特征长度为23P+2维,而TSLTPM的特征长度则不超过(2P)2维。图 2给出了两者特征向量长度的对比情况,可以看出,TSLTPM相比较于VLBP大大压缩了特征向量的维数。

图 2 特征向量长度与邻域点个数的对应关系
Fig. 2 The corresponding relation the length of feature vectors and the number of neighboring points

1.3 3维梯度方向直方图(3DHOG)

3维梯度方向直方图[18]特征是将2维梯度直方图特征扩展到3维空间域中,加上时间维来描述时空域局部区域的像素分布,计算过程包括梯度计算、直方图计算、梯度特征向量归一化。

1.3.1 梯度计算

图 4,中心像素值点为$xy$$xt$$yt$ 3个正交平面相交点。分别计算像素点在3个平面上的梯度大小$m_{xy}$$m_{xt}$$m_{xy}$$θ_{xt}$$θ_{yt}$

$ \left\{ {\begin{array}{*{20}{c}} {{m_{xy}}\left( {x,y,t} \right) = \sqrt {{g_x}{{\left( {x,y,t} \right)}^2} + {g_y}{{\left( {x,y,t} \right)}^2}} }\\ {{m_{xt}}\left( {x,y,t} \right) = \sqrt {{g_x}{{\left( {x,y,t} \right)}^2} + {g_t}{{\left( {x,y,t} \right)}^2}} }\\ {{m_{yt}}\left( {x,y,t} \right) = \sqrt {{g_y}{{\left( {x,y,t} \right)}^2} + {g_t}{{\left( {x,y,t} \right)}^2}} } \end{array}} \right. $ (13)

$ \left\{ {\begin{array}{*{20}{c}} {{\theta _{xy}}\left( {x,y,t} \right) = {\rm{arctan}}(\frac{{{g_y}\left( {x,y,t} \right)}}{{{g_x}\left( {x,y,t} \right)}})}\\ {{\theta _{xt}}\left( {x,y,t} \right) = {\rm{arctan}}(\frac{{{g_t}\left( {x,y,t} \right)}}{{{g_x}\left( {x,y,t} \right)}})}\\ {{\theta _{yt}}\left( {x,y,t} \right) = {\rm{arctan}}(\frac{{{g_t}\left( {x,y,t} \right)}}{{{g_y}\left( {x,y,t} \right)}})} \end{array}} \right. $ (14)

式中,$g_x$$g_y$$g_t$分别表示$x$, $y$, $t$ 3个方向的梯度分量。

1.3.2 直方图计算

根据$x$, $y$, $t$ 3个方向梯度向量的方向和大小统计直方图。梯度方向$θ_{xy}$$θ_{xt}$$θ_{yt}$的取值范围为[0, 360°],现将[0, 360°]平均划分为$n$个方向($n$=9),由于有$x$, $y$, $t$ 3个方向的梯度向量,所以按照$n$×3个方向量化区间对梯度大小$m_{xy}$$m_{xt}$$m_{yt}$进行投票统计。这样使得每个区域都可以得到3个1维方向梯度向量$\boldsymbol{h}$=[$h_{xy}$, $h_{xt}$, $h_{yt}$],其$\boldsymbol{h_{xy}}$=[$k$1, $k$2, …, kn], $\boldsymbol{h_{xt}}$=[$k$n+1, $k$n+2, …, $k$2n]和$\boldsymbol{h_{yt}}$=[$k$2n+1, $k$2n+2, …, $k$3n],$k_i$θ方向下梯度m的和值。

1.3.3 梯度持续向量归一化

因为不同区域的像素分布比较随机,为了计算方便,统一尺度,所以需要对梯度向量$\boldsymbol{h}$进行归一化。采用L2范式归一化方法为

$ \boldsymbol{f} = \frac{\boldsymbol{h}}{{\sqrt {\left\| \boldsymbol{h} \right\|_2^2 + {\alpha ^2}} }} $ (15)

式中,$\boldsymbol{f}$为归一化后的特征向量;$\boldsymbol{h}$为直接计算得到的特征向量;$α$为微小的常量,以防止除数为0,本文取$α$=0.001。将不同子区域归一化后的特征向量进行级联即得到该区域的3维梯度方向特征。

2 基于复合时空特征和D-S理论的双模态情感识别

2.1 D-S证据理论

D-S证据理论[19]最初由Dempster提出,Shafter对其进行完善。它利用D-S合成规则,将来自不同证据体的信任函数融合成一个新的信任函数以获得更为可靠的决策结果。

假设识别框架U={c1, c2, …, cC},它用来表示判决问题可以识别到的结果集合,再定义了一个集函数m:2U→[0, 1]为U上的基本概率分配函数,且满足

$ \left\{ \begin{array}{l} m\left( \emptyset \right) = 0\\ \sum\limits_{A \subseteq \boldsymbol{U}} {m\left( A \right) = 1} \end{array} \right. $ (16)

式中,∅表示空集;m(A)表示证据对A的信任度,如果m(A) > 0,则称A为证据的焦元,反映证据对A的信任度。设m1, m2U上不同证据的基本概率分配函数,则根据D-S证据理论的合成法则,融合后的基本概率分配函数m=m1m2,可由为

$ \left\{ \begin{array}{l} m\left( \emptyset \right) = 0\\ m\left( \boldsymbol{C} \right) = \sum\limits_{{A_i} \cap {B_j} = C} {\frac{{{m_1}({A_i}){m_2}({B_j})}}{{1 - K}}} ,{\rm{ }}\boldsymbol{C} \ne \emptyset \end{array} \right. $ (17)

式中,K=$\sum\limits_{{\boldsymbol{A}_i} \cap {\boldsymbol{B}_i} = c} {{m_1}} $(Ai)m2(Bj)称为冲突因子,描述两个证据之间的冲突程度。针对本文情感识别框架,将情感的类别表示成识别框架中的焦点元素,即U={高兴、害怕、生气、厌烦、不确定},而证据m1, m2则来自于表情和姿态两种模态。

2.2 基于复合时空特征和D-S理论的双模态情感识别方法

TSLTPM特征和3DHOG特征分别从两种不同角度对情感视频进行描述,在获取到两种不同的特征后,通过构造基本BPA函数,利用D-S融合规则合成两种不同模态的信息,求取待测样本的所属类别。图 3为本文双模态情感识别系统流程图。

图 3 双模态情感识别系统流程图
Fig. 3 The flow chart of dual-modality emotion recognition

图 4(a)为面部表情TSLTPM特征计算过程,首先对时空帧序列中的每一帧进行相同大小分块,然后沿时间轴选取连续3帧,计算每一时空子块的TSLTPM特征,最后级联所有子块的特征即得到TSLTPM总特征。图 4(b)为面部表情3DHOG特征计算过程,与上述相同大小分块,计算每一子块中每一像素点在xy平面、xt平面和yt平面上的3DHOG特征,级联每一子块的3DHOG特征即得到3DHOG总特征。

图 4 面部表情特征计算过程
Fig. 4 Feature calculation process of facial expression ((a) TSLTPM; (b) 3DHOG)

双模态情感识别的具体步骤如下:

输入:待测样本X

输出:待测样本X的情感类别。

1) 情感视频预处理。首先从待测样本X中提取表情序列和姿态序列,然后采用$k$均值聚类的方法,分别对表情序列和姿态序列进行聚类,用$k$幅(本文中$k$=5)图像序列信息来代替整个图像序列信息。

2) 将聚类后的图像序列T=[$t$1, $t$2, …, tk]逐一进行分块处理,划分成互不重叠、大小均匀的局部矩形子块。

3) 以待测样本X的表情图像序列为例,从前往后选取相邻的3帧图像,对每一子块分别提取TSLTPM特征和3DHOG特征,然后将所有子块的TSLTPM特征进行级联,所有子块的3DHOG特征进行级联,最后将级联后的两种特征串联得到待测样本X的表情复合时空特征。待测样本X的姿态图像序列按照表情图像序列同样的方法处理,获得姿态复合时空特征。

4) 按照步骤1)到3),处理训练库中的所有情感视频,获得训练样本的表情和姿态复合时空特征集。

5) 分别计算待测样本的表情和姿态复合时空特征与所有训练样本的表情和姿态复合特征集之间的最小欧氏距离,记di, j为每一类情感的最小欧氏距离,i表示表情或姿态,j是情感的类别。在进行合成规则前,先将所有的di, j进行归一化,即

$ d{\prime _{i,j}} = \frac{{{d_{i,j}}}}{{\sum\limits_{j = 1}^N {{d_{i,j}}} }} $ (18)

6) 将所有归一化后的di, j按升序进行排列,为增大基本概率分配值的区分度,根据曲线的特点,经过多次实验,模拟数据,参数调整,再利用曲线拟合,构造出

$ y = {\rm{exp}}( - 13{\left( {x + 0.06} \right)^2}) + 0.074 $ (19)

利用该式能完成距离到基本概率分配值的映射,有效提高BPA值的区分度。

7) 利用式(17)合成表情和姿态两种模态的判别信息,得到最终的情感类别。

3 实验结果与分析

3.1 实验数据库

为了验证本文方法的有效性,实验采用目前唯一公开的双模态数据库:FABO表情和姿态双模态数据库。由于该数据库本身未完全进行标注,所以本文在实验过程中选择样本数较多且情感类别相对均匀的12个人进行相关实验。所选样本共包括高兴、害怕、生气、厌烦和不确定5类情感,全部已进行标注,其中姿态和表情各有238个样本。实验是在Windows XP系统下(双核CPU2.53 GHz内存2 GB),使用VC6.0+OpenCV1.0实现的。实验中将人脸表情图片帧和上身姿态图片帧分别统一大小为96×96像素和128×96像素。表情图片和姿态图片统一大小后的部分图像如图 5所示。

图 5 表情和姿态图片样本
Fig. 5 Image samples of facial expression and body posture ((a) happy; (b) fear; (c) angry; (d) tired; (e) unsure)

3.2 视频帧集合大小测试

在情感判别的预处理过程中,$k$均值聚类视频帧集合的大小直接影响后续的特征提取和判别。视频帧选择较少,会造成表情和姿态特征提取不充分;若选择较多,则会增加时间复杂度,同时产生过多的冗余信息,直接影响后续的情感识别。当帧集合大小为37时,本文算法的识别性能如图 6所示。

图 6 帧集合大小与平均识别率关系图
Fig. 6 Relationship between frame set size and average recognition rate

图 6可以看出,随着视频帧数的增加,特征信息也相应增多,识别性能呈上升趋势。帧集合大小为5帧时的识别性能呈现较大增幅,明显高于4帧时的识别性能。帧集合大小超过5以后,识别性能虽然也在增加,但幅度明显降低,且此时的运算复杂度也在增高,为了权衡帧集合大小和识别性能之间的“简便性”及“有效性”,本文在$k$均值聚类时选择帧集合大小$k$=5。

3.3 单模态情感识别实验

在将表情和姿态两种模态进行融合判别前,首先对其进行单独的情感识别实验。由于FABO数据库中不同情感类别数大小不均匀,本文在实验中保证测试每种样本类别个数的情况下随机选取测试样本,训练样本库和测试样本数库中5种情感(高兴,害怕,生气,厌烦,不确定)的样本数分别为(26, 13, 46, 6, 44)和(20, 15, 30, 8, 30),表情序列和姿态序列相对应。为了增加实验结果的可信度,每组实验进行3次,最终结果取平均值。

对表情和姿态提取复合特征时,图像的分块数会对识别性能产生一定的影响。图 7给出了分块大小与平均识别率的大小关系。从图 7可以看出,表情取6×6分块,姿态取4×4分块时,识别效果最优。表 1表 2分别给出表情和姿态两种单模态在3次实验下对5种不同情感的识别性能对比,表情和姿态单模态的平均识别率分别为83.06%和94.78%。姿态单模态的识别效果好于表情单模态,究其原因,是因为姿态动作的幅度比较大,纹理变化比较明显,特征表达更加有效,而表情的变化幅度小,纹理变化微小,相比于姿态动作更难识别。另外,厌烦类别因其与生气或者害怕等情感比较类似,容易产生误判别情况,因此在实验时,无论是表情还是姿态单模式,相比于其他情感类别都呈现较低的识别性能。

图 7 分块大小与平均识别率关系图
Fig. 7 Relationship between block size and averagerecognition rate

表 1 表情单模态情感识别的实验结果
Table 1 The experiment results on expression mono-modality

下载CSV
表情 测试样本数 正确识别数 平均识别率/% 标准差
1次 2次 3次
高兴  20 17 16 18 85    0.040 8
害怕  15 12 11 13 80    0.054 4
生气  30 28 27 27 91.11 0.015 7
厌烦   8  6  6  7 79.17 0.058 9
不确定  30 24 22 26 80    0.054 4
总计 103 87 82 91 83.06 0.035 7

表 2 姿态单模态情感识别的实验结果
Table 2 The experiment results on body posture mono-modality

下载CSV
表情 测试样本数 正确识别数 平均识别率/% 标准差
1次 2次 3次
高兴  20 19  20 19 96.67 0.023 6
害怕  15 14  15 14 95.56 0.031 2
生气  30 30  30 27 96.67 0.047 1
厌烦   8  7   8  7 91.67 0.058 9
不确定  30 26  29 29 93.33 0.047 1
总计 103 96 102 96 94.78 0.027 4

为了进一步验证复合特征的有效性,将其分别与融合之前的特征算法和其他论文中的方法进行对比,比较结果如表 3所示。分析表 3数据,可以看出,本文提出的TSLTPM算法在表情和姿态单模态上识别性能优于VLBP算法和VLBP-TOP算法,且显著优于文献[7, 11, 13]中方法。融合后的算法在表情上得到了83.06%的识别率,在姿态上的识别率为94.78%,高于融合之前的TSLTPM和3DHOG方法,验证了复合特征的有效性。

表 3 基于单模态的不同特征提取方法的平均识别率比较
Table 3 Mono-modality average recognition rate comparison ofdifferent feature extraction methods

下载CSV
算法 平均识别率/%
表情 姿态
空时特征[11] 51.69 52.80
MHI-HOG[7] 66.50 66.70
光流法[13] 76.40 89.90
VLBP 73.79 70.17
LBP-TOP[10] 70.17 67.23
TSLTPM 81.19 93.6 
3DHOG 81.93 93.8 
TSLTPM+3DHOG 83.06 94.78

表 4给出了不同算法的平均识别时间比较,在两种单模态上,本文算法识别时间较VLBP有很大幅度降低,但略高于LBP-TOP、TSLTPM和3DHOG算法。在适当的范围增加时间的开销来提高识别率是可行的,因此,实验结果表明了该算法的有效性。

表 4 基于单模态的不同特征提取方法的平均识别时间比较
Table 4 Mono-modality average recognition time comparison of different feature extraction methods

下载CSV
算法 每帧序列平均识别时间/ms
表情 姿态
VLBP 423.15 467.85
LBP-TOP[10] 215.77 226.33
TSLTPM 155.97 166.31
3DHOG 108.66 115.87
TSLTPM+3DHOG 244.22 253.42

3.4 双模态情感识别实验

表 5给出表情和姿态两种单模态利用D-S证据理论进行融合之后的识别率为96.86%,高于表情单模态的83.06%和姿态单模态的94.78%(来自表 3数据),说明了融合表情和姿态进行情感识别的有效性。在情感识别中,表情和姿态对情感识别具有不同的贡献,表情主要表现为人脸面部的情感,而姿态主要表现为人体动作的情感,两种情感表达方式具有相互辅助相互补充的作用,将两种模态相融合,准确率和稳定性得到明显提高。另外,本文利用D-S证据理论,以欧氏距离构造BPA,根据组合规则,融合来自表情和姿态两种模态的识别信息,能够实现较弱分类(单模态)决策对较强分类(双模态)决策的有效支持,从而可以进一步提高识别准确率和可靠性。

表 5 不同融合方法的平均识别率对比
Table 5 Average recognition rate comparison of different fusion methods

下载CSV
融合方法 平均识别率/%
BSPLS[11] 65.22
加和规则[14] 91.10
D-S证据 96.86

表 6为D-S证据理论融合数据的实验结果,选取两类出现误识别的情感数据作为应用举例。分析表 6的数据可以得出:1) 表情和姿态两种单模态融合后的信任度值大于单模态的信任度值,增加了正确目标的可信度,大幅度降低对目标识别的不确定性。2) 对于两种单模态均无法正确识别的情感样本,利用D-S融合后仍能将其准确识别出来,说明了基于D-S证据理论的多模态融合方法增强了系统的识别能力,提高了系统的可靠性和准确性。

表 6 D-S方法的数据融合结果
Table 6 Results of data fusion using the Dempster-Shafer theory of evidence

下载CSV
情感视频 模态 BPA值 识别结果
m(μ1) m(μ2) m(μ3) m(μ4) m(μ5) m(θ)
生气 表情 0.100 2 0.223 0 0.222 0 0.1122 0.182 2 0.166 4 厌烦
姿态 0.121 0 0.142 2 0.260 2 0.140 1 0.175 5 0.179 1 生气
融合 0.182 1 0.170 6 0.251 7 0.128 3 0.189 0 0.092 3 生气
厌烦 表情 0.110 1 0.164 7 0.196 7 0.120 5 0.189 2 0.189 0 生气
姿态 0.121 6 0.152 2 0.178 3 0.226 7 0.206 7 0.125 6 厌烦
融合 0.108 6 0.145 6 0.152 4 0.268 4 0.189 7 0.088 6 厌烦

4 结论

本文提出一种新的特征提取算法-时空局部三值模式矩(TSLTPM),此方法通过自定义阈值,将刻画图像局部特征的有效算子VLBP扩展成时空三值模式,借鉴灰度共生矩阵思想,计算三值模式矩阵的能量值来作为图像的纹理特征值,能够有效地均衡光照变化,减少噪声对识别的影响,同时维数较低,保证了识别的时间复杂度在一个较低的范围内且具有较高的识别性能。同时,本文提出融合TSLTPM和3DHOG的情感识别方法避免了单一特征的局限性,从纹理、图像边缘和方向对视频序列进行描述,获得的特征表达更加全面。在分类识别上,利用D-S证据理论对来自不同模态的特征信息进行融合,并使用曲线拟合来构造BPA函数,能够有效弱化信息的不完整性及错误数据对识别的不良影响,使得系统最终获得较高的识别率。

本文算法是基于视频的情感识别,主要考虑时间和空间的特征信息,计算量不大,具有较高的识别率,适用于静态背景视频情感的识别。然而,人脸表情和上身姿态两种单模态对情感识别的贡献大小是不同的,如何区别对待情感和姿态,将两者情感信息充分融合是下一步所要研究的工作。

参考文献

  • [1] Hu M, Cheng Y H, Wang X H, et al. Facial expression recognition based on asymmetric region local gradient coding[J]. Journal of Image and Graphics , 2015, 20 (10) : 1313–1321. [ 胡敏, 程轶红, 王晓华, 等. 基于非对称局部梯度编码的人脸表情识别[J]. 中国图象图形学报 , 2015, 20 (10) : 1313–1321. DOI:10.11834/jig.20151004 ]
  • [2] De Silva P R, Osano M, Marasinghe A, et al. Towards recognizing emotion with affective dimensions through body gestures[C]//Proceedings of the 7th International Conference on Automatic Face and Gesture Recognition. Southampton:IEEE Computer Society, 2006:269-274.[DOI:10.1109/FGR.2006.106.]
  • [3] Huang C C, Gong W, Fu W L, et al. Research of speech emotion recognition based on DBNs[J]. Journal of Computer Research and Development , 2014, 51 (S1) : 75–80. [ 黄晨晨, 巩微, 伏文龙, 等. 基于深度信念网络的语音情感识别的研究[J]. 计算机研究与发展 , 2014, 51 (S1) : 75–80. ]
  • [4] Zhang W, Zhang Y M, Ma L, et al. Multimodal learning for facial expression recognition[J]. Pattern Recognition , 2015, 48 (10) : 3191–3202. DOI:10.1016/j.patcog.2015.04.012
  • [5] Valstar M F, Jiang B H, Mehu M, et al. The first facial expression recognition and analysis challenge[C]//Proceedings of the 2011 IEEE International Conference on Automatic Face and Gesture Recognition and Workshops. Santa Barbara, CA:IEEE, 2011:921-926.[DOI:10.1109/FG.2011.5771374.]
  • [6] Ou J, Bai X B, Pei Y, et al. Automatic facial expression recognition using gabor filter and expression analysis[C]//Proceedings of the Second International Conference on Computer Modeling and Simulation. Sanya, Hainan:IEEE, 2010:215-218.[DOI:10.1109/ICCMS.2010.45.]
  • [7] Chen S Z, Tian Y L, Liu Q S, et al. Recognizing expressions from face and body gesture by temporal normalized motion and appearance features[J]. Image and Vision Computing , 2013, 31 (2) : 175–185. DOI:10.1016/j.imavis.2012.06.014
  • [8] Ayadi M E, Kamel M S, Karray F. Survey on speech emotion recognition:features, classification schemes, and databases[J]. Pattern Recognition , 2011, 44 (3) : 572–587. DOI:10.1016/j.patcog.2010.09.020
  • [9] Ojala T, Pietikainen M, Maenpaa T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2002, 24 (7) : 971–987. DOI:10.1109/TPAMI.2002.1017623
  • [10] Zhao G Y, Pietikainen M. Dynamic texture recognition using local binary patterns with an application to facial expressions[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2007, 29 (6) : 915–928. DOI:10.1109/TPAMI.2007.1110
  • [11] Yan J J, Zheng W M, Xin M H, et al. Bimodal emotion recognition based on body gesture and facial expression[J]. Journal of Image and Graphics , 2013, 18 (9) : 1101–1106. [ 闫静杰, 郑文明, 辛明海, 等. 表情和姿态的双模态情感识别[J]. 中国图象图形学报 , 2013, 18 (9) : 1101–1106. DOI:10.11834/jig.20130906 ]
  • [12] Shan C F, Gong S G, McOwan P W. Beyond facial expressions:learning human emotion from body gestures[C]//Proceedings of the British Machine Vision Conference 2007. Warwick, UK:University of Warwick, 2007:1-10. [DOI:10.5244/C.21.43].
  • [13] Gunes H, Piccardi M. A bimodal face and body gesture database for automatic analysis of human nonverbal affective behavior[C]//Proceedings of the 18th International Conference on Pattern Recognition. Hong Kong, China:IEEE, 2006:1148-1153. [DOI:10.1109/ICPR.2006.39].
  • [14] Gunes H, Piccardi M. Bi-modal emotion recognition from expressive face and body gestures[J]. Journal of Network and Computer Applications , 2007, 30 (4) : 1334–1345. DOI:10.1016/j.jnca.2006.09.007
  • [15] Gunes H, Piccardi M. Fusing face and body gesture for machine recognition of emotions[C]//Proceedings of the 2005 IEEE International Workshop on Robot and Human Interactive Communication. Roman:IEEE, 2005:306-311. [DOI:10.1109/ROMAN.2005.1513796]
  • [16] Gunes H, Piccardi M. Automatic temporal segment detection and affect recognition from face and body display[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics) , 2009, 39 (1) : 64–84. DOI:10.1109/TSMCB.2008.927269
  • [17] Sang Q B, Li Z F, Wu X J. No-reference blurred image quality assessment based on gray level co-occurrence matrix[J]. PR & AI , 2013, 26 (5) : 492–497. [ 桑庆兵, 李朝锋, 吴小俊. 基于灰度共生矩阵的无参考模糊图像质量评价方法[J]. 模式识别与人工智能 , 2013, 26 (5) : 492–497. DOI:10.3969/j.issn.1003-6059.2013.05.012 ]
  • [18] Qin H B, Zhang Y N, Cai J J. Human action recognition based on composite spatio-temporal features[J]. Journal of Computer-Aided Design & Computer Graphics , 2014, 26 (8) : 1320–1325. [ 秦华标, 张亚宁, 蔡静静. 基于复合时空特征的人体行为识别方法[J]. 计算机辅助设计与图形学学报 , 2014, 26 (8) : 1320–1325. ]
  • [19] Wang X H, Jin C, Ren F J, et al. Research on facial expression recognition based on pyramid Weber local descriptor and the Dempster-Shafer theory of evidence[J]. Journal of Image and Graphics , 2014, 19 (9) : 1297–1305. [ 王晓华, 金超, 任福继, 等. Dempster-Shafer证据融合金字塔韦伯局部特征的表情识别[J]. 中国图象图形学报 , 2014, 19 (9) : 1297–1305. DOI:10.11834/jig.20140906 ]