Print

发布时间: 2018-08-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170454
2018 | Volume 23 | Number 8




    图像分析和识别    




  <<上一篇 




  下一篇>> 





结合滑动窗口动态时间规整和CNN的视频人脸表情识别
expand article info 胡敏1, 张柯柯1, 王晓华1, 任福继1,2
1. 合肥工业大学计算机与信息学院情感计算与先进智能机器安徽省重点实验室, 合肥 230009;
2. 德岛大学先端技术科学教育部, 德岛 7708502, 日本

摘要

目的 相比静态表情图片,视频序列中蕴含更多的情感信息,视频序列中的具有明显表情的序列在特征提取与识别中具有关键作用,但是视频中同时存在的中性表情也可能会对模型参数的训练造成干扰,影响最终的判别。为了减少这种干扰带来的误差,本文对动态时间规整算法进行改进,提出一种滑动窗口动态时间规整算法(SWDTW)来自动选取视频中表情表现明显的图片序列;同时,为了解决人脸图像受环境光照因素影响较大和传统特征提取过程中存在过多人为干预的问题,构建一种基于深度卷积神经网络的人脸视频序列处理方法。方法 首先截取表情视频中人脸正面帧,用梯度方向直方图特征计算代价矩阵,并在代价矩阵上增加滑动窗口机制,计算所有滑动窗口的平均距离;然后通过平均距离最小值选取全局最优表情序列;最后采用深度卷积神经网络对规整后的人脸表情图像序列进行无监督学习和面部表情分类,统计视频序列图像分类概率和,进而得出视频序列的表情类别。结果 在CK+与MMI数据库上进行5次交叉实验,分别取得了92.54%和74.67%的平均识别率,与随机选取视频序列相比,分别提高了19.86%和22.24%;此外,与目前一些优秀的视频表情识别方法相比,也表现出了优越性。结论 本文提出的SWDTW不仅有效地实现了表情序列的选取,而且增强了卷积神经网络在视频面部表情分类中的鲁棒性,提高了视频人脸表情分析的自适应性度和识别率。

关键词

人脸表情识别; 视频序列选取; 滑动窗口动态时间规整; 特征提取; 卷积神经网络

Video facial expression recognition combined with sliding window dynamic time warping and CNN
expand article info Hu Min1, Zhang Keke1, Wang Xiaohua1, Ren Fuji1,2
1. Anhui Province Key Laboratory of Affective Computing and Advanced Intelligent Machine, School of Computer and Information, Hefei University of Technology, Hefei 230009, China;
2. Graduate School of Advanced Technology & Science, University of Tokushima, Tokushima 7708502, Japan
Supported by: National Natural Science Foundation of China(61672202, 61432004, 61502141)

Abstract

Objective Facial expression is an effective means of communicating inner feelings and intentions. With the rapid development of artificial intelligence, facial expression recognition has become a critical part of human-computer interaction today. Research on human facial expression recognition technology bears important theoretical significance and practical application value. A video sequence contains more emotional information than a static expression image. In recent years, facial expression recognition based on video sequences has gradually become a field of interest in computer vision because expressing emotions is a dynamic process. Information obtained from a single-frame image is not as rich as that from a video sequence, and the accuracy of the former is low compared with the latter. Presently, two mainstream solutions for video facial expression recognition are available. The advantage of motion or movement direction of the face unit to analyze facial expressions is that it does not require selection of video frames. Rather, this method directly extracts the dynamic feature of the video for processing. However, the recognition process is complex, and the recognition rate is low. Another method is basing on the image of facial expressions to identify the expression category. Despite its high recognition rate, this method requires processing the original video sequence in advance. In a complete sequence of expressions, obvious expression plays a key role in feature extraction and recognition, but a video sequence also presents a neutral expression, which may interfere training of the model parameters and affect the output. Therefore, we need to manually select noticeable features of the expression sequence from the original video sequence. However, this operation generates extra work and affects the accuracy of experiment. This study proposes a new modified method of dynamic time warping, which is called the sliding window dynamic time warping (SWDTW), to automatically select the distinct facial expressions in a video sequence. The method can reduce redundant input information and improve adaptability during experiment. Moreover, noise in feature extraction and expression recognition is lessened. In video facial expression recognition, identification results are greatly influenced by environmental lights, and traditional feature extraction requires excessive manual intervention. Therefore, this study proposes a facial expression recognition method based on deep convolution neural network, which is a new type of neural network. This network combines traditional artificial neural network with deep learning technology, and it has achieved considerable success in the area of image processing. Convolution neural network has two main characteristics. The first is its strategy in establishing local connection between neurons, and the second is the sharing of neurons in the same layer. These characteristics reduce the complexity of the model and the number of parameters to be trained. This network structure can achieve several degrees of invariance, such as translation, scale, and deformation. Method First, this method uses an algorithm to intercept front face frame in an expression sequence after a series of normalized processing by indicating the gradient direction histogram feature to calculate cost matrix and adding the sliding window mechanism to the cost matrix. Second, the average distances of all sliding windows are calculated, and the global optimal selection of the expression sequence is obtained by intercepting the sequence corresponding to the minimum distance. Finally, theoretical analysis and experimental verification are performed to determine the structure and parameters of the convolution neural network. In this work, the Alexnet network is selected as a reference because it won in the image classification competition of ImageNet Large Scale Visual Recognition Challenge (ⅡSVRC) in 2012. In view of the feature of facial expression images, this study makes certain adjustments on the original AlexNet network to better meet facial expression recognition and improves the network's utilization of overall information by reducing two convolution layers and adding a pooling layer. During convolution, the ReLU activation function is used to replace the traditional sigmoid and tanh activation function, increase the training speed of the model, and solve gradient disappearance. Dropout technology to address network over-fitting problem is also introduced. Finally, this study uses two fully connected layers to classify facial expression. Regularized facial expression video sequence is used for unsupervised learning and facial expression classification through deep convolution neural network. Images in video sequence undergo classification probability to determine which belong to each expression category, and the final identification results of the video sequence are obtained. Result Five cross-validation experiments are conducted on CK+ and MMI database. This method performs better than the randomly selected video sequence and manual feature extraction methods in terms of recognition and generalization. In CK+ and MMI database, the average recognition accuracies are 92.54% and 74.67%, respectively, which are 19.86% and 22.24% higher than those of randomly selected video sequences. In addition, in comparison with other methods, SWDTW achieves better recognition performance. Conclusion The proposed method exhibits good performance and adaptability during preprocessing, feature extraction, and recognition of facial expression system. SWDTW effectively achieves the selection of expression sequence, and the designed convolution neural network improves the robustness of facial expression classification based on video.

Key words

facial expression recognition; video sequence selection; sliding window dynamic time regularization; feature extraction; convolution neural network

0 引言

面部表情是内心情感和意图非常重要的表达方式之一,在人工智能发展迅猛的今天,面部表情识别已经成为人机交互的重要组成部分,在智能汽车、教育质量监督、医疗应用等方面都有很广阔的应用前景。Ekman等人[1]定义了6种基本情感类别:愤怒、厌恶、恐惧、快乐、悲伤和惊讶,此后,研究者们根据情感类别展开对人脸表情的研究,并逐渐发展为基于静态图片的表情识别和基于动态序列的表情识别。近年来基于视频序列的表情识别逐渐成为计算机视觉领域的热点,究其原因,表情的表达是一个动态的过程,通过视频序列得到的信息会比通过单帧图像得到的信息更丰富,且准确率更高。

表情识别过程主要包括三大模块:预处理,特征提取和分类识别[2]。目前,大部分学者的工作主要集中在后两个模块,即构建出更好的特征提取方法或分类方法。但实际上预处理在表情识别中也是必不可少的一部分,有效的预处理不但能提高识别准确率,还能提高实验的鲁棒性。表情的表达是一个近似“开始—高峰—消除”的过程,在表情识别过程中,如果对整个视频序列都进行处理,表情未开始表达的中性表情序列或表达不充分的微表情序列都会对建模和识别造成不良影响。因此,如何截取一段“有意义”、具有明显特征的视频序列就是一个非常重要的预处理工作。

传统的视频序列截取方法都是基于有监督的人工截取,这项工作十分枯燥和耗时,且识别性能与选取的序列相关。一些学者根据Extended Cohn-Kanade(CK+)数据库中表情表达是由开始到顶峰的特点[3-4]截取序列后几帧进行实验,CK+数据库表情走向如图 1(a)所示。但是这种方法没有考虑到“有意义”的表情在表情序列中的分布位置,在其他库中不具有通用性,如图 1(b)中MMI数据库的表情走向就无法确定峰值帧的位置。邱玉等人[5]提出一种基于区间代数贝叶斯网络的人脸表情建模方法,能获得人脸的空间关系和时序关系,并且不需要手动标记峰值帧,但是该方法的识别率不高。

图 1 不同数据库表情走向
Fig. 1 Direction of different data sets
((a) CK + : start-peak; (b) MMI: start-peak-elimination)

动态时间规整(DTW)是Berndt等人[6]根据动态规划的思想提出的一种衡量两个不同长度的时间序列相似度的方法,通过构造代价矩阵搜索两个时间序列之间的最佳匹配序列。DTW最初在语音信号处理方面得到广泛应用,近年来许多学者将其引用到其他领域并取得很好的效果,赵耀等人[7]将其应用到列车车钩缓冲图像区域矫正,将车钩垂直方向的灰度值统计成1维向量进行匹配矫正。Azam等人[8]将其变形算法——Segmental-DTW应用在语音的关键词分割上,将两段语音波形转化为频谱时间向量进行匹配分割。但是语音相同的关键词由于发音长短不同,所得到的信号量也不相同,不存在能表示完整关键字的明显特征,需要对齐两端进行规整,而表情视频序列中表情的表达具有连续性,截取的视频序列能代表整个表情序列的表情类别,所以本文提出一种滑动窗口动态时间规整算法(SWDTW),在代价矩阵上添加滑动窗口来对待规整序列进行有重叠地裁剪,通过放松端点约束来缩小视频输入序列规模,从而避免截取视频序列中表情不明显的帧。

同样,有效的特征提取与识别算法可以显著地提高识别率。常用的特征提取方法有几何特征提取方法[9]和纹理特征提取方法[10],前者通过测量关键点的相对距离定义特征,这种方法的识别效果很大程度上依赖定位点的准确性;后者通过计算局部灰度变化来描述特征。文献[11]构建一个参数空间对视频序列提取几何特征和纹理特征,融合两种特征后使用多种分类器进行分类识别。Deepak等人[12]首先对面部表情序列提取几何特征,然后使用多级Adaboost和SVM结合的方法对视频序列进行分类。传统图像领域一般采用先特征提取,再分类识别的方式,容易受到光照、位移等外界环境的影响,而深度学习的出现,打破了传统的固有模式,使得特征提取具有光照不变性和位移不变性。Lopes等人[13]利用深度卷积神经网络在CK+数据集上取得了良好的效果。Liu等人[14]利用人脸局部单元在表情变化过程中的形变,构建3D-CNN结构对视频序列提取时空特征,相较于其他手工特征提取方法,在识别率上得到很大提升。所以在本文中,根据人脸表情识别的特点,对现有的神经网络进行改进,使其适合视频人脸表情序列的特征提取与识别。

综上所述,本文提出一种基于SWDTW和卷积神经网络的视频人脸表情识别方法。为减少背景等噪声的影响,首先使用haar-like方法检测并截取视频序列人脸,提取梯度方向直方图(HOG)特征后使用SWDTW方法选取最佳匹配视频序列,对齐视频序列帧数;最后使用深度卷积神经网络对选取的人脸表情视频序列进行自动学习和特征提取,实现人脸表情识别。该方法通过截取表情表达明显序列进行建模与识别,避免了表达不明显序列的干扰;使用截取后的序列训练深度卷积神经网络,通过计算每帧表情概率值进行视频表情分类。与利用所有序列相比,该方法不仅大大地减少了计算量,而且还提升了识别率。

1 动态时间规整及其改进算法

1.1 动态时间规整算法

动态时间规整(DTW)算法通常用于规整语音信号,本文将其应用在视频序列上,寻找两段视频序列匹配的最优全局路径,但是全局路径有一个非常大的问题,就是其过分依赖于端点。

图 2所示, 规整算法必须从网格的左上角开始到右下角结束。这个约束条件的设定是为了确保在规整过程中能够遍历到序列中的每一帧,但是表情表达并不是从第1帧开始,直接使用DTW算法会截取到表情开始的中性表情,所以这样的约束条件反而限制下一步实验的准确性。为此,本文对DTW算法进行改进,提出SWDTW算法,在每个滑动窗口内通过动态时间规整算法搜索多条局部最佳路径,根据局部最佳路径累计代价值和局部路径长度确定每个滑动窗口内的最佳路径及其平均距离,平均距离最小的窗口即为与基准序列最为相似的表情序列在待规整序列中的位置。其中,局部路径长度是两个序列在规整过程中的结点数。

图 2 依赖于端点检测的规整路径
Fig. 2 A regular path dependent on endpoint detection

1.2 滑动窗口动态时间规整(SWDTW)算法

梯度方向直方图(HOG)是一种在计算机视觉中的特征描述子,对图像几何和光学的形变都能保持很好的不变性,可以较好地描述视频序列特征。为此,首先对视频序列提取HOG特征,然后对所提取的视频序列HOG特征采用SWDTW算法自动选取视频表情明显序列。

SWDTW算法的具体过程如下:假定 $X$ 轴方向是一段训练样本序列, $Y$ 轴方向是一段测试样本序列,提取这两段视频序列的HOG特征,分别表示为

$ {\mathit{\boldsymbol{f}}_x} = \left\{ {{x_1}, {x_2}, \cdots , {x_m}} \right\} \in {\boldsymbol{\rm{R}}^m} $ (1)

$ {\mathit{\boldsymbol{f}}_y} = \left\{ {{y_1}, {y_2}, \cdots , {y_m}} \right\} \in {\boldsymbol{\rm{R}}^m} $ (2)

通过计算特征间的欧氏距离构造出一个 $m \times n$ 的代价矩阵$ \mathit{\boldsymbol{C}} = \left[ {c\left( {{x_i}, {y_j}} \right)} \right], i = 1, 2, \cdots , m;j = 1, 2, \cdots , n $。其中

$ c\left( {{x_i}, {y_j}} \right) = {\left\| {{y_j} - {x_i}} \right\|_2} $ (3)

将代价矩阵 $\mathit{\boldsymbol{C}}$ 沿水平方向划分为 $h$ 个宽度为 $W$ 的相互重叠1帧的区域 $a$1, $a$2, …, ${a_h}$ ,然后在每个区域内进行DTW,计算累积代价函数。记为

$ \mathit{\boldsymbol{Q}}\left( {{\mathit{\boldsymbol{f}}_x}, {\mathit{\boldsymbol{f}}_y}} \right) = \sum\limits_{l = 1}^L {c\left( {{x_{i, l}}, {y_{j, l}}} \right)} $ (4)

式中, $L$ 表示规整路径中的结点数。累积代价函数取最小值的路径就是使得训练样本和测试样本相似性最大的一条路径,即是单个区域内的最佳路径。

在进行DTW寻找最佳路径的过程中,在每个方框区域内,还需要满足以下几个约束条件:

1) 边界条件:设$ \mathit{\boldsymbol{w}} $为规整路径,$ \mathit{\boldsymbol{w}}$1=(1, 1)表示起点,$ \mathit{\boldsymbol{w}}$$k$= $(m, n)$ 表示终点。即从左下角开始,到右上角结束。

2) 单调条件:若$ {\mathit{\boldsymbol{w}}_{k - 1}} = \left( {x', y'} \right) $,则$ {\mathit{\boldsymbol{w}}_k} = \left( {x, y} \right) $应满足 $(x-x') \ge 0$ $(y - y') \ge 0$ ,但不同时等于0。即路径只能往前走,否则会出现无意义的循环。

3) 连续条件:若$ {\mathit{\boldsymbol{w}}_{k - 1}} = \left( {x', y'} \right) $, 则 ${\mathit{\boldsymbol{w}}_{k}} = \left( {x, y} \right)$ 应满足 $(x-x')$≤1, $(y-y′)$≤1, 即规整曲线必须是连续的,保证两个序列中的所有帧都被匹配到。

为防止奇异点的产生,本文在每个滑窗区域内使用Sakoe-Chiba窗来约束规整路径的走向, $p$ 为滑动窗口的宽度。Sakoe-Chiba窗的定义为

$ \left( {j - p} \right) \le i \le \left( {j + p} \right) $ (5)

即平行于代价矩阵对角线的两条直线。在本文中, $p$ 值选为2。

在每个滑动窗口使用DTW搜索一条最佳路径,这样,有 $h$ 个滑动窗口,我们就可以搜索出 $h$ 最佳路径,记为 $r$1, $r$2, …, $r$$h$,每个滑动窗口内子路径的平均距离记为$ {\mathit{\boldsymbol{A}}_r} $,使全局$ {\mathit{\boldsymbol{A}}_r} $最小的路径记为$ {\mathit{\boldsymbol{R}}_\min} $$ {\mathit{\boldsymbol{A}}_r} $是由子路径的累计代价$ {\mathit{\boldsymbol{Q}}_r} $和子路径的长度(即子路径的结点数)确定, 即

$ {\mathit{\boldsymbol{A}}_r} = {\mathit{\boldsymbol{Q}}_r}/L $ (6)

${\mathit{\boldsymbol{R}}_{\min }}$ 反映了与训练样本相似度最大的视频序列段在测试样本中的位置。

图 3为两个非特定人的相同表情标签序列之间的距离矩阵,基准序列为人工选取序列中表情表达较明显的部分。3个方框分别表示不同的窗口,与之相对应的在待规整序列上的方框表示滑动窗口内序列在待规整序列中的位置。根据约束条件1)—条件3),在基准序列与待规整序列中搜寻平均距离最小的子路径,根据最小路径分割出最为相似的一组表情片段。图 3中平均距离最小的滑动窗口是最后一个窗口,所以截取的序列是待规整序列中相对应的最后一个窗口区域内的序列。

图 3 SWDTW方法示意图
Fig. 3 Schematic diagram of SWDTW method

2 构建卷积神经网络

卷积神经网络(CNN)是近年发展起来的一种深度学习的架构。由于该网络架构可以直接对输入图像进行处理,避免了复杂的前期预处理操作,因而得到了广泛的研究和应用。CNN的基本结构如图 4所示。

图 4 CNN基本结构
Fig. 4 CNN basic structure

2.1 卷积神经网络结构设计

Hubel等人[15]从生理学角度证明图像识别函数可以由多个函数组合而成,增加神经网络的深度要比广度有效的多。但是这样也会大大增加网络中的参数,严重影响计算速度。

另一方面,过多的参数也可能会导致整个网络过拟合。考虑到当前用于研究人脸表情的数据库都比较小,为了避免增添过多的参数和出现过拟合现象,选用在2012年的ImageNet大规模图像竞赛(IISVRC)的图像分类比赛中获得冠军的Alexnet网络的作为参考。

人脸表情识别的过程与图像分类的过程十分类似,都是构建模型然后进行分类。但是两者也存在一定的区别,首先图像分类中的有效信息位置是不固定的,需要网络具有较大的偏移不变性,而在人脸表情识别中,经过预处理后,有效信息的位置相对固定,偏移量较小;其次,在图像分类中需要分类的数目较多,而人脸表情识别中只有基本的6种或者7种表情分类,最后连接的神经元数目也不相同。为此,针对人脸表情图像的特性,本文在原有的AlexNet网络进行调整,通过减少两个卷积层并添加一个池化层,来提高网络对整体信息的利用率。调整后的网络模型如图 5所示,该模型由3个卷积层(C1、C2、C3)、3个池化层(S1、S2、S3)、2个局部归一化层(L1、L2)、2个全连接层(F9、F10)和1个softmax层组成,其中S1、S2采用的是Max-pooling,S3采用的是Avg-pooling。除此以外,在全连接层使用Dropout提高网络的泛化性。

图 5 表情识别网络结构示意图
Fig. 5 Schematic diagram of expression network structure

2.2 激活函数的选取

激活函数是增加神经网络非线性的主要手段,它要求处处可导,选择合适的激活函数能显著提高网络的性能。修正线性单元激活函数($ReLU$)是非饱和函数,在输出上不被限制在区间[-1, 1]之间,其定义为

$ \mathit{ReLU}\left( \mathit{\boldsymbol{x}} \right) = \max \left( {0, \mathit{\boldsymbol{x}}} \right) $ (7)

相对于传统的sigmod和tanh函数,如图 6所示, ${\rm{ReLU}}$ 求导简单很多,学习优化快,且速度远远大于另两种,所以本文统一采用 ${\rm{ReLU}}$ 激活函数。

图 6 3种激活函数的比较
Fig. 6 Comparison of three activation functions

2.3 初始化

Krizhevsky等人[16]在ILSVRC-2012中抛弃传统的均匀分布而采用高斯分布对权值进行初始化并获得了冠军,证明了使用高斯分布对权值进行初始化在深度卷积网络中的合理性。所以本文的权值初始化和偏置初始化均采用Krizhevsky等人[16]的初始化方案。深度卷积网络模型的动量momentum为0.9,学习率为常数0.001。

2.4 softmax层及分类结果

将每种表情视为一种模式,表情识别即是对未知的表情图像进行模式匹配与识别,表情的类别数即代表着识别模式的个数。在softmax层,神经元的数目随着数据集的变化而自动变化。MMI库将视频表情划分为6种基本情感类型,故softmax层设置6个神经元,每个神经元对给定样本输出一个概率值,该值在0到1之间,代表了输入样本属于该类别的概率,得到每帧图片的表情概率向量(高兴、惊讶、愤怒、悲伤、恐惧、厌恶),统计每个序列中所有选取帧的表情概率的平均值,所有平均值中的最大值所对应的类别即为该序列最终识别结果。

3 实验及结果分析

为了验证本文视频序列选取方法的有效性,在实验过程中,通过随机挑选和手工选取视频序列两种方法来进行对比,在实验的最后,也将本文方法与其他表情识别方法进行对比,进一步验证本文所使用的深度卷积神经网络的有效性。

在CNN训练过程中,为了减弱神经元节点之间的联合适应性,并且减少参数的数目和增强模型泛华能力,选用dropout方法在每次训练过程中随机选择部分神经元,将它的权重置为0。经过实验交叉验证得出,当隐含节点的dropout率等于0.5时,随机生出的网络结构最多,效果最好。

3.1 数据集的预处理及扩展

综合考虑深度学习的深度以及可以捕捉到的特征信息量,同时也为了去除周围环境、姿势等对识别的影响,实验时将截取到的人脸关键区域(只包含人脸前额和五官的图像)设置为256×256像素大小。

为了解决训练样本不足的问题,本文对已有的标准数据集进行扩展,采用对输入的256×256像素的图像按像素平移裁剪多个227×227像素大小的图像,变换后的图像和原图像仅相差29个像素,因此原图像的主体部分都还包含在训练集中。通过平移和镜像翻转,极大丰富了训练数据,而且产生的训练具有高度的相关性,可以降低过适应性和网络的复杂度。在测试时,网络通过提取该帧的4个边角和中心,并对其进行镜像翻转,对生成的10幅图像识别的平均值即为softmax层的输出值。

3.2 MMI数据库上实验分析

MMI数据库是由不同性别、不同民族(欧洲、亚洲和南非)且年龄分布在19~62岁的20多个人组成,共209个视频序列,包括生气、厌恶、恐惧、高兴、伤心和惊讶。MMI库情感走向是由中性—情感高峰—中性。在MMI库上采取5次交叉实验方法验证本文算法的有效性,即将数据集分为5份,每次选择4份作为训练集,剩余1份做测试集。

在表情识别的预处理过程中,滑动窗口 $W$ 的大小直接影响后续特征提取与识别,若 $W$ 较小,选取帧数则较少,会造成特征提取不充分,若 $W$ 较大,选取帧数过多,会产生过多中性表情帧影响模型的训练。为了验证 $W$ 的大小对实验结果所产生的影响,针对随机选取序列帧、人工选取序列帧和SWDTW选取序列帧分别进行实验,当 $W$ 大小为12~30时,实验结果如图 7所示。

图 7 $W$大小与MMI上平均识别率关系图
Fig. 7 Relation between $W$ size and average recognition rate on MMI

图 7中可以看出,随着帧数的增加平均识别率也在不断的增加,当 $W$ 取20时,3种帧选取方法所取得的实验效果都达到最好。再随着帧数的增加,识别率趋于平缓而后下降,且随着 $W$ 的增加,下降幅度逐渐增加。识别率下降的原因是由于增加的帧数特征表现不明显,反而降低了模型的精度。

MMI的混淆矩阵如图 8所示,在MMI数据集上,识别率最高的是高兴,达到了94%的准确率,观察数据集可知,高兴的样本量在整个数据集中偏多,并且高兴的特征非常明显,与其他特征的混淆程度低。害怕和惊讶的混淆程度高,这是因为害怕和惊讶都有一个张嘴的动作,导致误识别率高,同理,生气和伤心的混淆主要由于这两个表情在表达的过程中,都存在一个皱眉的过程,导致在识别过程中容易被误识别。

图 8 在MMI数据集上的混淆矩阵
Fig. 8 Confusion matrix on the MMI

为了进一步验证本文所采用视频序列选取算法和深度卷积网络的有效性,将其与其他文献的方法在MMI库上的识别率进行比较,比较结果如表 1所示。

表 1 不同方法在MMI上的识别率
Table 1 Recognition rate of different methods on MMI

下载CSV
方法 特征 识别率/%
文献[5] IABN 62.50
文献[14] 3DCNN 53.2
文献[14] 3DCNN-DAP 63.4
文献[11] Integrated Approach 71.57
文献[17] ITBN 59.7
本文 随机选取+CNN 52.43
人工选取+CNN 75.17
SWDTW+CNN 74.67

文献[5]通过人脸运动单元提取动态特征,文献[11]直接提取视频序列的显著信息,使用多个分类器进行识别,文献[5, 11]不需要预处理选取峰值帧,但是识别率较低。文献[14]在MMI数据库上采用20次交叉验证方法,文献[17]识别过程复杂。本文使用3种方法在MMI库上选取特征表达较明显的序列,在卷积神经网络上进行5次交叉验证的平均识别率来验证SWDTW的有效性,从表 1可以看出,随机选取序列的识别率最低,SWDTW选取序列的效果虽然低于人工选取序列,但是识别率优于其他文献方法。

3.3 CK+数据库上实验分析

CK+数据库共123人的593个视频序列,年龄分布18~30岁,但其中只有118个人的327个视频序列有标签,包括生气、蔑视、厌恶、恐惧、高兴、伤心和惊讶7种表情。CK+的情感走向都是由中性逐步到情感高峰。CK+采用和MMI同样的交叉验证方法。

CK+中最短的视频序列为14帧,所以选取帧数取值为5~14。当 $W$ 取值5~14时,本文算法识别性能如图 9所示。CK+库相对于MMI库识别难度较小,取得的识别率较高。当选取帧数为10时,对模型的训练效果最好。

图 9 $W$大小与CK+上平均识别率关系图
Fig. 9 Relation between $W$ size and average recognition rate on CK+

与MMI相比,在CK+数据集上识别率整体偏高,如图 10所示。其中高兴和惊讶的识别率较其他的更好,这一点和MMI比较相近,也是因为这两个表情的特征比较明显。而对于比较容易混淆成高兴的蔑视,非常重要的原因是蔑视样本量少,在特征的学习过程中造成特征提取不充分,容易误识别为高兴。

图 10 在CK+数据集的混淆矩阵
Fig. 10 Confusion matrix on CK +

表 2给出了不同的识别方法在CK+数据库上的平均识别率比较结果,文献[5]考虑运动信息,不需要标记特征峰值帧。文献[18]通过图像帧之间的各特征点位移和多分类器结合确定表情类别,文献[19]采用最优化方法对面部区域进行重建,文献[14, 20]建立AU深度结构,利用先验知识表达表情认知。本文采用SWDTW自动截取特征明显帧,克服了中性表情帧对模型训练的限制,在CK+上达到了92.54%的识别率,优于其他方法。

表 2 不同方法在CK+上的识别率
Table 2 Recognition rate of different methods on CK +

下载CSV
方法 特征 识别率/%
文献[18] high-polygon wireframe 84.40
文献[5] IABN 88.10
文献[19] MSR 91.40
文献[20] AUDN 92.04
文献[14] 3DCNN 85.90
文献[14] 3DCNN-DAP 92.40
本文 随机选取+CNN 72.68
人工选取+CNN 93.40
SWDTW+CNN 92.54

4 结论

表情视频序列中的关键帧截取对情感的判别具有重要意义,本文针对DTW必须首尾对齐才能进行规整的缺点,提出一种新的改进方法——滑动窗口动态时间规整算法(SWDTW),此方法借鉴滑动窗口的思想,通过添加自定义大小的滑动窗口来选取视频序列,能够有效地选取特征明显的序列帧,减少中性冗余特征信息对表情识别的影响。同时,本文提出适合用于表情识别的卷积神经网络,逐层由局部到全局提取特征,从不同卷积核的角度对视频序列进行描述,避免了传统特征的局限性,获得更加全面的特征表达,从而获得较高的识别率。

本文方法与其他方法相比,使用SWDTW进行表情峰值视频序列的选取,能够使得在下一步卷积神经网络中特征学习的更加充分,获得更好的识别率。然而,现有的识别人脸表情的神经网络还有很大的进步空间,例如在比较相似的表情识别上,仍然具有较大的错误率,本文下一步工作会针对这个情况重点考虑,进一步提高识别准确率。

参考文献

  • [1] Ekman P, Friesen W V. Constants across cultures in the face and emotion[J]. Journal of Personality and Social Psychology, 1971, 17(2): 124–129. [DOI:10.1037/h0030377]
  • [2] Sariyanidi E, Gunes H, Cavallaro A. Automatic analysis of facial affect:a survey of registration, representation, and recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(6): 1113–1133. [DOI:10.1109/TPAMI.2014.2366127]
  • [3] Hasani B, Mahoor M H. Facial expression recognition using enhanced deep 3D convolutional neural networks[J]. ArXiv Preprint ArXiv:1705.07871, 2017.
  • [4] He J, Cai J F, Fang L Z, et al. Facial expression recognition based on LBP/VAR and DBN model[J]. Application Research of Computers, 2016, 33(8): 2509–2513. [何俊, 蔡建峰, 房灵芝, 等. 基于LBP/VAR与DBN模型的人脸表情识别[J]. 计算机应用研究, 2016, 33(8): 2509–2513. ] [DOI:10.3969/j.issn.1001-3695.2016.08.060]
  • [5] Qiu Y, Zhao J Y, Wang Y F. Facial expression recognition using temporal relations among facial movements[J]. Acta Electronica Sinica, 2016, 44(6): 1307–1313. [邱玉, 赵杰煜, 汪燕芳. 结合运动时序性的人脸表情识别方法[J]. 电子学报, 2016, 44(6): 1307–1313. ] [DOI:10.3969/j.issn.0372-2112.2016.06.007]
  • [6] Berndt D J, Clifford J. Using dynamic time warping to find patterns in time series[C]//KDD Workshop. Seattle, WA: KDD, 1994: 359-370.
  • [7] Zhao Y, Chen J S. Region correction for train coupler buffer images based on dynamic time warping[J]. Journal of Image and Graphics, 2017, 22(1): 58–65. [赵耀, 陈建胜. 动态时间规整下的列车车钩缓冲图像区域校正[J]. 中国图象图形学报, 2017, 22(1): 58–65. ] [DOI:10.11834/jig.20170107]
  • [8] Azam M, Bouguila N. Unsupervised keyword spotting using bounded generalized Gaussian mixture model with ICA[C]//IEEE Global Conference on Signal and Information Processing. Orlando, FL: IEEE, 2016: 1150-1154. [DOI:10.1109/GlobalSIP.2015.7418378]
  • [9] Saeed A, Al-Hamadi A, Niese R. The effectiveness of using geometrical features for facial expression recognition[C]//Proceedings of 2013 IEEE International Conference on Cybernetics (CYBCONF)., Lausanne, Switzerland: IEEE, 2013: 122-127. [DOI:10.1109/CYBConf.2013.6617455]
  • [10] Li G, Li W H. Face detection under rotation in image plane using principal direction rotation LBP[J]. Acta Electronica Sinica, 2015, 43(1): 198–202. [李根, 李文辉. 主方向旋转LBP特征的平面旋转人脸检测[J]. 电子学报, 2015, 43(1): 198–202. ] [DOI:10.3969/j.issn.0372-2112.2015.01.031]
  • [11] Fang H, Parthaláin N M, Aubrey A J, et al. Facial expression recognition in dynamic sequences:an integrated approach[J]. Pattern Recognition, 2014, 47(3): 1271–1281. [DOI:10.1016/j.patcog.2013.09.023]
  • [12] Ghimire D, Lee J. Geometric feature-based facial expression recognition in image sequences using multi-class adaBoost and support vector machines[J]. Sensors, 2013, 13(6): 7714–7734. [DOI:10.3390/s130607714]
  • [13] Lopes A T, de Aguiar E, Oliveira-Santos T. A facial expression recognition system using convolutional networks[C]//Proceedings of the 28th SIBGRAPI Conference on Graphics, Patterns and Images. Salvador, Brazil: IEEE, 2015: 273-280. [DOI:10.1109/sibgrapi.2015.14]
  • [14] Liu M Y, Li S X, Shan S G, et al. Deeply learning deformable facial action parts model for dynamic expression analysis[C]//Cremers D, Reid I, Saito H, et al. Computer Vision-ACCV 2014. Cham: Springer International Publishing, 2015: 143-157. [DOI:10.1007/978-3-319-16817-3_10]
  • [15] Hubel D H, Wiesel T N, LeVay S. Visual-field representation in layer Ⅳ C of monkey striate cortex[C]//Proceedings of the 4th Annual Meeting, Society for Neuroscience. St. Louis, Mo: Society for Neuroscience, 1974, 10: 264.
  • [16] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems. Lake Tahoe, Nevada: ACM, 2012: 1097-1105.
  • [17] Wang Z H, Wang S F, Ji Q. Capturing complex spatio-temporal relations among facial muscles for facial expression recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE, 2013: 3422-3429. [DOI:10.1109/CVPR.2013.439]
  • [18] Eskil M T, Benli K S. Facial expression recognition based on anatomy[J]. Computer Vision and Image Understanding, 2014, 119: 1–14. [DOI:10.1016/j.cviu.2013.11.002]
  • [19] Ptucha R, Tsagkatakis G, Savakis A. Manifold based Sparse Representation for robust expression recognition without neutral subtraction[C]//IEEE International Conference on Computer Vision Workshops. Barcelona, Spain: IEEE, 2011: 2136-2143.
  • [20] Liu M Y, Li S X, Shan S G, et al. AU-aware Deep Networks for facial expression recognition[C]//Proceedings of the 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Shanghai, China: IEEE, 2013: 1-6. [DOI:10.1109/fg.2013.6553734]