发布时间: 2020-04-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190331
2020 | Volume 25 | Number 4

ChinaMM 2019会议专栏

关键点深度特征驱动人脸表情识别

王善敏, 帅惠, 刘青山

南京信息工程大学自动化学院, 江苏省大数据分析技术重点实验室, 南京 210044

收稿日期: 2019-07-11; 修回日期: 2019-10-08; 预印本日期: 2019-10-15

基金项目: 国家自然科学基金项目（61825601, 61532009）

第一作者简介: 王善敏, 1994年生, 女, 硕士研究生, 主要研究方向为人脸表情识别。E-mail:smwang@nuist.edu.cn;
帅惠, 男, 硕士, 主要研究方向为计算机视觉和机器学习。E-mail:shuaihui@163.com.

中图法分类号: TP391.41

文献标识码: A

文章编号: 1006-8961(2020)04-0813-11

摘要

目的人脸关键点检测和人脸表情识别两个任务紧密相关。已有对两者结合的工作均是两个任务的直接耦合, 忽略了其内在联系。针对这一问题, 提出了一个多任务的深度框架, 借助关键点特征识别人脸表情。方法参考inception结构设计了一个深度网络, 同时检测关键点并且识别人脸表情, 网络在两个任务的监督下, 更加关注关键点附近的信息, 使得五官周围的特征获得较大响应值。为进一步减小人脸其他区域的噪声对表情识别的影响, 利用检测到的关键点生成一张位置注意图, 进一步增加五官周围特征的权重, 减小人脸边缘区域的特征响应值。复杂表情引起人脸部分区域的形变, 增加了关键点检测的难度, 为缓解这一问题, 引入了中间监督层, 在第1级检测关键点的网络中增加较小权重的表情识别任务, 一方面, 提高复杂表情样本的关键点检测结果, 另一方面, 使得网络提取更多表情相关的特征。结果在3个公开数据集：CK+（Cohn-Kanade dataset）, Oulu（Oulu-CASIA NIR & VIS facial expression database）和MMI（MMI facial expression database）上与经典方法进行比较, 本文方法在CK+数据集上的识别准确率取得了最高值, 在Oulu和MMI数据集上的识别准确率比目前识别率最高的方法分别提升了0.14%和0.54%。结论实验结果表明了引入关键点信息的有效性：多任务的卷积神经网络表情识别准确率高于单任务的传统卷积神经网络。同时, 引入注意力模型也提升了多任务网络中表情的识别率。

关键词

人脸表情识别; 关键点检测; 多任务; 注意力模型; 中间监督

Facial expression recognition based on deep facial landmark features

Wang Shanmin, Shuai Hui, Liu Qingshan

School of Automation, Nanjing University of Information Science and Technology, Jiangsu Key Laboratory of Big Data Analysis Technology, Nanjing 210044, China

Supported by: National Natural Science Foundation of China(61825601, 61532009)

Abstract

Objective Automatic facial expression recognition (FER) aims at designing a model to identify human emotions automatically from facial images. Several methods have been proposed in the past 20 years, and all the previous works can be generally divided into two categories:image-based methods and video-based methods. In this study, we propose a new image-based FER method, guided with facial landmarks. Facial expression is actually an ultimate representation of facial muscle movement, which consists of various facial action units (AUs) distributing among the facial organs. Meanwhile, the purpose of facial landmark detection is to localize the position and shape of face and facial organs. Thus, a good relationship is observed between the facial expression and facial landmark detection. Based on this observation, some works try to combine the facial expression recognition and facial landmark localization with different strategies, and most of them extract the geometric features or only pay attention to texture information around landmarks to recognize the facial expression. Although these methods achieved great results, they still have some issues. They assist the task of FER by using given facial landmarks as prior information, but internal connection between them is ignored. To solve this problem, a deep multitask framework is proposed in this study. Method A multitask network is designed to recognize facial expressions and locate facial landmarks simultaneously because both tasks pay attention to features around facial organs, including the eyebrows, eyes, nose, and mouth (points around the external counter are abandoned). However, to obtain the ground truth of facial landmarks in practices is not easy, especially in some FER benchmarks. We utilize a stacked hourglass network to detect facial landmark points first because stacked hourglass network achieves excellent performance in the task of face alignment, which was also demonstrated in the 2nd Facial Landmark Localization Competition conjunction with CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 2017. The designed network has two branches, corresponding to two tasks accordingly. Considering the relationships between the two tasks, they share two convolution layers in the first. The structure of facial landmark localization is simple, including three convolution layers and a fully connected layer because it simply assists the facial expression recognition in selecting feature. For the branch of facial expression recognition, its structure is complicated, in which the inception module is introduced and convolution kernels with different size are applied to capture the multiscale features. Two tasks are optimized together with a unified loss to learn the network parameters, in which the popular distance loss and the entropy loss are designed to facial landmark localization and facial expression recognition. Although features around the facial landmarks obtain good response under the supervision of two tasks, other areas still exist some noises. For example, part collar is retained in the cropped face image, which has a bad effect on facial expression recognition. To deal with this issue, location attention maps are created with the landmarks obtained in the branch of facial landmark localization. The proposed location attention map is a weight matrix sharing the same size with the corresponding feature maps, and it indicates the importance of each position. Inspired by the stacked hourglass network, a series of heat maps is generated first by taking the coordinate of each point as the mean value and selecting an appropriate variance with Gaussian distribution. Then, the max-pooling operation is conducted to merge these maps to generate the location attention map. The generated location attention maps rely on the performance of facial landmark localization since they utilize the position of key points detetected in the first branch. Thus, valid features may be filtered out when the detected landmarks are with a large deviation. This problem can be alleviated by adjusting the variance of Gaussian distribution in the small offset, but it does not work while the predicted landmarks deviate from the ground truth greatly. Intermediate supervision is introduced to facial landmark localization to solve such a problem by adding the facial expression recognition task with a small weight. The final loss consists of three parts:intermediate supervision loss, facial landmark localization loss in the first branch, and facial expression recognition loss in the second branch. Result To validate the effectiveness of proposed method, ablation studies are conducted on three popular databases:CK+ (Cohn-Kanade dataset), Oulu (Oulu-CASIA NIR & VIS facial expression database), and MMI (MMI facial expression database). We also investigate the performance of the multitask network and single-task network to evaluate the importance of introducing the landmark localization to facial expression recognition. The experimental results demonstrate that the proposed multitask network outperforms the traditional convolution networks, and the recognition accuracy on three databases improves by 0.93%, 1.71%, and 2.92%, respectively. Experimental results also prove that generated location attention map is effective, and recognition accuracy improves by 0.14%, 2.43%, and 1.82%, respectively, on three databases. Finally, the performance on three databases reaches peak while adding intermediate supervision. Recognition accuracy on Oulu and MMI databases increases by 0.14% and 0.54%, respectively. Intermediate supervision has minimal effect on CK+ database because samples on this database are simple and predicted landmarks do not have significant deviation. Conclusion A multitask network is designed to recognize the facial expression and localize the facial landmark simultaneously, and the experimental results demonstrated that the relationship information between the task of facial expression recognition and landmark localization is useful for facial expression recognition. The proposed location attention map improved the recognition accuracy and revealed that features distributed among facial organs are powerful for facial expression recognition. Meanwhile, introduced intermediate supervision helps improve the performance of facial landmark localization so that generated location attention map can filter out noise accurately.

Key words

facial expression recognition(FER); facial landmark detection; multi-task; attention model; intermediate supervision

0 引言

表情识别作为计算机视觉领域一个重要的研究方向, 受到越来越多的关注, 其在疲劳检测、远程教育等方面有着广泛的应用, 同时, 表情识别还是实现人机交互必不可少的途径。人脸表情识别就是设计一个模型能够自动准确地识别出一幅人脸图像或者人脸视频序列中所包含的表情类别。由于面部表情的多样性和复杂性, 且涉及心理学和生理学等多个学科, 相对于人脸识别技术, 表情识别发展较慢, 且类别之间不完全相互独立, 给表情识别带来了很多挑战。Ekman和Friesen(1971)对表情识别做出了巨大贡献, 他们定义了表情的6个基本类别：生气(An)、厌恶(Di)、恐惧(Fr)、高兴(Ha)、悲伤(Sa)和惊喜(Su), 大大促进了自动表情识别研究的发展。Ekman和Friesen(1976)还提出了面部动作编码系统, 通过人脸运动单元的组合来描述表情, 因而可以得到更精细的表情分析。

人脸表情识别通常可以分为3个步骤：人脸图像预处理、特征提取和特征分类。人脸图像预处理包括人脸检测和人脸校正。给定一幅包含人脸的图像, 首先利用人脸检测器检测出人脸区域, 为了取得更好的识别结果, 需要将给定的人脸图像调整为正脸, 包括刚性的旋转平移操作和非刚性的侧脸调正。特征提取方法主要分为传统手提特征和深度特征。传统的方法一般使用手工提取的特征, 如局部二值特征(local binary pattern, LBP)(Ojala等, 2002)、方向梯度直方图特征(histogram of oriented gridients, HOG)(Dalal和Triggs, 2005)、尺度不变特征(scale invariant feature transform, SIFT)(Lowe, 1999)等, 这些手提特征虽然取得了较好的实验结果, 但仍然有一些局限性：不能根据设定的任务自发地提取相关特征。近年来, 深度特征受到越来越多的关注和应用, 因为深度学习最大的优点就是能自动学习和抽象出具有判别性能的表情特征(Szegedy等, 2015；Simonyan和Zisserman, 2014)。传统的特征分类方法包括决策树、随机森林和支持向量积等, 目前全连接层被普遍用于分类。

表情识别是人脸图像分析任务中的一个子任务。人脸图像分析相关任务是互相关联的, 如人脸表情的改变带动五官产生形变, 导致人脸关键点位置的变化, 同样地, 人脸关键点位置的改变也可以反映出表情。然而目前仅有较少的研究将两个任务相结合(Munasinghe, 2018；Liu等, 2014)。常用的结合方式为：针对复杂表情的样本引入表情信息辅助关键点定位；借助关键点提取表情相关的特征。它们均是在已知一项任务真实值的情况下, 将其作为先验去辅助另一项任务, 虽然取得了较好的结果, 但是仍然存在一些问题：1)对数据要求较高, 已知其中一项任务去辅助另一项任务, 测试时需要提供辅助项任务的真实值; 2)通过人为添加的先验信息来耦合两个任务, 而不是通过学习的方式自动建立两个任务之间的关系, 忽略了其内在联系。

为了解决上述问题, 本文设计了一个多任务的卷积神经网络。设计的多任务网络同时检测关键点并且识别人脸表情, 使得网络在两个任务的监督下更加关注五官周围的信息(表情最相关的特征), 在多任务网络检测到关键点的基础上, 利用检测到的关键点生成一张位置注意力图, 进一步增加表情相关特征的权重并且过滤掉噪声。在CK+(Cohn-Kanade dataset) (Lucey等, 2010), Oulu(Oulu-CASIA NIR & VIS facial expression database)(Zhao等, 2011)和MMI(MMI facial expression database)(Pantic等, 2005；Valstar和Pantic, 2010)3个公开数据集上验证了所提方法的有效性。本文的主要贡献如下：

1) 提出了一种多任务的卷积神经网络, 检测关键点的同时识别人脸表情, 网络在两个任务的监督下提取特征, 更加关注五官附近的纹理信息。

2) 利用检测到的关键点生成一张位置注意力图, 关键点附近权重较大, 反之, 远离关键点权重较小, 将生成的权重矩阵调整到相应的尺度与对应的特征图相乘, 增大关键点附近特征的响应值。

3) 用于关键点检测任务的网络采用中间监督层, 同时输出关键点和表情信息, 不仅帮助提高复杂表情的样本关键点检测的结果, 还监督多任务网络提取更多表情相关的信息。

1 相关工作

人脸表情识别作为人脸任务的一个分支, 受到越来越多的关注。人脸关键点检测和人脸表情识别两个任务相互联系, 无论是传统方法还是深度方法均考虑到了关键点对表情识别的影响。Özbey和Topal(2018)认为关键点附近的纹理更有助于表情识别任务, 于是在关键点附近提取LBP用于表情的分类。Wang和Liu(2015)同样认为关键点检测和表情识别具有一定的关联性, 先利用主观形状模型算法(active shape models, ASM)检测出关键点坐标(Cootes等, 1995), 然后在关键点附近提取LBP特征并设计了一个多任务算法, 同时识别人脸表情并且判断对表情识别任务贡献最大的人脸区域。Munasinghe(2018)认为人脸关键点的位置随着不同表情的改变而变化, 因此, 选取合适的关键点对, 计算其距离作为特征, 并利用随机森林方法对提取的特征进行分类。Ouellet(2014)利用AlexNet深度框架识别人脸表情达到了较好的实时效果(Krizhevsky等, 2017)。Liu等人(2014)提出了一种深度置信网络用于表情识别, 由于表情相关的特征和位置紧密相关, 将人脸区域划分为80个小块, 每个小块建立一个深度置信网络, 并结合AdaBoost思想建立一个强分类器(Freund和Schapire, 1996)。Devries等人(2014)提出一个多任务网络, 采用简单的3层卷积检测关键点的同时识别人脸表情, 并且通过可视化结果发现多任务网络提取的特征在眉毛、眼睛和嘴巴等区域获得较高响应值。Yang和Yin(2017)考虑到较大姿态下人脸表情识别任务较为困难, 将其拓展到3维空间, 针对每个样本生成3维模型, 再填补关键点附近的纹理信息用于识别人脸表情。关键点信息除了直接用来作为先验信息提示特征位置外, 还用作权重矩阵, 指导网络提取特征。Hasani和Mahoor(2017)将人脸关键点生成一张权重矩阵并结合Inception-ResNet网络(Szegedy等, 2017), 用生成的矩阵代替原始网络中的跳跃结构, 使得关键点附近的特征获得较大响应值。

2 算法基本框架

2.1 多任务的卷积神经网络

人脸关键点检测和人脸表情识别两个任务密不可分, 人脸关键点检测定位出人脸外轮廓和五官的位置, 人脸表情的产生和变化也带动了人脸面部相关肌肉的运动, 主要体现在五官周围, 如：眉毛, 眼角等。为了使得网络在优化过程中, 最能体现表情类别的人脸区域(人脸五官周围), 获得较高响应值, 设计了一个多任务的网络在识别表情的同时增加了关键点定位任务。如图 1所示, 本文多任务网络是一个双流网络结构, 图中的FC1为第1级网络中表情识别和关键点检测的全连接层, FC2为第2级网络中得出具体表情类别的全连接层。第1级网络用于检测人脸关键点, 第2级网络用于识别人脸表情, 两个任务共享了两个卷积层和两个池化层, 使得模型能够更多关注人脸关键点附近的纹理信息。共享卷积层的卷积核分别为5×5和3×3, 其中第1层卷积使用较大感受野可以融合更多区域的纹理信息。同时, 考虑参数量增多容易导致过度拟合的问题, 在除第1层卷积之外, 其他卷积核均为3×3和1×1, 池化层的核为3×3, 步长为2。以每一个检测到的关键点作为高斯分布的均值, 选取合适标准差执行高斯分布, 增大关键点周围特征的权重。由于在以关键点为中心的邻域内, 生成的置信图均有较大的值, 允许预测的关键点存在较小的位置偏移。本文仅考虑关键点和表情之间的联系, 用于训练和测试的3个数据集中均没有头部旋转角度较大的样本, 因此关键点检测不会出现较大的偏移。基于上述原因, 关键点检测网络设计较为简洁, 只用了5个连续的卷积层, 而表情识别的网络设计较为复杂, 采用了一个类似于inception结构的网络(Szegedy等, 2015), 网络结构如表 1所示, 网络采用了4个分支, 不同的卷积核融合不同尺度的特征, 3个连续的卷积和池化操作对融合后的特征进一步提取高层次的特征并降维, 最后两个全连接层融合全局特征用于表情分类。

图 1 人脸表情识别结构图

Fig. 1 Structure of facial expression recognition

表 1 inception结构网络具体参数
Table 1 Specific parameters of inception network

下载CSV

输入	类型	核尺度	输出
net	卷积	1×1	net1
net	卷积	1×1	net2_1
net2_1	卷积	3×3	net2
net	池化	3×3	net3_1
net3_1	卷积	1×1	net3
net	卷积	1×1	net4_1
net4_1	卷积	3×3	net4_2
net4_2	卷积	3×3	net4
连接(net1, net2, net3, net4)	卷积	3×3	net

图 2为特征图可视化结果, 图 2(a)为输入图像, 图 2(b)(c)分别为两个共享卷积层的特征图。第1层和第2层卷积特征图的高亮区域集中在眉毛、眼睛、鼻子和嘴巴周围。第2层卷积的特征图相对于第1层更加抽象, 由此可知, 关键点检测和表情识别任务都较为关注五官周围的纹理信息。

图 2 特征图可视化结果

Fig. 2 Visualization of feature maps ((a)input; (b)feature maps of the first convolutional layer; (c)feature maps of the second convolutional layer; (d)feature maps after combination)

2.2 位置注意力图

为了进一步使网络更加关注关键点附近的特征, 过滤掉不相关的特征, 利用多任务网络检测到的关键点生成一张位置注意力图。对于第1级网络得到的人脸关键点, 以每个关键点为高斯分布的均值, 选取合适的值作为方差, 执行高斯分布, 生成一系列置信图。一个关键点对应一幅置信图, 越靠近关键点的像素值越大, 远离关键点的像素值越小, 将得到的置信图沿着通道维度做最大值池化, 生成一幅位置注意力图。具体实现过程如图 1所示。生成的位置注意力图可以看成一个权重矩阵, 用它来辅助表情特征的提取, 将其与最后一层共享卷积层得到的特征图相乘, 进一步增大关键点周围特征的权重, 过滤掉表情不相关的特征。图 2(d)为融合后的特征可视化结果, 与前两层特征图相比, 融合后的特征图更为抽象, 高亮区域仍然集中在关键点附近。对比图 2的前两层特征图和原始输入图像, 由于人脸不是矩形的, 人脸检测后仍然保留一些噪声区域, 如第1层卷积特征图中的衣服在特征提取时仍获得较高响应值, 而生成的权重矩阵通过增加关键点特征的权重和减小其他区域权重过滤掉不相关的特征。

2.3 中间监督

表情识别任务和关键点检测任务相辅相成, 为了提高关键点检测的精度同时使得网络提取更多表情相关的特征, 借鉴级联的Hourglass网络的思想(Yang等, 2017), 引入中间监督层, 第1级检测关键点的网络同时增加表情识别任务, 不仅提高复杂表情样本关键点检测的结果, 还使得网络关注更多表情相关的特征。关键点检测采用的损失函数为经典的二范数损失

$ {\mathit{\boldsymbol{L}}^{\rm{p}}} = \left\| {{{\mathit{\boldsymbol{\hat y}}}^{\rm{p}}} - {\mathit{\boldsymbol{y}}^{\rm{p}}}} \right\|_2^2 $

(1)

式中, ${{{\mathit{\boldsymbol{\hat y}}}^{\rm{p}}}}$为关键点的真实坐标, ${{\mathit{\boldsymbol{y}}^{\rm{p}}}}$为网络检测到的关键点的坐标。表情识别损失为交叉熵损失

$ {\mathit{\boldsymbol{L}}^{\rm{e}}} = - \sum {{{\mathit{\boldsymbol{\hat y}}}^{\rm{e}}}} \ln {\mathit{\boldsymbol{y}}^{\rm{e}}} $

(2)

式中, ${{{\mathit{\boldsymbol{\hat y}}}^{\rm{e}}}}$为数据集中给出的表情的类别标签, ${\mathit{\boldsymbol{y}}^{\rm{e}}}$为网络分类结果, 最终的损失由第1级网络的关键点损失和表情识别损失以及第2级网络的表情识别损失共同组成

$ \mathit{\boldsymbol{L}} = {w_1}\mathit{\boldsymbol{L}}_1^{\rm{p}} + {w_2}\mathit{\boldsymbol{L}}_1^{\rm{e}} + {w_3}\mathit{\boldsymbol{L}}_2^{\rm{e}} $

(3)

式中, $\mathit{\boldsymbol{L}}_1^{\rm{p}}, \mathit{\boldsymbol{L}}_1^{\rm{e}}$分别是第1级网络中关键点检测任务的损失和表情识别任务的损失, $\mathit{\boldsymbol{L}}_{\rm{2}}^{\rm{e}}$是第2级网络中表情识别任务的损失。${w_1}$和和${w_2}$分别为第1级网络中关键点检测任务的权重和表情识别任务的权重, ${w_3}$是第2级表情识别网络的权重。由于本文目的为借助关键点识别人脸表情, 因此, 第2级网络表情识别任务权重较大。

3 实验

3.1 实验数据

本文在3个公开数据集上测试所提方法的有效性, 分别是CK+、Oulu和MMI数据集。

1) CK+数据集。原始的CK+数据集包含123个人, 共593个序列, 但是由于其中部分数据没有标注表情的标签, 因此有效数据仅包含118个人, 共327个序列。一个完整的序列包括表情的开始到最大强度结束。CK+数据集包含了8类表情, 分别是：愤怒、嫌弃、恐惧、高兴、悲伤、惊讶、蔑视和中性表情。为了公平地与其他方法比较, 识别6种基本表情, 该数据集不仅包含了表情的类别标签, 还给出了每幅人脸图像的关键点坐标。

2) Oulu数据集。该数据集包含80个人, 共480个序列, 6类基本表情。与CK+数据集类似, 一个完整的序列包含表情的产生到表情强度最大值结束。Oulu-CASIA数据集采集了3种不同光线下的数据, 但是目前大部分的实验都是针对最强光线下采集的数据展开的, 为了公平比较, 测试了最强光下数据集的识别准确率。

3) MMI数据集。该数据集包含了32个人, 共326个序列, 其中213个序列包含了6类基本表情的标签, 205个序列提取的是正脸的表情。不同于CK+和Oulu数据集, MMI数据集从中性表情开始到表情强度最大值, 再恢复到自然表情。

以上3个数据集均包含了表情的动态变化过程, 序列中包含很多中性表情图像, 因此, 将整个序列的图像用于训练或者测试很难判断出中性表情的类别。针对CK+和Oulu数据集现存大多数方法都是取序列最后3帧作为样本, 而MMI数据集则提取中间3帧用于分类, 为了公平比较, 实验采用相同的采样方式。为了使得学习到的模型更具有鲁棒性, 对训练集进行数据增强, 包括水平翻转, 随机裁剪, 锐化, 分别旋转-10°、-7.5°、-5°、-2.5°、2.5°、5°、7.5°、10°, 并在训练过程中随机调整亮度和饱和度。由于Oulu数据集图像分辨率较低, 锐化只提高了该数据集的准确率, 对其他两个数据集影响较小。以上几种数据增强方法在人脸表情识别任务中均被普遍使用(Yu等, 2018; Kuo等, 2018)。

3.2 实验过程

由于引入了关键点信息辅助识别表情, 训练和测试的数据集不仅需要表情的标签还需要关键点的坐标信息。CK+数据集已经提供了关键点的坐标, 利用给定的关键点筛选出人脸区域。然而, Oulu和MMI数据集仅包含表情的标签。为了使得Oulu和MMI数据集能正常用于多任务网络的训练和测试, 先用一个级联的多任务网络(multi-task convolutional neural network, MTCNN)检测出人脸区域(Zhang等, 2016), 然后利用目前关键点检测效果较好的Hourglass网络定位出每个样本的关键点坐标作为多任务网络中关键点检测任务的真实值。为了取得较好的关键点定位效果, 使用一个未公开的数据集训练了级联的4个Hourglass网络, 该数据集包含166 124个样本, 106个关键点。考虑到两个任务的共性变化主要在五官的变化, 在实验中选取了包含五官位置的49个关键点。由于表情识别样本较少, 使用上述关键点检测的数据集先对第1个分支中关键点检测网络进行预训练, 再用预训练的模型对多任务网络进行初始化。不同于利用Hourglass网络检测到的关键点直接生成位置注意力图, 本文利用Hourglass网络检测到的关键点指导多任务网络学习, 一方面减小了测试数据需要提供关键点真实值的压力, 实现了端到端的人脸关键点检测和表情识别, 另一方面, 使得网络在两个任务的监督下更加关注五官周围的信息, 避免了两个任务的直接耦合, 人为添加先验信息。此外, 本文的重点是表情识别, 关键点检测任务只是辅助表情的分类, 因此, 给关键点检测任务和表情识别任务设置了不同的任务权重：关键点检测任务权重设置为0.1, 表情识别任务权重设置为1, 引入的中间监督层权重设置为0.1。输入图像的尺度为64×64像素, 得到关键点坐标后生成64×64像素的位置注意力图, 高斯分布的标准差设置为4个像素, 将生成的注意力图调整尺度到对应特征的维度16×16像素, 与之相乘增大关键点位置处的响应值, 同时减小其他区域的响应值。

实验中采用Adam优化算法。初始学习率设置为0.001, 衰减率为0.98, 衰减步长为500个周期。训练时先迭代200个周期, 每个周期迭代200次, 再加载测试准确率最高的模型并对其进行微调, 微调的学习率设置为0.000 1, 使用的深度框架为Tensorflow。

3.3 实验结果

表 2所示是在CK+数据集上的实验结果。实验结果不仅对比了传统方法还与深度方法进行了比较。其中, 多任务+支持向量机(support vector machine, SVM)用传统方法进行人脸表情的识别(Wang和Liu, 2015), 首先利用ASM算法检测出关键点的位置, 在关键点周围提取LBP特征, 并设计了一个多任务算法在识别表情的同时判断与表情相关的人脸区域的位置。该方法虽然用到了关键点附近的纹理信息识别表情, 但是由于手工提取特征的局限性, 识别准确率仅为96.44%。AlexNet被直接应用于人脸表情识别(Ouellet, 2014), 但是从表 2的数据可以看出其结果低于引入关键点的手提特征, 尽管深度学习方法通过设定监督信号使得网络自发提取与任务相关的特征普遍优于传统特征, 但是加入关键点信息后, 传统方法的识别准确率超越了简单的深度方法。Zero-bias CNN是利用卷积神经网络来识别人脸表情的方法(Khorrami等, 2015), 其通过可视化结果发现网络提取的特征与Ekman和Friesen(1976)提出的运动单元(action unit, AU)一致, 而大部分的肌肉运动单元都集中在五官。FaceNet2ExpNet是在人脸识别网络的基础上提出的一种微调方法(Ding等, 2017), 使其仍然保留人脸的信息但是在表情标签的监督下完成人脸表情识别任务, 该方法不仅降低了模型过拟合的风险, 还增加了模型的表现力。为了证明所提多任务网络和位置注意力图的有效性, 在相同数据和网络结构的基础上做了对比实验。CNN Baseline是利用一个简单的inception结构的网络识别人脸表情, 多任务的CNN是在上述CNN Baseline的基础上增加关键点检测的任务。多任务CNN+attention为多任务网络的基础上增加位置注意力图。实验结果表明了引入关键点信息的多任务网络和生成的位置注意力图的有效性。最终的实验结果表明引入的中间监督层也提升了最终的识别准确率。

表 2 不同方法在CK+数据集上的识别准确率
Table 2 Recognition accuracy on CK+database of different methods

下载CSV

/%
方法	准确率
AlexNet	94.40
多任务+SVM	96.44
Zero-bias CNN	98.30
FaceNet2ExpNet	98.60
CNN Baseline	97.43
多任务CNN	98.36
多任务CNN+attention	98.50
本文	98.60
注：加粗字体为最优值。

Oulu数据集由于图像分辨率以及表情强度等问题识别难度相对于CK+数据集较大。为弥补数据对实验结果的影响, 采用了水平翻转、随机裁剪、锐化和旋转等数据增强方式。Oulu数据集识别准确率如表 3所示, 将其与一些经典的深度方法进行比较。深度时间外观和几何网络(deep temporal appearance and geometry network, DTAGN)是一个双流网络, 一层卷积神经网络用于提取图像的纹理信息, 一层网络用于关注由关键点组成的几何特征变化(Jung等, 2015)。由于该方法是识别动态表情, 采样的图像包含中性表情和强度较小表情的图像, 所以识别准确率较低。VGG finetune是采用经典的VGG (visual geometry group)网络作为基本网络结构(Ding等, 2017), 但是由于VGG网络较深, 参数较多, 容易导致过度拟合, 所以先用其他任务的较大数据集对其进行预训练, 再在表情数据上微调。峰值指导的深度网络(peak piloted deep network, PPDN)旨在识别强度较小的表情, 利用表情强度较大的样本去指导强度较小的样本正确分类(Zhao等, 2016)。FaceNet2ExpNet利用人脸识别的数据集先预训练网络, 使其保留人脸基本特征, 再用表情标签去监督网络学习表情相关特征(Ding等, 2017)。由于人脸的身份信息也大部分体现在五官, 所以该方法取得了较好的结果。和CK+数据集类似, 为证明所提多任务网络和位置注意力图的有效性, 在相同数据和实验参数设置下, 进行了仅包含表情识别任务、引入关键点检测的多任务、引入位置注意力模型以及中间监督层的实验对比。表 3实验结果表明加入关键点检测任务和生成的位置注意力图增大相关特征的权重, 有利于提升表情识别的准确率。

表 3 不同方法在Oulu数据集上的识别准确率
Table 3 Recognition accuracy on Oulu database of different methods

下载CSV

/%
方法	准确率
DTAGN	81.46
VGG finetune	83.26
PPDN	84.59
FaceNet2ExpNet	87.71
CNN Baseline	82.73
多任务CNN	84.44
多任务CNN+attention	86.87
本文	87.85
注：加粗字体为最优值。

MMI数据集识别准确率如表 4所示, 基于运动单元的深度网络(AU-aware deep networks, AUDN)结合AU信息, 设计了一个AU感知机提取AU相关特征用于表情识别(Liu等, 2013)。表情分解获得残差的方法(de-expression residue learning, DeRL)认为表情由身份信息和纯表情因子组成, 提出用生成对抗网络(generative adversarial network, GAN)生成不同表情的样本, 中间层包含表情因子, 融合多个中间特征用于分类(Yang等, 2018)。基于深度学习的人脸表情识别方法CNN(Inception)设计了一个较深的网络, 包含多个inception结构用于识别人脸表情(Mollahosseini等, 2016)。与上述两个数据集一致, 为表明方法的有效性, 增加了上述对比实验, 表 4中的实验结果表明了本文方法在MMI数据集上的有效性。本文所对比经典方法的准确率均是原文献中给出的结果, 本文在进行实验时, 保证实验设置与对比方法保持一致。

表 4 不同方法在MMI数据集上的识别准确率
Table 4 Recognition accuracy on MMI database of different methods

下载CSV

/%
方法	准确率
AUDN	74.76
DeRL	73.23
CNN(Inception)	77.90
CNN Baseline	73.51
多任务CNN	76.43
多任务CNN+attention	78.25
本文	78.44
注：加粗字体为最优值。

3个数据集具体类别的识别情况如图 3所示。CK+数据集相对简单, 不同表情特征比较明显。其中识别率较高的是高兴类, 识别率较低的是生气类, 该类很容易被误识别为伤心类, 这是因为两类表情比较相近。Oulu和MMI数据集相对CK+数据集识别难度较大, 其中高兴类识别率较高, 生气和厌恶类由于样本较为接近, 容易互相误识别。

图 3 3个数据集表情识别混淆矩阵

Fig. 3 Confusion matrix for facial expression recognition on three databases

((a) CK+ database; (b) Oulu-CASIA database; (c) MMI database)

此外, 由于本文主要任务为表情识别且不是每个数据集都给出了关键点信息, 因此, 只展示了部分关键点检测结果。如图 4所示, 尽管关键点检测任务加入了较小权重的表情识别任务的监督, 复杂表情的样本检测到的关键点仍然有轻微的漂移, 如惊讶表情下嘴巴关键点定位不是很准确, 但是由于选取合适的高斯分布标准差, 关键点的轻微偏移对表情识别任务影响较小。

图 4 部分样本关键点检测结果

Fig. 4 Results of facial landmarks localization for part samples

4 结论

静态人脸表情识别旨在获取不同表情样本中显著的纹理或几何特征, 并根据提取到的特征进行分类。大量实验研究表明不同表情带来的纹理变化大都集中于人的五官。同时, 人脸关键点定位任务目的在于定位出人脸的形状和五官, 两者都关注了五官的信息。不少实验研究考虑到以上两个任务的关联性, 但大都是在关键点已知的前提下提取几何特征或者直接提取五官附近的纹理特征用于表情识别。该类方法是利用人的先验知识对两个任务的直接耦合而忽略了两者之间的内在联系。不同于上述方法, 本文在考虑到两个任务关联性的同时利用神经网络可以根据设定的损失自发学习特征的特性, 设计了一个多任务网络。该网络包含了两个并联的子网络, 第1级子网络用于检测关键点位置(忽略人脸外轮廓), 第2级子网络用于识别人脸表情。网络在两个任务的监督下自发地关注更多五官周围的信息。为了进一步加强有效特征同时抑制噪声对最终分类结果的影响, 利用第1级检测到的关键点生成一幅位置注意力图作用于原始的特征, 增大最能反映表情变化特征的权重, 并减小其他区域特征的权重。第1级子网络中引入的中间监督层不仅帮助提高复杂表情样本中关键点检测的结果, 还使得多任务网络更加关注表情相关的特征。为了验证本文方法的有效性, 在3个公开数据集CK+, Oulu和MMI上进行了实验。实验结果表明了在人脸表情识别任务中引入关键点信息的有效性。具体来说, 设计的多任务网络对人脸表情识别的准确率优于单一的人脸表情识别网络；利用检测到的关键点生成的位置注意力图进一步提高了3个数据集上的表情识别率。

但是本文在识别人脸表情时, 较少考虑实际应用中存在的一些问题, 如：光照、遮挡、姿态等。光照问题是几乎所有视觉任务需要克服的困难, 现有的表情识别相关数据集基本没有涉及该问题, 将在后续研究中搜集更多相关数据集进行试验。遮挡和姿态问题是人脸表情识别在后续发展中迫切需要解决的, 得益于人脸相关任务较为成熟的发展, 人脸关键点定位和人脸识别等任务已经提出了一系列解决方案, 本文会在后续研究中参考上述方案提出适用于人脸表情识别的方法。

参考文献

Cootes T F, Taylor C J, Cooper D H, Graham J. 1995. Active shape models-their training and application. Computer Vision and Image Understanding, 61(1): 38-59 [DOI:10.1006/cviu.1995.1004]

Dalal N and Triggs B. 2005. Histograms of oriented gradients for human detection//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). San Diego, CA, USA: IEEE: 886-893[DOI:10.1109/CVPR.2005.177]

Devries T, Biswaranjan K and Taylor G W. 2014. Multi-task learning of facial landmarks and expression//Proceedings of 2014 Canadian Conference on Computer and Robot Vision. Montreal, QC, Canada: IEEE: 98-103[DOI:10.1109/CRV.2014.21]

Ding H, Zhou S K and Chellappa R. 2017. Facenet2expnet: regularizing a deep face recognition net for expression recognition//Proceedings of the 12th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2017). Washington, DC, USA: IEEE: 118-126[DOI:10.1109/FG.2017.23]

Ekman P, Friesen W V. 1971. Constants across cultures in the face and emotion. Journal of Personality and Social Psychology, 17(2): 124-129 [DOI:10.1037/h0030377]

Ekman P, Friesen W V. 1976. Measuring facial movement. Environmental Psychology and Nonverbal Behavior, 1(1): 56-75 [DOI:10.1007/BF01115465]

Freund Y and Schapire R E. 1996. Experiments with a new boosting algorithm//Proceedings of the 13th International Conference on International Conference on Machine Learning. Bari, Italy: ACM: 148-156

Hasani B and Mahoor M H. 2017. Facial expression recognition using enhanced deep 3D convolutional neural networks//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu, HI, USA: IEEE: 30-40[DOI:10.1109/CVPRW.2017.282]

Jung H, Lee S, Yim J, Park S and Kim J. 2015. Joint fine-tuning in deep neural networks for facial expression recognition//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 2983-2991[DOI:10.1109/ICCV.2015.341]

Khorrami P, Paine T L and Hung T S. 2015. Do deep neural networks learn facial action units when doing exprssion recognition//Proceedings of 2015 International Conference on Computer Vision. Santiogo, Chile: IEEE: 19-27[DOI:10.1109/ICCVW.2015.12]

Krizhevsky A, Sutskever I, Hinton G E. 2017. ImageNet classification with deep convolutional neural networks. Communications of the ACM, 60(6): 84-90 [DOI:10.1145/3065386]

Kuo C M, Lai S H and Sarkis M. 2018. A compact deep learning model for robust facial expression recognition//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Salt Lake City, UT, USA: IEEE: 2202-22028[DOI:10.1109/CVPRW.2018.00286]

Liu M Y, Li S X, Shan S G and Chen X L. 2013. Au-aware deep networks for facial expression recognition//Proceedings of the 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG). Shanghai, China: IEEE: 1-6[DOI:10.1109/FG.2013.6553734]

Liu P, Han S Z, Meng Z B and Tong Y. 2014. Facial expression recognition via a boosted deep belief network//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE: 1805-1812[DOI:10.1109/CVPR.2014.233]

Lowe D G. 1999. Object recognition from local scale-invariant features//Proceedings of the 7th IEEE International Conference on Computer Vision. Kerkyra, Greece: IEEE: 1150-1157[DOI:10.1109/ICCV.1999.790410]

Lucey P, Cohn J F, Kanade T, Saragih J, Ambadar Z and Matthews I. 2010. The extended Cohn-Kanade dataset (CK+): a complete dataset for action unit and emotion-specified expression//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops. San Francisco, CA, USA: IEEE: 94-101[DOI:10.1109/CVPRW.2010.5543262]

Munasinghe M I N P. 2018. Facial expression recognition using facial landmarks and random forest classifier//Proceedings of the 17th IEEE/ACIS International Conference on Computer and Information Science (ICIS). Singapore: IEEE: 423-427[DOI:10.1109/ICIS.2018.8466510]

Mollahosseini A, Chan D and Mahoor M H. 2016. Going deeper in facial expression recognition using deep neural networks//IEEE Winter Conference on Applications of Computer Vision (WACV). Lake Placid, NY, USA: 1-10[DOI:10.1109/WACV.2016.7477450]

Ojala T, Pietikäinen M, Mäenpää T. 2002. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(7): 971-987 [DOI:10.1109/tpami.2002.1017623]

Ouellet S. 2014. Real-time emotion recognition for gaming using deep convolutional network features.[2019-06-26]. https://arxiv.org/pdf/1408.3750.pdf

Özbey N and Topal C. 2018. Expression recognition with appearance-based features of facial landmarks//Proceedings of the 26th Signal Processing and Communications Applications Conference (SIU). Izmir, Turkey: IEEE: 1-4[DOI:10.1109/SIU.2018.8404541]

Pantic M, Valstar M, Rademaker R and Maat L. 2005. Web-based database for facial expression analysis//Proceedings of 2005 IEEE International Conference on Multimedia and Expo. Amsterdam, Netherlands: IEEE: 317-321[DOI:10.1109/ICME.2005.1521424]

Simonyan K and, Zisserman A. 2014. Very Deep Convolutional Networks for Large-Scale Image Recognition.[2019-06-26].https://arxiv.org/pdf/1409.1556.pdf

Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V and Rabinovich A. 2015. Going deeper with convolutions//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE: 1-9[DOI:10.1109/CVPR.2015.7298594]

Szegedy C, Ioffe S, Vanhoucke V and Alemi A A. 2017. Inception-v4, inception-resnet and the impact of residual connections on learning//Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco, California, USA: AAAI: 4278-4284

Valstar M and Pantic M. 2010. Induced disgust, happiness and surprise: an addition to the mmi facial expression database//Proceddings of the 7th International Conference on Language Resources and Evaluation (LREC) Workshops. Paris, France: [s.n.]: 65-70

Wang X and Liu X G. 2015. Learning the discriminate patches from the key landmarks for facial expression recognition//Proceedings of 2015 IEEE International Conference on Smart City/SocialCom/SustainCom (SmartCity). Chengdu, China: IEEE: 345-348[DOI:10.1109/SmartCity.2015.95]

Yang H Y and Yin L J. 2017. CNN based 3D facial expression recognition using masking and landmark features//Proceedings of 2017 International Conference on Affective Computing and Intelligent Interaction. San Antonio, TX, USA: IEEE: 556-560[DOI:10.1109/ACII.2017.8273654]

Yang H Y, Ciftci U and Yin L J. 2018. Facial expression recognition by de-expression residue learning//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE: 2168-2177[DOI:10.1109/CVPR.2018.00231]

Yang J, Liu Q S and Zhang K H. 2017. Stacked hourglass network for robust facial landmark localisation//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu, HI, USA: IEEE: 79-87[DOI:10.1109/CVPRW.2017.253]

Yu Z B, Liu G C, Liu Q S, Deng J K. 2018. Spatio-temporal convolutional features with nested LSTM for facial expression recognition. Neurocomputing, 317: 50-57 [DOI:10.1016/j.neucom.2018.07.028]

Zhang K P, Zhang Z P, Li Z F, Qiao Y. 2016. Joint face detection and alignment using multitask cascaded convolutional networks. IEEE Signal Processing Letters, 23(10): 1499-1503 [DOI:10.1109/lsp.2016.2603342]

Zhao G Y, Huang X H, Taini M, Li S Z, Pietikäinen M. 2011. Facial expression recognition from near-infrared videos. Image and Vision Computing, 29(9): 607-619 [DOI:10.1016/j.imavis.2011.07.002]

Zhao X Y, Liang X D, Liu L Q, Li T, Han Y G, Vasconcelos N and Yan S C. 2016. Peak-piloted deep network for facial expression recognition//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, Netherlands: Springer: 425-442[DOI:10.1007/978-3-319-46475-6_27]