Print

发布时间: 2022-12-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210945
2022 | Volume 27 | Number 12




    图像分析和识别    




  <<上一篇 




  下一篇>> 





结合改进卷积神经网络与通道加权的轻量级表情识别
expand article info 梁华刚, 薄颖, 雷毅雄, 喻子鑫, 刘丽华
长安大学电子与控制工程学院, 西安 710064

摘要

目的 表情是人机交互过程中重要的信息传递方式,因此表情识别具有重要的研究意义。针对目前表情识别方法存在背景干扰大、网络模型参数复杂、泛化性差等问题,本文提出了一种结合改进卷积神经网络(convolutional neural network,CNN)与通道加权的轻量级表情识别方法。方法 首先,采用标准卷积和深度可分离卷积组合神经网络结构,再利用全局平均池化层作为输出层,简化网络的复杂程度,有效降低网络参数;其次,网络引入SE(squeeze-and-excitation)模块进行通道加权,通过在不同卷积层后设置不同的压缩率增强表情特征提取能力,提升网络模型精度;最后,用softmax分类函数实现各类表情的准确分类。结果 本文网络参数量为6 108 519,相较于识别性能较好的Xception神经网络参数减少了63%,并且通过对网络模型的实时性测试,平均识别速度可达128帧/s。在5个公开的表情数据集上验证网络模型对7种表情的识别效果,与7种卷积神经网络方法相比,在FER2013 (Facial Expression Recognition 2013)、CK+ (the extended Cohn-Kanade)和JAFFE (Japanses Female Facial Expression) 3个表情数据集的识别精确度提高了5.72%、0.51%和0.28%,在RAF-DB (Real-world Affective Faces Database)、AffectNet这两个in-the-wild表情数据库的识别精确度分别提高了2.04%和0.68%。结论 本文提出的轻量级表情识别方法在不同通道具有不同的加权能力,获取更多表情关键特征信息,提高了模型的泛化性。实验结果表明,本文方法在简化网络的复杂程度、减少计算量的同时能够准确识别人脸表情,能够有效提升网络的识别能力。

关键词

表情识别; 图像处理; 卷积神经网络(CNN); 深度可分离卷积; 全局平均池化; SE模块

A CNN-improved and channel-weighted lightweight human facial expression recognition method
expand article info Liang Huagang, Bo Ying, Lei Yixiong, Yu Zixin, Liu Lihua
School of Electronics and Control Engineering, Chang′an University, Xi′an 710064, China
Supported by: National Natural Science Foundation of China(61973243); Key R&D Program of Shaanxi Province, China(2019ZDLGY03-01)

Abstract

Objective Human facial expression can be as a human emotion style and information transmission carrier in the process of human-robot interaction. Thanks to the artificial intelligence (AI) development, facial expression recognition (FER) has been developing in the context of emotion understanding, human-robot interaction, safe driving, medical treatment, and communications. However, current facial expression recognition studies have been challenging of some problems like large background interference, complex network model parameters, and poor generalization. We develop a lightweight facial expression recognition method based on improved convolutional neural network (CNN-improved) and channel-weighted in order to improve its recognition and classification and the key feature information mining of facial expressions. Method Human facial expression recognition network is focused on facial-related image gathering, image preprocessing, feature extraction, and expression-related classification and recognition, amongst feature extraction is as the key step of the network structure. Our demonstration is illustrated as following: 1) different collections of expression-related datasets are obtained for indoor and outdoor scenarios. 2) Data-enhanced method is used to pre-process the expression-related image through avoiding the distorted background information and resolving the problems of over-fitting and poor robustness related to deep learning algorithms. 3) The lightweight expression network is designed and trained in terms of the enhanced depth-segmented convolutional channel feature. To reduce the network parameters effectively, deep-segmented convolution and global average pooling layer are deployed. The squeeze-and-excitation(SE) module is also embedded to optimize the model. Multi-channels-related compression rates are set to extract facial expression features more efficiently and thus the recognition ability of the network is improved. Our main contributions are clarified as mentioned below: 1) data preprocessing module: it is mainly based on data enhancement operations, such as image size normalization, random rotation and cropping, and random noise-added. The interference information is removed and the generalization of the model is improved. 2) Network model: a convolutional neural network (CNN) is adopted and an enhanced depth-segmented convolution channel feature module (also called basic block) for channel weighting is designed. The space and channel information in the local receptive field are extended by setting different compression rates originated from different convolution layers. 3) Verification: facial expression recognition method is performed on a number of popular public datasets and achieved high recognition accuracy. Result The best compression ratio combinations of SE modules are sorted out through experiments and embedded into the constructed lightweight network, and experimental evaluation is carried out on five commonly-used expression datasets. It shows that our recognition accuracy of the three indoor-related expression datasets of FER2013(Facial Expression Recognition 2013), CK+(the extended Cohn-Kanade) and JAFFE(Japanses Female Facial Expression) are 79.73%, 99.32%, and 98.48%, which are improved 5.72%, 0.51% and 0.28%. The two outdoor expression datasets of RAF-DB(Real-world Affective Faces Database) and AffectNet are obtained recognition accuracy of 86.14% and 61.78%, which are improved 2.01% and 0.67%. In contrast to the Xception neural network, a lightweight network is facilitated while the parameters are reduced by 63%. The average recognition speed can reach 128frame/s, which meets the real-time requirements. Conclusion Our lightweight expression recognition method has different weighting capabilities in different channels. The key expression information can be obtained. The generalization of this model is enhanced. To improve the recognition ability of the network effectively, our method can recognize facial expressions accurately based on network simplification and calculation cost optimization.

Key words

expression recognition; image processing; convolutional neural network(CNN); depth separable convolution; global average pooling; squeeze-and-excitation(SE) module

0 引言

表情是情感的重要载体,是人机交互过程中一种重要的信息传递方式。表情作为一种典型的非言语交际形式,在情感分析中起着重要作用(Ben等,2021)。研究表明,情感表达中55%的信息是通过面部表情传递的(Pantic和Rothkrantz, 2000)。随着人工智能的兴起与广泛应用,表情识别在人机交互、安全驾驶、医疗和通信等领域具有广阔的应用前景。表情识别研究得到了广泛关注,成为学术界和工业界的热门研究方向。

由于年龄、性别和种族等个体差异以及外界光照、姿态等环境因素的影响,表情识别一直是一项复杂的工作。传统的表情识别方法大多采取手工设计特征或浅层学习,如提取图像纹理特征的Gabor小波特征方法(Xu等,2015)、提取表情几何特征的ASM(active shape model)方法(Sun等,2016)和提取表情边缘特征的HOG(histogram of oriented gradient)方法(任福继等,2018)等,再用分类器进行表情分类。卷积神经网络能够提取到人脸表情的高维特征,增强了传统的手动提取特征方法的鲁棒性。由于卷积神经网络需要大量数据进行训练,当训练数据较少时,可以采用dropout机制随机丢弃神经元(Yu和Zhang,2015)或数据扩充增加训练数据(Yang等,2018)等减少模型过拟合的风险。随着深度卷积神经网络的应用与发展,深度卷积神经网络可以提取到更深更具有判别能力的图像特征,解决了卷积神经网络不能有效提取关键特征的问题,可以达到更高的准确率。深度置信网络(deep belief net,DBN)是一种典型的深度学习方法(Hinton等,2006),能够更好地学习复杂的数据结构和特征分布;增强型深度信念网络(boosted deep belief network, BDBN)通过在循环框架中不断执行特征表示、特征选择和分类器构造(Liu等,2014),增强了表情识别的判别能力;将改进深度自编码器(deep autoencoder,DAE)应用到表情识别中(Huang和Ying,2015),通过网络训练和测试特征的最小误差对图像进行分类,有效地提高了表情识别的准确率;生成对抗网络(generative adversarial networks,GAN)具有合成图像能力,能够修复局部遮挡图像,进而生成高质量目标样本(姚乃明等,2018),解决了遮挡图像表情识别的识别率低、鲁棒性差的问题;在神经网络结构中引入残差学习模块(杜进等,2018),解决了随着网络深度的增加神经网络出现性能退化和梯度爆炸等问题;为进一步提升网络的实时性,将轻量级网络用于人脸表情的识别(吕诲等,2020),此网络仅有66 000个参数;轻量级表情识别模型(lightweight expression recognition, LER) (Zhao等,2020)用于处理人机交互应用中的延迟问题;轻量级注意力表情识别网络(lightweight attention DCNN, LA-Net)引入了网络瘦身策略,便于部署在资源受限的设备上(Ma等,2021)。这些国内外研究方法虽然在网络精度、抗干扰性等方面取得了一定进步,但是由于表情识别的复杂性,仍存在一些问题,如:表情识别网络结构越复杂,计算代价越大,速度难以达到实时性要求;降低网络参数后,识别精度会随之降低等。

表情识别的关键技术在于表情特征的提取方法,有效的表情特征提取工作将大大提高表情识别的性能。因此,本文着眼于特征提取方法,提出了一种轻量级的表情识别网络模型。主要贡献有:

1) 数据预处理部分主要使用图像尺寸归一化和增加噪声随机扰动等数据增强操作,去除与表情无关的干扰信息,提高模型的泛化性;2) 网络模型采用深度可分离卷积和全局平均池化层有效地减少网络参数,并且合理嵌入SE(squeeze-and-excitation)模块(Hu等,2020),在不同通道设置不同压缩率更高效地提取人脸表情特征,提升网络的识别能力;3) 本文表情识别任务包括实验室受控环境和真实的环境多个场景,并通过大量实验论证了本文方法的有效性和可靠性。

1 基于卷积神经网络的表情识别

卷积神经网络(convolutional neural network,CNN)(Lecun等,1998)是表情识别常用算法之一,结构如图 1所示,主要由卷积层、池化层和全连接层组成。输入图像先通过卷积层卷积并产生特定类型的激活特征映射;再通过池化层减小特征映射的空间大小和网络计算量,提升网络的非线性特征提取能力;最后将提取的特征映射到全连接层,转换为1维特征映射便于进一步的特征表示和分类。

图 1 卷积神经网络结构
Fig. 1 The structure of the convolutional neural network

卷积神经网络虽然具有较高的精度和较强的鲁棒性等优点,但是随着网络层数的加深,深度卷积神经网络结构的复杂度也越高,实时性难以保证,这使得传统的卷积神经网络不再适用。

2 表情识别网络模型

表情识别网络主要包括人脸图像采集、图像预处理、特征提取和表情分类识别4个步骤,表情识别框架如图 2所示。特征提取是网络结构的关键步骤,因此,本文设计了增强深度可分离卷积通道特征模块,以此为基础,搭建并训练轻量级表情网络模型,从而实现各类表情的准确分类。

图 2 表情识别框架
Fig. 2 Framework of facial expression recognition network

2.1 增强深度可分离卷积通道特征模块(basic block)

本文设计的增强深度可分离卷积通道特征模块(basic block)由深度可分离卷积(depthwise separable convolution, DSC)和SE模块组合而成,模块结构如图 3所示。首先,通过一组1×1的卷积从输入特征图中提取特征,然后,将输出特征图根据通道维度平均分成6个组,每个组使用卷积核为3×3、通道数为C/6的小卷积扩大感受野范围,再将这6个组的通道维度拼接起来送入压缩激发模块,每一个通道都压缩为一个数值,最后,按照通道内的表情特征信息的重要程度分配权重系数,从而实现增强重要特征通道。另外,每个卷积层后都有一个批归一化层和一个放缩指数线性单元(scaled exponential linear units,SeLU)激活函数层。其中,批归一化层用于对数据进行归一化,缓解深度神经网络中梯度消失的问题,避免输入数据偏移造成的影响;激活层增加了神经网络各层之间的非线性关系,能够更好地提取关键特征和拟合训练数据。

图 3 增强深度可分离卷积通道特征模块结构
Fig. 3 The structure of basic block

深度可分离卷积由深度卷积和通道卷积组成,不仅可以拓展网络宽度,而且在一定程度上减少了参数量,整体卷积过程如图 4所示。假设输入的特征尺寸为${D_{\rm{F}}} \times {D_{\rm{F}}} \times M$${D_{\rm{F}}}$为每个特征图的边长,$M$为输入通道数,$N$为输出通道数。先用$M$个卷积核为${D_{\rm{K}}} \times {D_{\rm{K}}}$的深度卷积各自提取特征图的每个通道特征,输出每个通道内的图像特征信息;再用$N$个卷积核为1×1的通道卷积将每个通道的特征信息融合为一个特征图。在参数量方面,深度可分离卷积与标准卷积的优化比例为

图 4 深度可分离卷积过程示意图
Fig. 4 The structure of the depthwise separable convolution

$ \frac{{{D_{\rm{K}}} \cdot {D_{\rm{K}}} \cdot M \cdot {D_{\rm{F}}} \cdot {D_{\rm{F}}} + M \cdot N \cdot {D_{\rm{F}}} \cdot {D_{\rm{F}}}}}{{{D_{\rm{K}}} \cdot {D_{\rm{K}}} \cdot M \cdot N \cdot {D_{\rm{F}}} \cdot {D_{\rm{F}}}}} = \frac{1}{N} + \frac{1}{{D_{\rm{K}}^2}} $ (1)

在生成相同尺寸特征的情况下,采用了深度可分离卷积代替部分标准卷积,使得网络模型的参数大大减少,可以保证网络模型的实时性要求。

SE模块结构如图 5所示,其中,${\mathit{\boldsymbol{X}}}$为输入图像,$\tilde {\mathit{\boldsymbol{X}}}$为输出特征图,$W \times H \times C$为图像尺寸。由squeeze和excitation两个部分组成:squeeze部分是将特征在空间维度上进行压缩,对特征图进行全局平均池化得到通道级的全局特征;excitation部分通过FC1—SeLU—FC2—sigmoid结构对全局特征进行激发,学习各个通道间的相互关联性,得到针对不同通道表情特征信息的权重,最后不同通道的权重乘以输入中对应的特征图得到最终特征。

图 5 SE模块结构示意图
Fig. 5 The structure of the SE module

此外还在网络不同层引入不同压缩率,根据通道数的不同选择不同的压缩率,使得重要的特征更加明显,从而提高了网络模型的精度。

2.2 表情识别网络模型

2.2.1 网络结构

本文表情识别网络模型的主干网络部分包括6个阶段。阶段1)采用两个3×3标准卷积学习空间信息及通道间的相关性,进而提取低维特征,然后对输出进行非线性激活。同时在每个卷积层后增加SE模块,用于增强网络层间的特征关系。阶段2)—阶段5)的结构类似,分别包括3个basic block和一个最大池化层。basic block中所有的深度可分离卷积的卷积核大小为3×3,步长为1,初始通道数为64,通道数依次递增,最高可达1 024个通道。深度可分离卷积层后依次使用批量归一化、SeLU和SE模块,其中每个阶段中SE模块的压缩率保持一致。并且分别在3、6、9、12个basic block后采用窗口大小为3、步长为2的最大池化层进行下采样,减少特征图的尺寸。阶段6)为输出层结构:首先,使用一个卷积核为3×3的标准卷积将1 024个特征图映射为7个特征图;然后,使用一个全局平均池化(global average pooling,GAP)对特征图的空间信息进行求和(Lin等,2013),分别累加每个特征图所有像素值并求平均得到7个数值,增强输入的空间变化的鲁棒性;最后,输入到softmax分类器中,得到对应表情类别的7个概率值,最大概率值即为表情分类的预测结果。网络模型的整体结构如图 6所示。

图 6 表情识别网络模型结构示意图
Fig. 6 The structure of FER network model

2.2.2 激活函数

网络采用SeLU激活函数处理人脸表情网络输入与输出之间的非线性关系。SeLU自带样本归一化特性,不受外界因素干扰,可以解决非正区间输出为0的问题,当输入给定负数的情况下,依然可以保持神经单元的运作性。SeLU函数如式(2)所示,更有利于训练多层的深度神经网络,训练过程中梯度也不会爆炸或消失。

$ SeLU (x) = \lambda \left\{ {\begin{array}{*{20}{l}} x&{x > 0}\\ {\alpha {{\rm{e}}^x} - \alpha }&{x \le 0} \end{array}} \right. $ (2)

式中,$x$为输入值,参数$\alpha $$\lambda $被证明得到了具体的数值:

$ \begin{array}{*{20}{c}} {\lambda = 1.0507009873554804934193349852946, }\\ {\alpha = 1.6732632423543772848170429916717。} \end{array} $

2.2.3 损失函数

本文网络模型选用交叉熵损失函数衡量真实概率和预测概率之间的差别,损失函数不断优化网络权重比例,从而进行评定网络模型的好坏。交叉熵损失越小,模型预测的准确率越高。交叉熵损失函数为

$ H(p, q) = \left[ { - \sum\limits_{i = 1}^n P \left({{x_i}} \right)\log Q\left({{x_i}} \right)} \right] $ (3)

式中,${{x_i}}$为样本数据,$P\left({{x_i}} \right)$为输入${{x_i}}$真实值的概率,$Q\left({{x_i}} \right)$为模型输出预测值的概率。

3 实验

3.1 数据集

通过5个广泛使用的数据集验证本文方法的有效性,包括FER2013(Facial Expression Recognition 2013)数据集(Goodfellow等,2013)、CK+(the extended Cohn-Kanade)数据集(Lucey等,2010)、JAFFE(Japanses female facial expression)数据库(Lyons等,1998)和RAF-DB(real-world affective faces database)(Li和Deng等,2019)、AffectNet (Mollahosseini等,2019)这两个in-the-wild表情数据集。其中,既有在实验室受控环境下采集较为标准的数据集(CK+和JAFFE),也有在真实世界环境下采集的较为自然的数据集(RAF-DB和AffectNet)。每个数据集细分为7种不同的表情标签:愤怒、厌恶、恐惧、高兴、悲伤、惊讶和自然。这些同类表情的面部姿态、年龄、表情强度和肤色有明显差异,在光照、头部姿态以及面部遮挡等方面多样性,使用不同环境下采集的表情数据集更能说明算法模型的泛化性能。图 7展示了这5个数据集的各类表情的部分图像样本。

图 7 部分数据集样本
Fig. 7 Part of datasets samples
((a)angry; (b)disgust; (c)fear; (d)happy; (e)sad; (f)surprise; (g)natural)

1) FER2013数据集。数据库人脸完整表情数据量大,不仅包括真实人脸图像,还包括卡通类人脸表情图像,数据集样本丰富。此数据集共有35 887幅关于表情的图像数据,其中包括28 708幅训练集图像,公共验证集与私有验证集均3 589幅。

2) CK+数据集。在实验室条件下,按照要求进行采集年龄18~30岁的亚洲、非洲人的面部动作得到此数据集序列,是表情识别中最具代表性的数据库。这些表情图像由123个测试人员的593个图像序列组成,展示了从平静状态到峰值表情转变的过程,其中包括327个被标记的图像序列。

3) JAFFE数据集。这些图像包括了不同强度的不同情绪,有着很高的识别率,也是使用率很高的数据库。数据库包括了10名日本女性根据指示在实验环境下做出各种表情,每个人做出7种表情,共计213幅图像。

4) RAF-DB数据集。由从互联网上下载的来自数千人的29 672幅图像构成的大规模面部表情数据库,非在实验室控制条件下获得,所以表情更自然,接近人类真实表情。数据库包括7类基本表情、12类复合表情和30余类混合表情,本文实验研究仅使用基本表情图像及标签。在光照、头部姿态等方面具有多样性,注释丰富。

5) AffectNet数据集。从互联网收集面部表情图像,是目前自然条件下最大的面部表情识别图像数据集。本文使用该数据库中约28万幅图像,含有7种基本表情标签的标注。标注类型包括表情类型和幅度等多样化,更能反映真实场景的表情。

3.2 数据集处理

为提高训练出来的模型的泛化性能,避免数据不充足导致的过拟合反应,对数据集进行预处理,示例如图 8所示(以CK+部分数据为例)。实验训练之前需要对所有数据集的图像尺寸归一化和一些数据增强操作。图像尺寸归一化即对训练集所有图像裁剪为48×48像素的灰度图像,并分别在数据图的左上角、左下角、右上角和右下角进行裁剪,去除不平衡光照;然后,进行随机翻转和增加随机扰动、添加噪声等数据增强操作。

图 8 图像增强示例图
Fig. 8 Image enhancement example image

数据增强后同一幅表情图像会生成许多幅不一样的图像数据,进一步扩充表情识别的数据集,有效降低了训练网络模型过程中出现的过拟合风险,提高了算法的鲁棒性和模型的泛化性。具体的一些数据增强参数如表 1所示。

表 1 数据增强参数表
Table 1 Data enhancement parameter table

下载CSV
参数 数值
随机缩放 1./255
逆时针变换幅度 0.2
随机缩放图片幅度 0.2
随机旋转角度 10
自动填补方式 最近邻
随机水平翻转

3.3 网络训练及参数设置

实验搭建了TensorFlow和Keras框架的深度学习网络,操作系统为Windows 10,使用Python3.8.10编程语言进行训练和测试。硬件平台为英特尔Core TM i7-10700CPU,内存为64 GB,GPU为显存11 GB的NVIDIA GeForce RTX 3070 Ti。网络模型训练时每次训练数据总轮数为500次,批次大小为32,学习率初始化为0.1,随着训练的进行,根据损失函数的变化逐渐降低学习率,直到学习率变为0.000 1时停止降低。训练得到各个数据集的识别精确度迭代结果如图 9所示,以及训练网络模型500次的损失收敛过程如图 10所示。

图 9 表情识别率迭代结果
Fig. 9 FER rate iteration results
图 10 损失过程曲线图
Fig. 10 Loss process curve

可以看到,随着训练次数的增加,准确率逐渐提高,损失逐渐下降。间接反映出损失越小,准确率就会越高。网络训练过程中迭代的趋势整体趋于稳定,证明了本文网络模型具有一定的稳定性。

3.4 压缩率对比实验

本文在卷积层后引入SE模块扩大感受野,进行通道加权增强重要的表情特征,提高表情识别率。对于本文搭建的网络模型加入SE模块和未加入SE模块分别进行实验,并对比识别精确度,实验结果如图 11所示。

图 11 SE模块对比
Fig. 11 Comparison result of SE module

可以看到网络模型加入SE模块后,FER2013、CK+、JAFFE这3个数据集的识别精确度提高了3%~7%,而RAF-DB、AffectNet这两个in-the-wild数据集由于存在被遮挡的人脸、错误的标签等,其识别精确度平均提高2%,说明SE模块重新调整表情特征的权重能够提升网络模型的准确率。为了更好地获取各个通道特征的重要性关系,设置了压缩率对比实验。将网络模型所有层分别取2、4、8、16、32压缩率($r$)和组合压缩率的识别精确度进行对比,得到表情识别率对比结果,如图 12所示。

图 12 表情识别准确率对比
Fig. 12 Comparison result of FER accuracy

对比不同压缩率取值,表情识别准确率不同,验证了压缩率的取值和网络通道数之间存在一定的联系。与各种压缩率取值以及不加入SE模块相比,组合压缩率的表情识别率是最高的。因此,本文的SE模块采用组合形式嵌入网络模型中。

为了找出最佳压缩率组合方法,本文通过实验在不同通道选择最合适的压缩率$r$对网络模型进行测试。考虑不同网络通道的特征分布,在卷积初始层不选择太大的压缩率。网络结构中总共加入了14个SE模块,前2层初始层的标准卷积层的压缩率保持一致,在layer 1—layer 4中采用同一layer保持一致压缩率的原则进行组合设计。本文选取了10种压缩率的取值组合方式进行测试实验,如表 2所示。

表 2 压缩率取值
Table 2 Compression rate value

下载CSV
SE_layers 组合方式
c1 c2 c3 c4 c5 c6 c7 c8 c9 c10
1 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2
3 2 2 2 2 2 4 4 4 4 4
4 2 2 2 2 2 4 4 4 4 4
5 2 2 2 2 2 4 4 4 4 4
6 2 2 4 4 4 4 4 8 8 8
7 2 2 4 4 4 4 4 8 8 8
8 2 2 4 4 4 4 4 8 8 8
9 4 4 4 8 8 4 8 8 16 16
10 4 4 4 8 8 4 8 8 16 16
11 4 4 4 8 8 4 8 8 16 16
12 4 8 4 8 16 4 8 16 16 32
13 4 8 4 8 16 4 8 16 16 32
14 4 8 4 8 16 4 8 16 16 32

表 2中10种压缩率取值组合方式在各个数据集上分别进行验证,实验结果得到的识别精确度如图 13所示。

图 13 不同压缩率组合方式识别准确率
Fig. 13 FER accuracy of different compression ratio combinations

实验对比结果表明,选取第9种压缩率的取值组合方式(c9)可以使得表情识别准确率最高,所以最终本文网络模型选择了第9种组合即采用2、4、8、16、16的压缩率组合将SE模块嵌入在网络中,更高效提取表情特征。

3.5 结果和分析

实验分别对比了目前7种识别率较高网络结构的参数量,有:

1) AlexNet网络(Krizhevsky等,2017)是在图像分类竞赛ImageNet Large Scale Visual Recognition Competition (ILSVRC 2012)中第1名的网络,掀起了深度卷积神经网络在各个领域的研究热潮。

2) InceptionV4 (Szegedy等,2016)使用了统一的inception模块并结合了残差思想,使网络层数更深。

3) Xception网络(Chollet,2017)是在网络Inceptionv3的基础上引入了可分离卷积(depthwise separable convolution),在基本不增加网络复杂度的前提下提高了模型效果。

4) Parallel CNN网络(徐琳琳等,2019)采用两个并行的卷积池化结构,分成3个不同的并行路径来提取3种不同的图像特征。

5) Attention Net方法(Fernandez等,2019)将注意力集中在人脸上,用高斯空间表示来进行表情识别。

6) FaceNet2ExpNet网络(Ding等,2017)对表情识别网络的训练进行调整:首先提出一种新的分布函数来模拟表达网络的神经元,接着设计了两个阶段的训练算法。

7) GAN网络(孙晓和丁小龙,2020)是一种通过训练使判别器和生成器达到平衡状态的无监督算法,将一种表情采用生成器进行下采样生成其他不同表情。不同方法的网络结构参数量如表 3所示。

表 3 不同方法的网络结构参数量
Table 3 The amount of network structure parameters of different methods

下载CSV
序号 方法 参数量
1 AlexNet 60 965 128
2 InceptionV4 33 452 455
3 Xception 16 691 895
4 Parallel CNN 5 807 300
5 Attention Net 7 765 442
6 FaceNet2ExpNet 11 000 000
7 GAN 25 901 953
8 本文 6 108 519
注:加粗字体表示最优结果。

实验结果显示,本文方法相较于识别性能较好的Xception神经网络参数减少了63%,可保证实时性需求。本文提出的神经网络结构减少了参数数量和计算量,使得模型体积大大减小,属于轻量级的模型,且对模型精确度不产生影响。与目前优秀的特征提取网络如MobileNetV3轻量级网络(Howard等,2019)相比,在精确度相差不大的前提下,本文模块参数量大大减少,在提升实时识别速度上有明显优势。通过服务端设备对网络模型的实时性进行了测试,经测试发现:平均识别速度可以达到128帧/s,满足实时性的要求。本文通过服务端设备对基于增强深度可分离卷积通道特征模块的网络模型的实时性进行了测试,如图 14所示为7种表情实时测试图。

图 14 实时表情识别效果图
Fig. 14 The effect of real-time expression recognition
((a)angry; (b)disgust; (c)fear; (d)happy; (e)sad; (f)surprise; (g)natural)

在相同数据集和检测环境下,对比7种现有最新的网络模型的识别准确率,用于验证网络模型的有效性。实验结果如表 4所示。

表 4 不同方法的识别结果
Table 4 Recognition results of different methods  

下载CSV
/%
方法 数据集
CK+ FER2013 JAFFE RAF-DB AffectNet
AlexNet 94.4 - 93.9 82.64 55.34
InceptionV4 98.81 74.01 97.9 84.27 59.97
Xception 96.3 72.8 98.2 84.5 60.21
Parallel CNN 94.03 69.92 93.41 83.8 58.47
Attention Net 90.3 - 94.1 81.98 57.5
FaceNet2ExpNet 98.6 - 96.78 83.73 57.18
GAN 94.59 - 95.5 83.6 57.32
本文 99.32 79.73 98.48 86.54 60.89
注:加粗字体表示各列最优结果;部分实验方法无法在FER2013数据集上完成,用“-”标注。

本文模型的识别率在CK+、FER2013、JAFFE、RAF-DB和AffectNet共5个表情识别数据集上分别可以达到99.32%、79.73%、98.48%、86.54%、60.89%,相比于7种卷积神经网络对比模型,识别精确度分别提高了0.51%、5.72%、0.28%、2.04%和0.68%。本文方法不仅能很好地识别室内数据集且对室外表情数据集仍然有效,均取得了较高的识别精确度。由此说明本文在简化网络的复杂程度和减少计算量的同时仍能够准确识别人脸表情,验证了本文方法的有效性。由于FER2013和AffectNet这两个数据集的干扰因素较多,如FER2013存在一些非正常表情图片,生气与悲伤、厌恶等表情易混淆等,AffectNet数据集存在头部姿态、面部遮挡等,导致网络模型在这两个数据集的识别率比CK+、JAFFE、RAF-DB数据集的识别率低,进一步说明了表情识别的复杂性。

4 结论

针对表情识别网络模型复杂、泛化性差等问题,本文提出了一种增强深度可分离卷积通道特征的改进卷积神经网络的轻量级表情识别方法。主要工作如下:

1) 对多个场景的表情数据集进行数据增强操作,丢弃干扰性较大的背景信息。

2) 网络模型采用标准卷积提取低维特征,用深度可分离卷积组合神经网络结构,并将全局平均池化直接输入到softmax分类器,简化了网络的复杂度,从而有效降低了网络的参数和计算量。

3) 引入SE模块进行通道加权,通过实验选取最优压缩率设置方案,使得网络模型提升特征表达能力,剔除无关的冗余特征,提高了网络的鲁棒性。

最后在FER2013、CK+、JAFFE和RAF-DB、AffectNet多个场景的数据集上进行对比实验,均得到了较高的表情识别率,从而验证了本文方法的有效性。但是本文也存在一定不足,为了进一步提高算法的可靠性,需进一步考虑影响人脸表情识别精确度的问题,如遮挡、人脸姿势变换等,解决这些问题是后续工作的重点。

参考文献

  • Ben X Y, Ren Y, Zhang J P, Wang S J, Kpalma K, Meng W X, Liu Y J. 2021. Video-based facial micro-expression analysis: a survey of datasets, features and algorithms. IEEE Transactions on Pattern Analysis and Machine Intelligence, 10(1): 1-20 [DOI:10.1109/TPAMI.2021.3067464]
  • Chollet F. 2017. Xception: deep learning with depthwise separable convolutions//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE: 1800-1807[DOI: 10.1109/CVPR.2017.195]
  • Ding H, Zhou S K and Chellappa R. 2017. FaceNet2ExpNet: regularizing a deep face recognition net for expression recognition//Proceedings of the 12th IEEE International Conference on Automatic Face and Gesture Recognition. Washington, USA: IEEE: 118-126[DOI: 10.1109/FG.2017.23]
  • Du J, Chen Y H, Zhang L, Mai Y C. 2018. Energy-efficient facial expression recognition based on improved deep residual networks. Computer Science, 45(9): 303-307, 319 (杜进, 陈云华, 张灵, 麦应潮. 2018. 基于改进深度残差网络的低功耗表情识别. 计算机科学, 45(9): 303-307, 319) [DOI:10.11896/j.issn.1002-137X.2018.09.051]
  • Fernandez P D M, Peña F A G, Ren T I and Cunha A. 2019. FERAtt: facial expression recognition with attention net//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Long Beach, USA: IEEE: 1-9[DOI: 10.1109/CVPRW.2019.00112]
  • Goodfellow I J, Erhan D, Carrier P L, Courville A, Mirza M, Hamner B, Cukierski W, Tang Y C, Thaler D, Lee D H, Zhou Y B, Ramaiah C, Feng F X, Li R F, Wang X J, Athanasakis D, Shawe-Taylor J, Milakov M, Park J, Ionescu R, Popescu M, Grozea C, Bergstra J, Xie J J, Romaszko L, Xu B, Chuang Z and Bengio Y. 2013. Challenges in representation learning: a report on three machine learning contests//Proceedings of the 20th International Conference on Neural Information Processing. Daegu, Korea(South): Springer: 117-124[DOI: 10.1007/978-3-642-42051-1_16]
  • Hinton G E, Osindero S, Teh Y W. 2006. A fast learning algorithm for deep belief nets. Neural Computation, 18(7): 1527-1554 [DOI:10.1162/neco.2006.18.7.1527]
  • Howard A, Sandler M, Chen B, Wang W J, Chen L C, Tan M X, Chu G, Vasudevan V, Zhu Y K, Pang R M, Adam H and Le Q. 2019. Searching for MobileNetV3//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South): IEEE: 1314-1324[DOI: 10.1109/ICCV.2019.00140]
  • Hu J, Shen L, Albanie S, Sun G, Albanie S. 2020. Squeeze-and-excitation networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42(8): 2011-2023 [DOI:10.1109/TPAMI.2019.2913372]
  • Huang B B and Ying Z L. 2015. Sparse autoencoder for facial expression recognition//Proceedings of the 12th IEEE Intl Conf on Ubiquitous Intelligence and Computing and the 12th IEEE Intl Conf on Autonomic and Trusted Computing and the 15th IEEE Intl Conf on Scalable Computing and Communications and Its Associated Workshops. Beijing, China: IEEE: 1529-1532[DOI: 10.1109/UIC-ATC-ScalCom-CBDCom-IoP.2015.274]
  • Krizhevsky A, Sutskever I, Hinton G E. 2017. ImageNet classification with deep convolutional neural networks. Communications of the ACM, 60(6): 84-90 [DOI:10.1145/3065386]
  • Lecun Y, Bottou L, Bengio Y, Haffner P. 1998. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11): 2278-2324 [DOI:10.1109/5.726791]
  • Li S, Deng W H. 2019. Reliable crowdsourcing and deep locality-preserving learning for unconstrained facial expression recognition. IEEE Transactions on Image Processing, 28(1): 356-370 [DOI:10.1109/TIP.2018.2868382]
  • Lin M, Chen Q and Yan S C. 2013. Network in network[EB/OL]. [2020-05-20]. https://arxiv.org/pdf/1312.4400.pdf
  • Liu P, Han S Z, Meng Z B and Tong Y. 2014. Facial expression recognition via a boosted deep belief network//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE: 1805-1812[DOI: 10.1109/CVPR.2014.233]
  • Lucey P, Cohn J F, Kanade T, Saragih J, Ambadar Z and Matthews I. 2010. The Extended Cohn-Kanade Dataset (CK+): a complete dataset for action unit and emotion-specified expression//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops. San Francisco, USA: IEEE: 94-101[DOI: 10.1109/CVPRW.2010.5543262]
  • Lyu H, Tong Q Q, Yuan Z Y. 2020. Real time architecture for facial expression recognition in complex scenes based on face region segmentation. Computer Engineering and Applications, 56(12): 134-140 (吕诲, 童倩倩, 袁志勇. 2020. 基于人脸分割的复杂环境下表情识别实时框架. 计算机工程与应用, 56(12): 134-140) [DOI:10.3778/j.issn.1002-8331.1903-0416]
  • Lyons M, Akamatsu S, Kamachi M and Gyoba J. 1998. Coding facial expressions with Gabor wavelets//Proceedings of the 3rd IEEE International Conference on Automatic Face and Gesture Recognition. Nara, Japan: IEEE: 200-205[DOI: 10.1109/AFGR.1998.670949]
  • Ma H, Celik T, Li H C. 2021. Lightweight attention convolutional neural network through network slimming for robust facial expression recognition. Signal, Image and Video Processing, 15(7): 1507-1515 [DOI:10.1007/s11760-021-01883-9]
  • Mollahosseini A, Hasani B, Mahoor M H. 2019. AffectNet: a database for facial expression, valence, and arousal computing in the wild. IEEE Transactions on Affective Computing, 10(1): 18-31 [DOI:10.1109/TAFFC.2017.2740923]
  • Pantic M, Rothkrantz L J M. 2000. Automatic analysis of facial expressions: the state of the art. IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(12): 1424-1445 [DOI:10.1109/34.895976]
  • Ren F J, Yu M L, Hu M, Li Y Q. 2018. Dual-modality video emotion recognition based on facial expression and BVP physiological signal. Journal of Image and Graphics, 23(5): 688-697 (任福继, 于曼丽, 胡敏, 李艳秋. 2018. 融合表情和BVP生理信号的双模态视频情感识别. 中国图象图形学报, 23(5): 688-697) [DOI:10.11834/jig.170401]
  • Sun N, Chen Z and Day R. 2016. Facial expression recognition using digitalised facial features based on active shape model//Proceedings of the 6th International Conference on Computer Science, Engineering and Applications. Dubai, UAE: ICEA: 39-46[DOI: 10.5121/csit.2016.61104]
  • Sun X, Ding X L. 2020. Data augmentation method based on generative adversarial networks for facial expression recognition sets. Computer Engineering and Applications, 56(4): 115-121 (孙晓, 丁小龙. 2020. 基于生成对抗网络的人脸表情数据增强方法. 计算机工程与应用, 56(4): 115-121) [DOI:10.3778/j.issn.1002-8331.1904-0309]
  • Szegedy C, Ioffe S, Vanhoucke V and Alemi A A. 2016. Inception-v4, Inception-ResNet and the impact of residual connections on learning//Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco, USA: AAAI: 4278-4284
  • Xu L L, Zhang S M, Zhao J L. 2019. Expression recognition algorithm for parallel convolutional neural networks. Journal of Image and Graphics, 24(2): 227-236 (徐琳琳, 张树美, 赵俊莉. 2019. 构建并行卷积神经网络的表情识别算法. 中国图象图形学报, 24(2): 227-236) [DOI:10.11834/jig.180346]
  • Xu X M, Quan C Q and Ren F J. 2015. Facial expression recognition based on Gabor wavelet transform and histogram of oriented gradients//Proceedings of 2015 IEEE International Conference on Mechatronics and Automation. Beijing, China: IEEE: 2117-2122[DOI: 10.1109/ICMA.2015.7237813]
  • Yang S, Luo P, Loy C C, Tang X O. 2018. Faceness-Net: face detection through deep facial part responses. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(8): 1845-1859 [DOI:10.1109/TPAMI.2017.2738644]
  • Yao N M, Guo Q P, Qiao F C, Chen H, Wang H A. 2018. Robust facial expression recognition with generative adversarial networks. Acta Automatica Sinica, 44(5): 865-877 (姚乃明, 郭清沛, 乔逢春, 陈辉, 王宏安. 2018. 基于生成式对抗网络的鲁棒人脸表情识别. 自动化学报, 44(5): 865-877) [DOI:10.16383/j.aas.2018.c170477]
  • Yu Z D and Zhang C. 2015. Image based static facial expression recognition with multiple deep network learning//Proceedings of 2015 ACM on International Conference on Multimodal Interaction. Seattle, USA: ACM: 435-442[DOI: 10.1145/2818346.2830595]
  • Zhao G Z, Yang H T, Yu M. 2020. Expression recognition method based on a lightweight convolutional neural network. IEEE Access, 8: 38528-38537 [DOI:10.1109/ACCESS.2020.2964752]