Print

发布时间: 2020-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190286
2020 | Volume 25 | Number 3




    CACIS 2019会议专栏    




  <<上一篇 




  下一篇>> 





应用深度光学应变特征图的人脸活体检测
expand article info 马思源, 郑涵, 郭文
山东工商学院信息与电子工程学院, 烟台 264000

摘要

目的 随着人脸识别系统应用的日益广泛,提高身份认证的安全性,提升人脸活体检测的有效性已经成为迫切需要解决的问题。针对活体检测中真实用户的照片存在的人脸欺骗问题,提出一种新的解决照片攻击的人脸活体检测算法。方法 利用局部二值模式LBP(local binary pattern)、TV-L1(total variation regularization and the robust L1 norm)光流法、光学应变和深度网络实现的人脸活体检测方法。对原始数据进行预处理得到LBP特征图;对LBP特征图提取光流信息,提高对噪声适应的鲁棒性;计算光流的导数得到图像的光学应变图,以表征相邻两帧之间的微纹理性质的微小移动量;通过卷积神经网络模型(CNN)将每个应变图编码成特征向量,最终将特征向量传递给长短期记忆LSTM(long short term memory)模型进行分类,实现真假人脸的判别。结果 实验在两个公开的人脸活体检测数据库上进行,并将本文算法与具有代表性的活体检测算法进行对比。在南京航空航天大学(NUAA)人脸活体检测数据库中,算法精度达到99.79%;在Replay-attack数据库中,算法精度达到98.2%,对比实验的结果证明本文算法对照片攻击的识别更加准确。结论 本文提出的针对照片攻击的人脸活体检测算法,融合光学应变图像和深度学习模型的优点,使得人脸活体检测更加准确。

关键词

人脸活体检测; 局部二值模式; TV-L1光流法; 光学应变; 长短期记忆模型

Deep optical strain feature map for face anti-spoofing
expand article info Ma Siyuan, Zheng Han, Guo Wen
School of Information and Electronic Engineering, Shandong Technology and Business University, Yantai 264000, China
Supported by: National Natural Science Foundation of China (61572296, 61876100);Natural Science Foundation of Shandong Province, China (ZR2015FL020)

Abstract

Objective Increasing application of face recognition systems improves the security of identity authentication systems and the effectiveness of face detection has become an urgent problem. In recent years, the development of face recognition has the advantages that users do not require to cooperate with the recognition equipment, and can recognize face images in a timely manner, with moderate cost, stable security, and intuitive results, thereby making face recognition a widely used technology. Thus, among all biometric features that can achieve spoofing attacks, face spoofing attacks is the first to bear the brunt. An illegal visitor can easily obtain photos of legitimate users in multiple ways, which poses a serious threat to the security system of legitimate users. Therefore, the detection of face anti-spoofing, reduction of threats to face anti-spoofing, and assurance of security of the recognition system are urgent problems to be solved. This paper proposes a novel face detection algorithm to perform photo anti-spoofing. Method According to the single difference clue between images to solve the face anti-spoofing, the algorithm has a problem of low universality. The face anti-spoofing method proposed in this paper combines three differential cues, namely, facial micro-texture change, optical strain feature map, and depth feature network. The entire experimental process combines the micro-texture information analysis method of the image, life information analysis method, and deep learning method, and divides the entire experimental flowchart into local binary patterns (LBP) image local texture feature operator to extract an LBP feature map. The total variation regularization and the robust L1 norm TV-L1 optical flow method extracts image optical flow information, and the optical strain feature describes small changes in the adjacent image frame motion and deep network extraction features, which are eventually classified into four parts. The specific steps of algorithm implementation are described in the following. First, the selected NUAA dataset and Replay-attack dataset are processed into a group of data every 10 frames. After face feature points are located in Dlib, Face++ API is used to extract facial landmarks for face alignment and crop as grayscale images to mask the effect of light on the image recognition. The LBP feature extraction operation is conducted on the cropped grayscale image to obtain the LBP feature map, which can effectively describe the image spatial information. Second, optical flow information is extracted from the LBP feature map to improve the robustness of noise adaptation, and then the derivative of the optical flow is calculated to obtain the optical strain map of the image, thereby characterizing the small amount of movement of the micro-texture properties between successive frames. Finally, convolutional neural network model (CNN) is used to encode each strain map into feature vector to extract the spatial information of the strain image, and then through the feature vector to the long short term memory (LSTM) model to learn the sequential information of the continuous image and perform classified prediction to discriminate between photo attacks used by legitimate or illegal users. Result The experiments are performed on two public human face anti-spoofing databases and compared with the representative algorithm. This paper mainly focuses on the face anti-spoofing detection algorithm for photo spoofing attacks. Therefore, the sample part of the database related to photo attacks is selected as a negative sample of experimental data, and the real face is used as a positive sample. According to the analysis of the experimental results, the NUAA database results show that the accuracy of the proposed algorithm is 99.79% in this study. Compared with the second detection method based on CNN, the algorithm has an accuracy rate that is improved by approximately 1.5%. The experimental results of the Replay-attack database show that the accuracy of our method is 98.2%. The experimental comparison results of our algorithm outperform the state of the art in identifying photo attacks. Conclusion The optical strain maps are used to effectively represent the dynamic spatiotemporal information between frames and these maps are used as the input data to represent the spatial features at time $t$ by encoding them as a fixed length vector using CNN. Thus, the vector is transmitted into LSTM to learn the temporal dynamic information features of the face detection algorithm for photo attack. The face anti-spoofing detection is more accurate when the advantages of the optical strain image and deep learning model are integrated.

Key words

face anti-spoofing; local binary patterns(LBP); total variation regularization and the robust L1 norm(TV-L1) optical flow method; optical strain; long short term memory(LSTM)

0 引言

随着人工智能领域的迅猛发展,利用生物特征进行活体识别的技术也日益成熟,例如指纹识别(张莉等,2017)、虹膜识别(王相海和董钦科,2011)、人脸识别(雷超等,2019)、静脉识别(周宇佳等,2014)等。其中虹膜识别需要借助红外灯配合红外镜头才能取得用于身份识别的虹膜图像,设备造价高,无法大规模推广;虽然指纹识别技术已经能够得到广泛的应用,但其对采集数据的环境有很高的要求,同时手指的湿度、清洁度等敏感因素都会对识别的精度造成影响。静脉识别则存在成本造价高和稳定性较差的问题。人脸识别由于不需要被识别者配合识别设备,在行进过程即可被获取图像,成本适中,安全性稳定,结果直观等优势,使得人脸识别技术应用最为广泛。因而在所有可实现欺骗攻击的上述生物特征中,人脸的欺骗攻击首当其冲。

人脸识别系统通常面临以下几种欺骗攻击:1)照片,非法访问者易从多种途径获得合法用户的照片,对合法用户的安全系统构成威胁;2)视频,随着摄像头,针孔摄像机的应用,非法访问者可以轻松通过不法手段获取合法用户的生活视频。由于视频中所包含的人脸图像特征和动作特征相比单幅图像更为丰富,因此使用盗取的视频更容易攻击人脸检测系统,欺骗手段也更高。

本文主要是针对照片欺骗攻击进行的人脸活体检测算法的研究。如图 1所示,活体真人图像与二次翻拍后的假人脸图像具有较高相似度,肉眼较难区分。因此如何高效、自动地判别图像真伪,实现人脸活体检测,降低人脸攻击威胁,从而确保识别系统的安全性成为了迫切需要解决的问题。

图 1 活体人脸与二次翻拍人脸示例
Fig. 1 Living face and second remake face examples ((a) living face; (b) second remake face)

1 相关工作

目前主流的人脸活体检测算法可以根据识别真假图像间的差异方式划分为两大类,即交互式的人脸活体检测算法和非交互式的人脸活体检测算法。

交互式的人脸活体检测算法主要是基于随机脸部运动、唇语结合声音信息分析两种方式实现。王先基和陈友斌(2013)提出的基于随机脸部运动的活体检测算法,通过对连续多帧人脸图像中有动作发生的区域做二值化处理,提前设定阈值,通过分析包含脸部运动信息的二值化图像的变化与阈值之间的大小关系来判断用户是否完成指定的指令。汪铖杰等人(2015)提出的基于唇语结合声音信息分析的人脸活体检测算法,是通过检测人脸图像唇部动作变化,同时辅助语音识别模块采集用户配合响应的声音信息,通过用户能否根据系统随机的语句正确朗读,以此判别是否为合法用户。

虽然交互式的人脸活体检测算法在2维人脸欺骗检测方面取得不错性能,但是用户需要根据系统指令来提供较为逼真的身份验证信息,整个流程较为繁琐,用户体验感较差,与人脸活体检测需要快速、自然的初衷相违背。为了快速高效地实现活体检测,研究者们提出了非交互式的活体检测算法。

非交互式的人脸活体检测无需用户配合,是通过对输入的真假人脸图像之间的差异分析实现活体判别。非交互式的人脸活体检测算法主要基于微纹理分析、图像质量分析以及生命信息分析等。

基于微纹理分析的活体检测方法中,Määttä等人(2011)主要采用局部二值模式LBP(local binary patterns)将图像编码为增强直方图。针对真假人脸图像具有不同的微纹理的特点,采用多尺度LBP作为判别特征来描述这种微纹理及其空间特征。而Gragnaniello等人(2015)Boulkenafet等人(2017)则用不同的特征,例如尺度不变特征变换(SIFT)、加速鲁棒特性(SURF)和局部相位量化(LPQ)等,来描述这种微纹理。基于微纹理分析的活体检测算法计算量小容易实现,但对拍摄设备和输入图像质量要求较高。

Wen等人(2015)提出基于图像质量分析的活体检测方法,利用镜面反射、模糊度、色距、颜色多样性等有关图像成像质量方面的分析可以提取出真假人脸的照片特征。Akhtar和Foresti(2016)通过选取图像质量差异较为明显的人脸图像块做图像质量评价和图像强度分析,对判别能力强的人脸图像块进行特征提取,将特征送入SVM(support vector machine)中进行人脸分类。基于图像失真分析的活体检测方法计算复杂度低,但对高质量的图像攻击检测性能较差。

基于生命信息分析的活体检测算法,其中,Liu等人(2018)利用远程光学体积描记法rPPG(remote photo plethysmography)信号来检测图像或者视频中的对象是否存在心率以此来判断对象是否为活体。Bao等人(2009)利用光流线OFL(optical flow of lines)对图像的水平和垂直两个方向计算人脸图像的时空差异,通过对人脸微表情造成的肌肉运动的描述来判别活体。基于生命信息分析的人脸活体检测算法对照片类假体攻击识别准确度较高,但是算法复杂度较高,很容易受光照的影响。

仅根据图像间的单一差异线索判别真假人脸,存在算法通用性不高的问题。为了提高人脸活体检测性能,本文提出了一个融合多条真假人脸间的差异线索进行活体检测的方法。将图像的微纹理信息分析方法、图像的生命信息分析方法和深度学习方法相融合,首先使用LBP提取输入图像的局部纹理信息,借助TV-L1光流近似法对相邻图像之间的相对流动信息进行提取,再通过计算光流的导数得到光学应变图像以描述相邻图像间信息的微小移动量,最后结合深度学习强有力的识别性能进行分类。

本文算法的创新点在于:由于真实人脸相邻两帧的面部信息存在相对运动,而假人脸图像无此特性,使用光学应变图像表示相邻两帧之间位置信息的变化,然后使用CNN模型提取应变图像的空间信息,最后将空间信息传入LSTM模型中学习连续图像的时序信息并分类预测,通过实验表明该方法相比传统方法,无需用户刻意配合且识别精度较好。

2 深度光学应变特征图的人脸活体检测算法

深度神经网络在图像识别、文字识别等领域广泛应用,但人脸活体检测领域大部分仍使用经典算法SVM(Määttä等,20112012),将深度学习(Li等,2017)、(Shao等,2017)应用到活体检测领域的进展还相对缓慢。本文提出深度光学应变特征图的人脸活体检测算法,算法包括两个步骤:1)对真假人脸图像进行预处理;2)对预处理后的人脸图像进行深度学习,算法流程图如图 2所示。

图 2 算法流程图
Fig. 2 Algorithm flowchart

预处理过程包括对图像进行人脸关键点定位、人脸裁剪、LBP局部特征提取、TV-L1光流近似法提取光流图像、计算光学应变图像。深度学习部分包括CNN和LSTM,通过CNN将图像编码为特征向量,在学习期间优化目标函数以改善类别可分离性(Khor等,2018),将特征向量输入LSTM中学习与时序相关的特性。

2.1 LBP特征提取

LBP是Ojala等人(2000)提出的可对图像进行局部纹理描述的算子,具有旋转不变性和灰度不变性。图像灰度化可屏蔽光照对图像造成的影响,所以在LBP提取图像的局部纹理信息之前将图像做灰度化处理。利用LBP局部特征描述子能够提取灰度图像的局部细纹理信息,对空间信息能很好描述。

本文先将人脸图像做灰度化处理,经过人脸对齐裁剪后将图像尺寸归一化为64×64像素大小,之后对归一化的人脸灰度图像使用LBP局部特征算子提取局部纹理信息特征,处理过程如图 3所示。

图 3 LBP特征图
Fig. 3 LBP feature map

先对图像进行LBP局部纹理信息提取,为后续使用光流法处理图像做准备。对点($x_{c}$, $y_{c}$)计算LBP,即

$ L_{B P}\left(x_{c}, y_{c}\right)=\sum\limits_{i=0}^{P-1} 2^{i} S\left(x_{i}-x_{c}\right) $ (1)

式中,($x_{c}$, $y_{c}$)为中心像素坐标,$P$为邻域像素点个数, $i$为邻域像素点的标号,$x_{c}$为中心像素的灰度值,$x_{i}$为邻域内第$i$个像素点的灰度值,$S$为符号函数,即

$ S(x)=\left\{\begin{array}{ll} 1 & x \geqslant 0 \\ 0 & 其他 \end{array}\right. $ (2)

2.2 TV-L1光流近似法

在对图像提取LBP纹理特征后,借助活体人脸和攻击人脸之间存在明显生命特征的区别,选择TV-L1光流近似法提取相邻两帧之间的流动信息。

TV-L1光流近似法由Zach等人(2007)提出,用于计算两个图像帧之间的光流信息,表示图像间运动信息的流动,其主要的计算方式是基于总变差(TV)正则化和数据保真度方面的鲁棒L1范数。

本文算法中TV-L1光流近似法的作用是对相邻两帧图像水平方向和垂直方向两个维度提取流动信息,表示连续图像帧之间的时空差异。由于TV-L1光流近似法具有鲁棒性更好和保持流动不连续的能力,故对处理过后的LBP特征图使用TV-L1光流近似法进行光流提取。光流提取流程如图 4所示。

图 4 光流法
Fig. 4 Optical flow method

光流的实现方式是用矢量化符号来表征图像像素的流动强度与方向,光流的水平方向和垂直方向的分量定义为

$ \boldsymbol{O}=\left[\theta=\frac{d_{x}}{d_{\mathrm{t}}}, r=\frac{d_{y}}{d_{\mathrm{t}}}\right]^{\mathrm{T}} $ (3)

式中,($d_{x}$, $d_{y}$)表示水平方向和垂直方向的像素变化量,$d_{\rm t}$表示时间变化量, $θ、r$代表流图像的水平、垂直运动矢量。光流约束方程计算为

$ \nabla \boldsymbol{I} \cdot \boldsymbol{O}+\boldsymbol{I}_{{\rm t}}=0 $ (4)

式中,$\nabla \boldsymbol{I}=\left(\boldsymbol{I}_{x}, \boldsymbol{I}_{y}\right)$是图像强度在$(x, y)$处的梯度向量,$\boldsymbol{I}_{\rm t}$是强度函数的时间梯度。

2.3 图像应变特征

在提取相邻两帧图像之间的运动信息并用矢量化符号表示后,可推导出人脸像素运动模式的3个特征(Shreve等,2011):1)方向,即图像像素流动的方向;2)幅度,即图像像素运动的强度;3)光学应变,即微小形变强度。

通过计算光流的导数来获得光学应变,借助光学应变,可以正确表征两个连续帧之间存在的可变形物体的微小移动量(Khor等,2018)。

根据光流向量计算光学应变$ε$,计算流程图如图 5所示。对于足够小的面部像素的运动,它能够近似变形强度,也称为最小应变张量。简而言之,在执行几何线性化之后,最小应变张量来自拉格朗日和欧拉应变张量(Simo和Hughes,2008)。在位移方面,典型的极限应变($\boldsymbol{ε}$)定义为

图 5 光学应变处理
Fig. 5 Optical strain processing

$ \boldsymbol{\varepsilon}=\frac{1}{2}\left[\nabla \boldsymbol{u}+(\nabla \boldsymbol{u})^{\mathrm{T}}\right] $ (5)

式中,$\boldsymbol{u}=[\boldsymbol{u}, \boldsymbol{v}]^{\mathrm{T}}$为位移矢量。

$ \boldsymbol{\varepsilon}=\left[\begin{array}{ll} &\varepsilon_{x x}=\frac{\delta_{u}}{\delta_{x}} & \varepsilon_{x y}=\frac{1}{2}\left(\frac{\delta_{u}}{\delta_{y}}+\frac{\delta_{v}}{\delta_{x}}\right)\\ &\varepsilon_{y x}=\frac{1}{2}\left(\frac{\delta_{v}}{\delta_{x}}+\frac{\delta_{u}}{\delta_{y}}\right) \quad \varepsilon_{y y}=\frac{\delta_{v}}{\delta_{y}} \end{array}\right] $ (6)

式中,对角线应变分量($ε_{xx}$, $ε_{yy}$)是法向应变分量,($ε_{xy}$, $ε_{yx}$)是剪切应变分量。具体而言,法向应变分量沿着特定方向的长度变化,而剪切应变分量表示两个角度的变化。每个像素的光学应变幅度可以通过取法向和剪切应变分量的平方和来计算

$ \left|\varepsilon_{x, y}\right|=\sqrt{\varepsilon_{x x}^{2}+\varepsilon_{y y}^{2}+\varepsilon_{x y}^{2}+\varepsilon_{y x}^{2}} $ (7)

2.4 深度神经网络

深度学习模型的广泛应用(Krizhevsky等,2012Szegedy等,2015He等,2016),证明了非线性函数许多“层”的组合可以实现各种计算机视觉问题(Shao等,2017),例如目标识别和目标检测。在神经网络训练部分,光学应变图作为输入数据先使用CNN编码为固定长度的矢量,表示时间$t$处的空间特征。之后,将矢量传入到LSTM用来学习时间动态信息特征。

卷积神经网络具有表征学习的能力,它可按照网络结构对输入的信息进行平移不变分类,对于解决图像分类和目标检测的问题,简洁且实用。由于前期数据预处理得到的光学应变图已经很好地表征了图像的特征信息,且在本文算法中CNN主要是用做全局特征的再提取和特征编码,所以仅采用了2层卷积层、2层池化层、3层全连接层来构建卷积网络。采用这样的卷积神经网络既可达到相应的效果,也可以较快地训练模型。其中卷积层、池化层和前两层全连接层采用ReLU作为激活函数,最后一层全连接层使用Softmax作为激活函数。实验参数设置:卷积层1和卷积层2分别由20个和40个卷积核组成,卷积核的尺寸均设置为3×3,步长设置为1;池化层1和池化层2选择最大池化的方式,池化面积设置为3×3。因为针对人脸活体检测领域的实验,使用数据的活体与非活体标签完成训练CNN模型后,由于最终输出的特征向量维度为2,不足以有效地表征图像信息,故选取CNN模型的倒数第2层4 096个特征作为LSTM的输入。

实验利用2层卷积和2层池化挖掘图像信息,实现特征提取,最后的全连接层(FC)将输入数据编码成4 096个固定长度的特征向量,表征在时间$t$的空间信息,送入LSTM模型中学习时序信息。最后根据LSTM的分类结果完成活体检测判别。网络架构图如图 6所示。

图 6 网络架构
Fig. 6 Network architecture

LSTM循环神经网络(田野和项世军,2018; 龙敏和佟越洋,2018),是在普通的BP神经网络架构的基础上,增加了各个隐藏层单元间的横向联系。主要思想是通过一个权重矩阵,将上一个时间序列的神经单元的输出值传递给下一神经元,使神经网络增加了记忆能力。光流和应变图像的存在是对相邻两帧图像之间有位置信息变化最好的表达。使用应变图像表示上下两帧图像的流动信息,利用LSTM架构学习图像之间的时空关系。

3 实验结果与分析

本文算法是基于Tensorflow和Keras深度学习框架、使用Python语言实现。为验证本文算法的有效性,将本文提出的活体检测算法与部分人脸活体检测算法作对比实验。其中,卷积神经网络选择随机梯度下降SGD(stochastic gradient descent),优化器,学习率为0.000 1,衰减为0.000 1,动量0.9,采用交叉熵损失函数。循环神经网络使用自适应矩估计优化器Adam(adaptive moment estimation),学习率为0.000 01,衰减为0.000 1,采用交叉熵损失函数。卷积神经网络下,南京航空航天大学(NUAA)人脸活体检测数据库迭代轮数为1 000轮,Replay-Attack数据集迭代轮数为400轮。循环神经网络下,NUAA数据集迭代轮数为130轮,Replay-Attack数据集迭代轮数为200轮。

3.1 实验数据库介绍

人脸活体检测算法实验是在公开的NUAA人脸活体检测数据库和Replay-Attack人脸活体检测数据库上进行。

NUAA数据库是由南京航空航天大学公开的反照片欺骗的人脸活体数据库。利用普通的摄像头在3种不同的环境下对15个个体采集活体人脸图像和照片攻击图像,这个数据集几乎涵盖了人脸识别中常见的所有外观变化,包括光照变化,眼镜佩戴,图像位置等。数据库中采集的人脸图像的原始尺寸大小是640×480像素,数据量如表 1所示。

表 1 NUAA数据库数据分布
Table 1 NUAA database data distribution

下载CSV
/幅
真实人脸 攻击人脸 总数
训练集 1 743 1 748 3 491
测试集 3 362 5 761 9 123
总数 5 105 7 509 12 614

Replay-Attack数据库是由瑞士的Idiap研究所提出,具有较强代表性的人脸活体检测数据库。数据库包括50人在不同的光照条件下1 300个关于照片攻击和视频攻击的样本,图像分辨率是320×240像素。本文主要针对照片欺骗攻击进行的人脸活体检测算法进行研究,所以选择数据库中有关照片攻击的样本部分作为实验数据的负样本,真实人脸作为正样本。

实验中,为降低光照变化的影响,在通过人脸对齐和裁剪后将所有图像调整为64×64像素大小的灰色图像。

3.2 数据预处理

对输入的人脸图像,首先采用Dlib对NUAA数据库和Replay-Attack数据库进行预处理以实现面部对齐,同时使用Face++API提取面部地标。然后根据脸部边缘选定脸部标志对输入的图像帧进行人脸裁剪后将人脸图像帧尺寸归一化为64×64像素大小的灰度图像,将经过规整化后的图像帧提取LBP局部纹理特征,再利用TV-L1光流近似法提取光流信息,利用图像的光流图像计算得到应变图像以实现对输入数据的预处理过程。数据预处理流程如图 7所示。

图 7 数据预处理流程
Fig. 7 Flowchart of data preprocessing

实验数据包含两部分:

1) 从真实合法用户的人脸采集的照片作为正样本;

2) 对真实用户的人脸照片二次翻拍后的图像作为负样本。

数据中,80%为训练集,20%为测试集,由于应变图像的来源是相邻两帧图像之间的信息流动,所以在本文实验中将每个人同场景下的图像每10帧设置为一组,在对数据预处理后,将图像送入深度学习部分抽取图像时空信息并分类。通过实验结果分析显示了本文方法与其他方法相比在识别率上有很大的提升。

3.3 实验结果分析

为验证本文算法的有效性,将本文活体检测算法与传统的检测算法作实验对比。

表 2描述了NUAA数据库上各算法的实验结果。可以看出,基于人工提取人脸特征的LTP(local ternary pattern)人脸活体检测算法,与其他算法相比,对人脸活体判别性能较差。Määttä等人(2011)提出的基于LBP局部纹理信息的人脸活体检测算法和基于LBP、方向梯度直方图HOG(histogram of oriented gradient)和Gabor描述子的人脸活体检测算法(Määttä等,2012)在2维人脸欺骗领域效果比较突出,相比LTP算法(Parveen等,2016)检测效果仍有优势。Yang等人(2013)提出的CDD(component dependent descriptor)检测算法通过对人脸的背景框进行优化,人脸边界框识别更为准确,活体判别效果较大提升,达到97.7%。基于深度学习的人脸活体检测算法CNN展现了深度学习的优势,对人脸图像特征精确提取,使得算法精度达到98.45%。本文算法将CNN和LSTM结合,对连续多帧光学应变图像提取时空信息。本文算法精度达到99.79%。实验结果表明本文算法对照片欺骗攻击有很好的识别效果。

表 2 NUAA数据集上不同算法性能
Table 2 Performance of different algorithms on NUAA dataset

下载CSV
/%
活体检测算法 准确率 误判率
LTP(Parveen等人,2016) 91.10 8.90
LBP (Määttä等人,2011) 94.30 5.70
LBP + HOG +Gabor (Määttä等人,2012) 95.80 4.20
CDD(Yang等人,2013) 97.70 2.30
CNN 98.45 1.55
本文 99.79 0.21
注:加粗字体表示最优结果。

图 8图 9描述了CNN的精度和损失随迭代轮数增加各自的变化趋势,可以看出,随着迭代轮数的增加,CNN的精度逐渐上升,损失逐渐降低,当迭代轮数达到800轮时,整体变化趋于平稳,精度稳定在94%左右不再上升,已较好地提取到图像的空间信息,但无法达到很好的分类效果。因此,将CNN模型倒数第2层提取到的图像特征传入LSTM中以学习图像的时序特征并分类。

图 8 CNN的精度收敛曲线
Fig. 8 CNN accuracy convergence curve
图 9 CNN的损失收敛曲线
Fig. 9 CNN loss convergence curve

图 10图 11描述了LSTM的精度和损失随迭代轮数的增加各自的变化趋势。通过分析可以看出,由于CNN较好地提取到了图像的空间信息,所以LSTM能较快地学习图像间的时序信息。随着迭代轮数的增加,精度上升较快,损失逐渐降低,当迭代轮数达到100轮时,损失变化趋于平缓。LSTM的精度达到99.79%。为验证算法的有效性,选择Replay-Attack数据库再次验证。

图 10 LSTM的精度收敛曲线
Fig. 10 LSTM accuracy convergence curve
图 11 LSTM的损失收敛曲线
Fig. 11 LSTM loss convergence curve

表 3展示了在Replay-Attack数据库上本文人脸活体检测算法的实验结果。可以看出,在Replay-Affack数据库上,基于CNN实现的活体检测算法与通过学习识别人脸微纹理变化的MLBP(multi-scale local binary patterns)算法相比有更好的实验结果,而本文算法精度达到98.2%,验证了神经网络融合时域和空域提取的图像纹理特征可以有效分辨真实人脸与二次翻拍人脸。

表 3 Replay-Attack数据库上各算法性能
Table 3 Algorithm performance on Replay-Attack datasets

下载CSV
/%
活体检测算法 准确率 误判率
MLBP(Määttä等人,2011) 93.45 6.55
CNN 98.15 1.85
本文 98.20 1.80
注:加粗字体表示最优结果。

图 12图 13描述了CNN的精度和损失随迭代轮数的增加各自的收敛曲线,通过分析可以得出,随着迭代轮数的增加,CNN的精度逐渐上升,损失逐渐降低,最终精度达到89%左右,已较好地提取到图像的空间信息,所以将CNN模型倒数第2层提取到的图像特征传入LSTM中以学习图像的时序特征并分类。

图 12 CNN的精度收敛曲线
Fig. 12 CNN accuracy convergence curve
图 13 CNN的损失收敛曲线
Fig. 13 CNN loss convergence curve

图 14图 15描述了LSTM的精度和损失随着迭代轮数的增加各自的变化趋势。可以看出,随着迭代轮数的增加,LSTM的精度上升较快,损失逐渐降低。当迭代轮数达到60轮时,整体变化趋于平缓。LSTM精度稳定在98.2%左右。经过两个数据集的验证,本文算法在针对照片攻击的人脸活体检测有较好的识别效果。

图 14 LSTM的精度收敛曲线
Fig. 14 LSTM accuracy convergence curve
图 15 LSTM的损失收敛曲线
Fig. 15 LSTM loss convergence curve

本文提出的人脸活体检测算法在NUAA数据库和Replay-Attack数据库上获得99.79%和98.2%的识别率,验证了本文算法的有效性。即通过光学应变图像表征图像像素的微小移动,再结合卷积神经网络和循环神经网络可提取图像时空信息的能力,能够较好地提升照片类攻击的人脸活体检测的性能。

4 结论

针对人脸活体检测算法中的照片攻击类问题,本文利用LBP特征图和光流应变信息结合深度神经网络提出一种新的人脸活体检测算法。首先使用LBP将对齐裁剪后的人脸图像进行局部特征提取,然后把得到的LBP特征图输入光流场中,结合TV-L1光流近似法对相邻帧计算运动关系得到光流图像来表征图像像素的微小移动,然后对光流进行相关计算得到光学应变图像,应变图像能够有效地表示帧与帧之间的动态时空信息。之后利用CNN提取图像空间特征,再利用LSTM得到图像时序信息对真假人脸进行分类,通过实验验证了本文方法的有效性,并且相对于目前已有的活体检测算法能够更好地进行分类识别而不需要用户的刻意配合。下一步将验证该算法是否对非照片攻击的人脸活体检测情况同样具有适应性。

参考文献

  • Akhtar Z, Foresti G L. 2016. Face spoof attack recognition using discriminative image patches. Journal of Electrical and Computer Engineering, 2016: 4721849 [DOI:10.1155/2016/4721849]
  • Bao W, Li H, Li N and Jiang W. 2009. A liveness detection method for face recognition based on optical flow field//Proceedings of 2009 International Conference on Image Analysis and Signal Processing. Taizhou, China: IEEE: 233-236[DOI: 10.1109/IASP.2009.5054589]
  • Boulkenafet Z, Komulainen J, Hadid A. 2017. Face antispoofing using speeded-up robust features and fisher vector encoding. IEEE Signal Processing Letters, 24(2): 141-145 [DOI:10.1109/LSP.2016.2630740]
  • Gragnaniello D, Poggi G, Sansone C, Verdoliva L. 2015. An investigation of local descriptors for biometric spoofing detection. IEEE Transactions on Information Forensics and Security, 10(4): 849-863 [DOI:10.1109/TIFS.2015.2404294]
  • He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.LasVegas: IEEE: 770-778[DOI: 10.1109/CVPR.2016.90]
  • Khor H Q, See J, Phan R C W and Lin W Y. 2018. Enriched long-term recurrent convolutional network for facial micro-expression recognition//Proceedings of the 13th IEEE International Conference on Automatic Face and Gesture Recognition. Xi'an, China: IEEE: 667-674[DOI: 10.1109/FG.2018.00105]
  • Krizhevsky A, Sutskever I and Hinton G E. 2012. ImageNet classification with deep convolutional neural networks//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe: Curran Associates Inc.: 1097-1105
  • Lei C, Zhang H Y, Zhan S. 2019. Local texture features on the mesh for 3D face recognition. Journal of Image and Graphics, 24(2): 215-226 (雷超, 张海燕, 詹曙. 2019. 结合曲面局部纹理特征的3维人脸识别. 中国图象图形学报, 24(2): 215-226) [DOI:10.11834/jig.180447]
  • Li L, Feng X Y, Jiang X Y, Xia Z Q and Hadid A. 2017. Face anti-spoofing via deep local binary patterns//Proceedings of 2017 IEEE International Conference on Image Processing. Beijing: IEEE: 101-105[DOI: 10.1109/ICIP.2017.8296251]
  • Liu S Q, Lan X Y and Yuen P C. 2018. Remote photoplethysmography correspondence feature for 3D mask face presentation attack detection//Proceedings of the 15th European Conference on Computer Vision. Munich: Springer: 577-594[DOI: 10.1007/978-3-030-01270-0_34]
  • Long M, Tong Y Y. 2018. Research on face liveness detection algorithm using convolutional neural network. Journal of Frontiers of Computer Science and Technology, 12(10): 1658-1670 (龙敏, 佟越洋. 2018. 应用卷积神经网络的人脸活体检测算法研究. 计算机科学与探索, 12(10): 1658-1670) [DOI:10.3778/j.issn.1673-9418.1801009]
  • Määttä J, Hadid A and Pietikäinen M. 2011. Face spoofing detection from single images using micro-texture analysis//Proceedings of 2011 International Joint Conference on Biometrics. Washington: IEEE: 1-7[DOI: 10.1109/IJCB.2011.6117510]
  • Määttä J, Hadid A, Pietikäinen M. 2012. Face spoofing detection from single images using texture and local shape analysis. IET Biometrics, 1(1): 3-10 [DOI:10.1049/iet-bmt.2011.0009]
  • Ojala T, Pietikainen M and Mäenpää T. 2000. Gray scale and rotation invariant texture classification with local binary patterns//Proceedings of the 6th European Conference on Computer Vision. Dublin: Springer: 404-420[DOI: 10.1007/3-540-45054-8_27]
  • Parveen S, Ahmad S M S, Abbas N H, Adnan W A W, Hanafi M, Naeem N. 2016. Face liveness detection using Dynamic Local Ternary Pattern (DLTP). Computers, 5(2): 10 [DOI:10.3390/computers5020010]
  • Shao R, Lan X Y and Yuen P C. 2017. Deep convolutional dynamic texture learning with adaptive channel-discriminability for 3D mask face anti-spoofing//Proceedings of 2017 IEEE International Joint Conference on Biometrics. Denver, CO, USA: IEEE: 748-755[DOI: 10.1109/BTAS.2017.8272765]
  • Shreve M, Godavarthy S, Goldgof D and Sarkar S. 2011. Macro- and micro-expression spotting in long videos using spatio-temporal strain//Proceedings of Face and Gesture 2011. SantaBarbara: IEEE: 51-56[DOI: 10.1109/FG.2011.5771451]
  • Simo J C and Hughes T J R. 2008. Computational Inelasticity. Beijing: World Pub. Corp
  • Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V and Rabinovich A. 2015. Going deeper with convolutions//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston: IEEE: 1-9[DOI: 10.1109/CVPR.2015.7298594]
  • Tian Y, Xiang S J. 2018. LBP and multilayer DCT based anti-spoofing countermeasure in face liveness detection. Journal of Computer Research and Development, 55(3): 643-650 (田野, 项世军. 2018. 基于LBP和多层DCT的人脸活体检测算法. 计算机研究与发展, 55(3): 643-650) [DOI:10.7544/issn1000-1239.2018.20160417]
  • Wang C J, Li J B, Huang F Y, Sheng K K and Dong W M. 2015. A method and an apparatus for face detection algorithm assessment. CN104966046A (汪铖杰, 李季檩, 黄飞跃, 盛柯恺, 董未名. 2015.一种人脸关键点位定位结果的评估方法, 及评估装置.中国, CN104966046A)
  • Wang X H, Dong Q K. 2011. An kind of iris recognition algorithm based on 2D-PLDA and wavelet subband. Journal of Image and Graphics, 16(1): 59-65 (王相海, 董钦科. 2011. 一种基于2D-PLDA和小波子带的虹膜识别算法. 中国图象图形学报, 16(1): 59-65) [DOI:10.11834/jig.20110102]
  • Wang X J and Chen Y B. 2013. A living body face detection method and system. CN, CN103440479A (王先基, 陈友斌. 2013.一种活体人脸检测方法与系统.中国, CN103440479A)
  • Wen D, Han H, Jain A K. 2015. Face spoof detection with image distortion analysis. IEEE Transactions on Information Forensics and Security, 10(4): 746-761 [DOI:10.1109/TIFS.2015.2400395]
  • Yang J W, Lei Z, Liao S C and Li S Z. 2013. Face liveness detection with component dependent descriptor//Proceedings of 2013 International Conference on Biometrics. Madrid: IEEE: 1-6[DOI: 10.1109/ICB.2013.6612955]
  • Zach C, Pock T and Bischof H. 2007. A duality based approach for realtime TV-L1 optical flow//Proceedings of the 29th DAGM Symposium. Heidelberg: Springer: 214-223[DOI: 10.1007/978-3-540-74936-3_22]
  • Zhang L, Li F, Wu K T. 2017. Directionless triangle-matching fingerprint recognition. Journal of Image and Graphics, 22(9): 1214-1221 (张莉, 李甫, 吴开腾. 2017. 无方向的三角形匹配指纹识别. 中国图象图形学报, 22(9): 1214-1221) [DOI:10.11834/jig.160489]
  • Zhou Y J, Liu Y Q, Yang F, Huang J. 2014. Palm-vein recognition based on oriented features. Journal of Image and Graphics, 19(2): 243-252 (周宇佳, 刘娅琴, 杨丰, 黄靖. 2014. 基于方向特征的手掌静脉识别. 中国图象图形学报, 19(2): 243-252) [DOI:10.11834/jig.20140210]