Print

发布时间: 2023-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.220513
2023 | Volume 28 | Number 3




    图像取证    




  <<上一篇 




  下一篇>> 





结合面部纹理和前/背景差异的人脸活体检测
expand article info 朱建秋1, 华阳1, 宋晓宁1, 吴小俊1, 冯振华2
1. 江南大学人工智能与计算机学院, 无锡 214122;
2. 萨里大学计算机系, 英国吉尔福德 GU2 7XH

摘要

目的 人脸活体检测是人脸识别技术安全的重要保障,而背景环境的负面干扰是限制检测系统性能的关键问题。针对这一问题,提出了一种基于面部纹理和前/背景差异分析的人脸活体检测模型。方法 首先,基于新型骨干网络构建面部纹理分析模块,为模型提供充足的面部纹理信息,减缓模型受背景差异的负面干扰;接着,结合边缘检测算法思想对前/背景差异分析模块的卷积核重新改写,以此突出面部边缘的细节特征;最后,设计注意力特征融合模块将两个分流模块有机结合,提升模型在各种复杂环境下的可靠性。结果 在CASIA-MFSD(CASIA-mobile face spoofing dataset)、Replay-Attack和OULU-NPU等3个数据集上做了多组对比实验,在CASIA-MFSD数据集上的等错误率(equal error rate,EER)为0.19%,在Replay-Attack数据集上的等错误率和半错误率(half total error rate,HTER)均为0.00%和0.00%,在OULU-NPU数据集4个协议上的平均分类错误率(average classification error rate,ACER)分别达到0.6%、1.9%、1.9±1.2%和3.7±1.1%。结论 在人脸反欺诈模型中融合前/背景差异信息和面部纹理信息,可有效减缓背景环境带来的负面干扰,提升模型的鲁棒性。所提模型在背景复杂、欺诈攻击方式尖锐的数据集上均取得较低的错误率,较同类先进算法具有明显优势。

关键词

人脸活体检测(FAS); 边缘检测; 纹理特征; 注意力特征融合; 人脸识别

Human facial texture and fore-background differences-relevant anti-spoofing detection
expand article info Zhu Jianqiu1, Hua Yang1, Song Xiaoning1, Wu Xiaojun1, Feng Zhenhua2
1. School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi 214122, China;
2. Department of Computer Science, University of Surrey, Guildford GU2 7XH, UK
Supported by: National Social Science Fundation of China(21&ZD166);National Natural Science Foundation of China(61876072); Natural Science Foundation of Jiangsu Province, China(BK20221535)

Abstract

Objective Human-relevant face recognition is often vulnerable for a spoofing attacks-involved system. In this scenario, face information-verified is projected for that. To optimize face recognition system, face anti-spoofing (FAS) has been concerned in recent years. It can provide a security barrier for face recognition systems in practice. Conventional FAS methods are still restricted by handcrafted features and shallow classifiers, and end-to-end trained deep neural networks. Specific attacks are dealt with only because they are sensitive and vulnerable to facial appearance variations in pose, expression, illumination, makeup, occlusion, etc.. In contrast, deep neural network (DNN) based face anti-spoofing algorithms have the capability in distinguishing real and spoofing faces in unconstrained scenarios. Nevertheless, the existing deep learning based FAS methods also have two problems to be challenged: 1) a universal convolution layer and computational complexity and 2) complex background distractions. Although the diversity of background is beneficial to improve the robustness of a trained deep neural network, the performance may degrade when the background contour and exposure degree become the key for face anti-spoofing. For example, a trained model may rely on background features severely and pay less attention to the facial area, resulting in poor generalization for unclear scenarios. Method To resolve the issues mentioned above, we develop a novel facial texture information-based face anti-spoofing model and its relevant fore-background difference analysis. The proposed method has two main modules: 1) facial texture analysis (FTA) and 2) fore-background difference analysis (FBDA). First, the FTA is used to extract rich facial information for FAS, and a mask is used to process an input image in terms of face region-activated only. Next, the ConvNeXt is used to extract facial features-masked. It is required to be coordinated with FBDA although FTA-extracted facial information can alleviate background differences-introduced interference effectively. The challenge is that FTA may overfit to the training data due to the lack of background information. Third, to reduce computational complexity of the convolution kernel and eliminate the redundancy information of the extracted features, the convolution kernel of a backbone network is redesigned in terms of the mechanism of edge detection in the FBDA module. Our convolution kernels proposed consists of 1) sobel horizontal (vertical) convolution kernels for detecting horizontal (vertical) edge information and 2) a convex convolution kernel for detecting face contours. To improve the efficiency of a deep network, the proposed kernels have less parameter compared to the universal convolution kernel. Furthermore, the network can capture more fine-grained information of an input image in terms of the proposed convolution kernels-cascaded. Finally, to highlight the potentials of these two modules, an attention fusion module is designed and used to balance the contribution of the extracted facial texture information for spoofing detection. In particular, to improve the reliability and robustness of the proposed method, a multiple scenario-oriented attention fusion module is developed. To validate the proposed method, three kinds of datasets of are used, including CASIA-MFSD dataset, Replay-Attack dataset, and OULU-NPU dataset. In our experiments, comparative analysis is carried out based on the same evaluation metrics of those are 1) equal error rate (EER), 2) half total error rate (HTER), and 3) average classification error rate (ACER). Result Our optimization achieves 0.19% in terms of EER on the CASIA-MFSD dataset, 0.00% in EER and 0.00% in HTER on the Replay-Attack dataset, and 0.6%, 1.9%, 1.9±1.2%, and 3.7±1.1% in terms of ACER on the four subsets of the OULU-NPU dataset. To evaluate the performance of our method for unclear environments, the cross-dataset evaluations are employed on CASIA-MFSD and Replay-Attack as well. Trained on CASIA-MFSD, it achieves 17.1% in HTER on the Replay-Attack test set. Trained on Replay-Attack, it achieves 27.4% on the CASIA-MFSD test set in terms of HTER. The comparative analysis is demonstrated that our optimization has its lower error rates on several complex data sets and performs better for unclear environments. Conclusion A novel face anti-spoofing model is developed using the front/background difference information and facial texture information, which can effectively alleviate the difficulties posed by complex background, resulting in better robustness of a trained deep network. To harness a new strategy for practical applications of face spoofing detection, our algorithm is proposed. It can improve the generalization capability of the trained model under unclear scenarios in accordance with more attention weight of the extracted facial texture features. Limitation the accuracy of our method is still not optimal for the datasets for a single background.

Key words

face anti-spoofing detection(FAS); edge detection; texture feature; attention feature fusion; face recognition

0 引言

人脸识别技术因其精确且非接触的优点广泛应用于社会中的各种场所。但其在给日常生活带来便利的同时,也带来了一些安全问题。相比于其他生物特征如指纹、虹膜等,人脸的图像和视频相对容易获取,隐私性较差,不法分子可通过获取他人的人脸信息结合各类如图像打印、视频回放和3D人脸面具等活体攻击方式(presentation attack,PA)骗过人脸识别系统。因此,验证人脸信息是否真实可靠是人脸识别技术可行的必要前提(谢晓华等,2022)。为了抵挡一系列的欺诈攻击,人脸活体检测(又称人脸反欺诈)(face anti-spoofing,FAS)技术显得尤为重要,为人脸识别系统的真正落地使用提供了安全屏障。

目前人脸活体检测的主流方法包括传统方法和基于深度学习的方法。传统方法使用手工算子提取的特征训练网络,利用纹理特征和频域特征区分真实人脸和欺骗人脸。例如,LBP(local binary pattern)(Boulkenafet等,2015)、HOG(histogram of oriented)(Komulainen等,2013)、SIFT(scale invariant transform)(Patel等,2016)和SURF(speeded up robust features)(Boulkenafet等,2017a)等,虽然这类方法取得了不错的成果,但使用人工提取到的特征很容易受到外部因素的干扰,往往只能针对特定的攻击方式或者某种特定的条件,导致算法设计成本高,适用范围小。与之相比,深度学习算法提出使用端到端训练的模型,即便在不同数据环境中也可以拟合出具备区分真假人脸能力的特征提取模块。具备代表性的基于卷积神经网络(convolution neural network,CNN)的各类框架在这项任务中有着更好的表现。例如,Xu等人(2015)引入了CNN-LSTM(long short term memory)网络结构,使用多帧图像作为输入使模型学习到时序特征信息,并证明了一定程度的背景信息有助于模型区分真假人脸。Mohammadi等人(2020)以DenseNet模块为基础框架,根据数据集的特性引导模型训练,使之在各个环境下都具备较好表现。Zhou等人(2021)以ResNet为基础框架设计人脸反欺诈模型,通过改进特征对齐的方式提升模型的泛化能力。这些框架中影响范围最广的是Atoum等人(2017)引入的DepthNet,该框架发现不同深度下的特征信息对模型的精度都存有正向的激励作用,将其作为决策依据可以大幅提升模型的整体性能。在此基础上,Yu等人(2020b)针对欺诈检测任务对图像纹理特征的特殊要求设计了中心差分卷积(central difference convolution,CDC)核,一定程度上提高了模型的泛化能力和判别能力。

然而,面对复杂的欺诈攻击,当前已有的深度学习方法仍存有两点不足。其一,如图 1所示,这类方法易受环境和设备差异的干扰。尽管一定程度的背景信息有利于提升模型的鲁棒性,但当背景的轮廓变化和曝光差异成为模型判别真假人脸的主要依据时,模型会过度依赖背景特征,减少对面部信息的关注,导致其在陌生环境下的精度不足,鲁棒性较差。其二,普通卷积核提取特征的普适性强,但对人脸反欺诈检测任务并不具备针对性,当前的深度学习算法更多侧重网络模型的优化,忽略了传统手工算子在特征提取上的有效性,而CDC卷积核计算复杂,降低了模型效率且带来过高的冗余信息,限制了模型的整体性能。

图 1 人脸反欺诈检测常见问题
Fig. 1 Common problems in face anti-spoofing detection

为弥补上述模型的不足,本文提出一种基于面部纹理和前/背景差异分析的人脸反欺诈双流双任务模型,包含面部纹理分析(facial texture analysis,FTA)和前/背景差异分析(fore-background differences analysis,FBDA)两个主要特征提取模块。首先,为减缓复杂背景带来的负面干扰,本文构建FTA模块为检测模型提供有效的面部信息。即用PRNet(position map regression network)(Feng等,2018)深度图生成的掩码器将该模块的输入图像处理至仅凸显人脸区域,并用深度图标签对该模块进行辅助训练。为了使面部纹理特征更为丰富,本文采用基于ConvNeXt(Liu等,2022)的骨干网络提取纹理特征。其提供的丰富面部信息可使FTA模块不受背景差异的干扰。同时,本文结合边缘检测算法思想对模型的主干卷积核重新改写,以规避普通卷积核计算效率低和所提特征信息冗余的问题。其中包括用于检测横(纵)边缘信息的Sobel横(纵)向卷积核以及用于检测人脸凸型轮廓的凸型卷积核。相比与普通卷积核,这3种卷积核参数少、针对性更强,级联使用可获得更多的图像细粒度信息,有效提升了模型提取特征的能力。值得注意的是,单独使用FTA或FBDA模块检测欺诈人脸都会因背景信息的不恰当使用而导致模型精度下降。因此,将两者结合使用更具备实际效益。为了有机结合这两个模块的优点,本文受全局注意力机制(global attention mechanism,GAM)(Liu等,2021b)的空间注意力子模块启发,设计了一种有效的注意力特征融合模块。在检测包含复杂背景的人脸图像的过程中,模型受面部纹理信息的注意力加权,以此保障模型在不同环境下的高精确性,使其在实际应用中的综合性能更突出。

本文主要贡献如下:1)构建一种提取面部细粒度信息的面部纹理分析模块,结合ConvNeXt提取丰富的面部特征,强化模型在复杂背景环境下的性能;2)设计了3种基于边缘检测的新型卷积核,并级联构建了前/面差异分析模块,提升模型主干网络对边缘细节和纹理特征的感知力;3)建立一种新型的注意力融合模块,将所提两个特征提取模块的优势有机融合,使模型在复杂环境下兼顾了鲁棒性和高精确性。

1 相关工作

人脸反欺诈检测早期的研究主要基于传统的机器学习算法,这类算法通常使用手工提取特征,如LBP、HOG、SIFT和SURF等。然而,这些特征与分类器的关联性不足,模型整体的性能会随着数据集复杂性的增加而降低。随着深度学习的兴起,使用基于卷积神经网络的可训练的特征提取模块逐渐成为提取特征的主流方法。Yang等人(2014)首次将CNN引入活体检测任务中,先用CNN提取原始图像的特征,再送入支持向量机(support vector machines,SVM)分类器进行决策,进而区分真假人脸。Feng等人(2016)利用多重信息作为CNN的输入,包括基于Shearlet特征表示的图像质量和通过光流表示的脸部/全局动作信息,将3种特征结合起来用CNN检测是否为欺诈人脸。Atoum实验组(Atoum等,2017)提出了双分支CNN的方法,首次引入深度图的概念,利用人脸区域提取的外观信息与深度图信息融合来区分真脸与假脸。在此基础上,Liu等人(2018)提出了一种更为复杂的CNN-RNN(recurrent neural network)结构,同时引入人脸的深度图信息和人脸的rPPG(remote photo plethysmography)信号相结合的方式(Li等,2016b),从空间和时序上对CNN模型进行监督学习。这些方法都是通过增加先验数据信息使基于卷积核的深度模型可以训练得更有效,而结合人脸反欺诈任务特性对卷积核本身的研究也有利于模型的优化。

卷积核是深度学习框架中常用的局部特征表示方法,不同的卷积结构有着不同的功能。在传统图像处理中,通过设定不同的特征算子可提取诸如边缘、水平和垂直等固定的特征,如LBP(Zhu和Wang,2012)和Sobel(Kanopoulos等,1988)等。针对不同任务的特性改写卷积核逐渐成为深度学习研究的热点,例如Juefei-Xu等人(2017)将传统LBP通过卷积实现,极大缩减了可学习参数的数量和计算的消耗。而空洞卷积(dilated convolution)(Yu和Koltun,2016)和可变形卷积(deformable convolution)(Dai等,2017),也分别用于在模型参数量不变情况下增大感受野和改变感受野形状,使卷积核提取特征的方式可随着任务的需求灵活变化。针对人脸反欺诈活体检测任务,Yu等人(2020b)提出中心差分卷积,有效增强模型对不同环境下细粒度特征的表示能力,但过多的冗余信息以及过高的时间复杂度也限制了模型的性能。

与现有工作(Atoum等,2017Liu等,2018Yu等,2020b)相比,本文在其工作基础上构建用于辅助主干网络训练的面部纹理分析模块,使模型在复杂背景环境下的表现更优,性能更可靠。另外,本文设计的基于边缘检测的新型卷积核,参数量更少,对面部区域特征的针对性更强,可以更为高效地提取丰富的人脸纹理特征。

2 模型构建

为解决背景干扰带来的影响,提升模型对面部纹理信息的感知力,本文提出了面部纹理和基于前/背景差异分析的人脸反欺诈活体检测算法模型。如图 2所示,该模型是一个双流模型。一方面,本文用PRNet深度图生成的掩码器对输入图像进行背景掩码,使整个图像仅凸显人脸区域,并将掩码后的图像放入FTA模块中提取人脸区域的纹理细节信息。另一方面,本文将输入图像放入FBDA模块中区分真实人脸和背景(欺诈人脸也记为背景区域),并将其有效分割。接着将FTA模块所提取的信息处理为注意力权重矩阵,并将其与FBDA模块所得特征矩阵做元素乘,最终得到真假人脸预测结果。当输入图像是真实人脸时,模型可以将人脸区域与背景有效区分;当输入为欺诈人脸时,模型将人脸区域与背景均记为背景信息,以此实现人脸欺诈检测。

图 2 本文算法框架
Fig. 2 The overall framework of the proposed method

2.1 面部纹理分析模块

FTA模块旨在减弱背景因素对检测模型的负面影响,避免在现实环境中光照差异以及背景色调不同导致模型可靠性急剧下降,实现思路如图 2上半区域所示。首先,本文对PRNet检测出的灰度面部深度图进行二值化处理。需要注意的是PRNet是一款极好的面部检测模型,但其并不具备检测欺诈人脸的能力。然后,将二值化面部深度图作为掩膜与原图做元素乘,便可得到所需要的面部掩膜样本。掩膜过程计算为

$\begin{aligned} \boldsymbol{I}^M(i, j) & =\boldsymbol{I}^{\mathit{0}}(i, j) \cdot \boldsymbol{M}(i, j) \\ \boldsymbol{M}(i, j) & = \begin{cases}0 & \boldsymbol{I}^{\mathit{0}}(i, j) \in \boldsymbol{B} \boldsymbol{R} \\ 1 & \boldsymbol{I}^{\mathit{0}}(i, j) \in \boldsymbol{F} \boldsymbol{R}\end{cases} \end{aligned}$ (1)

式中,$ i$$ j$表示特征中的横纵坐标,$ \boldsymbol{I}^{\mathit{0}}$是原始样本图像;$ \boldsymbol{I}^{M}$是面部掩膜样本图像;$ \boldsymbol{M}$是掩膜,在人脸区域内其值为1,背景区域内其值为0,$ \boldsymbol{BR}$表示输入图像的背景区域,$ \boldsymbol{FR}$表示输入图像的面部区域。接着,本文采用基于ConvNeXt模块的深度模型提取面部细节纹理特征。ConvNeXt模块计算流程如图 3所示。

图 3 ConvNeXt模块
Fig. 3 ConvNeXt module

ConvNeXt由Liu等人(2022)基于ResNet(He等,2016)并借鉴Swin Transformer(Liu等,2021c)中局部注意力的思路设计而成。主要思路为先用尺寸为7 × 7的卷积核对尺寸为$ (b, c, w, l)$的特征矩阵进行卷积,其中$ b$是批处理样本数,$ c$是通道数,$ l$$ w$对应单样本单通道的长宽。为了更好地提取通道之间的注意信息,该模块采用尺寸为$ (c, kc)$$ (kc, c)(k=4)$的两个线性层提取通道之间的关联信息,并在其中用归一化规避层内梯度消失(爆炸)问题。随后,特征矩阵再经过高斯误差线性单元(Gaussian error linear units,GELU)激活函数(Hendrycks和Gimpel,2016)使模型的非线性性质更明显,再用残差将输入特征与输出相加,规避因模型过深带来的梯度消失(爆炸)问题。最后,将所提的面部纹理特征作为注意力信息与前/背景差异分析模块的预测结果相融合,协同检测输入图像是否为欺诈人脸。值得注意的是,本文在FTA模块与FBDA模块激活函数的选择有所不同,分别采用GELU函数和线性整流(linear rectification function,ReLU)函数,计算为

$\begin{gathered} G_{E L U}(x)= \\ 0.5 x\left(1+\tanh \left[\sqrt{\frac{2}{{\rm{ \mathsf{ π}}}}}\left(x+0.044\ 715 x^3\right)\right]\right) \end{gathered}$ (2)

$R_{e L U}(x)=\max (0, x)$ (3)

式中,$ x$为激活函数的通用输入表示。相比于ReLU函数,GELU函数添加了一定的随机性,模型会更易于收敛,但是其计算的复杂性会在一定程度上增加模型的训练成本,因此本文根据消融实验结果选择两个模块内的激活函数。另外,本文对面部纹理特征也做了有监督回归训练,FTA模块提取的面部纹理特征通过通道均值化(即对特征张量在通道维度上做全局均值池化)得到预测结果。真实人脸标签为PRNet采集的深度图缩放归一化后的浮点型矩阵(32×32),其中元素为(0, 1)之间的浮点数,欺诈人脸标签为尺寸为32×32的零矩阵。经过浮点回归训练的FTA模块可有效增强检测模型在不同环境下对面部纹理信息的感知力。

2.2 基于边缘检测的新型卷积核

与FTA模块不同的是,FBDA模块作为主干网络,旨在区分真实人脸和背景。核心思想在于增强真实人脸和背景的特征差异性,同化欺诈人脸特征和背景特征。这对模型关于图像边缘细节和纹理特征的敏感性有了更高需求。为了有效提升模型对边缘特征的感知力,本文在这一框架中设计了一组通过改写卷积核得到的边缘检测模块。该模块包含用于提取图像中凸型区域特征的凸型卷积核、用于提取图像中横向纹理的Sobel横向卷积核以及用于提取图像中纵向纹理的Sobel纵向卷积核。相比于普通卷积核,边缘检测模块中的3种卷积核计算的参数更少,针对性更强。

单通道的2维3×3卷积核通常包含9个可训练参数,其对图像的卷积计算为

$\boldsymbol{P}^1(s, t)=\sum\limits_{i=0}^2 \sum\limits_{j=0}^2 K_{i, j} \cdot \boldsymbol{P}^0(s-i, t-j)$ (4)

式中,$ \boldsymbol{P}^0$是待卷积图像,$ s$$ t$是图像某一像素的横纵坐标,$ K$是一个3×3的卷积核,$ i$$ j$为卷积核中一元素的横纵坐标,$ \boldsymbol{P}^1$是卷积后的图像。本文针对任务的需求对卷积核进行改写,改写卷积核对应的计算为

$\boldsymbol{P}^{\bf{1}}(s, t)=\sum\limits_{(i, j)=\left(c_1, c_2\right)} K_{i, j} \cdot \boldsymbol{P}^0(s-i, t-j)$ (5)

式中,凸型卷积核中可训练参数坐标$ \left(c_1, c_2\right)$包含5个,对应图 4中卷积核范围的紫色区域;Sobel纵向卷积核中可训练参数坐标包含7个,对应图 4中卷积核设计的绿色区域;Sobel横向卷积核中可训练参数坐标也包含7个,对应图 4中卷积核设计的蓝色区域。3种卷积核分别针对图像的凸型区域,纵向边缘和横向边缘进行卷积处理,其关注结果如图 4中间区域所示,在3种不同方向上辨析真实人脸和欺诈人脸的差异。需要注意的是,在图像进行边缘检测之前,本文对其进行了数据增强,主要内容包括随机擦除、随机翻转和随机光源照射。该流程通过数据增强降低模型出现过拟合的概率。

图 4 边缘检测模块
Fig. 4 Facial edge feature module

接着,本文将边缘特征置于由3个凸型卷积模块组成的特征提取模型中。该模型的整体架构与Auxiliary(Liu等,2018)框架前半部分类似,将3个子块输出的下采样结果级联,再经过两层卷积模块得到差异分析模块的预测结果。在训练过程中,本文所用的真实人脸标签是尺寸为32×32的二值矩阵。其中,人脸区域的元素值为1,背景区域的元素值为0;欺诈人脸标签是尺寸为32×32的零矩阵。而在推理过程中,模型根据预测结果中面部区域与背景是否存有明显差异来判断输入是否为真实人脸。

2.3 新型的特征注意力融合模块

本文方法中,两个模块的输出结果存有一定的相似性,但各自侧重的方面有所不同。FBDA模块侧重检测出真实人脸面部区域,这类似于一项分割任务,易于忽视真实人脸与欺诈人脸的细节差异。而FTA模块侧重前者的不足之处,但是失去背景特征的影响使该模块极易出现过拟合的现象,难以单独使用。为了有机结合这两个模型的优点,本文结合GAM注意力机制的空间注意力子模块设计了一种注意融合模块,如图 5所示。

图 5 注意力特征融合模块
Fig. 5 Attention feature fusion module

首先,FTA模块的输出特征经过一层卷积将通道从64层压缩至16层,去除冗余信息,再经过批处理归一化和ReLU激活函数得到低维的特征映射。接着再经过一层卷积,将特征矩阵的通道再放大至64层,以此保持与FBDA输出的特征矩阵尺寸一致。为了避免融合特征出现离群值导致梯度爆炸(消失),本文用sigmoid函数将注意力特征矩阵的每个元素收缩在0~1之间。因为注意力特征矩阵与FBDA模块输出的特征可认为是两幅侧重点不同的欺诈人脸检测结果,所以对这两个特征矩阵做元素乘可增大模型预测的面部区域与背景区域的差异,即便两个模块预测结果不一致时,融合模块也可起到平滑预测结果的作用。融合计算为

$\boldsymbol{F}^Y=\boldsymbol{W}^f * \boldsymbol{F}^o$ (6)

式中,$ \boldsymbol{F}^Y$为融合特征矩阵,$ \boldsymbol{W}^f$为注意力权值矩阵,$ \boldsymbol{F}^o$为FBDA模块输出的特征矩阵。最后,本文将融合特征置于一层卷积网络中,检测输入图像是否为欺诈人脸。

2.4 损失函数和模型优化

本文方法为双任务联合学习,模型需要同时分析真实人脸的细节信息以及与背景的差异。与现有工作(Liu等,2018, 2021aShao等,2019Qin等,2020)相仿,本文的两个任务均采用回归的方式训练设计了损失函数。现有工作常常采用均方差损失(mean square error,MSE)函数作为深度图损失函数(depth loss)来训练模型,对离群值的处理过于敏感,过大的惩罚容易干扰模型训练。为了避免这一因素带来的不利影响,本文采用SmoothL1损失函数(Girshick,2015)来优化对离群值的处理,计算为

$f_{\text {SmoothLl }}= \begin{cases}0.5 \times\left(Y_{\mathrm{T}}-Y_{\mathrm{P}}\right)^2 & \left|Y_{\mathrm{T}}-Y_{\mathrm{P}}\right| \leqslant 1 \\ \left|Y_{\mathrm{T}}-Y_{\mathrm{P}}\right|-0.5 & \left|Y_{\mathrm{T}}-Y_{\mathrm{P}}\right|>1\end{cases}$ (7)

式中,$ Y_{\mathrm{T}}$$ Y_{\mathrm{P}}$分别为标签值和预测值。可以看出,$ f_{\text {SmoothLl }}$损失函数既保留了MSE损失函数训练效率较快的优点,也避免了离群值带来梯度爆炸的风险。同时为了使模型更好地校准图像中的面部区域,本文在前/背景差异分析模块中采用DiceLoss损失函数(Milletari等,2016)辅助训练。计算为

$f_{\text {DiceLoss }}=1-\frac{2\left|Y_{\mathrm{T}} \cap Y_{\mathrm{P}}\right|}{\left|Y_{\mathrm{T}}\right|+\left|Y_{\mathrm{P}}\right|}$ (8)

式中,$ \left|Y_{\mathrm{T}} \cap Y_{\mathrm{P}}\right|$为两者之间的交集,$ \left|Y_{\mathrm{T}}\right|$$ \left|Y_{\mathrm{P}}\right|$分别为两者元素的数量。同时,本文用AdamW优化器来更新模型的权值。该优化器通过增加L2正则化基本解决了Adam优化器因参数过拟合导致模型优化失效的问题,以此优化了模型的训练过程。参数设置如表 1所示。

表 1 参数设置
Table 1 The parameter settings

下载CSV
超参数
学习率 0.000 1
学习率衰减率 0.5
权重衰减率 0.007
批处理大小 7
卷积核数 128
卷积核大小(FTA) 3
卷积层数(FTA) 2
卷积核大小(FBDA) 7
卷积层数(FBDA) 1

3 实验结果与讨论

3.1 数据集与评估方法

本文采用OULU-NPU(Boulkenafet等,2017b)、CASIA-MFSD(CASIA-face anti-spoofing dataset,CM)(Zhang等,2012)和RA(replay-attack)(Chingovska等,2012)数据集评估所提模型的实验效果。

OULU-NPU数据集包含5 940段真实和欺诈视频,视频长度限制为5 s,帧率为30 Hz,分辨率为1 920 × 1 080像素。实验共包含4个测试协议,协议1测试模型在不同数据采集环境下的性能,协议2评测不同的攻击媒介对模型性能的影响,协议3测试模型在不同数据采集设备下的性能,协议4考虑了上述所有因素,评测模型的综合泛化能力。CM数据集由600段视频组成,其中包含50位测试者,每位测试者在3种摄像头下获取分辨率为480 × 640像素、640 × 480像素、720 × 1 080像素的12段视频,其中真实人脸3段,3种攻击方式各3段,攻击方式包括卷曲图像攻击、剪切图像攻击和视频回放攻击。RA数据集包含1 300段人脸视频样本,帧率为25 Hz,分辨率大小为320 × 240像素,由50位测试者在光照均匀和光照不均匀两种场景下录制,攻击方式分为图像攻击和视频回放攻击,设备支持条件分为手持和固定两种方式。

另外,本文引用活体检测领域常用评估指标来评估所提模型的性能,主要包括等错误率(equal error rate,EER)、半错误率(half total error rate,HTER)和平均分类错误率(average classification error rate,ACER)。本文对于CM数据集,使用EER作为评估指标,对于RA数据集,使用EER和HTER作为评估指标,前者为错误接受率(false accept rate,FAR)与错误拒绝率(false reject rate,FRR)的两条曲线相交点的对应值,后者为FAR和FRR的均值,计算为

$f_{\mathrm{HTER}}=\frac{f_{\mathrm{FAR}}+f_{\mathrm{FRR}}}{2}$ (9)

对于OULU-NPU数据集,使用ACER作为评估指标,采用攻击分类错误率(attack presentation classification error rate,APCER)和真实活体分类错误率(bona fide presentation classification error rate,BPCER)来计算,计算为

$f_{\mathrm{ACER}}=\frac{f_{\mathrm{APCER}}+f_{\mathrm{BPCER}}}{2}$ (10)

3.2 消融实验

为了验证两个模块结合的作用,本文基于CM数据集和RA数据集做了对应的消融实验,分别验证两个模块各自在单数据集实验和跨数据集实验下的性能。实验结果如表 2所示。单一的FBDA模块对真实人脸与欺诈人脸具备一定的区分能力,在CM和RA数据集上的HTER分别为2.7%和2.3%,但其在跨库实验中的表现很不理想,尤其是在RA训练集上训练在CM测试集上测试的HTER结果仅有43.3%,错误率很高。而单一的FTA模块因缺乏背景噪声的泛化,在单个数据集上的表现相比于FBDA模块要更差,跨库实验也不够理想,不过没有背景噪声的干扰时,其在两种跨库实验中的表现很接近。而将两个模块结合的模型有效地控制了背景噪声的干涉问题,无论是在同库数据集上还是跨库数据集上的提升都很明显,在RA数据集上的HTER为0.0%,即检测完全正确。跨库实验也分别达到17.1%和27.4%,具备与现有最佳方法相竞争的性能。

表 2 FBDA和FTA模块在CM与RA数据集上的消融实验
Table 2 Ablation study of two modules on CM and RA 

下载CSV
/%
模块 CM RA CM→ RA RA→ CM
FBDA 2.70 2.30 28.60 43.30
FTA 6.30 4.10 47.90 41.50
FBDA + FTA 0.70 0.00 17.10 27.40
注:加粗字体表示各列最优结果。CM→RA表示在CM数据集上训练,在RA数据集上测试;RA→CM表示在RA数据集上训练,在CM数据集上测试。

同时,本文补充了在不同模块下使用不同激活函数对应的实验结果,如表 3所示。可以看出,在FBDA模块中使用ReLU函数且在FTA模块中使用GELU函数实验的效果最佳。

表 3 在不同模块下使用不同激活函数的消融实验
Table 3 Ablation study of using different activation functions for different modules 

下载CSV
/%
模块(函数) CM RA CM→RA RA→CM
FBDA(ReLU)+ FTA(ReLU) 1.20 0.60 25.30 34.10
FBDA(GELU)+ FTA(GELU) 1.10 0.80 27.30 36.20
FBDA(GELU)+ FTA(ReLU) 1.90 1.10 23.90 30.10
FBDA(ReLU)+ FTA(GELU) 0.70 0.00 17.10 27.40
注:加粗字体表示各列最优结果。

此外,本文对特征抽取基本模块也做了对应的消融实验,结果如表 4所示。可以看出,当两个模块都使用卷积块时也可以取得相对不错的结果,误用ConvNeXt这类大核卷积会导致模型的性能有所下降。这主要因为FDBA模块的主要任务是对人脸和背景的区分,过大的感受野不利于对边缘细节信息的采集,因此仅在FTA模块中使用ConvNeXt模块的效果最佳。需要补充的是,本文选择激活函数以及特征提取模块的方法不局限于上述几种,实验结果较差及不具备对比性的方法未列于表内。

表 4 不同特征抽取基本模块的消融实验
Table 4 Ablation study of different basic modules of feature extraction 

下载CSV
/%
模块(基本模块) CM RA CM→RA RA→CM
FBDA(卷积块)+ FTA(卷积块) 0.9 0.4 19.3 29.7
FBDA(ConvNeXt)+ FTA(ConvNeXt) 1.3 1.1 24.6 36.6
FBDA(ConvNeXt)+ FTA(卷积块) 1.7 0.7 28.8 43.2
FBDA(卷积块)+ FTA(ConvNeXt) 0.7 0.0 17.1 27.4
注:加粗字体表示各列最优结果。

另外,本文将FBDA模块的测试结果与完整模型的测试结果进行散点可视化操作。可视化的基本思路为:1)将模型对测试集的检测结果经过主成分分析(principal component analysis,PCA)降维到3维;2)将样本3维特征映射到坐标系中得到测试样本的散点图。如图 6所示,图 6(a)(b)为FBDA模块分别在CM数据集跨RA数据集以及RA数据集跨CM数据集的测试散点结果。图 6(c)(d)是完整模型相应跨库实验的测试散点结果。可以看出,FBDA模型在跨库实验中近乎无法区分真实样本和欺诈样本。增加FTA模块的信息后,在一定程度上减缓了这一问题。

图 6 测试样本散点图
Fig. 6 Scatter figure of test samples
((a) CM→RA, single module; (b) RA→CM, single module; (c) CM→RA, global model; (d) RA→CM, global model)

除了两个模块搭配、激活函数以及特征抽取方法的选择的消融实验外,本文针对ConvNeXt模块中两个线形层的变化比例$ k$∈{2, 4, 6, 8}和注意力融合模块中两个卷积层的变化比例$ r$∈{0.25, 0.5, 0.75, 1}做了超参数选择。如图 7所示,本文针对CM和RA数据集做了消融实验,分别对应图 7(a)(b)。实验结果的评估以HTER为标准。从图中可以清晰地看出,在两个数据集上当$ k$取4以及$ r$取0.25时,模型的整体表现达到最佳。

图 7 变化比$ k$$ r$不同取值的消融实验
Fig. 7 Ablation experiment with different values of $ k$ and $ r$
((a) experiments on CM; (b) experiments on RA)

3.3 对比实验

为了验证本文方法在不同环境和攻击方式下仍具备实际意义,本文在CASIA-MFSD、RA和OULU-NPU 3个主流公开数据集上将所提模型与当前主流算法进行对比实验。主要包括模型分别在3个数据集上的实验对比,以及模型在CASIA-MFSD与Replay-Attack两个数据集之间跨库的实验对比。

首先,本文对比了所提模型与当前主流方法在CM和RA数据集上的表现,实验结果分别如表 5表 6所示。CM与RA数据集分别提供了不同攻击方式以及不同场景下的实验数据,并且这两个数据集都包含多种分辨率的视频,可以有效验证模型在多分辨率和不同环境下的鲁棒性性能。为了保证对比实验的公平性,本文与现有工作(汪亚航等,2020Li等,2016aZhou等,2019)保持一致, 对于CM数据集,使用EER作为实验的评价指标,对于RA数据集,使用EER和HTER两项作为实验的评价指标。可以看出,本文方法在CM数据集上的EER为0.19%,在RA数据集上EER和HTER均为0.00%,均优于当前主流方法。与传统方法SURF(Boulkenafet等,2017a)相比,本文方法利用卷积神经网络提取深层语义特征,因而可以更好地区分真实人脸和欺诈人脸。与PDBC(patch and depth-based CNNs)(Atoum等,2017)相比,本文方法不仅利用注意力机制进行融合,还充分利用图像的梯度信息,提升网络模型的检测效果。相比于在CM数据集上表现良好的CIFL(camera invariant feature learning)(Chen等,2021)和在RA数据集上表现良好的Identity-DS(identity de-spoofing)(Xu等,2021)方法,本文方法均取得更高的精确度,表明了将面部背景分割模块和面部纹理分析模块进行有效融合可以将背景因素带来的影响最大正向化,从而提升模型的鲁棒性。实验结果表明,与其他主流方法相比,所提方法在这两个数据集上的优势非常明显,可以有效应对不同场景下的多种活体攻击方式,取得了优异的检测性能。

表 5 CM数据集上的对比实验结果
Table 5 Comparative experiment on CM dataset 

下载CSV
/%
方法 EER
CNN+LSTM(Xu等,2015) 5.17
DPCNN(Li等,2016a) 4.50
ML-DAN(Zhou等,2019) 3.70
Identity-DS(Xu等,2021) 3.30
Attention(Chen等,2019b) 3.14
SURF(Boulkenafet等,2017a) 2.80
PDBC(Atoum等,2017) 2.67
FARCNN(Chen等,2019a) 2.35
汪亚航等人(2020) 1.70
CIFL(Chen等,2021) 0.89
本文 0.19
注:加粗字体表示最优结果。

表 6 RA数据集上的对比实验结果
Table 6 Comparative experiment on RA dataset 

下载CSV
/%
方法 EER HTER
LBP(Boulkenafet等,2015) 13.9 13.8
DPCNN(Li等,2016a) 2.90 6.10
PDBC(Atoum等,2017) 0.79 0.72
ML-DAN(Zhou等,2019) 0.30 0.60
SURF(Boulkenafet等,2017a) 0.10 2.20
FARCNN(Chen等,2019a) 0.06 0.18
汪亚航等人(2020) 0.09 0.08
Identity-DS(Xu等,2021) 0.20 0.00
本文 0.00 0.00
注:加粗字体表示各列最优结果。

与CM和RA数据集相比,OULU-NPU数据集的数据环境更为复杂,对人脸反欺诈检测模型的收敛能力以及鲁棒性的要求也更高。表 7表 10展示了本文模型在OULU-NPU数据集4个不同协议(protocol,P)上的实验结果,ACER分别为0.6%、1.9%、1.9%±1.2%和3.7%±1.1%。与较前沿方法相比,本文模型在协议1、协议3和协议4上的表现都达到最佳,这是因为本文提出的纹理提取模块可以充分利用高分辨率图像中的纹理信息,同时注意力融合模块可以较好地融合双流网络,增强重要特征。其中协议3可以评估模型对未知拍摄设备的泛化性能,协议4更是综合考虑了前3个协议中所有的欺诈因素,评估模型在不同场景、不同攻击方式和不同采集设备下的性能,最具挑战性,实验结果很大程度上体现了本文模型的强鲁棒性。对于协议2,本文方法尚未达到最优,主要原因在于这个协议中背景的干涉较少(考查模型在不同攻击方式下的性能),而本文方法更侧重于增强模型对不同环境的适用性。但相比于其他主流方法,无论是结合时间维度信息作为网络输入STASN(spatio-temporal anti-spoofing network)(Yang等,2019)等方法还是使用辅助监督信息rPPG(remote photo plethysmo graphy)信号的Auxiliary(Liu等,2018)方法,本文方法都取得了更优表现,且仅使用单帧图像进行活体检测,大幅降低了模型的复杂度。同时,本文方法能更好地提取面部细节信息并降低环境因素干扰。从表 7表 10可以看出,与现有方法相比,本文方法在4个协议上的表现都极具竞争力,论证了所提方法在不同环境下的应用价值。

表 7 在OULU-NPU数据集上按协议1的实验结果对比
Table 7 Comparison of experimental results on OULU-NPU dataset according to protocol 1 

下载CSV
/%
方法 APCER BPCER ACER
CIFL(Chen等,2021) 3.8 2.9 3.4
STASN(Yang等,2019) 1.2 2.5 1.9
Auxiliary(Liu等,2018) 1.6 1.6 1.6
CDCN(Yu等,2020b) 0.4 1.7 1.0
BCN(Yu等,2020a) 0.0 1.6 0.8
ASMN(Zheng等,2021) 1.4 1.8 1.6
SG-TD(Wang等,2020) 2.0 0.0 1.0
本文 1.2 0.0 0.6
注:加粗字体表示各列最优结果。

表 8 在OULU-NPU数据集上按协议2的实验结果对比
Table 8 Comparison of experimental results on OULU-NPU dataset according to protocol 2 

下载CSV
/%
方法 APCER BPCER ACER
Auxiliary(Liu等,2018) 2.7 2.7 2.7
CIFL(Chen等,2021) 3.6 1.2 2.4
STATN(Yang等,2019) 4.2 0.3 2.2
SG-TD(Wang等,2020) 2.5 1.3 1.9
ASMN(Zheng等,2021) 2.6 0.8 1.7
BCN(Yu等,2020a) 2.6 0.8 1.7
CDCN(Yu等,2020b) 1.5 1.4 1.5
本文 2.5 1.3 1.9
注:加粗字体表示各列最优结果。

表 9 在OULU-NPU数据集上按协议3的实验结果对比
Table 9 Comparison of experimental results on OULU-NPU dataset according to protocol 3 

下载CSV
/%
方法 APCER BPCER ACER
Auxiliary(Liu等,2018) 2.7±1.3 3.1±1.7 2.9±1.5
STASN(Yang等,2019) 4.7±3.9 0.9±0.2 2.8±1.6
ASMN(Zheng等,2021) 2.0±2.6 3.9±2.2 2.8±2.4
SG-TD(Wang等,2020) 3.2±2.0 2.2±1.4 2.7±0.6
BCN(Yu等,2020a) 2.8±2.4 3.2±2.8 2.5±1.1
CIFL(Chen等,2021) 3.8±1.3 1.1±1.1 2.5±0.8
CDCN(Yu等,2020b) 2.4±1.3 2.2±2.0 2.3±1.4
本文 2.4±2.3 1.4±1.6 1.9±1.2
注:加粗字体表示各列最优结果。

表 10 在OULU-NPU数据集上按协议4的实验结果对比
Table 10 Comparison of experimental results on OULU-NPU dataset according to protocol 4 

下载CSV
/%
方法 APCER BPCER ACER
Auxiliary(Liu等,2018) 9.3±5.6 10.4±6.0 9.5±6.0
STASN(Yang等,2019) 6.7±10.6 8.3±8.4 7.5±4.7
CDCN(Yu等,2020b) 4.6±4.6 9.2±8.0 6.9±2.9
CIFL(Chen等,2021) 5.9±3.3 6.3±4.7 6.1±4.1
BCN(Yu等,2020a) 2.9±4.0 7.5±6.9 5.2±3.7
SG-TD(Wang等,2020) 6.7±7.5 3.3±4.1 5.0±2.2
ASMN(Zheng等,2021) 4.2±5.2 4.6±3.8 4.4±4.5
本文 3.2±3.0 4.2±3.8 3.7±1.1
注:加粗字体表示各列最优结果。

为进一步验证所提方法的鲁棒性,本文在CM和RA数据集上进行跨数据库测试,两个数据集的视频质量和数据采集方式具有很大程度的区别,可以很好地评估模型在未知数据上的表现能力。表 11展示了跨数据库测试的结果,在使用CM数据集作为训练集、RA数据集作为测试集的情况下,本文方法的HTER为17.1%;在使用RA作为训练集、CM作为测试集的情况下,本文方法的HTER为27.4%。相比于其他最优方法,所提方法的HTER分别降低了5.3%和2.9%。所提的面部纹理分析模块通过较大核尺寸的卷积操作,可捕捉感受野更大的面部纹理信息,增强模型对面部纹理纹路和趋势等细节的感知能力;所提的前/背景差异分析模块通过基于边缘检测算子改写的卷积核,提升了模型在不同背景下对面部区域的裁定能力。同时,对两个模块的有效融合,相较于其他主流方法可以更好地提取对于真假人脸具有判别性的特征信息。实验数据表明,本文方法在两种规则的跨数据库测试中表现良好,论证了本文模型是更为鲁棒和强健的,对于现实中的未知场景检测具有实际意义。

表 11 CM与RA数据跨库实验
Table 11 Cross-dataset evaluation between CM and RA 

下载CSV
/%
方法 训练 测试 训练 测试
CM RA RA CM
LBP(Boulkenafet等,2015) 55.9 47.9
CNN(Yang等,2014) 48.5 45.5
STASN(Yang等,2019) 31.5 30.9
Attention(Chen等,2019b) 30.0 33.4
Auxiliary(Liu等,2018) 27.6 28.4
ASMN(Zheng等,2021) 27.4 28.1
Identity-DS(Xu等,2021) 27.1 31.4
DRL(Zhang等,2020) 22.4 30.3
本文 17.1 27.4
注:加粗字体表示各列最优结果。

综上所述,从在3个公开主流数据集上的各个对比实验可以看出,本文方法通过合理的特征分流及融合,成功得到了更为丰富且鲁棒的特征,模型无论是在同数据库下测试,还是在跨数据库下测试,都可取得相比于同类主流方法更好的表现。

3.4 模型解释与注意力可视化

除了对比实验数据,以模型在跨库实验中的输出可视化对所提算法做进一步佐证,结果如图 8所示。图像主体分成两个区域,分别对应在CM数据集以及在RA数据集上训练的可视化结果。可以看出,在相同数据库中,仅有FBDA模块也可有效地检测出欺诈人脸。但是在跨数据库实验中的表现就会显得很糟糕,当以CM数据集训练时,RA数据集的预测结果并不能有效区分真实人脸与欺诈人脸。这个问题在以RA数据集训练时会变得更为严重,测试CM中的数据甚至会出现预测结果与标签完全相反的情况,这也是本文引言中所提的致命缺陷。值得庆幸的是,添加FTA模块的完整模型可以较为有效地缓解这个问题。从图 8完整模型预测的两栏中可以看出,无论是在CM还是在RA数据集上训练的模型,其跨库测试的结果都可较为清晰地分辨出真实人脸与欺诈人脸,一定程度上验证了本文所提算法的理论意义和实际价值。

图 8 模型跨库实验输出可视化结果
Fig. 8 Feature visualization for output of the model on cross-dataset evaluation

4 结论

本文提出了基于前/背景差异分析和面部纹理的人脸反欺诈模型来提升人脸反欺诈算法在陌生环境下的检测精度。首先,基于ConvNeXt的骨干网络构建面部纹理分析模块为检测模型提供有效的面部信息,有效减缓模型受背景差异的负面干扰;其次,结合边缘检测算法思想对前/背景差异分析模块的卷积核重新改写,有效规避传统卷积核效率偏低且信息冗余的问题;最后,本文设计了一种注意力特征融合模块将两个模块的优点有机结合,同时保证了模型在复杂环境下的适应性。在CASIA-MFSD、Replay-Attack和OULU-NPU等3个数据集上验证了所提模型的实际效能。从实验结果来看,相比于当前主流方法,所提算法在各类复杂背景环境数据下的性能都极具竞争力,展示了所提模型的高精确性和强鲁棒性。

但是,本文方法在单一背景数据下的精度未达到最优,仍有提升的空间。未来将对模型的不足之处进一步优化,不断为人脸反欺诈检测工作提供新的理论方案。

参考文献

  • Atoum Y, Liu Y J, Jourabloo A and Liu X M. 2017. Face anti-spoofing using patch and depth-based CNNs//Proceedings of 2017 IEEE International Joint Conference on Biometrics. Denver, USA: IEEE: 319-328 [DOI: 10.1109/BTAS.2017.8272713]
  • Boulkenafet Z, Komulainen J and Hadid A. 2015. Face anti-spoofing based on color texture analysis//Proceedings of 2015 IEEE International Conference on Image Processing. Quebec City, Canada: IEEE: 2636-2640 [DOI: 10.1109/ICIP.2015.7351280]
  • Boulkenafet Z, Komulainen J, Hadid A. 2017a. Face antispoofing using speeded-up robust features and fisher vector encoding. IEEE Signal Processing Letters, 24(2): 141-145 [DOI:10.1109/LSP.2016.2630740]
  • Boulkenafet Z, Komulainen J, Li L, Feng X Y and Hadid A. 2017b. OULU-NPU: a mobile face presentation attack database with real-world variations//Proceedings of the 12th IEEE International Conference on Automatic Face and Gesture Recognition. Washington, USA: IEEE: 1-7 [DOI: 10.1109/FG.2017.77]
  • Chen B L, Yang W H, Li H L, Wang S Q, Kwong S. 2021. Camera invariant feature learning for generalized face anti-spoofing. IEEE Transactions on Information Forensics and Security, 16: 2477-2492 [DOI:10.1109/TIFS.2021.3055018]
  • Chen H N, Chen Y W, Tian X, Jiang R X. 2019a. A cascade face spoofing detector based on face anti-spoofing R-CNN and improved retinex LBP. IEEE Access, 7: 170116-170133 [DOI:10.1109/access.2019.2955383]
  • Chen H N, Hu G S, Lei Z, Chen Y W, Robertson N M, Li S Z. 2019b. Attention-based two-stream convolutional networks for face spoofing detection. IEEE Transactions on Information Forensics and Security, 15: 578-593 [DOI:10.1109/TIFS.2019.2922241]
  • Chingovska I, Anjos A and Marcel S. 2012. On the effectiveness of local binary patterns in face anti-spoofing//Proceedings of 2012 BIOSIG-International Conference of Biometrics Special Interest Group (BIOSIG). Darmstadt, Germany: IEEE: 1-7
  • Dai J F, Qi H Z, Xiong Y W, Li Y, Zhang G D, Hu H and Wei Y C. 2017. Deformable convolutional networks//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 764-773 [DOI: 10.1109/ICCV.2017.89]
  • Feng L T, Po L M, Li Y M, Xu X Y, Yuan F, Cheung T C H, Cheung K W. 2016. Integration of image quality and motion cues for face anti-spoofing: a neural network approach. Journal of Visual Communication and Image Representation, 38: 451-160 [DOI:10.1016/j.jvcir.2016.03.019]
  • Feng Y, Wu F, Shao X H, Wang F F and Zhou X. 2018. Joint 3D face reconstruction and dense alignment with position map regression network//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 557-574 [DOI: 10.1007/978-3-030-01264-9_33]
  • Girshick R. 2015. Fast R-CNN//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 1440-1448 [DOI: 10.1109/ICCV.2015.169]
  • He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 770-778 [DOI: 10.1109/CVPR.2016.90]
  • Hendrycks D and Gimpel K. 2016. Gaussian error linear units (GELUS) [EB/OL]. [2022-03-12]. https://arxiv.org/pdf/1606.08415v4.pdf
  • Juefei-Xu F, Boddeti V N and Savvides M. 2017. Local binary convolutional neural networks//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 19-28 [DOI: 10.1109/CVPR.2017.456]
  • Kanopoulos N, Vasanthavada N, Baker R L. 1988. Design of an image edge detection filter using the Sobel operator. IEEE Journal of Solid-State Circuits, 23(2): 358-367 [DOI:10.1109/4.996]
  • Komulainen J, Hadid A and Pietiköinen M. 2013. Context based face anti-spoofing//Proceedings of the 6th IEEE International Conference on Biometrics: Theory, Applications and Systems. Arlington, USA: IEEE: 1-8 [DOI: 10.1109/BTAS.2013.6712690]
  • Li L, Feng X Y, Boulkenafet Z, Xia Z Q, Li M M and Hadid A. 2016a. An original face anti-spoofing approach using partial convolutional neural network//Proceedings of the 6th International Conference on Image Processing Theory, Tools and Applications. Oulu, Finland: IEEE: 1-6 [DOI: 10.1109/IPTA.2016.7821013]
  • Li X B, Komulainen J, Zhao G Y, Yuen P C and Pietiköinen M. 2016b. Generalized face anti-spoofing by detecting pulse from face videos//Proceedings of the 23rd International Conference on Pattern Recognition. Cancun, Mexico: IEEE: 4244-4249 [DOI: 10.1109/ICPR.2016.7900300]
  • Liu S B, Zhang K Y, Yao T P, Bi M W, Ding S H, Li J L, Huang F Y and Ma L Z. 2021a. Adaptive normalized representation learning for generalizable face anti-spoofing//Proceedings of the 29th ACM International Conference on Multimedia. Lisboa, Portugal: ACM: 1469-1477 [DOI: 10.1145/3474085.3475279]
  • Liu Y C, Shao Z R and Hoffmann N. 2021b. Global attention mechanism: retain information to enhance channel-spatial interactions [EB/OL]. [2022-03-12]. https://arxiv.org/pdf/2112.05561.pdf
  • Liu Y J, Jourabloo A and Liu X M. 2018. learning deep models for face anti-spoofing: binary or auxiliary supervision//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 638-642 [DOI: 10.1109/CVPR.2018.00048]
  • Liu Z, Lin Y T, Cao Y, Hu H, Wei Y X, Zhang Z, Lin S and Guo B N. 2021c. Swin transformer: hierarchical vision transformer using shifted windows//Proceedings of 2021 IEEE/CVF International Conference on Computer Vision. Montreal, Canada: IEEE: 10012-10022 [DOI: 10.1109/ICCV48922.2021.00986]
  • Liu Z, Mao H Z, Wu C Y, Feichtenhofer C, Darrell T and Xie S N. 2022. A ConvNet for the 2020s [EB/OL]. [2022-03-12]. https://arxiv.org/pdf/2201.03545.pdf
  • Milletari F, Navab N and Ahmadi S A. 2016. V-Net: fully convolutional neural networks for volumetric medical image segmentation//Proceedings of the 4th International Conference on 3D Vision. Stanford, USA: IEEE: 565-571 [DOI: 10.1109/3DV.2016.79]
  • Mohammadi A, Bhattacharjee S and Marcel S. 2020. Domain adaptation for generalization of face presentation attack detection in mobile settengs with minimal information//Proceedings of the ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing. Barcelona, Spain: IEEE: 1001-1005 [DOI: 10.1109/ICASSP40776.2020.9053685]
  • Patel K, Han H, Jain A K. 2016. Secure face unlock: spoof detection on smartphones. IEEE Transactions on Information Forensics and Security, 11(10): 2268-2283 [DOI:10.1109/TIFS.2016.2578288]
  • Qin Y X, Zhao C X, Zhu X Y, Wang Z Z, Yu Z T, Fu T Y, Zhou F, Shi J P, Lei Z. 2020. Learning meta model for zero-and few-shot face anti-spoofing. Proceedings of the AAAI Conference on Artificial Intelligence, 34(7): 11916-11923 [DOI:10.1609/aaai.v34i07.6866]
  • Shao R, Lan X Y, Li J W and Yuen P C. 2019. Multi-adversarial discriminative deep domain generalization for face presentation attack detection//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 10023-10031 [DOI: 10.1109/CVPR.2019.01026]
  • Wang Y H, Song X N, Wu X J. 2020. Two-stream face spoofing detection network combined with hybrid pooling. Journal of Image and Graphics, 25(7): 1408-1420 (汪亚航, 宋晓宁, 吴小俊. 2020. 结合混合池化的双流人脸活体检测网络. 中国图象图形学报, 25(7): 1408-1420) [DOI:10.11834/jig.190419]
  • Wang Z Z, Yu Z T, Zhao C X, Zhu X Y, Qin Y X, Zhou Q S, Zhou F and Lei Z. 2020. Deep spatial gradient and temporal depth learning for face anti-spoofing//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 5042-5051 [DOI: 10.1109/CVPR42600.2020.00509]
  • Xie X H, Bian J T, Lai J H. 2022. Review on face liveness detection. Journal of Image and Graphics, 27(1): 63-87 (谢晓华, 卞锦堂, 赖剑煌. 2022. 人脸活体检测综述. 中国图象图形学报, 27(1): 63-87) [DOI:10.11834/jig.210470]
  • Xu Y W, Wu L F, Jian M, Zheng W S, Ma Y K, Wang Z M. 2021. Identity-constrained noise modeling with metric learning for face anti-spoofing. Neurocomputing, 434: 149-164 [DOI:10.1016/j.neucom.2020.12.095]
  • Xu Z Q, Li S and Deng W H. 2015. Learning temporal features using LSTM-CNN architecture for face anti-spoofing//Proceedings of the 3rd IAPR Asian Conference on Pattern Recognition. Kuala Lumpur, Malaysia: IEEE: 141-145 [DOI: 10.1109/ACPR.2015.7486482]
  • Yang J W, Lei Z and Li S Z. 2014. Learn convolutional neural network for face anti-spoofing [EB/OL]. [2022-03-12]. https://arxiv.org/pdf/1408.5601.pdf
  • Yang X, Luo W H, Bao L C, Gao Y, Gong D H, Zheng S B, Li Z F and Liu W. 2019. Face anti-spoofing: model matters, so does data//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 3507-3516 [DOI: 10.1109/CVPR.2019.00362]
  • Yu F and Koltun V. 2016. Multi-scale context aggregation by dilated convolutions//Proceedings of the 4th International Conference on Learning Representations. San Juan, USA: [s. n.]
  • Yu Z T, Li X B, Niu X S, Shi J G and Zhao G Y. 2020a. Face anti-spoofing with human material perception//Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer: 557-575 [DOI: 10.1007/978-3-030-58571-6_33]
  • Yu Z T, Zhao C X, Wang Z Z, Qin Y X, Su Z, Li X B, Zhou F and Zhao G Y. 2020b. Searching central difference convolutional networks for face anti-spoofing//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 5295-5305 [DOI: 10.1109/CVPR42600.2020.00534]
  • Zhang K Y, Yao T P, Zhang J, Tai Y, Ding S H, Li J L, Huang F Y, Song H C and Ma L Z. 2020. Face anti-spoofing via disentangled representation learning//Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer: 641-657 [DOI: 10.1007/978-3-030-58529-7_38]
  • Zhang Z W, Yan J J, Liu S F, Lei Z, Yi D and Li S Z. 2012. A face antispoofing database with diverse attacks//Proceedings of the 5th IAPR International Conference on Biometrics. New Delhi, India: IEEE: 26-31 [DOI: 10.1109/ICB.2012.6199754]
  • Zheng W, Yue M Y, Zhao S H, Liu S Q. 2021. Attention-based spatial-temporal multi-scale network for face anti-spoofing. IEEE Transactions on Biometrics, Behavior, and Identity Science, 3(3): 296-307 [DOI:10.1109/TBIOM.2021.3066983]
  • Zhou F S, Gao C Q, Chen F, Li C Y, Li X D, Yang F and Zhao Y. 2019. Face anti-spoofing based on multi-layer domain adaptation//Proceedings of 2019 IEEE International Conference on Multimedia and Expo Workshops. Shanghai, China: IEEE: 192-197 [DOI: 10.1109/ICMEW.2019.00-88]
  • Zhou L F, Luo J, Gao X B, Li W S, Lei B J, Leng J. 2021. Selective domain-invariant feature alignment network for face anti-spoofing. IEEE Transactions on Information Forensics and Security, 16: 5352-5365 [DOI:10.1109/TIFS.2021.3125603]
  • Zhu C R, Wang R S. 2012. Local multiple patterns based multiresolution gray-scale and rotation invariant texture classification. Information Sciences, 187: 93-108