网刊加载中。。。

0引言人脸识别技术因其精确且非接触的优点广泛应用于社会中的各种场所。但其在给日常生活带来便利的同时，也带来了一些安全问题。相比于其他生物特征如指纹、虹膜等，人脸的图像和视频相对容易获取，隐私性较差，不法分子可通过获取他人的人脸信息结合各类如图像打印、视频回放和3D人脸面具等活体攻击方式(presentation attack，PA)骗过人脸识别系统。因此，验证人脸信息是否真实可靠是人脸识别技术可行的必要前提(谢晓华等，2022)。为了抵挡一系列的欺诈攻击，人脸活体检测(又称人脸反欺诈)(face anti-spoofing，FAS)技术显得尤为重要，为人脸识别系统的真正落地使用提供了安全屏障。目前人脸活体检测的主流方法包括传统方法和基于深度学习的方法。传统方法使用手工算子提取的特征训练网络，利用纹理特征和频域特征区分真实人脸和欺骗人脸。例如，LBP(local binary pattern)(Boulkenafet等，2015)、HOG(histogram of oriented)(Komulainen等，2013)、SIFT(scale invariant transform)(Patel等，2016)和SURF(speeded up robust features)(Boulkenafet等，2017a)等，虽然这类方法取得了不错的成果，但使用人工提取到的特征很容易受到外部因素的干扰，往往只能针对特定的攻击方式或者某种特定的条件，导致算法设计成本高，适用范围小。与之相比，深度学习算法提出使用端到端训练的模型，即便在不同数据环境中也可以拟合出具备区分真假人脸能力的特征提取模块。具备代表性的基于卷积神经网络(convolution neural network，CNN)的各类框架在这项任务中有着更好的表现。例如，Xu等人(2015)引入了CNN-LSTM(long short term memory)网络结构，使用多帧图像作为输入使模型学习到时序特征信息，并证明了一定程度的背景信息有助于模型区分真假人脸。Mohammadi等人(2020)以DenseNet模块为基础框架，根据数据集的特性引导模型训练，使之在各个环境下都具备较好表现。Zhou等人(2021)以ResNet为基础框架设计人脸反欺诈模型，通过改进特征对齐的方式提升模型的泛化能力。这些框架中影响范围最广的是Atoum等人(2017)引入的DepthNet，该框架发现不同深度下的特征信息对模型的精度都存有正向的激励作用，将其作为决策依据可以大幅提升模型的整体性能。在此基础上，Yu等人(2020b)针对欺诈检测任务对图像纹理特征的特殊要求设计了中心差分卷积(central difference convolution，CDC)核，一定程度上提高了模型的泛化能力和判别能力。然而，面对复杂的欺诈攻击，当前已有的深度学习方法仍存有两点不足。其一，如图 1所示，这类方法易受环境和设备差异的干扰。尽管一定程度的背景信息有利于提升模型的鲁棒性，但当背景的轮廓变化和曝光差异成为模型判别真假人脸的主要依据时，模型会过度依赖背景特征，减少对面部信息的关注，导致其在陌生环境下的精度不足，鲁棒性较差。其二，普通卷积核提取特征的普适性强，但对人脸反欺诈检测任务并不具备针对性，当前的深度学习算法更多侧重网络模型的优化，忽略了传统手工算子在特征提取上的有效性，而CDC卷积核计算复杂，降低了模型效率且带来过高的冗余信息，限制了模型的整体性能。图1 人脸反欺诈检测常见问题 Common problems in face anti-spoofing detectionFig 1为弥补上述模型的不足，本文提出一种基于面部纹理和前/背景差异分析的人脸反欺诈双流双任务模型，包含面部纹理分析(facial texture analysis，FTA)和前/背景差异分析(fore-background differences analysis，FBDA)两个主要特征提取模块。首先，为减缓复杂背景带来的负面干扰，本文构建FTA模块为检测模型提供有效的面部信息。即用PRNet(position map regression network)(Feng等，2018)深度图生成的掩码器将该模块的输入图像处理至仅凸显人脸区域，并用深度图标签对该模块进行辅助训练。为了使面部纹理特征更为丰富，本文采用基于ConvNeXt(Liu等，2022)的骨干网络提取纹理特征。其提供的丰富面部信息可使FTA模块不受背景差异的干扰。同时，本文结合边缘检测算法思想对模型的主干卷积核重新改写，以规避普通卷积核计算效率低和所提特征信息冗余的问题。其中包括用于检测横(纵)边缘信息的Sobel横(纵)向卷积核以及用于检测人脸凸型轮廓的凸型卷积核。相比与普通卷积核，这3种卷积核参数少、针对性更强，级联使用可获得更多的图像细粒度信息，有效提升了模型提取特征的能力。值得注意的是，单独使用FTA或FBDA模块检测欺诈人脸都会因背景信息的不恰当使用而导致模型精度下降。因此，将两者结合使用更具备实际效益。为了有机结合这两个模块的优点，本文受全局注意力机制(global attention mechanism，GAM)(Liu等，2021b)的空间注意力子模块启发，设计了一种有效的注意力特征融合模块。在检测包含复杂背景的人脸图像的过程中，模型受面部纹理信息的注意力加权，以此保障模型在不同环境下的高精确性，使其在实际应用中的综合性能更突出。本文主要贡献如下：1)构建一种提取面部细粒度信息的面部纹理分析模块，结合ConvNeXt提取丰富的面部特征，强化模型在复杂背景环境下的性能；2)设计了3种基于边缘检测的新型卷积核，并级联构建了前/面差异分析模块，提升模型主干网络对边缘细节和纹理特征的感知力；3)建立一种新型的注意力融合模块，将所提两个特征提取模块的优势有机融合，使模型在复杂环境下兼顾了鲁棒性和高精确性。1相关工作人脸反欺诈检测早期的研究主要基于传统的机器学习算法，这类算法通常使用手工提取特征，如LBP、HOG、SIFT和SURF等。然而，这些特征与分类器的关联性不足，模型整体的性能会随着数据集复杂性的增加而降低。随着深度学习的兴起，使用基于卷积神经网络的可训练的特征提取模块逐渐成为提取特征的主流方法。Yang等人(2014)首次将CNN引入活体检测任务中，先用CNN提取原始图像的特征，再送入支持向量机(support vector machines，SVM)分类器进行决策，进而区分真假人脸。Feng等人(2016)利用多重信息作为CNN的输入，包括基于Shearlet特征表示的图像质量和通过光流表示的脸部/全局动作信息，将3种特征结合起来用CNN检测是否为欺诈人脸。Atoum实验组(Atoum等，2017)提出了双分支CNN的方法，首次引入深度图的概念，利用人脸区域提取的外观信息与深度图信息融合来区分真脸与假脸。在此基础上，Liu等人(2018)提出了一种更为复杂的CNN-RNN(recurrent neural network)结构，同时引入人脸的深度图信息和人脸的rPPG(remote photo plethysmography)信号相结合的方式(Li等，2016b)，从空间和时序上对CNN模型进行监督学习。这些方法都是通过增加先验数据信息使基于卷积核的深度模型可以训练得更有效，而结合人脸反欺诈任务特性对卷积核本身的研究也有利于模型的优化。卷积核是深度学习框架中常用的局部特征表示方法，不同的卷积结构有着不同的功能。在传统图像处理中，通过设定不同的特征算子可提取诸如边缘、水平和垂直等固定的特征，如LBP(Zhu和Wang，2012)和Sobel(Kanopoulos等，1988)等。针对不同任务的特性改写卷积核逐渐成为深度学习研究的热点，例如Juefei-Xu等人(2017)将传统LBP通过卷积实现，极大缩减了可学习参数的数量和计算的消耗。而空洞卷积(dilated convolution)(Yu和Koltun，2016)和可变形卷积(deformable convolution)(Dai等，2017)，也分别用于在模型参数量不变情况下增大感受野和改变感受野形状，使卷积核提取特征的方式可随着任务的需求灵活变化。针对人脸反欺诈活体检测任务，Yu等人(2020b)提出中心差分卷积，有效增强模型对不同环境下细粒度特征的表示能力，但过多的冗余信息以及过高的时间复杂度也限制了模型的性能。与现有工作(Atoum等，2017；Liu等，2018；Yu等，2020b)相比，本文在其工作基础上构建用于辅助主干网络训练的面部纹理分析模块，使模型在复杂背景环境下的表现更优，性能更可靠。另外，本文设计的基于边缘检测的新型卷积核，参数量更少，对面部区域特征的针对性更强，可以更为高效地提取丰富的人脸纹理特征。2模型构建为解决背景干扰带来的影响，提升模型对面部纹理信息的感知力，本文提出了面部纹理和基于前/背景差异分析的人脸反欺诈活体检测算法模型。如图 2所示，该模型是一个双流模型。一方面，本文用PRNet深度图生成的掩码器对输入图像进行背景掩码，使整个图像仅凸显人脸区域，并将掩码后的图像放入FTA模块中提取人脸区域的纹理细节信息。另一方面，本文将输入图像放入FBDA模块中区分真实人脸和背景(欺诈人脸也记为背景区域)，并将其有效分割。接着将FTA模块所提取的信息处理为注意力权重矩阵，并将其与FBDA模块所得特征矩阵做元素乘，最终得到真假人脸预测结果。当输入图像是真实人脸时，模型可以将人脸区域与背景有效区分；当输入为欺诈人脸时，模型将人脸区域与背景均记为背景信息，以此实现人脸欺诈检测。图2 本文算法框架 The overall framework of the proposed methodFig 2 2.1面部纹理分析模块FTA模块旨在减弱背景因素对检测模型的负面影响，避免在现实环境中光照差异以及背景色调不同导致模型可靠性急剧下降，实现思路如图 2上半区域所示。首先，本文对PRNet检测出的灰度面部深度图进行二值化处理。需要注意的是PRNet是一款极好的面部检测模型，但其并不具备检测欺诈人脸的能力。然后，将二值化面部深度图作为掩膜与原图做元素乘，便可得到所需要的面部掩膜样本。掩膜过程计算为1 $\begin{aligned}\boldsymbol{I}^M(i, j) & =\boldsymbol{I}^{\mathit{0}}(i, j) \cdot \boldsymbol{M}(i, j) \\\boldsymbol{M}(i, j) & = \begin{cases}0 & \boldsymbol{I}^{\mathit{0}}(i, j) \in \boldsymbol{B} \boldsymbol{R} \\1 & \boldsymbol{I}^{\mathit{0}}(i, j) \in \boldsymbol{F} \boldsymbol{R}\end{cases}\end{aligned}$式中，$ i$和$ j$表示特征中的横纵坐标，$ \boldsymbol{I}^{\mathit{0}}$是原始样本图像；$ \boldsymbol{I}^{M}$是面部掩膜样本图像；$ \boldsymbol{M}$是掩膜，在人脸区域内其值为1，背景区域内其值为0，$ \boldsymbol{BR}$表示输入图像的背景区域，$ \boldsymbol{FR}$表示输入图像的面部区域。接着，本文采用基于ConvNeXt模块的深度模型提取面部细节纹理特征。ConvNeXt模块计算流程如图 3所示。图3 ConvNeXt模块 ConvNeXt moduleFig 3ConvNeXt由Liu等人(2022)基于ResNet(He等，2016)并借鉴Swin Transformer(Liu等，2021c)中局部注意力的思路设计而成。主要思路为先用尺寸为7 × 7的卷积核对尺寸为$ (b, c, w, l)$的特征矩阵进行卷积，其中$ b$是批处理样本数，$ c$是通道数，$ l$和$ w$对应单样本单通道的长宽。为了更好地提取通道之间的注意信息，该模块采用尺寸为$ (c, kc)$和$ (kc, c)(k=4)$的两个线性层提取通道之间的关联信息，并在其中用归一化规避层内梯度消失(爆炸)问题。随后，特征矩阵再经过高斯误差线性单元(Gaussian error linear units，GELU)激活函数(Hendrycks和Gimpel，2016)使模型的非线性性质更明显，再用残差将输入特征与输出相加，规避因模型过深带来的梯度消失(爆炸)问题。最后，将所提的面部纹理特征作为注意力信息与前/背景差异分析模块的预测结果相融合，协同检测输入图像是否为欺诈人脸。值得注意的是，本文在FTA模块与FBDA模块激活函数的选择有所不同，分别采用GELU函数和线性整流(linear rectification function，ReLU)函数，计算为2 $\begin{gathered}G_{E L U}(x)= \\0.5 x\left(1+\tanh \left[\sqrt{\frac{2}{{\rm{ \mathsf{ π}}}}}\left(x+0.044\ 715 x^3\right)\right]\right)\end{gathered}$3 $R_{e L U}(x)=\max (0, x)$式中，$ x$为激活函数的通用输入表示。相比于ReLU函数，GELU函数添加了一定的随机性，模型会更易于收敛，但是其计算的复杂性会在一定程度上增加模型的训练成本，因此本文根据消融实验结果选择两个模块内的激活函数。另外，本文对面部纹理特征也做了有监督回归训练，FTA模块提取的面部纹理特征通过通道均值化(即对特征张量在通道维度上做全局均值池化)得到预测结果。真实人脸标签为PRNet采集的深度图缩放归一化后的浮点型矩阵(32×32)，其中元素为(0, 1)之间的浮点数，欺诈人脸标签为尺寸为32×32的零矩阵。经过浮点回归训练的FTA模块可有效增强检测模型在不同环境下对面部纹理信息的感知力。2.2基于边缘检测的新型卷积核与FTA模块不同的是，FBDA模块作为主干网络，旨在区分真实人脸和背景。核心思想在于增强真实人脸和背景的特征差异性，同化欺诈人脸特征和背景特征。这对模型关于图像边缘细节和纹理特征的敏感性有了更高需求。为了有效提升模型对边缘特征的感知力，本文在这一框架中设计了一组通过改写卷积核得到的边缘检测模块。该模块包含用于提取图像中凸型区域特征的凸型卷积核、用于提取图像中横向纹理的Sobel横向卷积核以及用于提取图像中纵向纹理的Sobel纵向卷积核。相比于普通卷积核，边缘检测模块中的3种卷积核计算的参数更少，针对性更强。单通道的2维3×3卷积核通常包含9个可训练参数，其对图像的卷积计算为4 $\boldsymbol{P}^1(s, t)=\sum\limits_{i=0}^2 \sum\limits_{j=0}^2 K_{i, j} \cdot \boldsymbol{P}^0(s-i, t-j)$式中，$ \boldsymbol{P}^0$是待卷积图像，$ s$和$ t$是图像某一像素的横纵坐标，$ K$是一个3×3的卷积核，$ i$与$ j$为卷积核中一元素的横纵坐标，$ \boldsymbol{P}^1$是卷积后的图像。本文针对任务的需求对卷积核进行改写，改写卷积核对应的计算为5 $\boldsymbol{P}^{\bf{1}}(s, t)=\sum\limits_{(i, j)=\left(c_1, c_2\right)} K_{i, j} \cdot \boldsymbol{P}^0(s-i, t-j)$式中，凸型卷积核中可训练参数坐标$ \left(c_1, c_2\right)$包含5个，对应图 4中卷积核范围的紫色区域；Sobel纵向卷积核中可训练参数坐标包含7个，对应图 4中卷积核设计的绿色区域；Sobel横向卷积核中可训练参数坐标也包含7个，对应图 4中卷积核设计的蓝色区域。3种卷积核分别针对图像的凸型区域，纵向边缘和横向边缘进行卷积处理，其关注结果如图 4中间区域所示，在3种不同方向上辨析真实人脸和欺诈人脸的差异。需要注意的是，在图像进行边缘检测之前，本文对其进行了数据增强，主要内容包括随机擦除、随机翻转和随机光源照射。该流程通过数据增强降低模型出现过拟合的概率。图4 边缘检测模块 Facial edge feature moduleFig 4接着，本文将边缘特征置于由3个凸型卷积模块组成的特征提取模型中。该模型的整体架构与Auxiliary(Liu等，2018)框架前半部分类似，将3个子块输出的下采样结果级联，再经过两层卷积模块得到差异分析模块的预测结果。在训练过程中，本文所用的真实人脸标签是尺寸为32×32的二值矩阵。其中，人脸区域的元素值为1，背景区域的元素值为0；欺诈人脸标签是尺寸为32×32的零矩阵。而在推理过程中，模型根据预测结果中面部区域与背景是否存有明显差异来判断输入是否为真实人脸。2.3新型的特征注意力融合模块本文方法中，两个模块的输出结果存有一定的相似性，但各自侧重的方面有所不同。FBDA模块侧重检测出真实人脸面部区域，这类似于一项分割任务，易于忽视真实人脸与欺诈人脸的细节差异。而FTA模块侧重前者的不足之处，但是失去背景特征的影响使该模块极易出现过拟合的现象，难以单独使用。为了有机结合这两个模型的优点，本文结合GAM注意力机制的空间注意力子模块设计了一种注意融合模块，如图 5所示。图5 注意力特征融合模块 Attention feature fusion moduleFig 5首先，FTA模块的输出特征经过一层卷积将通道从64层压缩至16层，去除冗余信息，再经过批处理归一化和ReLU激活函数得到低维的特征映射。接着再经过一层卷积，将特征矩阵的通道再放大至64层，以此保持与FBDA输出的特征矩阵尺寸一致。为了避免融合特征出现离群值导致梯度爆炸(消失)，本文用sigmoid函数将注意力特征矩阵的每个元素收缩在0~1之间。因为注意力特征矩阵与FBDA模块输出的特征可认为是两幅侧重点不同的欺诈人脸检测结果，所以对这两个特征矩阵做元素乘可增大模型预测的面部区域与背景区域的差异，即便两个模块预测结果不一致时，融合模块也可起到平滑预测结果的作用。融合计算为6 $\boldsymbol{F}^Y=\boldsymbol{W}^f * \boldsymbol{F}^o$式中，$ \boldsymbol{F}^Y$为融合特征矩阵，$ \boldsymbol{W}^f$为注意力权值矩阵，$ \boldsymbol{F}^o$为FBDA模块输出的特征矩阵。最后，本文将融合特征置于一层卷积网络中，检测输入图像是否为欺诈人脸。2.4损失函数和模型优化本文方法为双任务联合学习，模型需要同时分析真实人脸的细节信息以及与背景的差异。与现有工作(Liu等，2018, 2021a；Shao等，2019；Qin等，2020)相仿，本文的两个任务均采用回归的方式训练设计了损失函数。现有工作常常采用均方差损失(mean square error，MSE)函数作为深度图损失函数(depth loss)来训练模型，对离群值的处理过于敏感，过大的惩罚容易干扰模型训练。为了避免这一因素带来的不利影响，本文采用SmoothL1损失函数(Girshick，2015)来优化对离群值的处理，计算为7 $f_{\text {SmoothLl }}= \begin{cases}0.5 \times\left(Y_{\mathrm{T}}-Y_{\mathrm{P}}\right)^2 & \left|Y_{\mathrm{T}}-Y_{\mathrm{P}}\right| \leqslant 1 \\ \left|Y_{\mathrm{T}}-Y_{\mathrm{P}}\right|-0.5 & \left|Y_{\mathrm{T}}-Y_{\mathrm{P}}\right|1\end{cases}$式中，$ Y_{\mathrm{T}}$和$ Y_{\mathrm{P}}$分别为标签值和预测值。可以看出，$ f_{\text {SmoothLl }}$损失函数既保留了MSE损失函数训练效率较快的优点，也避免了离群值带来梯度爆炸的风险。同时为了使模型更好地校准图像中的面部区域，本文在前/背景差异分析模块中采用DiceLoss损失函数(Milletari等，2016)辅助训练。计算为8 $f_{\text {DiceLoss }}=1-\frac{2\left|Y_{\mathrm{T}} \cap Y_{\mathrm{P}}\right|}{\left|Y_{\mathrm{T}}\right|+\left|Y_{\mathrm{P}}\right|}$式中，$ \left|Y_{\mathrm{T}} \cap Y_{\mathrm{P}}\right|$为两者之间的交集，$ \left|Y_{\mathrm{T}}\right|$和$ \left|Y_{\mathrm{P}}\right|$分别为两者元素的数量。同时，本文用AdamW优化器来更新模型的权值。该优化器通过增加L2正则化基本解决了Adam优化器因参数过拟合导致模型优化失效的问题，以此优化了模型的训练过程。参数设置如表 1所示。表1 参数设置超参数值学习率 0.000 1 学习率衰减率 0.5 权重衰减率 0.007 批处理大小 7 卷积核数 128 卷积核大小(FTA) 3 卷积层数(FTA) 2 卷积核大小(FBDA) 7 卷积层数(FBDA) 1 The parameter settingsTable 13实验结果与讨论3.1数据集与评估方法本文采用OULU-NPU(Boulkenafet等，2017b)、CASIA-MFSD(CASIA-face anti-spoofing dataset，CM)(Zhang等，2012)和RA(replay-attack)(Chingovska等，2012)数据集评估所提模型的实验效果。OULU-NPU数据集包含5 940段真实和欺诈视频，视频长度限制为5 s，帧率为30 Hz，分辨率为1 920 × 1 080像素。实验共包含4个测试协议，协议1测试模型在不同数据采集环境下的性能，协议2评测不同的攻击媒介对模型性能的影响，协议3测试模型在不同数据采集设备下的性能，协议4考虑了上述所有因素，评测模型的综合泛化能力。CM数据集由600段视频组成，其中包含50位测试者，每位测试者在3种摄像头下获取分辨率为480 × 640像素、640 × 480像素、720 × 1 080像素的12段视频，其中真实人脸3段，3种攻击方式各3段，攻击方式包括卷曲图像攻击、剪切图像攻击和视频回放攻击。RA数据集包含1 300段人脸视频样本，帧率为25 Hz，分辨率大小为320 × 240像素，由50位测试者在光照均匀和光照不均匀两种场景下录制，攻击方式分为图像攻击和视频回放攻击，设备支持条件分为手持和固定两种方式。另外，本文引用活体检测领域常用评估指标来评估所提模型的性能，主要包括等错误率(equal error rate，EER)、半错误率(half total error rate，HTER)和平均分类错误率(average classification error rate，ACER)。本文对于CM数据集，使用EER作为评估指标，对于RA数据集，使用EER和HTER作为评估指标，前者为错误接受率(false accept rate，FAR)与错误拒绝率(false reject rate，FRR)的两条曲线相交点的对应值，后者为FAR和FRR的均值，计算为9 $f_{\mathrm{HTER}}=\frac{f_{\mathrm{FAR}}+f_{\mathrm{FRR}}}{2}$对于OULU-NPU数据集，使用ACER作为评估指标，采用攻击分类错误率(attack presentation classification error rate，APCER)和真实活体分类错误率(bona fide presentation classification error rate，BPCER)来计算，计算为10 $f_{\mathrm{ACER}}=\frac{f_{\mathrm{APCER}}+f_{\mathrm{BPCER}}}{2}$3.2消融实验为了验证两个模块结合的作用，本文基于CM数据集和RA数据集做了对应的消融实验，分别验证两个模块各自在单数据集实验和跨数据集实验下的性能。实验结果如表 2所示。单一的FBDA模块对真实人脸与欺诈人脸具备一定的区分能力，在CM和RA数据集上的HTER分别为2.7%和2.3%，但其在跨库实验中的表现很不理想，尤其是在RA训练集上训练在CM测试集上测试的HTER结果仅有43.3%，错误率很高。而单一的FTA模块因缺乏背景噪声的泛化，在单个数据集上的表现相比于FBDA模块要更差，跨库实验也不够理想，不过没有背景噪声的干扰时，其在两种跨库实验中的表现很接近。而将两个模块结合的模型有效地控制了背景噪声的干涉问题，无论是在同库数据集上还是跨库数据集上的提升都很明显，在RA数据集上的HTER为0.0%，即检测完全正确。跨库实验也分别达到17.1%和27.4%，具备与现有最佳方法相竞争的性能。表2 FBDA和FTA模块在CM与RA数据集上的消融实验模块 CM RA CM→ RA RA→ CM FBDA 2.70 2.30 28.60 43.30 FTA 6.30 4.10 47.90 41.50 FBDA + FTA 0.70 0.00 17.10 27.40 Ablation study of two modules on CM and RA /%Table 2 加粗字体表示各列最优结果。CM→RA表示在CM数据集上训练，在RA数据集上测试；RA→CM表示在RA数据集上训练，在CM数据集上测试。同时，本文补充了在不同模块下使用不同激活函数对应的实验结果，如表 3所示。可以看出，在FBDA模块中使用ReLU函数且在FTA模块中使用GELU函数实验的效果最佳。表3 在不同模块下使用不同激活函数的消融实验模块(函数) CM RA CM→RA RA→CM FBDA(ReLU)+ FTA(ReLU) 1.20 0.60 25.30 34.10 FBDA(GELU)+ FTA(GELU) 1.10 0.80 27.30 36.20 FBDA(GELU)+ FTA(ReLU) 1.90 1.10 23.90 30.10 FBDA(ReLU)+ FTA(GELU) 0.70 0.00 17.10 27.40 Ablation study of using different activation functions for different modules /%Table 3 加粗字体表示各列最优结果。此外，本文对特征抽取基本模块也做了对应的消融实验，结果如表 4所示。可以看出，当两个模块都使用卷积块时也可以取得相对不错的结果，误用ConvNeXt这类大核卷积会导致模型的性能有所下降。这主要因为FDBA模块的主要任务是对人脸和背景的区分，过大的感受野不利于对边缘细节信息的采集，因此仅在FTA模块中使用ConvNeXt模块的效果最佳。需要补充的是，本文选择激活函数以及特征提取模块的方法不局限于上述几种，实验结果较差及不具备对比性的方法未列于表内。表4 不同特征抽取基本模块的消融实验模块(基本模块) CM RA CM→RA RA→CM FBDA(卷积块)+ FTA(卷积块) 0.9 0.4 19.3 29.7 FBDA(ConvNeXt)+ FTA(ConvNeXt) 1.3 1.1 24.6 36.6 FBDA(ConvNeXt)+ FTA(卷积块) 1.7 0.7 28.8 43.2 FBDA(卷积块)+ FTA(ConvNeXt) 0.7 0.0 17.1 27.4 Ablation study of different basic modules of feature extraction /%Table 4 加粗字体表示各列最优结果。另外，本文将FBDA模块的测试结果与完整模型的测试结果进行散点可视化操作。可视化的基本思路为：1)将模型对测试集的检测结果经过主成分分析(principal component analysis，PCA)降维到3维；2)将样本3维特征映射到坐标系中得到测试样本的散点图。如图 6所示，图 6(a)(b)为FBDA模块分别在CM数据集跨RA数据集以及RA数据集跨CM数据集的测试散点结果。图 6(c)(d)是完整模型相应跨库实验的测试散点结果。可以看出，FBDA模型在跨库实验中近乎无法区分真实样本和欺诈样本。增加FTA模块的信息后，在一定程度上减缓了这一问题。图6 测试样本散点图 Scatter figure of test samples Fig 6 ((a) CM→RA, single module; (b) RA→CM, single module; (c) CM→RA, global model; (d) RA→CM, global model) 除了两个模块搭配、激活函数以及特征抽取方法的选择的消融实验外，本文针对ConvNeXt模块中两个线形层的变化比例$ k$∈{2, 4, 6, 8}和注意力融合模块中两个卷积层的变化比例$ r$∈{0.25, 0.5, 0.75, 1}做了超参数选择。如图 7所示，本文针对CM和RA数据集做了消融实验，分别对应图 7(a)(b)。实验结果的评估以HTER为标准。从图中可以清晰地看出，在两个数据集上当$ k$取4以及$ r$取0.25时，模型的整体表现达到最佳。图7 变化比$ k$和$ r$不同取值的消融实验 Ablation experiment with different values of $ k$ and $ r$ Fig 7 ((a) experiments on CM; (b) experiments on RA) 3.3对比实验为了验证本文方法在不同环境和攻击方式下仍具备实际意义，本文在CASIA-MFSD、RA和OULU-NPU 3个主流公开数据集上将所提模型与当前主流算法进行对比实验。主要包括模型分别在3个数据集上的实验对比，以及模型在CASIA-MFSD与Replay-Attack两个数据集之间跨库的实验对比。首先，本文对比了所提模型与当前主流方法在CM和RA数据集上的表现，实验结果分别如表 5和表 6所示。CM与RA数据集分别提供了不同攻击方式以及不同场景下的实验数据，并且这两个数据集都包含多种分辨率的视频，可以有效验证模型在多分辨率和不同环境下的鲁棒性性能。为了保证对比实验的公平性，本文与现有工作(汪亚航等，2020；Li等，2016a；Zhou等，2019)保持一致, 对于CM数据集，使用EER作为实验的评价指标，对于RA数据集，使用EER和HTER两项作为实验的评价指标。可以看出，本文方法在CM数据集上的EER为0.19%，在RA数据集上EER和HTER均为0.00%，均优于当前主流方法。与传统方法SURF(Boulkenafet等，2017a)相比，本文方法利用卷积神经网络提取深层语义特征，因而可以更好地区分真实人脸和欺诈人脸。与PDBC(patch and depth-based CNNs)(Atoum等，2017)相比，本文方法不仅利用注意力机制进行融合，还充分利用图像的梯度信息，提升网络模型的检测效果。相比于在CM数据集上表现良好的CIFL(camera invariant feature learning)(Chen等，2021)和在RA数据集上表现良好的Identity-DS(identity de-spoofing)(Xu等，2021)方法，本文方法均取得更高的精确度，表明了将面部背景分割模块和面部纹理分析模块进行有效融合可以将背景因素带来的影响最大正向化，从而提升模型的鲁棒性。实验结果表明，与其他主流方法相比，所提方法在这两个数据集上的优势非常明显，可以有效应对不同场景下的多种活体攻击方式，取得了优异的检测性能。表5 CM数据集上的对比实验结果方法 EER CNN+LSTM(Xu等，2015) 5.17 DPCNN(Li等，2016a) 4.50 ML-DAN(Zhou等，2019) 3.70 Identity-DS(Xu等，2021) 3.30 Attention(Chen等，2019b) 3.14 SURF(Boulkenafet等，2017a) 2.80 PDBC(Atoum等，2017) 2.67 FARCNN(Chen等，2019a) 2.35 汪亚航等人(2020) 1.70 CIFL(Chen等，2021) 0.89 本文 0.19 Comparative experiment on CM dataset /%Table 5 加粗字体表示最优结果。表6 RA数据集上的对比实验结果方法 EER HTER LBP(Boulkenafet等，2015) 13.9 13.8 DPCNN(Li等，2016a) 2.90 6.10 PDBC(Atoum等，2017) 0.79 0.72 ML-DAN(Zhou等，2019) 0.30 0.60 SURF(Boulkenafet等，2017a) 0.10 2.20 FARCNN(Chen等，2019a) 0.06 0.18 汪亚航等人(2020) 0.09 0.08 Identity-DS(Xu等，2021) 0.20 0.00 本文 0.00 0.00 Comparative experiment on RA dataset /%Table 6 加粗字体表示各列最优结果。与CM和RA数据集相比，OULU-NPU数据集的数据环境更为复杂，对人脸反欺诈检测模型的收敛能力以及鲁棒性的要求也更高。表 7—表 10展示了本文模型在OULU-NPU数据集4个不同协议(protocol，P)上的实验结果，ACER分别为0.6%、1.9%、1.9%±1.2%和3.7%±1.1%。与较前沿方法相比，本文模型在协议1、协议3和协议4上的表现都达到最佳，这是因为本文提出的纹理提取模块可以充分利用高分辨率图像中的纹理信息，同时注意力融合模块可以较好地融合双流网络，增强重要特征。其中协议3可以评估模型对未知拍摄设备的泛化性能，协议4更是综合考虑了前3个协议中所有的欺诈因素，评估模型在不同场景、不同攻击方式和不同采集设备下的性能，最具挑战性，实验结果很大程度上体现了本文模型的强鲁棒性。对于协议2，本文方法尚未达到最优，主要原因在于这个协议中背景的干涉较少(考查模型在不同攻击方式下的性能)，而本文方法更侧重于增强模型对不同环境的适用性。但相比于其他主流方法，无论是结合时间维度信息作为网络输入STASN(spatio-temporal anti-spoofing network)(Yang等，2019)等方法还是使用辅助监督信息rPPG(remote photo plethysmo graphy)信号的Auxiliary(Liu等，2018)方法，本文方法都取得了更优表现，且仅使用单帧图像进行活体检测，大幅降低了模型的复杂度。同时，本文方法能更好地提取面部细节信息并降低环境因素干扰。从表 7—表 10可以看出，与现有方法相比，本文方法在4个协议上的表现都极具竞争力，论证了所提方法在不同环境下的应用价值。表7 在OULU-NPU数据集上按协议1的实验结果对比方法 APCER BPCER ACER CIFL(Chen等，2021) 3.8 2.9 3.4 STASN(Yang等，2019) 1.2 2.5 1.9 Auxiliary(Liu等，2018) 1.6 1.6 1.6 CDCN(Yu等，2020b) 0.4 1.7 1.0 BCN(Yu等，2020a) 0.0 1.6 0.8 ASMN(Zheng等，2021) 1.4 1.8 1.6 SG-TD(Wang等，2020) 2.0 0.0 1.0 本文 1.2 0.0 0.6 Comparison of experimental results on OULU-NPU dataset according to protocol 1 /%Table 7 加粗字体表示各列最优结果。表8 在OULU-NPU数据集上按协议2的实验结果对比方法 APCER BPCER ACER Auxiliary(Liu等，2018) 2.7 2.7 2.7 CIFL(Chen等，2021) 3.6 1.2 2.4 STATN(Yang等，2019) 4.2 0.3 2.2 SG-TD(Wang等，2020) 2.5 1.3 1.9 ASMN(Zheng等，2021) 2.6 0.8 1.7 BCN(Yu等，2020a) 2.6 0.8 1.7 CDCN(Yu等，2020b) 1.5 1.4 1.5 本文 2.5 1.3 1.9 Comparison of experimental results on OULU-NPU dataset according to protocol 2 /%Table 8 加粗字体表示各列最优结果。表9 在OULU-NPU数据集上按协议3的实验结果对比方法 APCER BPCER ACER Auxiliary(Liu等，2018) 2.7±1.3 3.1±1.7 2.9±1.5 STASN(Yang等，2019) 4.7±3.9 0.9±0.2 2.8±1.6 ASMN(Zheng等，2021) 2.0±2.6 3.9±2.2 2.8±2.4 SG-TD(Wang等，2020) 3.2±2.0 2.2±1.4 2.7±0.6 BCN(Yu等，2020a) 2.8±2.4 3.2±2.8 2.5±1.1 CIFL(Chen等，2021) 3.8±1.3 1.1±1.1 2.5±0.8 CDCN(Yu等，2020b) 2.4±1.3 2.2±2.0 2.3±1.4 本文 2.4±2.3 1.4±1.6 1.9±1.2 Comparison of experimental results on OULU-NPU dataset according to protocol 3 /%Table 9 加粗字体表示各列最优结果。表10 在OULU-NPU数据集上按协议4的实验结果对比方法 APCER BPCER ACER Auxiliary(Liu等，2018) 9.3±5.6 10.4±6.0 9.5±6.0 STASN(Yang等，2019) 6.7±10.6 8.3±8.4 7.5±4.7 CDCN(Yu等，2020b) 4.6±4.6 9.2±8.0 6.9±2.9 CIFL(Chen等，2021) 5.9±3.3 6.3±4.7 6.1±4.1 BCN(Yu等，2020a) 2.9±4.0 7.5±6.9 5.2±3.7 SG-TD(Wang等，2020) 6.7±7.5 3.3±4.1 5.0±2.2 ASMN(Zheng等，2021) 4.2±5.2 4.6±3.8 4.4±4.5 本文 3.2±3.0 4.2±3.8 3.7±1.1 Comparison of experimental results on OULU-NPU dataset according to protocol 4 /%Table 10 加粗字体表示各列最优结果。为进一步验证所提方法的鲁棒性，本文在CM和RA数据集上进行跨数据库测试，两个数据集的视频质量和数据采集方式具有很大程度的区别，可以很好地评估模型在未知数据上的表现能力。表 11展示了跨数据库测试的结果，在使用CM数据集作为训练集、RA数据集作为测试集的情况下，本文方法的HTER为17.1%；在使用RA作为训练集、CM作为测试集的情况下，本文方法的HTER为27.4%。相比于其他最优方法，所提方法的HTER分别降低了5.3%和2.9%。所提的面部纹理分析模块通过较大核尺寸的卷积操作，可捕捉感受野更大的面部纹理信息，增强模型对面部纹理纹路和趋势等细节的感知能力；所提的前/背景差异分析模块通过基于边缘检测算子改写的卷积核，提升了模型在不同背景下对面部区域的裁定能力。同时，对两个模块的有效融合，相较于其他主流方法可以更好地提取对于真假人脸具有判别性的特征信息。实验数据表明，本文方法在两种规则的跨数据库测试中表现良好，论证了本文模型是更为鲁棒和强健的，对于现实中的未知场景检测具有实际意义。表11 CM与RA数据跨库实验方法训练测试训练测试 CM RA RA CM LBP(Boulkenafet等，2015) 55.9 47.9 CNN(Yang等，2014) 48.5 45.5 STASN(Yang等，2019) 31.5 30.9 Attention(Chen等，2019b) 30.0 33.4 Auxiliary(Liu等，2018) 27.6 28.4 ASMN(Zheng等，2021) 27.4 28.1 Identity-DS(Xu等，2021) 27.1 31.4 DRL(Zhang等，2020) 22.4 30.3 本文 17.1 27.4 Cross-dataset evaluation between CM and RA /%Table 11 加粗字体表示各列最优结果。综上所述，从在3个公开主流数据集上的各个对比实验可以看出，本文方法通过合理的特征分流及融合，成功得到了更为丰富且鲁棒的特征，模型无论是在同数据库下测试，还是在跨数据库下测试，都可取得相比于同类主流方法更好的表现。3.4模型解释与注意力可视化除了对比实验数据，以模型在跨库实验中的输出可视化对所提算法做进一步佐证，结果如图 8所示。图像主体分成两个区域，分别对应在CM数据集以及在RA数据集上训练的可视化结果。可以看出，在相同数据库中，仅有FBDA模块也可有效地检测出欺诈人脸。但是在跨数据库实验中的表现就会显得很糟糕，当以CM数据集训练时，RA数据集的预测结果并不能有效区分真实人脸与欺诈人脸。这个问题在以RA数据集训练时会变得更为严重，测试CM中的数据甚至会出现预测结果与标签完全相反的情况，这也是本文引言中所提的致命缺陷。值得庆幸的是，添加FTA模块的完整模型可以较为有效地缓解这个问题。从图 8完整模型预测的两栏中可以看出，无论是在CM还是在RA数据集上训练的模型，其跨库测试的结果都可较为清晰地分辨出真实人脸与欺诈人脸，一定程度上验证了本文所提算法的理论意义和实际价值。图8 模型跨库实验输出可视化结果 Feature visualization for output of the model on cross-dataset evaluationFig 84结论本文提出了基于前/背景差异分析和面部纹理的人脸反欺诈模型来提升人脸反欺诈算法在陌生环境下的检测精度。首先，基于ConvNeXt的骨干网络构建面部纹理分析模块为检测模型提供有效的面部信息，有效减缓模型受背景差异的负面干扰；其次，结合边缘检测算法思想对前/背景差异分析模块的卷积核重新改写，有效规避传统卷积核效率偏低且信息冗余的问题；最后，本文设计了一种注意力特征融合模块将两个模块的优点有机结合，同时保证了模型在复杂环境下的适应性。在CASIA-MFSD、Replay-Attack和OULU-NPU等3个数据集上验证了所提模型的实际效能。从实验结果来看，相比于当前主流方法，所提算法在各类复杂背景环境数据下的性能都极具竞争力，展示了所提模型的高精确性和强鲁棒性。但是，本文方法在单一背景数据下的精度未达到最优，仍有提升的空间。未来将对模型的不足之处进一步优化，不断为人脸反欺诈检测工作提供新的理论方案。