发布时间: 2019-08-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180605
2019 | Volume 24 | Number 8

综述

卷积神经网络在掌纹识别中的性能评估

王海纶, 李书杰, 贾伟, 刘晓平

合肥工业大学计算机与信息学院, 合肥 230009

收稿日期: 2018-10-29; 修回日期: 2019-01-21

基金项目: 国家自然科学基金项目（61673157，61877016，61802103，61602146）

第一作者简介: 王海纶, 1994年生, 男, 硕士研究生, 主要研究方向为掌纹识别、深度学习。E-mail:2307681633@qq.com;
李书杰, 女, 讲师, 主要研究方向为计算机视觉。E-mail:lisjhfut@hfut.edu.cn;
刘晓平, 男, 博士, 教授, 博士生导师, 主要研究方向为计算机辅助设计、计算机图形学。E-mail:lxp@hfut.edu.cn.

中图法分类号: TP391.41

文献标识码: A

文章编号: 1006-8961(2019)08-1231-18

摘要

目的掌纹识别技术作为一种新兴的生物特征识别技术越来越受到广泛重视。深度学习是近10年来人工智能领域取得的重要突破。但是，基于深度学习的掌纹识别相关研究还比较初步，尤其缺乏深入的分析和讨论，且已有的工作使用的都是比较简单的神经网络模型。为此，本文使用多种卷积神经网络对掌纹识别进行性能评估。方法选取比较典型的8种卷积神经网络模型，在5个掌纹数据库上针对不同网络模型、学习率、网络层数、训练数据量等进行性能评估，展开实验，并与经典的传统掌纹识别方法进行比较。结果在不同卷积神经网络识别性能评估方面，ResNet和DenseNet超越了其他网络，并在PolyU M_B库上实现了100%的识别率。针对不同学习率、网络层数、训练数据量的实验发现，5×10^-5为比较合适的识别率；网络层数并非越深越好，VGG-16与VGG-19的识别率相当，ResNet层数由18层逐渐增加到50层，识别率则逐渐降低；参与网络训练的数据量总体来说越多越好。对比传统的非深度学习方法，卷积神经网络在识别效果方面还存在一定差距。结论实验结果表明，对于掌纹识别，卷积神经网络也能获得较好的识别效果，但由于训练数据量不充分等原因，与传统算法的识别性能还有差距。基于卷积神经网络的掌纹识别研究还需要进一步深入开展。

关键词

生物特征识别; 掌纹识别; 深度学习; 卷积神经网络; 掌纹数据库; 识别评估

Performance evaluation of convolutional neural network in palmprint recognition

Wang Hailun, Li Shujie, Jia Wei, Liu Xiaoping

School of Computer Science and Information Engineering, Hefei University of Technology, Hefei 230009, China

Supported by: National Natural Science Foundation of China (61673157, 61877016, 61802103, 61602146)

Abstract

Objective In recent years, as an emerging biometrics technology, low-resolution palmprint recognition has attracted attention due to its potential for civilian applications. Many effective palmprint recognition methods have been proposed. These traditional methods can be roughly divided into categories, such as texture-based, line-based, subspace learning-based, correlation filter-based, local descriptor-based, and orientation coding-based. In the past decade, deep learning was the most important technique in the field of artificial intelligence, introducing performance breakthroughs in many fields such as speech recognition, natural language processing, computer vision, image and video analysis, and multimedia. In the field of biometrics, especially in face recognition, deep learning has become the most mainstream technology. However, research on deep learning-based palmprint recognition remains at the preliminary stage. Research on deep learning-based palmprint recognition is relatively rare, and in-depth analysis and discussion on deep learning-based palmprint recognition is scarce. In addition, most existing work on deep learning-based palmprint recognition exploited simple networks only. In palmprint databases, the palmprint images were usually captured in two different sessions. In traditional palmprint recognition work, the images captured in the first session were usually treated as the training data, and the images captured in the second session were typically used as the test data. However, in existing work on deep learning-based palmprint recognition, the images captured in the first and second sessions are exploited as the training data, which leads to a high recognition accuracy. In this study, we evaluate the performance of various convolutional neural networks (CNNs) in palmprint recognition to thoroughly investigate the problem of deep learning-based palmprint recognition. Method We systematically review the classic CNNs in recent years and analyze the structure of various networks and their underlying connections. Then, we perform a large-scale performance evaluation for palmprint recognition. First, we select eight typical CNN networks, namely, AlexNet, VGG, Inception_v3, ResNet, Inception_v4, Inception_ResNet_v2, DenseNet, and Xception, and evaluate these networks on five palmprint databases to determine the best network. We choose the pretrained model in ImageNet Large Scale Visual Recognition Challenge for training because training the CNN model in the case of insufficient data (the scale of the dataset is small) is time consuming and may lead to poor results. Second, we conduct evaluations by using six learning rates from large to small to analyze the impact on performance and obtain the suitable learning rate. Third, we compare the performance of VGG-16 and VGG-19 and ResNet18, ResNet34, and ResNet50 in the evaluation on different layer numbers of the network. Fourth, starting from a single training data, we gradually increase the data amount until the training data contains all the data of the first session to analyze the influence of different training data quantities on performance. Finally, the performance of CNNs is compared with that of several traditional methods, such as competitive code, ordinal code, RLOC, and LLDP. Result Experimental results on eight CNNs with different structures show that ResNet18 outperforms other networks and can achieve 100% recognition rate on the PolyU M_B database. The performance of DenseNet121 is similar to that of ResNe18, and the performance of AlexNet is poor. To evaluate the learning rate, results show that 5×10^-5 is suitable for the palmprint dataset used in this study. If the learning rate is too large, then the performance of these CNNs will be poor. In addition, the appropriate learning rate of the VGG network is 10^-5. The performance evaluation of different numbers of network layers indicated that the recognition rate of VGG-16 and VGG-19 is similar. As the layer number of ResNet increases from 18 to 34 and to 50, the recognition rate gradually decreases. Generally speaking, more data involved in network training results in improved performance. In the early stage of the increase in the amount of data, the performance is significantly improved. A comparison of the performance of CNNs with that of traditional non-deep learning methods shows that the performance of CNNs is equivalent to that of non-deep learning methods on the PolyU M_B database. On other databases, the performance of CNNs is worse than that of traditional non-deep learning methods. Conclusion This paper reviews the CNNs proposed in the literature and conducts a large-scale performance evaluation of palmprint recognition on five different palmprint databases under different network structures, learning rates, network layers, and training data amounts. Results show that ResNet is suitable for palmprint recognition and that 5×10^-5 is an appropriate learning rate, which can help researchers engaged in deep learning and palmprint recognition. We also compared the performance of CNNs with that of four traditional methods. The overall performance of CNN is slightly worse than that of traditional methods, but we can still see the great potential of deep learning methods.

Key words

biometrics; palmprint recognition; deep learning(DL); convolutional neural network(CNN); palmprint dataset; performance evaluation

0 引言

在网络信息化社会中，很多场合需要对人的真实身份进行有效鉴别，生物特征识别技术被认为是最有效的身份鉴别解决方案之一。所谓生物特征识别技术是指利用人体本身固有的物理特征或行为特征，通过图像处理和模式识别等方法来鉴别个人身份的技术。与传统的基于密码或ID卡的身份鉴别方式相比，具有能随身携带、难以伪造、不用记忆等特点，有更好的方便性、安全性、可靠性和有效性。具体而言，指纹、人脸和虹膜识别是目前应用最为成功的3种生物特征识别技术。其中，指纹识别技术的研究和应用已经成熟，相关产品已经占据生物特征识别技术领域比较大的市场份额，尤其已经成为很多智能手机的标配，拥有良好的用户体验。但有一些难题亟待解决，例如，约有2%的人的指纹特征难以提取、指纹识别系统易被诸如指纹膜之类的简单攻击手段欺骗等。最近几年，由于巨大的市场前景和技术挑战性，人脸识别技术受到产业界和学术界的广泛关注，特别是深度学习带来的突破，使得人脸识别技术在很多领域得到成功应用。但是，现有基于图像的人脸识别系统易受头部姿态、光照条件、化妆、年龄和表情变化等多种因素的影响，鲁棒性仍有待提高。虹膜识别是公认的识别率高的生物特征识别技术之一，但虹膜识别系统的价格稍高，影响了其市场推广。除了上述3种识别技术外，学术界和产业界也在积极研究和推广其他具有较强市场前景的生物特征识别技术，其中包括掌纹识别技术。

掌纹识别技术主要分为3种，即低分辨率掌纹识别(图 1(a) (b))、3D掌纹识别(图 1(c)(d) )和高分辨率掌纹识别(图 1(e))。高分辨率掌纹图像主要指图像分辨率大于400 dpi的掌纹图像，使用的识别特征是类似于指纹识别中的细节点等特征，到目前为止，高分辨率掌纹识别的研究和应用主要面向刑侦领域。由于手掌也含有一定的3D信息，2008年后，研究者提出了3D掌纹识别技术，但由于3D采集设备成本昂贵，不太适合大规模应用，目前还主要处在研究阶段。面向民用领域，主要使用低分辨率掌纹识别技术。低分辨率掌纹图像主要是指分辨率介于75~150 dpi的掌纹图像，使用的识别特征包括掌线、纹理和方向等。低分辨率掌纹识别技术主要的优点包括：1)高判别性，掌纹具有丰富的特征，掌纹识别系统精度高，即使是双胞胎，通过掌纹识别也很容易区分；2)特征稳定，由于手掌近似一个平面，特征变异相对较小，具有较好的稳定性；3)感兴趣区域(ROI)容易定位，通过手指连接区域很容易定位参考点，从而切取出ROI；4)图像质量高，使用普通的采集设备或智能手机等设备可以方便地采集到高质量的掌纹图像。

图 1 低分辨率、3D和高分辨率掌纹图像

Fig. 1 Low resolution, 3D and high resolution palmprint images ((a) low resolution palmprint image for contact acquisition; (b)low resolution palmprint image for non-contact acquisition; (c) structured light imaging acquisition 3D palmprint image; (d)palmprint image acquired with 3D scanner; (e) high resolution palmprint image)

特征工程在计算机视觉近20年的发展中具有重要地位。特征工程指根据领域知识来设计各种特征，并使用机器学习的方法进行性能提升。研究者手工设计了很多图像局部描述子，如SIFT(scale invariant feature transform)、LBP (local binary patterns)、HOG (histogram of oriented gradients)等。为了增加特征刻画能力，一些算法采用空间金字塔匹配(SPM)方法增加空间信息，也有学者提出基于模板匹配思想的算法，如DPM (deformable parts model)等来加强特征的适应性。然而，图像原始数据或设计的各种手工特征仍然存在特征冗余、特征表达判别性不强等问题。最近10年来，基于特征学习的方法引起了研究者的关注，并逐渐成为主流方法。特征学习也称为表示学习，指通过机器学习方法对原始输入信号进行线性或非线性的变换，使得变换后的特征满足回归或分类等任务需求。特征学习包括监督的、无监督的浅层学习以及多层/深度结构等方式，其中深度结构的特征学习就是指深度学习(DL)。

深度学习是近10年来人工智能领域取得的重要突破，在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域的应用均取得了巨大成功。在图像处理和计算机视觉领域，卷积神经网络(CNN)是主要的深度学习技术。在生物特征识别领域，基于CNN的人脸识别技术在识别性能上取得了很大进展，促进了人脸识别技术的大规模实际应用。目前，基于CNN的人脸识别已经成为生物特征识别领域最热门的研究方向。相比于人脸识别，掌纹识别的研究和应用显得不是那么热门，基于CNN的掌纹识别的相关研究有一定的滞后性，并且存在一定问题：1)基于CNN的掌纹识别研究工作目前较少，相关研究不透彻，尤其缺乏深入的分析和讨论；2)使用的网络结构较为简单，较少使用比较流行的网络；3)在目前的掌纹图像数据库中，掌纹图像数据大多分两个阶段进行采集，两个阶段采集的数据会存在一定差异。在传统方法的实验中，一般使用第1阶段采集的数据进行训练，使用第2阶段采集的数据进行测试，这样可以较好地检测出所提出算法的适用性和鲁棒性。而现有的基于CNN的掌纹识别研究工作往往没有将两个阶段数据分开处理，训练数据往往包含两个阶段采集的数据，无法检验所使用算法的泛化性能。

针对上述问题，本文开展了CNN在掌纹识别中的性能评估研究工作，在多个掌纹数据库中，使用比较流行的CNN模型进行掌纹识别性能测试。本文的主要贡献如下：

1) 对当前CNN中比较典型的网络模型，按照发展顺序依次进行了介绍，并给出了网络间存在的联系，对相关研究人员有较好的参考作用。

2) 使用多个CNN在多个掌纹数据库进行了识别性能评估。按目前了解的信息，这是掌纹识别研究领域第一次进行较大规模的CNN识别实验评估，对于掌纹识别的研究具有重要的价值。

3) 在评估实验中，严格区分各个阶段的数据，仅将第1阶段的采集数据作为训练数据，将其他阶段采集的数据作为测试数据，这对于更加准确地认识CNN在掌纹识别中的识别性能具有重要意义。

1 相关工作

1.1 典型的CNN模型

CNN最早出自Lecun等人^[1]于1998年提出的LeNet，该网络包含了CNN最基本的结构，如卷积层、池化层、全连接层等，当时由于各种资源的限制，并没有产生较大影响。2012年，AlexNet的出现将CNN推向了一个高潮，之后CNN不断发展。最近几年，相继出现了VGG (visual geometry group)、Inception系列、ResNet、Inception_ResNet系列、DenseNet、Xception以及各种改进网络，CNN日渐繁荣，成为图像处理、计算机视觉等领域最热门的研究方向之一。比较典型的CNN发展年表如图 2所示。

图 2 经典CNN年表

Fig. 2 Classic CNN chronology

1.1.1 AlexNet

AlexNet^[2]由Hinton和他的学生Krizhevsky等人设计，并获得了2012年ImageNet竞赛冠军。AlexNet在LeNet的基础上进行了改进，首次使用了ReLU (rectified linear unit)、Dropout和LRN (local response normalization)等技术。

1) ReLU是指修正线性单元，是一种新的激活函数，与之前常用的Sigmoid和Tanh相比，ReLU形式更为简单且求导方便，解决了梯度发散的问题，目前，ReLU已成为最常使用的激活函数之一。

2) Dropout是在网络训练时，随机使某些神经元失效不工作，避免网络发生过拟合问题，AlexNet主要在最后几个全连接层中使用了Dropout技术。

3) LRN是局部响应归一化，LRN增加局部神经元中响应较大的值，并抑制其他反馈较小的神经元，一定程度上增强了网络的泛化能力。

4) 当时网络的训练由于硬件性能的限制，采用了分布式计算，将AlexNet分布在两块GPU上，每块GPU存储一半的参数，GPU之间可以相互通信、互访内存，AlexNet结构分为上下两部分，各部分对应一块GPU。

5) 使用了数据增强技术。对原始数据做随机裁剪和水平翻转，在减轻过拟合的同时，提高了网络的泛化能力。

1.1.2 VGG

Simonyan等人^[3]于2014年提出VGG网络，VGG是对AlexNet的进一步改进，使得网络变得更深。VGG网络中所有卷积层的卷积核大小都是3×3，网络十分规整，拓扑结构简单，便于后续修改。小卷积核同样带来了好处，如增加了网络的层数，VGG网络将CNN的层数拓展到了10层以上，增强了网络的表达能力。

1.1.3 GoogLeNet

网络模型在变深之后能够提升网络的效果，加宽网络应当同样可以提升效果，在这样的想法下，GoogLeNet应运而生。GoogLeNet最早在2014年由Szegedy等人^[9]提出，与VGG一起成为2014年ImageNet竞赛双雄，并在之后衍生出Inception_v2、Inception_v3等网络。

GoogLeNet主要围绕网络加深和网络加宽两个方面进行设计。深度方面，在采用了22层(带参数的层)的网络后，为避免深层网络的梯度消失问题，加入了两个辅助型损失(loss)。宽度方面，GoogLeNet包含一种称为Inception的模块，Inception模块不断叠加，形成GoogLeNet，Inception模块结构见图 3(a)。该模块包含1×1，3×3和5×5 3种类型的卷积，同时加入了最大池化，增加了网络的适应性。多个卷积核虽然带来了适应性的提升，但也带来了参数数量的大量增加，为此，GoogLeNet分别在卷积之前和池化之后加入1×1大小的卷积，降低特征图的厚度(通道数)，减少了参数数量，改进的Inception模块见图 3(b)。

图 3 GoogLeNet的Inception模块.

Fig. 3 Inception module of GoogLeNet ((a) original module; (b) improved module)

1.1.4 Inception_v2

Inception_v2的思想来源于Szegedy等人^{[5, 10]}的工作，文献[10]认为在训练过程中随着前几层参数的变化，每层输入的分布也发生变化，难以充分构建一个具有饱满的非线性结构的模型；文献[5]则提出能够使用多个小卷积代替单个大卷积，如能够使用2个连续的3×3卷积层代替1个5×5的卷积层。Inception_v2在GoogLeNet的基础上，提出批规范化(BN)，增强网络的容纳能力；使用2个连续的3×3卷积层代替Inception模块中的5×5的卷积层，既减少了参数的数量，也增加了网络层数，加强网络表达能力。

1.1.5 Inception_v3

Inception_v3出自2016年Szegedy等人^[5]的工作，Inception_v2中出现了将大卷积层分解为多个小卷积层的操作，Inception_v3是在此基础上进行进一步分解。Inception_v3将任意一个$n$×$n$的卷积分解为1×$n$卷积之后接上$n$×1卷积，大量节省了参数数量，减轻过拟合，并且增加了层数，加强了网络的非线性表达能力。此外，Inception_v3更加精细地设计了3种inception模块。

1.1.6 ResNet

随着网络深度的不断增加，梯度消失和梯度爆炸问题越来越难以解决，训练超多层的网络变得困难，而ResNet则解决了这一问题。ResNet在2015年由He等人^[4]提出，在同年ImageNet比赛Classification任务上获得冠军。ResNet依赖于一种跳跃连接(shortcut connection)构成的残差模块，结构如图 4(a)所示，多个残差模块顺序叠加形成ResNet。残差模块在普通顺序结构的CNN上，引入了“旁路”。该旁路直接将卷积计算之前的输入引入后续层中，按照特征图的通道这一维度与被引入部分相加，当二者维数相同时，直接相加，维数不同时，对旁路输入做卷积, 将维度调整到与特征图一致后再相加。

图 4 ResNet模块.

Fig. 4 Module of ResNet ((a)residual module in ResNet; (b) two forms of residual module)

残差模块实际上包含两种，一种是基础模块，如图 4(b)左图所示，结构与图 4(a)一样，另一种则是瓶颈模块，如图 4(b)右图所示。瓶颈模块去除了一层3×3的卷积，取而代之的是两个1×1的卷积，减少了参数的数量、降低了计算消耗，同时增加了网络的非线性表达能力。需要注意的是，瓶颈模块一般用于更深层次的网络中，如50层及以上的ResNet。

1.1.7 Inception_v4

Szegedy等人^[6]在2016年提出Inception_v3的改进版——Inception_v4。与ResNet相对规整的网络结构相比，Inception_v4主要由1个输入Stem、3种Inception和2种Reduction模块组成，每种模块均单独设计。Inception_v4整体结构和各模块结构如图 5所示。

图 5 Inception_v4整体结构和各模块结构图

Fig. 5 Inception_v4 overall structure and module structure ((a)Inception_v4 overall structure; (b)Stem module; (c)up: Inception-A, mid: Inception-B, down: Inception-C; (d)up: Reduction-A, down: Reduction-B)

1.1.8 Inception_ResNet_v1/v2

在设计Inception_v4的同时，Szegedy等人^[6]将残差加入GoogLeNet，产生了Inception_ResNet_v1和Inception_ResNet_ v2。Inception_ResNet_v1/v2整体的网络结构相同，区别在于网络内模块的设计。需要注意的是，Inception_v4和Inception_ResNet_v2共享Stem结构；Inception_v4、Inception_ResNet_v1和v2共享Reduction-A结构。

1.1.9 DenseNet

DenseNet是一种将ResNet中的跳跃连接(shortcut connection)发挥到极致的网络，由Huang等人^[7]在2016年提出。该网络中每一层的输出都直接连接到之后的所有层，使得网络能够更好地复用特征。如图 6(a)为1个5层的密集模块，其中每层输出均连接到后面每一层。密集模块不断堆叠形成DenseNet，结构如图 6(b)所示。

图 6 DenseNet网络结构图

Fig. 6 DenseNet network structure ((a) dense block structure; (b) DenseNet overall structure)

1.1.10 Xception

Chollet等人^[8]在2016年提出的Xception网络是对Inception_v3的另一种改进。Xception基于如下假设：空间卷积(沿着特征图水平和垂直方向的卷积)和通道卷积(沿着特征图通道方向的卷积)可以独立进行，用来减少不同操作之间的耦合性。具体来说，对于上一层中的$M$个特征图，使用$N$个1×1的卷积对特征图进行线性组合，之后对每个通道单独使用正常大小的卷积核(如3×3)进行卷积。

1.2 低分辨率掌纹识别研究进展

针对低分辨率掌纹识别，许多学者提出了各具特色的算法，Kong等人^[11]、Zhang等人^[12]、Fei等人^[13]、岳峰等人^[14]分别撰写了综述性文章。低分辨率掌纹识别算法可大致分成如下几类：

1) 基于线特征的识别算法^[15-17]。比较有代表性的方法有：Wu等人^[15]提出的使用具有方向的线检测算子提取掌线算法、Liu等人^[16]提出的无方向的检测算子提取宽线特征算法和Huang等人^[17]提出的基于改进有限radon变换(MFRAT)的主线提取算法。

2) 基于纹理特征的识别算法^[18-19]。在该类算法中，一般通过使用小波变换、分形、离散余弦变换和Gabor统计特征等方式进行纹理特征提取。总的来说，掌纹的纹理特征判别性一般，相应的识别算法性能并不突出。

3) 基于方向特征的识别算法^[20-26]。该类方法先提取掌纹每个像素的方向特征，再进行编码和匹配。比较有代表性的方法有：Kong等人^[20]提出的competitive code、Sun等人^[21]提出的ordinal code、Jia等人^[22]提出的RLOC (robust line orientation code)、Zuo等人^[23]提出的SMCC (sparse multiscale competitive code)、Fei等人^[24]提出的DOC (double orientation code)以及双层的方向编码方法^[25]、Zheng等人^[26]提出的fast-competitive code。相比较而言，基于方向特征的识别算法具有较均衡的性能，首先是因为方向信息对于光照条件变化是鲁棒的而且具有较强的判别能力，其次是因为特征的存储开销小而且匹配速度快，适合实际应用。

4) 基于图像局部特征描述子的识别算法^[27-30]。比较有代表性的方法有：Jia等人^[27]提出的HOL (histogram of oriented lines)、Luo等人^[28]提出的LLDP (local line directional pattern)、Wu等人^[29]提出的基于SIFT的识别方法和Zhang等人^[30]提出的基于协作表示分类器的方向编码描述子方法。基于局部特征描述子的方法展现了良好的识别性能，今后仍有非常大的发展空间。

5) 基于子空间学习的识别算法。该类算法先使用降维算法将图像映射到低维空间，再使用最近邻、SVM(support vector machine)或稀疏表示等分类器进行分类识别。早期主要使用PCA (principal component analysis)和LDA (linear discriminant analysis)等方法，后继研究者提出了多种基于核方法、流形学习方法、矩阵和张量映射方法以及低秩表示的掌纹识别算法。子空间学习方法直接用于原始掌纹图像并不能获得很好的识别效果，原因是该类方法对于光照变化、旋转和位移等变异比较敏感。而子空间学习算法和局部特征描述子结合使用，则能极大地提高识别率，进而形成局部特征描述子学习方法，这是掌纹识别领域子空间学习算法的发展方向。

6) 基于相关滤波器的算法^[31-32]。这是频域的方法，比较有代表性的方法有：Hennings-Yeomans等人^[31]提出的基于OTSDF (optimal tradeoff synthetic discriminant function)滤波器的掌纹识别方法和Jia等人^[32]提出的完全方向表示框架(CDR)。基于相关滤波器的方法也有很好的识别性能。

7) 基于CNN的掌纹识别算法(将在1.4节中阐述)。

1.3 基于深度学习的人脸、虹膜、指纹的识别算法研究进展

在生物特征识别领域，基于深度学习的识别方法已经成为研究热点。Sundararajan等人^[33]于2018年对基于深度学习的生物特征识别技术进行了综述。

在人脸方面，人脸识别可以分为人脸验证(verification)和人脸识别(identification)两部分。Sun等人^[34-36]提出了一系列网络用于人脸验证，这些网络先通过联合识别—验证训练并学习出DeepID特征，该特征再与度量学习中的方法如联合贝叶斯学习结合。Google和Facebook等公司拥有大量的用户照片，进一步推动了人脸验证的发展。Facebook提出DeepFace^[37]，使用包含4 000类400万幅图像的数据库训练9层的CNN，解决了人脸对齐和表示两个问题。Google的Schroff等人^[38]使用深度CNN和三元组损失函数(triplet loss function)学习人脸图像到特征空间的直接映射。相比人脸识别，人脸验证更加复杂。Zhu等人^[39]提出面部身份保护验证(FIP)特征来解决姿势和光照的变化。Ramaiah等人^[40]提出一套识别系统学习非均匀光照下有效的人脸表示。Chiachia等人^[41]应用3层CNN学习特定的人脸表示。Wen等人^[42]结合中心损失函数和Softmax Loss，能够提升人脸表示的类间距离和类内紧凑性。AbdAlmageed等人^[43]和Masi等人^[44]使用一组Pose-aware CNN识别人脸。

在虹膜识别方面，Minaee等人^[45]将VGG与支持向量机(SVM)结合提取虹膜图像特征。Liu等人^[46]使用CNN学习虹膜图像特定的滤波器。Gangwar等人^[47]使用两个深度CNN识别虹膜，其中一个CNN包含8个卷积层，另一个包含5个卷积层和2个Inception模块。Raja等人^[48]和Zhang等人^[49]分别使用稀疏自编码器和3层CNN对移动设备获取的虹膜图像进行识别。

在指纹识别方面，Jiang等人^[50]使用CNN提取指纹图像中的细节部分，该方法结合使用JudgeNet和LocateNet，前者识别包含细节的候选部分，后者计算细节部分位置的同时排除错误的候选。Su等人^[51]使用CNN提取毛孔，以辅助指纹识别。Cao等人^[52]利用多尺度CNN提取指纹的细节特征。

1.4 基于深度学习的掌纹识别算法

除了人脸、虹膜和指纹之外，Sundararajan等人^[33]对掌纹识别的深度学习方法进行了综述。Jalali等人^[53]使用未经过ROI提取的整幅掌纹图像训练1个4层的CNN。Zhao等人^[54]使用受限的波尔兹曼机(RBM)预训练出深度信念网络(DBN)。Minaee等人^[55]使用两层的DSCNN(deep scattering CNN)对掌纹做识别，scattering CNN与CNN类似，只是当中的滤波器使用的是预定义的小波变换滤波器而不是从训练数据中学习到的滤波器。Liu等人^[56]使用AlexNet提取掌纹图像的特征，结合豪斯多夫距离进行匹配识别。Svoboda等人^[57]使用掌纹的ROI和d-prime损失函数训练CNN，观察到d-prime损失函数相较Contrastive Loss效果更好。此外，Yang等人^[58]结合深度学习和局部编码的方法，先用CNN提取掌纹特征，之后使用局部编码来编码提取出的特征。Zhang等人^[59]开发了一种非接触式的掌纹采集设备，并建立了公开掌纹数据库，同时提出PalmRCNN识别方法，该方法由Inception_ResNet_v1整改得到。已有的基于CNN的掌纹识别方法如表 1所示，表中“训练数据配置”栏中的“随机选取80%数据”表示从掌纹数据库中随机挑选80%数据作为网络的训练数据。

表 1 基于卷积神经网络的掌纹识别算法
Table 1 Palmprint recognition algorithm based on convolutional neural network

下载CSV

算法	年份	神经网络	掌纹数据库	训练数据配置	识别性能/%
算法	年份	神经网络	掌纹数据库	训练数据配置	识别率	等错率(EER)
Jalali等人^[53]	2015	4层CNN	PolyU hyperspectral palmprint database	随机选取80%数据	99.98	-
Zhao等人^[54]	2015	DBN	Beijing Jiaotong University database	随机选取800幅图像	90.63	-
Minaee等人^[55]	2016	DSCNN	PolyU palmprint database	选取50%数据	100	-
Liu等人^[56]	2016	Alexnet	PolyU II	未给出	-	0.04
	2016	Alexnet	CASIA	未给出	-	0.08
	2016	Alexnet	IITD	未给出	-	0.11
Svoboda等人^[57]	2016	4层CNN	IITD	选取50%数据，包含不同类别	-	1.64
	2016	4层CNN	CASIA	选取50%数据，包含不同类别	-	1.86
Yang等人^[58]	2017	VGG-F	PolyU palmprint database,	100个手掌的1 000幅图像		0.165 5
Yang等人^[58]	2017	VGG-F	PolyU multispectral (Red) database PolyU multispectral (Green) database PolyU multispectral (Blue) database PolyU multispectral (NIR) database	100个手掌的1 000幅图像	-	0.448 9 0.408 8 0.337 5 0.782 4
Zhang等人^[59]	2018	PalmRCNN	Tongji Contactless Palmprint Dataset	包含两个阶段的数据	100	2.74

2 不同CNN在掌纹识别中的性能评估

2.1 评估使用的掌纹数据库

PolyU Ⅱ数据库(Hong Kong Polytechnic University Palmprint Ⅱ Database)，是香港理工大学建设和发布的公开掌纹数据库，从386个手掌接触式采集掌纹，数据分两阶段采集，每个手掌第1阶段和第2阶段分别采集约10幅掌纹图像，两个阶段之间的间隔为2个月，整个数据库包含7 752幅掌纹图像，PolyU Ⅱ数据库自发布以来，已经成为最广泛使用的掌纹数据库。图 7是PolyU Ⅱ数据库中不同手掌的4幅ROI图像。

图 7 PolyU Ⅱ数据库中不同手掌的4幅ROI图像

Fig. 7 Four palmprint ROI images from different palms in PolyU Ⅱ database

PolyU M_B数据库(Hong Kong Polytechnic University Multispectral Palmprint Database Blue Band)，是香港理工大学采集的多光谱掌纹数据库中的蓝光库，从500个手掌接触式采集掌纹，数据分两阶段采集，每个手掌第1阶段和第2阶段分别采集约6幅掌纹图像，两个阶段之间的间隔为9天，整个数据库包含6 000幅掌纹图像。图 8是PolyU M_B数据库中不同手掌的4幅ROI图像。

图 8 PolyU M_B数据库中不同手掌的4幅ROI图像

Fig. 8 Four palmprint ROI images from different palms in PolyU M_B database

HFUT I数据库(Hefei University of Technology Palmprint Database I)，是本实验室采集的掌纹数据库。数据分两阶段采集，从800个手掌接触式采集掌纹，每个手掌第1阶段和第2阶段分别采集约10幅掌纹图像，两个阶段之间的间隔为10天，整个数据库包含16 000幅掌纹图像，是相对比较大的掌纹数据库。图 9是HFUT I数据库中不同手掌的4幅ROI图像。

图 9 HFUT I数据库中不同手掌的4幅ROI图像

Fig. 9 Four palmprint ROI images from different palms in HFUT I database

HFUT CS数据库(Hefei University of Technology Cross-Sensor Palmprint Database)，是本实验室采集的跨传感器掌纹数据库，为非接触式掌纹数据库。数据库共包含从200个手掌上采集的掌纹，每个手掌有60幅掌纹图像。每个手掌使用数码相机和两个手机共3个设备进行图像采集，每个设备分2次采集，每次采集10幅图像，两次采集的间隔为10天，这样从每个手掌共采集60幅图像；数据库共包含12 000幅掌纹图像。图 10是HFUT CS数据库中3个不同设备采集的同一手掌的6幅ROI图像。

图 10 HFUT CS数据库中3个不同设备采集的同一手掌的6幅ROI图像

Fig. 10 Six palmprint ROI images captured by three devices from a same palm in HFUT CS database ((a) two images captured in the first and second session by digital camera; (b) two images captured in the first and second session by the first mobile phone; (c) two images captured in the first and second session by the second mobile phone)

TJU数据库(Tongji University Contactless Palmprint Database)，是同济大学建设的非接触式掌纹数据库。数据分两阶段采集，共包含600个手掌，每个手掌有20幅掌纹图像，也是相对较大的掌纹数据库。图 11是TJU数据库中不同手掌的4幅ROI图像。

图 11 TJU数据库中不同手掌的4幅ROI图像

Fig. 11 Four palmprint ROI images from different palms in TJU database

以上参与评估的掌纹数据库细节如表 2所示。除了已提供ROI掌纹图像的数据库外，其余数据库使用文献[60]中的ROI提取算法提取出掌纹ROI，所有掌纹图像数据库的ROI大小都是128×128像素。

表 2 参与评估的掌纹数据库细节
Table 2 Palmprint database details involved in the evaluation

下载CSV

数据库	采集人数	手掌数	阶段数	间隔/天	每个手掌图像数	图像总数/幅
PolyU Ⅱ	193	386	2	60	10×2	7 752
PolyU M_B	250	500	2	9	6×2	6 000
HFUT I	400	800	2	10	10×2	16 000
HFUT CS	100	200	2	10	10×2×3	12 000
TJU	300	600	2	61	10×2	12 000

2.2 参与掌纹识别性能评估的CNN及实验配置

为了探究不同CNN的掌纹识别能力，从前文介绍的各种典型的CNN网络模型中选取AlexNet、VGG、Inception_v3、ResNet、Inception_v4、Inception_ResNet_v2、DenseNet和Xception网络参与掌纹识别性能评估。选择这些网络的原因如下：AlexNet、VGG是早期CNN的代表，参与评估能够与近期的CNN进行对比；Inception_v3和v4是GoogLeNet的代表，v3是v1、v2版的改进，v4则是v3的进一步精细设计；ResNet能够将CNN加深到100层以上，并且可以很好地训练；Inception_ResNet选取了v2而没有选取v1是因为v1、v2共享整体结构，仅选取v2足够具有代表性；DenseNet是ResNet的进一步扩展；Xception是对卷积顺序新的尝试。选择的CNN的详细信息见表 3，表 3中网络层数的计算仅包含可训练参数的层，如卷积层；Inception系列网络中每个网络的模块都是详细设计的，故不计算层数。

表 3 参与评估的网络
Table 3 Networks participating in the evaluation

下载CSV

网络名称	简称	网络层数	作者	年份
Alexnet	Alex	8	Krizhevsky等人^[2]	2012
VGG	VGG	16/19	Simonyan等人^[3]	2014
Inception_v3	IV3	—	Szegedy等人^[5]	2015
ResNet	Res	18/34/50	He等人^[4]	2015
Inception_v4	IV4	—	Szegedy等人^[6]	2016
Inception_ResNet_v2	IResV2	—	Szegedy等人^[6]	2016
DenseNet	Dense	121	Huang等人^[7]	2016
Xception	Xec	36	Chollet^[8]	2016
注：“—”表明不计算层数。

默认的实验数据配置如下：掌纹库中第1阶段采集的数据作为各数据库的训练数据，第2阶段采集的数据作为测试数据；对于CS库，仅使用数码相机第1阶段采集的数据作为训练数据，其余作为测试数据。

由于不同网络对输入的尺寸要求不一，如AlexNet要求输入网络的图像大小为227×227像素，Inception_v3为299×299像素，ResNet为224×224像素等，因此掌纹图像在输入各网络之前需要降采样或升采样到适合网络输入的尺寸。为了增强网络的稳定性，加入了随机翻转操作，即对于一个训练图像，存在一定概率将图像水平翻转后再输入网络中。本文不使用随机参数初始化方法初始化模型参数，而使用ImageNet比赛中预训练模型的参数进行初始化。数据库中的掌纹图像通常为灰度图像，即图像通道数为1，而预训练模型的输入均为3通道图像，故将掌纹灰度图像的灰度通道复制3次，变成3通道图像。

所有评估实验均在Pytorch下进行，系统配置为：i7 4.2 GHz处理器，GTX 1080Ti显卡，16 GB内存以及Windows 10操作系统。默认使用CrossEntropyLoss，Adam优化器，Batch Size为4，学习率为5×10^-5。

2.3 实验结果

2.3.1 不同结构CNN的识别性能

在多种不同结构的CNN上进行评估实验。实验仅使用各网络的浅层模型，如ResNet只使用18层版本。各网络在不同数据库上的识别效果如表 4所示。表 4中AlexNet和VGG-16的部分结果出现形如-/xx的情况，表明在学习率为5 × 10^-5的条件下网络出现了无法训练或识别率较低的情况(记为“-”)，此时将学习率调整为10^-5，新的结果即为“-”右边的百分数所示，如PolyU Ⅱ在AlexNet网络下，学习率为5 × 10^-5时无法训练，学习率为10^-5时识别率为81.81%。

表 4 不同结构卷积神经网络在不同掌纹数据库上的识别率
Table 4 Recognition rate on different CNNs on different palmprint databases

下载CSV

/%
数据库	卷积神经网络
数据库	Alex	VGG-16	IV3	Res-18	IV4	IRes2	Dense	Xec
PolyU Ⅱ	-/81.81	-/96.79	94.66	97.66	95.22	95.07	96.53	94.94
PolyU M_B	92.63/94.36	-/99.33	99.23	100	99.03	99.73	100	97.83
HFUT I	78.33/86.17	-/96.04	97.74	98.51	97.72	96.45	98.05	94.45
HFUT CS	42.53/46.49	73.86/86.55	85.65	95.37	84.78	74.26	94.47	74.94
TJU	80.35/81.85	78.38/93.92	98.08	99.25	96.78	98.50	99.38	94.20
注：加粗字体表示最优结果，Alex和VGG-16的两个值分别是学习率为5×10^-5和10^-5时的识别率。

由表 4可以看出：

1) ResNet18是识别效果最好的CNN模型，除在TJU库外，ResNet18在其他数据库上均取得了最高的识别率，在PolyU M_B库的识别率甚至达到了100%，在其他数据库上的最低识别率也超过了95%。DenseNet121是识别效果次好的CNN模型，除在PolyU Ⅱ上效果欠佳外，在其他数据库上的识别效果与ResNet18接近。

2) AlexNet在各数据库上的识别效果远落后于其他网络，最高识别率也仅是PolyU M_B库上的94.36%。作为早期CNN的代表，由于结构较为简单，网络层数较少，识别效果已经无法与后续网络相比较。

3) 学习率为5×10^-5时无法训练的情况基本集中在VGG-16中，调整学习率为10^-5后效果有改善。

4) 各网络在HFUT CS库的识别效果明显较差，AlexNet的识别率仅为46.49%，这是由于训练数据仅包含数码相机采集的第1阶段的数据导致的，但是在ResNet18和DenseNet121上仍然分别取得了95.37%和94.47%的识别率。

2.3.2 ResNet18网络在不同学习率下的识别性能

学习率是深度学习中一个非常重要的超参数，控制着网络参数在每次迭代后更新的大小。学习率太小，损失沿着梯度方向下降的速度会很慢，到达最优解的时间很长；学习率太大，可能会导致损失错过最优解，产生剧烈震荡，甚至出现梯度发散的问题。因此选取一个合适的学习率尤其关键。本节选取ResNet18进行实验，因为在所有数据库上仅ResNet18的识别率均在95%以上。本节使用默认的数据配置，实验结果见表 5。

表 5 不同学习率下ResNet18在不同掌纹数据库上的识别率
Table 5 Recognition rate on different learning rates of ResNet18 on different palmprint databases

下载CSV

/%
数据库	学习率
数据库	5 × 10^-3	10^-3	5 × 10^-4	10^-4	5 × 10^-5	10^-5
PolyU Ⅱ	66.16	88.39	88.64	96.99	97.66	96.40
PolyU M_B	82.20	93.33	96.97	99.97	100	100
HFUT I	54.61	78.45	89.55	97.67	98.51	98.42
HFUT CS	42.96	56.38	69.79	92.85	95.37	93.73
TJU	57.67	82.75	88.18	98.38	99.25	99.18
注：加粗字体表示最优结果。

由表 5可知:

1) 在PolyU M_B库上，学习率为5×10^-5和10^-5时都取得了最高识别率，其余库均在学习率为5×10^-5时取得了最高识别率。

2) 学习率为5×10^-3时，各网络在各数据库的识别率均未达到90%，并且HFUT I、TJU和HFUT CS数据库上的识别率未达到60%。

3) 学习率在达到5×10^-5之前，各数据库识别率随着学习率的减小而增加，而学习率为10^-5时，除PolyU M_B外，识别率都有小幅度的下降。

2.3.3 不同网络层数CNN的掌纹识别性能

对于同一结构的网络，ImageNet比赛的预训练模型中存在不同层数的模型，如ResNet网络有18、34、50等不同层数的模型。浅层的网络层数较少，网络的表达能力相对较差，而较深的网络由于层数较多，网络的表达能力更强，但也更容易出现过拟合的问题，因此选取合适层数的网络也是一个重要的因素。针对表 3中的VGG和ResNet，选取这些网络不同层数的模型进行评估实验。本节使用默认的数据配置，由于大部分数据库在VGG上实验学习率为5×10^-5时出现难以训练的问题，在VGG上的实验学习率采用10^-5，实验结果见表 6。

表 6 不同层数网络下VGG和ResNet在不同数据库上的识别率
Table 6 Recognition rate on different layer numbers of VGG and ResNet on different palmprint databases

下载CSV

/%
数据库	网络层数
数据库	VGG-16	VGG-19	ResNet-18	ResNet-34	ResNet-50
PolyU Ⅱ	96.79	97.43	97.66	96.25	93.68
PolyU M_B	99.47	99.33	100	99.93	99.53
HFUT I	96.04	96.25	98.51	98.14	93.79
HFUT CS	86.55	82.13	95.37	91.04	85.21
TJU	93.92	91.28	99.25	98.67	95.33
注：加粗字体表示最优结果。

从表 6中可以看出：

1) 对于VGG网络，VGG-16和VGG-19的识别效果相当。在PolyU Ⅱ库上，VGG-19网络比VGG-16网络识别率上升了0.64%。在TJU库上，VGG-19网络比VGG-16网络识别率下降了2.64%，在CS上下降了4.42%。

2) 对于ResNet网络，随着网络层数的增加，所有数据库的识别率均出现了下降，HFUT CS数据库最为明显，由95.37%下降到85.21%，下降了10.16%。

3) 除了PolyU Ⅱ和HFUT外，其他数据库在ResNet系列网络上的识别率都比VGG系列网络的高，并且在ResNet网络的效果随着层数的增加而下降的情况下，ResNet50的效果也几乎都高于VGG的效果。

2.3.4 不同训练数据量情况下的识别性能

对CNN进行训练时，参与训练的数据数量直接影响到网络的学习情况，本节旨在探究不同训练数据量下CNN对掌纹的识别效果。实验使用默认数据配置，依然在ResNet18上进行实验，实验结果见表 7。

表 7 不同训练数据量下ResNet18在不同数据库上的识别率
Table 7 Recognition rate on different training data amounts of ResNet18 on different palmprint databases

下载CSV

/%
数据库	训练数据量/幅
数据库	1	2	3	4	5	6	7	8	9	10
PolyU Ⅱ	71.34	93.40	95.33	97.39	97.18	97.28	97.23	97.64	97.15	97.66
PolyU M_B	83.91	99.22	99.80	99.95	99.97	100	-	-	-	-
HFUT I	76.14	93.57	96.42	97.91	98.68	98.48	98.50	98.30	98.53	98.51
HFUT CS	43.49	71.64	83.13	89.75	91.16	92.81	93.63	94.29	94.97	95.37
TJU	80.49	94.59	98.18	98.73	99.00	99.08	99.13	99.26	99.20	99.25
注：加粗字体表示最优结果。

由表 7可以看出：

1) 在每类参与训练的数据量增加初期，所有数据库的识别效果均随数据量的增加显著提升。

2) 除HFUT CS数据库外，当每类参与训练的数据量超过1幅时，各库的识别率上升到90%以上；当超过最大允许训练数据量(如PolyU M_B是6，HFUT I是10)的一半以上时，识别率几乎达到最高值，之后小范围波动，波动范围在0.5%左右。

3) HFUT CS数据库由于参与训练的数据仅包含数码相机采集的第1阶段的数据，并且未包含第2阶段的数据以及任何手机采集的数据，故最高的识别率仅为95.37%，并且识别率随着训练数据量的增加逐步提升。

2.3.5 与非深度学习方法识别性能的对比

选取4种经典的传统掌纹识别算法competitive code^[20]、ordinal code^[21]、RLOC^[22]、LLDP^[28]与深度学习中CNN的ResNet18和DenseNet121进行对比。传统算法选取每类第1阶段采集的4幅图像作为训练数据，第2阶段采集的数据作为测试数据。ResNet18和DenseNet121使用第1阶段的所有数据(CS库仅使用数码相机采集的数据)作为训练数据。这样选取训练数据是因为非深度学习的算法是经过精心设计的，引入了设计者的先验知识，不需要太多数据参与训练，而深度学习方法的效果离不开训练数据的充足性，同时又要保证第2阶段采集的数据不参与训练，对比结果见表 8和图 12。

表 8 传统方法与深度学习方法的识别率对比
Table 8 Comparison of recognition rate between traditional methods and deep learning methods

下载CSV

/%
数据库	传统方法			深度学习方法
数据库	competitive code	ordinal code	RLOC	LLDP	ResNet18	DenseNet121
PolyU Ⅱ	100	100	100	100	97.66	96.53
PolyU M_B	100	100	100	100	100	100
HFUT I	99.64	99.60	99.75	99.89	98.51	98.05
HFUT CS	99.45	99.67	99.36	99.40	95.37	94.47
TJU	99.87	99.95	99.63	99.50	99.25	99.38

图 12 传统方法与深度学习方法的识别率对比图

Fig. 12 Comparison of recognition rate between traditional methods and deep learning methods

由表 8和图 12可以看出：

1) 总体而言，在掌纹识别方面，传统算法的识别效果优于CNN。

2) 在PolyU M_B数据库上，非深度学习算法与深度学习算法的效果相当，这可能是由于PolyU M_B数据库两个阶段采集的掌纹数据差异较小的缘故。在PolyU Ⅱ和HFUT CS数据库上，CNN的识别效果与传统方法相比差距较大，主要原因是PolyU Ⅱ和HFUT CS两个数据库第1阶段采集的数据和第2阶段采集的数据有较大差异，而CNN方法依赖数据进行训练，训练数据不充分的情况，影响了识别效果。

2.4 讨论

根据2.3节的评估实验，得到如下观察结果：

1) 在各种典型的CNN网络模型中，ResNet网络的识别效果明显优于除DenseNet外的其他网络。DenseNet的效果与ResNet的效果相近，而AlexNet识别效果较差，已经无法与其他网络相比较。

2) 学习率是CNN调参中的一个重要因素，学习率的改变带来的是网络识别效果的巨大变化。针对掌纹识别，在本文选取的数据库上，5×10^-5是较为合适的学习率，在该学习率上网络的识别效果已经相当不错。5×10^-5附近可能存在一个学习率使得识别效果有进一步的提升，不过该提升可能并不明显，而且寻找这样一种学习率也不是本文的目的。此外，一些不适宜的学习率可能导致网络无法训练，如学习率为5×10^-5时，VGG网络表现出难以学习的情况。

3) 在部分数据库上，看到VGG从16层增加到19层后，网络的识别率有所增加，而在所有数据库上，ResNet则随着网络层数从18增加到34再到50，识别率一直在下降。本文认为出现这种情况的原因在于，相比较ImageNet比赛而言，掌纹识别目前拥有的数据库的数据量还是比较少，层数多的模型可能带来的是模型过于复杂而出现的过拟合问题。即对于不是非常巨大的数据库来说，ResNet18完全可以满足要求。

4) 数据是CNN模型的核心，训练数据的多少决定了网络模型的效果，当每类参与训练的数据仅为1时，网络识别效果非常差，随着参与训练的数据量的增大，识别效果逐渐提升并趋于稳定。

5) 相比传统的掌纹识别算法，CNN在识别性能上还存在一定差距，主要原因可能是由于掌纹的特征比较稳定，传统的算法已经能非常好地描述掌纹的特征，例如基于方向编码的算法已经有很高的识别率。此外，掌纹数据库包含的图像还比较少，而深度学习方法非常依赖于大数据的学习，如有充分的训练数据，深度学习方法有可能获得更好的识别性能。

3 结论

本文使用深度学习中的CNN对掌纹识别进行评估实验。针对当前典型的CNN模型，选取AlexNet、ResNet等8种网络，介绍了模型结构、模型变化及模型之间的联系，为相关研究人员提供了帮助。并且使用8种网络的预训练模型在5种掌纹数据库上进行评估实验，实验表明，ResNet和DenseNet比较适用于掌纹识别领域，5×10^-5为合适的学习率，针对一般规模的掌纹数据库，浅层网络足够满足要求，并且需要尽可能为模型提供充分的训练数据。

同时，将CNN的方法与传统的掌纹识别算法进行了对比，CNN的方法在识别率上并未超越传统算法，目前仅能在PolyU M_B库上取得与传统算法相当的效果。本文认为其原因在于CNN方法对数据的依赖性较强且未获得任何先验知识，而传统算法经过研究者的手工设计，包含了设计者的先验知识，从而使得传统算法具有较好的识别效果。

本文使用预训练模型而不是权重随机初始化的模型能够加快模型的训练速度且提升模型的识别效果。但是也在一定程度上限制了模型的设计，如何解决这一问题将成为下一步的研究内容。在未来基于深度学习的掌纹识别研究中，一方面将研究新的更加适用于掌纹识别的CNN网络结构，另一方面要构建大规模的掌纹数据库，使CNN能够进行充分的训练。基于CNN的掌纹识别在未来大有可为。

参考文献

[1] Lecun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278–2324. [DOI:10.1109/5.726791]

[2] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84–90. [DOI:10.1145/3065386]

[3] Simonyan K, Zisserman A.Very deep convolutional networks for large-scale image recognition[EB/OL].[2018-10-14] https://arxiv.org/pdf/1409.1556.pdf.

[4] He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016.[DOI: 10.1109/CVPR.2016.90]

[5] Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016.[DOI: 10.1109/CVPR.2016.308]

[6] Szegedy C, Ioffe S, Vanhoucke V.Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning[C]//Proceedings of the 31st AAAI Conference on Artificial Intelligence. Mountain View, CA: AAAI, 2017: #12.

[7] Huang G, Liu Z, van der Maaten L, et al. Denselyconnected convolutional networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017.[DOI: 10.1109/CVPR.2017.243]

[8] Chollet F. Xception: deep learning with depthwise separable convolutions[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017.[DOI: 10.1109/CVPR.2017.195]

[9] Szegedy C, Liu W, Jia Y Q, et al. Going deeper with convolutions[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015.[DOI: 10.1109/CVPR.2015.7298594]

[10] Ioffe S, Szegedy C.Batch normalization: accelerating deep network training by reducing internal covariate shift[C]//Proceedings of the 32nd International Conference on International Conference on Machine Learning. Lille, France: JMLR.org, 2015: 448-456.

[11] Kong A, Zhang D, Kamel M. A survey of palmprint recognition[J]. Pattern Recognition, 2009, 42(7): 1408–1418. [DOI:10.1016/j.patcog.2009.01.018]

[12] Zhang D, Zuo W M, Yue F. A comparative study of palmprint recognition algorithms[J]. ACM Computing Surveys, 2012, 44(1): #2. [DOI:10.1145/2071389.2071391]

[13] Fei L K, Lu G M, Jia W, et al. Feature extraction methods for palmprint recognition:a survey and evaluation[J]. IEEE Transactions on Systems, Man, and Cybernetics:Systems, 2019, 49(2): 346–363. [DOI:10.1109/TSMC.2018.2795609]

[14] Yue F, Zuo W M, Zhang D P. Survey of palmprint recognition algorithms[J]. Acta Automatica Sinica, 2010, 36(3): 353–365. [岳峰, 左旺孟, 张大鹏. 掌纹识别算法综述[J]. 自动化学报, 2010, 36(3): 353–365. ] [DOI:10.3724/SP.J.1004.2010.00353]

[15] Wu X Q, Zhang D, Wang K Q. Palm line extraction and matching for personal authentication[J]. IEEE Transactions on Systems, Man, and Cybernetics-Part A:Systems and Humans, 2006, 36(5): 978–987. [DOI:10.1109/TSMCA.2006.871797]

[16] Liu L, Zhang D, You J. Detecting wide lines using isotropic nonlinear filtering[J]. IEEE Transactions on Image Processing, 2007, 16(6): 1584–1595. [DOI:10.1109/TIP.2007.894288]

[17] Huang D S, Jia W, Zhang D. Palmprint verification based on principal lines[J]. Pattern Recognition, 2008, 41(4): 1316–1328. [DOI:10.1016/j.patcog.2007.08.016]

[18] Jing X Y, Zhang D. A face and palmprint recognition approach based on discriminant DCT feature extraction[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2004, 34(6): 2405–2415. [DOI:10.1109/TSMCB.2004.837586]

[19] Lu J, Zhao Y, Hu J. Enhanced Gabor-based region covariance matrices for palmprint recognition[J]. Electronics Letters, 2009, 45(17): 880–881. [DOI:10.1049/el.2009.0871]

[20] Kong A W K, Zhang D. Competitive coding scheme for palmprint verification[C]//Proceedings of the 17th International Conference on Pattern Recognition.Cambridge, UK: IEEE, 2004.[DOI: 10.1109/ICPR.2004.1334184]

[21] Sun Z N, Tan T N, Wang Y H, et al. Ordinal palmprint represention for personal identification[C]//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA: IEEE, 2005.[DOI: 10.1109/CVPR.2005.267]

[22] Jia W, Huang D S, Zhang D. Palmprint verification based on robust line orientation code[J]. Pattern Recognition, 2008, 41(5): 1504–1513. [DOI:10.1016/j.patcog.2007.10.011]

[23] Zuo W M, Yue F, Wang K Q, et al. Multiscale competitive code for efficient palmprint recognition[C]//Proceedings of the 19th International Conference on Pattern Recognition. Tampa, FL, USA: IEEE, 2008.[DOI: 10.1109/ICPR.2008.4761868]

[24] Fei L K, Xu Y, Tang W L, et al. Double-orientation code and nonlinear matching scheme for palmprint recognition[J]. Pattern Recognition, 2016, 49: 89–101. [DOI:10.1016/j.patcog.2015.08.001]

[25] Fei L K, Zhang B, Zhang W, et al. Local apparent and latent direction extraction for palmprint recognition[J]. Information Sciences, 2019, 473: 59–72. [DOI:10.1016/j.ins.2018.09.032]

[26] Zheng Q, Kumar A, Pan G. Suspecting less and doing better:new insights on palmprint identification for faster and more accurate matching[J]. IEEE Transactions on Information Forensics and Security, 2016, 11(3): 633–641. [DOI:10.1109/TIFS.2015.2503265]

[27] Jia W, Hu R X, Lei Y K, et al. Histogram of oriented lines for palmprint recognition[J]. IEEE Transactions on Systems, Man, and Cybernetics:Systems, 2014, 44(3): 385–395. [DOI:10.1109/TSMC.2013.2258010]

[28] Luo Y T, Zhao L Y, Zhang B, et al. Local line directional pattern for palmprint recognition[J]. Pattern Recognition, 2016, 50: 26–44. [DOI:10.1016/j.patcog.2015.08.025]

[29] Wu X Q, Zhao Q S. Deformed palmprint matching based on stable regions[J]. IEEE Transactions on Image Processing, 2015, 24(12): 4978–4989. [DOI:10.1109/TIP.2015.2478386]

[30] Zhang L, Shen Y, Li H Y, et al. 3D palmprint identification using block-wise features and collaborative representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(8): 1730–1736. [DOI:10.1109/TPAMI.2014.2372764]

[31] Hennings-Yeomans P H, Vijaya Kumar B V K, SavvidesM. Palmprint classification using multiple advanced correlation filters and palm-specific segmentation[J]. IEEE Transactions on Information Forensics and Security, 2007, 2(3): 613–622. [DOI:10.1109/TIFS.2007.902039]

[32] Jia W, Zhang B, Lu J T, et al. Palmprint recognition based on complete direction representation[J]. IEEE Transactions on Image Processing, 2017, 26(9): 4483–4498. [DOI:10.1109/TIP.2017.2705424]

[33] Sundararajan K, Woodard D L. Deep learning for biometrics:a survey[J]. ACM Computing Surveys, 2018, 51(3). [DOI:10.1145/3190618]

[34] CDATA[Sun Y, Wang X G, Tang X O.Deep learning face representation by joint identification-verification[EB/OL].[2018-10-14].https:/arxiv.org/pdf/1406.4773.pdf.

[35] Sun Y, Wang X G, Tang X O.Deep learning face representation from predicting 10000 classes[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE, 2014: 1891-1898.[DOI: 10.1109/CVPR.2014.244]

[36] Sun Y, Wang X G, Tang X O. Deeply learned face representations are sparse, selective, and robust[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015.[DOI: 10.1109/CVPR.2015.7298907]

[37] Taigman Y, Yang M, Ranzato M A, et al. DeepFace: closing the gap to human-level performance in face verification[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE, 2014.[DOI: 10.1109/CVPR.2014.220]

[38] Schroff F, Kalenichenko D, Philbin J. FaceNet: a unified embedding for face recognition and clustering[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015.[DOI: 10.1109/CVPR.2015.7298682]

[39] Zhu Z Y, Luo P, Wang X G, et al. Deep learning identity-preserving face space[C]//Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney, NSW, Australia: IEEE, 2013.[DOI: 10.1109/ICCV.2013.21]

[40] Ramaiah N P, Ijjina E P, Mohan C K.Illumination invariant face recognition using convolutional neural networks[C]//Proceedings of 2015 IEEE International Conference on Signal Processing, Informatics, Communication and Energy Systems. Kozhikode, India: IEEE, 2015.[DOI: 10.1109/SPICES.2015.7091490]

[41] Chiachia G, FalcãoAX, Pinto N, et al. Learning person-specific representations from faces in the wild[J]. IEEE Transactions on Information Forensics and Security, 2014, 9(12): 2089–2099. [DOI:10.1109/TIFS.2014.2359543]

[42] Wen Y D, Zhang K P, Li Z F, et al.A discriminative feature learning approach for deep face recognition[C]//Proceedings of the 14th European Conference on Computer Vision.Amsterdam, The Netherlands: Springer, 2016: 499-515.[DOI: 10.1007/978-3-319-46478-7_31]

[43] AbdAlmageed W, Wu Y, Rawls S, et al.Face recognition using deep multi-pose representations[C]//Proceedings of 2016 IEEE Winter Conference on Applications of Computer Vision. Lake Placid, NY, USA: IEEE, 2016: 1-9.[DOI: 10.1109/WACV.2016.7477555]

[44] Masi I, Rawls S, Medioni G, et al. Pose-aware face recognition in the wild[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016.[DOI: 10.1109/CVPR.2016.523]

[45] Minaee S, Abdolrashidi A, Wang Y.An experimental study of deep convolutional features for iris recognition[C]//Proceedings of 2016 IEEE Signal Processing in Medicine and Biology Symposium. Philadelphia, PA, USA: IEEE, 2016.[DOI: 10.1109/SPMB.2016.7846859]

[46] Liu N F, Zhang M, Li H Q, et al. DeepIris:learning pairwise filter bank for heterogeneous iris verification[J]. Pattern Recognition Letters, 2016, 82: 154–161. [DOI:10.1016/j.patrec.2015.09.016]

[47] Gangwar A, Joshi A. DeepIrisNet: deep iris representation with applications in iris recognition and cross-sensor iris recognition[C]//Proceedings of 2016 IEEE International Conference on Image Processing. Phoenix, AZ, USA: IEEE, 2016.[DOI: 10.1109/ICIP.2016.7532769]

[48] Raja K B, Raghavendra R, Vemuri V K, et al. Smartphone based visible iris recognition using deep sparse filtering[J]. Pattern Recognition Letters, 2015, 57: 33–42. [DOI:10.1016/j.patrec.2014.09.006]

[49] Zhang Q, Li H Q, Sun Z N, et al. Exploringcomplementary features for iris recognition on mobile devices[C]//Proceedings of 2016International Conference on Biometrics. Halmstad, Sweden: IEEE, 2016.[DOI: 10.1109/ICB.2016.7550079]

[50] Jiang L, Zhao T, Bai C C, et al. A direct fingerprint minutiae extraction approach based on convolutional neural networks[C]//Proceedings of 2016 International Joint Conference on Neural Networks. Vancouver BC, Canada: IEEE, 2016.[DOI: 10.1109/IJCNN.2016.7727251]

[51] Su H R, Chen K Y, Wong W J, et al. A deep learning approach towards pore extraction for high-resolution fingerprint recognition[C]//Proceedings of 2017 IEEE International Conference on Acoustics, Speechand Signal Processing.New Orleans, LA, USA: IEEE, 2017.[DOI: 10.1109/ICASSP.2017.7952518]

[52] Cao K, Jain A K. Automated latent fingerprint recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(4): 788–800. [DOI:10.1109/TPAMI.2018.2818162]

[53] Jalali A, Mallipeddi R, Lee M. Deformation invariant and contactless palmprint recognition using convolutional neural network[C]//Proceedings of the 3rd International Conference on Human-Agent Interaction. Daegu, Kyungpook, Republic of Korea: ACM, 2015.[DOI: 10.1145/2814940.2814977]

[54] Zhao D D, Pan X, Luo X L, et al.Palmprint recognition based on deep learning[C]//Proceedings of the 6th International Conference on Wireless, Mobile and Multi-Media. Beijing, China: IET, 2015: 214-216.[DOI: 10.1049/cp.2015.0942]

[55] Minaee S, Wang Y.Palmprint recognition using deep scattering convolutional network[EB/OL].[2018-10-14].https://arxiv.org/pdf/1603.09027.pdf.

[56] Liu D, Sun D M. Contactless palmprint recognition based on convolutional neural network[C]//Proceedings of the 13th IEEE International Conference on Signal Processing. Chengdu, China: IEEE, 2016.[DOI: 10.1109/ICSP.2016.7878049]

[57] Svoboda J, Masci J, Bronstein M M, et al. Palmprint recognition via discriminative index learning[C]//Proceedings of the 23rd International Conference on Pattern Recognition. Cancun, Mexico: IEEE, 2016.[DOI: 10.1109/ICPR.2016.7900298]

[58] Yang A Q, Zhang J X, Sun Q L, et al.Palmprint recognition based on CNN and local coding features[C]//Proceedings of the 6th International Conference on Computer Science and Network Technology. Dalian, China: IEEE, 2017: 482-487.[DOI: 10.1109/ICCSNT.2017.8343744]

[59] Zhang L, Cheng Z X, Shen Y, et al. Palmprint and palmvein recognition based on DCNN and a new large-scale contactless palmvein dataset[J]. Symmetry, 2018, 10(4): #78. [DOI:10.3390/sym10040078]

[60] Zhang D, Kong W K, You J, et al. Online palmprint identification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(9): 1041–1050. [DOI:10.1109/TPAMI.2003.1227981]