网刊加载中。。。

0引言深度学习在数据分析及精度上表现出色，逐渐受到各个行业的重视，传统生物识别算法也受到了挑战。学者们纷纷投向了基于机器学习/深度学习的多生物模态身份识别等领域，并在较短的时间内取得了可喜的成果。从单方面验证了“让机器具有辨识能力的过程”是对人类知识转化为人类发展的重要飞跃。反观生物特征识别发展的历史，对生物特征图像的处理始终是学者研究并借助计算机设备辅助实现的重点。这一过程包含了对相关生物特征的提取、分析以及与已有数据进行比对等步骤，最终输出识别的结果。随着机器学习与深度学习的引入和应用，特征提取过程得到更多的关注，特征提取的好坏直接影响着模型的学习过程，获得模型的正确性，继而影响整个模型的输出结果。本文首先回顾关于生物图像特征提取方法的研究现状；然后从多模态研究的特征融合角度出发，讨论了特征识别中存在的特征相关性问题；最终，就人脸与指纹之间的相关性问题进行深入讨论，并展望在人脸与指纹相关性基础上的生物识别可能存在的全新模式。1生物图像特征提取方法综述人类一直探索如何通过物种内个体间的差异来进行身份认证。从最早期运用文字给个体命名，到如今利用生物本身各异性特征对身份进行验证，无一不是在利用个体的差异性来完成这一过程。传统的身份认证——基于知识(密码、口令等)与基于令牌(密钥、证件等)的方式都有各自的缺陷：令牌类的身份验证信息易遭窃、易丢失以及易复制；知识类的身份验证方式诸如密码、口令存在易泄露、易遗忘和易受攻击等安全隐患(刘欢喜，2010)。相较而言，生物特征，这种存在于个体间的必然差异，作为身份验证的手段是最为便捷且安全保障极高的解决方案。人类拥有的生物特征包括生理特征与行为特征两类。生理特征先天形成，诸如DNA、指纹、虹膜、人脸、掌纹等。这类特征满足作为生物特征的基本条件，以人类为物种，每个人作为个体来看待，生理特征具有如下特性描述(祝恩等，2006)：1) 普遍性(universality)，几乎所有个体都携带该特征；2) 独特性(uniqueness)，物种内不同个体间的该特征均不重复；3) 稳定性(permanence)，个体上的这种特征是否终其一生发生人眼视觉下的可见变化；4) 可采集性(collectability)，对物种内所有个体，这种特征是否容易采集，以及是否具有有限的数量实现完整采集；5) 性能(performance)，该特征作为辨识证据，使用其进行识别的正确率高低；6) 接受程度(user acceptance)，所有个体对于这种身份认证方式的接受程度；7) 防欺骗性(resistance to circumvention)，该特征能够被科技手段模仿(致失效)的可能性。因此，生物特征是身份验证的绝佳选择。而行为特征是伴随后天习惯形成的，包括声音、笔迹、步态和静脉构造等，这类特征在一段时间内是稳定的，但有随时间改变的潜在可能(祝恩等，2006)。生物图像的特征提取是生物特征识别系统中的重要步骤之一，对于整个生物识别过程意义重大：当前的生物识别系统大多采用的方法是通过特征比对和特征匹配对数量来判定待鉴定生物特征与样本生物特征间的一致性。因此，特征提取的完整性与准确性直接关系到该生物识别系统的识别正确率和鲁棒性。本文在回顾人脸和指纹的特征提取方法的基础上对传统生物识别算法与基于深度学习的生物识别算法进行评价。1.1指纹图像特征提取方法指纹图像特征提取基于对指纹图像区域的划分和预处理操作，以及人类迄今为止关于指纹特征的先验性结论——对指纹特征本身的认识(Karu和Jain，1996)。从传统特征提取方法和基于深度学习的特征提取方法两方面进行综述。常见指纹特征提取方法如图 1所示。图1 常见指纹特征提取方法总结 Summary of common fingerprint feature extraction methodsFig 1指纹特征从整体与局部的关系上可以划分为全局特征与局部特征两类。表 1所示为常用全局特征，表 2为常用局部特征。表1 常用全局特征特征名称定义与细分纹脊图像(粗分) 按形状划分为弓形、环形、螺旋形模式区包含指纹总体特征的区域中心点指纹纹线中心三角点从核心点起始, 第1个断点/分叉点或两绞线转折处/汇聚处/孤立点或指向的点式样线包围模式区的纹线，出现在纹线开始平行的地方的纹线纹数模式区指纹纹脊数目 Common global features of fingerprintTable 1需要指出，特征点类型有150多种，但最主要应用的是表 2中提及的端点(ridge ending)和分叉点(ridge bifurcation)(刘欢喜，2010)。传统指纹特征提取方法通过分析已有指纹图像的图像特性(包含灰度特征、纹理特征和频率特性等)，将生物特征的先验知识(有时辅以该先验知识的变相的数学、逻辑表达)以规则的形式固化在特征提取算法中，完成特征提取任务。依据提取任务的目标，可将传统指纹特征提取方法分为以下两类。表2 常用指纹局部特征特征子类别名称定义特征点分叉点一条纹线分成两条或多条的位置端点一条纹线终结的位置孤立点短为一点的纹线分歧点两条平行纹线分开的位置环点一条纹线分成两条后很快合并为一条，构成的小环短纹区别于孤立点的纹线，很短曲率 - 描述脊线方向改变的速度方向场 - 描述整个指纹图像或局部图像/脊线的走向 Common local features of fingerprintTable 2 “-”表示无名称。第1类是以指纹图方向的计算为核心，即完成对指纹局部方向场或整体方向场的估计和判断。第2类方法将指纹图像的图形知识作为模板固化到图像特征识别系统中，用以提取特征或依据图像几何特性进行推导，并运用数学工具来改变提取特征过程中需要的数据从而提取特征。第1类方法大体上可以细分为3类(Bian等，2019)：基于梯度矢量的方法(Bazen和Gerez，2002)，基于滤波的方法(Maio和Maltoni，1997；O′Gorman和Nickerson，1989)，基于模型的方法(Gu等，2004)。基于梯度矢量的方法通过计算各像素点处指纹图像的梯度矢量(Ratha等，1995)，在规定的子区域内取中心点梯度变化最快方向的垂直方向为指纹图像在该点的脊线方向。该方法对预处理步骤中的噪声去除能力要求较高，鲁棒性较差，图像中的噪声极易干扰到脊线方向的判定。基于滤波的方法进行方向计算时也对噪声去除效果要求较高，但在局部区域取得的效果较好。基于模型的方法考虑了除指纹奇异点附近区域以外指纹方向场的全局约束(Zhou和Gu，2004)和分布规律(Li等，2006)。第2类特征提取方法主要针对指纹模式区的特征，较为典型的方法有：通过统计图像子区域周围的闭合曲线上子区域方向的变化量来定位奇异点的方法(Kawagoe和Tojo，1984)；在指纹部分区域方向图中定义了一个包含3个部分(含中心点)的半圆形区域，通过分析该区域中方向正弦分量的大小关系来定位中心点的方法(Jain等，2000)；以指纹最内层在定步长内无细节特征点的弧的顶点(纹线上曲率最大处)作为中心点的方法(王家隆，2003)；通过分析块方向图中图像子块周围不同半径邻域内方向一致性的大小关系来确定奇异点的方法(Jiang等，2004)，该方法要求选取的区域越小越好，但是要注意该方法选取区域的适中，否则会降低算法的抗噪性能。此外，研究者们通过对指纹图像特征本身具有的数学性质进行探索并应用到提取特征的过程中，取得的效果也很显著：如通过构造两个不同类型的对称滤波器来完成奇异点提取的方法(Nilsson和Bigun，2003)就是在一定限制条件下变相地将指纹提取通过滤波操作转化为对于图像本身统计数据的提取，该方法分别用于指纹图像中最大的圆对称点和三角对称点的提取并将之作为奇异点，确定奇异点位置可以同时确定方向，但是受到图像噪声/边缘效应的影响，在此基础上提出从增强图像中提取奇异点的算法(Chikkerur和Ratha，2005)，改善了原过程易受噪声和边缘效应影响的缺陷。对于局部特征的提取过程，由于每一种局部特征本身具有的数据量要远小于模式区的数据量，故而第2类方法在针对局部特征时衍生出以表格记录数据，在使用时直接查表的方法，如8邻域编码追踪法(吴夏平，2009)，就是建立在已有的邻域编码与类型表等表格数据的基础上。此外，在提取局部特征的过程中，还需要注意残留指纹脊线的二次分割、伪特征点的去除和纹理细化等步骤，实际提取过程中，这些步骤分别属于预处理操作或后操作步骤，在此不展开描述。上述传统方法最大的缺点在于，人类无法做到任何情形下都具有足够的先验知识来完成实际特征提取过程中算法的核心步骤——判断与找寻真实的指纹图像特征。这一步骤的技术壁垒来自于人类本身对于指纹图像中可作为特征的图像子区域的经验性描述。现有的知识已经归纳得到模式区这样的生物特征描述，是否做到极限尚未可知，但是可以肯定的是，有一些指纹图像中固有的各异性特征需要在计算机的辅助处理下才能实现。这也是深度学习用于指纹图像特征提取的初衷——通过深度网络模型来代替原先的经验模型完成对特征的提取和筛选(Darlow和Rosman，2017)。相比于传统方法，深度学习下的指纹特征提取具有如下优点：1)深度学习将原本由先验知识完成的模型改由通过对大量数据样本进行学习后得到的统计结果的规律性表达，这种表达通过深度网络构建，本质上等同于传统方法中由经验知识构建的算法模型，具有更强的适应性与更优异的识别性能(Chopra等，2005)；2)更多地关注高阶语义特征(张永良等，2017)，在深度卷积网络、深度玻尔兹曼网络等模型的助力下(Souza等，2017)，通过对网络进行调参，可以获得更多的各异性特征信息，其中有些信息的实际意义在当前认知范围内无法描述，但是通过机器逻辑描述作为媒介，这些信息依然可以作为一种有效的特征在后续的图像特征比对过程中发挥作用。不可否认的是，传统的生物特征提取技术中部分模型的思想沿用至今仍有其本身的优势。但其局限性在于人类对某一生物特征的认知与该生物特征本身具有的信息总体，从集合论的角度看是子集与全集的关系。人类的认知过程受限于人类的知识水平，甚至观察维度。相较而言，基于深度学习算法利用计算机视觉本身在观察程度和认知水平上的超前性使得特征提取过程所能接受到的信息总体，相较于人类现有知识构成的信息总体而言，更接近于生物特征本身具有的信息总体。且深度学习模型本身具有的可塑性和拟合能力使其在提取结果的精度上优于传统的指纹特征提取方法。1.2基于人脸表征的人脸特征提取方法人脸图像的特征提取以人脸检测为技术方法，以确定人脸图像的位置、大小信息为目标，是人脸识别的核心算法。通过人脸表征将图像中的数据以某种恰当的方式描述出来，并用于与数据库内已知人脸的比对。如图 2所示。图2 常见人脸特征提取方法 Summary of common face feature extraction methodsFig 2依据人脸表示的数据不同可将人脸表征分为：基于2D的人脸表征方法和基于3D的人脸表征方法(刘欢喜，2010)。经过表征后，获得由人脸图像转换得到的紧凑且可用于判别的特征向量(Trigueros等，2018)。图 2为传统方法与深度学习方法的对比图。传统人脸识别算法中，图像中人脸特征的提取依赖于经验总结的特征(先验性知识，如边、纹理描述量(Harmon等，1981)等)与经典机器学习方法(主成分分析(Turk和Pentland，1991)、线性判别分析(Belhumeur等，1997)、支持向量机(Wang和Tang，2004)等)的组合模式。经验性总结得到的特征判据在无约束环境下应对外界条件改变或个体本身特征出现较大变化的情况时，其本身的鲁棒性较低，使得过去的研究者侧重于对症下药，如不同年龄(Li等，2011;Park等，2010)、不同姿势(Ding和Tao，2016;Cao等，2017)以及不同光照条件(Liu等，2005;Tan和Triggs，2010)等情形。随着AlexNet在ImageNet中大放异彩，以卷积神经网络(convolutional neural network，CNN)为代表的深度学习模型逐渐替代了传统的人脸识别方法。人脸特征提取也由传统的生物特征识别过程中的固有模式和基于人脸知识的特征分类提取转向基于计算机逻辑的深层特征挖掘和提取过程。深度学习方法的主要优势是其学习过程在具有大量基本人脸特征的数据集上进行，依据设定好的目标函数学习到这些数据的最优特征表达方式。网络上大量可用的自然人脸图像已让研究者可收集到大规模的人脸数据集(Sun等，2014)。这些图像包含真实世界中人脸表达各种可能的变化情况。使用这些数据集训练的基于CNN的人脸识别方法已经达到了非常高的准确率(Taigman等，2014)，因为模型本身能够学到人脸图像中鲁棒的特征表达，从而能够应对在训练过程中使用的人脸图像所呈现出的真实世界变化情况。当前人脸识别所采用的CNN模型可依据目标数据集群和最终需要达到的目标使用不同的方法对其进行训练。其中将该问题当做一个分类问题，训练集中的每个主体都对应一个类别是比较常用的方法。训练之后的CNN模型中，去除分类层，将之前层的特征用于人脸表征而将该模型用于识别不存在于训练集中的目标(Fan等，2014)。在深度学习的相关研究中，这些特征通常称为瓶颈特征(bottleneck features)。在这一训练阶段后，该模型仍可以使用其他技术实现进一步训练，以此为目标应用优化瓶颈特征的技巧(如使用联合贝叶斯法(Sun等，2014)或使用与上述方法中不同的损失函数来微调CNN模型(Yi等，2014))，但相应的计算复杂度会提升。另一种基于CNN的人脸表征学习的常用方法是通过优化配对的人脸图像(Fan等，2014)或人脸三元组(Schroff等，2015)之间的距离度量来直接学习瓶颈特征。2基于多模态的生物特征相关性评价方法及猜想2.1多模态的生物特征识别算法随着单模态生物特征识别技术的成熟应用与推广，研究者们将目光投向了更现实更复杂的问题上，如复杂场景下的人脸识别，残缺指纹和潜指纹等的检测与匹配等。在研究过程中，单模态生物特征识别的正确率往往受到外界因素和内在因素的干扰，如人脸识别中化妆、头发遮挡等内在因素与光照、成像角度等外在条件的影响，以及指纹识别中按压产生的指纹形变、手指本身的脏污等内在因素的干扰。这些问题都在一定程度上限制了单模态生物识别技术的继续推广和使用。且随着科技的发展，越来越多的犯罪手段已经可以完成对单模态生物识别系统的欺骗，导致单模态生物识别系统的安全性大打折扣(Souza等，2017)。在改进系统识别和自检测以达到反欺骗效果的同时，研究者也将目光投向了多模态生物识别这一领域。受多源信息融合技术能够降低错误率、增强系统鲁棒性的启发，多模态生物识别技术通过融合不同种类的生物特征信息完成身份识别(肖建力和张静，2017)。其主要思想是利用已有的不同单模态生物识别所能提供的各个特征层的信息，采用信息融合技术在某一层或多层进行信息融合，再利用融合后的信息进行特征比对，并完成识别(Libby和Maybeck，1996; Kuncheva等，2001)。相较单模态，该类方法的准确性、适用范围和安全性都有显著提高(Jain和Ross，2002)。生物特征识别系统完成识别流程的一般结构由原始图像数据、特征提取、匹配和决策等4个模块构成。现有的多模态特征融合识别算法依据信息融合发生于生物特征识别系统中位置(即融合层次)分为图像层融合、特征层融合、匹配层融合和决策层融合，如图 3所示。图中两组不同特征的融合层次与位置对应：(1)处为图像层融合，(2)处为特征层融合，(3)处为分数层融合，(4)处为决策层融合。在任意一次上述流程中，4种融合层次有且仅有一种发生。图3 多模态特征融合流程 Feature fusion flow diagram of multi-model biometricsFig 3图 3所示的融合层次中，图像层融合因未经图像预处理、特征提取等操作，导致信息冗余量大，目前尚未提出效果良好的融合方法。且直接在图像层进行融合操作会增加系统运算的时空复杂度，因此相关应用也受到限制(李伟，2006)。图 3中特征层融合为完成图像预处理与特征提取操作后，对所得不同生物特征对应的特征向量之间进行的融合操作，使各个特征向量有机结合形成一个新的特征，再去完成匹配和决策流程(杨烜等，2001)。特征层融合需注意各生物特征完成特征提取时构成特征向量的维度与数据类型的兼容性，如：指纹识别与人脸识别，二者本身是相互独立的两个处理过程，两种生物特征之间的关联性并不是很强，对于较低层的数据融合、参数融合以及处理这种关联性弱的数据的过程是十分复杂的(孙巍巍，2011)，但这并不能证明面部特征与指纹特征的特征层融合无法实现。匹配层融合又称为分数层融合，通过不同模态的生物特征经特征提取与标准的数据库进行比较后得到相应的匹配分数，通过某种分数层融合策略得到融合后的评价分数，将融合后的分数作为决策层的输入进行判断(李秀艳等，2013)。这种方法的优点是实现难度较低：匹配层融合仅需基于相似、匹配分数或距离的计算结果值与设定阈值进行比较。分数层融合策略主要包括两种，即组合判定策略(Alkoot和Kittler，1999)与二级分类策略(杨永旭，2011)。而在深度学习下实现分数层融合可以通过设置合适的损失函数调整该阈值以达到较好的匹配精确度。该方法在不同特征间的融合识别问题上也取得了大量成果：如将人脸与掌纹等生理特征进行融合来完成身份验证的方法(倪娜，2006)，又如将人脸的生理特征(人脸图像)与行为特征(表情图像)相结合进行融合识别(Yin等，2018)及基于指纹、掌纹和耳印等3种模式采用基于重叠极值变化的锚定最小—最大归一化技术进行融合识别的方法(Kabir等，2019)。值得一提的是，分数层融合的过程从本质上与特征层融合所涉及的不同生物图像特征之间的相关性已经完全失去联系。决策层融合是指将各个生物特征识别的过程看做独立判别因子，分别通过各自系统内的决策流程后，再做融合判断得出最终的识别结果(张永良等，2017)。该方法最易实现，且抗干扰能力最强。但是由于各个特征之间在特征层与匹配层间未能有足够的信息交流，整个过程相对闭塞，对于提高整体的识别率是一种负面影响。决策层规则常用的有“与”(and)“或”(or)规则、加权规则及投票表决规则(Guo等，2017)。2.2多模态与生物特征相关性猜想多模态与生物特征相关性受到特征层融合过程的启发。由于当前基于深度学习的特征提取过程通常以卷积的方式进行采样，并将特征转化为特征向量的数学表达形式，因此，尝试将特征层融合的核心问题转化为两类问题：第1类，不同生物特征的特征向量之间如何通过转化的方式完成统一表达；第2类，寻找一个基平面将所有提取得到的特征向量转化为该平面下的特征表达。目前对于第1类问题，研究者已经尝试了文字转为声音(Bharthi等，2017)、图像转为文字描述等过程并取得了较为理想的结果。但由于生物特征本身的复杂性以及人类目前对于生物特征的认识整体上匮乏等现实难题，该类方法在生物特征之间实现起来较为困难，成果尚不显著(Sutcu等，2007)。第2类问题的思想本质来源于人类遗传物质主要组成部分DNA(deoxyribonucleic acid)的转录与表达过程，生物特征从图像提取的过程本质上与基因表达过程极为相似：从图像中找到某一特征，再将该特征按照一定的方式进行表达的过程与基因通过转录得到细胞需求的蛋白质对应的多种RNA(Ribonucleic Acid，核糖核酸，在人体细胞中由DNA转录获得)并完成拼接、按照一定的方式进行空间结构折叠为蛋白质，以实现细胞需求的过程，在逻辑过程上并无区别。因此可以考虑通过构建一种基于图像的特征基平面来实现对于各个图像特征的所属模式的分类和汇总，从而完成对于生物特征之间的相关性的转换。当前的生物学水平无法实现从蛋白质回溯DNA的过程的原因是：1)DNA转录翻译中大量基因不表达的特性，蛋白质对应的基因总量很小；2)蛋白质的表达过程(DNA转录到RNA，实现蛋白质翻译的过程)中，共计43=64种翻译结果，对应了仅20种氨基酸(从信息论和控制的角度看，这种方式极大地提高了整个过程的鲁棒性)，若通过蛋白质的氨基酸序列来反推对应的RNA序列，其演算过程将相当复杂。但是从图形特征和计算机逻辑的角度看，特征的缺失在计算机逻辑中可以直接设为默认值阵列且可被修改；特征之间的相关性可以通过网络的方式作为一种黑箱模型假定存在并验证(即基于深度学习的图形特征提取和复现)；而图形特征的复杂程度要远小于DNA，其本身具有的特征也可以通过计算机处理来实现重组和构建，因此，从逻辑角度认为这种指纹(基本生物特征)与人脸(一般生物特征)之间的相关性是能从图像角度进行验证的。3人脸与指纹特征相关性猜想人脸特征与指纹特征本质上是两大类完全不同的生物性状的表达结果，但是基于当前的发现——人脸特征可以作为身份检测的有力手段，指纹特征亦作为一种互异性极强的生物特征，二者各自均已成熟应用于各行各业的身份验证体系当中。在机器学习、深度学习蓬勃发展的时代，基于多模态生物识别和性别验证算法等应用也已提出并逐渐完善。因此，尚不能说这二者之间完全不具有相关性。但是这种相关性实实在在超出了人类现有科学水平的解释范畴。因此，希望基于多模态的特征层融合过程来思考如何能够探索指纹与人脸的相关性，即2.2节中提出的基于人类DNA转录翻译过程的思路的逆向实现。这种思路实现的基础有以下3点：1) 生物图像的特征处理过程是基于分类过程的(不论是机器视觉模型还是人本身的视觉系统)，而人眼视觉接受的极限被人类的认知所限定，即便是人获得了足够的知识，将其转化为模型应用所需的时间也远远超过了计算机，因此人类可以借助计算机这一辅助工具来加快获取知识的速率。2) 随着深度学习对图像处理的变革式影响，机器视觉在认知水平和辨识能力上已经超越人类视觉，虽然当前这种辨识能力仅仅局限在身份验证等分支学科内，但是当下已有的深度学习模型正在坚实地沿着神经科学所留下的理论不断前进，人类的生物电信号(+40 mV与-70 mV)与计算机的0/1输入、人类神经细胞间突触受体的可生长性与机器学习/深度学习中的训练调参过程等，这些都在逐步验证人类对于学习这一产生于自然演化的生物智能的本质猜想，因此通过建立多层传递模型实现生物特征间的转换这一命题是一种合理的猜想。3) 采用基于DNA转录+RNA翻译的过程来构建人脸特征与指纹特征的相关性模型，并不是仅将这个模型限定在这二者之间，这是一个可拓的，待发掘的模型框架，它本身可以涵盖包括当前热门的步态、语音等在生物特征识别范畴之内的特征，其本身所具有的意义和DNA是相似的，但是获取的过程从生物内部(即提取DNA)转变为从图像、视频和音频等信息载体上进行获取。据此，才有了关于生物特征之间存在一个借助某一框架可以实现相互转换的实际性猜想。4结语通过回顾指纹特征提取、人脸特征提取以及多模态生物特征识别的相关进展，本文从特征提取的角度对生物特征提取方法进行了概述，并对人脸、指纹的特征提取方法进行深入比较。就当前多模态生物特征识别和单模态生物特征识别的局限性进行了分析；并讨论了人脸与指纹多模态识别的主要框架，并就多模态与生物特征相关性这一问题进行探讨与分析。以特征层融合所面临的统一不同生物特征的表达问题为引，创造性地提出了人脸与指纹的特征是否存在相关性的问题，并拓展延伸到人脸、指纹存在相关性条件下的评价方法、模型设想思路等问题，提出了构建统一生物图像特征表达模型的猜想。这一猜想如果成立，将对身份认证产生整合式的全面推进：各类特征将以拼接的方式构成以个体为单位、以图像为基础且相互关联的特征集合。从而完全地整合当下以单模态和多模态识别为基础的身份认证过程，进而实现对各类身份认证过程的整合与统一。从对个体身份识别的角度来看，单一个体的各类图像特征经整合后将作为能与DNA一样稳定的身份验证序列实现对身份的认证，同时还能完成：对特定个体，从某一生物特征对同一个体其他生物特征的检索。