Print

发布时间: 2019-06-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180511
2019 | Volume 24 | Number 6




    图像分析和识别    




  <<上一篇 




  下一篇>> 





级联优化CNN的手指静脉图像质量评估
expand article info 曾军英, 谌瑶, 秦传波, 甘俊英, 翟懿奎, 冯武林
五邑大学信息工程学院, 江门 529020

摘要

目的 针对手动设计的手指静脉质量特征计算过程复杂、鲁棒性差、表达效果不理想等问题,提出了基于级联优化CNN(卷积神经网络)进行多特征融合的手指静脉质量评估方法。方法 以半自动化方式对手指静脉公开数据库MMCBNU_6000进行质量标注并用R-SMOTE(radom-synthetic minority over-sampling technique)算法平衡类别;将深度学习中的CNN结构应用到手指静脉质量评估并研究了不同的网络深度对表征手指静脉质量的影响;受到传统方法中将二值图像和灰度图像结合进行质量评估的启发,设计了两种融合灰度图像和二值图像的质量特征的模型:多通道CNN(MC-CNN)和级联优化CNN(CF-CNN),MC-CNN在训练和测试时均需要同时输入二值图像和灰度图像,CF-CNN在训练时分阶段输入二值图像和灰度图像,测试时只需输入灰度图像。结果 本文设计的3种简单CNN结构(CNN-KK=3,4,5)在MMCBNU_6000数据库上对测试集图像的分类正确率分别为93.31%、93.94%、85.63%,以灰度图像和二值图像分别作为CNN-4的输入在MMCBNU_6000数据库上对测试集图像的分类正确率对应为93.94%、91.92%,MC-CNN和CF-CNN在MMCBNU_6000数据库上对测试集图像的分类正确率分别为91.44%、94.62%,此外,与现有的其他算法相比,CF-CNN在MMCBNU_6000数据库上对高质量测试图像、低质量测试图像、整体测试集图像的分类正确率均最高。结论 实验结果表明,基于CF-CNN学习到的融合质量特征比现有的手工特征和基于单一静脉形式学习到的特征表达效果更好,可以有效地对手指静脉图像进行高、低质量的区分。

关键词

手指静脉质量评估; 卷积神经网络; 特征融合; 多通道CNN; 级联优化CNN

Finger vein image quality assessment based on cascaded fine-tuning convolutional neural network
expand article info Zeng Junying, Chen Yao, Qin Chuanbo, Gan Junying, Zhai Yikui, Feng Wulin
Department of Information Engineering, Wuyi University, Jiangmen 529020, China
Supported by: National Natural Science Foundation of China (61771347, 61372193)

Abstract

Objective Finger vein recognition, an emerging biometric identification technology, has attracted the attention of numerous researchers. However, the quality of several collected finger vein images is not ideal due to individual differences, changes in the collection environment, and differences in the performance of acquisition equipment. In a finger vein recognition system, low-quality images seriously affect feature extraction and matching, resulting in poor identification performance of the system. In an application scene that requires the establishment of a standard template library of personal finger vein information in real life, registered low-quality images seriously influence the use of the finger vein standard template library. Therefore, correct quality assessment after collecting finger vein images is necessary to filter low-quality images and select high-quality ones to be inputted to a finger vein recognition system or to register a finger vein standard template library. To address the problems of considerable computation complexity, weak robustness, and unsatisfactory expression and the issue that the hand-crafted finger vein quality characteristic is sensitive to various factors, we develop a finger vein quality assessment method. These problems are addressed via multi-feature fusion, which is primarily based on the cascaded fine-tuning convolutional neural network (CNN). Method Finger vein image quality assessment methods based on deep learning require many labeled finger vein images. However, existing finger vein image public databases only provide finger vein images and do not mark them for quality. Thus, the first step should be labeling. In this study, the public finger vein database MMCBNU_6000 is labeled for quality representation in a semi-automated manner. This manner is based on the calculation of the number of veins in a finger vein image, followed by manual correction. Such an annotation method is more accurate, time saving, and cost effective than a pure manual annotation method. However, the collected low-quality finger vein images are fewer than the high-quality finger vein images in the actual scene; hence, the R-SMOTE algorithm is employed to balance all categories. The excellent capabilities of deep neural networks have been proven in the fields of image and speech. However, with regard to finger vein quality assessment, most existing methods are based on hand-crafted features, and only a few methods gain quality features via self-learning. In this study, the CNN structure in deep learning is applied to finger vein quality assessment, and the depth of the CNN framework is investigated for its contribution to quality representation. Deeper networks may not be good at representing the quality characteristics of finger vein images. The best network depth is confirmed after an experiment and used as the basis for subsequent research. Meanwhile, inspired by the combination of binary and grayscale images in traditional quality evaluation, two models, namely, multi-column CNN (MC-CNN) and cascaded fine-tuning CNN (CF-CNN), are designed to merge the quality features of grayscale and binary images. When MC-CNN is trained and tested, binary and grayscale images must be inputted together to the model. As for CF-CNN, binary and grayscale images are inputted to the model in stages during training, and only the grayscale image is inputted during testing. Notably, we input the binary finger vein image to the network and verify that the quality characteristics of the binary finger vein help distinguish high-and low-quality finger vein images. After verification, we obtain a basis to believe that the combination of binary and grayscale images through CNN produces remarkable results. Result Several experimental results for testing are set on the MMCBNU_6000 database. The classification accuracy rates of the CNN-K (K=3, 4, 5) designed in this study are 93.31%, 93.94%, and 85.63%, respectively; the classification accuracy rates of CNN-4 with grayscale and binary images as the input are 93.94% and 91.92%, and the classification accuracy rates of MC-CNN and CF-CNN are 91.44% and 94.62%, respectively. The experimental results of the simple CNN structure show that CNN-3 has the highest classification accuracy rate for high-quality images, CNN-5 has the highest classification accuracy rate for low-quality images, and CNN-4 has the highest classification accuracy rate for the entire test set. The experimental results of CNN-4 show that the grayscale vein form performs better than the binary vein form. Meanwhile, the experimental results of the complex CNN structure show that CF-CNN performs better than MC-CNN. Compared with other existing algorithms, CF-CNN has the highest classification accuracy rate for high-quality, low-quality, and overall test images on the MMCBNU_6000 database. Conclusion First, three simple CNN structures are designed and used for finger vein quality assessment. The comprehensive performance of CNN-4 is found to be better than that of CNN-3 and CNN-5, indicating that the network is not as deep as possible, and the structure of the network should be adjusted to suit the research questions. Second, the performance difference when gray and binary images are used for the same network is compared. Results show that both images characterize the vein quality to varying degrees. Finally, to fuse the quality features of grayscale and binary images, two fusion models (MC-CNN and CF-CNN) are proposed. CF-CNN, an end-to-end quality evaluation model of finger veins, is better than MC-CNN and has a simpler structure. In summary, our method demonstrates state-of-the-art performance and obtains better features than those from existing manual and single vein forms.

Key words

finger vein quality assessment; CNN(convolutional neural network); feature fusion; MC-CNN (multi-column CNN); CF-CNN(cascaded fine-tuning CNN)

0 引言

近年来,手指静脉识别作为新兴的生物特征识别技术之一,受到越来越多研究者的关注,与之紧密相关的一个课题即手指静脉质量评估也取得了一定的研究。进行手指静脉识别的第一步就是手指静脉图像的采集,但是受个体差异、采集环境变化和采集设备性能差异的影响,存在部分采集的手指静脉图像的质量不够理想。对一个手指静脉识别系统而言,低质量的图像将严重影响特征提取和匹配,最终导致系统识别性能较差;对现实生活中需要建立个人手指静脉信息标准模板库的应用场景而言,注册的低质量图像将严重影响该库的使用。因此,为了剔除低质量图像,选择高质量图像输入手指静脉识别系统或注册到手指静脉标准模板库,在采集手指静脉图像后,对其进行准确的质量评估是非常必要的。

按照特征提取方式的不同,现有的手指静脉图像质量评估方法可大致分为3类:1)基于手动设计的几种质量特征参数融合的方法[1-9];2)基于静脉纹路检测的静脉点个数统计的方法[10-12];3)基于深度学习的方法[13-14]。第1类方法旨在建立一个与人类视觉系统评判效果基本一致的手指静脉图像质量评估模型:文献[1]从图像的对比度、有效区域、清晰度、位置偏移度和信息熵这几个方面去评价质量;文献[6]使用人工标注的质量分数和手动设计的质量特征构建一个SVR (support vector regression)模型去进行质量评估;文献[7]根据Radon空间的曲率估计出图像的质量分数。这类方法要先分析影响手指静脉质量的因素,然后手动设计可以表征手指静脉质量的特征,但是导致手指静脉图像质量下降的因素往往很多且复杂,要手动设计一种有效且鲁棒的手指静脉的质量特征提取方法是一件非常不容易的事情。第2类方法认为手指静脉图像的质量高低取决于是否可以提取到鲁棒并且有效的手指静脉纹路特征:文献[10]和文献[11-12]从不同的角度检测出静脉点来评价图像质量。该方法认为即使是一幅模糊了的图像,只要经过增强处理后可以提取到有效的手指静脉纹路特征就被视为高质量的手指静脉图像,因此是否能检测到数量较多并且清晰的静脉点就成为该类方法评价质量的指标,但是这类方法需要一些复杂的预处理工作才能准确地检测到静脉点,检测也需要耗费一些时间。第3类方法将卷积神经网络(CNN)应用于手指静脉图像质量评估:文献[13]利用CNN对二值图像进行手指静脉质量评估;文献[14]将灰度图像分成很多小块,利用CNN对小块提取特征,最后将这些小块的特征进行融合作为整幅图像的特征。这类方法或者单独对二值图像进行质量评估,或者单独对灰度图像进行质量评估,而没有将灰度图像和二值图像结合起来,最终提取的特征表达能力有限。

针对现有方法中手动设计特征困难、静脉点检测过程复杂、基于单一静脉形式学习到的特征表达能力有限等问题,本文提出了一种基于级联优化CNN进行多特征融合的手指静脉质量评估方法。该方法分层次地学习手指静脉二值图像和灰度图像的静脉质量信息,先将手指静脉二值图像作为网络的输入,经过学习后获得预训练模型,然后将手指静脉灰度图像作为预训练模型的输入对其进行微调,最终获得一个优化的模型。该方法不仅融合了灰度图像和二值图像的质量特征,并且实现了端到端的学习。

1 数据库的标注与扩充

1.1 半自动化标注数据

基于监督学习的手指静脉图像质量评估方法需要大量有标记的手指静脉图像,然而,现有的手指静脉图像公开数据库只提供了手指静脉图像,并未对其进行质量的标注。杨璐等人[5, 8]通过人工标记将手指静脉图像分为了低质量和高质量两类,Zhou等人[6]采用人工标注的方式标注了手指静脉图像的质量得分,并把分数归一化至[0, 1],Qin等人[13-14]认为在一个手指静脉识别系统中被识别错的图像即为低质量图像,并以此作为依据进行图像标注, 将其分为低质量和高质量两类。其中,人工标注的方式比较耗时,而且标注过程中会存在偏差,Qin等人[13-14]的方法仅选取了某一个识别系统进行标注,对其他识别系统未进行扩展,这种标注方法并不具有鲁棒性。对此,本文提出了一种半自动化标注方法,即在计算手指静脉图像静脉点数的基础上再加以人工校正。具体地,先依据文献[12]中统计手指静脉点数的方法将点数较多的标注为高质量,但是在统计计算过程中可能会出现误差,因此这一步只是进行了粗略的标注,接下来进行人工校正,对粗略标注的高质量图像进行二次人工标注,若与人工标注结果不一致则以人工标注为准,对粗略标注的低质量图像进行同样的操作。这样的标注方法比纯人工标注方法更准确且节省时间和成本,比Qin等人的标注方法更鲁棒。

1.2 解决高、低质量样本类别不平衡问题

实际采集到的手指静脉图像中, 少数图像受到各种因素的影响而质量较差,因此,在现有的手指静脉图像公开数据库中低质量图像所占的比例是很小的。高、低质量样本间的类别不平衡会严重影响基于监督学习训练出来的模型的性能,为了充分利用样本数据,本文使用R-SMOTE(radom-synthetic minority over-sampling technique)算法[8]进行类别调整,通过对少数类样本进行过采样的方式来解决类别不平衡问题。

在R-SMOTE算法中,对1个少数类样本$x $,随机寻找2个少数类样本${{y_1}} $${{y_2}} $,由这3个样本可以构成一个三角形,如图 1所示。基于过采样比例$ N$,随机地在三角区域内形成$ N$个新的少数类样本,具体过程如下:

图 1 R-SMOTE算法
Fig. 1 R-SMOTE algorithm

1) 在少数类样本${{y_1}} $${{y_2}} $的连线上随机产生临时样本${t_i}, i = 1, 2, \cdots , N $,即

$ {t_i} = {y_1} + {\mathop{\rm rand}\nolimits} (0, 1) \times \left( {{y_2} - {y_1}} \right) $ (1)

2) 在样本$x $和随机产生的临时样本${t_i} $的连线上随机生成少数类样本$ {P_i}, i = 1, 2, \cdots , N$,即

$ {p_i} = x + {\mathop{\rm rand}\nolimits} (0, 1) \times \left( {{t_i} - x} \right) $ (2)

2 本文算法

2.1 简单CNN结构的手指静脉质量评估

近年来,深度神经网络优秀的学习和表征能力已经在图像和语音等领域得到证明。然而,在手指静脉质量评估这一问题上,现有的大多数方法还是依据手动设计的特征,基于深度学习去自学习质量特征的方法为数不多。因此,本文对如何将深度学习更好地应用于手指静脉质量评估做了进一步的研究。

从简单的CNN结构开始,设计了3种深度不同、其他参数相同的网络。根据3个网络中卷积层个数$K $的不同,将3个网络命名为${\rm{CNN}} - K\left\{ {K = 3, 4, 5} \right\} $,其具体结构如表 1所示。另外,所有网络中的卷积层的卷积核均为3×3、卷积步长均为1;所有的池化层均为最大值池化、模板为2×2、步长为2;所有的激活函数除了网络的最后一层为softmax函数,其余都为Relu激活函数。如表 1中所述,随着$K $值的增大,网络在加深,卷积核的个数在逐渐增加,随机失活的概率也在增加,所有网络的卷积层后面都紧接一个池化层和一个随机失活层,所有网络的全连接层都一样。将CNN-5的最后一个卷积层去掉即为CNN-4,将CNN-5的最后两个卷积层去掉即为CNN-3。

表 1 CNN-K{K=3, 4, 5}网络参数设置
Table 1 CNN-K{K=3, 4, 5} parameters setting

下载CSV
layers CNN-3 CNN-4 CNN-5
Conv_1 Maxpool Dropout f:32
P:0.3
f:32
P:0.3
f:32
P:0.3
Conv_2 Maxpool Dropout f:64
P:0.3
f:64
P:0.3
f:64
P:0.3
Conv_3 Maxpool Dropout f:128
P:0.5
f:128
P:0.5
f:128
P:0.5
Conv_4 Maxpool Dropout
-
f:256
P:0.5
f:256
P:0.5
Conv_5 Maxpool Dropout
-

-
f:512
P:0.5
Fc1 Dropout n:512
P:0.5
n:512
P:0.5
n:512
P:0.5
Fc2 n:2 n:2 n:2
注:“Conv”表示卷积层,“Maxpool”表示池化层,“Dropout”表示随机失活层,“Fc”表示全连接层,“f”表示卷积核个数,“P”表示随机失活的概率,“n”表示全连接层神经元个数。

本文将质量评估看做分类问题,具体分为高质量和低质量两类,因此,最后一个全连接层的神经元个数为2,并采用softmax输出,即

$ {\mathit{\boldsymbol{s}}_j} = \frac{{{{\rm{e}}^{{a_j}}}}}{{\sum\limits_{k = 1}^T {{{\rm{e}}^{{a_k}}}} }} $ (3)

损失函数采用交叉熵损失,即

$ L = - \sum\limits_{j = 1}^T {{y_j}} {\ln ^{{s_j}}} $ (4)

2.2 融合多特征的手指静脉质量评估

在利用深度学习进行图像分类和物体识别时,通常的做法是直接将原始图像作为网络的输入,而不会根据任务特点对输入数据做更细致的处理。相比于常规的图像分类问题,手指静脉质量评估是一项更加关注静脉纹路细节的任务,因为仅从人类视觉上很难对手指静脉的质量做出准确的评估,利用神经网络学习到潜在的质量特征更是一项有挑战性的工作。目前,基于深度学习的手指静脉质量评估方法较少,现有的这类方法[13-14]也是直接将手指静脉灰度图像或二值图像作为网络的输入。然而,分析传统的手指静脉质量评估方法[7, 12]可以发现,基于灰度图像和二值图像的融合质量评估方法比仅仅考虑灰度图像质量特征的方法性能要好,文献[7]提出了二值静脉特征的3个质量参数:连续性、光滑性、稳定性。

因此,本文在完成基于灰度图像进行质量特征学习的工作后,又进一步研究了将二值图像作为网络的输入所学习到的质量特征的有效性。基于这两点可以认为,灰度图像和二值图像各自从不同的方面表征着手指静脉的质量特性,结合这两者的融合质量特征比单独提取其中任意一者的单一质量特征具有更强的表达力。于是,本文又提出了两种融合了灰度图像和二值图像的质量特征的手指静脉质量评估模型:多通道CNN(MC-CNN)和级联优化CNN(CF-CNN)。

2.2.1 手指静脉图像二值化

为了提取二值手指静脉图像的质量特征,必须先由灰度图像经过灰度归一化、增强与分割等预处理过程获得二值图像。将手指静脉图像灰度值归一化至[0, 255],即

$ f(i, j) = \frac{{{f^\prime }(i, j) - {G_1}}}{{{G_2} - {G_1}}} \times 255 $ (5)

式中,${{f^\prime }(i, j)} $表示原图灰度值,$ f(i, j)$为归一化后的灰度值,${{G_1}} $表示原图灰度的最小值,$ {{G_1}}$表示原图灰度的最大值。

目前,常用的增强方法主要有基于方向谷形检测增强、Gabor滤波增强、最大曲率滤波增强。文献[12]对这3种增强方式进行了对比,如图 2所示,基于方向谷形增强和Gabor滤波器增强效果类似,都能较好地分割静脉纹路,而使用最大曲率增强时,只有主静脉纹路比较清晰,进行二值化后出现比较多的干扰。此外,文献[12]还对不同增强算法的运行时间进行了比较,如表 2所示,由于基于方向谷形检测算子只是整型运算,而Gabor滤波器和最大曲率涉及浮点型运算,所以基于方向谷形增强方法所需时间最短。

图 2 不同的增强方法效果对比[12]
Fig. 2 Comparison of different enhancement[12]

表 2 不同增强方法的运行时间[12]
Table 2 Runtime of different enhancement[12]

下载CSV
方向谷形检测 Gabor滤波器 最大曲率
时间/ms 8 30 53

基于方向谷形检测增强和Gabor滤波器增强在效果性能方面相似,但前者运行时间更短,因此,选择基于方向谷形检测方法来增强静脉图像。该算法的具体实现过程可参考文献[12],最后采用局部自适应阈值的方法分割增强后的静脉图像即可获得二值图像。对本文中所标记的高、低质量手指静脉图像进行二值化的结果如图 3所示,可以观察到高质量的二值化手指静脉图像的纹路比较有序、连贯,而低质量的二值化手指静脉图像的纹路比较零散、杂乱无序,这也为基于二值化静脉图像进行质量评估提供了一定的依据。

图 3 高、低质量图像二值化结果
Fig. 3 Binarization results of images

2.2.2 多通道CNN的手指静脉质量评估

多通道CNN是图像分类和识别领域常用的做法,将原始图像的不同特征或不同区域以多通道并行的方式送入深度神经网络进行学习,这类方法往往取得不错的效果。灰度图像包含丰富的信息但同时伴有噪声,二值图像直接呈现静脉纹理特征但在二值化的过程中也丢失了很多信息,这两种静脉形式对手指静脉质量评估均有重要的作用,为了充分利用二者的静脉质量信息,将这两种静脉形式以多通道并行的方式输入模型,每种静脉形式对应一个CNN网络,并将CNN网络提取到的特征向量进行串联即为最终融合的特征向量。本文将这样的模型命名为MC-CNN(multi-column CNN),具体流程如图 4所示。

图 4 基于MC-CNN的手指静脉质量评估
Fig. 4 Finger vein quality assessment based onmulti-column CNN

图 4所示,在MC-CNN模型中,手指静脉灰度图像和二值图像分别被送到CNN-4网络中进行训练,每种静脉形式单独用一个CNN进行处理。实验验证,CNN-4比CNN-3、CNN-5能够学习到更好的手指静脉质量特征,因此,模型中的CNN结构选择CNN-4。在训练过程中,两个网络接受不同的输入,分开训练,得到不同的CNN-4模型。由于两个网络结构相同,最后提取到的特征维度均为512维,将得到的2个512维的特征向量按顺序拼接成1 024维的手指静脉质量特征,再经过两个神经元个数分别为512和2的全连接层,得到最后的手指静脉质量评估结果。

2.2.3 级联优化CNN的手指静脉质量评估

MC-CNN虽然充分利用了手指静脉灰度图像和二值图像的静脉质量信息,但对于每一种静脉形式单独用一个网络进行抽象表征的做法不但在训练时间上开销较大,而且最终模型占用的空间也较大,不利于模型的移植。此外,在利用训练好的MC-CNN模型对手指静脉图像进行质量评估时,需要对原始的灰度图像进行预处理获取二值图,这使其不能做到端到端的手指静脉质量评估,给模型的使用带来了不便。另外,观察同一手指的静脉灰度图像和二值图像可以发现,虽然两者在表征手指静脉质量特性时有各自不同的侧重点,但其包含的静脉纹路的走向、拓扑结构等信息是一样的,因此在MC-CNN模型中对每种静脉形式都用一个CNN来学习可能最终会提取到冗余的信息。为了解决上述问题,本文又提出了基于级联优化CNN(CF-CNN)的手指静脉质量评估模型,其基本流程如图 5所示。

图 5 基于CF-CNN的手指静脉质量评估
Fig. 5 Finger vein quality assessment based on cascade fine-tuning CNN

图 5可以看到,CF-CNN采用一种巧妙的级联优化的方式分层次地学习手指静脉二值图像和灰度图像的静脉质量信息。同MC-CNN一样,CF-CNN中的CNN结构同样采用具有4个卷积层的CNN-4网络。其训练过程分为两个阶段:

1) 预训练阶段。在预训练阶段中,将手指静脉二值图像作为网络的输入,经过训练后得到一个初级的评估模型。在训练过程中逐渐降低学习速率直到网络收敛,这一阶段可以让网络重点学习手指静脉二值图像的质量特征,可以看做是对网络做一次有目的的初始化。

2) 微调优化阶段。在微调优化阶段,保持预训练阶段时调整过的最后的学习率,将手指静脉灰度图像作为网络的输入,去微调预训练阶段得到的初级评估模型,使网络在不影响二值图像质量特征学习的情况下通过微调参数去学习灰度图像的质量特征,得到优化的模型。

由于在最终的微调优化阶段模型的输入为灰度图像,因此在利用训练好的CF-CNN模型做手指静脉质量评估时,只需要输入手指静脉灰度图像即可,无需事先获取其二值图像。因此与MC-CNN相比,CF-CNN不仅模型更加轻便,同时也实现了一个端到端的手指静脉质量评估模型。

3 实验结果及分析

3.1 数据集介绍

MMCBNU_6000[15]:该数据集在同一时期采集了100位志愿者的6 000幅手指静脉图像(100位志愿者×6根手指×10幅图像),对每位志愿者采集其双手的食指、中指及无名指,每根手指重复采集10次。手指静脉图像以256个灰度级的bmp格式存储,图像大小为480×640像素。100位志愿者来自20个不同的国家,具有不同的肤色,因此该数据集是一个跨地域并包含不同肤色的手指静脉数据库。

3.2 数据库的标注与扩充结果

对MMCBNU_6000数据集的6 000幅图像进行高、低质量的标注,标注过程分为两个阶段:粗略标注和人工校正。粗略标注将6 000幅图像分为了276幅低质量图像、5 724幅高质量图像,随机选取了几幅标注后的图像,如图 6所示。从图 6的结果中可以看出,粗略标注会将一些静脉纹路较少、有阴影的图像标注为高质量,而将静脉纹路清晰、对比度不高的图像标注为低质量,造成这种少数图像被错分的原因可能是静脉点检测不准、统计过程中计算错误等。因此,不能完全依赖于粗略标注的结果,需要在此基础上进行更精准的人工校正。对上述的276幅低质量图像进行校正,从中挑出了19幅人工认为是高质量的图像,又对5 724幅高质量图像进行校正,从中挑出了943幅人工认为是低质量的图像。最终,6 000幅图像被分为1 200幅低质量图像和4 800幅高质量图像,随机选取了几幅校正后的图像,如图 7所示。从图 7的结果可以看出,在客观计算和人工分析的综合标注下,基本实现了对6 000幅图像准确的质量标注。

图 6 粗略标注结果
Fig. 6 Roughly labeled ((a)high-quality; (b)low-quality)
图 7 人工校正结果
Fig. 7 Manual calibration ((a)high-quality; (b)low-quality)

从标注好的6 000幅图像中选择800幅低质量图像和800幅高质量图像作为测试集,剩下的400幅低质量图像、4 000幅高质量图像作为训练集。由于训练集中高、低质量图像数量比例不等,采用R-SMOTE算法对少类的样本进行过采样的方式来解决类别不平衡问题。对400幅低质量图像进行过采样,过采样比例$N $取9,生成3 600幅采样图像,这样训练集中高、低质量图像数量比例也为1 :1。过采样生成的图像如图 8所示,图中的$N $表示图像标号,$N $-1,$N $-2,…,$N $-9表示标号为$N $的图像对应生成的9幅过采样图像,图 8中的第1行第1幅图像为训练集中原始的低质量图像,其余9幅为过采样结果,第2行同样如此。

图 8 过采样结果
Fig. 8 Over-sampling results

图 8可以看出,使用R-SMOTE算法生成的低质量图像有些和原始图像很相似,有些和原始图像完全不同,共同点是包含的静脉纹路较少,因此,可用来扩充训练集中低质量图像数量。

3.3 各个网络模型的性能比较

根据数据库的标注与扩充结果,MMCBNU_6000数据集被划分为训练集(高、低质量各4 000幅)、测试集(高、低质量各800幅)。在测试集上对提出的网络模型进行性能验证,测试时采用在整个训练过程中在测试集上表现最佳的模型。本文网络模型在训练时优化器均选择Adam优化器,初始学习率设为0.000 3,当loss值下降缓慢或不再下降时将学习率调整为原来的0.1倍后继续训练,如此反复几次直至网络完全收敛。手指静脉质量评估具体分为质量分类和质量得分预测,本文研究的是质量分类,因此在评价模型的性能时采用的参数指标有:高、低质量图像分类正确率和整个测试集上的分类正确率。此外,所有网络的输出都是两个神经元,分别代表两个概率值,即对输入的一幅图像网络预测其是高、低质量的概率,为了详细描述网络模型对测试集中每一幅图像的预测结果,本文将网络对每幅图像预测其是高质量的概率一一描绘了出来。深度学习框架为Tensorflow中的keras模块,编程语言为python。

1) $ {\rm{CNN}} - K$的实验结果及分析。针对3.1节提出的3种简单的CNN结构,通过在测试集的结果比较得出更有利于手指静脉质量特征学习的网络参数设置。根据表 1中对3个网络$ {\rm{CNN}} - K$$ K$={3, 4, 5}的参数描述可以看到,随着$ K$值的增大,网络的卷积层个数在增加,其余参数设置基本一致。另外,为了防止过拟合,不仅对$ {\rm{CNN}} - K$的全连接层进行了dropout操作,在每个池化层的后面也进行了不同程度的dropout操作。对$ {\rm{CNN}} - K$进行训练和测试时都是直接采用灰度图像作为网络的输入,分类正确率结果如表 3所示,$ {\rm{CNN}} - K$对测试集中每一幅图像的预测结果如图 9-图 11所示。

表 3 CNN-K质量分类正确率对比
Table 3 Quality classification accuracy of CNN-K

下载CSV
/%
网络 训练时输入 测试时输入 高质量图像 低质量图像 整个测试集
CNN-3 灰度图像 灰度图像 97.25 89.38 93.31
CNN-4 灰度图像 灰度图像 94.62 93.25 93.94
CNN-5 灰度图像 灰度图像 77.50 93.75 85.62

表 3可以看出,$ {\rm{CNN}} - K$对测试集上的手指静脉图像进行分类具有一定的准确率,说明基于深度学习的手指静脉质量评估是可行的。其中,CNN-3对高质量图像具有最高的分类正确率,CNN-5对低质量图像具有最高的分类正确率,CNN-4对整个测试集分类正确率最高。这说明高质量图像的特征相对容易提取,使用浅层的网络即可,网络加深反而容易过拟合;而低质量图像本身由于各种因素导致质量较差,处理起来更加困难,因此需要更深的网络对其进行特征提取;评价一个网络的性能需要看其综合表现,CNN-4对两者进行了权衡,使其对高、低质量图像均有不错的分类正确率,因而可以在测试集上表现最佳。从图 9-图 11可以看出,图 9图 11中位于中间的样本点更加密集,图 10中位于中间的样本点相对稀疏一些,这也进一步说明了CNN-4在处理高、低质量图像时更好地平衡了二者的关系。综上所述,可以认为CNN-4的综合性能要优于CNN-3和CNN-5,因此本文后续的实验也都是基于CNN-4作为基础模型的。

图 9 CNN-3对测试集图像的预测结果
Fig. 9 Predictions of test set images by CNN-3
图 10 CNN-4对测试集图像的预测结果
Fig. 10 Predictions of test set images by CNN-4
图 11 CNN-5对测试集图像的预测结果
Fig. 11 Predictions of test set images by CNN-5

2) 两种静脉输入形式的实验结果及分析。为了验证二值化的手指静脉形式对质量评估的有效性,本文在CNN-4上进行了相应的实验,此时网络在训练和测试时,输入均是手指静脉二值图像,实验结果如图 12表 4所示。

图 12 CNN-4(输入为二值图像)对测试集图像的预测结果
Fig. 12 Predictions of test set images by CNN-4(input as binary image)

表 4 两种静脉输入形式的质量分类正确率对比
Table 4 Quality classification accuracy of gray and binary images

下载CSV
/%
网络 训练时输入 测试时输入 高质量图像 低质量图像 整个测试集
CNN-4 灰度图像 灰度图像 94.62 93.25 93.94
CNN-4 二值图像 二值图像 99.38 82.88 91.92

3) MC-CNN和CF-CNN的实验结果及分析。为了说明融合多特征的手指静脉质量评估方法的有效性,本文对MC-CNN和CF-CNN进行了实验。如前所述,这两个模型中的基础网络采用的都是CNN-4,训练时输入为灰度图像和二值图像,但测试时输入不同,实验结果如表 5图 13图 14所示。

表 5 MC-CNN和CF-CNN的质量分类正确率对比
Table 5 Quality classification accuracy of MC-CNN and CF-CNN

下载CSV
/%
网络 训练时输入 测试时输入 高质量图像 低质量图像 整个测试集
MC-CNN 灰度和二值图像 灰度和二值图像 99.50 83.38 91.44
CF-CNN 灰度和二值图像 灰度图像 95.25 94.00 94.62
图 13 MC-CNN对测试集图像的预测结果
Fig. 13 Predictions of test set images by MC-CNN
图 14 CF-CNN对测试集图像的预测结果
Fig. 14 Predictions of test set images by CF-CNN

表 5可以看到,MC-CNN对高质量图像分类正确率较高,CF-CNN对低质量图像分类正确率较高,对高质量图像也有明显的效果,在整个测试集上表现最佳。另外,CF-CNN在测试时只需要输入测试图像的灰度形式,而MC-CNN需要对测试图像做额外的二值化处理,使用起来CF-CNN更加方便。从表 4可以看到,二值静脉输入形式对高质量图像取得了较高的分类正确率,而灰度静脉输入形式对低质量图像的分类正确率更高,在整个测试集上,灰度静脉输入形式比二值静脉输入形式表现更好。这说明高质量图像经过二值化,去除一些噪声后更容易提取特征,而低质量图像在二值化的过程中却丢失了一些信息,导致提取的特征不完整,所以更难被识别。从图 12也可以看出,二值静脉输入形式的CNN-4模型对低质量图像有较多的误识,对高质量图像的识别效果则很好。

图 13图 14也可以看到,MC-CNN虽然在高质量图像上效果很好,但是对低质量图像效果不理想,有一定的误识率;CF-CNN在高、低质量图像上的表现相似,综合性能更好。这也说明了对手指静脉质量评估问题,直接采用MC-CNN将特征进行简单拼接的方式综合效果并不理想,而CF-CNN这种分层次学习不同静脉特征形式的方法对手指静脉质量评估问题更加有效。

3.4 不同质量特征的性能对比

按照问题的定义不同,现有的手指静脉质量评估方法又分为分类和回归两类:即基于质量分类的方法和基于质量得分的方法。基于分类的手指静脉图像质量评估方法通常按照图像质量把手指静脉图像分为几种类型,而基于质量得分的手指静脉图像质量评估方法,会给每一幅图像一个质量得分。本文研究的是质量分类问题,但是本文提出的所有网络模型都可以用于手指静脉质量得分的预测,只需要设置网络的输出层为一个神经元,损失函数选择用于回归问题的相关函数。本文研究的质量分类问题是将其分为高、低质量两类,因此选择和问题定义相同的文献[8-9, 13-14]进行比较。文献[8]和文献[9]采用的是手工设计的特征,文献[13]基于二值静脉形式的深度学习特征,文献[14]基于灰度静脉形式的深度学习特征,而本文提出的CF-CNN模型则是融合了二值静脉形式和灰度静脉形式的深度学习特征。本文提出的所有网络模型的性能如图 15所示,从图 15可以看到,CF-CNN的综合性能最好,将其与基于不同质量特征的算法进行比较,结果如表 6所示。

图 15 各网络模型的性能比较
Fig. 15 Performance comparison of various networks

表 6 CF-CNN与其他算法的质量分类正确率对比
Table 6 Quality classification accuracy of CF-CNN and other algorithms

下载CSV
/%
方法 高质量图像 低质量图像 整个测试集
文献[9] 92.56 93.69 93.13
文献[8] 92.40 91.82 92.09
文献[13] 88.99 88.18 88.59
文献[14] 87.27 86.41 86.84
CF-CNN 95.25 94.00 94.62

表 6可以看出,本文提出的CF-CNN模型无论是对高质量图像还是低质量图像,分类正确率比其他算法都要高。文献[8]和文献[9]使用手动设计的特征并结合支持向量机进行分类,文献[13]基于二值图像使用卷积神经网络提取特征,文献[14]基于灰度图像使用卷积神经网络提取特征。CF-CNN模型基于二值图像和灰度图像使用卷积神经网络提取特征,与上述方法相比,深度卷积特征比手动设计的特征效果更好,融合了两种静脉形式的质量特征比单独提取其中任意一者的单一质量特征效果更好。

4 结论

本文首次提出了基于深度学习和特征融合的手指静脉质量评估方法。

首先设计了3种简单的CNN结构并将其用于手指静脉质量评估,实验结果证明CNN-4的综合性能要优于CNN-3和CNN-5,这也说明网络并不是越深越好,网络的结构要与研究的问题相适应。

其次,比较同一网络的输入分别为灰度图像和二值图像时的性能差异,实验结果表明二值图像作为网络输入时性能略差,这说明灰度图像和二值图像都在一定程度上表征着手指静脉图像的质量。

最后,为了融合灰度图像和二值图像的质量特征,本文提出了两种融合的手指静脉质量评估模型:MC-CNN和CF-CNN,实验结果表明CF-CNN比MC-CNN性能更优、结构更为简单,是一个端到端的手指静脉质量评估模型。

将本文提出的所有网络模型和现有算法进行比较,虽然实验结果表明基于CF-CNN的手指静脉质量评估方法优于其他所有方法,但是其仍存在一定的错误率,下一步可以通过进一步优化模型来提高性能。

参考文献

  • [1] Wang K J, Liu J Y, Ma H, et al. A finger vein image quality assessment method[J]. CAAI Transactions on Intelligent Systems, 2011, 6(4): 324–327. [王科俊, 刘靖宇, 马慧, 等. 手指静脉图像质量评价[J]. 智能系统学报, 2011, 6(4): 324–327. ] [DOI:10.3969/j.issn.1673-4785.2011.04.007]
  • [2] Ma H, Wang K J, Fan L L, et al. A finger vein image quality assessment method using object and human visual system index[M]//Yang J, Fang F, Sun C Y. Intelligent Science and Intelligent Data Engineering. Berlin, Heidelberg: Springer, 2012: 498-506.[Doi: 10.1007/978-3-642-36669-7_61]
  • [3] Xie S J, Zhou B, Yang J C, et al. Novel hierarchical structure based finger vein image quality assessment[M]//Sun Z A, Shan S G, Yang G P, et al. Biometric Recognition. Cham: Springer, 2013: 266-273.[Doi: 10.1007/978-3-319-02961-0_33]
  • [4] Huang Z Z, Mu C D, Xie J B, et al. Vein image quality assessment method for feature extraction[J]. Computer Engineering and Science, 2013, 35(10): 186–190. [黄忠主, 穆春迪, 谢剑斌, 等. 用于特征提取的静脉图像质量评价方法[J]. 计算机工程与科学, 2013, 35(10): 186–190. ] [DOI:10.3969/j.issn.1007-130X.2013.10.026]
  • [5] Yang L, Yang G P, Yin Y L, et al. Finger vein image quality evaluation using support vector machines[J]. Optical Engineering, 2013, 52(2): 027003. [DOI:10.1117/1.OE.52.2.027003]
  • [6] Zhou L Z, Yang G P, Yang L, et al. Finger vein image quality evaluation based on support vector regression[J]. International Journal of Signal Processing, Image Processing and Pattern Recognition, 2015, 8(8): 211–222. [DOI:10.14257/ijsip.2015.8.8.23]
  • [7] Qin H F. Study on quality assessment and feature recognition approach of finger-vein image[D]. Chongqing: Chongqing University, 2012. [秦华锋.手指静脉图像质量评估与特征识别算法研究[D].重庆: 重庆大学, 2012.] http://cdmd.cnki.com.cn/Article/CDMD-10611-1013007989.htm
  • [8] Yang L. Study of finger vein recognition methods[D]. Ji'nan: Shandong University, 2016. [杨璐.手指静脉识别方法研究[D].济南: 山东大学, 2016.] http://cdmd.cnki.com.cn/Article/CDMD-10422-1016203859.htm
  • [9] Hu J J. Study on quality assessment algorithm of finger vein image[D]. Chongqing: Chongqing University of Technology, 2016. [胡晶晶.手指静脉图像质量评估算法研究[D].重庆: 重庆理工大学, 2016.] http://cdmd.cnki.com.cn/Article/CDMD-11660-1016231709.htm
  • [10] Nguyen D T, Park Y H, Shin K Y, et al. New finger-vein recognition method based on image quality assessment[J]. KSⅡ Transactions on Internet and Information Systems, 2013, 7(2): 347–365. [DOI:10.3837/tiis.2013.02.010]
  • [11] Huang Z X, Kang W X, Wu Q X, et al. A finger vein identification system based on image quality assessment[C]//Proceedings of the 11th Chinese Conference on Biometric Recognition. Chengdu, China: Springer, 2016: 244-254.[Doi: 10.1007/978-3-319-46654-5_27]
  • [12] Huang Z X. The embedded finger vein recognition system based on convolutional neural networks[D]. Guangzhou: South China University of Technology, 2017. [黄志星.基于卷积神经网络的嵌入式指静脉识别系统[D].广州: 华南理工大学, 2017.] http://cdmd.cnki.com.cn/Article/CDMD-10561-1017733685.htm
  • [13] Qin H F, El-Yacoubi M A. Finger-vein quality assessment by representation learning from binary images[C]//Proceedings of the International Conference on Neural Information Processing. Istanbul, Turkey: Springer, 2015: 421-431.[Doi: 10.1007/978-3-319-26532-2_46]
  • [14] Qin H F, El-Yacoubi M A E. Deep representation for finger-vein image-quality assessment[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2018, 28(8): 1677–1693. [DOI:10.1109/TCSVT.2017.2684826]
  • [15] Lu Y, Xie S J, Yoon S, et al. An available database for the research of finger vein recognition[C]//Proceedings of the 6th International Congress on Image and Signal Processing. Hangzhou, China: IEEE, 2014: 410-415.[Doi: 10.1109/CISP.2013.6744030]