Print

发布时间: 2018-01-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170219
2018 | Volume 23 | Number 1




    图像分析和识别    




  <<上一篇 




  下一篇>> 





基于虹膜纹理深度特征和Fisher向量的人种分类
expand article info 王雅丽1,2, 马静1, 李海青2, 张曼2, 孙哲南2
1. 哈尔滨理工大学自动化学院, 哈尔滨 150001;
2. 中国科学院自动化研究所, 北京 100190

摘要

目的 虹膜是位于人眼表面黑色瞳孔和白色巩膜之间的圆环形区域,有着丰富的纹理信息。虹膜纹理具有高度的区分性和稳定性。人种分类是解决虹膜识别在大规模数据库上应用难题的主要方法之一。现有的虹膜图像人种分类方法主要采用手工设计的特征,而且针对亚洲人和非亚洲人的基本人种分类,无法很好地解决亚种族分类问题。为此提出一种基于虹膜纹理深度特征和Fisher向量的人种分类方法。方法 首先用CNN(convolutional neural network)对归一化后的虹膜纹理图像提取深度特征向量,作为底层特征;然后使用高斯混合模型提取Fisher向量作为最终的虹膜特征表达;最后用支持向量机分类得到最终结果。结果 本文方法在亚洲人和非亚洲人的数据集上采用non-person-disjoint的方式取得99.93%的准确率,采用person-disjoint的方式取得91.94%的准确率;在汉族人和藏族人的数据集上采用non-person-disjoint的方式取得99.69%的准确率,采用person-disjoint的方式取得82.25%的准确率。结论 本文通过数据驱动的方式从训练数据中学习到更适合人种分类的特征,可以很好地实现对基本人种以及亚种族人种的分类,提高了人种分类的精度。同时也首次证明了用虹膜图像进行亚种族分类的可行性,对人种分类理论进行了进一步地丰富和完善。

关键词

人种分类; Fisher向量; 高斯混合模型; 特征表达; 深度学习

Race classification based on deep features and Fisher vectors of iris texture
expand article info Wang Yali1,2, Ma Jing1, Li Haiqing2, Zhang Man2, Sun Zhenan2
1. School of Automation, Harbin University of Science and Technology, Harbin 150001, China;
2. Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China
Supported by: National Natural Science Foundation of China (61573360, 61603385)

Abstract

Objective Iris is the annular part between the pupil and white sclera of human eyes and possesses rich texture information. The iris texture is highly discriminative and stable, which makes iris an important part of the human body for biometric identification. Iris recognition aims to assign a unique identity label to each iris image based on automatic preprocessing, feature analysis, and feature matching. As a reliable method for personal identification, iris recognition has numerous important applications in public and personal security areas. The rapid development of iris recognition in commercial applications has dramatically increased the sizes of iris databases, thereby resulting in large database sizes and slow system responses. Race classification is a key method in solving large-scale iris classification problems. Iris is initially classified according to race, and a rough classification result is obtained. Iris is then matched with the subclass where it belongs. In this way, the runtime for iris recognition can be reduced effectively. Several applications can be adopted for race classification. In the era of information, if a computer can automatically detect the race information of a user, then it can match the computer language with the user language and provide a personalized login interface. Existing approaches to iris-based race classification mainly focus on Asian and non-Asian iris image classification, and the features used for classification are manually designed. Sub-ethnic classification, such as the classification of Koreans, Japanese, and Chinese, has also emerged in recent years. However, no sub-ethnic classification based on iris images has been conducted. No significant difference in iris texture exists among subspecies compared with the iris of the basic race, and manually designed features for basic race are not suited to sub-ethnic classification. These problems pose a great challenge to sub-ethnic classification on iris images. This study proposes a novel race classification method based on deep features and Fisher vectors of iris texture. The study focuses on basic race classification of Asian and non-Asian iris images and sub-ethnic classification of Han and Tibetan iris images. Method The original iris image contains not only the annular iris but also the pupil, eyelids, eyelashes, and other eye areas, as well as some light reflection of the formation of light spots. Therefore, the iris image should be preprocessed before features are extracted. The iris image preprocessing mainly includes iris detection, localization, segmentation, and normalization. Normalized unwrapped iris images are obtained. Our method feeds the preprocessed iris images to a convolutional neural network to extract deep features as low-level features. We use a Gaussian mixture model to cluster the features to obtain iris texture textons, and the model is then used with Fisher vector to extract high-level features. A support vector machine is used for classification. Results We evaluate our proposed method on two iris image databases, namely, CASIA multi-race iris race database and Han-Tibetan iris race database, for basic race and sub-ethnic classifications, respectively. Thus far, no iris database dedicated to sub-ethnic classification has been developed. We establish a Han-Tibetan sub-ethnic classification database to further study race classification. We perform an evaluation in two different dataset settings, namely non-person-disjoint and person disjoint. Non-person-disjoint experimental setting refers to the random selection of certain iris images as the training set and the remaining iris images are the test set. In this way, the iris image of the same person can appear in the training and testing sets. Person-disjoint experimental setting means we randomly select iris images of some people as the training set and the iris images of remaining people as the testing set. This method can ensure that the iris images of the same person do not appear in the training and testing sets simultaneously. When we design the experiment, we compare the two methods on the two databases. Experimental results show that the proposed method can achieve 99.93% accuracy in non-person-disjoint approach and 91.94% in person-disjoint manner on the Asian and non-Asian dataset. For the Han-Tibetan dataset, the proposed method can obtain 99.69% accuracy in non-person-disjoint approach and 82.25% accuracy in person-disjoint manner. Conclusion This study proposes a race classification method based on deep features and Fisher vector of iris texture. The method learns low-level visual features highly suitable for iris race classification from training data to solve the problem of traditional methods, in which a strong prior knowledge is required to design discriminating features. In a data-driven manner, the proposed method can learn features significantly suitable for basic race classification and sub-ethnic classification, which improves the accuracy of race classification. Fisher vector is used to encode low-level visual features. The obtained features can describe the global texture features of iris images, as well as retain local texture features, which is favorable to race classification. We use iris images to solve the sub-ethnic classification of Han and Tibetan for the first time and prove the feasibility and validity of sub-ethnic classification based on iris images. A new iris image database, which is suitable for sub-ethnic classification based on iris images is also established. The experimental results show that the differences in sub-ethnic iris images are insignificant and that the classification is challenging.

Key words

race classification; Fisher vector; Gaussian mixture model; feature representation; deep learning

0 引言

随着互联网的发展, 人与人之间的关系更加密切, 互动更加频繁, 人的身份识别技术也变得更加重要, 渗透到人们日常生活中的每一个方面。传统身份认证方式如密码、身份证等存在很多缺陷, 无法满足人们对安全的需求。基于生物特征的身份识别技术利用人体固有的生理特征和行为特征[1], 例如:虹膜、人脸、指纹、声纹、步态等, 通过计算机对人的身份进行自动识别, 更加安全便捷, 具有不会遗忘, 不会丢失和不可替代等优点, 虹模作为一种生物特征。具有唯一性高、稳定性强、非侵犯性等优点。这些特点使得虹膜识别技术有着极其广泛的应用。虹膜图像除了包含身份信息之外, 还包含了丰富的人种信息。如图 1所示, 亚洲人的虹膜纹理主要以斑点, 冠状和隐窝为主, 绝大多数亚洲人的虹膜纹理主要分布在虹膜区域中靠近瞳孔边缘的内环区域;非亚洲人(主要指欧洲人)的虹膜则主要以细丝和条纹为主, 大部分非亚洲人的虹膜纹理在整个虹膜区域中都有比较丰富的分布。这些特点为基于虹膜图像的人种分类奠定了基础。

图 1 亚洲人和非亚洲人的虹膜图像示例
Fig. 1 Some examples of iris images from different races((a) Asian; (b) Non-Asian)

人种, 是指具有区域性特点的群体[2]。同一种族在形态, 生理以及语言习俗上比较接近, 比如肤色、面型、眼色、发色和发型等。根据人种的自然体质特征, 人类学家通常将全世界的现代人类划分为四大人种:高加索人种、蒙古人种、尼格罗人种和澳大利亚人种, 俗称白种人、黄种人、黑种人和棕种人。目前基于虹膜图像的人种分类有着广泛的应用。一方面, 人种分类问题是解决虹膜识别在大规模数据库上应用难题的主要方法之一。随着应用人群的不断扩大, 虹膜数据库的规模也在急剧增大。大规模的数据库导致系统的反应速度变慢。在虹膜识别之前, 先用人种分类将虹膜分为几个大类, 然后将输入的虹膜在相应子类进行匹配, 可以有效降低搜索时间。另一方面基于虹膜图像的人种分类是对虹膜分类理论的丰富和完善, 可以提高不同人种之间的相互了解和认识。在当今的信息化时代, 如果计算机可以自动地检测到用户的人种信息, 识别出不同的人种, 就可以提供个性化的登录界面, 匹配相应人种的语言文字, 提供相应的服务和推荐。

现有的人种分类方法主要有基于人脸图像[3-4]、眼周图像[5-6]和虹膜图像[7-12]等方法, 本文主要研究基于虹膜图像的人种分类。最早的基于虹膜图像的人种分类问题是由Qiu等人[7]提出, 文中首次说明了虹膜是人种相关的。在此之后, 一系列基于虹膜图像的人种分类方法被提了出来[8-12]。现有的工作主要有两方面的缺陷: 1) 通常采用手工设计的特征来描述虹膜图像, 而这种通用的特征无法很有效地体现虹膜纹理的构造;2) 研究的方向基本上都集中在亚洲人和非亚洲人的分类上。但是近几年来, 也渐渐地出现了关于亚种族(sub-ethnic)的研究[13], 比如:韩国人、日本人和中国人的人种分类问题。到目前为止, 还没有基于虹膜图像的亚种族分类。相比于基本人种的虹膜, 亚种族间的虹膜纹理没有明显可见的差异, 这给基于虹膜图像的亚种族分类带来了更大的挑战。图 2所示的是汉族人和藏族人的虹膜图像。可以发现, 亚种族的分类任务更加有难度。

图 2 汉族人和藏族人的虹膜图像示例
Fig. 2 Some examples of iris images from different sub-ethnic((a) Han; (b) Tibetan)

近几年来深度学习尤其是卷积神经网络(CNN)在图像分类, 检测和分割等方面都取得了突破性的进展, 在生物识别领域也有广泛的应用。其主要原因是CNN可以从训练数据中学习到有效的特征表达。本文利用卷积神经网络, 以数据驱动的方式学习到虹膜纹理的底层特征, 来代替传统手工设计的特征, 表达当前纹理的局部特征。然后用Fisher向量对底层特征进行编码, 得到最终的虹膜纹理特表达, 是一种全局特征。所以该方法既可以描述虹膜图像的全局纹理特征, 又能尽可能多的保留局部纹理特征, 更有利于人种分类。同时为了研究亚种族分类问题, 对基于虹膜的亚种族分类问题进行探索, 本文建立了一个虹膜图像数据库, 该数据库包含汉族和藏族两个亚种。本文的主要贡献总结如下:

1) 本文采用虹膜纹理深度特征和Fisher向量相结合的方法来解决基于虹膜图像的人种分类问题。

2) 首次用虹膜图像解决亚种族的人种分类问题, 并建立了一个新的人种虹膜图像数据库。

1 相关工作

研究表明[7]:虹膜纹理在小尺度下, 局部细节特征是基因无关的, 但在大尺度下, 全局统计特征是基因相关的, 不同人种的虹膜纹理有着不同的统计特征。所以提取虹膜图像的全局统计性纹理特征作为人种分类的特征表达, 可以对人种进行分类。现有的基于虹膜的人种分类方法按照特征提取方式可以分为两大类。

1) 基于统计值的方法, 使用统计值来表示虹膜图像的全局统计特征。Qiu等人[7]提出了采用全局纹理分析的方法。首先用一组Gabor滤波器对虹膜区域进行滤波, 然后统计滤波后响应值的平均Gabor能量, 并把平均Gabor能量作为亚洲人和非亚洲人分类的特征向量, 分类准确率为85.95%。Lagree等人[8]则选用了9个基本滤波器对归一化虹膜图像进行滤波, 然后在滤波响应上计算了6个统计特征, 如均值、方差等, 作为全局性特征, 然后将统计值连接成向量, 作为最后的用于分类的特征表达。Zarei等人[9]也采用了相同方法提取特征。

2) 基于纹理基元的方法。使用统计值作为全局统计特征可以对虹膜图像的纹理结构进行粗略描述, 有一定的抗噪能力, 但是会丢失局部纹理特征。所以Qiu等人[10]借鉴纹理基元理论在纹理分割和目标分类中的应用, 首先提出了一种基于虹膜纹理基元的人种分类方法。先用一组Gabor滤波器对虹膜图像进行滤波, 得到Gabor特征向量。然后用K均值聚类方法对得到的特征向量进行聚类, 得到纹理基元, 最后通过构建虹膜纹理基元直方图, 得到表达虹膜图像的纹理特征表达。之后Zhang等人[11]采用SIFT(scale-invariant feature transform)描述子代替Gabor特征作为底层视觉特征, 从归一化的虹膜图像中等间隔采样提取SIFT描述子, 然后在SIFT特征组成的特征集合上利用K均值聚类算法得到字典(纹理基元)。然后采用局部约束线性编码, 根据人种分类的任务, 用类别信息来指导词典学习, 得到的编码结果作为最终用于分类的特征。Sun等人[12]针对虹膜图像的特点, 采用基于词袋模型的图像描述方法, 提出了级联视觉词典(纹理基元)编码方法, 该方法结合了树型视觉词典和局部约束的稀疏编码的优点, 采用SIFT特征作为底层特征, 对虹膜纹理基元进行描述, 级联的重构编码可以有效的表达虹膜图像的纹理分布。

基于虹膜图像的人种分类方法总结见表 1。现有的基于虹膜的人种分类方法取得了不错的结果, 但是也存在许多不足:

表 1 基于虹膜图像的人种分类方法总结
Table 1 Overview of classification based on iris images

下载CSV
方法人种特征数据库图片数分类器准确率/%Person-Disjoint
Qiu等人[7]亚洲人 & 非亚洲人Gabor energy3 982张/-Adaboost85.95
Qiu等人[10]亚洲人 & 非亚洲人Gabor and K-means2 400张/60人SVM91.02
Lagree等人[8]亚洲人 & 高加索人Statistical features1 200张/120人SMO in WEKA90.58
Zhang等人[11]亚洲人 & 非亚洲人SIFT and LLC11 320张/2 066人SVM94.28
Zarei等人[9]亚洲人 & 高加索人Statistical features1 200张/120人MLP97.5 93.3否是
Sun等人[12]亚洲人 & 非亚洲人SIFT and HVC2 400张/60人SVM99.86

1) 现有的方法主要采用一套预先定义好的特征来描述虹膜的纹理结构。比如用Gabor滤波器滤波后得到的特征以及SIFT特征等来描述虹膜图像的底层特征。Gabor滤波器需要人为地设定参数, SIFT特征是一套通用的预先定义好的特征, 选择这些特征作为底层特征, 无法很有效的体现虹膜纹理的特点。

2) 现有人种分类方法主要集中在亚洲人和非亚洲人的分类上。一方面是因为已有的数据库是亚洲任何非亚洲人的数据库;另一方面是因为亚人和非亚洲人(基本人种)的类间的差异比较大, 比较容易区分。

3) 以前大部分工作的实验设置方式没有采用Person-disjoint方式, 这样会导致泛化性能差, 对新出现的数据集上的人进行分类时, 准确率会偏低。(Person-disjoint具体的介绍见第3节实验设置部分)。

2 方法

提出了一种基于虹膜纹理深度特征和Fisher向量的人种分类方法。主要分为以下几个步骤: 1) 利用卷积神经网络基于学习的方式来提取虹膜图像的底层特征。2) 用高斯混合模型来拟合虹膜纹理特征的分布, 提取虹膜纹理基元。3) 用Fisher向量对提取到的特征进行编码, 得到最终的虹膜纹理特征表达。4) 最后用支持向量机得到最终的分类结果。整个算法的流程图如图 3所示。

图 3 基于虹膜纹理深度特征和Fisher向量的人种分类算法流程图
Fig. 3 The whole framework of race classification based on deep features and fisher vectors of iris texture

2.1 底层特征提取

本文采用深度学习方法提取虹膜纹理底层特征, 来代替传统手工设计特征, 更好地表达虹膜图像中的纹理信息。但是用卷积神经网络来提取特征也面临着许多挑战:

1) 由于虹膜数据采集的特殊性, 虹膜数据库的图片较少。在训练网络的时候, 容易出现过拟合的问题。为了解决这个问题, 现有的工作[14-16]表明, 在大规模数据库(如ImageNet)上训练好的深度卷积网络, 可以成功迁移到其他的分类任务上, 以解决目标任务的训练数据少的问题。例如将在大规模数据库上训练好的网络模型直接用到其他任务上, 提取到的CNN特征依然能够得到有效的特征表达[17]

2) 虹膜图像不同于一般物体图像, 虹膜图像中含有丰富的纹理特征, 而缺乏一般物体所具有的颜色信息和结构信息。在现有的研究中, 许多工作[18-21]直接将卷积神经网络的全连接层输出作为特征表达。全连接层能够更好地提取到输入图片的结构信息, 这些信息可以更好地表达一个物体的形状, 适用于做物体分类的任务, 但是却无法很好地提取到纹理信息。与此同时, 提取全连接层的特征时对输入图片的大小是有要求的, 需要调整输入虹膜图像的尺寸, 这样会导致虹膜微结构变形, 影响分类结果。Cimpoi等人[22]选用卷积层的输出作为特征, 提升了纹理识别的准确率。

因此本文选用CNN卷积层的输出作为虹膜图像的底层特征, 相比于全连接层输出的特征, 可以更好地描述虹膜的纹理信息, 又不需要改变输入图像的尺寸。选用的卷积神经网络为VGG-M[23], 其具体结构如表 2所示。将一张虹膜图像输入到网络中, 提取conv5层输出的512张feature maps, 每张feature map的大小为4×31像素。然后在每个像素点按通道得到512维的特征向量。本文用$\mathit{\boldsymbol{X}}$={$\mathit{\boldsymbol{x}}_{t}$, $t$=1, …, $T$}表示从一张虹膜图像中提取的底层特征集合, 其中$T$=124, 表示特征向量的个数, $\mathit{\boldsymbol{x}}_{t}$的维度为$D$=512。

表 2 卷积神经网络结构
Table 2 The architectures of VGG-M model

下载CSV
类型卷积核的大小/像素步长\Pad卷积数量像素输出尺寸
conv17×72bbodysecsec9637×253
pool13×32bbodysecsec-18×126
conv25×522568×62
pool23×32\[0101]-4×31
conv33×312564×31
conv43×315124×31
conv53×315124×31

2.2 纹理基元聚类

得到虹膜底层特征向量之后, 选用混合高斯模型完成纹理基元的聚类。纹理基元指的是图像中组成各种纹理的基本微结构[24], 虹膜纹理基元指的是能够描述虹膜不规则的微结构, 如:斑点、细丝、冠状等。高斯混合模型(GMM)是一种通用的概率模型, 可以以任意精度逼近任何的连续概率密度分布, 因此适合表征虹膜底层特征的分布。高斯混合模型是一系列高斯分布的加权组合。通过学习一个含有$K$个分量的高斯混合模型来对底层特征的分布进行建模, 得到了$K$个聚类中心, 对应$K$个纹理基元。一个由$K$个高斯分量组成的高斯混合密度函数是$K$个高斯密度函数的线性加权和, 即

$ {p_\lambda }\left( \mathit{\boldsymbol{x}} \right) = \sum\limits_{k = 1}^K {{\omega _k}{p_k}\left( \mathit{\boldsymbol{x}} \right)} $ (1)

式中, $λ$=($ω_{k}$, $\mathit{\boldsymbol{\mu }}_{k}$, $\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_{k}$), ($k$=1, 2, …, $K$)为GMM模型参数, $ω_{k}$是权重, 表示的是第$k$个高斯分布被选中的概率, 满足

$ {\forall _k}:{\omega _k} \ge 0,\sum\limits_{k = 1}^K {{\omega _k}} = 1 $ (2)

每个高斯分量的概率密度函数为$p_{k}$($\mathit{\boldsymbol{x}}$), 满足

$ \begin{array}{*{20}{c}} {{p_k}\left( \mathit{\boldsymbol{x}} \right) = \frac{1}{{{{\left( {2{\rm{ \mathsf{ π} }}} \right)}^{D/2}}{{\left| {{\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_k}} \right|}^{1/2}}}} \times }\\ {\exp \left\{ { - \frac{1}{2}{{\left( {\mathit{\boldsymbol{x}} - {\mathit{\boldsymbol{\mu }}_k}} \right)}^\prime }\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_k^{ - 1}\left( {\mathit{\boldsymbol{x}} - {\mathit{\boldsymbol{\mu }}_k}} \right)} \right\}} \end{array} $ (3)

式中, $\mathit{\boldsymbol{\mu }}_{k}$是第$k$个高斯分量的均值矢量, $\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_{k}$为相应的协方差矩阵, $D$是特征向量的维度

在底层特征组成特征向量空间里, 假设每个特征都服从独立同分布, 用高斯混合模型来模拟$\mathit{\boldsymbol{x}}$的分布$P_{λ}$($\mathit{\boldsymbol{x}}$)。$p_{k}$($\mathit{\boldsymbol{x}}$)表示一个特征向量$\mathit{\boldsymbol{x}}_{t}$属于第$k$个纹理基元的可能性, $ω_{k}$是一个属于0到1的概率值, 也就是说$\mathit{\boldsymbol{x}}_{t}$可以看做由多个纹理基元联合生成的。选用EM算法求解高斯混合模型可得到参数模型$λ$

2.3 虹膜纹理特征表达

构建好虹膜纹理基元后, 选用Fisher向量编码得到最终的虹膜纹理特征表达。Fisher向量是词袋模型的一种扩展, 编码后的向量既可以体现出每个视觉单词的出现频率, 又能对特征向量在视觉单词上分布的差异信息进行编码[25]。一个纹理基元, 是一个基本纹理结构, 单个的虹膜纹理基元可以表示一个像素以及它邻域内局部纹理信息。经过Fisher向量编码后得到的向量可以体现虹膜图像的全局纹理信息, 表达当前纹理图像的统计特性, 是一种全局特征。因此使用深度学习特征和Fisher向量编码得到的特征表达既能描述图像的全局纹理特征, 又能保留图像的局部纹理特征。可以更加丰富地表达图像特征, 更有利于人种分类。Fisher向量为归一化的梯度向量可表示为

$ \mathit{\boldsymbol{G}}_\lambda ^x = \sum\limits_{t = 1}^T {{L_\lambda }{\nabla _\lambda }\log {p_\lambda }\left( {{\mathit{\boldsymbol{x}}_t}} \right)} $ (4)

式中, $p_{λ}$($\mathit{\boldsymbol{x}}$)表示用高斯混合模型对底层特征$\mathit{\boldsymbol{x}}$建模后的概率密度函数。$L_{λ}$是Fisher核的逆$F_{λ}^{\rm -1}$经过乔里斯基分解(Cholesky Decomposition)$F_{λ}^{\rm -1}$=$L$$_{λ}L_{λ}$得到的。依据文献[25]只考虑均值和方差导数, 对于每个高斯混合模型的中心计算, 即

$ \mathit{\boldsymbol{ \boldsymbol{\varPhi} }}_k^{\left( 1 \right)} = \frac{1}{T}\mathit{\boldsymbol{G}}_{\mu ,k}^X = \frac{1}{{T\sqrt {{\omega _k}} }}\sum\limits_{t = 1}^T {{\gamma _t}\left( k \right)\left( {\frac{{{\mathit{\boldsymbol{x}}_t} - {\mathit{\boldsymbol{\mu }}_k}}}{{{\mathit{\boldsymbol{\sigma }}_k}}}} \right)} $ (5)

$ \begin{array}{*{20}{c}} {\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}_k^{\left( 2 \right)} = \frac{1}{T}\mathit{\boldsymbol{G}}_{\sigma ,k}^X = }\\ {\frac{1}{{T\sqrt {2{\omega _k}} }}\sum\limits_{t = 1}^T {{\gamma _t}\left( k \right)\left( {\frac{{{{\left( {{\mathit{\boldsymbol{x}}_t} - {\mathit{\boldsymbol{\mu }}_k}} \right)}^2}}}{{\mathit{\boldsymbol{\sigma }}_k^2}} - 1} \right)} } \end{array} $ (6)

式中, $γ_{t}$($k$)表示底层特征$\mathit{\boldsymbol{x}}_{t}$软分配给第$k$个虹膜纹理基元的概率, 计算公式为

$ {\gamma _t}\left( k \right) = \frac{{{\omega _k}{\mathit{\boldsymbol{\mu }}_k}\left( {{\mathit{\boldsymbol{x}}_t}} \right)}}{{\sum\limits_{j = 1}^K {{\omega _j}{\mathit{\boldsymbol{\mu }}_j}\left( {{\mathit{\boldsymbol{x}}_t}} \right)} }} $ (7)

最后得到$\mathit{\boldsymbol{\varphi }}$=[$\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}_{\rm 1}^{\rm (1) }$, $\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}_{\rm 1}^{\rm (2) }$, …, $\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}_{k}^{\rm (1) }$, $\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}_{k}^{\rm (2) }$]作为最后虹膜的特征向量。选用$K$=64, 最后得到的特征向量的维数为2$KD$=65 536。提取特征的整个过程如图 4(a)所示, 最后得到的特征记为FV-CNN(Fisher vector coding of cnn);为了比较说明本文采用Fisher向量编码的优势, 直接将CNN的全连接层提取出来, 作为分类特征, 记为FC-CNN(fully-connected layer of CNN), 如图 4(b)所示。实验部分将会对这两种方法进行比较。

图 4 特征提取示意图
Fig. 4 Feature extraction process
((a) FV-CNN; (b) FC-CNN)

2.4 支持向量机分类

因为所提取特征具有较高的维度, 使用线性支持向量机作为分类器。线性支持向量机有较快的计算速度, 适合特征维数高的情况。利用VLfeat工具包[26]学习得到的分离超平面为

$ \mathit{\boldsymbol{w}} \cdot \mathit{\boldsymbol{x}} + \mathit{\boldsymbol{b}} = {\bf{0}} $ (8)

式中, $\mathit{\boldsymbol{x}}$为特征向量, $\mathit{\boldsymbol{w}}$$\mathit{\boldsymbol{b}}$分别为超平面的法向量和截距。相应的分类决策函数为

$ f\left( \mathit{\boldsymbol{x}} \right) = {\mathop{\rm sgn}} \left( {\mathit{\boldsymbol{w}} \cdot \mathit{\boldsymbol{x}} + \mathit{\boldsymbol{b}}} \right) $ (9)

3 实验

3.1 人种分类数据库

1) CASIA multi-race。为了评价提出方法的性能, 选择了CASIA multi-race虹膜人种数据库进行实验。这个数据库常用来做虹膜种族分类准确率的评价。该数据库包含了来自60个人的2 400张虹膜图片, 有30个亚洲人(主要是中国人)和30个欧洲人, 每个人每只眼睛有20张图片。这些虹膜图像通过手持虹膜设备OKI-IRISPASS-h进行采集的。表 3为CASIA multi-race数据库的具体信息。

表 3 CASIA multi-race具体信息
Table 3 Statistics of CASIA multi-race

下载CSV
设备人种人数图片数分辨率/像素
OKI IRISPASS-h亚洲人/非亚洲人602 400640×480

2) Han-Tibetan。到目前为止, 还没有专门用于亚种族分类的虹膜数据库, 为了进一步研究人种分类, 建立了一个汉族人和藏族人的虹膜亚种族分类数据库(Han-Tibetan)。该数据库包含4 800张虹膜图片共120个人, 其中汉族人60个, 藏族人60个。每人每个眼睛20张图片。表 4为Han-Tibetan数据库的具体信息。

表 4 Han-Tibetan具体信息
Table 4 Statistics of Han-Tibetan

下载CSV
设备人种人数图片数分辨率/像素
IrisGuard汉族/藏族1204 800640×480

3.2 虹膜图像预处理

原始采集的虹膜图像中不仅包含着圆环状的虹膜, 还包括瞳孔、眼皮、眼白、睫毛等其他眼部区域, 以及一些光照反射形成的光斑点等。因此在提取特征之前, 需要对虹膜图像进行预处理。虹膜图像的预处理主要包含虹膜检测、定位、分割和归一化, 如图 5所示。采用He等人[27]提出的虹膜图像预处理方法, 归一化处理后得到极坐标下的虹膜图像, 大小为512×80像素, 如图 5(c)所示。

图 5 虹膜图像预处理示意图
Fig. 5 Illustration of image preprocessing ((a) raw iris image; (b) segmented iris image; (c) unwrapped iris image)

3.3 实验设置

1) 评价指标。采用正确分类率(CCR)作为评价虹膜分类算法精确度的指标。CCR表示分类正确的次数占总分类次数的比值, 其计算公式表达为

$ C = \frac{{{N_{{\rm{correct}}}}}}{{{N_{{\rm{total}}}}}} $ (10)

2) 训练集和测试集设置。总结以前的研究工作, 训练集和测试集的设置方式分为以下2种:

(1) Non-person-disjoint方式。在虹膜数据库中, 通常情况下每个人的每一个虹膜都会有多张图像, 在进行分类实验时, non-person-disjoint的实验设置方式指的是在虹膜数据库中随机选取一些虹膜图像作为训练集, 剩下的作为测试集。这样的设置方式会导致同一个人的虹膜图像同时出现在训练集和测试集中。

(2) Person-disjoint方式。该实验设置方式指的是在虹膜数据库中随机选取一些人的虹膜图像作为训练集, 剩下人的虹膜图像作为测试集, 保证同一人的虹膜不同时出现在训练集和测试集中。

在设计实验时, 在两个数据库上分别对两种方式做了比较。

3.4 实验结果

1) CASIA multi-race结果。以前的研究方法大部分采用的是第1种的实验设置方式。为了便于比较, 先采用non-person-disjoint的方式, 随机地选取480张亚洲人和480张非亚洲人的虹膜图像为训练集, 剩下的1 440张虹膜图像作为测试集。实验结果如表 5所示。

表 5 CASIA multi-race上non-person-disjoint结果
Table 5 Non-person-disjoint classification results on CASIA multi-race

下载CSV
方法CCR /%
Gabor and K-means[10]82.07
SIFT and LLC[11]98.14
SIFT and HVC[12]99.86
FC-CNN96.00
FV-CNN(本文)99.93

然后再采用person-disjoint的方式, 随机地选取12个亚洲人的480张虹膜图像和12个非亚洲人的480张虹膜图像为训练集, 剩下36人的1 440张虹膜图像作为测试集, 实验结果如表 6所示。

表 6 CASIA multi-race上person-disjoint的结果
Table 6 Person-disjoint classification results on CASIA multi-race

下载CSV
方法CCR /%
Gabor and K-means[10]63.88
SIFT and LLC[11]83.72
SIFT and HVC[12]85.21
FC-CNN91.18
FV-CNN(本文)91.94

2) Han-Tibetan结果。相比于亚洲人和非亚洲人的分类, 汉族人和藏族人作为亚洲人的子类, 分类的难度更大。为了验证方法的有效性, 在Han-Tibetan数据库上也分别进行了Non-person-disjoint和Person-disjoint的实验。首先随机地选取800张汉族人和800张藏族人的虹膜图像为训练集, 剩下的3 200张虹膜图像作为测试集。实验结果如表 7所示。

表 7 Han-Tibetan上non-person-disjoint结果
Table 7 Non-person-disjoint classification results on Han-Tibetan

下载CSV
方法CCR /%
Gabor and K-means[10]81.85
SIFT and LLC[11]98.09
SIFT and HVC[12]98.62
FC-CNN86.31
FV-CNN(本文)99.69

然后随机地选取20个人汉族人的800张虹膜图像和20个藏族人的800张虹膜图像为训练集, 剩下80人的3 200张虹膜图像作为测试集, 实验结果如表 8所示。

表 8 Han-Tibetan上person-disjoint结果
Table 8 Person-disjoint classification results on Han-Tibetan

下载CSV
方法CCR /%
Gabor and K-means[10]59.69
SIFT and LLC[11]74.16
SIFT and HVC[12]75.59
FC-CNN77.13
FV-CNN(本文)80.25

3.5 实验分析

3.5.1 不同特征之间的比较

通过实验可以发现, 本文方法能够提高亚洲人和非亚洲人以及汉族人和藏族人分类的准确率。在同一种实验设置方式下, FV-CNN特征的准确率高于手工设计的特征Gabor and K-means[9]、SIFT and LLC[10]和SIFT and HVC[11]。这也体现了采用深度学习特征能够更好地表达虹膜纹理的底层特征。同时, FV-CNN方法准确率要高FC-CNN方法的准确率, 说明相比于提取全连接层, 卷积层特征能够更好地表达虹膜的纹理特征, 也就说明Fisher向量编码的有效性。

3.5.2 person-disjoint和non-person-disjoint的比较

在CASIA multi-race和Han-Tibetan两个数据库上都可以发现, non-person-disjoint设置方式得到的结果明显高于person-disjoint方式下得到的结果。non-person-disjoint设置方式会导致如果在训练集中出现过的虹膜图像, 测试集再出现同一个人的虹膜图像时, 分类准确率会很高。但是这种方式在新的数据集上进行分类时, 准确率会大大降低。所以person-disjoint方式更符合实际的应用情况。

3.5.3 亚种族分类结果分析

在同属于亚洲人种的藏族和汉族分类中, 本文方法在person-disjoint方式下获得了80.25%的准确率, 远高于随机猜测的50%, 说明了用虹膜图像进行亚种族分类的可行性和有效性。亚种族分类的准确率低于亚洲人和非亚洲人的分类准确率表明亚种族的分类更具有挑战性。在相同的实验设置下, 本文方法取得了最好的结果, 比此前最好的方法文献[12]提升了4.66%。

3.5.4 纹理基元个数对算法的影响

纹理基元的个数对虹膜分类的准确率有很大的影响。纹理基元太少无法有效地表达虹膜纹理的类型, 使得分类精度降低;而纹理基元太多则会导致计算量比较大, 影响分类的效率。

文中虹膜纹理基元也就是高斯混合模型中高斯成分的个数, 通过实验来探究虹膜纹理基元对人种分类准确率的影响。在实验中, 选择纹理基元的个数分别为[2$^{\rm 0}$, 2$^{\rm 1}$, 2$^{\rm 2}$, 2$^{\rm 3}$, 2$^{\rm 4}$, 2$^{\rm 5}$, 2$^{\rm 6}$, 2$^{\rm 7}$, 2$^{\rm 8}$, 2$^{\rm 9}$], 在Han-Tibetan数据库上进行实验, 分类结果如图 6所示。实验结果显示, 随着纹理基元个数的增加, 准确率有一定的提升。当个数达到64以后, 准确率提高比较缓慢, 所以, 综合考虑准确率和效率的情况下, 选择64个虹膜纹理基元用于人种分类。

图 6 纹理基元的个数对准确率的影响
Fig. 6 The influence of the number of texture texton on the accuracy

4 结论

提出了一种基于虹膜纹理深度特征和Fisher向量的虹膜图像人种分类方法。该方法从训练数据中学到更适合虹膜人种分类的底层特征表达, 从而克服了传统方法需要很强的先验知识来辅助提取有区分度的特征的局限性。然后用Fisher向量对底层特征编码, 得到的特征既能描述虹膜图像的全局纹理特征, 又尽可能多的保留局部纹理特征, 更有利于人种分类。本文首次用虹膜图像解决亚种族的人种分类问题, 通过对汉族和藏族人的分类进行研究, 证明了用虹膜进行亚种族分类的可行性和有效性。此外本文建立了一个新的人种虹膜图像数据库, 有利于基于虹膜图像的亚种族分类研究。实验结果说明了亚种族的虹膜图像类间的差异更小, 分类更加具有挑战性。

相比于传统基于手工设计特征的人种分类方法, 本文的方法通过数据驱动的方式, 从训练数据中学习到更适合进行人种分类的特征, 不仅可以很好地区分亚洲人和非亚洲人, 而且对汉族和藏族这样的亚种族的分类也有较好的分类准确率。但是本文方法将深度网络提取特征和分类的过程分开进行, 在计算效率上有待进一步提升。因此, 在进一步的研究中, 会考虑增大数据库的图片数量, 采集更多人种的虹膜图片, 实现更准确更快的分类。

参考文献

  • [1] Dantcheva A, Elia P, Ross A. What else does your biometric data reveal? A survey on soft biometrics[J]. IEEE Transactions on Information Forensics and Security, 2016, 11(3): 441–467. [DOI:10.1109/TIFS.2015.2480381]
  • [2] Fu S Y, He H B, Hou Z G. Learning race from face:a survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(12): 2483–2509. [DOI:10.1109/TPAMI.2014.2321570]
  • [3] Manesh F S, Ghahramani M, Tan Y P. Facial part displacement effect on template-based gender and ethnicity classification[C]//Proceedings of the 11th International Conference on Control Automation Robotics & Vision. Singapore:IEEE, 2010:1644-1649.[DOI:10.1109/ICARCV.2010.5707882]
  • [4] Lu X G, Jain A K. Ethnicity identification from face images[C]//Proceedings of SPIE 5404, Biometric Technology for Human Identification. Orlando, Florida, United States:SPIE, 2004:114-123.[DOI:10.1117/12.542847]
  • [5] Lyle J R, Miller P E, Pundlik S J, et al. Soft biometric classification using periocular region features[C]//Proceedings of the 4th IEEE International Conference on Biometrics:Theory Applications and Systems. Washington, DC, USA:IEEE, 2010:1-7.[DOI:10.1109/BTAS.2010.5634537]
  • [6] Li Y H, Savvides M, Chen T. Investigating useful and distinguishing features around the eyelash region[C]//Proceedings of the 37th IEEE Applied Imagery Pattern Recognition Workshop. Washington DC, USA:IEEE, 2008:1-6.[DOI:10.1109/AIPR.2008.4906451]
  • [7] Qiu X C, Sun Z N, Tan T N. Global texture analysis of iris images for ethnic classification[C]//Proceedings of 2006 International Conference on Advances in Biometrics. Hong Kong, China:Springer, 2006:411-418.[DOI:10.1007/11608288_55]
  • [8] Lagree S, Bowyer K W. Predicting ethnicity and gender from iris texture[C]//Proceedings of 2011 IEEE International Conference on Technologies for Homeland Security. Waltham, MA, USA:IEEE, 2011:440-445.[DOI:10.1109/THS.2011.6107909]
  • [9] Zarei A, Mou D X. Artificial neural network for prediction of ethnicity based on iris texture[C]//Proceedings of the 11th International Conference on Machine Learning and Applications. Boca Raton, FL, USA:IEEE, 2012:514-519.[DOI:10.1109/ICMLA.2012.94]
  • [10] Qiu X C, Sun Z N, Tan T. Learning appearance primitives of iris images for ethnic classification[C]//Proceedings of 2007 IEEE International Conference on Image Processing. San Antonio, TX, USA:IEEE, 2007:Ⅱ-405-Ⅱ-408.[DOI:10.1109/ICIP.2007.4379178]
  • [11] Zhang H, Sun Z N, Tan T, et al. Ethnic classification based on iris images[C]//Proceedings of the 6th Chinese Conference on Biometric Recognition. Beijing, China:Springer, 2011:82-90.[DOI:10.1007/978-3-642-25449-9_11]
  • [12] Sun Z N, Zhang H, Tan T N, et al. Iris image classification based on hierarchical visual codebook[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(6): 1120–1133. [DOI:10.1109/TPAMI.2013.234]
  • [13] Wang Y, Liao H F, Feng Y, et al. Do they all look the same? Deciphering Chinese, Japanese and Koreans by fine-grained deep learning[J]. arXiv preprint arXiv:1610.01854, 2016.
  • [14] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA:IEEE, 2014:580-587.[DOI:10.1109/CVPR.2014.81]
  • [15] Sharif R A, Azizpour H, Sullivan J, et al. CNN features off-the-shelf:an astounding baseline for recognition[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Columbus, OH, USA:IEEE, 2014:512-519.[DOI:10.1109/CVPRW.2014.131]
  • [16] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland:Springer, 2014:818-833.[DOI:10.1007/978-3-319-10590-1_53]
  • [17] Donahue J, Jia Y Q, Vinyals O, et al. DeCAF:a Deep convolutional activation feature for generic visual recognition[C]//Proceedings of the 31st International Conference on Machine Learning. Beijing, China:ACM, 2014, 32:647-655.
  • [18] Branson S, Van Horn G, Belongie S, et al. Bird species categorization using pose normalized deep convolutional nets[J]. arXiv preprint arXiv:1406.2952, 2014.
  • [19] Krause J, Jin H L, Yang J C, et al. Fine-grained recognition without part annotations[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA:IEEE, 2015:5546-5555.[DOI:10.1109/CVPR.2015.7299194]
  • [20] Xiao T J, Xu Y C, Yang K Y, et al. The application of two-level attention models in deep convolutional neural network for fine-grained image classification[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA:IEEE, 2015:842-850.[DOI:10.1109/CVPR.2015.7298685]
  • [21] Zhang N, Donahue J, Girshick R, et al. Part-based R-CNNs for fine-grained category detection[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland:Springer, 2014:834-849.[DOI:10.1007/978-3-319-10590-1_54]
  • [22] Cimpoi M, Maji S, Vedaldi A. Deep filter banks for texture recognition and segmentation[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA:IEEE, 2015:3828-3836.[DOI:10.1109/CVPR.2015.7299007]
  • [23] Chatfield K, Simonyan K, Vedaldi A, et al. Return of the devil in the details:delving deep into convolutional nets[C]//Proceedings of the British Machine Vision Conference, 2014.
  • [24] Zhu S C, Guo C E, Wang Y Z, et al. What are textons?[J]. International Journal of Computer Vision, 2005, 62(1-2): 121–143. [DOI:10.1023/B:VISI.0000046592.70770.61]
  • [25] Perronnin F, Sánchez J, Mensink T. Improving the fisher kernel for large-scale image classification[C]//Proceedings of the 11th European Conference on Computer Vision. Heraklion, Crete, Greece:Springer, 2010:143-156.[DOI:10.1007/978-3-642-15561-1_11]
  • [26] Vedaldi A, Fulkerson B. VLFeat:an open and portable library of computer vision algorithms[C]//Proceedings of the 18th ACM International Conference on Multimedia. Firenze, Italy:ACM, 2010:1469-1472.[DOI:10.1145/1873951.1874249].
  • [27] He Z F, Tan T N, Sun Z N, et al. Toward accurate and fast iris segmentation for iris biometrics[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(9): 1670–1684. [DOI:10.1109/TPAMI.2008.183]