发布时间: 2022-08-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210177
2022 | Volume 27 | Number 8

数据集论文

自然光普通摄像头的眼部分割及特征点定位数据集ESLD

张俊杰, 孙光民, 郑鲲, 李煜, 付晓辉, 慈康怡, 申俊杰, 孟凡超, 孔江萍, 张玥

北京工业大学, 北京 100024

收稿日期: 2021-03-18; 修回日期: 2021-07-12; 预印本日期: 2021-07-19

基金项目: 北京市教委科研计划项目(SZ202110005002)；北京市自然科学基金项目(4192005)

作者简介: 张俊杰，1993年生，男，博士研究生，主要研究方向为图像处理、模式识别、智能教育。E-mail：442861240@qq.com
孙光民，男，教授，主要研究方向为神经网络、图像处理与模式识别。E-mail: gmsun@bjut.edu.cn
郑鲲，通信作者，男，副教授，主要研究方向为智能教育、图像处理、神经网络。E-mail：zhengkun@bjut.edu.cn
李煜，男，副教授，主要研究方向为合成孔径雷达(SAR) 图像处理、城市和海洋遥感、多源信息融合、模式识别、深度学习及其在图像和信号处理中的应用。E-mail: yuli@bjut.edu.cn
付晓辉，女，硕士研究生，主要研究方向为图像处理在图像拼接中的应用。E-mail: 442861240@qq.com
慈康怡，女，硕士研究生，主要研究方向为模式识别与图像信息处理。E-mail: cikangyi@emails.bjut.edu.cn
申俊杰，男，硕士研究生，主要研究方向为模式识别与图像信息处理。E-mail: 1137117687@qq.com
孟凡超，男，硕士研究生，主要研究方向为间歇过程的故障诊断。E-mail: 1357928625@qq.com
孔江萍，女，硕士研究生，主要研究方向为模式识别与图像信息处理。E-mail: kongjp@emails.bjut.edu.cn
张玥，男，硕士研究生，主要研究方向为间歇过程在线监控。E-mail: 1335905986@qq.com
*通信作者: 郑鲲 zhengkun@bjut.edu.cn

中图法分类号: TP182

文献标识码: A

文章编号: 1006-8961(2022)08-2329-15

摘要

目的眼部状态的变化可以作为反映用户真实心理状态及情感变化的依据。由于眼部区域面积较小，瞳孔与虹膜颜色接近，在自然光下利用普通摄像头捕捉瞳孔大小以及位置的变化信息是当前一项具有较大挑战的任务。同时，与现实应用环境类似的具有精细定位和分割信息的眼部结构数据集的欠缺也是制约该领域研究发展的原因之一。针对以上问题，本文利用在普通摄像头场景下采集眼部图像数据，捕捉瞳孔的变化信息并建立了一个眼部图像分割及特征点定位数据集(eye segment and landmark detection dataset, ESLD)。方法收集、标注并公开发布一个包含多种眼部类型的图像数据集ESLD。采用3种方式采集图像：1)采集用户使用电脑时的面部图像；2)收集已经公开的数据集中满足在自然光下使用普通摄像机条件时采集到的面部图像；3)基于公开软件UnityEye合成的眼部图像。3种采集方式可分别得到1 386幅、804幅和1 600幅眼部图像。得到原始图像后，在原始图像中分割出眼部区域，将不同尺寸的眼部图像归一化为256×128像素。最后对眼部图像的特征点进行人工标记和眼部结构分割。结果 ESLD数据集包含多种类型的眼部图像，可满足研究人员的不同需求。因为实际采集和从公开数据集中获取真实眼部图像十分困难，所以本文利用UnityEye生成眼部图像以改善训练数据量少的问题。实验结果表明，合成的眼部图像可以有效地弥补数据量缺少的问题，$ {\rm{F1}}$值可达0.551。利用深度学习方法分别提供了眼部特征点定位和眼部结构分割任务的基线。采用ResNet101作为特征提取网络情况下，眼部特征点定位的误差为5.828, 眼部结构分割的mAP (mean average precision)可达0.965。结论 ESLD数据集可为研究人员通过眼部图像研究用户情感变化以及心理状态提供数据支持。

关键词

真实环境; 瞳孔分割; 特征点检测; 身份识别; 在线教育; 数据集

ESLD: eyes segment and landmark detection in the wild

Zhang Junjie, Sun Guangmin, Zheng Kun, Li Yu, Fu Xiaohui, Ci Kangyi, Shen Junjie, Meng Fanchao, Kong Jiangping, Zhang Yue

Beijing University of Technology, Beijing 100024, China

Supported by: Scientific Research Plan of Beijing Education Commission(SZ202110005002);Beijing Municipal Natural Science Foundation (4192005)

Abstract

Objective Human eyes physiological features are challenged to be captured, which can reflect health, fatigue and emotion of human behaviors. Fatigue phenomenon can be judged according to the state of the patients' eyes. The state of the in-class students' eyes can be predicted by instructorsin terms of students' emotion, psychology and cognitive analyses. Targeted consumers can be recognized through their gaze location when shopping. Camera shot cannot be used to capture the changes in pupil size and orientation in the wild. Meanwhile, there is a lack of eye behavior related dataset with fine landmarks detection and segment similar to the real application scenario. Near-infrared and head-mounted cameras could be used to capture eye images. Light is used to distinguish the iris and pupil, which obtain a high-quality image. Head posture, illumination, occlusion and user-camera distance may affect the quality of image. Therefore, the images collection in the laboratory environment are difficult to apply in the real world. Method An eye region segmentation and landmark detection dataset can resolve the issue of mismatch results between the indoor and outdoor scenarios. Our research focuses on collection and annotation of a new eye region segment and landmark detection dataset (eye segment and landmark detection dataset, ESLD) in constraint of dataset for fine landmark detection and eye region, which contain multiple types of eye. First, facial images are collected. There are three ways to collect images, including the facial images of user when using the computer, images in the public dataset captured by the ordinary camera and the synthesized eye images, respectively. The number of images is developed to 1 386, 804 and 1 600, respectively. Second, eye region is cut out from the original image. Dlib is used to detect landmarks and eye region is segmented according to the labels of the completed face images involved. For an incomplete face images, eye region should be segment artificially. And then, all eye region images are normalized in 256×128 pixels. The eye region images are restored in a folder according to the type of acquisitions. Finally, annotators are initially to be trained and manually annotated images labels followed. In order to reduce the label error caused by human behavior factors, each annotator selects four images from each type of image for labeling. An experienced annotator will be checked after the landmarks are labeled and completed. The remaining images can be labeled when the annotate standard is reached. Each landmarks location is saved as json file and labelme is used to segment eye region derived the json file. A total of 2 404 images are obtained. Each image contains 16 landmarks around eyes, 12 landmarks around iris and 12 pupil surrounded landmarks. The segment labels are relevant to sclera, iris, and pupil and skip around eyes. Result Our dataset is classified into training, testing and validation sets by 0.6∶0.2∶0.2. Our demonstration evaluates the proposed dataset using deep learning algorithms and provides baseline for each experiment. First, the model is trained by synthesized eye images. An experiment is conducted to recognize whether the eye is real or not. Our analyzed results show that model cannot recognize real and synthesis accurately, which indicate synthesis eye images can be used as training data. And, deep learning-based algorithms are used to eye region segment. Mask region convolutional neural network(Mask R-CNN) with different backbones are used to train the model. It shows that backbones with deep network structure can obtain high segment accuracy under the same training epoch and the mean average precision (mAP) is 0.965. Finally, Mask R-CNN is modified to landmarks detection task. Euclidean distance is used to test the model and the error is 5.828. Compared to eye region segment task, it is difficult to detect landmarks due to the small region of the eye. Deep structure is efficient to increase the accuracy of landmarks detection with eye region mask. Conclusion ESLD is focused on multiple types of eye images in a real environment and bridge the gaps in the fine landmarks detection and segmentation in eye region. To study the relationship between eye state and emotion, a deep learning algorithm can be developed further based on combining ESLD with other datasets.

Key words

in the wild; pupil segment; landmark detection; user identification; E-learning; dataset

0 引言

眼睛是心灵的窗户，已有研究表明，瞳孔大小的变化可以反映用户的健康状态、心理状态、情绪波动以及认知水平的变化(Kawai等，2013)。在医学领域，瞳孔状态对疾病的预防和诊断具有重要意义。比如通过测量患者瞳孔位置可以判断斜视程度。可以通过观测瞳孔大小对出现中毒现象或患有某些疾病的患者进行初步诊断(Wong等，2019)。但是当前对于瞳孔状态的判断需要医生通过经验进行自主诊断，主观性较强。在教育领域，通过对学生学习时瞳孔变化的分析，可了解学生们的兴趣点(Magill和Roy，2010)。近年来，随着在线教育的发展，传统课堂逐渐向线上教育发展。线上教育具有一对多的特点，当学生过多时，教师无法实时观测到所有学生的学习状态。通过采集学生上课时的视频，对视频进行分析，从而判断学生的上课状态以及知识的掌握情况。表情可伪装性较强，即使学生不能理解所学内容也可以做出具有迷惑性的表情，从而影响老师的判断。相比于表情，瞳孔的可伪装性较弱。因此，通过结合眼部信息，可以更加准确地对学生的上课状态进行判断(张俊杰等，2020)。如何在无专业设备和附加光源辅助情况下对瞳孔变化进行分析成为亟待解决的问题。

尽管对瞳孔状态的研究已经进行了相当长的一段时间，但是相关应用却一直难以实现。主要原因是瞳孔仅在脸部占有很小的一部分，在实际生活中佩戴眼镜、反光以及睫毛的遮挡更增加了瞳孔观测的困难。特别是瞳孔与虹膜颜色接近，更是增加了观察的难度。已有的瞳孔数据集与实际生活中的图像相差较大。大部分的数据是在理想条件下采集得到的。如CASIA.V1(Chinese Academy of Sciences Institute of Automation Iris Image Database version 1.0)(Ma等，2004)、CASIA.V2(Chinese Academy of Sciences Institute of Automation Iris Image Database version 2.0)(Sun和Tan，2009)。这些数据集中的图像去除了影响图像质量的噪声因素，虹膜均匀地分布在图像中，瞳孔清晰，图像质量高。但是在真实环境下，影响图像质量的因素很多，该种类型的数据不能在实际中得到应用。为了解决上述问题，出现了许多增加噪声因素的数据集。

CASIA.V3(Chinese Academy of Sciences Institute of Automation Iris Image Database version 3.0)(He等，2009)是第1个增加了噪声因素的数据集，该数据集通过改变光照强度增加了数据的多样性。数据集包括22 034幅图像，图像具有320×280像素和640×480像素两个分辨率。为了能够更加适用于真实的环境，以CASIA.V3为基础提出了CASIA.V4(Chinese Academy of Sciences Institute of Automation Iris Image Database version 4.0)(Tan等，2010)数据集，该数据集由2 576幅分辨率为2 352×1 728像素的图像组成。与CASIA.V3相比，增加了更多影响图像质量的噪声信息。比如采集用户移动过程中的图像、用户与摄像机距离不同情况下的图像以及质量较差的图像。CASIA.V4数据集不仅包括真实的眼部图像，同时还包括合成的眼部图像，为真、假识别任务提供了数据支持。ICE (iris challenge evaluation) 2005 (Phillips等，2008)数据集由132名志愿者采集2 953幅图像组成，图像分辨率为480×640像素。在图像采集过程中，使用外加光源增加眼周的亮度，从而提升图像的清晰度，该数据集考虑了睫毛的遮挡以及斜视情况。ICE 2006(Phillips等，2010)是对ICE 2005数据集的扩展，在专业人员指导的情况下对240名志愿者采集59 558幅图像，图像分辨率为480×640像素。为了增加图像清晰度，使用光源进行辅助。MMU(Multimedia University) 1数据集中的460幅图像对用户与摄像机的距离有要求，需要用户与摄像机的距离在7~25 cm。MMU 2对100名志愿者进行数据采集，增大了用户与摄像机的距离，用户与摄像机的距离在47~53 cm范围内进行变动。同时考虑了眼睫毛与眼睛位置变动对数据质量的影响。WVU(West Virginia University)(Shah和Ross，2006)数据集包括380名志愿者采集到的1 852幅虹膜图像。该数据集考虑了更多影响图像质量的因素，包括眼睛斜视、摄像机聚焦不良、环境光的反射、图像的旋转以及睫毛等遮挡物的影响。通过对以上这些数据集进行分析可以发现，在采集数据的过程中增加了人工的指导，影响图像质量的因素较少，更加关键的是图像均利用红外摄像机采集得到。与利用红外摄像机采集图像不同，LPW(labelled pupils in the wild)(Tonsen等，2016)数据集由视频组成，22名志愿者佩戴先进的头戴式摄像机，采集场景包括室内和室外，在无外部光源辅助的情况下，采集眼部活动时的视频。22名志愿者来自不同的种族，志愿者中包含有佩戴眼镜，佩戴美瞳以及化妆等情况。以上数据集中的图像均利用近红外摄像机或头戴式摄像机等专业设备采集眼部图像，同时需要眼部与摄像机在较近的距离之内。利用专业设备无疑会限制实际的应用。眼部与摄像机距离过近也会限制实际应用的场景。为了尽可能地与实际应用场景相一致，Dobeš等人(2006)提出了UPOL(Univerzita Palackeho V Olomouc)数据集。UPOL是第1个利用可见光作为辅助光源的数据集。该数据集由64名志愿者的384幅图像组成，图像分辨率为576×768像素。但是需要在近距离内采集眼部图像，因此也不适合于实际应用。UBIRIS.V1(University of Beira Interior version 1.0)(Proença和Alexandre，2005)数据集由241名志愿者总计1 877幅眼部图像组成，该数据集中包含了运动模糊、聚焦模糊、眼睑和睫毛的遮挡以及闭眼等情况，眼睛与摄像机的距离需要小于50 cm。UBIRIS.V2 (University of Beira Interior version 2.0)(Proença等，2010)数据集是最接近实际应用情况的数据集。包含有11 102幅眼部图像，使用可见光摄像机在有光源辅助的情况下采集图像，图像采集距离为4~8 m。在对用户无任何限制的情况下，通过改变用户与摄像机的距离，采集用户移动过程中图像的方式增加图像的多样性。在2021年，德国图宾根大学的研究人员创建了迄今为止全球最大的人眼图像公开数据集TEyeD(Fuhl等，2021)。该数据集包含超过2 000万幅的眼部图像，为现代虚拟现实(virtual reality, VR)和增强现实(augmented reality, AR)应用中计算机视觉、眼动追踪和注视估计领域的研究提供了独特且一致的资源和良好的基础。但是该数据集使用7种分辨率不同的眼动追踪器采集眼部图像，眼部图像清晰。并且由于需要佩戴专业设备，限制了应用的范围。通过对已有数据集进行分析可以发现，由于眼部结构的特点，瞳孔较小并且颜色与虹膜接近，因此为了能够采集到清晰的眼部图像，从而对瞳孔进行分析，需要利用专业设备在近距离范围内采集眼部数据，或者在外部光源辅助的情况下利用可见光摄像头采集眼部数据。实际生活中，人们在使用电脑或者手机等便携设备浏览信息时，光强过强将会影响用户体验，并且这类设备仅配备有普通摄像头。因此，在自然光条件下，如何利用普通摄像头通过瞳孔的变化对用户的情绪以及状态进行分析成为亟待解决的问题。

此外，瞳孔大小的变化可以为判断情绪变化提供数据支持。但是，已有数据集无法提供瞳孔位置变化的信息。面部特征点的运动可以用来表征面部表情的变化，从而反映用户情绪的变化。研究机构提出了不同的特征点检测模型，如表 1所示。通过表 1可以发现，已有特征点检测模型仅对眼周区域进行特征点的标定，如PUT和HELEN数据集分别对每张图片中左、右眼周围标定了20个特征点。少部分数据集包含了对瞳孔的标定，如BioID数据集对每只眼睛的内眼角、外眼角以及瞳孔进行了标定。但是还没有数据集对自然光下普通摄像头采集到的眼睛部位的瞳孔周围以及虹膜周围进行精细的特征点标定。这在一定程度上制约了基于普通摄像头对眼睛状态分析的发展。

表 1 特征点标定数据集
Table 1 Landmark detection datasets

下载CSV

数据集	参考文献	图像数量/幅	特征点总数	眼部特征点数量
COFW	Burgos-Artizzu等人(2013)	1 852	29	5+5=10
Ibug300 W	Sagonas等人(2016)	4 000+	68	6+6=12
BioID	Jesorsky等人(2001)	1 521	20	3+3=6
3DFAW	Jeni等人(2016)	10 000+	66	6+6=12
AFLW	Köstinger等人(2011)	25 993	21	3+3=6
LFPW	Belhumeur等人(2013)	1 432	29	5+5=10
HELEN	Kazemi和Sullivan(2014)	2 330	194	20+20=40
IMM	Stegmann等人(2003)	240	58	8+8=16
MUG	Aifanti等人(2010)	401	80	8+8=16
XM2VTS	Messer等人(1999)	2 360	68	6+6=12
BUHMAP-DB	Aran等人(2007)	2 880	58	8+8=16
MUCT	Milborrow等人(2010)	3 755	76	9+9=18
PUT	Kasiński等人(2008)	9 971	194	20+20=40
WFLW	Wu等人(2018)	10 000	98	9+9=18
注：最后一列表示左眼+右眼的特征点总数，COFW（Caltech Occluded Faces in the Wild）；Ibug300（W-300 Faces In-The-Wild Challenge）；3DFAW（3D face alignment in the wild）；AFLW（Annotated Facial Landmarks in the Wild）；IMM（Informatics and Mathematical Modelling）；MUG(Multimedia Understanding Group)；XM2VTS(Extended Multi Modal Verification for Teleservices and Security applications)；BUHMAP-DB(Boǧaziçi University Head Motion Analysis Project Database)；MUCT(Milborrow/University of Cape Town)；WFLW(Wider Facial Landmark in the Wild)。

根据对已有虹膜检测数据集和特征点定位数据集分析可以发现，当前还没有数据集可将眼睛结构分割和眼部特征点的精细定位进行统一。本文提出一个建立在自然光环境下利用普通摄像头采集得到的眼部图像分割和特征点定位数据集(eye segment and landmark detection dataset, ESLD)。该数据集包含用户浏览网络信息时的图像、人工合成的眼部区域图像以及筛选出的当前已有数据集中满足自然光和普通摄像头两个条件下的图像。对所有满足条件的图像汇总后进行处理，提取眼部区域。ESLD数据集包含真实眼部图像以及合成眼部图像，因此该数据集是一个可以进行真、假图像检测的数据集。另外，该数据集中包含用户实际使用电脑过程中的数据，因此包含多种真实噪声，如佩戴眼镜、眼镜反光、佩戴美瞳和光线暗淡等。这更符合实际应用的需要，从而可以提高模型的泛化性和鲁棒性。

1 数据集

1.1 数据收集

数据集通过3种方式获得。第1种方式为分别在白天和傍晚两个时间段，采集6名学生使用电脑浏览屏幕内容时的视频，每段视频时长为5 min，共计12段视频。利用深度学习训练模型需要大量的数据，由于隐私等原因，大量获取到用户的眼部数据比较困难。因此，Wood等人（2016）开发了UnityEye(Park等，2018)，用于生成带有标签信息的眼部结构数据。第2种方式为利用UnityEye生成的模拟眼部结构图像。利用该种方式可以生成具有不同分辨率、不同光照强度、不同脸部朝向和不同瞳孔位置的图像。第3种方式为在已有数据集中，选择能够满足在自然光下使用普通摄像头采集到的图像。将以上3种方式获取到的图像进行汇总，形成ESLD数据集。

1.2 生成眼部图像

通过以上3种方式可以获得不同编码方式的视频与图像两种格式的原始数据，因此需要对视频进行相关处理。首先利用opencv将视频进行分帧处理，将每个视频帧保存为jpg格式的图像。由于不同视频在采集时帧率以及采集时间存在差异，因此将会得到不同数量的图像。

1.3 数据预处理及眼部图像分割

不同方式获取到的图像之间存在一定的差异性。因此需要利用不同的方式提取图像中的眼部区域。原始图像包括以下4种类型，如图 1所示。

图 1 原始图像类型

Fig. 1 Different original image type

((a)type 1;(b) type 2;(c)type 3;(d)type 4)

第1种类型的图像中包含了少部分的脸部区域，同时提供了眼部区域特征点的标定文件。特征点包括左、右眼的内角点、外角点以及瞳孔中心点。因此可以通过特征点的坐标确定眼部区域。但是，标定文件仅提供了有限个特征点的坐标，根据提供的坐标无法确定眼部区域的宽度，当宽度过小时眼部区域分割不完全。经过多次实验后确定左眼区域的宽度为$ Y_{{\rm{lefteye }}}^{{\rm{inner }}} + 30 - Y_{{\rm{lefteye }}}^{{\rm{outer }}} + 30$，长度为$ X_{{\rm{lefteye }}}^{{\rm{inner }}} + 30 - X_{{\rm{lefteye }}}^{{\rm{outer }}} + 30$, 其中，$ X_{{\rm{lefteye }}}^{{\rm{outer }}}$, $ Y_{{\rm{lefteye }}}^{{\rm{outer }}}$, $ X_{{\rm{lefteye }}}^{{\rm{inner }}} $和$ Y_{{\rm{lefteye }}}^{{\rm{inner }}} $分别代表左眼外角点的横坐标和纵坐标以及左眼内角点的横坐标和纵坐标。右眼区域的分割思想与左眼相同，右眼区域的宽度为$ Y_{{\rm{righteye }}}^{{\rm{outer }}} + 30 - Y_{{\rm{righteye }}}^{{\rm{inner }}} + 30$, 长度为$ X_{{\rm{righteye }}}^{{\rm{outer }}} + 30 - X_{{\rm{righteye }}}^{{\rm{inner }}} + 30$。其中，$ X_{{\rm{righteye }}}^{{\rm{outer }}}$, $ Y_{{\rm{righteye }}}^{{\rm{outer }}}$, $ X_{{\rm{righteye }}}^{{\rm{inner }}} $和$ Y_{{\rm{righteye }}}^{{\rm{inner }}} $分别代表右眼外眼角的横坐标和纵坐标以及右眼内眼角的横坐标和纵坐标。眼部图像分割结果如图 2(a)所示。

图 2 眼部图像分割结果

Fig. 2 Eye region segment results

((a)segment result 1;(b) segment result 2; (c) segment result 3;(d) segment result 4)

第2种类型的图像仅包含眼部区域。由于未提供眼部特征点标定文件，因此不能根据特征点的位置去除周围黑色背景信息。实验中发现，图像中黑色背景像素不为0，并且像素值会发生变化。因此在对图像进行遍历时，通过设置阈值的方式筛选出眼部区域。对于Multi-view Gaze(Lian等，2019)数据集中的图像，设置阈值为50，通过列表保存像素大于阈值时的坐标。图像是按照从左至右、从上至下的方式进行遍历，因此通过列表中记录的第1个和最后1个坐标可以确定眼部区域。此时眼部区域的长和宽分别为$ {X_{\rm{B}}} - {X_{\rm{T}}}$和$ {Y_{\rm{T}}} - {Y_{\rm{B}}}$，其中($ {X_{\rm{T}}}$, $ {Y_{\rm{T}}}$)为左上顶点坐标，($ {X_{\rm{B}}}$, $ {Y_{\rm{B}}}$)为右下顶点坐标。得到眼部图像后，以图像宽度的一半为界，分别对左、右眼部区域进行分割。分割结果如图 2(b)所示。

第3种图像为包含背景以及全部脸部的图像。当采集用户使用电脑过程中的图像时，用户与电脑的距离会影响阅读的体验。用户与电脑的距离在60~150 cm时可以清晰地观看到屏幕内容(Sun等，2020)。此时可以完整地采集到全部人脸。图像采集时对眼部姿态以及光照强度不进行任何限制。图像采集完成后，使用opencv和dlib对眼部区域进行检测。与opencv相比，dlib可检测到眼部区域的特征点，检测效果更好。利用dlib对脸部的68个特征点进行检测，左、右眼区域各检测6个特征点，包括1个外角点、1个内角点、2个上眼睑以及2个下眼睑特征点。通过内、外角点可确定眼部区域的长度。但是，由于用户的头部会发生左右偏转，因此需要通过计算得到特征点的位置关系。对于两个上眼睑特征点，选择纵坐标值更大的点作为基准点。而对于两个下眼睑特征点，选择纵坐标更小的点作为基准点。此时可得到眼部区域的宽度。由于不同图像间存在差异性，经过多次实验，在经过特征点定位后的图像区域四周分别扩大30个像素，分割结果如图 2(c)所示。

最后利用UnityEye自动生成图像，可以通过修改参数生成具有不同亮度、姿态以及瞳孔位置的眼部图像。在生成图像的同时会生成对应的参数文件，根据文件中的特征点坐标分割图像，分割结果如图 2(d)所示。不同分割方式得到的图像大小不同，因此所有图像被归一化为256×128像素。

1.4 数据标注

在图像中分割出眼部区域后，使用labelme(Russell等，2008)对归一化后的眼部图像进行特征点标定。为了避免个人判断带来的标定误差，由实验室多人共同进行标定工作。进行标定的人员共有6名，为了减少由于个体差异造成的标记差异问题，每名标记者在4种类型的图像中分别随机选择4幅进行标定，标定完成后，由一名标定经验丰富的人员对标定图像的质量进行判断。达到标准后，接着对剩余的图像进行人工标定。特征点标定位置如图 3所示。包括编号为1—16的眼周部位特征点(红色点)，编号为17—28的虹膜边缘特征点(黄色点)以及编号为29—40的瞳孔周围特征点(天蓝色点)。每幅图像标记完成后，标定结果保存成json文件。使用labelme根据json文件生成眼部分割结果，如图 3(c)所示，其中绿色为瞳孔，红色为虹膜，黄色为巩膜。

图 3 特征点标定及分割结果

Fig. 3 Eye region labeled and segment results

((a)landmarks location; (b) an example of landmarks location; (c)an example of eye segment)

2 数据统计

ESLD数据集除真实采集到的1 386幅眼部图像外，还包括已有数据集中的4种类型的2 404幅图像。其中，类型1图像305幅，类型2图像101幅，类型3图像398幅，类型4图像1 600幅。ESLD数据集中图像与已有数据集中图像对比结果如图 4所示。首先将数据集划分为3部分，60 % 作为训练集，20 % 作为测试集，20 % 作为验证集。每个类别的具体数量如表 2所示。对数据集进行统计，图像中包含亚洲人、欧洲人和美洲人等。年龄集中在18~45岁，包括44名男性，27名女性。其中17人佩戴眼镜，52人不佩戴眼镜，2人佩戴美瞳，71人眼睛正常，1 600幅模拟的眼部图像。ESLD数据集的详细组成信息如表 3所示。

图 4 ESLD数据集中每种类型的眼部图像与已有数据集对比

Fig. 4 Comparison of each type of images in ESLD dataset with existing datasets

((a)ESLD; (b)exiting datasets)

表 2 每种类型图像数量在训练集、测试集和验证集中的分布
Table 2 Distribution of sample size of each type of images in the training set, testing set and validation set

下载CSV

	类型1	类型2	类型3	类型4
训练集	183	60	240	960
测试集	61	21	79	320
验证集	61	20	79	320

表 3 ESLD数据集属性
Table 3 ESLD dataset attributes

下载CSV

属性	描述	属性	描述
图像数量/幅	2 404	图像格式	jpg
标注人员	7	佩戴眼镜/幅	504
未佩戴眼镜/幅	1 795	佩戴美瞳/幅	105

3 数据集基线

本文提出了ESLD数据集上的特征点定位和眼部结构分割的基线方法。根据ESLD数据集中图像种类的不同，将图像进行分类后可用于多种实际场景。

设计了3项具有实际应用价值的基准实验：1)数据集包含有真实眼部以及合成眼部图像，真实图像具有隐私性，生成逼真的眼部图像用于深度模型的训练，可以弥补训练数据不足的问题，给出了真假图像识别的基线。2)眼部状态的变化是多种因素共同作用的结果，利用眼部特征点的运动来表征眼部的变化，进行了特征点定位实验。3)眼部结构分割实验可为研究瞳孔变化与情绪变化提供数据支持。

实验使用python语言对图像进行预处理和深度学习模型的搭建。硬件配置为Inter(R) Core(TM) i7-8750H CPU, 主频2.21 GHz, NVIDIA GeForce GTX 2080显卡，16 GB内存，操作系统为Ubuntu, 集成环境为Anaconda Navigator，深度学习框架为Tensorflow。

3.1 真实与合成眼部数据基线

实际生活中，人脸图像具有很强的隐私性。另外，头部姿态、光照以及采集设备的差异会对图像质量造成影响。因此不易获得高质量的眼部分割图像。Wood等人(2016)在基于眼部外观的注视点检测任务中提出了UnityEye，使用UnityEye生成大量具有标记信息的眼部图像，从而解决了模型训练过程中数据量不足的问题。在训练过程中，提供的生成眼部图像与实际越接近，模型的训练效果越好。UnityEye可通过参数设置生成具有不同外观、头部姿态以及注视方向的眼部区域图像。为了消除由于人为主观选择而导致的数据偏差以及类间样本数量不平衡对模型分类准确率的影响，在真实眼部图像中随机选择与UnityEye生成的具有相同数量的图像。因此，在本文中分别选择1 600幅真实图像与生成图像。使用ResNet(residual nets)(He等，2016)、VGG(Visual Geometry Group)(Simonyan和Zisserman，2015)、DenseNet(dense convolutional network)(Huang等，2017)和GoogLeNet(Szegedy等，2015)等经典的卷积神经网络作为分类网络。标记人员对分割后的眼部图像进行筛选，如果图像中眼部未分割完全或包含面部其他部位，则将该幅图像删除。网络的输入为224×224像素，批次大小为30，初始学习率为0.01。在训练阶段进行了随机裁剪和旋转等数据增强操作。

利用精准率($ E_{\rm{precision}}$)、召回率($E_{\rm{recall}}$)、准确率($E_{\rm{accuracy}}$)以及$F1$值($E_{\rm{f1}}$)测试模型的分类性能，计算为

${E_{{\rm{precision }}}} = \frac{{TP}}{{TP + FP}}$

(1)

${E_{{\rm{recall }}}} = \frac{{TP}}{{TP + FN}}$

(2)

${E_{{\rm{accuracy }}}} = \frac{{TP + TN}}{{TP + FP + TN + FN}}$

(3)

${E_{{\rm{F}}1}} = \frac{{2 \times {E_{{\rm{recall }}}} \times {E_{{\rm{precision }}}}}}{{{E_{{\rm{recall }}}} + {E_{{\rm{precision }}}}}}$

(4)

式中，$ TP$为被正确划分为正例的个数，$ FP$为被错误划分为正例的个数，$ FN$为被错误划分为负例的个数，$ TN$为被正确划分为负例的个数。

表 4展示的是ESLD数据集真假眼部图像分类的基线。通过表 4可以发现，模型的分类准确率小于50 %，由此表明，模型不能准确地识别出生成眼部图像以及真实眼部图像。因此，仅通过准确率不能证明合成图像与真实图像接近，有可能将真实眼部图像识别为合成图像。接下来，分别计算模型的精确率和召回率。精确率是指预测为真实的眼部图像数量与所有预测结果为真实图像的比值。召回率是指预测为真实的眼部图像的数量占实际真实眼部图像的比率。通过分析精确率和召回率可以发现，模型将部分生成图像预测为真实眼部图像，结果表明生成图像与真实眼部图像在眼部结构具有相似性，生成是有效的。因此可以在训练数据中补充一定的生成图像解决训练数据不足的问题。

表 4 真实与合成眼睛图像分类结果
Table 4 Classification results on real and synthesis image

下载CSV

性能	ResNet	VGG	DenseNet	GoogLeNet
精准率/%	47.4	47.3	39.9	45.1
召回率/%	65.7	64.7	15.8	48.6
准确率/%	46.5	46.3	46.0	44.7
$ {\rm{F1}}$值	0.551	0.547	0.226	0.468

3.2 眼部结构分割实验

Mask R-CNN(region convolutional neural network)是多任务网络模型，可以实现目标检测、目标分类、目标分割和特征点定位任务，具有很好的通用性。ESLD数据集包含有眼部结构以及特征点，因此可利用Mask R-CNN完成以上两个任务。Mask R-CNN具有很强的灵活性，可以通过更换不同的特征提取网络从而提取不同的特征信息。同时，网络中融入了特征金字塔，使得网络可以提取不同尺度的信息。在眼部结构中，与虹膜和巩膜相比，瞳孔较小，不易检测。因此，包含有特征金字塔结构的网络模型适合于眼部结构分割任务。在模型的训练过程中，网络深度的增加会加大内存的消耗，为了适应不同的训练平台，分别选择ResNet34, ResNet50和ResNet101 3个模型作为特征提取网络，网络层数分别为34，50和101层。通过均值平均精度$ E_{\rm{mAP}}$、精准率$ E_{\rm{precision}}$、召回率$ E_{\rm{recall}}$、均值平均召回率($ E_{\rm{mAR}}$)、均值平均$ F1$值($ E_{\rm{mF1}}$)以及单幅图像的检测时间($ T$)等指标对模型的分割性能进行评价，即

${E_{{\rm{mAP}}}} = \frac{1}{{\left| {{Q_R}} \right|}}\sum\limits_{q \in {Q_R}} A P(q)$

(5)

${E_{{\rm{mAR}}}} = \frac{1}{N}\sum\limits_i^N {{\mathop{\rm recall}\nolimits} } (i)$

(6)

式中，$AP$为平均精确度，$N$为样本总数，$Q_{{R}}$为类别，$ recall(i)$为第$ i$类的召回率。

模型训练60轮(epochs)。为了研究图像类型的差异对模型分割效果的影响，分别测试4种类型下模型的分割效果。将4种类型的数据进行整合，对ESLD数据集中的所有数据进行训练。为了验证生成眼部图像对模型性能的影响，分别将生成的眼部图像与其他3种类型的图像进行混合，在相同训练轮次下得到模型的分割结果。分割结果如表 5所示。实验结果显示，对于不同类型的图像，随着模型深度的增加，可以学习到不同类型图像间的差异，基于单一类别的模型对该类别具有相似的性能。混合类别可以提高模型的性能，特别是对浅层模型性能提升较大。进一步表明了合成眼部图像可以提升模型的性能。通过以上实验表明，增加数据的丰富性有助于提高模型的分类性能。对ESLD数据集中的所有数据进行训练的分割基线如表 6所示。

表 5 不同类型下模型分割结果及合成图像对模型性能的影响
Table 5 Segmentation results on different type of images and the influence of synthetic images for model

下载CSV

类别	评价指标	图像类别	Backbone
类别	评价指标	图像类别	ResNet34	ResNet50	ResNet101
类型1	$E_{\rm{mAP}}$	单一类别	0.627	0.982	0.984
	$E_{\rm{mAP}}$	混合类别	0.899	0.987	0.972
	$E_{\rm{mAR}}$	单一类别	0.579	0.986	0.988
	$E_{\rm{mAR}}$	混合类别	0.898	0.989	0.990
	$E_{\rm{mF1}}$	单一类别	0.621	0.682	0.682
	$E_{\rm{mF1}}$	混合类别	0.668	0.683	0.679
类型2	$E_{\rm{mAP}}$	单一类别	0.208	0.967	0.969
	$E_{\rm{mAP}}$	混合类别	0.717	0.986	0.983
	$E_{\rm{mAR}}$	单一类别	0.216	0.972	0.971
	$E_{\rm{mAR}}$	混合类别	0.719	0.991	0.988
	$E_{\rm{mF1}}$	单一类别	0.280	0.678	0.679
	$E_{\rm{mF1}}$	混合类别	0.611	0.683	0.682
类型3	$E_{\rm{mAP}}$	单一类别	0.784	0.998	1.0
	$E_{\rm{mAP}}$	混合类别	0.715	1.0	1.0
	$E_{\rm{mAR}}$	单一类别	0.868	0.998	1.0
	$E_{\rm{mAR}}$	混合类别	0.729	1.0	1.0
	$E_{\rm{mF1}}$	单一类别	0.618	0.685	0.686
	$E_{\rm{mF1}}$	混合类别	0.599	0.686	0.686
类型4	$E_{\rm{mAP}}$	单一类别	0.819	1.0	1.0
	$E_{\rm{mAR}}$	单一类别	0.810	1.0	1.0
	$E_{\rm{mF1}}$	单一类别	0.638	0.686	0.686
注：混合类别代表某一类型图像与合成图像的混合，加粗字体表示每组最优结果。

表 6 ESLD数据集分割结果
Table 6 Segmentation results on ESLD dataset

下载CSV

		Mask R-CNN
		ResNet34	ResNet50	ResNet101
All	$E_{\rm{mAP}}$	0.538	0.965	0.918
	$E_{\rm{mF1}}$	0.502	0.678	0.667
	$E_{\rm{mAR}}$	0.550	0.970	0.932
	时间/s	0.37	0.46	0.50
虹膜	$E_{\rm{Precision}}$	0.74	0.81	0.84
	$E_{\rm{Recall}}$	0.90	0.67	0.77
	$E_{\rm{F1}}$	0.82	0.73	0.80
瞳孔	$E_{\rm{Precision}}$	1.00	0.99	0.99
	$E_{\rm{Recall}}$	0.82	0.96	0.96
	$E_{\rm{F1}}$	0.90	0.97	0.98
巩膜	$E_{\rm{Precision}}$	0.89	0.67	0.77
	$E_{\rm{Recall}}$	0.76	0.83	0.86
	$E_{\rm{F1}}$	0.82	0.74	0.81
注：All代表瞳孔+虹膜+巩膜，加粗字体表示每行最优结果。

通过表 6可以发现，随着模型深度的增加，对眼部结构的分割准确率得到提升，模型的鲁棒性更强。但是模型深度的增加使得单幅图像预测的时间更长。分别对瞳孔、虹膜以及巩膜的测试结果进行分析，对于瞳孔的分割效果最好，在该分割精度情况下，可以满足实际的需要。综合分割准确率、训练时间和预测时间3个因素，ResNet50为最优的特征提取网络。部分分割结果如图 5所示。其中，第1行为原始眼部图像，第2行为标定分割结果，第3—5行分别为基于不同特征提取网络情况下Mask R-CNN的分割结果。采用ResNet101作为特征提取网络得到的分割结果与标注结果最接近，同时错分割以及多分割的情况较少，而ResNet34作为特征提取网络得到的分割结果中，出现错分割以及多分割的情况较多。因此，在相同训练轮数情况下，特征提取网络模型的深度越深，最终得到的loss值越小，图像的分割效果越好。模型训练曲线如图 6所示。图 6(a)—(c)分别为ResNet101、ResNet50和ResNet34作为特征提取网络情况下模型的损失曲线结果。

图 5 眼部结构分割结果

Fig. 5 Sample results of eye region segment

((a)original images; (b)ground truth; (c)Mask R-CNN(ResNet101);(d)Mask R-CNN(ResNet50);(e)Mask R-CNN(ResNet34))

图 6 分割模型训练曲线

Fig. 6 Training curves on segment model results

((a)ResNet101;(b)ResNet50;(c)ResNet34)

3.3 眼部特征点定位实验

已有特征点检测数据集仅在眼周区域以及瞳孔中心进行特征点的标记，如LFPW(labeled face parts in the wild)和HELEN数据集。本文提出的ESLD数据集在眼部区域进行了精细的特征点标定。在眼部区域中包含有16个巩膜特征点，12个虹膜特征点以及12个瞳孔特征点。由于眼部区域很小，因此在小范围内对密集的特征点进行定位更具挑战性。

已有特征点检测工作多基于深度学习方法。与传统算法相比，深度学习算法对特征点检测具有更准确的定位结果。因此。在基准实验中，使用深度学习的方法对特征点进行检测。利用Mask R-CNN可以在最小限度修改的情况下从实例分割任务转化为特征点检测任务。在2017年，Mask R-CNN在相同运行速率(5帧/s)的情况下，在COCO(Microsoft common objects in context)特征点检测数据集上的准确率超过了2016年的冠军团队成果。通过提取每一个特征点的位置作为一个独热编码(one-hot)的二元掩膜，使用Mask R-CNN预测$ K$个掩膜，此时每一个特征点分别对应于$ K$个掩膜。特征点检测任务分为两种方式进行，第1种方式为仅利用原始特征点的位置对模型进行训练，第2种方式为结合特征点的掩膜对模型进行训练。特征提取网络为ResNet101和ResNet50。采用迁移学习的方式对模型进行训练。首先保持特征提取网络的其他结构参数不变，对head结构进行训练，训练批次为15。然后，保持特征提取网络stage 1到stage 3的结构参数不变，对其他部分结构进行训练，训练批次为10。最后，对整个特征提取网络进行5批次的训练。使用平均误差(mean error, $ E_{\rm{MD}}$)对模型进行评价，即

${E_{{\rm{MD}}}} = \frac{1}{K}\sum\limits_{i = 1}^k {\sqrt {{{\left({p_x^i - t_x^i} \right)}^2} + {{\left({p_y^i - t_y^i} \right)}^2}} } $

(7)

式中，$ {p_x^i}$为第$i$个特征点的预测横坐标，$ {t_x^i}$为第$i$个特征点的真实横坐标，$ {p_y^i}$为第$i$个特征点的预测纵坐标，$ {t_y^i}$为第$i$个特征点的真实纵坐标，$K$为特征点的个数。测试不同图像类型下眼部特征点的定位效果。模型训练批次为30，每轮迭代1 000次。特征点定位结果如表 7所示。

表 7 不同图像类型下特征点定位结果及合成图像对模型性能的影响
Table 7 Landmarks detection results on different type of images and the influence of synthetic images for model

下载CSV

类别	图像类别	Backbone
类别	图像类别	ResNet50	ResNet101
类型1	单一类别	12 306	11 385
类型1	混合类别	11.247	10.854
类型2	单一类别	12.486	11.854
类型2	混合类别	11.357	11.207
类型3	单一类别	15.786	15.478
类型3	混合类别	13.289	12.945
类型4	单一类别	15.752	15.014
注：混合类别代表某一类型图像与合成图像的混合。

实验结果显示，基于单一类别图像特征点的定位误差较大，由于类型3中包含了较多姿态变化的眼部图像，因此该种类型图像的定位误差最大。通过在单一类别眼部图像数据集中增加合成眼部图像，可以有效提高特征点定位的准确性。

将4种类型图像进行混合，从而增加训练数据的丰富性，特征点定位结果如表 8所示。

表 8 ESLD数据集特征点定位结果
Table 8 Landmarks detection results on ESLD dataset

下载CSV

图像		Mask R-CNN
		ResNet50		ResNet101
		1	1+2	1	1+2
	All	8.035	6.021	7.458	5.828
误差	虹膜	7.952	5.829	7.346	5.722
误差	瞳孔	7.540	6.058	7.210	5.228
	巩膜	9.032	6.546	8.714	6.191
注：1为特征点训练方式，2为掩膜训练方式，All代表瞳孔+虹膜+巩膜。

通过对表 8进行分析可以发现，特征提取网络的层数越多，特征点的定位结果越好，增加图像的类别可以有效地提高特征点的定位准确率。另外，通过结合图像的掩膜特征可以有效地提升特征点定位的准确性。因此结合图像的掩膜，采用更深的网络模型，可以提升特征点定位的准确性。眼部定位结果如图 7所示。通过模型训练结果曲线图(图 8)可以发现，结合图像的掩膜信息，可以使网络更容易收敛。在相同训练批次情况下，定位更加准确。

图 7 眼部特征点定位结果

Fig. 7 Sample results of landmarks detection

((a)original images; (b)ResNet101 mask; (c)ResNet50 mask; (d)ResNet101;(e)ResNet50)

图 8 关键点定位模型训练曲线

Fig. 8 Training curves of landmarks detection

((a)training curve based on ResNet101;(b)training curve based on ResNet50; (c)training curve based on the combination of ResNet101 and mask; (d)training curve based on the combination of ResNet50 and mask)

与眼部结构分割任务相比，特征点定位任务更加具有挑战性。眼部区域较小，特征点分布集中，另外，瞳孔边缘与虹膜边缘不明显，增加了特征点定位的难度。

4 结论

眼部外观变化对分析用户的情感、心理等具有十分重要的现实意义。真实环境下的眼部图像数据得到研究人员越来越多的关注。然而，当前还没有对普通摄像头采集到的眼部图像进行精细的特征点标记和分割的数据集。本文基于收集实际采集、合成的眼部图像，以及现有数据集中的图像，精细标记了一个眼部特征点定位和分割数据集ESLD。ESLD是一个多类型眼部结构数据集，包含自然光下普通摄像头采集到的眼部图像以及合成的眼部图像，通过ESLD数据集可进行多种实验。视频以及图像是在自然环境下采集得到的，因此包含多种眼部角度的变化、环境光照的变化、用户与采集设备间距离的变化以及多种条件的遮挡。实验表明生成眼部数据可以有效地克服训练数据不足的问题，与眼部结构分割相比，眼部特征点定位具有更大的难度。因此，在自然光下对普通摄像头采集到的眼部图像进行情感分析、身份识别具有很大的困难。建立一个自然环境下的眼部图像数据集是十分必要的。该数据集可为通过眼部状态对用户的身份进行识别以及对情感以及心理状态的研究提供数据支持。

ESLD数据集通过3种采集方式得到4种类型的面部图像。通过多种方式得到眼部图像，特别是选择出在自然光下普通摄像机采集到的人脸数据集，可以在一定程度上弥补眼睛全面性有限的问题。但是，本文提出的数据集仅采集健康用户眼部的图像，缺乏对患有眼部疾病患者眼部图像的采集，如眼颤和斜视，限制了模型的使用范围。在以后的工作中，可以采集更多健康用户不同眼部形态和不同光照等情况下的眼部图像，以及增加对于患有眼部疾病患者眼部图像的样本收集。

参考文献

Aifanti N, Papachristou C and Delopoulos A. 2010. The MUG facial expression database//Proceedings of the 11th International Workshop on Image Analysis for Multimedia Interactive Services WIAMIS 10. Desenzano del Garda, Italy: IEEE: 1-4

Aran O, Ari I, Guvensan A, Haberdar H, Kurt Z, Turkmen I, Uyar A and Akarun L. 2007. A database of non-manual signs in Turkish sign language//Proceedings of the 15th IEEE Signal Processing and Communications Applications. Eskisehir, Turkey: IEEE: 1-4[DOI: 10.1109/SIU.2007.4298708]

Belhumeur P N, Jacobs D W, Kriegman D J, Kumar N. 2013. Localizing parts of faces using a consensus of exemplars. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(12): 2930-2940 [DOI:10.1109/TPAMI.2013.23]

Burgos-Artizzu X P, Perona P and Dollár P. 2013. Robust face landmark estimation under occlusion//Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney, Australia: IEEE: 1513-1520[DOI: 10.1109/ICCV.2013.191]

Dobeš M, Martinek J, Skoupil D, Dobešová Z, Pospíšil J. 2006. Human eye localization using the modified Hough transform. Optik, 117(10): 468-473 [DOI:10.1016/j.ijleo.2005.11.008]

Fuhl W, Kasneci G and Kasneci E. 2021. TEyeD: over 20 million real-world eye images with Pupil, Eyelid, and Iris 2D and 3D Segmentations, 2D and 3D Landmarks, 3D Eyeball, Gaze Vector, and Eye Movement Types[EB/OL]. [2021-02-19]. https://arxiv.org/pdf/2102.02115v1.pdf

He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 770-778[DOI: 10.1109/CVPR.2016.90]

He Z F, Tan T N, Sun Z N, Qiu X C. 2009. Toward accurate and fast iris segmentation for iris biometrics. IEEE Transactions on Pattern Analysis and Machine Intelligence, 31(9): 1670-1684 [DOI:10.1109/TPAMI.2008.183]

Huang G, Liu Z, Van Der Maaten L and Weinberger K Q. 2017. Densely connected convolutional networks//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 2261-2269[DOI: 10.1109/CVPR.2017.243]

Jeni L A, Tulyakov S, Yin L J, Sebe N and Cohn J F. 2016. The first 3D face alignment in the wild (3DFAW) challenge//Proceedings of the European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 511-520[DOI: 10.1007/978-3-319-48881-3_35]

Jesorsky O, Kirchberg K J and Frischholz R W. 2001. Robust face detection using the hausdorff distance//Proceedings of the 3rd International Conference on Audio- and Video-Based Biometric Person Authentication. Berlin, Germany: Springer: 90-95[DOI: 10.1007/3-540-45344-X_14]

Kasiński A, Florek A, Schmidt A. 2008. The PUT face database. Image Processing and Communications, 13(3/4): 59-64

Kawai S, Takano H and Nakamura K. 2013. Pupil diameter variation in positive and negative emotions with visual stimulus//Proceedings of 2013 IEEE International Conference on Systems, Man, and Cybernetics. Manchester, UK: IEEE: 4179-4183[DOI: 10.1109/SMC.2013.712]

Kazemi V and Sullivan J. 2014. One millisecond face alignment with an ensemble of regression trees//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE: 1867-1874[DOI: 10.1109/CVPR.2014.241]

Köstinger M, Wohlhart P, Roth P M and Bischof H. 2011. Annotated facial landmarks in the wild: a large-scale, real-world database for facial landmark localization//Proceedings of 2011 IEEE International Conference on Computer Vision Workshops (ICCV Workshops). Barcelona, Spain: IEEE: 2144-2151[DOI: 10.1109/ICCVW.2011.6130513]

Lian D Z, Hu L N, Luo W X, Xu Y Y, Duan L X, Yu J Y, Gao S H. 2019. Multiview multitask gaze estimation with deep convolutional neural networks. IEEE Transactions on Neural Networks and Learning Systems, 30(10): 3010-3023 [DOI:10.1109/TNNLS.2018.2865525]

Ma L, Tan T N, Wang Y H, Zhang D X. 2004. Efficient iris recognition by characterizing key local variations. IEEE Transactions on Image Processing, 13(6): 739-750 [DOI:10.1109/TIP.2004.827237]

Magill J, Roy S. 2010. Chips for everyone: a multifaceted approach in electrical engineering outreach. IEEE Transactions on Education, 53(1): 114-119 [DOI:10.1109/TE.2009.2025267]

Messer K, Matas J, Kittler J, Luettin J and Maître G. 1999. XM2VTSDB: the extended M2VTS database//Proceedings of the 2nd International Conference on Audio- and Video-based Biometric Person Authentication. Washington, USA: [s. n.]: 965-966

Milborrow S, Morkel J and Nicolls F. 2010. The MUCT landmarked face database. Pattern Recognition Association of South Africa[EB/OL]. [2021-03-18]. http://www.milbo.org/muct

Phillips P J, Bowyer K W, Flynn P J, Liu X M and Scruggs W T. 2008. The iris challenge evaluation 2005//Proceedings of 2008 IEEE Second International Conference on Biometrics: Theory, Applications and Systems. Washington, USA: IEEE: 1-8[DOI: 10.1109/BTAS.2008.4699333]

Phillips P J, Scruggs W T, O'Toole A J, Flynn P J, Bowyer K W, Schott C L, Sharpe M. 2010. FRVT 2006 and ICE 2006 large-scale experimental results. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(5): 831-846 [DOI:10.1109/TPAMI.2009.59]

Proença H and Alexandre L A. 2005. UBIRIS: a noisy iris image database//Proceedings of the 13th International Conference on Image Analysis and Processing. Cagliari, Italy: Springer: 970-977[DOI: 10.1007/11553595_119]

Proença H, Filipe S, Santos R, Oliveira J, Alexandre L A. 2010. The UBIRIS. v2: a database of visible wavelength iris images captured on-the-move and at-a-distance. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(8): 1529-1535 [DOI:10.1109/TPAMI.2009.66]

Russell B C, Torralba A, Murphy K P, Freeman W T. 2008. LabelMe: a database and web-based tool for image annotation. International Journal of Computer Vision, 77(1/3): 157-173 [DOI:10.1007/s11263-007-0090-8]

Sagonas C, Antonakos E, Tzimiropoulos G, Zafeiriou S, Pantic M. 2016. 300 faces in-the-wild challenge: database and results. Image and Vision Computing, 47: 3-18 [DOI:10.1016/j.imavis.2016.01.002]

Shah S and Ross A. 2006. Generating synthetic irises by feature agglomeration//Proceedings of 2006 IEEE International Conference on Image Processing (ICIP). Atlanta, USA: IEEE: 317-320[DOI: 10.1109/ICIP.2006.313157]

Simonyan K and Zisserman A. 2015. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2021-01-30]. https://arxiv.org/pdf/1409.1556.pdf

Stegmann M B, Ersboll B K, Larsen R. 2003. FAME——a flexible appearance modeling environment. IEEE Transactions on Medical Imaging, 22(10): 1319-1331 [DOI:10.1109/TMI.2003.817780]

Sun G M, Zhang J J, Zheng K, Fu X H. 2020. Eye tracking and ROI detection within a computer screen using a monocular camera. Journal of Web Engineering, 19(7/8): 1117-1146 [DOI:10.13052/jwe1540-9589.19789]

Sun Z N, Tan T N. 2009. Ordinal measures for iris recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 31(12): 2211-2226 [DOI:10.1109/TPAMI.2008.240]

Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V and Rabinovich A. 2015. Going deeper with convolutions//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 1-9[DOI: 10.1109/CVPR.2015.7298594]

Tan T N, He Z F, Sun Z N. 2010. Efficient and robust segmentation of noisy iris images for non-cooperative iris recognition. Image and Vision Computing, 28(2): 223-230 [DOI:10.1016/j.imavis.2009.05.008]

Tonsen M, Zhang X C, Sugano Y and Bulling A. 2016. Labelled pupils in the wild: a dataset for studying pupil detection in unconstrained environments//The 9th Biennial ACM Symposium on Eye Tracking Research and Applications. Charleston, USA: ACM: 139-142[DOI: 10.1145/2857491.2857520]

Wong H K, Epps J, Chen S Y. 2019. Automatic pupillary light reflex detection in eyewear computing. IEEE Transactions on Cognitive and Developmental Systems, 11(4): 560-572 [DOI:10.1109/TCDS.2018.2880664]

Wood E, Baltrušaitis T, Morency L P, Robinson P and Bulling A. 2016. Learning an appearance-based gaze estimator from one million synthesised images//The 9th Biennial ACM Symposium on Eye Tracking Research and Applications. Charleston, USA: ACM: 131-138[DOI: 10.1145/2857491.2857492]

Wu W Y, Qian C, Yang S, Wang Q, Cai Y C and Zhou Q. 2018. Look at boundary: a boundary-aware face alignment algorithm//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City, USA: IEEE: 2129-2138[DOI: 10.1109/CVPR.2018.00227]

Zhang J J, Sun G M, Zheng K. 2020. Review of gaze tracking and its application in intelligent education. Journal of Computer Applications, 40(11): 3346-3356 (张俊杰, 孙光民, 郑鲲. 2020. 视线跟踪及其在智能教育中的应用研究综述. 计算机应用, 40(11): 3346-3356) [DOI:10.11772/j.issn.1001-9081.2020040443]