Print

发布时间: 2018-10-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170683
2018 | Volume 23 | Number 10




    医学图像处理    




  <<上一篇 




  下一篇>> 





糖尿病性视网膜图像的深度学习分类方法
expand article info 李琼, 柏正尧, 刘莹芳
云南大学信息学院, 昆明 650500

摘要

目的 糖尿病性视网膜病变(DR)是目前比较严重的一种致盲眼病,因此,对糖尿病性视网膜病理图像的自动分类具有重要的临床应用价值。基于人工分类视网膜图像的方法存在判别性特征提取困难、分类性能差、耗时费力且很难得到客观统一的医疗诊断等问题,为此,提出一种基于卷积神经网络和分类器的视网膜病理图像自动分类系统。方法 首先,结合现有的视网膜图像的特点,对图像进行去噪、数据扩增、归一化等预处理操作;其次,在AlexNet网络的基础上,在网络的每一个卷积层和全连接层前引入一个批归一化层,得到一个网络层次更复杂的深度卷积神经网络BNnet。BNnet网络用于视网膜图像的特征提取网络,对其训练时采用迁移学习的策略利用ILSVRC2012数据集对BNnet网络进行预训练,再将训练得到的模型迁移到视网膜图像上再学习,提取用于视网膜分类的深度特征;最后,将提取的特征输入一个由全连接层组成的深度分类器将视网膜图像分为正常的视网膜图像、轻微病变的视网膜图像、中度病变的视网膜图像等5类。结果 实验结果表明,本文方法的分类准确率可达0.93,优于传统的直接训练方法,且具有较好的鲁棒性和泛化性。结论 本文提出的视网膜病理图像分类框架有效地避免了人工特征提取和图像分类的局限性,同时也解决了样本数据不足而导致的过拟合问题。

关键词

糖尿病性视网膜图像分类; 卷积神经网络; 深度学习; 迁移学习; 深度特征

Automated classification of diabetic retinal images by using deep learning method
expand article info Li Qiong, Bai Zhengyao, Liu Yingfang
School of Information Science and Engineering, Yunnan University, Kunming 650500, China

Abstract

Objective Diabetic retinopathy(DR) is a serious eye disease that causes blindness.The retinal pathological image is an important criterion for diagnosing eye diseases, and the accurate classification of retinal images is a crucial step taken by doctors in developing personalized treatment plans.The automated classification of diabetic retinopathy images has significant clinical values.The traditional image classification methods based on manually extracted features have problems, including complex retinal image processing, discriminative features extraction difficulties, poor classification performance, time-consuming, and difficult objective and consistent diagnoses.In this paper, an improved deep convolutional neural network based on AlexNet and a deep classifier are proposed to realize automated diabetic retinopathy image classification. Method First, training the retinal samples is insufficient because retinal images contain much noise, and the differences between retinal pathological images at adjacent stages are small.These prevent the application of convolutional neural networks in retinal images classification, and retinal images should be preprocessed before they are used as training samples.Preprocessing mainly includes retinal image denoising, enhancement, and normalization.The small number of retinal images and data imbalance at different stages are solved by data enhancement.Second, the feature extraction network is designed based on the network structure of AlexNet.The data distribution is changed during the training process.Hence, a batch normalization layer is introduced before every convolutional layer and fully connected layer of the AlexNet network to produce a new deep network, which we call the BNnet network.The introduction of a batch normalization layer can accelerate the convergence of the network, improve the classification accuracy of the obtained model, and reduce the need for a dropout layer.The BNnet network is a complex deep convolutional neural network, which not only serves as a feature extraction network for retinal images but also effectively suppresses data distribution changes in the training process.In this work, the BNnet network is pre-trained using the ILSVRC2012 dataset based on the transfer learning strategy, and the obtained model is migrated to the enhanced diabetic retinopathy dataset for further study to capture the distinguishing features.Finally, a classifier is designed based on the fully connected layer, which can map the learned deep features to the sample label space.The classifier is composed of the fully connected, ReLU, and dropout layers and is applied in learning to partition a diabetic retinopathy status to no DR, mild DR, moderate DR, severe DR, and proliferative DR. Result We designed four groups of comparative experiments to fully describe the effects of the different depths of neural network and the different training methods, the introduced batch normalized layer, and data preprocessing of the experimental results.The experimental results show that the more layers the network has, the more features are learned with sufficient training samples, and the classification performance of the pre-trained network is better than the traditional direct training method.Moreover, the proposed BNnet neural network and training method can capture the differences of various stages of diabetic retinopathy with a classification accuracy of up to 93%, outperforming other methods.The introduction of the batch normalization layer can control the data distribution changes during the training process and improve the recognition rate.In the case of insufficient retinal image samples, the adoption of transfer learning and data enhancement strategies is good for extracting deep discriminative features for classification.Hence, a deep classifier that is composed of fully connected layers can accurately distinguish the stage when a retinal image is located, indicating that the obtained deep features based on BNnet and transfer learning can provide suitable information for classifiers to accurately classify retinal images into five categories. Conclusion We use deep learning methods to achieve the automatic classification of retinal images.We also present a new diabetic retinopathy classification framework that mainly benefits from three important components:the image preprocessing stage, the deep features extraction stage that is based on transfer learning strategies and BNnet neural networks, and the stable classification stage.Intensive dropout and ReLU are used to suppress the over-fitting problem of the deep learning algorithm when the training samples are insufficient.Experimental results show that deep features combined with the proposed methods can provide suitable information for the construction of the most accurate prediction mode, predict diabetic retinopathy status, and effectively avoid the limitations of manual feature extraction and image classification.This method has relatively better robustness and generalization, and it can be widely used for various image classification problems.In future studies, we will likely develop a real-time computer-aided diagnosis system for diabetic retina images based on the above mentioned approach.

Key words

diabetic retinopathy image classification; convolution neural network; deep learning; transfer learning; deep features

0 引言

糖尿病性视网膜病变(DR)的发病率和致盲率在全球范围内逐渐增加,据世界卫生组织(WHO)2016年公布的数据显示,全球糖尿病患者已经超4亿,其中大部分患者由糖尿病引起了视网膜病变。视网膜病理图像是医生诊断眼病处于哪个阶段的重要标准,并且对视网膜图像进行准确无误的分类是医生制定最佳治疗方案的重要依据。因此, 近几年来对视网膜病理图像的分类是医疗问题研究热点之一。

在视网膜病理图像分类问题中,提取具有代表性、有判别意义的特征是实现良好分类效果的关键因素。目前基于人工提取特征的分类方法, 主要有以下几个局限:

1) 图像的质量。采集的视网膜图像的质量容易受到光照、镜头、机器设备和图像采集人员的经验等其他许多不可控因素的影响;

2) 医生的个人经验。医生通常通过视觉检查视网膜图像来评估判定视网膜的病变程度,但是在视网膜病变图像中人眼识别出来的特征是有限的,而且由于医生的临床经验不同,对于同一幅视网膜图像,不同的医生可能给出不同的临床诊断结果;

3) 病理图像自身的特点。视网膜图像不同阶段之间的差异性很小,给特征提取和分类工作带来了一定困难。

因此,对视网膜图像的分类是一项非常具有挑战性的工作。尽管如此,在视网膜分类方面,丁蓬莉等人[1]采用CompactNet网络对视网膜图像进行自动分类。但是由于可用的已标记的视网膜图像数据不足,网络结构在训练的过程中并没有提取到充分的信息用于图像分类,因此分类准确率并不是很高。随着深度学习的发展,计算机辅助诊断成为一种新的医疗诊断方式并广泛地应用于医疗图像处理中。何雪英等人[2]采用深度学习的方法实现了乳腺癌病理图像的自动分类;Wu等人[3]基于无监督学习的方法设计了一个深度特征表达框架,该框架可以有效获得解剖结构上的本质特征并且可以灵活地应用于各类医疗图像检测分割中;Nguyen等人[4]基于深层卷积神经网络提出了一种新的多层神经网络学习系统,可以有效地学习图像特征,提高临床诊断的准确性;Guo等人[5]采用栈式自编码器学习MR图像的分层特征表示,有效地解决了医疗图像病变区域边界模糊和分布强度不一的问题,在医疗图像的分割上获得良好的效果;Miotto等人[6]提出了一种基于无监督深度特征学习的3层自动编码器结构,可以自动地从电子医疗记录中学习到某种疾病的通用特征并用于临床预测诊断建模。

受深度学习的研究工作的启发,本文设计一种更深层的卷积神经网络模型实现对视网膜图像的自动分类。该分类系统由图像预处理阶段、基于迁移学习策略的深度特征提取阶段和自动分类3个阶段组成。该分类系统可以有效地学习视网膜图像中有判别意义的深度特征,并将学习到的特征输入到分类器中将视网膜图像分为正常、轻微病变、中度病变等5个阶段。与人工的特征抽取方法相比,本文对AlexNet网络引进批归一化层并采用迁移学习的训练策略可以获得图像分类所需的深度特征,而基于全连接网络构成深层分类器对预测视网膜病理图像具有更好的鲁棒性。

1 本文方法

1.1 卷积神经网络

卷积神经网络(CNNs)是由卷积层、池化层和全连接层等组成的一个标准的多层神经网络结构。卷积神经网络可以从图像中学习到一些简单的局部特征,比如曲线、纹理等信息,而这些局部特征可以组合成复杂局部或者全局特征从而还原出对象,以此实现对图像的识别和分类。目前,卷积神经网络已经引进医疗图像分析领域,例如,对间质性肺病的分类[7], MR脑图像的自动分割等[8]

卷积层是卷积神经网络的主要组成部分,卷积层的主要任务是用一个可学习的卷积核去检测输入特征图不同位置的局部特征。在图像的分类任务中,图像先转化成矩阵作为卷积层的输入。首先,$l$-1层的第$i$个特征图和相应的可学习的矩阵卷积核$k_{ij}^l$进行卷积运算并将所有的结果进行累加,然后再加上一个偏置$b_{j}^l$送入非线性激活函数$f\left( \cdot \right)$,实现特征提取, 其计算公式为[9]

$ A_j^l = f\left( {\sum\limits_{i = 1}^{M\left( {l - 1} \right)} {A_i^{l - 1}*k_{ij}^l + b_j^l} } \right) $ (1)

式中,${M^{\left( {l - 1} \right)}}$表示$l$-1层的特征图的数量。本文模型中卷积层的卷积核大小分别为11×11、5×5和3×3像素,且所有卷积层都采用ReLU激活函数。池化层的主要任务是统计相邻域内的特征,逐步减少网络的训练参数,从而控制过拟合,加快训练速度。常用的池化算法包括最大池化算法和平均池化算法。在本文工作中,采用最大池化的计算方式,感受野全部设为3×3像素,步长为2。

1.2 迁移学习(TL)

在医学图像领域,缺乏大型公开已标记的数据集是将深度学习应用于医疗图像处理中的难题之一。在没有足够多训练样本的情况下,可能导致在训练过程中网络不收敛或者训练出来的模型泛化能力差等问题。而且在面对某一领域的具体分类问题时,很难满足训练数据和待分类数据具有相同分布的特征空间假设[10]。因此,基于迁移学习的深度特征提取为分类任务提供了巨大的优势。迁移学习的目标是将从一个环境中学习到的知识帮助新环境中的学习任务,能在不同任务之间进行知识共享和转移[11]。目前迁移学习的实现方法主要包括样本迁移、特征迁移、关系迁移和模型迁移。在本文中,为了解决视网膜病理图像数据量小,网络优化困难等问题,采用迁移学习的策略训练深度神经网络BNnet。即先用ILSVRC2012(包含120万幅自然图像和1 000个不同的类别)数据集对BNnet网络进行预训练,再将得到的模型迁移到视网膜数据集上进行微调学习。

1.3 批归一化(BN)

深度学习的本质是对数据分布的学习,然而神经网络在训练的过程中,各层的参数是随着反向传播等优化算法而进行更新,此时网络除了输入层的数据外,后面每一层的输入数据分布都是一直变化的。这种数据分布改变的逐层积累会导致网络整体训练精度低、收敛慢等问题。因此Loffe等人[12]在网络每一层的输入前插入一个批归一化层以解决数据分布改变的问题,即对有$d$维的$\mathit{\boldsymbol{x = }}\left( {{x^{\left( 1 \right)}} \cdots {x^{\left( d \right)}}} \right)$的输入数据,对每个批次的每一个维度进行归一化处理

$ {{\hat x}^{\left( k \right)}} = \frac{{{x^{\left( k \right)}} - E\left[ {{x^{\left( k \right)}}} \right]}}{{\sqrt {V\left[ {{x^{\left( k \right)}}} \right]} }} $ (2)

式中,$E\left( \cdot \right)\;$$V\left( \cdot \right)\;$是通过训练集计算得到。如果对某一层的输出数据只做上面的归一化处理,然后送入网络的下一层,这样势必会影响网络该层所学习到的特征。因此对网络层的每一个激活函数${{x^{\left( k \right)}}}$可引入一组可学习参数${\gamma ^{\left( k \right)}}$${\beta ^{\left( k \right)}}$进行变换重构

$ {y^{\left( k \right)}} = {\gamma ^{\left( k \right)}}{{\hat x}^{\left( k \right)}} + {\beta ^{\left( k \right)}} $ (3)

这些参数和原始模型的参数一起学习,且通过设置${\gamma ^{\left( k \right)}} = \sqrt {V\left[ {{x^{\left( k \right)}}} \right]} $${\beta ^{\left( k \right)}} = \sqrt {E\left[ {{x^{\left( k \right)}}} \right]} $时可以恢复某一层学到的原始特征。

2 数据集

2.1 数据集的简介

本文所使用的数据集来源于数据建模和数据分析竞赛平台(kaggle)中的Diabetic Retinopathy Detection比赛,该数据集中的视网膜图像都是高分辨率的RGB图像, 并根据病变程度将视网膜图像分为5类。如图 1所示, 图 1(a)对应健康的视网膜图像;图 1(b)对应轻微病变的视网膜图像;以此类推,图 1(e)对应增生性病变的视网膜图像。

图 1 视网膜图像示例
Fig. 1 Retinal image samples
((a) no DR; (b) mild DR; (c) moderate DR; (d) severe DR; (e) proliferative DR)

图 1可以看出,视网膜图像病变的第1阶段和第2阶段、第2阶段和第3阶段等相邻阶段之间的差异并不明显,因此人为地进行特征提取并进行图像分类可能会导致相互误判。该视网膜数据集在各个阶段的图像数统计分布如图 2所示,从图 2中可以看出各类视网膜图像之间数据量严重的不平衡。

图 2 数据集分类图
Fig. 2 Data set classification

此外, 在该数据集中,由于图像采集时镜头、光照等其他因素的影响,各阶段的图像中都含有各种严重的噪声。本文列出数据集包含的一部分典型噪声图像,如图 3所示。图 3(a)是由镜头引起的第1类噪声;图 3(b)是由光照引起的第2类噪声;图 3(c)是没有任何纹理结构信息的图像,为第3类噪声;图 3(d)是由光线太暗引起的第4类噪声。

图 3 噪声图像示例
Fig. 3 Noise image samples
((a) the first type; (b) the second type; (c) the third type; (d) the fourth type)

2.2 数据集的预处理

由2.1节的数据集简介可知,所获得的视网膜图像存在噪声污染严重、数据量小、分辨率高且各类数据之间严重不平衡的问题,因此不能直接用于网络训练。视网膜图像作为神经网络的训练样本之前需要进行一系列的预处理操作。

2.2.1 数据的筛选和归一化处理

进行图像预处理时,1)首先剔除数据集中完全被噪声污染,没有任何意义的图像,如图 4(a)所示;2)对数据集里的所有图像,切除没用的黑边框,如图 4(b)所示;3)对偏暗的图像进行直方图均衡化,改善由光线引起的噪声问题,如图 4(c)所示;4)对视网膜图像做归一化处理,如图 4(d)所示。数据归一化是为了在训练的过程中可以加速网络的收敛、达到更好训练效果而对样本的统计特性进行归纳统一,本文采用的是线性函数转化方法, 具体转化公式为

$ y = \left( {x - {V_{\min }}} \right)/\left( {{V_{\max }} - {V_{\min }}} \right) $ (4)

图 4 图像的预处理示例
Fig. 4 Image preprocessing samples
((a) delete meaningless images; (b) cut the black border; (c) image histogram equalization; (d) image normalization)

式中,$x$是转化前的值,$y$是转换后的值,${{V_{\max }}}$${{V_{\min }}}$分别对应图像中的最大值和最小值。

2.2.2 数据增强

由于视网膜的数据量小且各阶段之间的图像数极度不平衡,为了避免模型的测试结果偏向某一个类别,因此在对网络进行训练之前首先对数据集进行数据扩增。本文在视网膜原数据集的基础上,对图像进行旋转45°/90°/180°、裁剪、往上下左右4个方向各平移30%、水平方向做镜像及这些操作的组合,通过该操作使得训练样本数量由原来的30 k增加到100 k左右,并且将样本数目少的类别向样本数目多的类别靠齐解决了数据不平衡的问题。

2.3 特征分析

最近研究表明热度图可以有效地用于图像特征分析[13]。因此,本文提取各阶段视网膜图像感兴趣的区域,并获得该区域的热度图来可视化不同阶段的糖尿病性视网膜病变之间的差异,以分析提取的深度特征能否为视网膜的分类提供充分的信息。如图 5所示,图 5(a)-(e)分别对应视网膜各个阶段的热度图。

图 5 视网膜图像5个阶段的热度图示例
Fig. 5 Heat map samples for five different stages of retinal images
((a) no DR; (b) mild DR; (c) moderate DR; (d) severe DR; (e) proliferative DR)

图 5可以看出,不同阶段的视网膜图像在结构、纹理等信息上都会有所不同,随着这些信息的改变,热度图中的颜色及亮度信息也会发生改变。因此,视网膜图像的分类问题可以视为一个模式识别的任务,包括特征提取和分类两个阶段。利用热度图对视网膜图像的分析为本文的特征提取器和分类器的设计提供了有效的依据。下面首先介绍基于迁移学习和BNnet网络的深度特征提取,再介绍如何基于已提取的深度特征对视网膜图像进行分类。

3 模型设计

3.1 基于迁移学习的深度特征提取框架

在实验中,为了避免网络在训练的过程中由于数据分布的改变导致收敛速度慢、分类准确率低等问题,本文在AlexNet网络的基础上对每个卷积层和全连接层前引入批归一化层得到一个BNnet网络,其结构如图 6所示,其中在每个批归一化层后面都紧跟一个ReLU层以保证神经网络在训练过程中的非线性。BNnet是一个复杂的深度卷积神经网络(DCNN)。它是由卷积层、批归一化层、全连接层及一个1 000类的softmax层组成。

图 6 特征提取器
Fig. 6 The architecture of deep feature extraction

受迁移学习策略中模型迁移方法的启发,为了使BNnet网络在视网膜数据不足的情况下依旧能提取到对分类任务有效的深度特征,本文取代了从头开始训练网络的传统方法,采用ILSVRC2012数据集对BNnet网络进行预训练,再将经过100 000次迭代后保存的模型迁移到视网膜图像上进行微调学习从而实现视网膜图像深度特征的提取。具体地说,本文中的视网膜深度特征提取框架是将BNnet模型中顶层的1 000个节点的softmax层(fc8)用一个新的包含5个节点的softmax层(new-fc8)来代替,并将连接到new-fc8层的参数权重w随机初始化。对于迁移学习过程中参数更新的学习率设置,将全局学习率设置为ILSVRC2012数据集的初始学习率的十分之一,新的softmax(new-fc8)层的学习率为全局学习率的10倍[14]

3.2 糖尿病性视网膜图像的自动分类

全连接层能够将网络学习到的深度特征映射到样本标记空间,因此全连接层在整个卷积神经网络中起到分类器的作用。本文根据全连接层的作用设计了一个深度分类器,并根据BNnet网络和迁移学习的训练方法提取到的深度特征将视网膜图像进行自动分类,分类器网络结构如图 7所示。该分类器的输入是数据集中每幅视网膜图像经过BNnet网络采用迁移学习方法提取的4 096维fc7层的特征集合。该分类器包括两个全连接层ip1和ip2, 为了避免过拟合,在每一个全连接层后分别增加了Dropout层[15],并在两个全连接层之后引入线性修正单元(relu1和relu2),以解决梯度弥散问题[16]

图 7 分类器结构图
Fig. 7 The architecture of classifier

4 实验结果与分析

4.1 实验设置

本文网络是在Intel i5-7500 CPU,显卡NVIDIA GeForce GTX 1050上训练,使用深度学习框架caffe,数据增强及预处理由MATLAB2016a实现。为了避免数据不一致带来实验结果的误差,本文工作中相关的实验设置均使用相同的数据格式。由于原始的视网膜图像尺寸太大,因此输入图像的大小都被设置为256×256像素;并将增强后的视网膜数据集随机分成两部分:75%作为训练集用于网络训练和参数学习;25%作为测试集用于测试模型的识别和泛化能力,两部分之间的数据互不交叉。为了对比不同训练方法和不同网络结构对视网膜分类性能的影响,本文设置了4组实验。

第1组实验:为了对比网络中待学习参数量的多少对实验结果的影响,本文采用增强后的视网膜数据集对2种不同深度的神经网络进行训练:1)对LeNet网络进行训练,LeNet网络由2个卷积层和2个全连接层组成,待训练的参数较少,为简单的网络结构代表;2)对AlexNet网络进行训练,AlexNet网络由5个卷积层和2个全连接层组成,待训练参数相对较多,为较深的网络结构代表。

第2组实验:为了验证对神经网络引进批归一化层对实验结果的影响,本文采用增强后的视网膜数据集对不同结构的神经网络进行训练:1)对AlexNet网络进行训练;2)对BNnet网络进行训练。

第3组实验:为了验证迁移学习的有效性,本文对BNnet网络进行2种不同方式的训练:1)用增强后的视网膜数据集对BNnet网络采用从头开始的训练方式;2)用ILSVRC2012数据集对BNnet网络进行预训练,再将学习到的模型迁移到增强后的视网膜数据集上进行再学习。

第4组实验:为了验证本文方法中数据增强的有效性,对经过迁移学习后获得的BNnet模型采用2种不同的再学习策略:1)使用BNnet模型对原始的视网膜数据集采用再学习策略;2)使用BNnet模型对增强后的视网膜数据集采用再学习策略。

4.2 评价指标

对于医学图像的分类,可以从图像的分类准确率来判定该分类系统的性能,令${N_{{\rm{total}}}}$代表测试集中视网膜图像的总数量,${N_{{\rm{rec}}}}$代表其中被正确分类的图像数量,则分类准确率可以表示为[17]

$ R = \frac{{{N_{{\rm{rec}}}}}}{{{N_{{\rm{total}}}}}} $ (5)

4.3 实验结果分析

为了验证本文方法的性能,选择应用在同一数据集Diabetic Retinopathy Detection上的方法在分类准确率上进行对比。由于该数据集是2015年公布且公布时间较短,该数据集应用在图像分类上的方法还很少,因此,本文还采用了自身对比的方式。不同训练方法的分类准确率结果如表 1所示。表 1中,CompactNet是丁蓬莉等人[1]采用的继承Alexnet前2层参数的网络。该表选用文献中的最优结果。

表 1 不同训练方法的分类准确率结果对比
Table 1 Comparison of recognition rate of different training methods

下载CSV
网络结构和训练方法$R$
文献[1]CompactNet0.69
本文方法LeNet+增强数据0.43
AlexNet+增强数据0.63
BNnet+增强数据0.71
BNnet+迁移学习+原始数据0.65
BNnet+迁移学习+增强数据0.90
BNnet+迁移学习+增强数据+分类器0.93

4.3.1 第1组实验分析

第1组实验针对参数量对实验结果的影响,采用不同深度的网络做了2组对比实验。从表 1中的数据可以看出,用相同的视网膜数据集对LeNet和AlexNet网络进行训练时,AlexNet模型在测试集上的分类准确率明显高于LeNet模型的分类准确率,说明深度较浅的神经网络,待学习的参数量少,因此并不能提取有效的特征信息来表征视网膜各阶段之间的差异。而待学习参数量较多的深层神经网络,在实验数据充足的情况下,能够学习到更充分的深度特征,因此分类效果较好。

4.3.2 第2组实验分析

网络引入批归一化层是本文的贡献点之一。从表 1的实验结果可知,用相同的数据集对AlexNet和BNnet网络进行训练时,BNnet模型在测试集上的分类准确率较高。同时为了观察批归一化层的引入对网络收敛速度的影响,图 8展示了AlexNet和BNnet的训练误差(Loss)和准确率(Acc)曲线。AlexNet在训练集上的Loss下降速度和Acc的上升速度都较为缓慢,当训练次数迭代到10 000时,网络趋于收敛,分类准确率约为0.63。而在BNnet实验中,Loss曲线的下降速度和Acc的上升速度都比AlexNet的快很多,当迭代次数到5 000次时,BNnet的Loss值已经下降到最低值0.8左右且Acc值在0.7以上,网络已经收敛。BNnet的收敛速度较快,但在整个训练过程中网络并没有发生过拟合的现象。说明批归一化层的引入不仅能够加快网络的收敛速度,而且能够提高模型的分类准确率。

图 8 AlexNet和BNnet的训练Loss和Acc曲线
Fig. 8 Training Loss and Acc curves for AlexNet and BNnet
((a) the Loss curve of AlexNet; (b) the Loss curve of BNnet; (c) the Acc curve of AlexNet; (d) the Acc curve of BNnet)

4.3.3 第3组实验分析

为了验证迁移学习策略对视网膜图像分类性能的影响,本文根据是否采用迁移学习的方法对BNnet网络进行2组对比实验。根据卷积层学习到的特征可以很容易地被理解和可视化[18],本文将对BNnet模型的第1个卷积层学习到的特征进行可视化和分析,如图 9所示。图 9(a)表示BNnet网络未采用迁移学习策略而直接用视网膜图像进行训练时卷积层的特征可视化,可以看出BNnet卷积层的参数表现为一些随机值,说明直接用视网膜数据集对BNnet网络进行训练时,并不能提取到视网膜的深度特征;图 9(b)表示采用迁移学习策略后卷积层的特征可视化,可以看出视网膜图像的结构和纹理信息在训练的过程中已经有效地被提取。同时从表 1实验结果可知,BNnet网络采用迁移学习策略后在测试集上的分类准确率可达0.9。说明神经网络在ILSVRC2012上学习到了一些特征,这些特征有助于对视网膜图像的分类。

图 9 第1层卷积层的特征可视化
Fig. 9 Feature visualization of the first convolution layer
((a) before transfer learning; (b) after transfer learning)

4.3.4 第4组实验分析

表 1实验结果可知,采用增强后的视网膜数据集训练BNnet所得模型的分类准确率高于原始数据集训练所得模型的分类准确率,说明在本文方法中,数据扩增对改善模型的准确率是必不可少的。

采用不同训练方法的模型在分类准确率上相差很大。鉴于待训练参数较多的神经网络能够提取图像的更多深度特征信息,因此在数据扩增和迁移学习的策略下,本文在特征抽取之后增加一个由全连接层组成的分类器实现视网膜图像的良好分类,分类准确率可达0.93。

5 结论

本文利用卷积神经网络的方法实现了糖尿病性视网膜图像的自动分类。在实验过程中,发现视网膜图像噪声多、样本量少且相邻阶段之间的差异性小是将卷积神经网络应用于图像分类的主要问题,因此在视网膜数据集作为训练样本之前进行预处理操作。对AlexNet引进批归一化层作为视网膜的特征提取网络并采用迁移学习的训练方法对视网膜图像进行特征提取。本文方法能够有效提取视网膜的本质特征且分类性能好,有效地避免了人工提取特征和分类的局限性。但在该实验中,图像预处理、特征提取和图像分类3个阶段尚未形成一个完整连续的系统,因此在后续的研究工作中,将尝试改进网络结构进一步提高分类准确率并开发一个计算机辅助诊断系统用于自动判别视网膜图像。

参考文献

  • [1] Ding P L, Li Q Y, Zhang Z, et al. Diabetic retinal image classification method based on deep neural network[J]. Journal of Computer Applications, 2017, 37(3): 699–704. [丁蓬莉, 李清勇, 张振, 等. 糖尿病性视网膜图像的深度神经网络分类方法[J]. 计算机应用, 2017, 37(3): 699–704. ] [DOI:10.11772/j.issn.1001-9081.2017.03.699]
  • [2] He X Y, Han Z Y, Wei B Z. Breast cancer histopathological image auto-classification using deep learning[J]. Computer Engineering and Applications, 2017. [何雪英, 韩忠义, 魏本征. 基于深度学习的乳腺癌病理图像自动分类[J]. 计算机工程与应用, 2017. ] [DOI:10.3778/j.issn.1002-8331.1701-0392]
  • [3] Wu G R, Kim M, Wang Q, et al. Scalable high-performance image registration framework by unsupervised deep feature representations learning[J]. IEEE Transactions on Biomedical Engineering, 2016, 63(7): 1505–1516. [DOI:10.1109/TBME.2015.2496253]
  • [4] Nguyen P, Tran T, Wickramasinghe N, et al. Deepr:A convolutional net for medical records[J]. IEEE Journal of Biomedical and Health Informatics, 2017, 21(1): 22–30. [DOI:10.1109/JBHI.2016.2633963]
  • [5] Guo Y R, Gao Y Z, Shen D G. Deformable MR prostate segmentation via deep feature learning and sparse patch matching[J]. IEEE Transactions on Medical Imaging, 2016, 35(4): 1077–1089. [DOI:10.1109/TMI.2015.2508280]
  • [6] Miotto R, Li L, Kidd B A, et al. Deep patient:an unsupervised representation to predict the future of patients from the electronic health records[J]. Scientific Reports, 2016, 6: #26094. [DOI:10.1038/srep26094]
  • [7] Li Q, Cai W D, Wang X G, et al.Medical image classification with convolutional neural network[C]//Proceedings of the 13th International Conference on Control Automation Robotics & Vision.Singapore: IEEE, 2014: 844-848.[DOI: 10.1109/ICARCV.2014.7064414]
  • [8] Moeskops P, Viergever M A, Mendrik A M, et al. Automatic segmentation of MR brain images with a convolutional neural network[J]. IEEE Transactions on Medical Imaging, 2016, 35(5): 1252–1261. [DOI:10.1109/TMI.2016.2548501]
  • [9] Shen D G, Wu G R, Suk H I. Deep learning in medical image analysis[J]. Annual Review of Biomedical Engineering, 2017, 19: 221–248. [DOI:10.1146/annurev-bioeng-071516-044442]
  • [10] Pan S J, Yang Q. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10): 1345–1359. [DOI:10.1109/TKDE.2009.191]
  • [11] Bengio Y, Courville A, Vincent P. Representation learning:a review and new perspectives[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1798–1828. [DOI:10.1109/TPAMI.2013.50]
  • [12] Ioffe S, Szegedy C.Batch normalization: accelerating deep network training by reducing internal covariate shift[C]//Proceedings of the 32nd International Conference on International Conference on Machine Learning.Lille, France: PMLR, 2015: 448-456.
  • [13] Huang C, He Z H, Cao G T, et al. Task-driven progressive part localization for fine-grained object recognition[J]. IEEE Transactions on Multimedia, 2016, 18(12): 2372–2383. [DOI:10.1109/TMM.2016.2602060]
  • [14] He K M, Zhang X Y, Ren S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904–1916. [DOI:10.1109/TPAMI.2015.2389824]
  • [15] Srivastava N, Hinton G, Krizhevsky A, et al. Dropout:a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929–1958.
  • [16] Nair V, Hinton G E.Rectified linear units improve restricted Boltzmann machines[C]//Proceedings of the 27th International Conference on International Conference on Machine Learning.Haifa, Israel: Omnipress, 2010: 807-814.
  • [17] Spanhol F A, Oliveira L S, Petitjean C, et al. A dataset for breast cancer histopathological image classification[J]. IEEE Transactions on Biomedical Engineering, 2016, 63(7): 1455–1462. [DOI:10.1109/TBME.2015.2496264]
  • [18] Zeiler M D, Fergus R.Visualizing and understanding convolutional networks[C]//Proceedings of the 13th European Conference on Computer Vision.Zurich, Switzerland: Springer, 2014: 818-833.[DOI: 10.1007/978-3-319-10590-1_53]