Print

发布时间: 2018-04-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170431
2018 | Volume 23 | Number 4




    医学图像处理    




  <<上一篇 




  下一篇>> 





结合深度学习和支持向量机的海马子区图像分割
expand article info 时永刚, 程坤, 刘志文
北京理工大学信息与电子学院, 北京 100081

摘要

目的 由于海马子区体积很小且结构复杂,传统的分割方法无法达到理想的分割效果,为此提出一种基于卷积神经网络和支持向量机的海马子区分割方法。方法 该方法构建一种新模型,将卷积神经网络和支持向量机结合起来,使用支持向量机分类器替换卷积神经网络的输出层,通过训练深层网络自动提取图像块特征,利用所提取的图像特征训练支持向量机实现图像的像素级分类。结果 实验选取美国旧金山CIND中心的32位实验者的脑部磁共振图像(MRI)进行海马子区分割测试,在定性和定量方面分别对比了本文方法与支持向量机(SVM)、卷积神经网络(CNN)和基于稀疏表示与字典学习方法的分割结果。所提方法对海马子区CA1、CA2、DG、CA3、Head、Tail、SUB、ERC和PHG的分割准确率分别为0.969、0.733、0.967、0.837、0.981、0.920、0.972、0.968和0.976。本文方法优于现有的基于稀疏表示与字典学习、支持向量机和卷积神经网络的方法,各海马子区分割准确率均有较大提升,对较大子区如Head,准确率较现有最优方法提升10.2%,对较小子区如CA2、CA3,准确率分别有36.2%和52.7%的大幅提升。结论 本文方法有效提升了海马子区的分割准确率,可用于大脑核磁共振图像中海马及其子区的准确分割,为诸多神经退行性疾病的临床诊断与治疗提供依据。

关键词

医学图像处理; 海马子区分割; 卷积神经网络; 支持向量机; 图像特征; 特征提取

Segmentation of hippocampal subfields by using deep learning and support vector machine
expand article info Shi Yonggang, Cheng Kun, Liu Zhiwen
School of Information and Electronics, Beijing Institute of Technology, Beijing 100081, China
Supported by: National Natural Science Foundation of China(60971133, 61271112)

Abstract

Objective Numerous clinical studies have shown that changes in the volume or morphology of the hippocampus and its subfields are closely related to many neuro degenerative diseases, such as Alzheimer's disease and mild cognitive impairment. Accurate segmentation of hippocampus and its subfields from the brain magnetic resonance imaging, which is a prerequisite for volume measurement, plays a significant role in the clinical diagnosis and treatment of many neurodegenerative diseases. Despite significant progress in recent decades, hippocampal subfield segmentation remains a challenging task mainly because the volume of hippocampal subfields is too small and the boundaries of subfields are insufficiently distinctive to extract. Traditional hippocampal segmentation, which involves methods based on multi-atlas, sparse representation, and shallow network, cannot achieve satisfactory segmentation. By contrast, some methods that use image features extracted by convolutional neural networks (CNNs) have demonstrated state-of-the-art results on a wide range of image segmentation tasks. In this study, a hippocampal subfield segmentation approach based on CNN and support vector machine (SVM) is proposed. These two models are combined to exploit their individual advantages to further improve the accuracy of hippocampal subfield segmentation. Method The proposed approach constructs a new model that combines CNN and SVM.Magnetic resonance image patches centered at the target pixel point are fed to the network as input images. After a series of convolution and downsampling operations, output image features of a fully connected layer are used as the inputs of SVM. SVM is trained with the features to implement the pixel classification of images. The CNN consists of an input layer, three convolution layers, three downsampling layers, a fully connected layer, and an output layer, where the downsampling layer can provide numerous abstract features for image segmentation tasks. Data augmentation is employed to expand labeled data by adding Gaussian noise and rotation operations to prevent overfitting. The new model overcomes the shortcomings of CNN and SVM by combining their advantages. The learning principle of the CNN classifier, which is basically the same as that of multilayer perceptron, is easy to fall into a local minimum due to the training network to minimize classification errors by minimizing experience risks. SVM is based on the principle of structural risk minimization to minimize the generalization error of training set data. By solving the quadratic programming problem, SVM obtains a hyperplane that is the global optimal solution, thereby effectively avoiding the local optimum. Therefore, the generalization capability of the new model is significantly improved. Result In the experiment, the proposed approach is tested on the brain magnetic resonance images of 32 volunteers from the Center for Imaging of Neurodegenerative Diseases in San Francisco, California, USA. The approach is qualitatively and quantitatively compared with methods based on SVM, CNN, and sparse representation and dictionary learning in the first part of the experiment. The segmentation Dice similarity coefficients (DSCs) of the proposed approach for Cornu Ammonis (CA)1, CA2, dentate gyrus, CA3, head, tail, subiculum, entorhinal cortex, and parahippocampal gyrus in the hippocampal subfields are 0.969, 0.733, 0.977, 0.987, 0.981, 0.982, 0.972, 0.986, and 0.976, respectively. The comparisons demonstrate that the proposed method, which achieves significantly improved accuracy of all the hippocampal subfields, outperforms the existing methods based on dictionary learning and sparse representation and multi-atlas. For the large subfields, such as head of hippocampus, the DSC is increased by 10.2% compared with those of the state-of-the-art approaches. For the small subfields, such as CA2 and CA3, the segmentation accuracies are also significantly increased by 36.2% and 52.7%, respectively. The effects of image patch size, number of convolution layer, and number of convolution layer features on the segmentation results are tested with a control variable method in the second part of the experiment. Conclusion In this study, CNN is introduced to extract image features automatically, and SVM, instead of CNN classifier, is used to classify image pixels. The proposed method, which can improve the generalization capability of the classifier, overcomes the shortcomings of most other traditional classifiers that largely rely on the retrieval of good hand-designed features, which is a laborious and time-consuming task. Experimental results prove that the proposed method can effectively improve the segmentation accuracy of hippocampal subfields in brain magnetic resonance images, which provide the basis for the clinical diagnosis and treatment of many neurodegenerative diseases.Future work includes reducing the computation time of the algorithm, improving the segmentation accuracy of small hippocampal subfields by optimizing the algorithm, and extending the proposed network to the segmentation of other organs by fine-tuning the network parameters.

Key words

medical image processing; hippocampal subfields segmentation; convolution neural network (CNN); support vector machine (SVM); image feature; feature extraction

0 引言

海马是大脑颞叶内侧的一个生理组织,对人类的空间定位和长期记忆有重要的作用。大量临床研究表明,海马及其子区体积或形态的变化与很多神经退行性疾病有密切关联[1-3],例如阿尔兹海默症、轻度认知功能障碍等[4]。实现对海马及其子区的准确分割是进行体积测量的前提,因此,从大脑核磁共振图像(MRI)中准确分割出海马及其子区具有十分重要的意义。

目前海马及其子区分割方法,诸如基于图谱、稀疏表示和浅层网络的方法,难以达到理想的分割效果。Heckemann等人[5]首次提出的多图谱分割方法,通过投票表决的方式确定目标像素点的标记,解决了单图谱方法分割结果具有随机性的问题;Tong等人[6]使用稀疏表示和字典学习的方法分割海马,提升了分割准确率;借鉴计算机视觉和模式识别领域的分类问题,Hao等人[7]将机器学习与多图谱方法结合,通过人工提取图像的局部灰度特征和纹理特征,训练支持向量机实现海马分割,提升了分割结果。Shi等人[8]提出局部二值模式(LBP)特征增强字典学习,为目标像素点建立稀疏表示和字典学习模型,并引入图像的LBP特征增强训练字典的判别性,提高了分割效果。上述方法虽然不同程度地提高了海马图像分割的准确率,在分割海马整体时效果良好,但是分割内部结构更为复杂的海马子区时,无法达到理想的分割结果。

支持向量机(SVM)建立在统计学习理论和结构风险最小化原则上[9],在数据样本特征空间寻找最优分割超平面,使超平面与不同类别样本之间的距离最大,从而使分类器具有最大泛化能力。SVM结构简单,且具有全局最优解和很高的泛化能力,被提出以来得到了广泛的研究和应用,在模式识别和分类领域取得了极大的成功。近年来,深度学习方法在图像分割领域,尤其是磁共振图像(MRI)分割领域,取得了很多突破性的成果。其中,卷积神经网络通过一系列卷积和下采样等非线性运算,能够自动提取出有代表性的图像特征,被广泛应用于图像分类、识别和分割等任务。Hinton等人[10]提出卷积神经网络Alexnet赢得了ImageNet图像分类比赛,掀起了深度学习在计算机视觉和图像图形处理领域的热潮。最新的MRI图像处理研究中,Billones等人[11]使用改进的16层VGGNet实现了对AD (Alzheimer’s disease)、MCI (mild cognitive impairment)和正常脑部海马区域MRI图像的识别,准确率较传统方法有很大提升。Havaei等人[12]训练一种全新的卷积神经网络实现了对脑部肿瘤核磁共振图像的高精度分割,搭建的网络具有分别处理较大和较小图像块的两条处理路径,将提取出的全局图像特征和局部图像特征融合用于共同确定像素点标记。

为了克服传统方法无法实现海马子区准确分割的缺点,提出了一种基于卷积神经网络和支持向量机的分割方法。该方法通过训练一个深层卷积神经网络自动提取出具有识别性的图像特征,将其作为输入数据训练支持向量机,从而实现对海马及其子区的分割。这种方法能够自动提取具有识别性的图像特征,克服了人工选取特征需要特殊技巧且繁琐耗时的缺点。

该方法构建了一个基于深层卷积神经网络和支持向量机的海马子区分割综合模型。这个模型使用卷积神经网络(CNN)结构从海马图像中自动提取图像特征,利用SVM分类器识别上述特征并实现海马子区的精确分割。为了验证所提方法的有效性,使用来自美国旧金山CIND中心的32位实验者的脑部MRI图像做了测试,结果显示该方法能够达到较高的海马子区分割准确率,且具有很强的鲁棒性。

1 CNN-SVM模型

将CNN和SVM组合起来,构建一个新的CNN-SVM混合模型。混合模型中使用SVM替换CNN的输出层,将CNN全连接层的输出作为提取出的图像特征,使用这些特征训练SVM分类器,实现对海马子区图像的分割。

1.1 SVM分类器模型

支持向量机基于结构风险最小化原则,通过使用不同的核函数将数据的线性不可分问题转化为线性可分问题[13],首先将数据投影到高维特征空间,然后在高维空间中找到最优分割超平面。

假设数据样本集合为$\mathit{\boldsymbol{D = }}{\rm{\{ (}}{\mathit{x}_{i, {y_i}}}{\rm{)\} }}$,数据样本${\rm{(}}{\mathit{x}_i}{\rm{, }}{\mathit{y}_i}{\rm{)}} \in {{\bf{R}}^m} \times {\bf{R}};\mathit{i = }{\rm{1, 2, }} \cdots {\rm{, }}\mathit{n, }$,样本标记${\mathit{y}_i} \in \{-1, 1\} $。SVM通过寻找一个最大边界分割超平面实现对样本集合$\mathit{\boldsymbol{D}}$的线性分类。上述问题可以表述为最优化问题

$ {\rm{min}}\;\;\frac{1}{2}{\left\| \mathit{\boldsymbol{w}} \right\|^2} + C\sum\limits_{i = 1}^n {{\xi _i}} $ (1)

$ {\rm{s}}{\rm{.t}}{\rm{.}}\;\;{\mathit{y}_i}({\mathit{\boldsymbol{w}}^{\rm{T}}} \cdot \phi ({\mathit{x}_i}) + \mathit{b}) \ge 1 - {\xi _i} $ (2)

式中,$\mathit{\boldsymbol{w}}$$m$维向量,$b$是一个标量,称为偏移量。${\xi _i}$是松弛变量,$C$是权衡边界最大化和分类误差最小化的惩罚因子。函数$\phi $(·)将样本数据${x_i}$映射到高维特征空间。

通过求解其拉格朗日对偶问题解决上述最优化问题,分类器的决策函数被定义为

$ g({\mathit{x}_i}) = {\rm{sgn}}\{ \sum\limits_{{x_i} \in \mathit{\boldsymbol{S}}{\mathit{\boldsymbol{V}}_s}} {{\alpha _i}{y_i}K({\mathit{x}_i}, {\mathit{x}_j}) + b} \} $ (3)

式中,${x_i}$是样本数据中的支持向量($\mathit{\boldsymbol{S}}{\mathit{\boldsymbol{V}}_s}$),${\alpha _i}$是拉格朗日乘子,$K({\mathit{x}_i}, {\mathit{x}_j})$是核函数。

支持向量机理论最初用来解决二分类问题,后来研究人员将其扩展到多分类问题。将二分类SVM扩展到多分类SVM有直接和间接两种方法。直接方法通过构造包含多个最优分割超平面的模型实现对样本数据的多分类;间接方法通过组合多个二分类SVM解决多分类问题,本文采用间接方法构建多分类SVM。

1.2 CNN模型

卷积神经网络是一种有监督学习的多层神经网络,网络中的卷积层和下采样层通过一系列非线性计算从原始图像中提取图像特征[14],提取到的特征通过全连接层输入到分类器。图像在网络中首先经过一个前向传播过程,将上一层神经元的输出经过非线性激活函数计算后作为当前层输入,各层的权重通过反向传播算法[15]进行迭代更新。

构建的CNN网络结构如图 1所示,该网络包含输入层、3个卷积层、3个下采样层、1个全连接层和输出层。输入层是一个大小为${S_1} \times {S_1}$的归一化图像矩阵,3个特征图层(大小分别为${S_2} \times {S_2}$${S_3} \times {S_3}$${S_4} \times {S_4}$)分别用于计算图像的特征,特征图上的每个神经元与不同数量的前一层神经元相连接,它们由不同大小的卷积核定义,同一张特征图中的神经元共享相同的卷积核与权重,下采样运算采用最大值下采样准则。在卷积核大小为${S_i}$,下采样感受野大小为2,步长为1的情况下,每次特征图变换其尺寸大小由$S$缩小为$(\mathit{S}{\rm{-}}{\mathit{S}_i} + 1)/2$。分类器部分由全连接多层感知机(MLP)、隐藏层和输出层组成。

图 1 CNN模型架构:输入层、3个卷积层、3个下采样层、1个全连接层和1个输出层
Fig. 1 Architecture of the CNN model: consisting of the input layer, three convolution layers, three subsampling layers, a fully connected layer and an output layer

1.3 混合CNN-SVM模型

文中所构建的混合CNN-SVM模型使用SVM分类器代替CNN模型的输出层,混合模型的架构如图 2所示。CNN结构中最后一层是输出单元,输出对样本数据分类的边界概率,这个概率是根据前一隐藏层的输出与网络权重和偏置项的线性组合来计算的,边界概率最大的那一类即为样本的最终类别。隐藏层的输出对于CNN来说没有特殊的意义,但是这些数值是SVM分类器所需要的图像特征。

图 2 CNN-SVM混合模型架构:使用SVM分类器代替CNN网络的输出层
Fig. 2 Architecture of the hybrid CNN-SVM model:replacing the output layer of the CNN architecture with the SVM classifier

首先,以目标像素点为中心提取大小28×28的图像块,经过前期处理后作为图像数据输入网络,然后通过前向传播过程计算代价函数值,再通过反向传播对CNN网络进行迭代训练,直至网络收敛。最后使用具有径向基核函数(RBF)的SVM代替CNN输出层,此时CNN隐藏层的输出作为训练SVM分类器的新特征向量,训练完成后,SVM通过CNN自动提取的图像特征对测试图像样本进行分类。

卷积层特征图的数目对模型的泛化能力影响很大,令第2个和第3个卷积层特征图的数目分别为36和50,第1个卷积层特征图的数目被确定为15。该模型中的网络参数进行了随机初始化,测试了不同特征图数量的第1卷积层,实验结果显示当特征图数目小于15时(测试了6个)网络性能降低,当特征图数目大于15时(测试了25个)训练时间增加,性能上没有太大改进。

混合模型通过结合CNN和SVM的优点来弥补其各自的缺点,所以该模型结果优于任何一种单一分类器。CNN的学习方法与MLP基本相同,是MLP的扩展模型,基于经验风险最小化,也即通过训练使分类错误最小化。当通过反向传播算法找到第一个分类超平面时,无论是局部还是全局最小值,训练过程都会停止,算法不会继续优化分类超平面,即其容易陷于局部最小值,因此MLP的泛化能力低于SVM。而SVM则基于结构风险最小化原则将训练集数据泛化误差最小化,通过求解二次规划问题使不同类别样本之间的边缘最大,得到的分割超平面是全局最优解,能够有效地避免陷入局部最优解。替换CNN的输出层后,由于SVM的泛化能力很高,分类准确率得到了进一步提高。

此外,MLP还有另外一个缺点就是它倾向于在输出层向某一个神经元分配一个较高的值,而给剩余的所有神经元分配较低的值,在实际应用中会给纠错带来困难。但是SVM分类器输出的是样本数据归于某一类别的概率,这种概率信息提供了更为可靠的标签预测排名,有助于分类中的纠错处理。

卷积神经网络对输入图像进行卷积和下采样计算,可自动提取出具有很高代表性的图像特征。且因为CNN在特征图上采用权重共享技术,在一定程度上,当输入图像有少许形状失真时这些特征是不变的。相反,手工设计的特征提取器需要一定的技巧,而且并不总是对所有特征普遍有效。CNN方法避免大量的人工参与,能够提取出比传统方法更显著的特征,这正是CNN与SVM结合的独特优势所在。

2 实验结果与分析

为验证所构建模型的有效性,采用美国旧金山CIND中心采集的MRI-T2图像,图像分辨率为0.4×0.5 ×2mm3。实验数据包括32名实验者的脑部MRI-T2图像,他们的年龄均在3882岁之间,其中男性实验者18位,女性实验者14位。正常人有21位,MCI患者4位,AD患者7位。首先利用基于ITK标准库仿射变换模型的线性配准方法和基于互信息的对称微分同胚算法的非刚体配准方法对脑部核磁图像进行配准[16],获得配准后的灰度及标记图像;随后采用线性变换方法将配准后的灰度图像归一化至[0, 255]范围[17];然后利用开源图像处理工具Convert3D的“-region”选项从MRI-T2冠状位图像中提取出感兴趣区域(ROI),依次对感兴趣区域内像素点提取大小为28×28像素的图像块,与目标像素点标记共同组成实验样本数据。为了防止过拟合,通过对原始图像块进行旋转和加入高斯噪声以增加数据量[10, 18]。实验基于64位Win7操作系统,MATLAB2015b平台。

首先分别使用SVM、CNN和CNN-SVM混合模型对海马图像进行分割,给出实验结果并与现有最优分割方法结果进行对比。然后通过交叉验证的方法分别验证图像块大小、网络卷积层数和卷积层特征图数目对分割结果的影响。实验的评价指标采用Dice Simlarity Coefficent($DSC$), 即

$ DSC({\mathit{\boldsymbol{S}}_1}, {\mathit{S}_2}) = \frac{{2 \times \left| {{\mathit{\boldsymbol{S}}_1} \cap {\mathit{\boldsymbol{S}}_2}} \right|}}{{\left| {{\mathit{\boldsymbol{S}}_1}} \right| + \;\left| {{\mathit{\boldsymbol{S}}_2}} \right|}} $ (12)

式中, ${\mathit{\boldsymbol{S}}_1}$${\mathit{\boldsymbol{S}}_2}$分别代表人工分割标准和算法分割结果,$\left| \cdot \right|$表示区域内像素点的个数。

2.1 SVM、CNN和CNN-SVM混合模型实验

实验中用于海马子区分割的CNN网络架构细节如表 1所示,以目标像素点为中心提取28×28图像块作为网络输入,除加入均值为0方差为0.01的高斯噪声和进行90°旋转外不做其他处理。神经元激活函数采用线性修正单元(ReLU)函数[10],网络各层权重初始值在$\left[{-2\;\sqrt {6/({\mathit{N}_{{\rm{in}}}} + {\mathit{N}_{{\rm{out}}}})}, 2\sqrt {6/({\mathit{N}_{{\rm{in}}}} + {\mathit{N}_{{\rm{out}}}})} \;} \right]$范围内随机初始化[19],其中${{\mathit{N}_{{\rm{in}}}}}$为输入特征图个数,${{\mathit{N}_{{\rm{out}}}}}$为输出特征图个数,各层偏置项初始值为0,学习率设为1。首先使用测试集数据对CNN网络进行迭代训练,训练完成后,将测试集图像输入到所得到的网络,获得海马子区分割结果。

表 1 CNN网络架构细节
Table 1 The details of CNN architecture

下载CSV
层类别 图像尺寸/像素 特征图数目 内核大小
输入层 28×28 1
卷积层 24×24 15 5×5
下采样层 12×12 15 2×2
卷积层 10×10 36 3×3
下采样层 5×5 36 2×2
卷积层 4×4 60 4×4
下采样层 1×1 60 2×2
全连接层 1 60×10
输出层 10

利用图像在0°、45°、90°以及135°方向上的灰度共生矩阵计算角二阶矩、熵、对比度、相关性等7种常见统计量及各统计量的均值和标准差,作为42维纹理特征,再以目标像素点为中心分别提取3×3像素、5×5像素、7×7像素的区域计算均值与标准差,以该点像素值及不同区域的灰度均值和标准差,构成13维灰度特征,以人工提取的上述55维灰度和纹理特征作为训练数据。SVM分类器选定RBF核函数,其参数惩罚因子$C$和方差$\sigma $通过5-CV方法交叉寻优得出。参数在[2-10,210]范围内指数以0.2差值依次递增,从50×50种不同组合中找出最优参数$C$=64,$\sigma $=776.046 9。首先使用SVM最优模型对海马及其子区进行分割,获取SVM模型分割结果。然后再将CNN全连接层的输出作为卷积神经网络提取的图像特征重新训练SVM分类器,再次完成对海马子区的分割。

图 3展示了本文方法的分割效果,第1行是人工分割标准和SVM、CNN和CNN-SVM模型在核磁图像冠状位上的分割结果,第2、3行是分割结果的3维图像,第4行是不同模型分割结果与标准结果作差之后的3维图像。表 2展示了SVM、CNN和CNN-SVM混合模型对海马子区的分割准确率,以及与基于字典学习和稀疏表示方法[8]的准确率对比。通过以上分割结果对比可以直观地看出不同分割方法的优劣,所提的CNN-SVM混合模型方法分割准确率优于SVM和CNN方法,且较现有最好方法分割准确率有大幅提升,较大子区如Head等,准确率达到了98%,较小子区如CA2、CA3,准确率相对现有方法分别有36.2%和52.7%的大幅提升。原因是基于字典学习和稀疏表示方法在LC-KSVD字典学习模型的基础上,加入图谱标记图像的LBP特征,所提取到的特征代表性仍然十分有限。而SVM方法则通过人工提取目标像素点邻域的灰度和纹理特征,由于海马MRI图像对比度很低,这些特征代表性不足以较好地区分各海马子区,不能获得理想分割结果。常规CNN方法,通过对图像块进行一系列的卷积和下采样运算,再经若干全连接层输入到类似于多层感知机的分类器进行分类,虽然比SVM分类效果好,但是容易陷入局部最小解,且泛化能力较差,对较小子区分割效果仍然较差。而CNN-SVM混合模型方法结合了SVM和CNN的优点,使用深层网络自动提取出有很强代表性的图像特征,再使用获取的图像特征训练SVM分类器,提高了分类准确率。

图 3 SVM、CNN和CNN-SVM方法与标准分割结果对比
Fig. 3 Comparison betweenthe proposed methods segmentation results and the manual segmentation result
(a) standard segmentation results; (b) segmentation results of SVM; (c) segmentation results of CNN; (d) segmentation results of CNN-SVM

表 2 不同模型(方法)的定量评价
Table 2 Quantitative evaluation of different segmentation methods

下载CSV
模型(方法) 海马子区
CA1 CA2 DG CA3 Head Tail SUB ERC PHG
字典学习与稀疏表示[8] 0.804 0.538 0.807 0.548 0.890 0.772 0.751 0.743 0.620
SVM 0.701 0.390 0.702 0.358 0.839 0.748 0.745 0.730 0.587
CNN 0.838 0.438 0.856 0.573 0.919 0.852 0.898 0.827 0.873
SVM-CNN 0.969 0.733 0.967 0.837 0.981 0.920 0.972 0.968 0.976

2.2 交叉验证实验

为进一步验证不同图像块尺寸、网络卷积层数目和卷积层特征图个数对分割结果的影响,采用控制变量法,在SVM参数不变的情况下,设置3组实验,分别令图像块尺寸为21×21像素、28×28像素和35×35像素,令卷积层数目为2、3和4,令第1个卷积层特征图数目为6、15和25,获取海马子区分割结果,比较其变化情况。

2.2.1 图像块尺寸对分割结果的影响

第1组实验给出了图像块尺寸分别为21×21像素、28×28像素和35×35像素时,分割准确率的变化情况, 对不同的图像块尺寸,分别进行5次交叉验证实验,如图 4所示。其中竖线方框中心点代表 5次实验准确率均值,上下横线到中心点的距离代表准确率标准差。其中CNN的架构不变,当图像块尺寸为21×21像素采取周围补零的方式将其大小变为28×28像素。图像块大小分别取上述3个值时,进行5次交叉验证实验,计算分割准确率的平均值和标准差。,当图像块尺寸为28×28像素时,分割效果最好,为21×21像素时效果次之,为35×35像素时效果最差。原因是当图像块尺寸较小时,所提取的图像特征代表性稍低,分割效果稍差;当图像块尺寸较大时,相邻像素点图像块之间的相似性过大,导致所提取图像特征代表性急剧下降,分割效果很差。另外图像块尺寸相同时,不同子区的分割准确率相差较大,因为较大子区的体积大,像素点多,所提取特征代表性强,对分类器训练更充分,而较小子区像素点数目小,所提取特征代表性稍差,分类准确率也就更低。

图 4 图像块尺寸对分割结果的影响
Fig. 4 Effect of patch size on segmentation result

2.2.2 卷积层数目对分割结果的影响

第2组实验给出了卷积层数目分别为2、3和4时,分割准确率的变化情况,如图 5所示。其中对于卷积层数为2的情况,去掉CNN架构中第2个卷积层,对于卷积层数为4的情况,在第2个卷积层后加上一个卷积核、步长与其同样大小的卷积层,第3次卷积运算前先对特征图进行补零操作。进行5次交叉实验,当卷积层数为2时分割效果较差,因为卷积运算次数较少,所提取图像特征代表性较差;当卷积层数为3和4时,分割准确率相差不大,表明卷积层数较多时,所提取的图像特征代表性很强,对分割效果影响较小。

图 5 卷积层数对分割结果的影响
Fig. 5 Effect of convolution layer number on segmentation result

2.2.3 卷积层特征图数目对分割结果的影响

第3组实验给出了第1个卷积层特征图数目分别为6、15和25时对分割结果的影响,进行5次交叉验证实验,分别计算各子区分割准确率的平均值和标准差。从图 6可以看出,当第1卷积层特征图数目为6时,分割效果最差,且准确率标准差较大;当特征图数目为15和25时,分割效果差别不大,15个特征图时平均准确率较高,25个特征图时标准差稍小。这是因为特征图数目的多少代表网络提取出的特征数目多少,当特征图数目为6时,第1个卷积层提取的特征数目较少,后续几层所提取的图像特征代表性很差,准确率比较低;当特征图数目为15和25时,特征数目较多,分割准确率较高,且特征数目较多时分割结果稳定度更高。

图 6 第1个卷积层特征图数目对分割结果的影响
Fig. 6 Effect of featuremap number of the first convolution layer on segmentation result
(a)featuremap number is 6;(b)featuremap number is 15;(c)featuremap number is 25;(d) average segmentation accuracy and the standard error comparison chart

3 结论

针对现有方法无法获得理想的海马子区分割结果,提出了一种基于卷积神经网络和支持向量机的新方法,通过构建CNN-SVM混合模型实现海马子区的高精度分割。与现有方法相比,本文方法有以下优点:1)通过CNN网络能够自动提取图像特征,无需进行繁琐耗时的人工设计,且提取出的图像特征代表性很强,克服了基于图谱、稀疏表示和字典学习、SVM等方法的缺点;2)使用SVM分类器代替CNN网络自身的分类器,提高了分类器的泛化能力,同时克服了CNN和SVM各自的缺陷,综合了其优点,提升了海马子区的分类准确率;3)与常规CNN模型相比,混合模型的算法复杂度增加很小,但海马子区分类准确率有较大提升,这在实际应用当中十分可取。因此,所提出的新方法实现了对海马子区的高精确度分割,能够为阿尔兹默症等诸多神经退行性疾病的临床诊断和治疗提供可靠的依据。

后续研究中,有以下几个方面有待改进:1)以现有研究成果为基础,引入基于卷积神经网络的生成对抗网络方法,进一步提高海马子区分割准确率;2)目前研究主要采用对MRI图像进行分层处理的方法,即训练一个网络实现对特定层数的图像分割,实现对整个MRI图像的分割需要训练若干个不同参数的网络,使用FCN等技术实现整幅图像的精确分割是进一步研究的方向;3)尝试将所提新模型应用于肾脏皮质、大脑肿瘤等其他生理组织的分割。

参考文献

  • [1] Lim H K, Hong S C, Jung W S, et al. Automated hippocampal subfields segmentation in late life depression[J]. Journal of Affective Disorders, 2012, 143(1-3): 253–256. [DOI:10.1016/j.jad.2012.04.018]
  • [2] Voets N L, Bernhardt B C, Kim H, et al. Increased temporolimbic cortical folding complexity in temporal lobe epilepsy[J]. Neurology, 2010, 76(2): 138–144. [DOI:10.1212/wnl.0b013e318205d521]
  • [3] Kim H, Mansi T, Bernasconi N, et al. Surface-based multi-template automated hippocampal segmentation:application to temporal lobe epilepsy[J]. Medical Image Analysis, 2012, 16(7): 1445–1455. [DOI:10.1016/j.media.2012.04.008]
  • [4] Mouiha A, Duchesne S, the Alzheimer's Disease Neuroimaging Initiative. Hippocampal atrophy rates in Alzheimer's disease:automated segmentation variability analysis[J]. Neuroscience Letters, 2011, 495(1): 6–10. [DOI:10.1016/j.neulet.2011.02.065]
  • [5] Heckemann R A, Hajnal J V, Aljabar P, et al. Automatic anatomical brain MRI segmentation combining label propagation and decision fusion[J]. NeuroImage, 2006, 33(1): 115–126. [DOI:10.1016/j.neuroimage.2006.05.061]
  • [6] Tong T, Wolz R, Coupé P, et al. Segmentation of MR images via discriminative dictionary learning and sparse coding:application to hippocampus labeling[J]. NeuroImage, 2013, 76: 11–23. [DOI:10.1016/j.neuroimage.2013.02.069]
  • [7] Hao Y F, Wang T Y, Zhang X Q, et al. Local label learning (LLL) for subcortical structure segmentation:application to hippocampus segmentation[J]. Human Brain Mapping, 2014, 35(6): 2674–2697. [DOI:10.1002/hbm.22359]
  • [8] Shi Y G, Wang D Q, Liu Z W. Segmentation of hippocampal subfields using dictionary learning and sparse representation[J]. Journal of Image and Graphics, 2015, 20(12): 1593–1601. [时永刚, 王东青, 刘志文. 字典学习和稀疏表示的海马子区图像分割[J]. 中国图象图形学报, 2015, 20(12): 1593–1601. ] [DOI:10.11834/jig.20151204]
  • [9] Vapnik V N. An overview of statistical learning theory[J]. IEEE Transactions on Neural Networks, 1999, 10(5): 988–999. [DOI:10.1109/72.788640]
  • [10] Krizhevsky A, SutskeverI, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84–90. [DOI:10.1145/3065386]
  • [11] Billones C D, Demetria O J L D, Hostallero D E D, et al. DemNet: a convolutional neural network for the detection of alzheimer's disease and mild cognitive impairment[C]//Proceedings of 2016 IEEE Region 10 Conference (TENCON). Singapore: IEEE, 2016: 3724-3727. [DOI:10.1109/TENCON.2016.7848755]
  • [12] Havaei M, Davy A, Warde-Farley D, et al. Brain tumor segmentation with deep neural networks[J]. Medical Image Analysis, 2017, 35: 18–31. [DOI:10.1016/j.media.2016.05.004]
  • [13] Niu X X, Suen C Y. A novel hybrid CNN-SVM classifier for recognizing handwritten digits[J]. Pattern Recognition, 2012, 45(4): 1318–1325. [DOI:10.1016/j.patcog.2011.09.021]
  • [14] LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436–444. [DOI:10.1038/nature14539]
  • [15] Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors[J]. Nature, 1986, 323(6088): 533–536. [DOI:10.1038/323533a0]
  • [16] Yushkevich P A, Wang H Z, Pluta J, et al. Nearly automatic segmentation of hippocampal subfields in in vivo focal T2-weighted MRI[J]. NeuroImage, 2010, 53(4): 1208–1224. [DOI:10.1016/j.neuroimage.2010.06.040]
  • [17] Nyúl L G, Udupa J K. On standardizing the MR image intensity scale[J]. Magnetic Resonance in Medicine, 1999, 42(6): 1072–1081. [DOI:10.1002/(sici)1522-2594(199912)42:6<1072::aid-mrm11>3.0.co;2-m]
  • [18] Pereira S, Pinto A, Alves V, et al. Brain tumor segmentation using convolutional neural networks in MRI images[J]. IEEE Transactions on Medical Imaging, 2016, 35(5): 1240–1251. [DOI:10.1109/TMI.2016.2538465]
  • [19] Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[C]//Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics (AISTATS 2010). Sardinia, Italy: PMLR, 2010, 9: 249-256.