发布时间: 2019-11-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190043
2019 | Volume 24 | Number 11

医学图像处理

多通道融合可分离卷积神经网络下的脑部磁共振图像分割

郭彤宇¹, 王博¹, 刘悦¹, 魏颖^1,2

1. 东北大学信息科学与工程学院, 沈阳 110004;

2. 教育部医学影像计算重点实验室, 沈阳 110004

收稿日期: 2019-02-18; 修回日期: 2019-03-26; 预印本日期: 2019-04-02

基金项目: 国家自然科学基金项目（61871106）

第一作者简介: 郭彤宇, 1995年生, 男, 硕士研究生, 主要研究方向为MR脑部图像的分割、深度学习。E-mail:2389423323@qq.com;
王博, 男, 硕士研究生, 主要研究方向为MR脑部图像的分割。E-mail:1719428250@qq.com;
刘悦, 女, 博士研究生, 主要研究方向为脑图像分割、计算机辅助诊断、机器学习。E-mail:18512478164@163.com.

中图法分类号: TP751.1

文献标识码: A

文章编号: 1006-8961(2019)11-2009-12

摘要

目的卷积神经网络方法可以提取到图像的深层次信息特征，在脑部磁共振图像（MRI）分割领域展现出优秀的性能。但大部分深度学习方法都存在参数量大，边缘分割不准确的问题。为克服上述问题，本文提出一种多通道融合可分离卷积神经网络（MFSCNN）模型分割脑图像。方法首先，在训练集中增加待分割脑结构及其边缘像素点的权重，强制使网络学习如何分割脑结构边缘部分，从而提升整体脑结构分割的准确率。其次，引入残差单元，以避免梯度弥散，同时使用深度可分离卷积代替原始的卷积层，在不改变网络每个阶段特征通道数的情况下，减少了网络训练的参数数量和训练时间，降低了训练成本。最后，将不同阶段的特征信息合并在一起，进行通道混洗，得到同时包含深浅层次信息的增强信息特征，加入到网络中进行训练，每个阶段的输入特征信息更丰富，学习特征的速度和收敛速度更快，显著地提升了网络的分割性能。结果在IBSR（internet brain segmentation repositor）数据集上的分割结果表明，MFSCNN的分割性能相对于普通卷积神经网络（CNN）方法要明显提高，且在边缘复杂的部分，分割效果更理想，Dice和IOU（intersection over union）值分别提升了0.9% 6.6%，1.3% 9.7%。在边缘平滑的部分，MFSCNN方法比引入残差块的神经网络模型（ResCNN）和引入局部全连接模块的神经网络模型（DenseCNN）分割效果要好，而且MFSCNN的参数量仅为ResCNN的50%，DenseCNN的28%，在提升分割性能的同时，也降低了运算复杂度，缩短了训练时间。同时，在IBSR、Hammer67n20、LPBA40这3个数据集上，MFSCNN的分割性能比现有的其他主流方法更出色。结论本文提出的MFSCNN方法，加强了网络特征的信息量，提升了网络模型的训练速度，在不同数据集上均获得更精确的MR脑部图像分割结果。

关键词

MR脑部图像分割; 卷积神经网络; 深度可分离卷积; 多通道融合; 通道混洗

Multi-channel fusion separable convolution neural networks for brain magnetic resonance image segmentation

Guo Tongyu¹, Wang Bo¹, Liu Yue¹, Wei Ying^1,2

1. College of Information Science and Engineering, Northeastern University, Shenyang 110004, China;

2. Key Laboratory of Medical Imaging Calculation of the Ministry of Education, Shenyang 110004, China

Supported by: National Natural Science Foundation of China (61871106)

Abstract

Objective CNN (convolution neural network) shows excellent performance in the field of brain magnetic resonance image segmentation because of its ability to extract the deep information features of the image. However, the majority of deep learning methods have the problems of too many parameters and inaccurate result of edge segmentation. To overcome these problems, this study proposes a multi-channel fusion separable convolution neural network (MFSCNN). Method First, the weight of the brain structure and its edge pixels are increased in the training set to make the network acquire numerous features of the brain structure and its edge in training. The network is also forced to learn how to segment the edge part of the brain structure to improve the accuracy of the entire brain structure segmentation. Second, the residual unit is introduced to allow the network to transfer the derivative back to the network by jumping connections between the layers of the residual network. While deepening the network, the gradient dispersion can be avoided, which makes up for the lack of information loss in information transmission. The deep separable convolution is used to replace the original convolution layer, and the depth is used to replace the width. Without changing the number of characteristic channels in each stage of the network, the number of network parameters, the number of network training parameters, the training cost, and the training time of the network are reduced. Finally, the feature information of different stages is merged, and the channel is shuffled to obtain the enhanced information features containing deep and shallow information. The features are then placed into the network for training. The input feature information of each stage is richer, the learning feature is faster, and the convergence is faster; so the performance of the brain image segmentation based on the network is obviously improved. Content of main experiment and result For IBSR data sets, the results of MFSCNN are compared with those of ordinary convolutional neural network model (CNN), neural network model with residual unit (ResCNN), and neural network model with local full connection (DenseCNN). The network structure is divided into four stages, and each stage is a specific unit. In training and testing, 75% of the samples are selected as training set and 25% as test set. Dice and IOU (intersection cver union) values are used to measure the accuracy of image segmentation. Dice value can measure the similarity between the segmentation and gold standard results. IOU value reflects the coincidence degree between the segmentation and gold standard results. The results of MFSCNN are significantly higher than those of CNN. In the complex part of the edge, the performance of segmentation is improved obviously. The Dice and IOU are increased by 0.9%6.6% and 1.3%9.7% respectively. In the edge smoothing part, MFSCNN is better than the deep network ResCNN and DenseCNN in terms of the segmentation effect. Moreover, the parameters of MFSCNN are only 50% of ResCNN and 28% of DenseCNN, which not only improves the segmentation performance but also reduces the computational complexity and training time. Comparisons with reviewed research. In the performance on the IBSR, Hammer67n20, and LPBA40, the segmentation results of MFSCNN are better than those of other existing methods. MFSCNN is more prominent in the segmentation of the hippocampus. Compared with commonly used segmentation software FIRST and FreeSurfer, the average Dice values of the putamen and caudate nucleus are increased by 3.4% and 8%, respectively. For the popular methods, the values of Brainsegnet and MSCNN+LC (label consistenay) are increased by 1.6%4.4% and 2.6%2.7%, respectively. Conclusion The proposed MFSCNN method can form a friendly initialization training set for brain structure segmentation by increasing the weight of the interested brain structure and its edge pixels in the training set. When training the network, the deep separable convolution structure is used instead of the original convolution layer, thereby reducing the amount of network training parameters. The feature maps of each stage are merged, and the channels are shuffled to obtain enhanced information features containing deep and shallow information, thereby improving the accuracy of network model segmentation. MFSCNN not only solves the problem of inaccurate segmentation of complex edges of the brain structure by traditional CNN but also improves the inaccurate segmentation of the lateral edges of the brain structure by ResCNN and DenseCNN. In addition, for different data sets, accurate segmentation results of MR brain images can be obtained. Meanings: The regional contrast of MR image is low, and the gray value of each structure is similar. Therefore, fusion information can be extracted directly from MR image by the proposed MFSCNN method and further applied to other MR image segmentation. Although MFSCNN achieves good results for deep brain structure segmentation, the accuracy of segmentation for the discontinuous part of the brain structure still needs to be improved mainly because of the complex and discontinuous types of pixels on the edges of these parts. Therefore, how to extract features that can segment complex edge contours by using deep convolution network is a problem that needs to be studied in the future.

Key words

subcortical brain MR image segmentation; convolution neural network(CNN); depthwise separable convolution; multi-channel fusion; channel shuffle

0 引言

海马体、壳核、尾状核等深层脑结构的结构变化与很多脑部疾病密切相关^[1]。磁共振图像可以对脑和神经系统等软组织进行高分辨率成像，是大脑结构分析的有效临床方法。脑磁共振图像(MRI)的精确分割和定量分析，可用于脑组织和脑结构的体积测量，辅助医生对疾病进行判断及治疗。近年来，MRI的自动分割受到越来越多学者的关注^[2-5]。

Ronneberger等人^[6]在FCN(fully convolutional network)的基础上提出了U-Net网络结构，该方法参加了医学图像分割竞赛(ISBI)，并且获得了很不错的分割效果；Yoo等人^[7]使用深度学习进行特征学习，使用随机森林进行监督分类，在此基础上提出了CEN(convolutional encoder networks)的网络结构并和U-Net结合^[8]，用于分割脑部多发性硬化病变，提高了分割准确性。

Mehta等人^[9]基于CNN(convolutional neural network)框架提出了一种将不同尺度的图像块进行融合的方式分割MR脑部图像。将3维脑结构轴状、冠状、矢状图和3维图像块进行结合，将全局特征和局部特征相结合，能够更有效地分割MR脑部图像。Mehta等人^[10]提出了M-Net网络，使用2D卷积对3D的数据进行处理，使得算法处理速度较其他深度学习算法更快，同时准确性也有所提升。

一般情况下，都是使用图像的灰度值作为神经网络输入的基本特征，随着网络层数的增加，可以提取到深层次的特征，以便于判别模型的分类，但是也忽略了一些浅层的原始特征，对于一些细节无法有效地分割，而且过多的层数存在着参数量过大，训练费时费力和梯度消失的问题，但若层数过少，浅层的特征无法很好地实现分割任务。本文针对上述问题，提出了一种多通道融合可分离卷积神经网络模型(MFSCNN)来分割MR脑部图像。

首先提取3维脑结构周围的感兴趣的像素点邻域内的图像块(每一个图像块的标签和中心像素点的标签一致)作为神经网络的输入，同时对于2维脑结构的像素点及其边缘像素点，同样提取周围邻域的图像块输入网络，这样的操作可以提升脑结构边缘部分分割的准确率。本文从以下方面对卷积神经网络进行改进：

1) 使用深度可分离卷积(depthwise separable convolution)代替CNN中原始的普通卷积层，减少网络的参数量，提高网络的训练速度。并结合残差模块，解决随网络层数增加而出现的梯度消失问题。

2) 将每个卷积单元的输出特征图通过通道合并的方式拼接起来，作为后续卷积单元的输入，实现深浅层次特征的结合，同时，将拼接后的特征图进行通道混洗(channel shuffle)增强特征输入的随机性，避免了边界效应。

1 基于MFSCNN方法的MR脑部图像分割

采用残差学习思想，将原始信息直接传送到输入端，有效地缓解深度网络训练时的退化问题，从而充分利用增加网络深度所获得的性能收益。同时使用深度可分离卷积代替原始的卷积层，减少网络训练时的参数量、降低运算复杂度。

1.1 残差模型

已有研究表明，网络深度对特征表征具有至关重要的作用。加深网络深度可以在一定程度上提高网络的性能和表现，提取深层隐藏特征，增强网络的识别能力。但随着网络层数的不断增加，会出现过拟合(局部最优)及梯度消失和梯度爆炸的问题。当网络层数过深时，损失函数很难有效地传递到底层。所以在反向传播训练时，底层的网络参数通常不太容易被很有效地训练，网络性能因此无法达到预期效果。同时由于网络层数的增加，模型数据量相应增加，训练时间加长，训练成本提高。因此简单增加网络深度没有意义。

本文使用残差学习思想，将残差模块(residual module)引入卷积神经网络，来解决梯度弥散的问题。常规的残差模块如图 1所示。

图 1 残差模块

Fig. 1 Residual module

对于每个残差模块，均满足

$ x_{L}=x_{l}+\sum\limits_{i=1}^{L-1} R_{\mathrm{ELU}}\left(F\left(x_{i}, W_{i}\right)\right) $

(1)

式中，$x_L$为残差块的输出，$x_l$为残差块的输入，$F\left(x_{l}, W_{l}\right)$为卷积映射，引入残差单元之后卷积神经网络的梯度

$ \frac{\partial \varepsilon}{\partial x_{l}}=\frac{\partial \varepsilon}{\partial x_{L}}\left(1+\frac{\partial}{\partial x_{l}} \sum\limits_{i=1}^{L-1} F\left(x_{i}, W_{i}\right)\right) $

(2)

由于$\frac{\partial }{{\partial {x_l}}}\sum\limits_{i = 1}^{L - 1} F \left({{x_i}, {W_i}} \right) \ne - 1$，所以就解决了随着网络的加深，梯度可能消失的问题。

残差网络层间的跳跃连接，允许网络将导数反向传递到网络中。相比传统的卷积神经网络，其复杂度降低，加深网络的同时，也不会出现梯度弥散的问题，弥补了信息传递中信息丢失的不足。

1.2 深度可分离卷积模型

随着网络的加深，ResNet的“相加”特性虽然能够解决梯度消失和梯度爆炸问题，但同时也增加了参数量，庞大的参数量对于大工程来说有着很强大的效果，但同时也增加了训练的难度。对于脑图像来说，在相同的迭代次数下很难实现较好的结果。

本文使用深度可分离卷积来降低网络训练的运算复杂度，提升网络的效率。如图 2所示，深度可分离卷积在原本的两个卷积层中添加一个过渡层，输入和输出的特征图的通道数都不发生改变，只是将第1层卷积层和第2层卷积层的卷积核的大小减小并将输出通道特征图的个数设置为$N/m$，其中$N$为第3层卷积层输出的通道个数，$m$为大于1的常数。一般情况下设置为4。

图 2 深度可分离卷积结构

Fig. 2 Depth separable convolution structure

((a) depth separable convolution; (b) normal convolution)

由图 2可知，正常结构的参数个数为：$54N^2$，而深度可分离卷积参数的个数为：$35N^2/16$。在输入和输出的特征图通道数都是$N$的情况下，普通卷积结构的参数是深度可分离卷积结构参数24倍，显然，深度可分离卷积在不改变每一个单元的特征通道数的前提下，参数量更少，网络的训练速度更快。

1.3 多通道融合网络模型

1.1节中的残差结构虽然能够使每个阶段的特征信息更加丰富，但对于全局来说，每个阶段的特征都没有什么关联，随着网络的加深，越来越复杂的特征对于一些人眼无法分辨的细节确实可以很好地区分，但同时也意味着忽略了那些原始的直观表征图像的特征。所以本文提出一种多通道融合网络模型，将不同阶段的特征信息通过通道合并的方式拼接在一起。同时，对合并后的特征进行“通道混洗”，其过程如图 3所示。混洗后的特征图的每一个子区域都包含不同阶段的特征，实现真正意义上全阶段特征信息的融合，同时可以避免网络学习的局限性，提升网络的鲁棒性。

图 3 通道混洗

Fig. 3 Channel shuffle

为了不影响深层次特征对于像素点的判别性，本文增加了每一个阶段的输出特征图的通道数，使每次传入下个阶段的融合特征包含半数左右的深层次特征，在充分利用深度神经网络提取到的深层次隐藏信息的同时也保证了浅层基本信息在决策上的重要性。

本文构建的MFSCNN模型共分为4个阶段，每一个阶段都由一个深度可分离卷积结构和一个深度可分离残差模块以及BN/Relu层构成，如图 4所示。其中stride表示步长，$Xa$表示第1个阶段，$Xb$表示第2个阶段，$Xc$表示第3个阶段，深度可分离残差模块中的每一个卷积层都被替换为深度可分离卷积结构。

图 4 基于多通道融合卷积神经网络的脑部MR图像分割模型

Fig. 4 Brain MR image segmentation model based on multi-channel fusion convolutional neural network

除深度可分离卷积的前两层卷积核大小设置为1×1×1外，其他卷积层之间的卷积核大小均设置为3×3×3。由于通道合并要求合并的特征图的大小相同，所以在通道合并之前本文采用最大池化的方法把尺寸较大的特征图降采样至与较小特征图尺寸一致。

2 实验

2.1 数据集和预处理

为了验证本文方法对深层脑结构分割效果，使用IBSR(http://www.cma.mgh.harvard.edu/ibsr/)、Hammers67n20(http://brain-development.org/brain-atlases/)、LPBA40(http://resource.loni.usc.edu/resources/atlases-downloads/)这3种数据集进行验证。

本文对3种深层脑结构进行了分割，包括海马体、壳核和尾状核，如图 5所示，每种脑结构分为左右两个部分，分别位于大脑的左右半球。

图 5 IBSR中的3种脑结构(以第14组为例)

Fig. 5 Three structures in IBSR dataset(the fouteenth subject)

((a)3D structure; (b)2D structure)

选取包含待分割脑结构的感兴趣区域(该区域的体积一般为待分割脑结构5~7倍)的所有像素点作为训练集。现有的普通卷积神经网络方法对3维脑结构进行分割时，常会出现边缘分割模糊的情况。针对这一问题，在训练集中增加了脑结构和脑结构边缘像素点的比例(以右海马体为例)如图 6所示。提取每个海马体的2维轴状图，并框选能够包含海马体的最小矩形框，将矩形框内所有的像素点增加至训练集，以达到增加了脑结构和脑结构边缘像素点比例的目的。

图 6 制作海马体数据集

Fig. 6 Constructing a hippocampus data set

以海马体为例，对在训练集中增加脑结构及其边界像素点(感兴趣区域)权重对分割精度的影响进行分析。图 7(以IBSR数据集的海马体为例)为不同输入情况下随着迭代次数的递增，测试集准确率的变化曲线，黄色曲线表示未使用本文方法的分割结果，绿色曲线表示在训练集中仅仅增加脑结构像素点权重的分割结果，红色曲线表示在训练集中同时增加边缘像素点和脑结构像素点权重的分割结果。

图 7 不同训练集分割海马体精度

Fig. 7 Accuracy of different train data on Hippocampus

从图 7中可以看出，尽管本文方法相对于原始的训练集，放入网络的训练数据增加，可这并没有影响网络的收敛速度，同时由于在训练集中增加了感兴趣的像素点样本的比例。网络在训练时就相对获得了更多的脑结构及其边缘的特征，也就相应提升了分割脑结构的准确率。此外，由于脑结构分割的错误主要产生在边缘部分，由于同时增加边缘和结构像素点权重的训练集包含了更多边缘的样本，更能强制使网络学习分割脑结构的边缘，所以精度最高。

使用Dice值和IOU值来综合评价本文算法分割MR脑部图像的性能。Dice和IOU定义为

$D=\frac{2 T P}{2 T P+F P+F N} $

(3)

$ I=\frac{T P}{T P+F P+F N} $

(4)

式中，$TP$表示预测为正例，实际也为正例; $FP$表示预测为正例，实际为负例; $FN$表示预测为负例，实际为正例。

图 8是经由不同训练集训练的海马体的Dice和IOU的折线图。从图 8可知同时增加边缘和结构像素点权重的训练集的表现最好，仅增加结构像素点的训练集在某些样本的表现要优于原始的训练集，但在某些样本上的表现也不如原始的训练集。这是因为仅考虑增加海马体像素点的思路虽然会减小将其他结构分为海马体的误分率，但同时作为代价，会出现过分割现象(将海马体分为其他结构)，综上，采取同时增加边缘和结构像素点权重的训练集，分割结果最好，平均Dice和IOU值也最高。

图 8 不同训练集对分割海马体的影响

Fig. 8 Impact of different train data on Hippocampus

2.2 多通道融合网络训练过程

实验采用Windows10系统，CPU为i7-6700K，GPU为1080Ti，内存为32 GB。代码实现软件为Python3.5，框架为tensorflow。

将训练集中的每一个像素点均扩展成15×15×15的图像块，该扩展图像块的标签和中心像素点的标签一致。每次批量化输入网络的图像块数量为128。正则化惩罚因子$\lambda=0.05$，初始化学习率$\alpha=0.0001$，因为训练好神经网络的权重一般都服从高斯分布，所以权重初始化选择截断高斯分布初始化的方法。

数据集均选取75%的样本作为训练集，25%的样本作为测试集。为了训练网络使用交叉熵函数作为损失函数，并使用Adam优化算法迭代求解。使用图 4所示的多通道融合神经网络对输入的训练集进行训练，训练的过程一共分为4个阶段，每个阶段输出的特征通道数分别为32，64，256，512，全连接层设置1 024个神经元。采用Softmax分类器进行分类，最后选取在迭代过程中，分割效果最优的网络模型作为最终的网络模型。

2.3 对比实验

为了验证本文方法的精确性和鲁棒性，将本文算法的结果同普通卷积神经网络模型和引入残差单元的神经网络模型，考虑局部全连接思想的神经网络模型分割MR脑部图像的结果进行对比。

1) 普通卷积神经网络模型。设置4个阶段，每个阶段包含一个卷积层和一个BN/Relu层普通的卷积神经网络无法做到设置很多层，因为随着层数的增加，会出现梯度消失的问题，网络的性能反而降低。

2) 引入残差块的神经网络模型(ResCNN)。残差块的引入主要是为了解决梯度消失的问题，同时可以增加网络的深度，进而得到更深层次的特征。将CNN结构的网络中每一个模块替换成卷积层和残差单元结合的形式，使得网络更深，同时每个阶段的特征信息也更丰富, 如图 9所示。

图 9 ResCNN网络结构

Fig. 9 Structure of ResCNN

ResCNN设置4个阶段，每个阶段由一个卷积层和一个残差模块以及BN/Relu层构成，每个残差模块都包含两个卷积层。

3) 引入局部全连接模块的神经网络模型(DenseCNN)。该模型是在ResCNN的基础上，增加每一个单元内部的卷积层的层数，将浅层的输出跳跃连接到之后的每一层，与深层输出相加作为下一层的输出，以达到单元内每一层的输入都会包含之前每一层的输出信息的效果。相比于残差模块，局部全连接模块的卷积层数更多，提取到的特征更多更细，但是缺点是参数量太过庞大, 如图 10所示。

图 10 DenseCNN网络结构

Fig. 10 Structure of DenseCNN

考虑局部全连接模块的网络模型设置4个阶段，每个阶段都由一个卷积层和一个局部全连接模块以及BN/Relu层组成，每个局部全连接模块都包含4个卷积层。

2.4 实验结果分析

使用IBSR数据集来验证本文方法的有效性，用于对比方法为CNN，ResCNN，DenseCNN。

表 1为各个网络模型的参数量。过多的参数会导致网络训练难度提升，本文MFSCNN方法由于包含了深度可分离卷积结构，其参数量仅为ResCNN的50%，DenseCNN的28%。MFSCNN方法在减少参数量的同时却没有减少网络的层数，在保证网络深度的同时，减少了网络训练的参数数量，降低了训练成本，因此减少了网络的训练时间。

表 1 网络模型参数量
Table 1 Number of network model parameters

下载CSV

/10⁶
	CNN	ResCNN	DenseCNN	MFSCNN
参数量	3	5.99	10.69	3.03

图 11为不同网络方法的loss曲线(以IBSR数据集的海马体为例)，本文MFSCNN方法的loss曲线大致收敛位置为A点，CNN方法的loss曲线收敛在C点，ResCNN方法的loss曲线收敛在B点。

图 11 不同方法分割海马体损失变化曲线

Fig. 11 Loss curve of different methods on Hippocampus

由于DenseCNN的方法参数比较多，收敛较慢，其收敛位置并没有出现在上图所示的迭代次数内。通过A, B, C 3点的位置可以得知，本文MFSCNN方法网络收敛最快。CNN方法虽然参数量少，但是网络结构简单很难提取到深层次的特征，所以训练要达到收敛就要比能够提取到深层次特征的MFSCNN和ResCNN方法慢。同时，对于ResCNN而言，虽然网络层数足够深，但是本文方法每个阶段的输入特征信息更丰富，学习特征的速度更快，也就能更快收敛。

表 2为在IBSR数据集上，不同方法的Dice值和IOU值的平均值。对于IBSR数据集，MFSCNN方法的Dice和IOU值分别较CNN方法提升0.9%~6.2%, 1.3%~9.4%，ResCNN虽在尾状核的分割准确率高于CNN，但是在壳核和海马分割效果上并未较CNN有明显提升。虽然增加了层数和参数量，缓解了网络的退化问题。但是此阶段深度的特征还无法区分所有的细节，此外，由于仅仅是局部的残差单元，即使能够准确分割CNN无法精细分割的部分，但还是忽略了一些直观的表征图像特征信息。

表 2 MFSCNN方法与其他方法分割结果比较
Table 2 MFSCNN method compared with other segmentation methods

下载CSV

	Dice				IOU
	CNN	ResCNN	DenseCNN	MFSCNN	CNN	ResCNN	DenseCNN	MFSCNN
左海马	0.825	0.827	0.831	0.834	0.702	0.705	0.711	0.715
右海马	0.817	0.827	0.813	0.827	0.691	0.685	0.684	0.705
左壳核	0.884	0.881	0.886	0.900	0.794	0.805	0.812	0.818
右壳核	0.889	0.887	0.900	0.901	0.802	0.798	0.817	0.817
左尾状核	0.848	0.853	0.861	0.890	0.738	0.744	0.756	0.800
右尾状核	0.824	0.843	0.827	0.890	0.705	0.731	0.708	0.802
平均	0.845	0.852	0.853	0.874	0.739	0.745	0.748	0.776
注：加粗数值为最优结果。

DenseCNN虽在右海马和右尾状核的分割准确率上不如ResCNN，但在其他脑结构分割准确率都高于ResCNN，因为DenseCNN的层数比ResCNN更多，参数更多，学习到的特征信息也更丰富，分割的准确率也有所提升，但过多的参数量增加了训练的难度，网络模型比普通的网络更难训练到最优。

图 12为不同模型的分割结果对比箱型图，通过箱型图可以看出MFSCNN比其他3种网络模型的分割效果更好，鲁棒性最强。由表 1可知，相比于ResCNN和DenseCNN，MFSCNN的网络参数量明显减少，但网络的深度却没有降低，在保证深层次特征及细节提取的基础上，降低了训练成本。

图 12 不同方法的分割结果对比箱型图

Fig. 12 Comparisons of segmentation results of different methods

图 13为IBSR数据集中3维MRI脑部图像中的第143层(壳核)，111层(尾状核)，130层(海马体)冠状图。

图 13 深层脑结构分割2维结果

Fig. 13 2D results of subcortical brain structures((a)gold standard; (b)CNN; (c)ResCNN; (d)DenseCNN; (e)ours)

从分割结果图中，可以看出CNN对于脑结构边缘的分割并不理想，且在左尾状核的分割中，脑结构内部也出现欠分割现象，对于边缘结构比较复杂的地方如壳核的头部，欠分割现象严重，对于边缘平滑的部分，如尾状核的侧边缘，欠分割现象严重。ResCNN相较于CNN在一定程度上缓解了欠分割的现象，但对于脑结构侧边平滑部分，甚至分割效果要弱于CNN。DenseCNN参数量大，特征信息量大、层次深，脑结构内部的分割效果相较于ResCNN，CNN要好，且头部边缘复杂的部分过分割和欠分割现象也都得以缓解，可对于脑结构侧边缘的分割效果依然不理想，这是因为，深层次特征虽然能有效地分割复杂边缘，但作为代价，它忽略了一些浅层次的表象特征，所以即使能够有效地分割脑结构地头部，但却增加了平滑侧边缘的误分率。MFSCNN由于融合了浅层次和深层次信息的特征，所以无论是对于结构复杂的头部的边缘，还是平滑的侧边缘结构，相对于CNN、ResCNN、DenseCNN分割准确率都更高，欠分割和过分割现象都有所缓解。

2.5 和现有主流方法对比

分别在Hammers67n20数据集，LPBA40数据集，IBSR数据集3种数据集进行对比实验。图 14为各个脑结构的3维分割结果。从图 14可知本文方法能够较好地分割不同数据集的海马体，壳核和尾状核，虽然对于包含复杂沟壑的部分(如IBSR数据集的海马体的沟壑部分)的分割准确率还有待提高，但是对于基本的轮廓结构，本文方法均能进行准确的分割，其边界平滑，分割结果连续，效果和金标准相似。

图 14 不同数据集脑结构分割结果

Fig. 14 Results of brain structure segmentation of different data sets((a) IBSR gold standard; (b) IBSR segmentation results; (c) Hammers67n20 gold standard; (d) Hammers67n20 segmentation results; (e) LPBA40 gold standard; (f) LPBA40 segmentation results)

1) Hammers数据集。MFSCNN分割脑结构(壳核，尾状核，海马)的平均Dice值为0.898，比近几年来在该数据集上的其他方法分割效果更好。对比方法有Nonlocal-PBM^[11]、Sparse-PBM^[12]、Wu提出的多尺度特征的图谱融合方法^[13]、Cardoso提出的相似性估计的方法^[14]、BrainSegNet方法^[15]。表 3为各方法的Dice值。本文方法的Dice均值，在各个脑结构都要高于其他5种方法，其中尾状核的分割结果与Brainsegnet方法接近，但海马体和壳核的分割效果都比Brainsegnet方法好。

表 3 Hammers67n20数据集上分割结果比较
Table 3 Comparison of segmentation results on Hammers67n20 dataset

下载CSV

	NonlocalPBM	SparsePBM	Wu	Cardoso	BrainSegNet	本文方法
海马	0.823	0.840	0.846	0.842	0.840	0.868
壳核	0.874	0.888	0.895	0.891	0.890	0.919
尾状核	0.885	0.889	0.892	0.892	0.900	0.906
平均	0.861	0.872	0.878	0.875	0.876	0.898
注：加粗数值为最优结果。

2) LPBA40数据集。MFSCNN分割脑结构(壳核，尾状核，海马)在LPBA40数据集上的平均Dice值为0.877，比在该数据集上的其他方法有更好的表现，对比的方法有Bao提出的基于随机游走的Atlas图像分割的特征敏感标签融合方法^[16]、Zhang提出的HLAF(hierarchical learning of atlas forests)方法^[17]、MS-CNN(multi-scale structured CNN)和MS-CNN+LC(multi-scale structured CNN with label consistency)的方法^[18]、Prasad提出的基于主成分图谱和非刚性配准的方法^[19]、和BrainSegNet的方法^[15]。表 4为各方法的Dice值。

表 4 LPBA40数据集上分割结果比较
Table 4 Comparison of segmentation results on LPBA40 dataset

下载CSV

	Bao	Zhang	MS-CNN	MS-CNN+LC	Prasad	BrainSegNet	本文方法
海马	0.849	0.810	0.827	0.839	0.828	0.830	0.885
壳核	0.858	0.817	0.850	0.860	0.842	0.840	0.858
尾状核	0.867	0.806	0.851	0.851	0.823	0.840	0.887
平均	0.858	0.811	0.843	0.850	0.831	0.837	0.877
注：加粗数值为最优结果。

本文方法在各个脑结构的Dice均值，都要高于其他5种方法。其中海马体的Dice值较其他方法提升3.6%以上，有着较为明显的提升。

3) IBSR数据集。MFSCNN分割脑结构(壳核，尾状核，海马)在IBSR数据集的平均Dice值为0.872。对比的方法有：MS-CNN^[18]、MS-CNN+LC(label consistency)^[18]、M-net^[10]、BrainSegNet、HLAF方法^[17]、随机游走的Atlas图像分割的特征敏感标签融合方法^[16]。

此外，本文方法也和常用的分割软件，如FIRST和FreeSurfer进行了比较。表 5为各方法的Dice值。

表 5 IBSR数据集上分割结果比较
Table 5 Comparison of segmentation results on IBSR dataset

下载CSV

	FIRST	FreeSurfer	MS-CNN	BrainSegNet	MS-CNN+LC	M-net	Bao	本文方法
海马	0.811	0.764	0.788	0.820	0.817	0.820	0.814	0.830
壳核	0.875	0.809	0.875	0.910	0.882	0.900	0.887	0.900
尾状核	0.827	0.803	0.849	0.870	0.870	0.870	0.849	0.890
平均	0.838	0.792	0.837	0.867	0.856	0.863	0.850	0.872
注：加粗数值为最优结果。

本文方法与常用的分割软件相比分割精度较高，在各个脑结构上都比MSCNN、HLAF和MS-CNN+LC、M-Net以及Bao提出的方法好，BrainSegNet方法在壳核的分割准确率要高于MFSCNN，但是本文方法在海马体和尾状核上的分割性能都要优于BrainSegNet方法，且平均Dice值为0.872，也要高于BrainSegNet方法。所以，MFSCNN方法相对于目前已有的一些主流的方法，分割准确率更高。

3 结论

提出的MFSCNN方法，通过增加训练集中感兴趣脑结构及其边缘像素点的权重，来形成对脑结构分割更友好的初始化训练集。为了更好地训练网络，将每个阶段的特征图都合并在一起，并进行通道混洗，得到同时包含深浅层次信息的增强信息特征。同时使用深度可分离卷积结构代替原始的卷积层，在不改变输入及输出通道个数的情况下极大地减少了参数量，提升了网络的训练速度。同时，融合后的信息，包含来自浅层的图像表征信息，也包含来深层的纹理信息，在解决了传统CNN对于脑结构复杂边缘的分割不准确问题的同时也改善了ResCNN和DenseCNN对于脑结构侧边缘分割不准确的情况，对IBSR、LPBA40、Hammer67n20这3个数据集上的海马体、壳核和尾状核进行分割，并和现有的主流方法的分割结果进行对比，实验结果表明，本文算法在壳核，海马体和尾状核的分割表现上，要优于现有的主流方法。和传统方法相比，MFSCNN方法省去了复杂的数据预处理的步骤，和一般深度学习方法相比，本文算法节省了训练时间。MR图像的区域对比度低，各个结构之间的灰度值都很相似，所以可通过本文提出的MFSCNN方法直接从MR图像中提取融合的信息，进一步应用于其他MR图像的分割。

虽然MFSCNN方法对于深层脑结构的分割取得了很好的结果，但是对于脑结构的沟壑不连续的部分，分割的准确率还有待提升，这主要是因为，这些部分边缘的像素点类别复杂、且不连续。所以，分析如何利用深度卷积网络提取能够分割复杂边缘轮廓的特征，也是今后需要研究的问题。

参考文献

[1] Geuze E, Vermetten E, Bremner J D. MR-based in vivo hippocampal volumetrics:2. Findings in neuropsychiatric disorders[J]. Molecular Psychiatry, 2005, 10(2): 160–184. [DOI:10.1038/sj.mp.4001579]

[2] Duan H Q, Shu X H, Xu J, et al. A novel computer aided Alzheimer's analysis approach based on regions of interests of PiB PET images[J]. Chinese Journal of Biomedical Engineering, 2016, 35(6): 641–647. [段火强, 舒星辉, 徐俊, 等. 基于PiB PET图像感兴趣区域的阿尔茨海默症计算机辅助分析[J]. 中国生物医学工程学报, 2016, 35(6): 641–647. ] [DOI:10.3969/j.issn.0258-8021.2016.06.001]

[3] Jiang X L, Zhou Z Z, Ding X K, et al. Level set based hippocampus segmentation in MR images with improved initialization using region growing[J]. Computational and Mathematical Methods in Medicine, 2017, 2017: #5256346.

[4] Tang S Y, Xing J F, Yang M. New method for medical image segmentation based on BP neural network[J]. Computer Science, 2017, 44(S1): 240–243. [唐思源, 邢俊凤, 杨敏. 基于BP神经网络的医学图像分割新方法[J]. 计算机科学, 2017, 44(S1): 240–243. ]

[5] Scherrer B, Forbes F, Garbay C, et al. Distributed local MRF models for tissue and structure brain segmentation[J]. IEEE Transactions on Medical Imaging, 2009, 28(8): 1278–1295. [DOI:10.1109/TMI.2009.2014459]

[6] Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation[C]//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer, 2015: 234-241.[DOI: 10.1007/978-3-319-24574-4_28]

[7] Yoo Y, Brosch T, Traboulsee A, et al. Deep learning of image features from unlabeled data for multiple sclerosis lesion segmentation[C]//Proceedings of the 5th International Workshop Machine Learning in Medical Imaging. Boston, MA, USA: Springer, 2014: 117-124.[DOI: 10.1007/978-3-319-10581-9_15]

[8] Brosch T, Tang L Y W, Yoo Y, et al. Deep 3D convolutional encoder networks with shortcuts for multiscale feature integration applied to multiple sclerosis lesion segmentation[J]. IEEE Transactions on Medical Imaging, 2016, 35(5): 1229–1239. [DOI:10.1109/TMI.2016.2528821]

[9] Mehta R, Majumdar A, Sivaswamy J. BrainSegNet:a convolutional neural network architecture for automated segmentation of human brain structures[J]. Journal of Medical Imaging, 2017, 4(2): 024003. [DOI:10.1117/1.JMI.4.2.024003]

[10] Mehta R, Sivaswamy J. M-net: a convolutional neural network for deep brain structure segmentation[C]//Proceedings of 2017 IEEE 14th International Symposium on Biomedical Imaging. Melbourne, VIC, Australia: IEEE, 2017.[DOI: 10.1109/ISBI.2017.7950555]

[11] Hammers A, Allom R, Koepp M J, et al. Three-dimensional maximum probability atlas of the human brain, with particular reference to the temporal lobe[J]. Human Brain Mapping, 2003, 19(4): 224–247. [DOI:10.1002/hbm.10123]

[12] Hammers A, Chen C H, Lemieux L, et al. Statistical neuroanatomy of the human inferior frontal gyrus and probabilistic atlas in a standard stereotaxic space[J]. Human Brain Mapping, 2007, 28(1): 34–48. [DOI:10.1002/hbm.20254]

[13] Wu G R, Shen D G. Hierarchical label fusion with multiscale feature representation and label-specific patch partition[C]//Proceedings of the 17th International Conference on Medical Image Computing and Computer-Assisted Intervention. Boston, MA, USA: Springer, 2014: 299-306.[DOI: 10.1007/978-3-319-10404-1_38]

[14] Cardoso M J, Leung K, Modat M, et al. STEPS:similarity and truth estimation for propagated segmentations and its application to hippocampal segmentation and brain parcelation[J]. Medical Image Analysis, 2013, 17(6): 671–684. [DOI:10.1016/j.media.2013.02.006]

[15] Mehta R, Majumdar A, Sivaswamy J. BrainSegNet:a convolutional neural network architecture for automated segmentation of human brain structures[J]. Journal of Medical Imaging, 2017, 4(2): 024003. [DOI:10.1117/1.JMI.4.2.024003]

[16] Bao S Q, Chung A C S. Feature sensitive label fusion with random walker for atlas-based image segmentation[J]. IEEE Transactions on Image Processing, 2017, 26(6): 2797–2810. [DOI:10.1109/TIP.2017.2691799]

[17] Zhang L C, Wang Q, Gao Y Z, et al. Automatic labeling of MR brain images by hierarchical learning of atlas forests[J]. Medical Physics, 2016, 43(3): 1175–1186. [DOI:10.1118/1.4941011]

[18] Bao S Q, Chung A C S. Multi-scale structured CNN with label consistency for brain MR image segmentation[J]. Computer Methods in Biomechanics and Biomedical Engineering:Imaging & Visualization, 2018, 6(1): 113–117. [DOI:10.1080/21681163.2016.1182072]

[19] Prasad G. Segmentation of 3D MR images of the brain using a PCA atlas and nonrigid registration[D]. Los Angeles: University of California, 2010.