Print

发布时间: 2021-09-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200657
2021 | Volume 26 | Number 9




    磁共振图像    




  <<上一篇 




  下一篇>> 





集成注意力增强和双重相似性引导的多模态脑部图像配准
expand article info 田梨梨, 程欣宇, 唐堃, 张健, 王丽会
1. 贵州省智能医学影像分析与精准诊断重点实验室, 贵阳 550025;
2. 贵州大学计算机科学与技术学院, 贵阳 550025

摘要

目的 医学图像配准是医学图像处理和分析的关键环节,由于多模态图像的灰度、纹理等信息具有较大差异,难以设计准确的指标来量化图像对的相似性,导致无监督多模态图像配准的精度较低。因此,本文提出一种集成注意力增强和双重相似性引导的无监督深度学习配准模型(ensemble attention-based and dual similarity guidance registration network,EADSG-RegNet),结合全局灰度相似性和局部特征相似性共同引导参数优化,以提高磁共振T2加权图像和T1加权模板图像配准的精度。方法 EADSG-RegNet模型包含特征提取、变形场估计和重采样器。设计级联编码器和解码器实现图像对的多尺度特征提取和变形场估计,在级联编码器中引入集成注意力增强模块(integrated attention augmentation module,IAAM),通过训练的方式学习提取特征的重要程度,筛选出对配准任务更有用的特征,使解码器更准确地估计变形场。为了能够准确估计全局和局部形变,使用全局的灰度相似性归一化互信息(normalized mutual information,NMI)和基于SSC(self-similarity context)描述符的局部特征相似性共同作为损失函数训练网络。在公开数据集和内部数据集上验证模型的有效性,采用Dice分数对配准结果在全局灰质和白质以及局部组织解剖结构上作定量分析。结果 实验结果表明,相比于传统配准方法和深度学习配准模型,本文方法在可视化结果和定量分析两方面均优于其他方法。对比传统方法ANTs(advanced normalization tools)、深度学习方法voxelMorph和ADMIR(affine and deformable medical image registration),在全局灰质区域,Dice分数分别提升了3.5%,1.9%和1.5%。在全局白质区域分别提升了3.4%,1.6%和1.3%。对于局部组织结构,Dice分数分别提升了5.2%,3.1%和1.9%。消融实验表明,IAAM模块和SSC损失分别使Dice分数提升1.2%和1.5%。结论 本文提出的集成注意力增强的无监督多模态医学图像配准网络,通过强化有用特征实现变形场的准确估计,进而实现图像中细小区域的准确配准,对比实验验证了本文模型的有效性和泛化能力。

关键词

多模态配准; 深度学习; 无监督学习; 集成注意力增强; 双重相似性

Multimodal brain image registration with integrated attention augmentation and dual similarity guidance
expand article info Tian Lili, Cheng Xinyu, Tang Kun, Zhang Jian, Wang Lihui
1. Key Laboratory of Intelligent Medical Image Analysis and Precise Diagnosis of Guizhou Province, Guiyang 550025, China;
2. School of Computer Science and Technology, Guizhou University, Guiyang 550025, China
Supported by: National Natural Science Foundations of China (61661010)

Abstract

Objective Medical image registration has been widely used on the aspect of clinical diagnosis, treatment, intraoperative navigation, disease prediction and radiotherapy planning. Non-learning registration algorithms have matured nowadays in common. Non-learning-based registration algorithms have optimized the deformation parameters iteratively to cause poor robustness because of the huge limitations in the computation speed. Various deep convolution neural networks (DCNNs) models have been running in medical image registration due to the powerful feature expression and learning. DCNNs-based image registration has been divided into supervised and unsupervised categories. The supervised-learning-based registration algorithms have intensive data requirements, which require locking the anatomical landmarks to identify the deformation areas, the performance of reliability of the landmarks has been greatly relied on even the supervised-learning based registration algorithm plays well. Real label information still cannot be acquired. Scholars have focused on unsupervised image registration to complete the defects of supervised image registration. To assess the deformation parameters of the image pair directly via appropriate optimization goals and deformation area constraints. It is difficult to design accurate metric to quantify the similarity of image pairs because the low multimodal images (MI)-based demonstration accuracy in the context of the quite differences amongst content, grayscale, texture and others. Unsupervised registration has been opted in appropriate image similarity to optimize targets involving mean square error, correlation coefficient and normalized mutual information. Most of these similarity assessments have been based on global gray scale. The local deformation still cannot be assessed accurately via good quality e registration structure. An integrated ensemble attention-based augmentation and dual similarity guidance registration network(EADSG-RegNet) has upgraded the registration accuracy of T2-weighted magnetic resonance image and T1-weighted magnetic resonance template image. Method EADSG-RegNet network has been designated to assess the deformation area between the moving and fixed image pairs. The feature extraction, deformation field estimation and resampler have been illustrated in the network mentioned above. A cascade encoder and encoder have been designed to realize the multi-scale feature extraction and deformation area assessment based on U-Net structure modification. An integrated attention augmentation module (IAAM) in the cascade encoder to improve feature extraction capabilities have been demonstrated to improve the accuracy of registration. In a word, the extracted features have been learned to decode the deformation area accurately. Integrated attention augmentation module has been applied to generate the weights of feature channels of the global average feature via global average pooling of the input feature map. The global feature channels (the number of channels is $n$) are shuffled firstly for twice obtain 3×$n$ channels have been calculated in total. Each shuffled global channel feature block has been deducted in dimension via a 1×1×1 convolution. Next, the concatenated features have been mapped to 1×1×1×$n$ weighting coefficients via weighting coefficient to multiply the original feature maps for bottleneck to generate the attention features. The global and local deformation can be accurately assessed in the network training stage. The applications of global gray-scale similarity normalized mutual information (NMI) and the local feature similarity based on the self-similarity context (SSC) descriptor as the loss function to guide the training of the network. The smoothness of the deformation area has been maintained and a regularization has been added to the loss function. Internal dataset and public dataset have been added to verify the performance and generalizability of the model. All T2 weighted magnetic resonance images have been preprocessed firstly and a given T1 template has been pre-aligned. The effectiveness of the network in terms of visualization results and quantitative analysis results have been analyzed. Dice score has been used to analyze the registration results quantitatively. The registration results have been assessed in the global gray matter, white matter and local organizational structures respectively. Result To assess the performance of the registration model, the symmetric image normalization method(SyN) implemented in advanced normalization tolls(ANTs) software package, the deep learning registration models voxelMorph framework and affine and deformable medical image registration(ADMIR), which are the state-of-the-art algorithms in traditional and deep learning-based registration methods. This research has analyzed the registration results quantitatively via the overall structure and several local anatomical structures. The gray matter and white matter have been automatically segmented using FMRIB Software Library(FSL). Nine small anatomical structures have been segmented manually using ITK-Snap. Compared with the ANTs, voxelMorph and ADMIR, the average Dice score on gray matter increased by 3.5%, 1.9%, 1.5%. The average Dice score on white matter increased by 3.4%, 1.6%, 1.3%. For the nine anatomical structures, the average Dice score of the proposed model has been increased by 5.2%, 3.1%, 1.9%. In addition, the registration speed has been improved by dozens of times compared with the traditional ANTs algorithm. The impact of the attention module and feature-based similarity loss on the registration results have been further illustrated. This research have done the ablation experiments of IAAM and SSC-based loss further. The results have demonstrated that the IAAM and the SSC-based loss can increase the Dice score in 1.2% and 1.5% respectively. The registration models have been illustrated to get consistent results with the clinical research via analyzing the volume difference in some brain regions between control groups and drug addicts. Conclusion The unsupervised multimodal medical image registration network with integrated attention augmentation module has been illustrated to achieve accurate estimation of the deformation area based on augmented features and accurate registration.

Key words

multimodal registration; deep learning; unsupervised learning; integrated attention augmentation; dual similarity

0 引言

医学图像配准是图像融合和图像分割等医学图像处理的基础,目的是寻找一组最优的空间变换,使得多幅图像的解剖结构达到空间一致。配准的准确程度严重影响后续的定量分析。因此,研究快速准确的医学图像配准算法具有重要意义。

随着深度学习在计算机视觉等领域的快速发展,基于深度学习的配准算法层出不穷,卷积神经网络(convolutional neural network,CNN)在医学图像配准中发挥了重要作用。早期的深度学习配准方法主要用深度学习提取参考图像和浮动图像的特征(Wu等,2013), 或学习图像对的相似性度量(Simonovsky等,2016), 将学习得到的特征、相似性指标嵌入到传统配准框架中,以显著提升配准的效果。这类方法打破人工设计先验知识的局限,有效提升配准的性能,但仍然保留了传统配准的迭代特点,没有从本质上解决由于迭代优化而导致的配准速度慢的问题。因此,越来越多的研究开始侧重于使用卷积神经网络(convolutional neural network,ConvNet)直接估计变形参数(Eppenhof和Pluim,2019Fan等,2019)。Miao等人(2016)使用ConvNet学习刚体变换参数,与基于灰度的方法相比,在配准准确度与实时性上具有明显优势。Sentker等人(2018)训练ConvNet直接估计图像对的位移矢量场(displacement vector field,DVF),实现4D胸部CT(computed tomography)图像的配准,与传统的配准方法达到了同等精度,配准速度提升了60倍。Yan等人(2018)提出对抗图像配准框架(adversarial image registration,AIR),借鉴生成对抗网络(generative adversarial networks,GAN)的思想实现3D磁共振图像(magnetic resonance imaging,MRI)和超声(transrectal ultrasound,TRUS)图像对的刚体配准,生成器估计图像对的变形参数,判别器识别真实的变形图像和预测的变形图像,通过对抗监管策略训练网络。ConvNet也用来估计薄板样条插值模型的参数(Cao等,2017Eppenhof等,2018)。这类方法具有良好的配准性能,但要求网络的训练数据带有标签,通常需要利用传统的配准方法获取变形参数,或采用随机变形参数合成的方法构造有监督训练数据,其性能很大程度上取决于标签的可靠性。

鉴于有监督图像配准的缺陷,不少学者致力于无监督配准模型的研究。空间变换网络(spatial transformer network,STN)(Jaderberg等,2015)出现后,涌现了大量基于STN的图像配准模型。de Vos等人(2017)提出无监督可变形图像配准模型(deformable image registration network, DIRNet),首先使用ConvNet回归器建立2D控制点,再使用3次B样条作为空间转换器输出图像对的DVF,最后通过重采样器实现浮动图像的变形,配准性能优于Elastix,但对于大形变区域,配准效果不佳。随后,de Vos等人(2019)提出无监督深度学习图像配准框架,通过堆叠多个ConvNet实现由粗到精的医学图像配准。即分别处理浮动图像和参考图像,得到相同大小的特征图后,合并在一起作为网络输入,生成后续配准任务的DVF,配准效果比Elastix更好。Tang等人(2020)提出无监督端到端的脑部MRI图像配准框架ADMIR(affine and deformable medical image registration),包含仿射配准和非线性配准两部分。当参考图像和浮动图像大小不一致时,通常需要进行预配准,ADMIR能完成端到端的配准,可以有效节省配准时间,但不能适应任意尺寸大小的图像,在使用该模型进行配准时,图像尺寸需要与模型训练集的尺寸一致。Balakrishnan等人(2018, 2019)基于U-Net网络框架(Ronneberger等,2015)构建了voxelMorph模型,实现了脑部磁共振图像的非线性配准,在Dice分数上优于SyN (symmetric image normalization)算法。Dalca等人(2019a)在voxelMorph的基础上构建概率模型实现配准任务中微分同胚变形,提出从图像数据中自动学习模板的方法。voxelMorph虽然能够准确估计图像对的密集矢量场,但对于心脏CT数据性能较差(Zhao,2019)。Zhao等人(2020)以voxelMorph作为基础网络,提出递归级联配准网络,在测试阶段可通过权值共享减少网络参数量,提高配准速度,但在递归过程中难以保持变形场的平滑。

这类基于深度无监督变形参数估计的算法无需标签数据,降低了对数据的要求。但存在以下问题:1)无监督配准需要选取合适的图像相似性度量作为优化目标,如MSE(mean square error)、CC(correlation coefficient)、NMI(normalized mutual information)等(Fu等,2020)。这些相似性度量大多基于全局的灰度度量,在整体结构的配准表现良好,而很难对局部形变进行准确估计(Heinrich,2012)。2)多模态医学图像的灰度、纹理信息有较大不同,基于深度卷积提取图像特征后,很难从差异较大的特征中选取合适的特征量化参考图像与浮动图像的相似性。

为了解决上述问题,本文设计了一种集成注意力增强和双重相似性引导的无监督多模态医学图像配准网络模型(ensemble attention-based and dual similarity guidance registration network, EADSG-RegNet),通过级联不同卷积尺寸的编码器有效提取浮动图像与参考图像的多尺度图像特征,利用shuffle操作引入集成注意力增强模块(integrated attention augmentation module, IAAM),找到有利于量化相似性度量的特征,最后结合全局灰度相似性和局部特征相似性损失优化网络模型。

1 方法

定义3D参考图像$\boldsymbol{F}$和浮动图像$\boldsymbol{M}$,图像配准的目的是寻找一组最优的变形参数,使得$\boldsymbol{F}$和变形后$\boldsymbol{M}$的相似性达到最大。本文构建一个深度卷积模型,直接估计$\boldsymbol{F}$$\boldsymbol{M}$之间的变形场,即

$ \varphi=f_{\theta}(\boldsymbol{F}, \boldsymbol{M}) $ (1)

式中,$f$表示深度学习网络要学习的映射函数,$θ$为网络参数,$φ$为需要求解的变形场。通过最大化相似性度量训练网络,学习最优的网络参数$\hat{\theta}$,其图像配准过程可表示为

$ \hat{\theta}=\arg \min \limits_{\theta}(S(\boldsymbol{F}, \boldsymbol{M} \circ \varphi)+R(\varphi)) $ (2)

式中,$S$表示相似性度量,$R$是为了得到平滑变形场添加的正则项,$\circ$代表非线性变形操作。需要注意的是,本文直接优化的是网络参数$θ$,而不是变形场$φ$,即变形场$φ$由已知的输入图像对和网络参数$θ$通过非线性变换求解。整体配准框架包含特征提取、变形场估计和图像重采样3部分,如图 1所示。首先,将参考图像和浮动图像合并为双通道输入到深度卷积网络;然后,提取特征、融合特征获取图像对的变形场;最后,基于变形场利用三线性插值对浮动图像做空间变换,得出最后的配准结果。将配准结果及参考图像的全局灰度相似性度量和局部特征相似性度量作为网络的损失函数共同引导网络参数的优化。该框架同时融合了基于特征匹配和基于灰度匹配两种方法的思想,并且同时考虑全局和局部相似性,因此可以获得更好的配准结果。

图 1 多模态医学图像配准框架图
Fig. 1 The frame of multimodal medical image registration

1.1 网络结构

根据上述配准的3个部分,本文以U-Net为基线模型,设计了EADSG-RegNet网络模型结构,如图 2(a)所示。在特征提取阶段,采用3种不同尺寸的级联卷积层降低特征图的维度,卷积核的大小分别为3×3×3、5×5×5和7×7×7,较小卷积核用于捕获局部信息,较大卷积核提取全局信息。通过多尺度的卷积操作,可以提取丰富的语义特征。在每个卷积层后引入集成注意力增强模块IAAM,如图 2(b)所示。输入通道为$C$、批次大小为$B$的特征图$\boldsymbol{x}$,经过全局平均池化后得到全局平均特征。然后通过shuffle操作,对不同通道的平均特征进行两次顺序打乱,并利用1×1×1卷积分别降低每组平均特征的通道数,随后将其合并,此时特征集成了几种组合获得的综合表示。最后利用集成特征,通过1×1×1卷积以及非线性激活函数运算,可获得原始特征图每个通道的权重系数,将其与原始特征图相乘,即可进行特征重定,得到输出特征图$\bar{\boldsymbol{x}}$。IAAM模块可以提高有利于配准的特征,抑制对配准相似性度量影响不大的特征,进而可提高配准的精度。

图 2 EADSG-RegNet配准网络模型图
Fig. 2 Architecture of EADSG-RegNet network
((a) EADSG-RegNet network; (b) IAAM)

解码器包含卷积层和上采样层。将提取的多尺度加权特征相加融合,作为解码器的输入。使用上采样层将特征图复原到与原始输入相同的尺寸。为了提高网络的非线性表达能力,在上采样之前添加步长为1的卷积操作。同时,使用跳跃连接将相同层级联编码器输出的浅层特征与解码器的深层特征融合。深层语义特征与浅层不同尺度的语义特征融合可以提升后续变形场估计的准确性。最后,通过3层卷积层估计图像对的变形场,即位移$d_{x}, d_{y}, d_{z}$

网络中除了IAAM模块,所有卷积层后均使用LeakyReLU激活函数。除特征提取阶段外,其他过程中的卷积核大小均为3×3×3,其核的个数除了最后一层卷积层之外,在保证GPU(graphics processing unit)存储器容量足够的情况下可以任意设置。本文每层卷积层设置的通道数如图 2(a)中的数字表示。由于最后一层作为变形场的输出层,其通道数取决于输入图像的维数,本文研究3维图像配准,因此最后一层核的个数设为3。输出的是图像中每个体素在$x$$y$$z$这3个方向的位移。在IAAM模块中,使用平均池化压缩特征图,卷积层使用1×1×1的核来放缩特征通道,中间卷积层后使用ReLU激活函数,最后一层卷积之后使用Sigmoid激活函数将权重映射到[0, 1]范围。

1.2 损失函数

1.2.1 归一化互信息

采用归一化互信息(normalized mutual information,NMI)作为灰度相似性引导图像对的全局变形估计。对给定的两幅图像$\boldsymbol{F}$$\boldsymbol{M}_{W}$,NMI定义为

$ N M I\left(\boldsymbol{F}, \boldsymbol{M}_{W}\right)=\frac{H(\boldsymbol{F})+H\left(\boldsymbol{M}_{W}\right)}{H\left(\boldsymbol{F}, \boldsymbol{M}_{W}\right)} $ (3)

式中,$H(\boldsymbol{F})$$H\left(\boldsymbol{M}_{W}\right)$$H\left(\boldsymbol{F}, \boldsymbol{M}_{W}\right)$分别表示图像的熵以及图像对的联合熵,表达式为

$ H(\boldsymbol{F})=-\sum\limits_{f} P_{F}(f) \log P_{F}(f) $ (4)

$ H\left(\boldsymbol{M}_{W}\right)=-\sum\limits_{m_{w}} P_{M_{W}}\left(m_{w}\right) \log P_{M_{W}}\left(m_{w}\right) $ (5)

$ H\left(\boldsymbol{F}, \boldsymbol{M}_{W}\right)=-\sum\limits_{f, m_{w}} P_{F, M_{W}}\left(f, m_{w}\right) \log P_{F, M_{W}}\left(f, m_{w}\right) $ (6)

式中,$P_{F}(f)$表示图像$\boldsymbol{F}$中像素灰度值为$f$的个数除以总的像素个数。$P_{\boldsymbol{M}_{W}}\left(m_{w}\right)$表示图像$\boldsymbol{M}_{W}$中像素灰度值为$m_{w}$的个数除以总的像素个数。$P_{F, \boldsymbol{M}_{W}}\left(f, m_{w}\right)$表示在图像$\boldsymbol{F}$中像素灰度值为$f$且在图像$\boldsymbol{M}_{W}$中像素灰度值为$m_{w}$的个数与总像素的比值。通过计算图像的概率密度和图像对的联合概率密度来求解NMI。常用的直方图估计法求得的概率密度是离散的,并不能在深度学习框架中进行优化。因此本文使用核密度估计法来获取连续的概率密度函数。

假设3维图像$\boldsymbol{X}$的尺寸为$H \times W \times S$,图像体素值为$x_{i j k}$, 其中$i=1, 2, 3, \cdots, H ; j=1, 2, 3, \cdots, W ;$ $k=1, 2, 3, \cdots, S$,则图像的概率密度函数定义为

$ p(x)=\frac{1}{n h} \sum\limits_{i}^{H} \sum\limits_{j}^{W} \sum\limits_{k}^{S} K\left(\frac{x_{i j k}-x}{h}\right) $ (7)

式中,$n$指代总体素个数,$h$表示箱宽,$K(·)$是核函数。本文采用的核函数(Xu,2008)为

$ \begin{array}{c} K(x)= & \\ {\left\{\begin{array}{ll} -1.8|x|^{2}-0.1|x|+1 & 0 \leqslant|x|<0.5 \\ -1.8|x|^{2}-3.7|x|+1.9 & 0.5 \leqslant|x| \leqslant 1 \\ 0 & \text { 其他 } \end{array}\right.} \end{array} $ (8)

NMI越接近于1,表明图像对的相似性越高,因此损失函数设为

$ L_{\text {NMI }}\left(\boldsymbol{F}, \boldsymbol{M}_{{W}}\right)=-\operatorname{NMI}\left(\boldsymbol{F}, \boldsymbol{M}_{{W}}\right) $ (9)

互信息统计整个图像对的灰度分布,是一个全局度量,能够引导图像对在全局上对齐,而对于局部细节的估计较困难。

1.2.2 上下文自相似性

除了使用灰度的全局相似性NMI损失,本文引入基于特征的局部相似性损失,即上下文自相似特征(self-similarity context,SSC)损失。SSC独立于图像灰度分布,能很好地表示局部结构特征,因此SSC损失可以提高局部细节的配准效果。SSC的计算如图 3所示。对于图像$\boldsymbol{I}$中任意一点,蓝色方块是以点$c$为中心,大小为$p \times p \times p$的图像块,灰色方块是相距中心图块为$r$的6邻域块,则$c$点的自相似特征SSC可由成对图像块之间(橙色连线)的高斯核距离来表示。共有12个成对图像块,因此SSC是一个12维的向量。

图 3 SSC邻域结构图
Fig. 3 Diagram of SSC neighborhood structure diagram

假设图 3中对于任意连线上的两个图像块的中心点为$x_{i}$$x_{j}$,其中$i$=0, 1, 2, …, 5, $j$=0, 1, 2, …, 5, 其高斯核距离可表示为

$ \begin{gathered} d_{\text {Gauss }}\left(\boldsymbol{I}, x_{i}, x_{j}\right)=\exp \left(-\frac{D_{p}\left(\boldsymbol{I}, x_{i}, x_{j}\right)}{\sigma^{2}}\right) \\ j>i \text { 且 } j \neq(i+3) / 6 \end{gathered} $ (10)

式中,$D_{p}\left(\boldsymbol{I}, x_{i}, x_{j}\right)$为以$x_{i}$$x_{j}$为中心的图像块$\boldsymbol{I}_{p}\left(x_{i}\right)$$\boldsymbol{I}_{p}\left(x_{j}\right)$之间的均方欧氏距离之和,$\sigma^{2}$为所有成对图像块均方欧氏距离的均值。具体为

$ D_{p}\left(\boldsymbol{I}, x_{i}, x_{j}\right)=\sum\left(\boldsymbol{I}_{p}\left(x_{i}\right)-\boldsymbol{I}_{p}\left(x_{j}\right)\right)^{2} $ (11)

$ \begin{gathered} \sigma^{2}=\frac{1}{12} \sum\limits_{j=1}^{6} \sum\limits_{i=1}^{6} D_{p}\left(\boldsymbol{I}, x_{i}, x_{j}\right) \\ j>i \text { 且 } j \neq(i+3) / 6 \end{gathered} $ (12)

则SSC的定义为

$ \begin{aligned} &S S C=\left\{d_{\text {Gauss }}\left(\boldsymbol{I}, x_{i}, x_{j}\right)\right\} \\ &\ \ \ \ j>i \text { 且 } j \neq(i+3) / 6 \end{aligned} $ (13)

提取一对图像$\boldsymbol{F}$$\boldsymbol{M}_{W}$的SSC描述符后,即图像中每个像素具有一个12维的特征向量,为了构建基于SSC的图像配准损失函数,使用SSC的平均绝对误差(mean absolute error,MAE)作为SSC损失$L_{\mathrm{ssc}}$,具体为

$ \begin{gathered} L_{\mathrm{ssc}}\left(\boldsymbol{F}, \boldsymbol{M}_{{W}}\right)= \\ \frac{1}{|N|} \sum\left|{SSC}\left(\boldsymbol{F}, x_{i}, x_{j}\right)-{SSC}\left(\boldsymbol{M}_{{W}}, x_{i}, x_{j}\right)\right| \\ j>i \text { 且 } j \neq(i+3) / 6 \end{gathered} $ (14)

在图像配准中,要保持局部形变的平滑性,进而在损失函数中添加额外的正则项$R(\varphi)$来约束变形场$φ$,其定义为

$ R(\varphi)=\sum\limits_{d \in \varOmega}\|\nabla \varphi(d)\|^{2} $ (15)

式中,$d$表示3维图像在$x, y, z$这3个方向上的位移$d_{x}, d_{y}$$d_{z}$,通过对图像在3个方向上位移的梯度进行约束来确保平滑变形,因此,模型的总损失$L_{\text {total }}$

$ L_{\text {total }}=L_{\text {NMI }}\left(\boldsymbol{F}, \boldsymbol{M}_{{W}}\right)+L_{\mathrm{SSC}}\left(\boldsymbol{F}, \boldsymbol{M}_{W}\right)+\lambda R(\varphi) $ (16)

式中,$\lambda$为正则系数。

2 实验设置以及评价标准

2.1 数据描述

本文研究基于模板的3D图像配准,采用的模板图像为来自MNI(Montreal Neurological Institute)152的T1加权图像,分辨率为1 mm×1 mm×1 mm。为了验证所提方法的性能,采用公开数据集HCP(human connectome project)(van Essen等,2012)和内部采集的数据集共675幅T2加权脑部图像,其中HCP数据集和内部采集数据分别包含644幅和31幅脑部T2加权图像。内部数据集自贵州省人民医院采集,分为两组,一组为12个健康人的T2加权图像,另一组为19个吸毒人员的T2加权图像。采集参数为重复采集时间2.5 ms, 回波时间73.135 ms, 翻转角度90°,图像分辨率为1 mm×1 mm,切片厚度为1 mm,切片数为168,采集时间约3 min。

将数据集分为训练集和测试集,分别包括610幅和65幅图像。训练集用于网络模型训练,测试集用于验证模型性能和泛化能力。训练模型之前,使用FSL(FMRIB Software Library)软件(Smith等,2001)对图像做标准的预处理,即使用Bet算法去除颅骨,再利用仿射变换将所有T2加权图像线性配准到T1加权图像模板上,最后将T2加权图像和T1模板图像做最大—最小归一化,将图像的灰度值压缩到[0, 1]范围。为了节省计算资源,将所有图像裁剪到192 mm×160 mm×160 mm大小。

2.2 训练过程

本文采用Keras开源深度学习库构建网络模型,并使用NVIDIA Tesla V100 GPU进行加速。

在训练网络之前,预处理训练数据,定义损失函数,分别设置训练的总轮数epoch = 800、每轮的迭代次数iteration = 200、批次数(batchsize)$b$ = 1以及正则系数$\lambda$=1,使用He等人(2015)初始化方法对网络参数进行初始化。训练时,打乱数据集,随机选取$b$个数据作为浮动图像,将参考图像和浮动图像合并为双通道作为网络输入,网络最后输出图像对的变形场。使用Adam优化器(Kingma和Ba,2014)优化网络参数,迭代训练160 000次,设置恒定的学习率为0.000 1,每50轮迭代保存一次网络参数,总训练时间约为25 h。

在测试阶段,任意选取预处理好的图像与参考图像一起输入到已训练好的网络模型中,通过一次前向传播,输出图像对的变形场,图像变形之后使用重采样器,得到最终的配准结果。

2.3 评价标准

采用Dice分数定量评价不同方法的配准效果。Dice分数表示两个结构之间的重叠程度,取值范围为0~1,Dice分数越高,表示配准效果越好。用$\boldsymbol{M}_{W}^{*}$$\boldsymbol{F}^{*}$表示配准结果和参考图像中对应的解剖结构,Dice分数的定义为

$ {Dice}\left(\boldsymbol{M}_{W}^{*}, \boldsymbol{F}^{*}\right)=\frac{2\left|\boldsymbol{M}_{W}^{*} \cap \boldsymbol{F}^{*}\right|}{\left|\boldsymbol{M}_{W}^{*}+\boldsymbol{F}^{*}\right|} $ (17)

本文从整体和局部两方面对配准结果进行评估,如图 4所示,采用FSL软件自动分割出脑部灰质(gray matter,GM)和白质(white matter,WM),并利用ITK-Snap软件(Yushkevich等,2006)手动分割出9个局部解剖结构,利用这些区域的配准结果定量评价配准性能。

图 4 模板图像整体和局部区域分割示例
Fig. 4 Illustration of global and local zone segmentation results of the template image

3 实验结果及分析

为了评估EADSG-RegNet模型的性能,与传统方法中内嵌在ANTs(advanced normalization tools)(Avants等,2009)软件包中的SyN算法及前沿的3D无监督医学图像配准框架voxelMorph和ADMIR等深度学习方法进行实验对比。与ANTs对比时,优化目标函数选为MI(mutual information),其他参数默认。与voxelMorph和ADMIR框架对比时,由于二者都是针对单模态图像配准,因此仅使用原文献的网络结构,优化目标均使用本文的NMI和基于SSC的损失。

3.1 可视化及定量结果分析

在测试集上验证本文模型的性能,不同方法的可视化结果如图 5所示。图 5(a)(b)分别为参考图像和浮动图像,图 5(c)(f)分别是4种配准方法对应的配准结果,橙色椭圆为本文方法明显改善的部分解剖区域。从图 5可以看出,ANTs和voxelMorph两种方法在整体大脑结构上有较好的配准效果,但是对于局部组织结构的配准效果较差。ADMIR与ANTs和voxelMorph相比,性能有一定提升。本文方法在几种配准方法中达到了最好的可视化配准效果。

图 5 不同方法在测试集上的配准结果
Fig. 5 Registration results of different methods on the test dataset
((a) fixed images; (b) moving images; (c) ANTs; (d) voxelMorph; (e) ADMIR; (f) EADSG-RegNet)

为了进一步验证EADSG-RegNet的有效性,分别从整体和局部对配准结果进行定量分析,不同方法在脑中较大区域(GM、WM)上的平均Dice分数如表 1所示。可以看出,本文方法的性能优于其他方法。在GM上较其他3种方法分别提升了3.5%、1.9%和1.5%,在WM上较其他3种方法分别提升了3.4%、1.6%和1.3%。

表 1 测试集上GM和WM的平均Dice分数
Table 1 Mean Dice score with GM and WM obtained on two datasets

下载CSV
方法 脑部结构
GM WM
ANTs 0.718 0.746
voxelMorph 0.736 0.759
ADMIR 0.739 0.762
EADSG-RegNet 0.749 0.772
注:加粗字体表示各列最优结果。

由于GM和WM两个区域较大,仅可以用来做整体配准效果的评价。配准模型在局部微小区域的配准效果需要在细小解剖结构上评估。不同方法在图 4中9个解剖结构的平均Dice分数以及分别在GPU和CPU上的平均配准时间对比如表 2所示。可以看出,本文方法得到了最佳的平均Dice分数,较其他3种方法分别提升了5.2%、3.1%和1.9%。从配准时间上看,本文方法的平均配准速度比传统配准方法快了近20倍,且略快于ADMIR。对比voxelMorph中使用的基础U-Net模型,本文方法在编码器中加入了IAAM模块和级联了不同尺度卷积核,因此需要更多的时间完成计算。

表 2 不同方法在测试集上的定量分析
Table 2 Quantitative comparison of different methods on the test dataset

下载CSV
方法 平均Dice GPU/s CPU/s
ANTs 0.769 - 148.41
voxelMorph 0.786 0.47 7.75
ADMIR 0.794 0.63 10.96
EADSG-RegNet 0.809 0.51 8.21
注:加粗字体表示各列最优结果,“-”表示无结果数据。

测试集上9个局部解剖结构的Dice分数箱线图如图 6所示。从整体上分析,传统方法ANTs和ADMIR的箱图在多个结构上没有上下界,即有较多的异常值,说明算法容易受数据的影响,鲁棒性较差。本文模型对比其他几种方法,数值范围较集中,波动范围较小,说明模型性能更加稳定。

图 6 测试集上9个解剖结构的Dice分数箱线图
Fig. 6 Boxplots of Dice score of nine anatomical structures on the test dataset

3.2 消融实验

为了验证所提算法各组成部分对配准效果的影响,进行了3组消融实验。Base+LNMI表示去除IAAM模块和SSC损失的基线网络模型,Base+LNMI+IAAM表示去除SSC损失的网络模型,Base+LNMI+LSSC表示去除IAAM模块的网络模型,可视化结果如图 7所示。图 7(a)(b)分别为参考图像和浮动图像。图 7(c)(f)分别为基线模型、SSC损失消融、IAAM模块消融和本文算法的配准结果,橙色椭圆表示与其他3组实验相比,本文方法明显提升的区域。图 7(c)(d)(e)(f)是两组IAAM模块消融前后的对比结果,可以看出在添加IAAM模块前后,模型对图像结构的配准效果并无太大差异,但在使用IAAM模块之后,模型配准结果中的边缘和纹理更清晰。这是由于引入IAAM模块之后,模型对图像重要细节的表达更加完备,网络可以更容易注意到边缘变化。

图 7 消融实验可视化结果
Fig. 7 Visualization results of ablation experiments
((a) fixed images; (b) moving images; (c) Base+LNMI; (d) Base+LNMI+ IAAM; (e) Base+LNMI+LSSC; (f) EADSG-RegNet)

图 7(c)(e)(d)(f)是SSC特征相似性损失的消融前后对比。可以看出,引入特征相似性损失之后,图像灰度的影响更小,模型更容易注意到结构化的图像特征,在可视化结果中体现为大结构的异常灰度消失,而边缘纹理更丰富。主要原因是SSC衡量的是图像块邻域之间的关系,在机器视觉领域,邻域特征往往意味着带有方向的纹理信息,这些丰富的纹理信息可以用来表达相关的图像局部结构和形状。使用特征描述符对图像进行表示后再计算损失可以将原始图像投影到特征空间,进而在特征空间进行更精准的相似性度量,以放大不同图像之间的形状和结构差异。

消融实验定量分析结果如表 3所示。可以看出,在基线模型Base+LNMI的基础上单独引入IAAM模块和SSC损失,Dice分数分别提升了1.5%和1.2%,在同时引入IAAM模块和SSC损失后,Dice分数提升了2.1%。由此说明,IAAM和SSC损失能在一定程度上提升配准效果,且两者共同作用的效果更好。测试集上3组消融实验中9个解剖结构在测试集上的Dice分数箱线图如图 8所示。

表 3 消融实验定量分析
Table 3 Quantitative analysis of ablation experiments

下载CSV
方法 平均Dice
Base+LNMI 0.792
Base+LNMI + LSSC 0.802
Base+LNMI+ IAAM 0.804
EADSG-RegNet 0.809
注:加粗字体表示最优结果。
图 8 消融实验中9个解剖结构的Dice分数箱线图
Fig. 8 Boxplots of Dice score of 9 anatomical structures of ablation experiments

3.3 临床应用对比结果

研究表明,长期吸毒会改变大脑结构,具体表现为灰质体积缩小(Liu等,2009Connolly等,2013Battistella等,2014)。因此,本文将内部数据集配准后图像灰质体积的改变作为一种临床评价指标。由于配准会改变脑区形状,进而改变灰质体积。如果配准结果较好,配准后正常人与吸毒人员的灰质体积变化趋势应与临床发现一致。本文分析内部采集的10个吸毒大脑和10个正常大脑的灰质配准结果。其中吸毒受试者的年龄段在41~55岁,吸毒年限为12~22年。分别统计不同方法中两组数据的灰质体积,结果如表 4表 5所示。可以看出,EADSG-RegNet中吸毒组的平均灰质体积低于正常组,其他方法均是吸毒组高于正常组。EADSG-RegNet的结果与已有临床研究一致,表明本文的配准算法可以保证后续临床分析的可靠性。

表 4 不同方法的吸毒人员大脑的灰质体积
Table 4 Gray matter volume of drug-using brain of different methods

下载CSV
方法 10个吸毒人员的大脑
1 2 3 4 5 6 7 8 9 10 平均
ANTs 339 318 342 400 363 501 364 178 365 495 381 297 412 188 414 525 416 421 417 546 381 686.9
voxelMorph 336 044 337 466 372 360 373 274 387 625 409 383 371 938 438 044 444 860 445 761 391 675.5
ADMIR 359 004 353 270 371 934 436 166 383 072 353 176 385 808 389 930 407 082 387 819 382 726.1
EADSG-RegNet 366 212 360 262 371 201 371 120 373 384 371 546 409 388 396 427 360 788 402 693 378 302.1

表 5 不同方法的正常人大脑的灰质体积
Table 5 Gray matter volume of normal brain of different methods

下载CSV
方法 10个正常人的大脑
1 2 3 4 5 6 7 8 9 10 平均
ANTs 315 375 334 551 350 874 354 982 357 614 367 488 387 628 393 912 400 840 412 734 367 599.8
voxelMorph 345 733 415 500 313 134 348 089 418 376 355 004 360 462 427 333 394 103 397 844 377 557.8
ADMIR 344 585 417 781 318 806 325 702 427 441 355 685 365 545 408 321 381 803 406 291 375 196.0
EADSG-RegNet 358 302 414 695 342 555 369 906 423 691 343 552 374 171 409 856 411 097 412 674 386 049.9

4 结论

本文提出一种基于集成注意力增强和双重相似性引导的多模态医学图像配准框架EADSG-RegNet。首先,通过级联卷积神经网络编码器提取不同尺度的图像特征。同时,为了提高多模态医学图像配准的精度,通过shuffle操作设计了集成注意力模块IAAM,以增强有利于变形场估计的多模态影像特征。然后,将低级多尺度语义特征与高级语义特征融合,经过解码器获得变形场参数。最后,经过重采样得到配准结果。在网络优化过程中,同时使用全局灰度相似性损失和局部特征相似性损失,提高局部形变估计的准确性。实验结果表明,本文方法能有效提升多模态医学图像的配准精度。

本文算法在多模态结构图像和结构图像的配准上表现良好,但仍存在一些不足。首先,对结构图像和功能图像的配准效果欠佳,后续工作将针对功能图像的特点改进网络模型,使该框架能用于不同类型的数据。其次,在配准之前需要使用外部工具包进行方向对齐,导致额外的时间成本,在后续工作中,将致力于端到端的无监督医学图像配准的研究。

参考文献

  • Avants B B, Tustison N, Song G. 2009. Advanced normalization tools (ANTS). Insight Journal, 2(365): 1-35
  • Balakrishnan G, Zhao A, Sabuncu M R, Dalca A V and Guttag J. 2018. An unsupervised learning model for deformable medical image registration//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 9252-9260[DOI: 10.1109/CVPR.2018.00964]
  • Balakrishnan G, Zhao A, Sabuncu M R, Guttag J, Dalca A V. 2019. VoxelMorph: a learning framework for deformable medical image registration. IEEE Transactions on Medical Imaging, 38(8): 1788-1800 [DOI:10.1109/TMI.2019.2897538]
  • Battistella G, Fornari E, Annoni J M, Chtioui H, Dao K, Fabritius M, Favrat B, Mall J F, Maeder P, Giroud C. 2014. Long-term effects of cannabis on brain structure. Neuropsychopharmacology, 39(9): 2041-2048 [DOI:10.1038/npp.2014.67]
  • Cao X H, Yang J H, Zhang J, Nie D, Kim M, Wang Q and Shen D G. 2017. Deformable image registration based on similarity-steered CNN regression//Proceedings of the 20th International Conference on Medical Image Computing and Computer Assisted Intervention. Quebec City, Canada: Springer: 300-308[DOI: 10.1007/978-3-319-66182-7_35]
  • Connolly C G, Bell R P, Foxe J J, Garavan H. 2013. Dissociated grey matter changes with prolonged addiction and extended abstinence in cocaine users. PLoS One, 8(3): #e59645 [DOI:10.1371/journal.pone.0059645]
  • Dalca A V, Balakrishnan G, Guttag J, Sabuncu M R. 2019a. Unsupervised learning of probabilistic diffeomorphic registration for images and surfaces. Medical Image Analysis, 57: 226-236 [DOI:10.1016/j.media.2019.07.006]
  • de Vos B D, Berendsen F F, Viergever M A, Sokooti H, Staring M, Išgum I. 2019. A deep learning framework for unsupervised affine and deformable image registration. Medical Image Analysis, 52: 128-143 [DOI:10.1016/j.media.2018.11.010]
  • de Vos B D, Berendsen F F, Viergever M A, Staring M and Išgum I. 2017. End-to-end unsupervised deformable image registration with a convolutional neural network//Proceedings of the 3rd International Workshop on Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support. Québec City, Canada: Springer: 204-212[DOI: 10.1007/978-3-319-67558-9_24]
  • Eppenhof K A J, Lafarge M W, Moeskops P, Veta M and Pluim J P W. 2018. Deformable image registration using convolutional neural networks//Proceedings of SPIE 10574, Medical Imaging 2018: Image Processing. Houston, USA: SPIE: #105740S[DOI: 10.1117/12.2292443]
  • Eppenhof K A J, Pluim J P W. 2019. Pulmonary CT registration through supervised learning with convolutional neural networks. IEEE Transactions on Medical Imaging, 38(5): 1097-1105 [DOI:10.1109/TMI.2018.2878316]
  • Fan J F, Cao X H, Yap P T, Shen D G. 2019. BIRNet: brain image registration using dual-supervised fully convolutional networks. Medical Image Analysis, 54: 193-206 [DOI:10.1016/j.media.2019.03.006]
  • Fu Y B, Lei Y, Wang T H, Curran W J, Liu T, Yang X F. 2020. Deep learning in medical image registration: a review. Physics in Medicine and Biology, 65(20): #20TR01 [DOI:10.1088/1361-6560/ab843e]
  • He K M, Zhang X Y, Ren S Q and Sun J. 2015. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 1026-1034[DOI: 10.1109/ICCV.2015.123]
  • Heinrich M P, Jenkinson M, Bhushan M, Matin T, Gleeson F V, Brady S M, Schnabel J A. 2012. MIND: modality independent neighbourhood descriptor for multi-modal deformable registration. Medical Image Analysis, 16(7): 1423-1435 [DOI:10.1016/j.media.2012.05.008]
  • Jaderberg M, Simonyan K and Zisserman A. 2015. Spatial transformer networks[EB/OL]. [2020-02-08]. https://arxiv.org/pdf/1506.02025.pdf
  • Kingma D P and Ba J. 2014. Adam: a method for stochastic optimization[EB/OL]. [2020-05-02]. https://arxiv.org/pdf/1412.6980.pdf
  • Liu H H, Hao Y H, Kaneko Y, Ouyang X, Zhang Y, Xu L, Xue Z M, Liu Z N. 2009. Frontal and cingulate gray matter volume reduction in heroin dependence: optimized voxel-based morphometry. Psychiatry and Clinical Neurosciences, 63(4): 563-568 [DOI:10.1111/j.1440-1819.2009.01989.x]
  • Miao S, Wang Z J, Liao R. 2016. A CNN regression approach for real-time 2D/3D registration. IEEE Transactions on Medical Imaging, 35(5): 1352-1363 [DOI:10.1109/TMI.2016.2521800]
  • Ronneberger O, Fischer P and Brox T. 2015, October. U-Net: convolutional networks for biomedical image segmentation//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer: 234-241[DOI: 10.1007/978-3-319-24574-4_28]
  • Sentker T, Madesta F and Werner R. 2018. GDL-FIRE4D: deep learning-based fast 4D CT image registration//Proceedings of the 21st International Conference on Medical Image Computing and Computer Assisted Intervention. Granada, Spain: Springer: 765-773[DOI: 10.1007/978-3-030-00928-1_86]
  • Simonovsky M, Gutiérrez-Becker B, Mateus D, Navab N and Komodakis N. 2016. A deep metric for multimodal registration//Proceedings of the 19th International Conference on Medical Image Computing and Computer-Assisted Intervention. Athens, Greece: Springer: 10-18[DOI: 10.1007/978-3-319-46726-9_2]
  • Smith S, Bannister P R, Beckmann C, Brady M, Clare S, Flitney D, Hansen P, Jenkinson M, Leibovici D, Ripley B, Woolrich M, Hang Y Y. 2001. FSL: new tools for functional and structural brain image analysis. NeuroImage, 13(6): #249 [DOI:10.1016/S1053-8119(01)91592-7]
  • Tang K, Li Z, Tian L L, Wang L H, Zhu Y M. 2020. ADMIR-affine and deformable medical image registration for drug-addicted brain images. IEEE Access, 8: 70960-70968 [DOI:10.1109/ACCESS.2020.2986829]
  • van Essen D C, Ugurbil K, Auerbach E, Barch D, Behrens T E J, Bucholz R, Chang A, Chen L, Corbetta M, Curtiss S W, Della Penna S, Feinberg D, Glasser M F, Harel N, Heath A C, Larson-Prior L, Marcus D, Michalareas G, Moeller S, Oostenveld R, Petersen S E, Prior F, Schlaggar B L, Smith S M, Snyder A Z, Xu J, Yacoub E, Consortium W M H. 2012. The human connectome project: a data acquisition perspective. Neuroimage, 62(4): 2222-2231 [DOI:10.1016/j.neuroimage.2012.02.018]
  • Wu G R, Kim M, Wang Q, Gao Y Z, Liao S and Shen D G. 2013. Unsupervised deep feature learning for deformable registration of MR brain images//Proceedings of the 16th International Conference on Medical Image Computing and Computer-Assisted Intervention. Nagoya, Japan: Springer: 649-656[DOI: 10.1007/978-3-642-40763-5_80]
  • Xu R, Chen Y W, Tang S Y, Morikawa S, Kurumi Y. 2008. Parzen-window based normalized mutual information for medical image registration. IEICE Transactions on Information and Systems, E91. D(1): 132-144 [DOI:10.1093/ietisy/e91-d.1.132]
  • Yan P K, Xu S, Rastinehad A R and Wood B J. 2018. Adversarial image registration with application for MR and TRUS image fusion//Proceedings of the 9th International Workshop on Machine Learning in Medical Imaging. Granada, Spain: Springer: 197-204[DOI: 10.1007/978-3-030-00919-9_23]
  • Yushkevich P A, Piven J, Hazlett H C, Smith R G, Ho S, Gee J C, Gerig G. 2006. User-guided 3D active contour segmentation of anatomical structures: significantly improved efficiency and reliability. Neuroimage, 31(3): 1116-1128 [DOI:10.1016/j.neuroimage.2006.01.015]
  • Zhao S Y, Dong Y, Chang E and Xu Y. 2019. Recursive cascaded networks for unsupervised medical image registration//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea (South): IEEE: 10599-10609[DOI: 10.1109/ICCV.2019.01070]
  • Zhao S Y, Lau T, Luo J, Chang E I C, Xu Y. 2020. Unsupervised 3D end-to-end medical image registration with volume tweening network. IEEE Journal of Biomedical and Health Informatics, 24(5): 1394-1404 [DOI:10.1109/JBHI.2019.2951024]